Rafael, Bustamante Romaní N° 21 Diciembre de 2019 Serie Apuntes de Clase ΩΒΓ UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMÉRICA FACULTAD DE CIENCIAS ECONÓMICAS https://financebusinessbet.wixsite.com/financebusiness https://twitter.com/FinanzasEmpresa rafaelbustamante.weebly.com
38
Embed
Serie Apuntes de Clase ΩΒΓ Diciembre de 2019 N° 21
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 1
Rafael, Bustamante Romaní
N° 21
Diciembre de 2019 Serie Apuntes de Clase ΩΒΓ
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMÉRICA
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 2
La Serie Apuntes de Clase Omega Beta Gamma tiene por objetivo difundir los materiales de enseñanza generados por los docentes que tienen a su cargo el desarrollo de las asignaturas que forman parte de los Planes de Estudios de las Escuelas Académico-Profesionales de la Facultad de Ciencias Económicas de la Universidad Nacional Mayor de San Marcos. Estos documentos buscan proporcionar a los estudiantes la explicación de algunos temas específicos que son abordados en su formación universitaria.
Facultad de Ciencias Económicas. Universidad Nacional Mayor de San Marcos.
Calle Germán Amézaga N° 375. Ciudad Universitaria, Lima 1. Perú.
La Serie Apuntes de Clase ΩΒΓ es promovida y
desarrollada por un colectivo de docentes del Departamento de Economía de la Universidad Nacional Mayor de San Marcos. El contenido de cada publicación es íntegramente responsabilidad de cada autor, no representa necesariamente los puntos de vista de los integrantes del colectivo, ni de la Universidad.
http://www.financeybusiness.com
Financeybusinness S.A.C. Es una firma especializada en
la prestación de servicios profesionales en capacitación y de
consultoría en el diseño e implementación de estrategias
empresariales ante los problemas financieros, de gestión y
riesgos a los que se enfrentan las empresas en su normal
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 3
INTRODUCIÓN AL R Y AL R- STUDIO
.
Rafael Bustamante Romaní
Resumen
R es un programa es ampliamente conocido como un lenguaje de programación y un
entorno para análisis estadístico y la realización de gráficos de gran calidad.
Contiene un entorno de computación viable para la implementación y la aplicación
de métodos numéricos de manera sencilla y efectiva. Aunque R permite varios
estilos de programación, en la medida de lo posible, se usa un estilo orientado a la
"programación de arreglos" (llamado "vectorización"). Como R es interpretado, se
incluye una sección mínima sobre cómo acelerar R usando "vectorización", o usando
el paquete Rcpp para conectar R con C++ y también paralelización.
El objetivo de este apunte de clase es proporcionar las nociones básicas para personas
interesadas en comenzar a utilizar el paquete econométrico R. Poniendo énfasis en
el funcionamiento de R, con el objeto de que se pueda usar de una manera básica.
Dado que R ofrece una amplia gama de posibilidades, es útil para el principiante
adquirir algunas nociones y conceptos y así progresar gradualmente.
Se busca, asimismo simplificar las explicaciones al máximo para hacerlas lo más
comprensivas posibles, pero al mismo tiempo proporcionando detalles útiles,
algunas veces con la ayuda de tablas.
Palabras claves: Método numéricos, lenguaje R, álgebra lineal, ecuaciones no
lineales, integración, ecuaciones diferenciales
Clasificación JEL: C00, C02.
Estudios de Doctorado en Economía, Universidad Autónoma de México. Maestría en Economía con mención
en Finanzas, MBA Centrum Pontificia Universidad Católica del Perú. B. Sc. Economía, Universidad Nacional Mayor de San Marcos. Profesor del Departamento de Economía de UNMSM. Investigador asociado al Instituto de Investigaciones FCE – UNMSM. Investiga. Contacto: [email protected] .
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 11
Finalmente accedemos a la siguiente pantalla donde podemos escoger la plataforma
de donde bajar instalador o si quiero bajarme todo el paquete con todo el conjunto de
archivos para tenerlo de una manera portable.
Figura Nº 7
Figura Nº 4
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 12
RStudio, por defecto, tiene cuatro paneles. El panel inferior izquierdo es una consola
de R. En ella se puede escribir y ejecutar código. R muestra también en ella los
resultados obtenidos.
El panel superior izquierdo es un editor de código. Los ficheros que se abran y se
editen aparecerán en él dentro de sus correspondientes pestañas. Es imperativo
aprender a usar algunos de los atajos de teclado más comunes. Por ejemplo, Control
+ R ejecuta la línea de código en la que se sitúa el cursor.
Los paneles de la derecha son menos importantes. El superior contiene un listado de
las variables en el entorno y un histórico de comandos ejecutados. El inferior contiene
varias pestañas; las que más se usan son:
Files: da acceso al sistema de ficheros del disco duro
Plots: aloja los gráficos que cree R
Help: muestra la página de ayuda de las funciones cuando la solicite el
usuario
Packages: Descarga e instalación de paquetes
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 13
2. Ventajas y desventajas de R (R Studio)
Entre las ventajas podemos mencionar:
Es software libre y por tanto su coste es nulo y el número de paquetes, lo que
ha crecido en el último año a la nada despreciable velocidad de
aproximadamente 2 paquetes diarios.
Es multiplataforma: existen versiones para Linux, Mac y Windows. Los
procedimientos y análisis desarrollados en una plataforma son
inmediatamente ejecutables en otra.
Implementa una enorme cantidad de métodos estadísticos, desde los más
clásicos a los más modernos. Los métodos se organizan en librerías cuyo
número se encuentra en constante crecimiento.
Dispone de una enorme capacidad para combinar, de manera simple, métodos
de análisis estándar (regresión, análisis de cluster, análisis de series
temporales) con análisis desarrollados ad hoc para una situación específica.
Capacidad para acceder a datos en múltiples formatos. Dispone de librerías
para leer datos desde SPSS, SAS, Access, MySQL, Excel,... Asimismo permite
también la generación de informes de resultados en diversos formatos.
Enorme capacidad para manipular y /o modificar datos y funciones.
Generación de gráficos de alta calidad.
Existencia de una comunidad de usuarios muy activa, en la que participan
estadísticos de renombre.
Amplia disponibilidad de documentación, tanto en internet como en libros
publicados por editoriales de prestigio (Springer, Wiley).
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 14
Facilidad de integración con actividades de formación en técnicas y métodos
estadísticos en todos los ámbitos del conocimiento. Su uso es cada vez más
generalizado en las universidades, lo que implica que las nuevas generaciones
de profesionales ya salen al mercado laboral con formación específica en el
manejo de este programa.
En particular, su uso en la docencia tiene la ventaja de que no es necesario que
el estudiante adquiera licencias para su uso, por lo que cualquier alumno
puede instalar R en su ordenador personal y desarrollar tareas, trabajos, etc.
utilizando este programa. Asimismo, una vez que el estudiante se gradúe y
abandone la universidad, podrá seguir utilizando R en cualquier ámbito
profesional o de desarrollo.
Existencia de extensiones específicas para nuevas áreas como bioinformática,
geo estadística, modelos gráficos o análisis de mercados financieros3.
Entre las desventajas podemos mencionar:
Suele señalarse como principal desventaja de R el hecho de que el paquete
base no dispone de una interfaz amigable para el usuario; no existe un menú
principal en el que el usuario pueda acceder mediante el ratón a submenús
para la lectura de datos, la ejecución de procedimientos estadísticos o la
generación de gráficos. Estas tareas se llevan a cabo mediante un lenguaje de
comandos que puede resultar duro de aprender para el usuario común. No
obstante se han desarrollado algunas GUIs (Graphical User Interfaces) que
facilitan enormemente esta tarea. En particular la interfaz R-Commander
desarrollada por John M. Fox en la McMaster University de Canadá presenta
un menú para el acceso a los comandos más habituales que, además, muestra 3 La editorial Springer tiene una colección –UseR!– dedicada exclusivamente a R.
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 15
el código que emplea R de forma que permite al usuario familiarizarse con el
lenguaje.
El código R es interpretado, no compilado, por lo que algún algoritmo puede
resultar de ejecución lenta, en particular si se realizan tareas de simulación
intensiva. Esto no constituye mayor problema para un uso ordinario del
programa. En cualquier caso, a partir de la versión 2.14, todas las funciones y
librerías de R se encuentran precompiladas, lo que acelera su ejecución de
manera notable.
No dispone de un sistema de base de datos propio, aunque sí cuenta con un
formato para el almacenamiento e intercambio de datos. En cualquier caso se
han desarrollado paquetes para conectar y acceder a múltiples sistemas de
bases de datos (las propias de SAS o SPSS, Access, dBase, Excel, MySQL, etc ).
Tiene algunas limitaciones en cuanto al uso de la memoria, que dificultan el
análisis de bases de datos masivas4. No obstante estas limitaciones han ido
desapareciendo a medida que se han ido desarrollando ordenadores con
mayor capacidad (procesadores de 64 bits, más disponibilidad de memoria y
de direccionamiento de la misma). En cualquier caso, salvo que el usuario
deba acceder a millones de registros simultáneamente, es difícil que llegue a
notar problemas con la memoria.
No dispone de un sistema de base de datos propio, aunque sí cuenta con un
formato para el almacenamiento e intercambio de datos. En cualquier caso se
han desarrollado paquetes para conectar y acceder a múltiples sistemas de
4 Ello se debe a que todos los datos con los que se trabaja deben permanecer simultáneamente en memoria. No obstante es
posible derivar parte de la carga de trabajo del procesamiento de datos al propio motor de la base de datos que se utiliza,
mediante comandos SQL.
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 16
bases de datos (las propias de SAS o SPSS, Access, dBase, Excel, MySQL, . . . ).
Tiene algunas limitaciones en cuanto al uso de la memoria, que dificultan el
análisis de bases de datos masivas5. No obstante estas limitaciones han ido
desapareciendo a medida que se han ido desarrollando ordenadores con
mayor capacidad (procesadores de 64 bits, más disponibilidad de memoria y
de direccionamiento de la misma). En cualquier caso, salvo que el usuario
deba acceder a millones de registros simultáneamente, es difícil que llegue a
notar problemas con la memoria.
En algún caso las nuevas librerías que se incorporan a R pueden tener errores
o fallos de implementación. Estos fallos, no obstante, suelen ser detectados por
los usuarios, informados a los desarrolladores de las librerías y corregidos en
tiempo récord. Debe señalarse, no obstante, que ningún programa (incluso los
comerciales) está exento de fallos y el proceso de revisión y corrección de
fallos en programas comerciales mediante parches o actualizaciones suele ser
notablemente más lento. Ello se debe a que todos los datos con los que se
trabaja deben permanecer simultáneamente en memoria. No obstante es
posible derivar parte de la carga de trabajo del procesamiento de datos al
propio motor de la base de datos que se utiliza, mediante comandos SQL.
A todos los puntos anteriores podemos añadir el siguiente, que será
considerado por unos una ventaja y por otros un inconveniente:
Para hacer un buen uso de R se debe tener un buen conocimiento de los
métodos estadísticos. En realidad esta afirmación es cierta no sólo para R, sino
para cualquier paquete estadístico. Sin embargo en la práctica programas
como SPSS, Statistica o SYSTAT permiten, a través de sus menús, que el
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 17
usuario pueda aplicar casi cualquier procedimiento estadístico –sea o no
adecuado para sus datos o su problema– sin apenas esfuerzo y obtenga
páginas de resultados que muchas veces es incapaz de interpretar. R es
bastante más atento en sus salidas de resultados y, cuando se han de aplicar
modelos de cierta complejidad, la mayoría de las veces el usuario se verá
obligado a especificar exactamente qué es lo que quiere hacer, lo que implica
buen nivel de conocimiento de los problemas abordados.
R posee muchas funciones para análisis estadísticos y gráficos; estos últimos
pueden ser visualizados de manera inmediata en su propia ventana y ser
guardados en varios formatos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los
formatos disponibles dependen del sistema operativo).
Los resultados de análisis estadísticos se muestran en la pantalla, y algunos
resultados intermedios (como valores P-, coeficientes de regresión, residuales,. . .) se
pueden guardar, exportar a un archivo, o ser utilizados en análisis posteriores. El
lenguaje R permite al usuario, por ejemplo, programar bucles (’loops’ en inglés) para
analizar conjuntos sucesivos de datos. También es posible combinar en un solo
programa diferentes funciones estadísticas para realizar análisis más complejos.
Usuarios de R tienen a su disponibilidad un gran número de programas escritos para
S y disponibles en la red;5 la mayoría de estos pueden ser utilizados directamente con
R.
Al principio, R puede parecer demasiado complejo para el usuario principiante. Esto
no es necesariamente cierto, porque una de las características más sobresalientes de R
es su enorme flexibilidad.
5 Por ejemplo: http://stat.cmu.edu/S/
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 18
Mientras que programas más clásicos muestran directamente los resultados de un
análisis, R guarda estos resultados como un “objeto”, de tal manera que se puede
hacer un análisis sin necesidad de mostrar su resultado inmediatamente. Esto puede
ser un poco extraño para el usuario, pero esta característica suele ser muy útil. De
hecho, el usuario puede extraer solo aquella parte de los resultados que le interesa.
Por ejemplo, si uno corre una serie de 20 regresiones y quiere comparar los
coeficientes de regresión, R le puede mostrar únicamente los coeficientes estimados:
de esta manera los resultados se pueden resumir en una sola línea, mientras que un
programa clásico le puede abrir 20 ventanas de resultados. Más adelante, veremos
otros ejemplos que ilustran y comparan la flexibilidad de R con programas de
estadística más tradicionales ( Paradis, 2010).
3. R como un sistema de ventanas
La forma más conveniente de usar R es en una estación de trabajo con un sistema de
ventanas. Estas notas están escritas pensando en usuarios de estas características. En
particular nos referiremos ocasionalmente a la utilización de R en un sistema X-
Windows, aunque normalmente se pueden aplicar a cualquier implementación del
entorno R.
3.1 Utilización interactiva de R
Cuando R espera la entrada de órdenes, presenta un símbolo para indicarlo. El
símbolo predeterminado es ‘>’, que en UNIX puede coincidir con el símbolo del
sistema, por lo que puede parecer que no sucede nada. Si ese es el caso es posible
modificar este símbolo en R.
Serie Apuntes de Clase ΩΒΓ / Finance &Business N°21. Diciembre del 2019. FCE / UNMSM
Introducción al R y al R- Studio Bustamante Romaní, Rafael. 19
3.2 Programas relacionados. Documentación
R puede definirse como una nueva implementación del lenguaje S desarrollado en
AT&T por Rick Becker, John Chambers y Allan Wilks. Muchos de los libros y
manuales sobre S son ´utiles para R. La referencia básica es The New S Language: A
Programming Environment for Data Analysis and Graphics de Richard A. Becker,
John M. Chambers and Allan R. Wilks. Las características de la versión de agosto de
1991 de S están recogidas en Statistical Models in S editado por John M. Chambers y
Trevor J.
4 Estadística con R
En la introducción a R no se ha mencionado la palabra estadística, sin embargo
muchas personas utilizan R como un sistema estadístico. Nosotros preferimos
describirlo como un entorno en el que se han implementado muchas técnicas
estadísticas, tanto clásicas como modernas. Algunas están incluidas en el entorno
base de R y otras se acompañan en forma de bibliotecas (packages). El hecho de
distinguir entre ambos conceptos es fundamentalmente una cuestión hist´orica. Junto
con R se incluyen ocho bibliotecas (llamadas bibliotecas est´andar) pero otras muchas
est´an disponibles a través de Internet en CRAN (http://www.r-project.org).
Como hemos indicado, muchas técnicas estadísticas, desde las clásicas hasta la
última metodología, están disponibles en R, pero los usuarios necesitarán estar
dispuestos a trabajar un poco para poder encontrarlas.
Existe una diferencia fundamental en la filosofía que subyace en R (o S) y la de otros
sistemas estadísticos. En R, un análisis estadístico se realiza en una serie de pasos,
con unos resultados intermedios que se van almacenando en objetos, para ser
observados o analizados posteriormente, produciendo unas salidas mínimas.