Estad´ ıstica Aplicada I (ESMA3101) Prof. Pedro A. Torres Saavedra February 24, 2014 Lecci´on 6-7: Organizando Datos Cuantitativos En esta lecci´on vamos a utilizar la misma base de datos del estudio observacional sobre dieta con n =315 individuos (ver notas de la Lecci´on 5). El primer paso es importar la base de datos a R usando RStudio. Esta base de datos ha sido compartida en formato .csv en una direcci´ on de internet (recuerde que puede importar la base de datos munualmente usando la opci´ on Tools->Import Dataset). # Lee la base de datos install.packages("RCurl", repos="http://cran.us.r-project.org") library(RCurl) tt = getForm("https://docs.google.com/spreadsheet/pub", hl ="en_US", key = "0AhpzM-gDQ-UcdHB2TnVwakd4ZHJQVU4yMDdoWDdVWEE", output = "csv", .opts = list(followlocation = TRUE, verbose = TRUE, ssl.verifypeer = FALSE)) dieta <- read.csv(textConnection(tt)) View(dieta) attach(dieta) Distribuciones de Frecuencias e Histogramas Una distribuci´on de frecuencias es una lista que muestra los valores de la variable en forma individual o en intervalos con las respectivas frecuencias (n´ umero de individuos en cada valor o intervalo de valores). Distribuciones de Frecuencias No Agrupadas El primer tipo de distribuciones de frecuencias se conoce como no agrupadas ya que los valores originales de la variable son listados con su respectiva frecuencia. Vamos a estudiar la distribuci´on del n´ umero de bebidas alcoh´ olicas consumidas por semana (variable ALCOHOL) para los individuos en el estudio. Ejemplo § 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Estadıstica Aplicada I (ESMA3101)Prof. Pedro A. Torres Saavedra
February 24, 2014
Leccion 6-7: Organizando Datos Cuantitativos
En esta leccion vamos a utilizar la misma base de datos del estudio observacional sobre dietacon n = 315 individuos (ver notas de la Leccion 5).
El primer paso es importar la base de datos a R usando RStudio. Esta base de datos hasido compartida en formato .csv en una direccion de internet (recuerde que puede importarla base de datos munualmente usando la opcion Tools->Import Dataset).
Una distribucion de frecuencias es una lista que muestra los valores de la variable en formaindividual o en intervalos con las respectivas frecuencias (numero de individuos en cada valoro intervalo de valores).
Distribuciones de Frecuencias No Agrupadas
El primer tipo de distribuciones de frecuencias se conoce como no agrupadas ya que losvalores originales de la variable son listados con su respectiva frecuencia.
Vamos a estudiar la distribucion del numero de bebidas alcoholicas consumidas porsemana (variable ALCOHOL) para los individuos en el estudio.
Ejemplo
§
1
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
# Construye una tabla de distribucion de frecuencias
• La columna Frecuencia contiene el numero de individuos que toma un numero dadode bebidas alcoholicas a la semana. Por lo tanto, la Frecuencia siempre es un numeroentre 0 y el total de datos (n = 315). Por ejemplo, hay 161 individuos que no consumenbebidas alcoholicas a la semana.
• La columna Frec.Acumulada contiene el numero de individuos que toma un numerodado o menos de bebidas alcoholicas a la semana. Note que la ultima Frecuencia
Acumulada es igual al total de datos (n = 315). Por ejemplo, 239 individuos tomantres o menos bebidas alcoholicas a la semana.
• La columna Frec.Relativa contiene la proporcion de individuos que toma un numerodado de bebidas alcoholicas a la semana. Es decir, es la division entre Frecuencia y eltotal de individuos (n = 315). La Frecuencia Relativa siempre es un numero entre0 y 1. Recuerde que para pasar una proporcion a porciento debemos multiplicar por
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
100 (Ejemplo: 0.05 es el 5%). Por ejemplo, el 51.1% de los individuos no consumenbebidas alcoholicas.
• La columna Frec.Rel.Acumulada contiene la proporcion de de individuos que toma unnumero dado o menos de bebidas alcoholicas a la semana. Es decir, es la division entreFrecuencia Acumulada y el total de estudiantes (n = 315). La ultima Frecuencia
Relativa Acumulada es igual a 1. Ejemplo: 79.05% de los individuos consumen 4 omenos bebidas alcoholicas a la semana.
¿Que mas podemos concluir con base en los resultados de la tabla de dis-tribucion de frecuencias?
Note que en los comandos anteriores, lo unico que debemos cambiar si deseamos crear unadistribucion de frecuencias para otra variable es el comando myvariable=ALCOHOL. Por ejem-plo, si estamos interesados en la variable edad, debemos cambiar esa lınea por myvariable
= AGE; lo demas permanece igual.
Datos discretos se pueden representar usando graficas de barras. Por ejemplo,supongamos que queremos estudiar la distribucion del numero de bebidas al-coholicas consumidas por semana (variable ALCOHOL).
Ejemplo
§
# Construye una tabla de distribucion de frecuencias relativas en porcientos
abs.frec = table(ALCOHOL)
rel.frec = prop.table(abs.frec)*100
rel.frec = round(rel.frec, 2)
# Grafica de barras con frecuencias relativas en porcientos
barplot(rel.frec, main="Numero de Bebidas Alcoholicas por Semana",
xlab = "Numero de Bebidas", ylab = "Porciento (%)")
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
0 1 2 3 4 5 6 7 8 9 11 15 17 20 22
Número de Bebidas Alcohólicas por Semana
Número de Bebidas
Por
cien
to (
%)
010
2030
4050
Construya a mano la distribucion de frecuencias de los siguientes datos:{10, 12, 13, 12, 10, 15, 17, 15, 14, 15}.
Repita el ejercicio usando R. Recuerde que debe ingresar los datos en R us-ando el comando: mydata = c(10,12,13,12,10,15,17,15,14,15). Luego usamydata como la variable que quiere analizar.
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Distribuciones de Frecuencias Agrupadas
Para construir una distribucion de frecuencias agrupadas necesitamos un poco mas detrabajo ya que tenemos que dividir el rango de la variable en clases y luego contar cuantoselementos pertenecen a cada clase o intervalo. Este tipo de analisis se acostumbra a hacerpara variables cuantitativas continuas pero tambien aplica a variables cuantitativas discretas.
Procedimiento Para Construir una Distribucion de Frecuencias
Vamos a utilizar los datos de las notas de un examen.
1. Identifique el mınimo y maximo valor en los datos. Calcule la amplitud de los datos,es decir, amplitud = maximo−minimo. Usando R:
amplitud = max(notas) - min(notas)
amplitud
[1] 44
2. Seleccione un numero de clases m y el ancho de las clases c tal que m ·c sea ligeramentemayor que la amplitud 44. Por ejemplo, escojamos m = 5 y c = 10 (note que m · c =5 · 10 = 50 > 44). En general, se sugiere usar entre 6 y 12 clases, dependiendo deltamano de muestra.
3. Seleccione un valor inicial, el cual debe ser menor que el mınimo valor en los datos.Por ejemplo, un valor inicial podrıa ser 50 (el mınimo valor es 52). Lo que queremoshacer es dividir la amplitud de la variable en m = 5 clases. Ası que los lımites de esasclases serıan 50, 60, 70, 80, 90, 100. El maximo valor en los datos es 96, ası que todoslos datos quedan dentro de las clases conformadas.
Las clases quedan conformadas de la siguiente manera:
• Clase 1 [50, 60): Personas con 50 puntos pero menos de 60 puntos.
• Clase 2 [60, 70): . . .
• Clase 3 [70, 80): . . .
• Clase 4 [80, 90): . . .
• Clase 5 [90, 100): . . ..
4. El siguiente paso consiste en contar cuantos datos pertenecen a cada clase. Para realizareste procedimiento manualmente, una buena estrategia es ordenar los datos de menora mayor.
Con base en esta distribucion de frecuencias podemos concluir que la mayorıa de estu-diantes sacaron notas entre 60 y 90 puntos. Mas especificamente, el 40% de los estudiantessacaron entre 70 y 80 puntos en el examen. De otro lado, el 95% de los estudiantes aproboel examen (D, C, B o A).
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histogramas
La distribucion de frecuencias de una variable numerica puede ser representada graficamenteusando un histograma. Un histograma es un grafico de barras con las siguientes carac-terısticas:
• Un tıtulo para identificar la poblacion o muestra de interes.
• Una escala vertical (eje Y) para identificar las frecuencias (o frecuencias relativas) delas clases.
• Una escala horizontal para identificar la clases de la variable de interes. Las barras enel histograma debe estar unidas (no deben haber espacios entre las barras).
Usando la tabla anterior podemos construir los histogramas manualmente. Note que tantola Frecuencia como la Frec.Relativa pueden ser usadas para construir los histogramas.La conclusion sera la misma en ambos casos.
Una forma simple de construir histogramas en R/RStudio es usando el siguiente comando:
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histogram of notas
notas
Fre
quen
cy
50 60 70 80 90 100
01
23
45
67
En este caso el histograma es construido usando las frecuencias. Note que el histogramano tiene tıtulos en la grafica ni en los ejes. Una forma de agregar tıtulos al histograma esusando los siguientes comandos:
hist(notas, main = "Histograma de Notas Usando Frecuencias Absolutas",
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas Usando Frecuencias Relativas
notas
Fre
cuen
cia
Rel
ativ
a (P
ropo
rció
n de
est
udia
ntes
)
50 60 70 80 90 100
0.00
00.
005
0.01
00.
015
0.02
00.
025
0.03
00.
035
Distribucion de Frecuencias en R/RStudio
Tal como hemos podido experimentar en el ejercicio anterior, construir una distribucionde frecuencias manualmente puede llegar a ser tedioso, especialmente si tenemos muchosdatos. Por lo tanto, nosotros usaremos R/RStudio para calcular una tabla de distribucionde frecuencias. Por ejemplo, construyamos la distribucion de frecuencias para las notas.Vamos a usar seis (6) clases.
# Construye una tabla de distribucion de frecuencias con 6 clases
myvariable = notas
puntaje <- factor(cut(myvariable, right = FALSE, breaks = 6))
La construccion de histogramas en R es relativamente facil usando los siguientes comandos(note que le estamos diciendo a R que queremos un histograma con seis clases para quegrafique lo mismo que obtuvimos en la tabla de distribucion de frecuencias):
# Construye un histograma con 6 clases
# Los lımites de las clases son definidos previamente usando la opcion "breaks="
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas
Nota
Fre
cuen
cia
(Núm
ero
de e
stud
iant
es)
60 70 80 90
01
23
45
6
Tanto en la tabla como en el histograma podemos decirle a R/RStudio cuantas clases usary como construirlas. Por ejemplo, vamos a reproducir la tabla de distribucion de frecuenciasque construimos manualmente. Los lımites de clases son 50, 60, 70, 80, 90, 100.
# Construye una tabla de distribucion de frecuencias con 6 clases
myvariable = notas
puntaje <- factor(cut(myvariable, right = FALSE, breaks = c(50,60,70,80,90,100)))
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Tipos de Histogramas
Existen varios tipos de histogramas dependiendo de la distribucion de la variable de in-teres. Estos son algunas de las posibles formas de histogramas. ¿Como se interpretan loshistogramas si estuvieramos hablando de las edades de un grupo de individuos?
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Construya un histograma para las variables Beta-Caroteno en la dieta (BE-TADIET) y Beta-Caroteno en la sangre (BETAPLASMA). ¿Que me dicen los his-togramas con respecto al consumo de beta-caroteno medido a traves de los alimentosy de la sangre?. Use los siguientes comandos:
Ejercicio 1
B
par(mfrow = c(1, 2))
hist(BETADIET, col = "green", xlab = "Betacaroteno en Dieta (mcg/dıa)")
hist(BETAPLASMA, col = "red", xlab = "Betacaroteno en Sangre (mcg/dıa)")
Usando los datos de la Frecuencia Relativa Acumulada de la tabla de distribucion de fre-cuencias de las notas, podemos construir una curva llamada ojiva. Una ojiva es una curvamostrando las frecuencias relativas acumuladas para las diferentes clases.
Lamentablemente no existe un solo comando para generar esta curva en R usando losdatos originales. Sin embargo, los siguientes comandos generan la ojiva usando las frecuenciasrelativas acumuladas.
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
20 30 40 50 60 70 80 90
0.0
0.2
0.4
0.6
0.8
1.0
Ojiva
Edad
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
0
0.05
0.27
0.56
0.71
0.86
0.99 1
Analisis de Series Temporales
Supongamos que tenemos los datos de las tasas de desempleo (%) en Puerto Rico desde1970 hasta 2013 segun el Departamento del Trabajo y Recursos Humanos de PR (Fuente:http://www.estadisticas.gobierno.pr). Una grafica de lıneas puede ser usada en estoscasos para representar los datos.
Esta base de datos ha sido compartida en formato .csv en una direccion de internet (re-cuerde que puede importar la base de datos munualmente usando la opcion Tools->Import
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
1970 1980 1990 2000 2010
05
1015
2025
30
Tasa de Desempleo (%) en PR
Fuente: Departamento del Trabajo y Recursos Humanos de PRAño
Tasa
de
Des
empl
eo (
%)
Veamos que sucede si creamos la misma grafica usando diferentes escalas en el eje Y. Porejemplo, si le decimos al programa que la escala del eje Y es de 0 a 100 entonces los cambiosen la tasa de desempleo son menos drasticos, lo cual puede llevar a conclusiones erroneas (eneconomıa cambios relativamente pequenos en la tasa de desempleo suelen indicar cambiosimportantes en la economıa de un paıs).
El tallo del diagrama es creado usando las unidades de miles (el mensaje al comienzo dela salida indica como leer los numeros en el diagrama). Por ejemplo, el elemento 9|6 en laultima fila del diagrama corresponde a un valor de alrededor de 9600 mcg de betacaroteno(el valor original es 9642). El elemento 0|2 al comienzo del diagrama indica que hay undato alrededor de 200 mcg por dıa (el mınino consumo es 214 mcg/dıa). Al igual que elhistograma, este diagrama busca describir la forma de la distribucion de los datos, al igualque la tendencia central y variabilidad de los datos.
Material Opcional (Mas Avanzado)
Si tiene tiempo libre y la curiosidad por la estadıstica es inevitable, puede intentar generarhistogramas sobrepuestos para dos grupos usando la librerıa o paquete ggplot2 de R. Elprimer paso es instalar dicha librerıa ejecutando los siguientes comandos:
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
0e+00
1e−04
2e−04
3e−04
4e−04
0 2500 5000 7500 10000Betacaroteno en Dieta (mcg/día)
Núm
ero
de In
divi
duos
Sexo
M
F
Dotplot de Consumo de Beta−Caroteno en Dieta
Estos son solo algunos ejemplos del potencial y de la calidad de R/RStudio para hacergraficos estadısticos. Tanto los tıtulos como las etiquetas de la leyenda se pueden cambiarpara personalizar las graficas.
Por ejemplo, podemos hacer un diagrama de puntos de la variable BETADIET con coloresen los puntos indicando el sexo.
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Recursos Adicionales
• Seccion 2.2 del libro de texto.
• Java applets que muestran diferentes tipos de histogramas. El efecto de cambiar elnumero de clases y amplitud de las clases tambien se puede visualizar: http://www.