[0010] DEFAD: Representación y tabulación de datos Motivación e introducción a gráficos Elvira Ferre Jaén [email protected] Universidad de Murcia Marzo 2018 000R Team (UMU) [0010] DEFAD 1 / 31
[0010] DEFAD: Representación y tabulación de datosMotivación e introducción a gráficos
Elvira Ferre Jaé[email protected]
Universidad de Murcia
Marzo 2018
000R Team (UMU) [0010] DEFAD 1 / 31
Motivación
Consideremos algunos datos (cuatro pares de variables)
head( anscombe )
## x1 x2 x3 x4 y1 y2 y3 y4## 1 10 10 10 8 8.04 9.14 7.46 6.58## 2 8 8 8 8 6.95 8.14 6.77 5.76## 3 13 13 13 8 7.58 8.74 12.74 7.71## 4 9 9 9 8 8.81 8.77 7.11 8.84## 5 11 11 11 8 8.33 9.26 7.81 8.47## 6 14 14 14 8 9.96 8.10 8.84 7.04
000R Team (UMU) [0010] DEFAD 2 / 31
Motivación
¿Qué te gustaría calcular para cada variable?
000R Team (UMU) [0010] DEFAD 3 / 31
Motivación
apply( anscombe, 2, summary )
## x1 x2 x3 x4 y1 y2 y3 y4## Min. 4.0 4.0 4.0 8 4.260000 3.100000 5.39 5.250000## 1st Qu. 6.5 6.5 6.5 8 6.315000 6.695000 6.25 6.170000## Median 9.0 9.0 9.0 8 7.580000 8.140000 7.11 7.040000## Mean 9.0 9.0 9.0 9 7.500909 7.500909 7.50 7.500909## 3rd Qu. 11.5 11.5 11.5 8 8.570000 8.950000 7.98 8.190000## Max. 14.0 14.0 14.0 19 10.840000 9.260000 12.74 12.500000
000R Team (UMU) [0010] DEFAD 4 / 31
Motivación
¿ Qué nos dicen los resultados anteriores ?
¿De verdad eres capaz de ver algún patrón, asociación, relación en los datos?
000R Team (UMU) [0010] DEFAD 5 / 31
¿Por qué representar gráficamente?
Nuestros ojos no son buenos dándole sentido a un conjunto de (muchos)números.
Por ello necesitamos represetarlos gráficamente.
000R Team (UMU) [0010] DEFAD 6 / 31
¿Por qué representar gráficamente?
4 6 8 12
46
810
x1
y1
4 6 8 12
35
79
x2
y2
4 6 8 12
68
10
x3
y3
8 12 16
68
10
x4
y4
000R Team (UMU) [0010] DEFAD 7 / 31
Visualización de los datos
La visualización gráfica es una forma muy útil de estudiar los datosantes de analizarlos.Utilizar solo métodos numéricos es muy restrictivo.Visualizar los datos proporciona una percepción de los mismos que nose puede alcanzar desde ningún otro enfoque (W. S. Cleveland)
000R Team (UMU) [0010] DEFAD 8 / 31
Gráficos estadísticos
Gráficos estadísticos
000R Team (UMU) [0010] DEFAD 9 / 31
Gráficos estadísticos
Gráficos estadísticos
Gráficos para explorar
Gráficos para comunicar
000R Team (UMU) [0010] DEFAD 10 / 31
Gráficos estadísticos
Gráficos para explorar
3 4 5
02
46
812
000R Team (UMU) [0010] DEFAD 11 / 31
Gráficos estadísticos
Gráficos para comunicar
A B C
Gráfico de barras
0
2
4
6
8
10
12
14
000R Team (UMU) [0010] DEFAD 12 / 31
Consideraciones
Consideraciones
000R Team (UMU) [0010] DEFAD 13 / 31
Consideraciones Número y tipo de variables
Número y tipo de variables
000R Team (UMU) [0010] DEFAD 14 / 31
Consideraciones Número y tipo de variables
¿Cuántas variables tenemos?
Variables en un conjunto de datos:
1 - datos univariantes2 - datos bivariantesdatos multivariantes
000R Team (UMU) [0010] DEFAD 15 / 31
Consideraciones Número y tipo de variables
¿De qué tipo son las variables?
Cuantitativa -vs- Cualitativa
Continua -vs- Discreta
Dependiendo del tipo y el número de variables realizaremos un análisis uotro.
000R Team (UMU) [0010] DEFAD 16 / 31
Consideraciones Datos univariantes
Datos univariantes
000R Team (UMU) [0010] DEFAD 17 / 31
Consideraciones Datos univariantes
Datos univariantes
Variables cuantitativas: aquella que se expresa mediante un número.Medimos:
Cómo están distribuidos los valoresMáximos, mínimos, rangosMedidas de centralizaciónMedidas de dispersiónÁreas de concentraciónValores atípicosPatrones interesantes
000R Team (UMU) [0010] DEFAD 18 / 31
Consideraciones Datos univariantes
Variables cuantitativas
2 4 6 8 10
020
4060
8010
0
000R Team (UMU) [0010] DEFAD 19 / 31
Consideraciones Datos univariantes
Datos univariantes
Variables cualitativas: expresan cualidades, atributos, categorías ocaracterísticas. Medimos:
Totales y proporcionesValores comunesValores más usualesFrecuencias de distribución
000R Team (UMU) [0010] DEFAD 20 / 31
Consideraciones Datos univariantes
Variables cualitativas
A B C
02
46
8
000R Team (UMU) [0010] DEFAD 21 / 31
Consideraciones Datos bivariantes
Datos bivariantes
000R Team (UMU) [0010] DEFAD 22 / 31
Consideraciones Datos bivariantes
Datos bivariantes
Cuantitativos -vs- CuantitativosCualitativos -vs- CuantitativosCualitativos -vs- Cualitativos
Utilizamos la función plot() para ver los diferentes tipos de gráficos.
000R Team (UMU) [0010] DEFAD 23 / 31
Consideraciones Datos bivariantes
Función plot()
Funcción Tipo de dato Descripción
plot() numérico, numérico gráfico de puntosplot() numérico, factor stripchartsplot() factor, numérico boxplotsplot() factor, factor spineplot
000R Team (UMU) [0010] DEFAD 24 / 31
Consideraciones Datos bivariantes
Variables numéricas
plot( iris$Petal.Length, iris$Sepal.Length )
1 2 3 4 5 6 7
4.5
5.5
6.5
7.5
iris$Petal.Length
iris$
Sep
al.L
engt
h
000R Team (UMU) [0010] DEFAD 25 / 31
Consideraciones Datos bivariantes
Variable numérica y factor
plot( iris$Petal.Length, iris$Species )
1 2 3 4 5 6 7
1.0
2.0
3.0
iris$Petal.Length
iris$
Spe
cies
000R Team (UMU) [0010] DEFAD 26 / 31
Consideraciones Datos bivariantes
Variable factor y numérica
plot( iris$Species, iris$Petal.Length )
setosa virginica
13
57
000R Team (UMU) [0010] DEFAD 27 / 31
Consideraciones Datos bivariantes
Variable factor y factor
plot( df$pelo, df$ojos, xlab = "pelo", ylab = "ojos" )
pelo
ojos
castaño negro rubio
azul
verd
e
0.0
0.4
0.8
000R Team (UMU) [0010] DEFAD 28 / 31
Consideraciones Datos multivariantes
Datos multivariantes
000R Team (UMU) [0010] DEFAD 29 / 31
Consideraciones Datos multivariantes
Datos multivariantes
CuantitativosCualitativosMixtos
En general estamos interesados en las asociaciones (correlaciones,relaciones)
000R Team (UMU) [0010] DEFAD 30 / 31
Consideraciones Datos multivariantes
Datos multivariantes
Gráfico de dispersión 3D
1 2 3 4 5 61015
2025
3035
0100
200300
400500
mtcars$wt
mtc
ars$
disp
mtc
ars$
mpg
000R Team (UMU) [0010] DEFAD 31 / 31