1 TEMA 1 Estadística Descriptiva Introducción Comparativos gráficos Medidas de tendencia central Medidas de dispersión
1
TEMA 1
Estadística Descriptiva
Introducción
Comparativos gráficos
Medidas de tendencia central
Medidas de dispersión
2
¿Haz escuchado el término de
estadística?
• A diario recibimos muchos datos ó información… en
conversaciones, libros y televisión, acerca de
estadísticas.
• Casi cualquier estudio científico usa la estadística
como herramienta para reportar resultados.
Obesidad: 75% de ingresos a hospitales
19 Octubre, 2011 - 21:54
Tres de cada cuatro pacientes internados en los hospitales del
país están ahí por enfermedades relacionadas con la obesidad,
lamentó Rafael Álvarez Cordero, presidente honorario del Colegio
Mexicano de Cirugía para la Obesidad y Enfermedades
Metabólicas.
http://eleconomista.com.mx/obesidad-mexico
Dic 2011, En México, D.F, de los detenidos por la campaña de
alcoholímetro en primer lugar lo ocupan los ingenieros, segundo
lugar los abogados y tercer lugar los choferes; en contraparte, los
menos detenidos fueron arquitectos, médicos y diseñadores
http://www.eluniversal.com.mx/notas/818884.html
En las campañas de vacaciones de semana Santa, en los
anuncios para promover el manejo con precaución para no causar
accidentes, es común escuchar, No formes parte de las
estadísticas!!!
4
Importancia de la Estadística
La estadística es una herramienta muy útil que nos ayuda a tomar decisiones en un ambiente de incertidumbre, es decir, dónde esta presente la variabilidad.
Ejemplos: en Planeación de la producción, saber cuánto voy a comprar de materiales de acuerdo a lo que se espera sean las ventas (pronóstico estadístico).
5
Relación Probabilidad Estadística
Probabilidad: Propiedades de población conocidas, se formulan y
responden preguntas en relación con una muestra tomada de la población.
Estadística: Características de la muestra conocidas, se deducen
propiedades de la población.
Muestra
Probabilidad
Estadística
Población
6
¿Qué tienen en común estos objetivos? El valor de la característica de interés cambia de individuo a
individuo (la inflación, el número de glóbulos rojos, la puntuación en matemáticas, la evaluación a los profesores de cursos en el área de las matemáticas, el clima organizacional, el nivel de desempeño laboral).
A estas características les llamaremos variables. Se representan con letras mayúsculas, y los valores que toma con letras minúsculas
X = Número de estudiantes que llegan tarde x=0, 1, 2, ., 15
El individuo puede ser una persona, un país, un producto de la línea de producción, etc.
Dato: Es el valor de la variable observado en un individuo
Ejemplo de variable: temperatura promedio en Monterrey en un día de Enero
0°C, 17°C representan dos datos diferentes.
7
Estadística
inferencial
(se apoya en la
probabilidad)
Estadística
descriptiva
Ramas de la Estadística
La estadística es la rama de la
investigación científica que proporciona
métodos para organizar y resumir
información
y usar ésta para obtener diversas
conclusiones
8
Estadística Descriptiva
Estadística
Descriptiva
Distribuciones
de frecuencias
Representacione
s gráficas
Medidas
descriptivas
Tabulación
de datos
Tendencia central
Dispersión
Histograma
Diagrama
de barras
Diagrama
de pastel
Diagrama
tallo y hojas
9
¿Cuál es la finalidad de un
gráfico?
Por medio de un gráfico se puede visualizar el comportamiento de un conjunto de datos. Un gráfico habla más que mil palabras. Dependiendo si la variable es cualitativa ó cuantitativa, se selecciona el tipo de gráfico.
11
Nivel Educativo Número de casos
(frecuencia
absoluta)
Frecuencia
Relativa
Número
ACUMULADO de
casos (frecuencia
ACUMULADA)
Frecuencia
Relativa
ACUMULADA
Primaria o menos
12 0.12 12 0.12
Secundaria 26 0.26 38 0.38 Preparatoria
45 0.45 83 0.83
Profesional o postgrado
17 0.17 100 1.00
Total 100 1.00
¿Qué información brinda una tabla de frecuencias?
¿Para qué tipos de variables, cualitativas ó cuantitativas, se puede usar una
tabla de frecuencias?
¿Qué es frecuencia absoluta?, ¿Qué es frecuencia relativa? ¿Qué es frecuencia
Acumulada?
Para la siguiente tabla, distingue qué tipo de variable es el nivel educativo.
¿Qué proporción de individuos tiene al menos estudios de preparatoria?
GRAFICOS
DATOS
CATEGORICOS
DATOS
NUMERICOS
(para ambas
escalas)
Pastel
Barras
Pareto
No agrupados
Agrupados
Tallo y hoja
De puntos
Histograma
Escala Nominal
Escala Ordinal
De dispersión
Diagrama de Caja
13
Histograma El objetivo de un
histograma es resumir la información de una variable cuantitativa.
Pasos: Se secciona la
información en clases ó intervalos
Se cuenta el número de datos en cada clase. Esta se llama frecuencia
Se puede calcular la frecuencia relativa
Se grafica un histograma, teniendo como eje “x” las clases, como eje “y” las frecuencias ó frecuencias relativas. En cada clase se dibuja un rectángulo que tiene como altura su frecuencia ó frecuencia relativa.
Sesgo a la derecha
14
¿Cómo construir un
histograma?
1. Ordenar los datos
2. Obtener el Rango: Max-Min
3. Definer el número de clases.
3. Definir la amplitud de clase
4. Generar la tabla de Frecuencia
5. Dibujar el histograma
nclasesn .
n
MinMaxAmplitud
Dato
Hemoglobina
(gr/cm3)
1 18.5
2 8.2
3 10.6
4 16.7
5 6.2
6 16.9
7 13
8 10.1
9 9.1
10 11.9
11 14.1
12 15.8
13 14.4
14 10.7
15 11.6
16 11.9
17 9.3
18 12.1
19 15
20 14.7
Paso 1. Determine la cantidad
de datos (n)
n=20
Distribución de Frecuencias
Paso 2. Ordene los datos de
menor a mayor
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1 18.5 6.2
2 8.2 8.2
3 10.6 9.1
4 16.7 9.3
5 6.2 10.1
6 16.9 10.6
7 13 10.7
8 10.1 11.6
9 9.1 11.9
10 11.9 11.9
11 14.1 12.1
12 15.8 13
13 14.4 14.1
14 10.7 14.4
15 11.6 14.7
16 11.9 15
17 9.3 15.8
18 12.1 16.7
19 15 16.9
20 14.7 18.5
En Excel:
Seleccione los Datos
Menú: Datos>Ordenar
Paso 3. Identifique el Valor
Mayor (VM) y el Valor menor
(Vm)
VM =18.5
Vm = 6.2
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1 18.5 6.2
2 8.2 8.2
3 10.6 9.1
4 16.7 9.3
5 6.2 10.1
6 16.9 10.6
7 13 10.7
8 10.1 11.6
9 9.1 11.9
10 11.9 11.9
11 14.1 12.1
12 15.8 13
13 14.4 14.1
14 10.7 14.4
15 11.6 14.7
16 11.9 15
17 9.3 15.8
18 12.1 16.7
19 15 16.9
20 14.7 18.5
Distribución de Frecuencias
Representación Gráfica
Se establecen los límites entre los que se
encuentran todos los datos de la muestra.
6.2 VM= 18.5 Vm=
Paso 4. Obtenga el Rango (R)
R = VM - Vm
R = 18.5 - 6.2
R = 12.3
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1 18.5 6.2
2 8.2 8.2
3 10.6 9.1
4 16.7 9.3
5 6.2 10.1
6 16.9 10.6
7 13 10.7
8 10.1 11.6
9 9.1 11.9
10 11.9 11.9
11 14.1 12.1
12 15.8 13
13 14.4 14.1
14 10.7 14.4
15 11.6 14.7
16 11.9 15
17 9.3 15.8
18 12.1 16.7
19 15 16.9
20 14.7 18.5
Distribución de Frecuencias
Representación Gráfica
Se obtiene la distancia que hay entre el
límite inferior y el límite superior.
6.2 VM= 18.5 Vm=
R= VM – Vm
R= 18.5 - 6.2
R= 12.3
Paso 5. Obtenga el número
aproximado de intervalos (k)
k = sqrt(n)
Tenemos que n=20 por lo tanto
k = sqrt(20)
k = 4.47
Redondeando
k ≈ 5
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1 18.5 6.2
2 8.2 8.2
3 10.6 9.1
4 16.7 9.3
5 6.2 10.1
6 16.9 10.6
7 13 10.7
8 10.1 11.6
9 9.1 11.9
10 11.9 11.9
11 14.1 12.1
12 15.8 13
13 14.4 14.1
14 10.7 14.4
15 11.6 14.7
16 11.9 15
17 9.3 15.8
18 12.1 16.7
19 15 16.9
20 14.7 18.5
Distribución de Frecuencias
Representación Gráfica
Se divide la sección que tenemos entre el
número de grupos (clases) que se obtuvo
con la fórmula (5 grupos)
6.2
1 2 4 3
18.5
5
R = 12.3
Paso 5. Obtenga la longitud
de cada intervalo (W)
Distribución de Frecuencias Dato Hemoglobina
1 6.2
2 8.2
3 9.1
4 9.3
5 10.1
6 10.6
7 10.7
8 11.6
9 11.9
10 11.9
11 12.1
12 13
13 14.1
14 14.4
15 14.7
16 15
17 15.8
18 16.7
19 16.9
20 18.5
k
RW
46.25
3.12W
Dado que R = 12.3 y k ≈ 5
Distribución de Frecuencias
Representación Gráfica
Se calcula el ancho que debe tener cada
grupo (clase).
6.2
1 2 4 3
18.5
5
R=12.3
2.46 2.46 2.46 2.46 2.46
Paso 6. Construya los 5
intervalos con una longitud
de 2.46.
Distribución de Frecuencias
Dato Hemoglobina
1 6.2
2 8.2
3 9.1
4 9.3
5 10.1
6 10.6
7 10.7
8 11.6
9 11.9
10 11.9
11 12.1
12 13
13 14.1
14 14.4
15 14.7
16 15
17 15.8
18 16.7
19 16.9
20 18.5
[6.2,8.66)
[8.66,11.12)
[11.12,13.58)
[13.58,16.04)
[16.04,18.5]
Corchetes [ ]: Se
incluye el valor
en el Intervalo
Paréntesis (): No
se Incluye el
valor en el
Intervalo
Distribución de Frecuencias
Representación Gráfica
Se establecen los valores que separan
un grupo (clase) de otro.
6.2 18.5
2.46 2.46 2.46 2.46 2.46
8.66 11.12 16.04 13.58
R=12.3
Paso 7. Identifique y cuente
los datos que caen dentro de
cada Intervalo.
Distribución de Frecuencias
Dato Hemoglobina
1 6.2
2 8.2
3 9.1
4 9.3
5 10.1
6 10.6
7 10.7
8 11.6
9 11.9
10 11.9
11 12.1
12 13
13 14.1
14 14.4
15 14.7
16 15
17 15.8
18 16.7
19 16.9
20 18.5
Intervalo Datos fi
[6.2,8.66) 6.2,8.2 2
[8.66,11.12) 9.1,9.3,10.1,10.6,10.7 5
[11.12,13.58) 11.6,11.9,11.9,12.9,13 5
[13.58,16.04) 14.1,14.4,14.7,15,15.8 5
[16.04,18.5] 16.7,16.9,18.5 3
fi : Frecuencia Absoluta
De esta manera se obtiene la distribución de
Frecuencia Absolutas
Distribución de Frecuencias
fi : Frecuencia Absoluta
Intervalo fi
[6.2,8.66) 2
[8.66,11.12) 5
[11.12,13.58) 5
[13.58,16.04) 5
[16.04,18.5] 3
Total 20
Distribución de Frecuencias Representación Gráfica
A esta gráfica se le conoce como histograma
de frecuencias absolutas.
6.2
1 2 3 4 5 6 7
8.66 11.12 16.04 13.58 18.5
Fre
cu
en
cia
Niveles de Hemoglobina en la Sangre (gr/cm3)
Para obtener las frecuencia relativas (hi )
divida cada frecuencia absoluta entre el Total
Distribución de Frecuencias
fi : Frecuencia Absoluta
Intervalo fi hi
[6.2,8.66) 2 2/20 0.1
[8.66,11.12) 5 5/20 0.25
[11.12,13.58) 5 5/20 0.25
[13.58,16.04) 5 5/20 0.25
[16.04,18.5] 3 3/20 0.15
Total 20 20/20 1
Distribución de Frecuencias
Representación Gráfica
Cuando se grafican las frecuencias relativas
se conoce como histograma de frecuencias
relativas y se representan en porcentajes.
6.2
5 10 15 20 25
8.66 11.12 16.04 13.58 18.5
Fre
cu
en
cia
Rela
tiva (
%)
Niveles de Hemoglobina en la Sangre (gr/cm3)
30 35
La frecuencia absoluta acumulada (fai) y la
frecuencia relativa acumulada (hai ) es la
suma de las frecuencias anteriores
Distribución de Frecuencias
Intervalo fi fai hi hai
[6.2,8.66) 2 2 0.1 0.1
[8.66,11.12) 5 7 0.25 0.35
[11.12,13.58) 5 12 0.25 0.6
[13.58,16.04) 5 17 0.25 0.85
[16.04,18.5] 3 20 0.15 1
Total 20 1
Distribución de Frecuencias
Representación Gráfica
6.2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
8.66 11.12 16.04 13.58 18.5 Niveles de Hemoglobina en la Sangre (gr/cm3
Fre
cu
en
cia
Ab
so
luta
Acu
mu
lad
a
Cuando se
grafican las
frecuencias
absolutas
acumuladas se
conoce como
histograma de
frecuencias
absolutas
acumuladas
34
Completa los espacios en blanco en la siguiente tabla de frecuencias.
La variable de estudios son los años de escolaridad de los adultos de
cierta colonia.
frecuencia frecuencia
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
0 - 6 años 36 10.7%
7 - 9 años 38.5%
10 - 12 años 72.5%
13 - 17 años 97.0%
18 - 22 años 100.0%
Total 335 -- 100% --
35
Solución:
frecuencia frecuencia
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
0 - 6 años 36 36 10.7% 10.7%
7 - 9 años 93 129 27.8% 38.5%
10 - 12 años 114 243 34.0% 72.5%
13 - 17 años 82 325 24.5% 97.0%
18 - 22 años 10 335 3.0% 100.0%
Total 335 -- 100% --
Realice el siguiente ejercicio:
La prueba de hemoglobina A1c, que es una
prueba de sangre aplicada a los diabéticos
durante sus chequeos periódicos, indica el
nivel de control de azúcar en la sangre
durante los dos o tres meses pasados. Los
datos siguientes se obtuvieron de 40
diabéticos distintos en una clínica
universitaria que atiende a pacientes
diabéticos.
Distribución de Frecuencias
1. Construya una distribución de frecuencias
2. Represente gráficamente la distribución de frecuencias
(Histograma) utilizando:
1. Frecuencias absolutas (fi)
2. Frecuencias relativas (hi)
3. Frecuencias absoluta acumuladas (fai)
4. Frecuencias relativa acumuladas (hai )
Distribución de Frecuencias 6.5 5.0 5.6 7.6 4.8 8.0 7.5 7.9 8.0 9.2
6.4 6.0 5.6 6.0 5.7 9.2 8.1 8.0 6.5 6.6
5.0 8.0 6.5 6.1 6.4 6.6 7.2 5.9 4.0 5.7
7.9 6.0 5.6 6.0 6.2 7.7 6.7 7.7 8.2 9.0
Ejemplo de Estadística Descriptiva
131211109
Median
Mean
11.111.010.910.810.710.6
A nderson-Darling Normality Test
V ariance 0.873
Skewness -0.380871
Kurtosis 0.456289
N 90
Minimum 8.270
A -Squared
1st Q uartile 10.490
Median 11.000
3rd Q uartile 11.540
Maximum 13.000
95% C onfidence Interv al for Mean
10.670
0.77
11.062
95% C onfidence Interv al for Median
10.610 11.000
95% C onfidence Interv al for StDev
0.815 1.095
P-V alue 0.045
Mean 10.866
StDev 0.935
95% Confidence Intervals
Summary for ph
Asociadas a ideas como:
valor esperado,
representante de los datos,
punto de equilibrio.
Medidas de
centralización
Media aritmética
Mediana
Moda También llamadas
medidas de localización.
Media aritmética Se representa por x y se calcula sumando todos los datos y
dividiéndolos entre el total de ellos.
muestra para n
xx
Ejemplo,
2,2, 3, 3, 4, 5, 5, 7 su media es 31/8 = 3.875
suma
dato x
datos de número N on
aritmética Media o x
población para N
x
El Vaticano tiene un promedio de dos
Papas por kilómetro cuadrado.
Valor de los datos que ocupa la posición central cuando los
datos se ordenan según su tamaño.
Ejemplos,
2,2, 3, 3, 4, 5, 5, 7 su mediana es 3 ó 4, o bien 3.5 si tiene sentido, según el
tipo de datos.
A, A, A, A, B, B, B, C, C, C, C, D, D, D, F Su mediana es C
7 datos 7 datos
Mediana
Mediana
•Mediana Muestral: se obtiene al ordenar primeramente las n observaciones de menor a mayor, (incluyendo valores repetidos). Entonces:
•Si n es impar = (n + 1)/2 valor ordenado
•Si n es par = promedio de (n/2)ésimo y (n/2 + 1)ésimo valores ordenados
Ejemplo salarios en dolares
30.70 34.1 33.8 32.50 32.90 34.5 36.0
•Moda: Es el valor que más se repite en conjunto de datos
Ejemplo,
2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7 en este caso es bimodal
(hay dos modas) y son 3 y 5.
A, A, A, A, A, B, B, B, C, C, C, C, D, D, D, F
La moda es A
Moda
Una distribución simétrica es la que se puede dividir en dos
partes iguales. En estas distribuciones el valor de la media,
mediana y moda son iguales.
¿Qué es una distribución simétrica?
Distribución Normal
Características:
Simetría alrededor de
Forma de campana
La mayoría de los datos se encuentran a una distancia de tres desviaciones estándar de la media.
Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una
variable son desiguales y muchos de los sujetos tienen datos sumamente altos ó
sumamente bajos.
Algunas preguntas que te pueden surgir son:
¿Qué significa sesgo?
¿Qué tipos de sesgo puede haber?
¿Cómo identificar los diferentes tipos de sesgo?
¿Por qué es de utilidad identificar el sesgo en una distribución?
¿Qué es una distribución sesgada?
¿Cómo es una distribución sesgada hacia la derecha ó con
sesgo positivo?
En este caso, la media es mayor que la mediana.
La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los
datos menores a la mediana están más concentrados y el 50% de los datos mayor
a ella, están más alejados entre sí.
¿Cómo es una distribución sesgada hacia la izquierda ó con sesgo
negativo?
En este caso, la media es menor que la mediana.
La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los
datos menores a la mediana están más alejados entre sí y el 50% de los datos
mayor a ella, están más concentrados.
Medidas de
dispersión
Asociadas a ideas como:
variación, dispersión entre los
datos, distancia de los datos
respecto a una medida de
centralización, …
Rango
Varianza
Desviación estándar
Rango intercuartílico
Medidas de Dispersión
También se conocen como medidas de variabilidad.
Las medidas de tendencia central pueden no ser suficientes para
describir totalmente un conjunto de datos.
0 1 2 3 4 5 6 7 8 9 10 11
• ¿Cuál es la diferencia?
• ¿Qué se puede hacer
para describir mejor cada
muestra?
1:
2:
3:
Estas 3 muestras son idénticas en su media y su mediana,
Rango
Es la diferencia entre el mayor y el menor de los datos.
Rango R = Max – Min
Ejemplo
De los datos 2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7
El rango es R=7 – 2 = 5
Varianza
1
)( 2
2
n
xxs
N
x
2
2)(
muestra Población
s2 = varianza
x = dato
= media aritmética de la muestra
n = tamaño de la muestra x
= varianza
x = dato
= media aritmética de la
población
n = tamaño de la población
2
Desviación estándar
1
)( 2
n
xxs
N
x
2)(
muestra Población
s = desv. Estándar
x = dato
= media aritmética de la muestra
n = tamaño de la muestra x
= desv. estándar
x = dato
= media aritmética de la
población
n = tamaño de la población
55
1. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
2 4 3 5 2 2 0 1
R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980
2. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
-2 -4 -3 -5 -2 -2 0 -1
R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980
3. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
6 12 9 15 6 6 0 3
R = Rango 15; Varianza 22.9821 y Desviación Estándar 4.7940
Ejercicio:
56
1. La mitad de los datos están por debajo de la media.
2. Cuando hay dos valores que se repiten más que los demás se dice que la
moda no existe.
3. La mediana es el dato que se presenta en un 50% de las veces.
4. Al comparar dos grupos de datos del mismo tipo de medición, el grupo que
tiene menor varianza es el que tiene una mayor concentración de datos
cerca de su media.
5. En un tabla de frecuencias, la suma de las frecuencias relativas es 1.0.
6. La media y la mediana son medidas de tendencia central e indican la
ubicación (locación) central de los datos.
Indica si las siguientes expresiones son siempre verdaderas (V) o no
necesariamente verdaderas (F):
57
7. Si la media aritmética de un grupo de n datos es positiva, entonces los
n datos son no-negativos.
8. La varianza de cualquier base de datos debe ser no negativa.
9. La desviación estándar entre los datos: 8, 8, 8, 8, 8, 8, 8, es mayor a
cero. (Sin realizar cálculos).
10. El rango no puede tomar valores negativos.
Indica si las siguientes expresiones son siempre verdaderas (V) o no
necesariamente verdaderas (F):