Tema 4: DESCRIPCIÓN NÚMERICA DE DATOS UNIVARIANTES ÍNDICE 4.1 MEDIDAS DE POSICIÓN Medidas de tendencia central Medidas de tendencia no central 4.2 MEDIDAS DE DISPERSIÓN Medidas de dispersión absoluta Medidas de dispersión relativa 4.3 MEDIDAS DE FORMA Medidas de asimetría Medidas de curtosis Diagramas de caja 4.4 MEDIDAS DE DESIGUALDAD Índice de Gini Curva de Lorenz OBJETIVOS 9 Describir los aspectos notables de una distribución de frecuencias m mediante unas medidas numéricas que nos permitan resumir las principales características del conjunto de datos. * Elegir y calcular las medidas adecuadas para resumir los aspectos notables de los datos. * Interpretar correctamente los valores obtenidos en las medidas numéricas y evaluar su representatividad. 9 Comparar diferentes conjuntos de datos o distribuciones mediante el análisis de las medidas numéricas adecuadas. OBJETIVOS En cualquier medida de síntesis de la distribución debemos observar los siguientes aspectos: y ¿Intervienen todos los datos? y ¿Con qué tipo de datos se puede calcular? y ¿Es única? y ¿Es robusta? y ¿Qué representatividad tiene? y ¿Cómo se interpreta? y ¿Cómo se comporta al transformar los datos originales?
36
Embed
Tema 4: DESCRIPCIÓN NÚMERICA 4.2 MEDIDAS DE DISPERSIÓN DE ... · 4.3 MEDIDAS DE FORMA Medidas de asimetría Medidas de curtosis Diagramas de caja 4.4 MEDIDAS DE DESIGUALDAD Índice
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Tema 4: DESCRIPCIÓN NÚMERICA DE DATOS UNIVARIANTES
ÍNDICE4.1 MEDIDAS DE POSICIÓN
Medidas de tendencia centralMedidas de tendencia no central
4.2 MEDIDAS DE DISPERSIÓNMedidas de dispersión absolutaMedidas de dispersión relativa
4.3 MEDIDAS DE FORMAMedidas de asimetríaMedidas de curtosisDiagramas de caja
4.4 MEDIDAS DE DESIGUALDADÍndice de GiniCurva de Lorenz
OBJETIVOS
Describir los aspectos notables de una distribución defrecuencias mmediante unas medidas numéricas quenos permitan resumir las principales característicasdel conjunto de datos.* Elegir y calcular las medidas adecuadas para resumir
los aspectos notables de los datos.* Interpretar correctamente los valores obtenidos en las
medidas numéricas y evaluar su representatividad.
Comparar diferentes conjuntos de datos odistribuciones mediante el análisis de las medidasnuméricas adecuadas.
OBJETIVOS
En cualquier medida de síntesis de la distribucióndebemos observar los siguientes aspectos:
¿Intervienen todos los datos?¿Con qué tipo de datos se puede calcular?¿Es única?¿Es robusta?¿Qué representatividad tiene?¿Cómo se interpreta?¿Cómo se comporta al transformar los datos originales?
MEDIDAS DE POSICIÓNLas mmedidas de posición buscan señalar dónde se encuentrasituada la distribución de frecuencias, bien sea sus valoresmás representativos o centrales, bien sea sus zonasintermedias y sus extremas (colas)
Se clasifican en:
Medidas de tendencia central: buscan situar los valoresmedios o más representativos de la distribución con unafinalidad de síntesis de la información.
Medidas de tendencia no central: buscan situar laszonas intermedias y extremas de la distribución defrecuencias con una finalidad de dispersión o predicción
MEDIDAS DE POSICIÓN
Cuartiles Deciles Percentiles
Cuantiles
Medidas no centrales
Ponderada No ponderada
Promedios Mediana Moda
Medidas de tendencia central
Media aritmética
MEDIA ARITMÉTICA. DEFINICIÓNEn la distribución de frecuencias de un conjunto de datos:
{(xx i , ni); i=1,...,k}con N=n1+n2+...+nk el número de datos observadosLa Media Aritmética se define como:
Observaciones:1.- En variables continuas, habitualmente agrupadas en intervalos, seaproxima utilizando las marcas de clase.2.- No tiene sentido calcularla en variables cualitativas, excepto si sonbinarias codificadas como 0/1, en cuyo caso la media aritmética esuna proporción.
1 1
1 k k
i i i ii i
x x n x fN
MEDIA ARITMÉTICA. EJEMPLOS
5
1 1 5 2 15 3 20 4 8 5 2 137 2,74 50 50
i ii
x nx
N
X=“Nº horasdiárias de estudio”
Frecuencia absoluta
Frecuencia relativa
xi ni f i1 5 10 %2 15 30 %3 20 40 %4 8 16 %5 2 4 %
50
1 0,10 2 0,30 3 0, 40 4 0,16 5 0,04 2,74 x
CUESTIÓN 1:Por término medio, ¿cuántas horas estudia un alumno al día?
Respuesta: Los alumnos estudian una media de 2,74 horas al día
MEDIA ARITMÉTICA. EJEMPLOSCUESTIÓN 3:La tabla recoge la distribución de las empresas de un sector encuanto a su volumen de ventas (expresadas en 10.000€)
¿Cuál es el volumen de ventas medio entre las empresasdel sector?
MEDIA ARITMÉTICA. PROPIEDADESEs única.Utiliza todos los datos de la distribución de frecuencias.Únicamente tiene sentido en características cuantitativasy se utiliza preferentemente en variables continuas.En distribuciones agrupadas que presentan algúnintervalo de clase infinito no se puede calcular.Es el centro de gravedad de la distribución en sentidoaditivo.No es robusta.No es invariante frente a cambios de escala y origen.Minimiza el error cuadrático medio.Es una medida descomponible.
MEDIA ARITMÉTICA. PROPIEDADES
Media de los números 2, 4, 7, 8 y 9:
2 4 7 8 9 30 65 5
x
2 4 7 8 96
xi xi-Media
2 -4
4 -2
7 1
8 2
9 3
Total 0
La media aritmética es el centro de gravedad de la distribución en
sentido aditivo 10
k
ii
x x
5
15
20
8
2
0
5
10
15
20
1 2 3 4 5
Núm
ero
de e
stud
iant
es
X= horas de estudio por día74.2x
10
k
i ii
x x nEn general, en cualquier
distribución de frecuencias, la propiedad de centro de gravedad:
MEDIA ARITMÉTICA. PROPIEDADES
MEDIA ARITMÉTICA. PROPIEDADES
Dados los números 2, 4, 7, 8 y 9 planteamos encontrar el valorx que minimiza el error/desviación cuadrático medio como unproblema usual de minimización:
La media aritmética minimiza la distancia cuadrática media
2 4 7 8 9x
2
( )i i i i
i iopt
x x n x nMin e x x x
N N
2 2 2 2 2( 2) ( 4) ( 7) ( 8) ( 9)( )5
6
x x x x xMin e x
x x
Se cumple:y a b x
Supongamos que en la cuestión sobre el salario de lostrabajadores se plantea un aumento salarial de un 10%junto con un parte constante de 50 euros mensuales, enconcepto de dietas.
Y = Nuevo salario Y=50+1.1 X
50 1.1 1.821 y x
Cambio de escala y de origen
MEDIA ARITMÉTICA. PROPIEDADES
Y a b X
Tras la subida salarial, el salario medio mensualasciende a 1.281€
Si hacemos
EEjercicio 1En una empresa metalúrgica, los empleados se clasifican en trescategorías: técnicos, especialistas y administrativos. El número deempleados, así como el salario medio mensual de cada categoría en elmes de Diciembre son los que aparecen en la tabla:
CATEGORÍA NÚMERO SALARIO MEDIO MENSUAL
Técnicos 20 2000€
Especialistas 100 1200€
Administrativos 40 1000€
a) Calcula el salario medio del conjunto de los trabajadores.b) Si se elevan todos los salarios un 5%, ¿a cuánto ascenderá el
salario medio en cada categoría? ¿y para el conjunto?.c) Tras una prima fija de 50€ mensuales indica cuál será el salario
medio para cada categoría y para el conjunto de los empleados.
MEDIA ARITMÉTICA. EJERCICIOS
20 2000 100 1200 40 100020 100 40
200000 1 250160
T T E E A ATOT
T E A
N s N s N ssN N N
.
MEDIA ARITMÉTICA. EJERCICIOS
CATEGORÍA NÚMERO SALARIO MEDIO MENSUAL
Técnicos 20 2000€
Especialistas 100 1200€
Administrativos 40 1000€
a) El salario medio mensual en esta empresa asciende a 1.250€
Las medias ponderadas se utilizan cuando no todos losvalores de la variable tienen la misma importancia.
1
1
k
i ii
w k
ii
x wx
w
MEDIA ARITMÉTICA PONDERADA
Sean:
1iw ;i ,...,k Colección de pesos asignando laimportancia de cada dato
La media aritmética ponderada, se calcula como:
EEjercicio
Un estudiante realizó tres exámenes, en los que logró unapuntuación de 50, 80 y 70 puntos. El tiempo de realizaciónde cada examen era proporcional a la importancia delmismo. Así, primer examen tuvo una duración de mediahora, el segundo de una hora y el tercero de hora y media.Calcular la nota media del alumno mediante la mediaaritmética ponderada.
(Sol.:70 puntos)
MEDIA ARITMÉTICA PONDERADA
Dada una distribución de frecuencias de una variableordinal o cuantitativa{(xi , ni); i=1,...,k} con N=n1+n2+...+nk el número de datosobservados
Se define la MEDIANA (Me) como el valor o dato dela distribución que ddivide ésta en dos partes iiguales,dejando la mitad de los datos por debajo (y la otramitad) por encima. Es decir la frecuencia de datos másbajos y más elevados que la mediana son ambas del50%
Su cálculo depende del tipo de variable analizada.
MEDIANACálculo para DATOS DISCRETOS:
Se identifica el dato o modalidad cuya frecuenciaacumulada es N/2.
Para ello se ordenan los datos de forma creciente y sedetecta el entero m tal que
m-1< N/2 mSi N es impar la mediana es: MMe= xm
Si N es par y la variable es cuantitativa por convenio lamediana es la media de los dos valores centrales
MEDIANA
21mm xxMe
MEDIANAEjemplos
c) Calcular la mediana de las siguientes distribuciones de valores:Xi ni Ni
1 3 3
3 6 9
4 9 18
6 9 27
8 5 32
9 4 36
a) Calcular la mediana de la siguiente distribución de valores:
1, 3, 4, 5, 6, 7, 9
b) Calcular la mediana de la siguiente distribución de valores:
EjemploLa mitad de los alumnos que menos horas diarias dedican alestudio, ¿cuántas horas como máximo dedican?
Al menos la mitad de los alumnos estudian menos de 3horas al día
MEDIANA
Nº horas de estudiodiarias
Nº de alumnos
xi ni fi Ni Fi
1 10 20% 10 20%
2 15 30% 25 50%
3 18 36% 43 86%
4 5 10% 48 96%
5 2 4% 50 100%
50
%501F
2 50%F
CUESTIÓN 1 :La mitad de los alumnos que menos horas diarias dedican alestudio, ¿cuántas horas como máximo dedican?
Al menos la mitad de los alumnos estudian menos de 2,5 horas al día
1 2 3 2.5 2 2
m mx xMe
Cálculo para DATOS CONTINUOS O AGRUPADOS:
MEDIANA
50% 50%
Me
50% 50%
Me
n1
n2
n31. Obtendremos las frecuenciasacumuladas absolutas (Ni).
2. Identificaremos el intervalo de“clase mediano” (Lm-1 , Lm]que es aquél cuya frecuenciaacumulada es superior al50%. Esto es:
Nm-1 < N/2 Nmó
Fm-1 < 50% Fm
3. Si Fm = 50%: =Si Fm > 50%:= =
MEDIANA. EJERCICIOSEEjercicio En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
Obtén el intervalo mediano del salario mensual delos trabajadores de la empresa.
MEDIANA
EEjercicio
Li-1 Li ni xi fi ai di Ni Fi
500 1000 50 750 10% 500 0.1000 50 10.00%
1000 1500 150 1250 30% 500 0.3000 200 40.00%
1500 2000 200 1750 40% 500 0.4000 400 80.00%
2000 2500 90 2250 18% 500 0.1800 490 98.00%
2500 3000 10 2750 2% 500 0.0200 500 100.00%
500
1500 2000 200 1750 40% 500 0.4000 400 80.00%
El intervalo mediano es el 3º : [1.500-2.000) L3 = 80% > 50% Me = 1750 €
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
10%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
40%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
80%
Me = 1750 €
MEDIANA. EJERCICIOSEEjercicio En otra empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores500-1000 501000-1500 2001500-2000 1502000-2500 902500-3000 10
Obtén el intervalo mediano del salario mensual delos trabajadores de la empresa.
MEDIANA
EEjercicio
Li-1 Li ni xi fi ai di Ni Fi
500 1000 50 750 10% 500 0.1000 50 10.00%
1000 1500 200 1250 40% 500 0.4000 250 50.00%
1500 2000 150 1750 30% 500 0.3000 400 80.00%
2000 2500 90 2250 18% 500 0.1800 490 98.00%
2500 3000 10 2750 2% 500 0.0200 500 100.00%
500
1000 1500 200 1250 40% 500 0.4000 250 50.00%
El intervalo mediano es el 2º : [1.000-1.500) F2 = 50% Me = 1.500 €
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
10%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
50%
Me = 1500 €
Medimos la dureza de una serie de minerales:
1 1 2 2 3 4 4 5 6 7
La escala de Mohs es una relación de diez minerales ordenados por su dureza, de menor a mayor. Se utiliza como referencia de la dureza de una sustancia. Se basa en el principio de que una sustancia cualquiera puede rayar a otras más blandas, sin que suceda lo contrario
MEDIANALa mediana tiene sentido y puede calcularse también condatos cualitativos cuando la escala de medida utilizada esordinal
MEDIANA. PROPIEDADES
Es única, si bien puede aproximarse de formas diferentes.(como la marca de clase del intervalo mediano, o en basea proporcionalidad)
No utiliza todos los datos
No tiene sentido para variables cualitativas con escala de medida nominal.
Es más robusta que la media.
Minimiza el error absoluto medio
No es invariante frente a cambios de escala y origen.
No es una medida descomponible
0
5
10
15
20
1 2 3 4 5
3Me
74.2x
MEDIANA. PROPIEDADESRobustez
Mediana versus media aritmética.
2 4 7 8 9
2 4 7 8 997Me
7Me
6x
24x
MEDIA vs MEDIANA
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2017
Años Salario Medio Salario Mediano
2012 1.850,30 1.579,00
2013 1.869,10 1.600,20
2014 1.881,30 1.602,50
2015 1.893,70 1.596,80
2016 1.878,10 1.594,50
2017 1.889,00 1.590,30
Salarios mensuales del empleo principal (euros)Valores medios y medianos. 2006-2013
MEDIANA. PROPIEDADES
Dados los números 2, 4, 7, 8 y 9 planteamos encontrar el valor x que minimiza el error/desviación absoluta media como un problema usual de minimización:
La mediana minimiza la distancia o error absoluta media
2 4 7 8 9x
( )i i
iopt
x x nMin e x x Me
N
2 4 7 8 9( )
57
x x x x xMin e x
x Me
Se cumple:Y XMe a b Me
Supongamos que en la cuestión sobre el salario de lostrabajadores se plantea un aumento salarial de un 10% juntocon un parte constante de 50 euros mensuales, en conceptode dietas. Y = Nuevo salario Y=50+1.1 X
Cambio de escala y de origen
MEDIANA. PROPIEDADES
Si hacemos Y a b X
Tras la subida salarial, podemos afirmar que el salariomensual del 50% de los trabajadores será inferior a1.837,25€
50 1.1 1.837,25 Y XMe Me
EEjercicioDe un sector económico se tiene la siguiente información sobrelas ventas de las empresas que lo componen:
Identifica el intervalo mediano del Volumen de ventas de lasempresas del sector y aproxima en él la mediana.
MEDIANA. EJERCICIOS
MEDIANA. EJERCICIOS
Li-1 Li ni fi Ni Fi
50 100 30 15,00% 30 15,0%
100 200 25 12,50% 55 27,5%
200 500 40 20,00% 95 47,5%
500 1000 50 25,00% 145 72,5%
1000 2000 25 12,50% 170 85,0%
2000 5000 30 15,00% 200 100,0%
Total 200 100,00%
El volumen de ventas mediano se encuentra en elintervalo[500-1000). Aproximando con la marca declase se obtiene que Me=7.500.000€
El propietario de una pequeña empresa tiene asignado un sueldo de3.910 € mensuales. Los salarios mensuales de sus empleadosaparecen en la tabla siguiente:
a) ¿Cuál es el salario medio en la empresa incluyendo al propietario?¿Y el salario medio de los empleados sin incluir al propietario?(1.031,63 € y 871,72 €)b) ¿Cuál es el salario mediano en la empresa incluyendo alpropietario? ¿Y el salario mediano de los empleados sin incluir alpropietario? (859 € y 856 €)
480 510 739 883 859 499
505 1106 980 1172 853 487
553 944 920 1713 1893 595
EEjercicioMEDIANA. EJERCICIOS
Dada una distribución de frecuencias de una variable{(xi , ni); i=1,...,k}con N=n1+n2+...+nk el número de datos observadosSe define la MODA (Mo) como el valor o dato de ladistribución que se observa en más individuos, quemás se repite. Es decir, la moda corresponde a lamodalidad cuya frecuencia es más alta.
Su cálculo depende del tipo de variable analizada.Pueden darse varias modas y dependiendo delnúmero de modas, las distribuciones se clasificancomo unimodales, bimodales ó multimodales.
MODA• Cálculo para DATOS DISCRETOS:
Se identifica la modalidad cuya frecuencia es mayor:Mo=xj si nj=máx{ni}
Cálculo para DATOS CONTINUOS O AGRUPADOS:
21 mm LLMo
MODA
1. Se calcula la densidad de frecuencia: di=ni/ai
2. Se identifica el intervalo “clase modal” (Lm-1,Lm] cuya densidad de frecuencia es máxima
3. Se aproxima la Moda (Mo):
xi ni
[0, 1) 12
[1,2) 16
[2,3) 12
[3,4) 14
[4,5) 16
[5,10] 30
30
161412
[0, 1) [1,2) [2, 3) [3,4) [4,5) [5,10]
MODA
Ejemplo: Calificaciones de una asignatura (datos agrupados)
En distribuciones agrupadas en intervalos con amplitudes distintas, la moda corresponde a la máxima densidad.
xi ni ai di
[0, 1) 12 1 12
[1,2) 16 1 16
[2,3) 12 1 12
[3,4) 14 1 14
[4,5) 16 1 16
[5,10] 30 5 6
30
161412
[0, 1) [1,2) [2, 3) [3,4) [4,5) [5,10]
MODAEn distribuciones agrupadas en intervalos con amplitudes distintas, la moda corresponde a la máxima densidad.
MODA. PROPIEDADESNo tiene por qué ser única.
Si existen varias modas es indicación de que lapoblación no tiene un comportamiento homogéneorespecto a la variable, sino que existen dos o másgrupos diferenciados.
No es invariante frente a cambios de escala y origen
No es una medida descomponible.No se ve afectada por valores extremos.Es fácil de interpretar y sencilla de calcular.No utiliza los datos.
Y XMo a b MoSi hacemos Y a b X
MODA. EJERCICIOSEEjercicio En una cierta empresa los salarios mensuales de lostrabajadores se distribuyen como se recoge en la tabla:
3838383838383838383838383838Estatura de las alumnas
0
5
10
15
20
25
30
35
40
MODA: Distribuciones multimodales CUANTILESSe define CUANTIL DE ORDEN p (Qp) como el valorde la variable que divide la distribución en dos partescuyas frecuencias son p y 1-p, es decir, hay unafrecuencia igual a p por debajo de él y una frecuencia1-p por encima de él.
Es una extensión del concepto de medianaposibilitando que el porcentaje acumulado del 50%pueda ser cualquier otro valor p, tal que 0<p<1
Q0,7
CUANTILES: CuartilesLos cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
25% 25% 25% 25%
C2C1 C3
25% 25% 25% 25%
C2C1 C3
CUARTILES:Dividen la distribución en cuatro partes iguales.Los denotamos por { Ci ; i=1,2,3 } y son los
cuantiles de orden 0.25; 0.50 y 0.75.
C1=Q0.25
C2=Q0.5=MeC3=Q0.75
CUANTILES: Deciles
Los cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
DECILES:Dividen la distribución en diez partes iguales.Se denotan por {Di; i=1,2,…,9} y son los cuantiles
de orden 0.1; 0.2;…; y 0.9
Di=Qi/10
i=1,2,…,9D 1 D
2D
3D
4D
5D
6D
7D
8D
91 2 3 4 5 6 7 8 9
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
CUANTILES: PercentilesLos cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
PERCENTILES:Dividen la distribución en cien partes iguales.Se denotan por { Pi ; i=1,2,…,99} y son los cuantilesde orden 0,01; 0,02;…; y 0,99.
Pi=Qi/100
i=1,2, …, 99
Cálculo del CUANTIL de orden p (QQp)
1. Calcular las frecuencias acumuladas Ni y/o Fi
2. Identificar m tal que < × %(o < × )
Si la variable es discreta y no agrupada en intervalos
Si > × %: =Si = × %: =
En una variable continua agrupada en intervalos
Si > × %: = =Si = × %: =
CUANTILES
CUANTILES. PROPIEDADES
Son únicos.Su robustez depende del valor de p: cuanto más cerca de 0 ó 1 son menos robustos; cuanto más cerca de 0.5 (mediana) son más robustos.No tiene sentido para variables cualitativas medidas en escala nominalNo son invariantes frente a cambios de escala y origen
No son descomponibles.p pQ Y a b Q XSi hacemos Y a b X
CUANTILES
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2013
CUANTILES
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2017
CUANTILES: EjemplosEEjemplo Dada la siguiente distribución de datos
calcula el valor de los cuartiles
C1 = 3
C3 = 6
xi ni Ni Fi
1 4 4 11,11%
3 6 10 27,77%
4 9 19 52,77%
6 9 28 77,77%
8 4 32 88,89%
9 4 36 100,00%
3 6 10 27,77%
6 9 28 77,77%
0,25iF
0,75iF
CUANTILES: Ejemplos
C1 = 3,5
C3 = 7
xi ni Ni Fi
1 3 3 8,33%
3 6 9 25,00%
4 9 18 50,00%
6 9 27 75,00%
8 5 32 88,89%
9 4 36 100,00%
EEjemplo Dada la siguiente distribución de valores:Calcula el valor de los cuartiles
En un estudio descriptivo de los datos, es importantecompletar la síntesis proporcionada por las medidas deposición, evaluando así mismo el alejamiento o cercaníaglobal entre el conjunto de datos.Para ello se deben utilizar medidas de dispersión quemiden numéricamente el grado de variabilidad presenteen los valores de la variable.Por otra parte, existen medidas de dispersión diseñadaspara cuantificar la distancia de los datos con respecto adiferentes medidas de posición. De este modo, sirvenpara analizar la representatividad de éstas.
MEDIDAS DE DISPERSIÓN
Medidas de dispersión ABSOLUTA• No hacen referencia a ninguna medida de tendencia
central: • Recorridos muestral, intercuartílico, decil y percentil
• Hacen referencia a una medida de tendencia central:• Desviaciones cuadráticas: Varianza y Desviación Típica
Medidas de dispersión RELATIVA• No hacen referencia a ninguna medida de tendencia
central:• Recorrido semi-intercuartílico
• Hacen referencia a alguna medida de tendencia central• Coeficiente de Variación de Pearson
CLASIFICACIÓN
MEDIDAS DE DISPERSIÓN ABSOLUTAEntre los datos
RI = C3 - C1
- Recorrido muestralInconveniente: No tiene en cuenta las observaciones centrales, ypor tanto, puede verse muy afectado por la existencia de atípicos
- Recorrido IntercuartílicoAmplitud del intervalo que recoge el 50% de las observaciones o valores centrales.
Re = xk - x1
OBSERVACIÓN: Del mismo modo, se puede definir el
Recorrido décil Rd=D9-D1
Recorrido percentil Rp=P99-P1
MEDIDAS DE DISPERSIÓNEjercicio
En una cierta empresa los salarios mensuales y el númerode trabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores
500-1000 50
1000-1500 150
1500-2000 200
2000-2500 90
2500-3000 10
a) Calcula el recorrido y el recorrido intercuartílico
b) El 80% central de los salarios, ¿entre que valores seencuentra?
MEDIDAS DE DISPERSIÓN. VARIANZA
La distancia o desviación de los datos respecto de la mediaaritmética es la más importante medida de dispersión. Semide en términos cuadráticos, obteniendo una distanciaglobal promedio, que es la Varianza de una variable X:
22
1
1 k
X i ii
S x x nN
Respecto de una medida de posición
Es no negativa y si es cero es porque todos los valores coinciden y no hay dispersión
Cuanto más dispersa es la distribución, mayor es el valor de S2
2 0XS 2 S 0 X i iSi x x x
MEDIDAS DE DISPERSIÓNPara el cálculo de la varianza se emplea la expresión equivalente: 22 2
1
1N
k
X i ii
S x n x
que se denomina formula abreviada de la varianza.
Si hacemos Y a b X 2 2 2 bY XS S
La varianza viene dada en unidades cuadráticas, por ello se utiliza la desviación típica, que es su raíz cuadrada
22 2
1
1N
k
X X i ii
S S x n x
Si hacemos Y a b X bY XS S
VARIANZA. EJERCICIOSEjercicio
En una cierta empresa los salarios mensuales y el númerode trabajadores se distribuyen como indica la tabla:
Salario mensual
Número de trabajadores
500-1000 50
1000-1500 150
1500-2000 200
2000-2500 90
2500-3000 10
Obtén el valor de la desviación típica
Salario mensual
Número de trabajadores
500-1000 50 750 37.500 28.125.000
1000-1500 150 1.250 187.500 234.375.000
1500-2000 200 1.750 350.000 612.500.000
2000-2500 90 2.250 202.500 455.62.000
2500-3000 10 2.750 27.500 75.625.000
N=500 805,000 1,406.250.000
= 1.610 €
VARIANZA. EJERCICIOS
S2 = 220.400 €2
S = 469,47 €
ix i ix n 2i ix n
MEDIDAS DE DISPERSIÓN RELATIVASA fin de comparar la dispersión existente en dos o másconjuntos de datos, o dos o más distribuciones, opoblaciones diferentes, se utilizarán las medidas dedispersión relativas.
Para evaluar la dispersión en términos relativos, ha deeliminarse la influencia de las unidades y medidas propiasde cada conjunto de datos; todo ello se consigue medianteuunos coeficientes que son adimensionales.
Diremos que un conjunto de datos es más homogéneo queotro si su dispersión relativa es menor y será másheterogéneo si presenta mayor variabilidad (relativa).
Para concluir sobre la homogeneidad, se compararán loscoeficientes diseñados, y el menor señalará a la población, ala variable o, al conjunto de datos más homogéneo.
MEDIDAS DE DISPERSIÓN RELATIVAS
)()(
13
13
CCCCRSI
Recorrido Semi-intercuartílico viene dado por:
• Son medidas adimensionales• No son invariantes ante cambios de origen,
pero sí de escala
Entre los datosSon la versión relativa de los recorridos.
Recorrido Relativo se obtiene como:
minRe máxr
máx máx
x xR
x x
MEDIDAS DE DISPERSIÓN RELATIVAS
xSCV
La versión relativa de la varianza es el Coeficiente deVariación de Pearson que se obtiene como:
• Es una medida adimensional que si es menor que 0.2 (20%)indica que la dispersión relativa es baja y por ende se puedeconcluir que la media aritmética es representativa. En casocontrario, no lo será.
• No debe utilizarse cuando la media aritmética es cero o muypróxima a cero.
• No es invariante ante cambios de origen pero sí de escala
Entre los datos y una medida de posición En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
a) Hemos de calcular el C.V. y concluir469.47. . 100 29,15%1.610
XSC V Xx
b) Hacemos 1,5 250 1,5 704,2Y XY X S S
c) Calculamos el C.V. de la nueva variable Y, para comparar:
704,2. .( ) 100 32,53%2.165
YSC V Yy
COEFICIENTE DE VARIACIÓN. EJEMPLOS COEFICIENTE DE VARIACIÓN. EJEMPLOSEEjercicio
De un sector económico se tiene la siguiente informaciónsobre los datos de facturación de las empresas que locomponen:
Volumen deventas (104 €)
Número deempresas
50-100 30100-200 25200-500 40
500-1000 501000-2000 252000-5000 30
Calcula el coeficiente de variación (113,47%).
¿Es representativa la media? (No)
TIPIFICACIÓN DE DATOSPara comparar datos de distintas distribuciones, éstosdeben trasladarse a un origen común y estandarizarse.Tipificación: Es la transformación de una variableestadística X cualquiera en una variable tipificada.
RESULTADO: Si X es una variable estadística cuya mediaaritmética es y su varianza SX
2, la variable tipificada Z seobtiene mediante:
XSxXZ
La media aritmética de Z es 0 y su varianza 1.
Los valores o datos tipificados se comparan y aquél queresulte más alto (en valor absoluto) señalará al dato que esmás alejado o atípico respecto de su distribución.
x
TIPIFICACIÓN. EJEMPLOSEEjercicio
De los resultados obtenidos en unas oposiciones se tiene lasiguiente tabla con las puntuaciones proporcionadas por dostribunales distintos:
Si un opositor tiene una puntuación de 31 puntos en el TribunalA y otro opositor tiene una calificación de 16 con el Tribunal B.¿Cuál de los dos irá primero al confeccionar una lista conjunta?
MEDIDAS DE FORMAJunto con la posición y dispersión de un conjunto de datos, es
posible medir la apariencia del histograma de frecuencias. Lasmedidas de forma tratan de detectar si la distribución de los datospuede no ser conforme a los supuestos que usualmente serequieren en un análisis estadístico porque podrían invalidar losresultados obtenidos al utilizar las herramientas técnicas.
Se basan en comparar las colas de la distribución entre sí o porcomparación con los valores centrales de las mismas.Se clasifican en:
MEDIDAS DE ASIMETRÍA:que cuantifican si existe algún desequilibrio en una de lascolas de la distribución
MEDIDAS DE CURTOSIS:que cuantifican el perfil más o menos apuntado de ladistribución
ASIMETRÍA. GRÁFICOSASIMETRÍA: Es la apariencia de la distribución comparando los
valores y sus frecuencias de la cola derecha frente a la cola izquierda.
DistribuciónSIMÉTRICA
Distrib. AsimétricaNegativa
Distrib. AsimétricaPositiva
ASIMETRÍA. CLASIFICACIÓNTTipos de distribuciones
Una distribución es simétrica si existe el mismo número devalores equidistantes y con la misma frecuencia a amboslados del eje de simetría trazado por X = Me = Mo.
Una distribución es asimétrica a la derecha cuando lasfrecuencias descienden más lentamente por la derechaque por la izquierda, resultando una rama derecha máslarga que la de la izquierda respecto de la moda X > Mo.
Una distribución es asimétrica a la izquierda cuando lasfrecuencias descienden más lentamente por la izquierdaque por la derecha, resultando una rama izquierda máslarga que la de la derecha respecto de la moda X < Mo.
Tipos de distribuciones
X = Me = Mo
Simetría
Me X
Asimetría a Derecha Asimetría a Izquierda
XMo Me Mo
Mo Me X X Me MoX = Me = Mo
ASIMETRÍA. GRÁFICOS Y MEDIDAS
Tipos de distribuciones
X = Me
Simetría
Me X
Asimetría a Derecha Asimetría a Izquierda
X Me
C1 C2 C1 C2 C1 C2C3 C3 C3
ASIMETRÍA. GRÁFICOS Y MEDIDAS ASIMETRÍA. EJEMPLOS
Esperanza de vida (en años)
80,078,0
76,074,0
72,070,0
68,066,0
64,062,0
60,058,0
Histograma
Frec
uenc
ia
12
10
8
6
4
2
0
Desv. típ. = 5,20 Media = 73,0
N = 49,00
Distribución de la esperanza de vida en países
Exportaciones (Miles de millones de $)
450,0
425,0
400,0
375,0
350,0
325,0
300,0
275,0
250,0
225,0
200,0
175,0
150,0
125,0
100,0
75,0
50,0
25,0
0,0
Histograma
Frec
uenc
ia
20
10
0
Desv. típ. = 103,39 Media = 66,7
N = 49,00
ASIMETRÍA. EJEMPLOS
Distribución de las exportaciones en paísesCoeficiente de Asimetría de Fisher:
En simetría perfecta, las modalidades y sus frecuenciasestán exactamente equilibradas en signo positivos ynegativos. Por ello, Fisher introduce una potencia impar, latercera de la desviación –estandarizada- de lasmodalidades, respecto de la media aritmética.
> 0 Asimétrica Positiva
< 0 Asimétrica Negativa= 0 Simétrica
3
1
1. .k
ii
i X
x xC A F nN S
ASIMETRÍA. MEDIDAS
Recuperando la expresión de los valores tipificados, lo calcularemos como:
3
1
1. .k
i ii
C A F z nN
MEDIDAS DE CURTOSIS
CURTOSIS: Es la apariencia de lazona central comparándola conlas colas de la distribución.
- Se toma como referencia ladistribución normal, cuyacurtósis es 0.
Sólo debería medirse endistribuciones campaniformes,unimodales y simétricas o conligera asimetría.
Curtosis>0
Curtosis=0
Curtosis <0
MEDIDAS DE CURTOSISCOEFICIENTE DE CURTOSIS DE FISHER: Se define como la
potencia cuarta de la desviación estandarizada de los valoresrespecto de la media aritmética menos el valor dereferencia de la normal (3).
Si C.K. = 0 la distribución se dice mesocúrtica(apuntamiento igual que la normal)Si C.K. > 0 la distribución se dice leptocúrtica
(apuntamiento superior a la normal)Si C.K. < 0 la distribución se dice platicúrtica
(apuntamiento inferior que la normal)
4
1
1. . 3k
ii
i X
x xC K nN S
MEDIDAS DE FORMA.SIGNIFICATIVIDADSe considera que un coeficiente de asimetría de Fisher es significativo estadísticamente, si en valor absoluto, es superior a , es decir:
Se considera que un coeficiente de curtosis de Fisher es significativo estadísticamente, si:
Todos los coeficientes tanto de asimetría como deapuntamiento, al ser medidas relativas, son invariantesfrente a cambios de origen y escala. La asimetría y lacurtosis no dependen de las unidades, ni del origen.
NCAF 62
NCK 242
N62
En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Rentabilidad díaria del IBEX 35 durante 1251 sesiones
DIAGRAMA DE CAJAS: EJEMPLOS
Coeficiente de Asimetria: 0,259Coeficiente de Curtosis: -1,421
Renta personal (en $)
22000,020000,0
18000,016000,0
14000,012000,0
10000,08000,0
6000,04000,0
2000,00,0
Histograma
Fre
cuen
cia
12
10
8
6
4
2
0
Desv. típ. = 6759,23 Media = 9348,2
N = 49,00
49N =
Renta personal ($)
30000
20000
10000
0
-10000
Renta per cápita en $ en 49 países
Transformaciones
Sea Y = a X + b. Se cumple:
bXaY bXaMeYMe )()(
bXaMoYMo )()( bXaQYQ pp )()(
)()( XaRYR )()( XaRIYRI
)()( 222 XSaYS )()( XaSYS
)()( XCAFYCAF )()( XCKYCK
Introducción
En Economía es frecuente el estudio de magnitudescuyo valor global se distribuye entre el total decomponentes de una población.
Este sería el caso de la masa salarial percibida por elconjunto de asalariados de cierto sector, o de losdividendos que percibirán una serie de accionistas, osimplemente de los presupuestos generales del Estado, quese distribuirán entre distintos epígrafes presupuestarios.
En casos como éstos, es interesante conocer cómo sereparte entre los perceptores la variable económicaconsiderada.
MEDIDAS DE DESIGUALDAD
MEDIDAS DE DESIGUALDADLas Medidas de Desigualdad o Concentración indicansi una cierta magnitud total se encuentra repartidaequitativamente o por el contrario existen desequilibriosen su reparto.
Se aplican a variables socio-económicas que sonsusceptibles de ser repartidas.
Su objetivo es cuantificar el grado de desigualdad enel reparto de una magnitud económica (rentas,negocios, beneficios, nivel de riqueza, etc) entre unnúmero determinado de “unidades” (individuos,familias, empresas,...).
Vamos a estudiar la desigualdad de dos formas, unanumérica: Índice de Gini y otra gráfica: Curva de Lorenz
Oxfam International (19 de enero de 2015):
“EEl 1% de la población con mayor riqueza personal acumula un
porcentaje de la riqueza superior al resto
de la población en 2016”
MEDIDAS DE DESIGUALDAD
MEDIDAS DE DESIGUALDADDenominamos desigualdad (concentración) a la mayor o menorequidad en el reparto de la suma total de los valores de la variableconsiderada. Las infinitas posibilidades que pueden adoptar losvalores, se encuentran entre los dos extremos:
Mínima desigualdad (concentración) o máxima igualdad:Cuando a todos los integrantes del conjunto perceptor se lesasigna la misma cantidad en el reparto del monto total.
x1= x2 =…= xk-1= xk
Máxima desigualdad (concentración) o mínima igualdad:cuando un único perceptor recibe la suma total a repartir y losdemás no perciben nada.
x1= x2 =…= xk-1= 0; xk 0Estas dos situaciones deberán estar claramente identificadas porlas medidas de desigualdad y que asimismo deberán graduar lassituaciones intermedias, entre las que se encuentra toda lacasuística en los repartos.
MEDIDAS DE DESIGUALDADPara una variable estadística X = {(xi , ni); i = 1,2, …, k}, dondexi es la renta de cada individuo, con modalidades ordenadas:
x1 < x2 < ... < xk
Se comienza calculando las cantidades acumuladas de losingresos ui = x1n1+…+xini (total que se reparten losindividuos que perciben una renta xi o menor)
Ambas medidas de desigualdad comparan:
Las frecuencias relativas acumuladas (expresadas en %)(porcentaje de población con renta menor o igual que xi)
pi = 100*Ni/N; i = 1,…,kLas proporciones acumuladas de los ingresos (porcentajedel total a repartir (uk) que se llevan los individuos cuyarenta es menor o igual que xi)
qi = 100* ui/uk; i = 1,…,k
MEDIDAS DE DESIGUALDAD
Es conveniente construir la tabla siguiente:
xi ni xini Ni uix1 n1 x1n1 N1 u1 =x1n1
x2 n2 x2n2 N2 u2 =x1n1+ x2n2
x3 n3 x3n3 N3 u3 =x1n1+ x2n2+ x3n3
….. ….. ….. ….. …..xk nk xknk Nk uk =x1n1+ x2n2+ …+ xknk
La columna xini contiene el total de la renta percibida ensu conjunto por los ni individuos con renta xi.Las columnas Ni y ui presentan el montante acumuladodel reparto (ui) y de individuos que se la reparten (Ni).pi y qi representan dicha evolución, pero expresada entérminos relativos (%).
EjemploUn padre de familia con 4 hijos decide testar y repartir su patrimonio de la siguiente forma.
Total = 100.000 €Hijo 1: 10.000 €
Hijo 2: 50.000 €
Hijo 3: 30.000 €
Hijo 4: 10.000 €
Construir la tabla y calcular los valores de pi y qi.
CURVA DE LORENZCurva de Lorenz (Lorenz, 1905) Es una representación
gráfica de la desigualdad de la variable: es la curva opoligonal que une los pares de puntos pi y qi obtenidospara las correspondientes modalidades de la variable dereparto.
CURVA DE LORENZ. PROPIEDADESSiempre se encuentra situada por debajo de la diagonal
principal.Es creciente (pi y qi son valores acumulados).Se interpreta en relación a la proximidad o alejamiento de
las dos situaciones extremas. Cuanto más cercana esté lacurva a la línea de equidistribución pi =qi menor será ladesigualdad y cuanto más próxima a la curva deconcentración máxima, mayor seráDominación: una curva de Lorenz domina a otra cuandopara cualquier proporción de población p se encuentrapor encima. La distribución dominante es más igualitaria.Intersección: cuando las curvas de Lorenz se intersectan,no es posible concluir en la comparación.
ÍNDICE DE GINI. DEFINICIÓNEl Índice de Gini fue propuesto por Conrado Gini (1912) y hasido y es la medida numérica más utilizada para cuantificarel grado de desigualdad en el reparto de la riqueza, si bienpuede utilizarse para medir cualquier forma de repartodesigual de magnitudes de reparto.
Representa de forma aproximada el área comprendidaentre la curva de Lorenz y la diagonal respecto del áreabajo la diagonal. Viene dado por la fórmula:
1 1
1 11 1
1 1
1
k k
i i ii i
G k k
i ii i
p q qI
p p
ÍNDICE DE GINIPropiedadesLos valores del IG en los dos casos extremos son:
IG = 0 Indicaría que no hay desigualdad. La magnitud está repartida por igual entre los N individuos - línea de equidistribución-.
IG = 1 Indica que la desigualdad en el reparto es máxima es decir, una modalidad acumula o concentra el montante total de toda la magnitud a repartir.
Para los casos intermedios:
Valores próximos a 1 índican fuerte nivel de desigualdad, mientrasque los valores próximos a 0 reflejan escasa concentración y proximidad a la situación de igualdad.
Es una medida adimensional (no tiene unidad de medida).Es invariante ante cambios de escala, pero no ante cambios de origen.
10 GI
MEDIDAS DE DESIGUALDAD
Ejercicio:
Se reparten 100.000 € de la siguiente forma:
1.000 € a 5 personas, 5.000€ a 1 persona y 90.000 a 1 persona
1.000 € a 5 personas, 5.000€ a 1, 10.000 € a 4 y 50.000 a 1 persona
1.000 € a 5 personas, 5.000€ a 3, 10.000 € a 4 y 20.000 a 2 persona
2.000 € a 5 personas, 5.000€ a 4, 10.000 € a 5 y 20.000 a 1 persona
¿Cuál de los repartos es más equitativo? Calcula el índice de Gini y
EjemploSe reparten 100.000 € de la siguiente forma:
1.000 € a 5 personas, 5.000€ a 1persona y 90.000 a 1 persona1.000 € a 5 personas, 5.000€ a 1, 10.000 € a 4 y 50.000 a 1 persona1.000 € a 5 personas, 5.000€ a 3, 10.000 € a 4 y 20.000 a 2 persona2.000 € a 5 personas, 5.000€ a 4, 10.000 € a 5 y 20.000 a 1 persona
¿Cuál de los repartos es más equitativo? IG = 0,92IG = 0,70IG = 0,54IG = 0,36
MEDIDAS DE DESIGUALDAD
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
MEDIDAS DE DESIGUALDAD
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
Ejemplos – Índice de Gini
Índices de Gini para la concentración de la riqueza en el mundo
Ejemplos – Índice de Gini
Índices de Gini para la concentración de la riqueza en el mundo
Ejemplos – Curva de LorenzDiferencias en la distribución de la renta entre algunos países
desarrollados utilizando curvas de Lorenz
Ejemplos – Curva de Lorenz
Curvas de Lorenz de la distribución de los ingresos en España
RESÚMEN: ANÁLISIS INICIAL DE DATOS
Tipos de variables Tabulación Representación gráfica
Descripción numérica
Binarias Frec. no agrupadas Diagramas de sectores o barras
Media (proporción) o Moda
Nominales con más de 2 valores Frec. no agrupadas Diagramas de sectores o
barras Moda
Ordinales Frec. no agrupadas Diagramas de barras Moda, Mediana, Cuantiles
Cuantitativas discretas con pocos valores Frec. no agrupadas Diagramas de barras
Media (con reparos)Mediana y Moda
CuantilesDispersión
Forma
Cuantitativas discretas con muchos valores y continuas Frec. agrupadas Histogramas o