1 Pablo Salgado EMAIL: [email protected]Variables Concepto y Clasificación según su nivel de medición 2 ¿Qué es una variable? Las variables representan un concepto de vital importancia dentro de un proyecto de investigación. Las variables se refieren a propiedades de la realidad que cambian, en contraposición a las propiedades constantes de ciertos fenómenos. Las variables, son los conceptos que forman enunciados de un tipo particular denominado hipótesis. Los conceptos pretenden describir y explicar la experiencia y comunicar el conocimiento obtenido. 3 ¿Qué es una variable? Los conceptos están situados en un plano teórico mientras que las variables están situadas en un plano concreto y perceptible por los sentidos. La relación entre ambas cosas es lo que se busca mediante el proceso de investigación científica, lo cual se logra por medio de las definiciones operacionales de los conceptos. 4 Las variables, son características de la realidad que puedan ser determinadas por observación y que puedan mostrar diferentes valores o categorías de una unidad de observación a otra, de un individuo a otro. A partir de característica o propiedad las unidades de análisis de una muestra o población, se pueden diferenciar o no entre si. Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos mensuales, estado civil, etc. 5 Dependencia entre variables Variables dependientes: son características de la realidad que se ven determinadas o que dependen de los valores que asuman otros fenómenos o variables independientes. Variables independientes: Los cambios en los valores de este tipo de variables determinan cambios en los valores de otras (variable dependiente). 6 En una investigación se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. Esto significa que las variaciones en la variable independiente repercutirán en variaciones en la variable dependiente. En algunas situaciones hay co-dependencia entre variables, por lo tanto no hay variables independientes (ejemplo asociación entre peso y altura).
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Concepto y Clasificación según su nivel de medición
2
¿Qué es una variable? Las variables representan un concepto de vital importancia
dentro de un proyecto de investigación.
Las variables se refieren a propiedades de la realidad que
cambian, en contraposición a las propiedades constantes de
ciertos fenómenos.
Las variables, son los conceptos que forman enunciados de
un tipo particular denominado hipótesis. Los conceptos
pretenden describir y explicar la experiencia y comunicar el
conocimiento obtenido.
3
¿Qué es una variable?
Los conceptos están situados en un plano teórico mientras que las variables están situadas en un plano concreto y perceptible por los sentidos.
La relación entre ambas cosas es lo que se busca mediante el proceso de investigación científica, lo cual se logra por medio de las definiciones operacionales de los conceptos.
4
Las variables, son características de la realidad que puedan ser determinadas por observación y que puedan mostrar diferentes valores o categorías de una unidad de observación a otra, de un individuo a otro.
A partir de característica o propiedad las unidades de análisis de una muestra o población, se pueden diferenciar o no entre si.
Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos mensuales, estado civil, etc.
5
Dependencia entre variablesVariables dependientes: son características de
la realidad que se ven determinadas o que
dependen de los valores que asuman otros
fenómenos o variables independientes.
Variables independientes: Los cambios en los
valores de este tipo de variables determinan
cambios en los valores de otras (variable
dependiente).
6
En una investigación se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente.Esto significa que las variaciones en la variable
independiente repercutirán en variaciones en la variable dependiente.En algunas situaciones hay co-dependencia
entre variables, por lo tanto no hay variables independientes (ejemplo asociación entre peso y altura).
2
7
Por ejemplo, si un investigador desea conocer la efectividad de un nuevo tratamiento para prevenir una enfermedad, para ello se seleccionarán dos grupos independientes. A uno se le aplicará un tratamiento (casos) y otro al que no se le aplicará nada en absoluto (controles).
Para que el experimento tenga validez ambos grupos deben estar sometidos a las mismas condiciones para evitar que no aparezcan influencias de otras variables intervinientes (no controladas).
En este caso la variable independiente corresponde a la aplicación o no del tratamiento y la dependiente a la aparición o no de la enfermedad.
La escala de medida de una característica o variable,
tiene consecuencias en la forma de presentación de la
información y resumen estadístico.
La escala de medición, el grado de exactitud y
precisión en la medición de las variables, también
determina los métodos estadísticos que se usan para
analizar los datos.
Por tanto, es importante definir las características que
se van a medir y que escala de medición va a utilizar,
antes de comenzar cualquier trabajo estadístico.
10
Variables cualitativas: Son las variables que expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos.
Los niveles de medición de las variables cualitativas pueden ser nominales y ordinales.
Las variables cualitativas pueden ser dicotómicascuando sólo pueden tomar dos categorías o atributos posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más categorías.
11
Variables CualitativasSe denomina a cualquier variable no susceptible de ser
cuantificada. Siendo un atributo, cualidad o factor.Ejemplos:
o Estado Civil.o Sexo.o Profesión.o Calidad de un producto.o Evaluación en el nivel primario.
Podemos decir que es el nivel de medición más rudimentario.
Consiste en aplicar números o símbolos para clasificar a los objetos, personas y características
Las propiedades formales de la Escala Nominal, es decir, las condiciones que requiere, son que los miembros observaciones o elementos de una clase o categoría deben se equivalentes, idénticos respecto a la propiedad que tenemos en cuenta.
13 14
Son aquellas variables en el que los gruposse definen o diferencian por la presencia deun atributo o característica.
En este nivel de medición los valores nopueden ser sometidos a un criteriojerárquico. Estas variables no tienen ningúnorden inherente entre los atributos ni unorden de jerarquía.
15
La forma más sencilla de determinar si las observaciones
se miden con una escala nominal es peguntar si se
clasifican o se colocan en categorías equivalentes.
Con este tipo de escalas se pueden hacer algunas
operaciones estadísticas; por ejemplo contar cuantos
elementos hay en cada uno de los grupos formados y asi
tenemos las frecuencias absolutas por categoría o
atributo.
16
Como estadístico descriptivo se pueden calcular
frecuencias o porcentaje para cada atributo y ver
cuál es el grupo que tiene mayor frecuencia
alcanzando el concepto de “Moda”.
También obtener algunas medidas de
asociación/independencia cuando se relacionan
variables entre sí (tabla de contingencia).
Los gráficos más comunes para representar este
nivel de medición son los de sectores o barras.
17
Ejemplos de variables con escala nominal:
Clasificación por sexo: En donde las categorías posibles
son Femenino y Masculino (dicotómica).
Presencia o ausencia de una enfermedad (dicotómica).
Especialidades médicas en Consultorios Externos de un
hospital: Clínica Médica, Cardiología, etc. (politómica).
Son aquellas en que los grupos se establecen deacuerdo a la intensidad con que se presente un atributodeterminado. Si las categorías, atributos o valores queadopte una variable cualitativa poseen un orden,secuencia o progresión natural esperable, hablaremosde variable ordinal.
Puede establecerse orden, pero no medirse distanciadentro de ese orden. La medida estadística de tendenciacentral más apropiada para estas escalas es la"mediana“ y también las medidas de posición como loscuartiles, quintiles, deciles o percentiles.
21
Ejemplo: Los tumores, se clasifican en estadios o etapas
según su grado de desarrollo:
La clasificación internacional para valorar la etapa de un
carcinoma de cuello uterino es una escala ordinal de 0 a IV.
Donde la etapa 0 representa carcinoma in situ y la etapa IV
carcinoma que se extiende mas allá de la pelvis o que afecta
a la mucosa de vejiga y recto.
Desde luego, por orden inherente en esta escala ordinal, la
etapa IV tiene peor pronóstico que la 0.
22
EJEMPLOS DE ESCALAS ORDINALES
Grado de un Carcinoma.
Nivel de ejercitación desarrollado por semana: Alto,
medio, bajo, nulo.
Estudios cursados: Analfabetos, primarios,
secundarios, terciarios, universitarios.
Escala de Apgar del recién nacido.
Escalas de dolor.
Escalas del Coma de Glasgow.
Escalas Likert.
23
Una característica importante de las escalas ordinales es
que aunque existe un orden entre categorías la diferencia
entre dos grupos adyacentes no es la misma en la escala.
Para ilustrarlo, considérense las calificaciones APGAR, que
describen la madurez de niños recién nacidos en una
escala de 0 a 10, los valores menores indican depresión de
funciones cardiorrespiratorias y neurológicas. Sin embargo,
es probable que la diferencia entre una calificación de 8 y
una de 10 no sea de la misma magnitud que entre 4 y 6.
24
PUNTUACION DE APGAR
LOS VALORES DE CADA UNA DE LAS CINCO CATEGORÍAS SE SUMAN PARA GENERAR UN RESULTADO QUE VA DE 0 A 10.
Color Azuloso, pálido Cuerpo rosáceo, extremidades azulosa
Rosáceo en su totalidad
Respuesta refleja al catéter en fosa nasal
Ninguna Muecas Tos, estornudo
5
25
Este tipo de escalas ordinales que se construyen sumando la codificación de varias variables ordinales y obteniendo un puntaje final o total, en muchas ocasiones se pueden tratar como si fueran variables cuantitativas (continuas o discretas, según el caso).
Podemos denominarlas escalas de puntaje o scores para diferenciarlas de las variables cuantitativas.
Ejemplos de este tipo de variables complejas:
Escala de depresión de Beck, Minimental, Indice Clínico de Demencia, Coeficiente Intelectual, Escalas que miden la Atención, memoria, Escalas que miden la condición de un paciente (Coma de Glasgow, Apache II) y muchos otros.
Son las variables que se expresan mediante cantidades numéricas.
Las variables cuantitativas se clasifican en:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. (Números enteros)
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores, siempre existe un valor entre dos cualesquiera.
29
Todas las escalas numéricas pueden transformarse (agruparse) en escalas nominales y ordinales. Lo inverso no se puede realizar.
Si le asignamos un valor numérico a las categorías de una escala ordinal o nominal, estos no deben ser tratados como datos numéricos sino como un código para identificar al atributo o categoría.
EJEMPLOS DE ESCALAS NUMERICAS Peso. Estatura. Edad. Perímetro cefálico.
Número de hijos. Cantidad de habitaciones. Número de Partos. Cantidad de alumnos.
30
Variables Cuantitativas
Como se describió anteriormente, se denominaa cualquier variable susceptible de ser medidaen términos numéricos.
Ejemplos:
• Tensión arterial.
• Peso.
• Edad.
• Temperatura.
• Número de hijos.
6
31
La propiedad mas importante que presentan, por encima
de las escalas cualitativas, es que las distancias
numéricas iguales representan distancias iguales
empíricas.
Así podemos decir que a dos objetos a los que se ha
asignado en este tipo de escalas los números 5 y 10 están
igualmente separados que otros dos a los que se ha
asignado los números 10 y 15. Que algo que mida 4 es el
doble de otro que mide 2.
32
ESCALAS CUANTITATIVAS
Cuando una escala tiene todas las características de una escala ordinal y se conoce la distancia entre dos números cualesquiera.
Discretas
De intervalos
Continuas
De cocientes o razones
33
Cuando una observación solamente puede
medirse en valores enteros, la escala de
medición es discontinua o discreta.
La forma de medir en general es contando
unidades como por ejemplo hijos, embarazos,
cantidad de personas que se necesitan para una
tarea.
ESCALAS DISCRETAS34
Variables Cuantitativas Discretas:
Ejemplos:
Número de pacientes.
Número de habitaciones.
Número de personas que viven en un hogar.
Cantidad de médicos por paciente.
Número de camas de una sala de internación.
Frecuencia cardíaca.
Nº de células
35
Escalas cuantitativas contínuasUna escala de medida esta caracterizada por
una medida común y constante que asigna un número real a todos los pares de objetos en un conjunto ordenado.
Ejemplo de variables continuas:
Edad, peso, metros cuadrados de una jaula,
concentración de hemoglobina.
36
Una de las distinciones que se pueden hacer es entrelas variables cuantitativas que usan una escala denúmeros donde cero significa que la característica noexiste, y las variables cuantitativas que no atribuyen esesignificado a un punto cero.
Muchas de las variables cuantitativas (por ejemploingresos mensuales) poseen ese punto cero, de talmanera que quien gana $0 no gana nada, carececompletamente del atributo que estamos analizando. Deigual forma quien gana $1000 al día gana el doble quequien gana $500 al día (Escalas cuantitativas continuasde cociente o razón).
7
37
Otras variables cuantitativas no poseen en punto cero,tal es el caso de la temperatura: un objeto contemperatura cero no carece completamente de calor;en consecuencia un objeto cuya temperatura es 10º noes el doble de caliente que uno con temperatura 5ºsino simplemente 5º más caliente. (Escalascuantitativas continuas intervalares).
Muchas de las variables cuantitativas inventadas porlas Ciencias Psicológicas y Sociales pertenecen a estetipo.
Este tipo de variables no respeta el criterio de “mutuamente excluyente” como propiedades de una variable.
Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables dicotómicas como opciones tenga la variable con respuestas múltiple. Ej:
Cada categoría u opción se convertirá en una columna en la base de datos indicando: “Si” (1) o “No”(0)
Variables con Respuestas MúltiplesSon variables o “reactivos” de un cuestionario o encuesta (preguntas), en el
cual una unidad de análisis (encuestado) puede seleccionar más de una de
las categorías que toma la variable.
Ej: medicación antiepiléptica que toma un paciente.
Ej: tipo de literatura que le gusta leer.
Ej: tipo de géneros músicales que escucha.
Para poder informatizar en una base datos se transforma a cada categoría en
una variable. Dependiendo de cual sea la pregunta o reactivo la
categoría/variable puede ser nominal dicotómica (presencia o ausencia),
nominal politómica u ordinal.
60
Este tipo de variables no respeta el criterio de “mutuamente excluyente” que vimos con anterioridad como propiedades de una variable.
Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables como opciones tenga la variable con respuestas múltiple.
DECALOGO DEL PLAN DE INVESTIGACIÓN1 • Identificar el problema
2 • Buscar bibliografía
3 • Redactar objetivos
4 • Elegir a quienes estudiar
5 • Elegir qué datos recolectar
6• Definir pasos (Diseño)
7 • Planificar el registro de datos
8 • Planificar el análisis de datos
9 • Evaluar la viabilidad ética y material del proyecto
10 • Decidir donde se va a publicar o presentar el informe
Una vez recolectados los datos…
¿Cómo llego desde este punto a lograr ….
cumplir los objetivos?
contrastar la hipótesis?
responder a la pregunta de investigación?
¿Qué hay que diseñar?
1. Procesamiento
2. Sistematización
3. Análisis
4. Presentación
Varían según el nivel de
medición de las variables y
Varia según diseño de
investigación
1. Procesamiento Tareas “mecánicas o automatizada” necesarias
para volver útil la información para el análisis.
Datos: Numeración de planillas (identificación de Unidad de Análisis) Codificación: Ej. 1=Si, 2=No. Traducción: Ej. Fecha de nacimiento -> Edad Tabulación: Ej. Escala visual de Dolor, Cuestionario de Dash,
La estadística descriptiva es una gran parte de la estadística que propone resumir, analizar y representar los datos.
Generalmente este análisis es muy básico y sirve para caracterizar y resumir a las variable obtenidas.
Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central (Promedio, mediana y moda), para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.
77
En la mayor parte de los casos, del conjunto de datos que se obtienen en un estudio estadístico, no se desprende ninguna información útil de manera inmediata y evidente.
Los datos obtenidos tiene que ser organizados de tal manera que la información que contienen se resuma para mostrar patrones de variación.
Por otro lado solamente cuando se conocen las características de los datos se pueden decidir los métodos de análisis estadístico a realizar.
78
En esta clase se verá cómo clasificar y resumir los
diferentes tipos de variables obtenidos en un trabajo
estadístico y mostrar cómo se organizan y exhiben
estos resultados.
Cualquiera que sea el estudio estadístico que se
realice, los primeros pasos del procesamiento de
datos es, en general, transformarlos en cuadros,
gráficas o resúmenes de cifras, como porcentajes,
índices o parámetros que representan a una variable.
Cuando se trabaja con un conjunto grande de datos, laforma de organizarlos y resumirlos es construyendoTablas de Frecuencias de las variables de interes.
Esto nos permitirá observar como se distribuyen losdatos a lo largo del recorrido de la variable.
Podremos observar donde están más concentrados, sihay datos extremos, si hay simetría en la distribuciónetc.
Además dependiendo de cuál sea el nivel de medición de las
variables, el número de datos que se obtuvieron y el número de
variables involucradas en el resumen, se construirá diferentes
tipos de tabla de frecuencia.
89
Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes (propiedades de una variable) que indican el número de observaciones en cada una de las categorías.
Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos.
La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada intervalo de clase o categoría de una variable.
90
Criterios para armar una tabla de Frecuencias
Para datos medidos en escala nominal, la organización de las categorías es indistinta.
Para datos medidos en escala ordinal, hay que respetar el orden intrínseco de las categorías que toma la variable.
Para datos cuantitativos hay que agrupar los datos en intervalos de clase, con algún criterio y teniendo el cuenta el número de datos y el recorrido de la variable. En general el número de intervalos de clase va entre 7 y no más de 15.
16
91
Distribución de frecuencias y porcentual del Estado civil actual
Frecuencia Porcentaje
Soltero 22593 44,5
Casado 22372 44,0
Divorciado 1339 2,6
Separado 977 1,9
Viudo 3486 6,9
Ns / Nr 32 0,1
Total 50799 100,0
Variable cualitativa nominal: el orden de las categorías de las variables es arbitrario, por lo que no se debe calcular frecuencias o Porcentajes acumulados.
Base SIEMPRO 2001
92
Frecuencia Porcentaje
Ciudad de Bs As 1133 83,0
Gran Bs As 49 3,6
Interior del País 40 2,9
Bolivia 121 8,9
Perú 5 ,4
Paraguay 15 1,1
Brasil 1 ,1
Otros Países 1 ,1
Total 1365 100,0
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niños
93
Nivel Educativo alcanzado
Variable cualitativa ordinal: el orden de las categorías de las variables no es arbitrario, por lo que se pueden calcular frecuencias o porcentajes acumulados.
Base SIEMPRO 2001
Nivel educativo FrecuenciaFrec.
Relativa Porcentaje%
acum.
Nunca asistió 419.406 0,015 1,5% 1,5%
Preescolar 631.322 0,022 2,2% 3,6%
Primario incompleto 7.468.725 0,259 25,9% 29,5%
Primario completo 5.366.333 0,186 18,6% 48,1%
Secundario incompleto 6.778.825 0,235 23,5% 71,6%
Secundario completo 3.097.247 0,107 10,7% 82,3%
Terciario incompleto 2.842.689 0,098 9,8% 92,1%
Terciario completo 2.076.122 0,072 7,2% 99,3%
Posgrado incompleto 7.1610 0,002 0,2% 99,6%
Posgrado completo 125.939 0,004 0,4% 100,0%
Total 28878218 1 100,0%
94
Encuesta Educativa en Bajo Flores 2002
Nivel educativo alcanzado
Variable cualitativa ordinal
Frecuencia Porcentaje % Acum.
Jardín Maternal 58 5,29% 5,29%
Nivel Inicial 128 11,68% 16,97%
Nivel Primario 603 55,02% 71,99%
Nivel Medio 307 28,01% 100,00%
Total 1096 100,00%
95
DISTRIBUCIÓN DE LA POBLACIÓN SEXUALMENTE ACTIVASEGÚN EDAD DE LA PRIMERA RELACIÓN SEXUAL
Edad FA Fr % FAA FrA %A
12 16 0,049 4,9% 16 0,049 4,9%
13 37 0,114 11,4% 53 0,164 16,4%
14 47 0,145 14,5% 100 0,309 30,9%
15 75 0,231 23,1% 175 0,540 54,0%
16 51 0,157 15,7% 226 0,698 69,8%
17 35 0,108 10,8% 261 0,806 80,6%
18 29 0,090 9,0% 290 0,895 89,5%
19 16 0,049 4,9% 306 0,944 94,4%
20 18 0,056 5,6% 324 1 100,0%
Total 324 1 100,0%
Variable cuantitativa discreta
96
Comentarios sobre la tabla anterior:
Es una variables cuantitativa continua, que se truncan los meses o decimales (si una persona tiene 34 años hasta el día del cumpleaños 35 seguirá figurando la edad anterior)
En la mayoría de los casos las variables se redondean, seleccionado la cantidad de decimales según un criterio que esta relacionado con la precisión de la medición.
En la tabla anterior transformamos una variable que es continua en discreta. Como son pocas categorías no es necesario agrupar los datos, pero generalmente en las variables cuantitativas discretas con muchas categorías es necesario agrupar los datos en intervalos de clase para poder resumirlos, como observamos en la próxima tabla.
17
97
Encu
esta
Edu
cativ
a en
Baj
o Fl
ores
. Año
200
3
Edad
de
los
niño
s
Frecuencia PorcentajePorcentaje acumulado
0 7 0,5 ,5
1 65 4,8 5,3
2 55 4,0 9,3
3 66 4,8 14,1
4 79 5,8 19,9
5 77 5,6 25,6
6 68 5,0 30,6
7 83 6,1 36,7
8 79 5,8 42,4
9 93 6,8 49,3
10 81 5,9 55,2
11 74 5,4 60,6
12 83 6,1 66,7
13 81 5,9 72,7
14 85 6,2 78,9
15 68 5,0 83,9
16 80 5,9 89,7
17 69 5,1 94,8
18 52 3,8 98,6
19 10 0,7 99,3
20 6 0,4 99,8
21 1 0,1 99,9
22 2 0,1 100,0
Total 1364 100,0
Qué hacemos en
este caso?Agrupar con
algún criterio
98
Distribución de frecuencias y porcentual de la edad de los niños
Frecuencia PorcentajePorcentaje acumulado
0 a 4 años 272 19,9 19,9
5 a 9 años 400 29,3 49,3
10 a 14 años 404 29,6 78,9
15 a 19 años 279 20,5 99,3
20 a 24 años 9 ,7 100,0
Total 1364 100,0
Se agruparon las edades en intervalos de clase cada 5 años
Encuesta Educativa en Bajo Flores. Año 2003
99
Frecuencia % % acumulado
0 a 3 años 193 14,1 14,14 a 5 años 156 11,4 25,66 a 12 años 561 41,1 66,713 a 18 años 435 31,9 98,6más de 18 años 19 1,4 100,0
Total 1364 100,0
Edades agrupadas en intervalos de clase desiguales, que corresponden a grupos de edades según nivel educativo.
Distribución de frecuencias y porcentual de la edad de los niños
Encuesta Educativa en Bajo Flores. Año 2003
100
¿Cómo construimos y presentamos las frecuencias de una variable cuantitativa numérica?
Se arman intervalos de clase, con la misma amplitud para cada intervalo, teniendo en cuenta el recorrido o rango de la variable (valor máximo – valor mínimo).
El número de intervalos de clase dependerá del recorrido y de la amplitud de los intervalos de clase.
También el número de intervalos dependerá de la cantidad de datos que trabaje, ya que con pocos datos no podré armar una tabla con muchos intervalos de clase dado que pueden quedar vacíos (sin frecuencias).
Tampoco es necesario armar tablas con más de 15 intervalos de clase dado que se pierde la capacidad de resumir la distribución de los datos.
101
Ingreso total por hogar
Aquí dividimos a la variable en intervalos de clase de $ 1000, salvo el último intervalo que es abierto.
Para este caso en el cual observamos que la distribución es muy asimétrica, en donde la mayoría de los valores esta en el primer intervalo de clases podemos resumir los datos según lo que se desee mostrar, por ejemplo agrupado los datos utilizando medidas de posición
Frecuencia Porcentaje % acum.
Hasta $ 1000 24140319 75,5 75,5
$1000 - $ 2000 5575556 17,4 93,0
$2000 - $ 3000 1329832 4,2 97,1
$3000 - $ 4000 467138 1,5 98,6
$4000 - $ 5000 201324 ,6 99,2
$5000 - $ 6000 104382 ,3 99,6
$6000 - $ 7000 29842 ,1 99,7
$7000 - $ 8000 37682 ,1 99,8
$8000 - $ 9000 19222 ,1 99,8
$ 9000 - 10.000 10481 ,0 99,9
$ 10000 - 11.000 10922 ,0 99,9
$ 11000 - 12.000 10668 ,0 99,9
$ 12000 - 13.000 7275 ,0 100,0
$ 13000 - 14.000 1110 ,0 100,0
$ 14000 - 15.000 7716 ,0 100,0
$ 15000 - 16.000 3724 ,0 100,0
$ 18000 - 19.000 1956 ,0 100,0
Mayor a $ 20.000 276 ,0 100,0
Total 31.959.425 100,0
Base de datos SIEMPRO 2001
102
Ingreso total por hogar: SIEMPRO 2001 Una opción es presentar a la
variable usando medidas de posición que nos divida a la distribución en intervalos con igual frecuencia de datos.
Por ejemplo dividirla en 5 grupos de igual frecuencia (20% de datos para cada grupo).
A esto lo llamaremos quintiles y son medidas de
i ió ( ó i l )
Quintiles PercentilesIngresohogar
Agrupa a losSueldos entre
1 20 $ 178 $ 0 - $ 178
2 40 $ 400 $178 – $ 400
3 60 $ 700 $400 – $ 700
4 80 $ 1173 $700 – $ 1173
Mayor 100 Más de $ 1173
Base de datos SIEMPRO 2001
18
103
Salarios anuales en una empresa
Salarios FA % % acum.
Hasta $25.000 143 30,2 30,2
$25.000 -$ 50.000 260 54,9 85,0
$50.000 -$ 75.000 54 11,4 96,4
Más $75.000 17 3,6 100,0
Total 474 100,0
Salarios FA % % acum.
Hasta $25.000 143 30,2 30,2
$25.000 -$ 50.000 260 54,9 85,0
Más $50.000 71 15,0 100,0
Total 474 100,0
Según algún criterio se puede tomar la decisión de modificar la amplitud de los intervalos de clase.
Ver archivo: base niños flores.xls (Excel) o base niños flores.sav (SPSS)
107
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niñosVARIABLE 2
Frecuencia Porcentaje
Ciudad de Bs As 1133 83,0
Gran Bs As 49 3,6
Interior del País 40 2,9
Otros Países 143 10,5
Total 1365 100,0
108
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2
SexoTotal
Masculino Femenino
Lugar de nacimiento
Ciudad Bs As 600 532 1132
Gran Bs As 23 26 49
Interior del País 18 22 40
Otros Países 76 67 143
Total 717 647 1364
Frecuencia Marginal de “Sexo”
Frecuencia Marginal de “Lugar de nacimiento”
Frecuencias conjuntas
19
109
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por filas(Probabilidad condicional por lugar de nacimiento)
Sexo
TotalMasculino Femenino
% Lugar de nacimiento
Ciudad Bs As 53,0% 47,0% 100% (1132)
Gran Bs As 46,9% 53,1% 100% (49)
Interior del País 45,0% 55,0% 100% (40)
Otros Países 53,1% 46,9% 100% (143)
Total 52,6% 47,4% 100% (1364)
110
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por columna(Probabilidad condicional por sexo)
SexoTotal
Masculino Femenino
% Lugar de nacimiento
Ciudad Bs As 83,7% 82,2% 83,0%
Gran Bs As 3,2% 4,0% 3,6%
Interior del País 2,5% 3,4% 2,9%
Otros Países 10,6% 10,4% 10,5%
Total 100% (717) 100% (647) 100% (1364)
111
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variableFrecuencias absolutas de Edad y Sexo en niños
Grupo de edades
Sexo Total
Masculino Femenino
0 a 4 años 141 131 272
5 a 9 años 218 182 400
10 a 14 años 205 199 404
15 a 19 años 146 132 278
20 a 24 años 6 3 9
Total 716 647 1363
112
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% por filas
Grupo de edadesSexo Total
Masculino Femenino % - FA
0 a 4 años 51,8% 48,2% 100 % (272)
5 a 9 años 54,5% 45,5% 100 % (400)
10 a 14 años 50,7% 49,3% 100 % (404)
15 a 19 años 52,5% 47,5% 100 % (278)
20 a 24 años 66,7% 33,3% 100 % (9)
Total 52,5% 47,5% 100 % (1363)
Cuando se presenta una tabla de porcentajes por fila (probabilidad condicional), es necesario poner el número de datos de la frecuencia
marginal de cada fila.
113
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% por columnas
Grupo de edadesSexo
TotalMasculino Femenino
0 a 4 años 19,7% 20,2% 20,0%
5 a 9 años 30,4% 28,1% 29,3%
10 a 14 años 28,6% 30,8% 29,6%
15 a 19 años 20,4% 20,4% 20,4%
20 a 24 años ,8% ,5% ,7%
Total 100 % (716) 100 % (647) 100% (1363)
Cuando se presenta una tabla de porcentajes por columnas (probabilidad condicional), es necesario poner el número de datos de la
frecuencia marginal de cada columna.
114
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% sobre el total
Grupo de edadesSexo Total
Masculino Femenino
0 a 4 años 10,3% 9,6% 20,0%
5 a 9 años 16,0% 13,4% 29,3%
10 a 14 años 15,0% 14,6% 29,6%
15 a 19 años 10,7% 9,7% 20,4%20 a 24 años ,4% ,2% ,7%Total 52,5% 47,5% 100 % (1363)Un porcentaje de la tabla sobre el total, no da mucha información sobre la distribución bivariada, igualmente en la celda total se debe mostrar cuál es
el N de la muestra o de la población.
20
115
Encuesta Educativa en Bajo Flores
Nivel Educativopor Concurrencia a la escuela
Va a la escuela TotalNo Si
Grupo de edad según
Nivel educativo
0 a 3 años 158 35 193
4 a 5 años 28 128 156
6 a 12 años 10 551 561
13 a 18 años 48 387 435
más de 18 años
3 16 19
Total 247 1117 1364
116
Encuesta Educativa en Bajo Flores
Edad de los niños según Nivel Educativopor Concurrencia (% filas)
• Grafico de barras para variables cuantitativas discretas.
• No están los datos agrupados.
Cantidad de personas en el hogar
1614121110987654321
Por
cent
aje
20
18
16
14
12
10
8
6
4
2
0
149
EPH: Provincia de Corrientes
Cantidad de habitaciones que tiene en el hogar
1187654321
Por
cent
aje
40
30
20
10
0
150
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
26
151
Gráfico de Barras
Horizontales
152
País de Origen de los que respondieron la encuestan=836
Indicadores por Región de base poblacional: Tasa de cesáreas
24,5%
24,8%
26,9%
27,5%
27,8%
30,0%
31,1%
37,3%
0% 5% 10% 15% 20% 25% 30% 35% 40%
PBA
CABA
NEA
Total País
NOA
Centro
Cuyo
Patagonia
Brecha 1,5Rango: 12,8%
154
Estimación estadística obtenida de las oficinas locales del SENASA año 2002.
Gráfico de barras horizontales para variables cualitativas nominales ordenados de mayor a menor frecuencia (si la variable es ordinal, no se puede cambiar el orden de las categorías de la variables).
Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total
166
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.
167
Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total
Tasa neta de escolarización de la población de 13 a 17 años. Nivel de enseñanza Secundario, según zona. Ciudad de Buenos Aires. Año 2009.
Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2009.
8
4
13
2
56
7
9
10
14
15
13
11
12
Zona A (norte)
Zona B (este)
Zona C (sur)
Zona D (oeste)
Zona E (centro)
86,0
95,4
82,8
73,8
84,0
88,2
50
60
70
80
90
100
Total A (norte) B (este) C (sur) D (oeste) E (centro)
29
169
En general, los datos nominales se describen en términos de porcentajes o proporciones (frecuencias relativas).
Las tablas de contingencia, gráficos circulares y gráficas de barras son las mas comunes para mostrar esta clase de información.
Las mismas clases de cuadros y gráficas que se utilizan pare exhibir datos nominales se usan también con datos ordinales, salvo el diagrama circular que podríamos decir que es exclusivo de los datos nominales.
El diagrama de barra de errores, utiliza para graficar la tendencia central y la dispersión medidas de posición (mediana, cuartiles y desvíos intercuartiles), lo que permite apreciar la simetría de la distribución de la variable y los valores atípicos y extremos.
En los gráficos de barra de errores, se utiliza el promedio y los derivados del desvío estándar (error estándar). Si la variable es asimétrica este gráfico no lo muestra como tampoco los valores atípicos y extremos. Se recomienda utilizarlos en caso que se tenga la certeza de que la variables con la que estamos trabajando tenga una distribución cercana a la Distribución Normal o de Gauss.
192
Histograma y Diagrama de cajas: Variable Asimétrica no gausiana
33
193
Barra de errores y Diagrama de cajas: Variable muy Asimétrica no gausiana
Diagramade cajas
Barra de errores con distintos intervalos:Intervalo de confianza al 95%, un y dos desvíos estándar
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Año 2010
207
Peso = - 58 + 80 x TallaR cuadrado = 0,263
208
IMC = 3,4 + 0,26 x PCR cuadrado = 0,55
209
Resumen sobre estadísticos Tendencia Central:
Indican valores con respecto a los que los datos parecen agruparse: Media, mediana y moda
Posición:
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos: Cuantiles, percentiles, cuartiles, deciles,...
Dispersión:
Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización: Desviación típica, coeficiente de variación, rango, varianza
Forma: Asimetría y Curtosis
210
Estadígrafos
de Tendencia Central
de Posición
de Dispersión
De Formas
Especificas
36
211 212
MEDIDAS DE TENDENCIA CENTRAL
Una descripción que simplifica y que representa
apropiadamente a la variable, o al conjunto de
datos recolectados de una variable, son las
medidas de tendencia central como el promedio,
la mediana y la moda.
213
La media o promedio es una estimación del valorcentral, en torno al cual fluctúan los valores hallados.
Es importante marcar que la media contienesolamente una parte de la información que los datosproporcionan. No da ninguna indicación sobre lavariabilidad de las mediciones, y esta es unainformación esencial sobre todo en el momento en quees necesario comparar por ejemplo si dos o másmuestras pertenecen a la misma población.
214
Promedio o Media aritmética
Población:
Muestra:
215
Mediana Corresponde a la observación central; es decir es el valor de la
variable que supera a la mitad de las observaciones (o es menor a la otra mitad).
En variables cualitativas nominales no se puede utilizar.
En variables cualitativas ordinales es la categoría de la variable que contiene al 50 % de la frecuencia porcentual acumulada.
216
Altura mediana
37
217
Altura mediana
218
La mediana de un conjunto de números naturales
ordenados en magnitud es:
El valor central si el conjunto es impar
La media de los dos valores centrales si el
conjunto es par.
Para datos cuantitativos discretos:
219
Ejemplo con N impar:
El conjunto de números
tiene mediana = 6.
Ejemplo con N par:
El conjunto de números 5,5,5,9,11,12,15, 18, 19 y 21
220
Modo o ModaEs el valor o categoría de la variable que se presentan
con mayor frecuencia.
Para variables cualitativas (nominales u ordinales),
la moda es la categoría de mayor frecuencia.
Para variables cuantitativas en general es el punto
medio del intervalo de clases de mayor frecuencia.
221
La moda puede no existir, e incluso no ser única en caso de existir.
Es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa de
realizar ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que
tengan la misma frecuencia, en cuyo caso tendremos una distribución bimodal o polimodal según el caso.
222
Ejemplo 1:El conjunto 2,2,5,7,9,9,9,10,10,11,12 y 18
Moda=9Ejemplo 2:
El conjunto 3,5,8,10,12,15 y 16no tiene moda.Ejemplo 3:
Conjunto 2,3,4,4,4,5,5,7,7,7 y 9tiene dos modas, 4 y 7 (bimodal).
Posiciones relativas de la media, la mediana y la moda
para distribuciones de frecuencias asimétricas
225
Cuando la distribución de frecuencias de la variable es simétrica, coinciden ( o son muy parecidas) las medidas de tendencia central.
Cuando hay una asimetría en la distribución de las frecuencias, indica que hay valores extremos hacia una dirección de la variable y una acumulación de datos en la otra dirección de la variable.
El promedio esta influenciado por los valores extremos, en cambio la mediana no y la moda se encontrará en un extremo de la distribución (datos acumulados).
Siendo distintos los valores de las tres medidas de posición.
Medidas de posición Las medidas de posición son “índices diseñados para
revelar la situación de una puntuación con respecto a
un grupo, utilizando a éste como marco de referencia”.
Indican para cierto puntaje de la variable qué cantidad
de valores están por debajo de él (cuantiles o fractiles).
40
235
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
236
Las medidas de posición dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra.
Así en psicología los resultados de los Test o pruebas que realizan a un determinado individuo, se clasifican según el percentil correspondiente a la puntuación obtenida por el sujeto.
237
Si un conjunto de datos ordenados (por ejemplo, de
menor a mayor) es dividido en cuatro partes iguales,
obtenemos la medida de posición denominada cuartil;
si dividimos a ese mismo conjunto en 10 partes
iguales, obtenemos los deciles; y si se divide la
distribución en 100 secciones iguales, obtenemos 99
valores llamados percentiles
238
Hay diferentes tipos de cuantiles, pero en
general son valores que dejan por debajo
de él una cierta fracción de los datos
ordenados en forma creciente y el resto por
encima.
239
Cuando la fracción es la mitad, se trata de la mediana.
- Cuartiles: Dividen a la distribución en 4 partes iguales. El primer cuartil Q1 deja el 25% de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%.
- Deciles: Dividen a la distribución en 10 partes iguales. El primer decil D1 deja el 10% de los valores por debajo y el resto por encima. El quinto decil es la mediana.
- Percentiles: Dividen a la distribución en 100 partes del total. Así, el percentil veinticuatro ( P24 ) deja el 24% de los valores por debajo. El percentil cincuenta es la mediana, o el quinto decil.
Ejemplos El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”? Percentil 5 o cuantil 0,05
¿Qué peso es superado sólo por el 25% de los individuos? Percentil 75
El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? Entre el percentil 5 y el 95
¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? Entre el cuartil 1º y 3º
250
¿Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg.
¿Qué peso es superado por el 25% de los individuos? Tercer cuartil= percentil 75= 80 kg.
¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? Entre el primer y tercer cuartil = entre 60 y 80 kg.
Observar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.
Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más).
Ejemplo
50%
251
Medidas de Dispersión o Variabilidad Las medidas de dispersión son índices que establecen el
grado en que se parecen o se diferencian entre sí un conjunto
de datos.
Una distribución de frecuencias será homogénea o poco
variable si los datos difieren poco entre sí y, por tanto, se
concentran en torno a su promedio. Será heterogénea o muy
variable si los datos se dispersan mucho con respecto al
promedio.
252
¿Por qué estudiar la dispersión?
Es posible evaluar la confiabilidad del promedio que se está
utilizando. Si los valores se concentran en torno a la media,
esta última se considera representativa de los datos. Por el
contrario, una dispersión grande indica que la media no es
confiable.
Una medida de dispersión permite apreciar cuán dispersas
son dos o más distribuciones.
43
253
Por ejemplo, supóngase que un nuevo modelo de
computadora se ensambla en dos plantas de una
fábrica: la Planta A y B. La media aritmética de la
producción diaria en ambas plantas es 50. Con base en
las dos medias se podrá llegar a la conclusión de que
las distribuciones de las producciones diarias son
idénticas.
254
Pero si las dispersiones varían de una muestra a
la otra, esta conclusión no es correcta (por
ejemplo, si la producción en la Planta A varía de
48 a 52 ensambles por día, mientras que en la
Planta B varía de 40 a 60, diremos que en esta
segunda Planta la producción es más errática).
255
Las medidas de tendencia central tratan de describir un valor
representativo o típico de los dato. Otro aspecto que hay que tener
en cuenta es como se distribuyen los datos alrededor de la media.
Por ejemplo decir que el promedio del colesterol total es 5,81 nos
indica el valor típico de los datos. Es una información útil, pero
para lograr una idea mejor de la distribución de los valores de
estos pacientes se requiere conocer algo acerca de la dispersión
de datos. ¿Qué podemos decir si un paciente tiene 5,92 o 5,25 ?
256
• Las medidas para evaluar la dispersión son las siguientes:
1. Amplitud Total o extensión (recorrido o rango)
2. Desviación semiintercuartil
3. Desviación típica o Standard
4. Variancia (o varianza)
5. Coeficiente de variación
257
MEDIDAS QUE CALCULAN LA DISPERSION
RANGO: Es la diferencia entre la observación más grande y la menor. Por
ejemplo el valor más pequeño de colesterol total es 3,8 y el más alto es
8,8.
Por lo tanto el Rango:
RM = x máximo - x mínimoRM = 8,8 - 3,8 = 5
Muchos autores dan los valores mínimos y máximos en lugar del rango y
en algunos casos estos valores son de información más útil desde el
punto de vista descriptivo.
258
Amplitud Total (o rango)El rango es la medida de dispersión más sencilla.
Es la diferencia entre el valor más alto y el más bajo de un conjunto de datos.
Rango = valor más alto – valor más bajo
Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:
A: 6, 6, 6, 6, 6, 6
B: 5, 6, 7, 8, 7, 3
C: 2, 3, 4, 7, 9, 11
Los tres grupos poseen la misma media aritmética, pero mientras en el curso A no hay variaciones (todos los alumnos obtuvieron un 6), el curso B (rango = 5) y C (rango = 9) ha mostrado importantes variaciones, siendo este último el de mayor variabilidad.
44
259
Varianza (variancia)La varianza es el promedio de las desviaciones cuadráticas con
respecto a la media. Es un índice basado en la idea de que, al
elevar al cuadrado las distancias con respecto a la media antes
de hallar su promedio, no suman cero. Además los cuadrados
son siempre positivos.
Para los datos sin agrupar, la fórmula es:
Para datos agrupados:
260
Desviación típica o estándar • Resulta difícil interpretar la varianza para un
solo conjunto de observaciones.
• La variancia de 106.8 para las edades de
los pacientes no está en términos de años,
sino más bien en años al cuadrado.
• Por ello resulta útil retomar las unidades de
medición originales.
261
Desviación típica o estándar Esto es lo que hace la desviación estándar, al calcular la
raíz cuadrada de la varianza. Así, se establece con mayor
precisión una “separación promedio” de las distancias de
cada uno de los valores de la variable a la media.
Es un mejor descriptor de la variabilidad y siempre es
positiva. En el ejemplo anterior, la raíz cuadrada de 106.8
años2 es de 10.3 años.
262
Coeficiente de Variación• El coeficiente de variación sirve para comparar la variabilidad
de grupos cuya media es claramente distinta. Se relativiza la
desviación típica con respecto a la media y se expresa como un
porcentaje.
• Por ejemplo, un grupo de niños de 7 años mide una talla media
= 1.3 con una s = 0.05. Por otro lado, sabemos que su peso
medio es = 25 con una s = 2 Kg. La pregunta que nos hacemos
es: ¿qué es más variable: el peso o la talla?
263
Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso
que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0ºC ≠ 0ºF
Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).
264
Mientras en la Ciencias Exactas, un sistema de medición con
coeficientes superiores al 10% es inaceptable, en Clínica,
donde las variabilidades inherentes al material de trabajo son
mucho más grandes, no se puede ser tan estricto.
Por eso se sugiere usar :
25% < CV% < 50% poco aceptables
10% < CV% < 25% aceptable
CV% < 10% muy aceptable
45
265
Medidas de asimetría Las medidas de asimetría determinan si las frecuencias se
concentran más hacia los valores bajos (asimetría positiva) o
hacia los valores altos de la variable (asimetría negativa). Si
una distribución de frecuencias es simétrica, el sesgo es nulo
(es decir, igual a 0). En las distribuciones simétricas, el
promedio, la mediana y la moda coinciden (caen en el mismo
punto de la distribución). Pero, casi todas las distribuciones
tomadas de datos reales tiene algún grado de asimetría.
266
Lo que esperamos, para tratar a una distribución como simétrica, es que el grado de asimetría sea lo más cercano a 0 posible.
El coeficiente de asimetría (C.A.) se encuentra generalmente entre –3 y +3.
La fórmula para calcular el sesgo de una distribución es:
C.A. = 3 * (X - Mediana)
Desvío estándar
267 268
269
Asimetría o Sesgo
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
270
Estadísticos para detectar asimetría Hay diferentes estadísticos que sirven para detectar
asimetría.
Basado en diferencia entre estadísticos de tendencia central.
Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
Basados en desviaciones con signo respecto a la media. En este se basa SPSS. No lo calcularemos
manualmente en este curso.
En función del signo del estadístico diremos que la asimetría es positiva o negativa.
Distribución simétrica asimetría nula.
La asimetría es adimensional.
46
271
Curtosis La curtosis se refiere a la altura o aplanamiento del polígono de
frecuencia.
Cuando la curva es muy puntiaguda, se la denomina leptocúrtica, si es muy chata, platicúrtica, y si es normal, mesocúrtica.
La asimetría y la curtosis son medidas independientes, por lo que una distribución puede ser simétrica y, por ejemplo, leptocúrtica. O, por el contrario, ser asimétrica y mesocúrtica.
De cualquier modo, si la distribución de frecuencias es cercana a la normal, el sesgo deberá tender a 0 y la curva deberá tender a ser mesocúrtica.
272
273 274
Apuntamiento o curtosis
Los gráficos poseen la misma media
y desviación típica, pero con
diferente grado de apuntamiento.
En el curso serán de especial interés
las mesocúrticas y simétricas
(parecidas a la normal).
• La curtosis nos indica el grado de apuntamiento aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional.
Platicúrtica: curtosis < 0
Mesocúrtica: curtosis = 0
Leptocúrtica: curtosis > 0
275
• Esta distribución es frecuentemente utilizada en las
aplicaciones estadísticas.
• Su propio nombre indica su extendida utilización,
justificada por la frecuencia o normalidad con la
que ciertos fenómenos tienden a parecerse en su
comportamiento a esta distribución.
Distribución Normal276
• La importancia de la distribución normal se debe principalmente a que hay muchas
variables asociadas a fenómenos naturales que siguen el modelo de la normal:
• Caracteres morfológicos de individuos (personas, animales, plantas,.. de una