-
Grupo 7 2 y 4 de febrero
Tema 3. VARIABLES CUANTITATIVAS. PARMETROS Y ESTADSTICOS Las
variables numricas cuantitativas, cuyos valores pueden ser
ordenados ya que se miden numricamente, pueden ser:
- Discretas - Continuas
VARIABLES NUMRICAS DISCRETAS Las variables discretas son
variables numricas que no se pueden dividir. Grficamente, se
representan mediante:
- Diagramas de barras: entre las barras se deja un hueco que
indica que no existen valores intermedios posibles (no se puede
tener 2,5 hijos). Los diagramas de barras suelen ser ms adecuados
para representar variables cualitativas o cuantitativas
discretas.
- Diagramas de sectores: suelen ser adecuados para comparar
variables en trminos de porcentajes. Tambin se utilizan para
comparar los valores que adopta una variable en diferentes
poblaciones.
-
VARIABLES NUMRICAS CONTINUAS Las variables continuas pueden
representar cualquier valor numrico. Destacan en el rea de la salud
ya que permiten medir gran cantidad de indicadores biolgicos
(talla, peso). Las variables continuas tienden a ser tratadas como
variables discretas, con un nivel de detalle variable y
seleccionable (se puede elegir el n de decimales a tener en
cuenta). A partir de los datos brutos o simples, se realizan tablas
de frecuencia:
1. Se organizan varias clases o categoras (tantas como sea
conveniente, aunque se suele calcular la raz cuadrada del nmero
total de datos para saber cuntas clases se podran hacer). La
amplitud de las clases puede variar, pero es conveniente que todas
tengan la misma amplitud para que la representacin grfica sea ms
sencilla y exacta. Los lmites de cada clase tienen la misma
precisin que la medida con la que se han tomado los datos brutos
(mismo n de decimales).
2. Se establecen las fronteras de cada clase, para precisar qu
valores se incluyen en cada clase. La frontera superior es el punto
medio entre el lmite superior (LS) de la primera clase y el lmite
inferior (LI) de la siguiente clase.
3. Se calculan las marcas de clase, que son el punto medio entre
fronteras. 4. Se calcula la frecuencia absoluta, que es el nmero de
sujetos que se incluye en cada
clase. 5. Se calcula la frecuencia relativa, que es la proporcin
de sujetos que se encuentran en
cada clase en relacin con el total. 6. Se calcula la frecuencia
acumulada, que es el nmero de sujetos que se incluyen hasta
el momento (la suma de los datos de una clase ms los que se
encuentran en la anteriores).
Grficamente, se representan mediante:
- Diagramas de tallo hojas - Histograma y polgono de frecuencias
- Diagrama de cajas
Diagramas de tallo hojas A partir de una lista de distintos
valores en bruto para una variable, se elabora un diagrama donde
los datos se colocan de la siguiente manera: se busca el valor ms
bajo y el valor ms alto que adopta la variable y se colocan en los
extremos de una lnea vertical, en el lado izquierdo. Entre ellos se
aaden valores intermedios, que formarn el tallo. De este tallo, en
el lado derecho de la lnea, saldrn las hojas, que harn referencia a
los decimales encontrados en la investigacin para cada nmero entero
del tallo. En algunos casos, se puede encontrar el mismo valor dos
veces en el tronco. La diferencia estar en un asterisco, que
permitir separar los decimales correspondientes a dicho nmero en
dos filas. Ejemplo: 13 = 13,0-13,4 13*= 13,5-13,9.
-
De este modo, se puede observar en un golpe de vista cmo se
distribuyen los valores ms frecuentes y los ms extremos. Adems, el
diagrama de tallo hojas sirve para calcular percentiles.
En este diagrama, la frecuencia acumulada se representa en la
columna de profundidad. Se inicia desde el extremo superior e
inferior, sumando los valores correspondientes separadamente y en
cada uno de los dos sentidos hasta llegar a la mediana. En la
mediana se indica slo la frecuencia absoluta de la clase a la que
corresponde.
Histograma y polgono de frecuencias Se realiza a partir de una
tabla de frecuencias (absolutas o acumuladas). Las barras en un
histograma se colocan pegadas, ya que las variables pueden tomar
cualquier valor. Cada intervalo de clase se divide en subclases.
Tiene sentido realizarlo cuando todas las clases tienen la misma
amplitud.
El rea que hay bajo el histograma entre dos puntos cualesquiera
indica la cantidad (porcentaje o frecuencia) de individuos en el
intervalo, es decir, el rea de cada barra es proporcional a la
frecuencia de su clase (esto sucede cuando todas la clases tienen
la misma amplitud) y la altura de la barra coincide con la
frecuencia. El rea total del histograma es siempre 1, y resulta de
la suma de la frecuencia relativa de todas las clases. Si las bases
no son de igual amplitud, la altura de la barra no coincide con la
frecuencia o porcentaje de la base. Sobre el histograma, se unen
los puntos medios de cada columna o clase, lo que resulta en un
polgono de frecuencias. El rea bajo el polgono de frecuencias es la
misma que el rea bajo el histograma.
-
En el caso de las frecuencias absolutas, el resultado es el
siguiente:
En el caso de las frecuencias acumuladas, en cuyo caso el
polgono de frecuencias toma el nombre de ojiva, el resultado es el
siguiente:
Para calcular porcentajes o proporciones para un valor
determinado de la variable situado en uno de los ejes (11,95), se
dibuja una lnea paralela a dicho eje que corta en el eje contrario,
obteniendo el valor correspondiente. La funcin permite calcular el
nmero acumulado de individuos por debajo de un determinado valor,
por lo que es muy til para calcular percentiles.
-
Diagrama de caja (Tukey) El diagrama de es una representacin
que, mediante 5 datos (mnimo, cuartiles y mximo), intenta resumir
toda la informacin. Suelen dar una buena idea de la
distribucin.
La zona central (caja) contiene al 50% central de las
observaciones y sus lmites son el primer cuartil (percentil 25) y
el tercer cuartil (percentil 75). Su tamao se llama rango
intercuartlico (R.I.). En el centro de la caja se representa una
raya vertical, la mediana o percentil 50. Muchas veces, los bigotes
no llegan hasta los extremos, no se separan ms de la caja de 1,5 RI
Los extremos o bigotes pueden representar:
a) El valor mnimo y el mximo
b) Una distancia de 1,5 R.I. de cada extremo de la caja. En este
caso, los bigotes no llegan
hasta los extremos y los datos situados ms all de esa distancia
se consideran anmalos y as se marcan.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en ciudad
de
nsid
ad
40 45 50 55 60 65
0.0
00
.02
0.0
40
.06
0.0
8
40 45 50 55 60 65
Mn. P25 P50 P75 Mx.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en autova
de
nsid
ad
80 90 100 110 120 130 140
0.0
00
.01
0.0
20
.03
0.0
4
80 90 100 110 120 130 140
Mn. P25 P50 P75 Mx.
-
El diagrama de cajas suele aparecer en publicaciones y sirve
para comparar tratamientos, diferencias entre sexos es decir, da
una primera aproximacin de si un subgrupo es llamativamente
diferente a otro. El diagrama de cajas y el histograma pueden
aparecer superpuestos. PARMETROS Y ESTADSTICOS Un parmetro es una
cantidad numrica calculada sobre una poblacin. La idea es resumir
toda la informacin que hay en la poblacin en unos pocos nmeros
(parmetros). Ejemplo: la altura media de los individuos de un pas.
Un estadstico es una cantidad numrica calculada sobre una muestra.
Si un estadstico se usa para aproximar un parmetro tambin se le
suele llamar estimador. Ejemplo: la altura media de los alumnos de
una clase. Normalmente interesa conocer un parmetro, pero por la
dificultad que conlleva estudiar a toda la poblacin, se calcula un
estimador sobre una muestra y se confa en que sean prximos. Para
ello, hay que elegir la muestra de manera que el error se
confiablemente pequeo. Estadsticos Hay 4 reas de una distribucin en
las que puede ser interesante calcular un estadstico:
- Posicin, localizacin o centralizacin: La localizacin se
refiere a la situacin promedio de los valores de una variable a lo
largo de la recta de los nmeros reales. Se refiere a un valor
intermedio o central e implica que pueden existir valores
superiores o inferiores a dicho valor. Indican valores con respecto
a los que los datos parecen agruparse o dividen un conjunto
ordenado de datos en grupos con la misma cantidad de individuos.
Como una variable continua puede tomar infinitos valores en
cualquier intervalo fijado, se calcula el intervalo en el que se
localizan los datos mediante medidas de localizacin: la media,
mediana, moda, los cuantiles, percentiles, cuartiles, deciles
(estos cuatro ltimos dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos).
- Dispersin: La dispersin se refiere al promedio de las
distancias de cada dato, respecto de un valor promedio o central.
Por tanto, indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin, es decir, cunto se alejan
los datos de la medida de centralizacin. Son la desviacin tpica,
coeficiente de variacin, rango, varianza
- Forma o centralizacin: Permite calcular si hay mayor cantidad
de valores por encima o por debajo de la mediana o media. Son la
asimetra y el apuntamiento o curtosis.
Estadsticos de posicin Los estadsticos de posicin son los
cuartiles, percentiles que no son ms que la divisin en puntos de
una distribucin.
- Cuantil: se define el cuantil de orden como un valor de la
variable por debajo del cual se encuentra una frecuencia acumulada
. Por tanto, indica el valor de la variable
-
por debajo del cual se encuentra una proporcin (tanto por 1)
determinada. Casos particulares son los percentiles, cuartiles,
deciles, quintiles Ejemplo: El cuantil de orden 0,36 permite
expresar un valor que deja un 36% de los valores por debajo. El
cuantil 0,5 coincide con la mediana (50%).
- Percentil: resulta de la divisin de una distribucin en 100
grupos (percentil de orden k = cuantil de orden k/100). Indica el
valor de la variable por debajo del cual se encuentra un porcentaje
determinado de observaciones. El percentil 50 es la mediana. El
percentil de orden 15, deja por debajo el 15% de los casos y el 85%
por encima
- Cuartil: resulta de la divisin de la muestra en 4 grupos con
frecuencias similares.
o Primer cuartil = percentil 25 = cuantil 0,25 o Segundo cuartil
= percentil 50 = cuantil 0,5 = mediana o Tercer cuartil = percentil
75 = cuantil 0,75
Esta informacin sobre percentiles y cuartiles es de utilidad
para presentar los datos en diagramas de cajas o de Tukey.
- Media (mean): Es la media aritmtica (promedio) de los valores
de una variable. Es la suma de los valores dividido por el tamao
muestral. Es un buen indicador cuando los datos se concentran
simtricamente con respecto a ese valor, pero es muy sensible a
valores extremos. Por eso es til observar a la vez la media y la
mediana para as poder comparar si toman valores muy diferentes. Es
el centro de gravedad de los datos.
Ejemplo: la media de 2, 2 ,3, 7 es (2+2+3+7)/4=3,5
- Mediana (median): es un valor que divide a las observaciones
en dos grupos con el
mismo nmero de individuos (percentil 50), es decir, el valor que
divide en dos partes iguales la distribucin. Si el nmero de dato es
par, se elige la media de los dos datos centrales. No es sensible a
valores extremos, por lo que es conveniente cuando los datos son
asimtricos. Ejemplo 1: la mediana de 1, 2, 4, 5, 6, 6, 8 es 5
Ejemplo 2: la mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5
- Moda (mode): es el valor o los valores donde la distribucin de
frecuencia alcanza un
mximo, es decir, los que ms se repiten. Ejemplo: la moda de 1,
2, 4, 5, 6, 6, 8 es 6
n
xx i
i
-
Estadsticos de dispersin o variabilidad Los estadsticos de
dispersin miden el grado de dispersin (variabilidad) de los datos,
independientemente de su causa. Miden los diferentes valores que
puede tomar una variable. Las razones que llevan a la existencia de
datos diferentes se denominan fuentes de variabilidad. Ej: los
estudiantes, partiendo del mismo nivel de conocimiento, obtienen
calificaciones diferentes. Esto se debe a las fuentes de
variabilidad (diferencias individuales, variabilidad por azar).
Encontramos diferentes medidas de dispersin:
- Amplitud o rango (range): es la diferencia entre observaciones
extremas, es decir, entre el valor mximo y el mnimo. Es muy
sensible a los valores extremos. Ejemplo: el rango de 2, 1, 4, 3,
8, 4 es (8-1)=7
- Rango intercuartlico (interquartile range): es la distancia
entre el primer y el tercer cuartil. Es parecida al rango, pero
eliminando las observaciones ms extremas inferiores y superiores,
por lo que no es tan sensible a valores extremos.
R. I = P75 P25
- Varianza (variance): mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media y representa
cun lejos se encuentra un valor de la media. Sus unidades son el
cuadrado de las de la variable. Es sensible a valores extremos. Se
calcula restando la media al valor conocido, elevndolo al cuadrado
y dividindolo por n.
2 =1
( )
2
- Desviacin tpica o estndar (standard deviation): es la raz
cuadrada de la varianza y representa cun lejos se encuentra un
valor de la media como media. Tiene la misma dimensionalidad
(unidades) que la variable.
= 2 A una distancia de una desviacin tpica de la media hay ms de
la mitad de los datos (68% aprox.). A una distancia de dos
desviaciones tpicas de la media se incluyen casi todos los datos
(95% aprox.).
-
- Coeficiente de variacin o variabilidad relativa: es la razn
entre la desviacin tpica y la media. Representa qu tamao tiene la
desviacin tpica respecto a la media. Es frecuente mostrarla en
porcentajes.
=
Es una cantidad adimensional (no tiene unidades), interesante
para comparar la variabilidad de diferentes variables. No debe
usarse cuando la variable presenta valores negativos o donde el
valor 0 sea una cantidad fijada arbitrariamente.
Estadsticos de forma
- Asimetra o sesgo: una distribucin es simtrica si la mitad
izquierda de su distribucin es la imagen especular de su mitad
derecha (distribucin gaussiana). En las distribuciones simtricas,
media y mediana coinciden y, si slo hay una moda, tambin coincide.
Por lo tanto, las discrepancias entre las medidas de centralizacin
son indicacin de asimetra. La asimetra es positiva o negativa en
funcin de a qu lado se encuentra la cola de distribucin. En
resumen:
o La distribucin de los datos es simtrica si la mediana y la
media coinciden (media = mediana)
o La distribucin tiene asimetra izquierda o de signo negativo
cuando la mediana es mayor que la media (media < mediana)
o La distribucin tiene asimetra derecha o de signo positivo
cuando la mediana es menos que la media (media > mediana).
-
Hay diferentes estadsticos que sirven para detectar la asimetra.
Pueden estar basados en diferencias entre estadsticos de tendencia
central (media, mediana, moda), en la diferencia entre el 1 y el 2
cuartiles y el 2 y el 3 o en desviaciones consigo al cubo con
respecto a la media (calculadas por el ordenador). El coeficiente
de asimetra resta la moda a la media y la divide por la desviacin
estndar. En funcin del signo del estadstico diremos que la asimetra
es positiva o negativa.
o En las distribuciones simtricas, la asimetra es nula, ya que
la moda coincide con la media.
o En las distribuciones asimtricas negativas o de asimetra
izquierda, la moda es mayor a la media, por lo que el resultado ser
negativo.
o En las distribuciones asimtricas positivas o de asimetra
derecha, la moda es menor que la media, por lo que el resultado ser
positivo.
- Apuntamiento o kurtosis: indica el grado de apuntamiento
(aplastamiento) de una distribucin con respecto a la distribucin
normal o gaussiana. Es adimensional. Segn el valor del coeficiente
de Fisher (g2), en la distribucin se pueden distinguir tres tipos
de distribuciones:
o Leptocrtica (apuntada): Los valores estn muy ajuntados, por lo
que se concentran en una zona ms estrecha (ej. edad de los
estudiantes de la clase). g2>3 curtosis > 0
o Mesocrtica (como la normal): g2=3 curtosis = 0 o Platicrtica
(aplanada): Los valores estn muy separados, por lo que se
observa un apuntamiento mayor g2