Presentacin de PowerPoint
ASOCIACION DE VARIABLESCONCEPTO DE ASOCIACION ENTRE VARIABLESEl
anlisis estadstico de la asociacin (relacin, covarianza,
correlacin) entre variables representa una parte bsica del anlisis
de datos en cuanto que muchas de las preguntas e hiptesis que se
plantean en los estudios que se llevan a cabo en la prctica
implican analizar la existencia de relacin entre variables.
La existencia de algn tipo de asociacin entre dos o ms variables
representa la presencia de algn tipo de tendencia o patrn de
emparejamiento entre los distintos valores de esas variables.
ejemploLa presencia de asociacin entre 2 variables, una, la
puntuacin en un test de aptitud lingstica [0 a 150] y, la otra, la
variable sexo [A: hombre; B: mujer]. Para un conjunto de datos de
estas dos variables, la diferencia existente entre las
distribuciones de frecuencias de la variable Aptitud lingstica
condicionada a la variable Sexo:
Las puntuaciones en el test de aptitudes numricas sera el caso
en que ambas distribuciones aparecieran superpuestas, poniendo de
manifiesto que no hay diferencias en la distribucin de las
puntuaciones del test en funcin del sexo.Midiendo la asociacin
entre 2 variablesEL CASO DE DOS VARIABLES CATEGRICASQu se puede
decir acerca de la asociacin entre las dos variables de la tabla de
contingencia (Estado de nimo y Vivir en residencia)?
Para evaluar si ambas variables estn relacionadas hay que
observar si la distribucin de los valores de una de las variables
difiere en funcin de los valores de la otra, esto es, hay que
comparar las distribuciones condicionadas de una de las dos
variables agrupada en funcin de los valores de la otra. Si no hay
relacin entre las variables estas distribuciones deberan ser
iguales. Por ejemplo, podemos comparar las distribuciones de
frecuencias absolutas de Estado de nimo condicionadas a vivir en
una residencia (48, 42, 60) y a no vivir en una residencia (70,
105, 175).Midiendo la asociacin entre 2 variablesEL CASO DE DOS
VARIABLES CATEGRICASQu se puede decir acerca de la asociacin entre
las dos variables de la tabla de contingencia (Estado de nimo y
Vivir en residencia)?
Para evaluar si ambas variables estn relacionadas hay que
observar si la distribucin de los valores de una de las variables
difiere en funcin de los valores de la otra, esto es, hay que
comparar las distribuciones condicionadas de una de las dos
variables agrupada en funcin de los valores de la otra. Si no hay
relacin entre las variables estas distribuciones deberan ser
iguales. Por ejemplo, podemos comparar las distribuciones de
frecuencias absolutas de Estado de nimo condicionadas a vivir en
una residencia (48, 42, 60) y a no vivir en una residencia (70,
105, 175).EL CASO DE DOS VARIABLES CATEGRICASEn nuestro ejemplo
sobre Estado de nimo y Vivir en residencia, dado que la relacin es
asimtrica y la variable explicativa es Vivir en residencia debemos
comparar las distribuciones de Estado de nimo condicionadas a Vivir
en residencia:Si no hubiera relacin entre ambas variables, las
distribuciones de frecuencias relativas de Estado de nimo
condicionadas a Vivir en residencia seran iguales a la distribucin
marginal de la variable Estado de nimo, esto es:
EL CASO DE DOS VARIABLES CATEGRICASExisten diferentes ndices
estadsticos orientados a resumir de forma cuantitativa la asociacin
entre dos variables categricas. Aqu nos vamos a centrar en los dos
siguientes:- El ndice ji-cuadrado de Pearson (2):El ndice 2 toma el
valor 0 cuando dos variables son independientes, siendo mayor que 0
cuando exista asociacin entre ellas, tanto mayor cuanto ms intensa
sea esa correlacin. Ahora bien, no tiene un lmite mximo, lo cual
supone una dificultad a nivel interpretativo.S que puede utilizarse
para comparar la asociacin entre variables en tablas de
contingencia del mismo tamao (I x J) y con el mismo n.Muchos de los
estadsticos que se han propuesto a posteriori a fin de evaluar la
asociacin entre variables categricas se basan en el ndice 2.
EL CASO DE DOS VARIABLES CATEGRICAS- El coeficiente phi de
Pearson ():Puede oscilar entre 0 y q1, siendo q el nmero de
modalidades de la variable que tenga menos de ellas.En tablas de
contingencia de 2 x 2 oscila entre 0 y 1, por lo que suele
utilizarse en esta circunstancia principalmente en la prctica, caso
en el que se han extendido las normas interpretativas sugeridas por
Cohen a la hora de evaluar la intensidad de la asociacin (tamao del
efecto) para este coeficiente: 0,3 => nivel bajo de asociacin;
0,3 < 0,5 => nivel medio de asociacin; > 0,5 => nivel
alto de asociacin.
EL CASO DE DOS VARIABLES CATEGRICAS- El coeficiente de
contingencia de Cramer (V de Cramer):El coeficiente V de Cramer
oscila entre 0 (independencia) y 1, de modo que cuanto ms prximos a
1 sean los valores, ello indicar mayor intensidad en la asociacin
de las variables.
Midiendo la asociacin entre 2 variablesEL CASO DE UNA VARIABLE
CATEGRICA Y UNA CUANTITATIVA
De nuevo, el anlisis de este tipo de asociacin supone comparar
las distribuciones condicionales de una variable para los distintos
valores que toma la otra. Normalmente, se suele tomar como
condicionada a la cuantitativa y como condicionante a la categrica,
si bien, las conclusiones a las que llegaramos seran las mismas si
se hiciese al revs. Si no hay diferencias entre las distribuciones
condicionales, ello indicar que no hay asociacin entre ambas
variables.ejemploEjemplo del caso en que se quiera analizar la
asociacin entre las variables Nota en un examen de una asignatura
[0 a 10] y Grupo en el que se est matriculado [1 a 6], disponindose
de los datos de un total de 768 estudiantes de 6 grupos:
EL CASO DE UNA VARIABLE CATEGRICA Y UNA CUANTITATIVAA modo de
ejemplo, las dos siguientes obtenidas para los datos anteriores con
el paquete estadstico SPSS o, tambin, el diagrama de dispersin.
EL CASO DE UNA VARIABLE CATEGRICA Y UNA CUANTITATIVAEjemplo de
diagrama de caja y bigotes con la distribucin de la variable Nota
en un examen de una asignatura condicionada a la variable Grupo en
el que se est matriculado:
EL CASO DE UNA VARIABLE CATEGRICA Y UNA CUANTITATIVAEjemplo de
polgono de frecuencias superpuesto de las distribuciones de la
variable n de bajas laborales en un grupo de trabajadores durante
los ltimos 12 meses condicionadas al tipo de relacin laboral de los
trabajadores. Recurdese que cuando el tamao de los grupos de la
variable condicionante es desigual no se deben representar las
frecuencias absolutas sino las frecuencias relativas o porcentajes
condicionados, es decir, dividiendo la frecuencia absoluta por el
tamao de cada uno de los grupos. Vase en este ejemplo que el grfico
de la izquierda puede resultar engaoso al dar la sensacin de que
ambas distribuciones son bastante diferentes, sin embargo, este
efecto es debido a que el n de trabajadores fijos es muy superior
al de trabajadores temporales. En el grfico de la derecha, donde se
representan las distribuciones de frecuencias relativas
condicionadas, se puede comprobar que ambas distribuciones son, en
realidad, bastante similares.
EL CASO DE UNA VARIABLE CATEGRICA Y UNA CUANTITATIVA- El
diagrama de medias:Ejemplo de diagrama de medias de la variable
Nota en un examen de una asignatura condicionada a las variables
Grupo en el que se est matriculado [1 a 6] y Asistencia regular a
las clases [Si, No]:Existen diferentes ndices estadsticos
orientados a cuantificar la intensidad de la asociacin entre una
variable categrica y una variable cuantitativa. Aqu nos vamos a
centrar en los siguientes:
EL CASO DE UNA VARIABLE CATEGRICA Y UNA CUANTITATIVA(1) Dada una
variable categrica X dicotmica [a, b] y una variable cuantitativa
Y, el ndice de asociacin d de Cohen se obtiene a travs de la
siguiente expresin:Los valores que puede tomar d no estn acotados a
un rango, pudiendo ser tanto positivos como negativos. Si las dos
variables consideradas son independientes entonces d ser igual a 0,
mientras que cuanto mayor sea la asociacin entre ellas, mayor ser
el valor de d en trminos absolutos. Cohen sugiere las siguientes
normas interpretativas, aunque el propio autor afirma que se deben
utilizar slo en el caso que no se tenga ningn criterio sustantivo
que sirva de base interpretativa: valores absolutos de d entre 0,2
y 0,5 indicaran una intensidad de la asociacin (tamao del efecto)
baja; entre 0,5 y 0,8 media; mientras que a partir de 0,8,
alta.
Midiendo la asociacin entre 2 variablesEL CASO DE DOS VARIABLES
CUANTITATIVASSin embargo, dado el nmero tan amplio de
distribuciones condicionales que se pueden llegar a obtener en este
caso, es ms habitual analizar la asociacin directamente sobre un
diagrama de dispersin, observando la disposicin de la nube de
puntos que representa la distribucin conjunta de ambas variables.
As, qu podramos decir acerca de la asociacin entre los 4 pares de
variables cuyos diagramas de dispersin se muestran a
continuacin?
EL CASO DE DOS VARIABLES CUANTITATIVASEn la cuantificacin de la
asociacin entre 2 variables cuantitativas nos vamos a ceir al
supuesto de que un modelo de relacin lineal subyace a la asociacin
entre ambas. Subrayar que con frecuencia se obvia en los textos
estadsticos que la relacin que se analiza es en realidad una
relacin de tipo lineal. Los ndices ms utilizados en la prctica
estadstica a la hora de analizar la intensidad o tamao del efecto
de la relacin lineal entre dos variables son los tres
siguientes:
- Al numerador de esta expresin se le conoce en la literatura
estadstica como suma de productos cruzados (SPXY), por lo que la
anterior expresin queda como: sXY = SPXY / n- Desarrollando
algebraicamente la frmula de la covarianza se puede llegar a una
frmula que se considera ms conveniente cuando el clculo de la misma
se ha de realizar de forma manual:
EL CASO DE DOS VARIABLES CUANTITATIVASEjemplo para las variables
Calificaciones en msica (X) y Calificaciones en matemticas (Y)
obtenidas por un grupo de 10 nios.
EL CASO DE DOS VARIABLES CUANTITATIVAS(2) El coeficiente de
correlacin producto-momento de Pearson (rXY)- Los inconvenientes de
la covarianza por una parte, no tiene valores mximo y mnimo y, por
otra parte, depende de las unidades de medida de las variables- se
resuelven estandarizando este ndice al dividirlo por el producto de
las desviaciones tpicas de ambas variables. Se obtiene as el
conocido como coeficiente de correlacin de Pearson:
El coeficiente de correlacin de Pearson se interpreta de modo
anlogo a la covarianza pero, al oscilar entre -1 y 1 como mximo, la
interpretacin del mismo resulta ms intuitiva a la vez que facilita
el establecimiento de comparaciones entre los coeficientes
obtenidos para conjuntos de datos distintos.