-
Tema 5: Asociacin.1. Introduccin. 2. Tablas y grficas
bivariadas.3. Variables cuantitativas.3.1. Covarianza.3.2.
Coeficiente de correlacin de Pearson.3.3. Matriz de
varianzas/covarianzas y matriz de correlaciones.4. Variables
semicuantitativas: Coeficiente de Spearman.5. Variables
cualitativas: Indices Ji Cuadrado y V de Cramer.6. Asociacin entre
variables de escalas diferentes.7. Concepto de relaciones no
lineales.
-
5.1 Introduccin
Hasta ahora nos hemos centrado en medidas de tendencia central,
variabilidad, asimetra y curtosis de una nica variable.
No obstante, en la prctica es comn examinar dos o ms variables
conjuntamente (v.g., relacin entre inteligencia y rendimiento,
etc.)
En este tema nos centraremos en la relacin entre 2 variables (a
partir de n observaciones apareadas) y calcularemos (en particular)
un ndice que nos dar el grado de relacin/asociacin entre ambas
variables: el coeficiente de correlacin lineal (de Pearson)
-
5.2 Representacin grfica de una relacin
inteligenciarendimiento
rendimiento
rendimiento
inteligenciainteligenciaRelacin lineal positivaRelacin lineal
negativaSin relacinNota: El coeficiente de correlacin de Pearson
mide relacin LINEAL.
-
Representacin grfica de una relacin (2)
rendimiento
rendimiento
inteligenciainteligenciaRelacin linealRelacin no linealNota: El
coeficiente de correlacin de Pearson mide relacin LINEAL.
-
Representacin grfica de una relacin (3)
inteligenciarendimiento
rendimiento
rendimiento
inteligenciainteligenciaRelacin lineal perfecta (casi
perfecta)Relacin lineal dbilRelacin lineal fuerte/moderada
Ahora necesitamos un ndice que nos informe tanto del grado en
que X e Y estn relacionadas, y si la relacin es positiva o
negativa
-
5.3 Covarianza e ndice de correlacin de Pearson
rendimiento
inteligenciaObservad que cuando la relacin lineal es positiva,
cuando las puntuaciones diferenciales de X son positivas, las
puntuaciones diferenciales de Y suelen ser
positivas.inteligencia
rendimiento
Observad que cuando la relacin lineal es negativa, cuando las
puntuaciones diferenciales de X son positivas, las puntuaciones
diferenciales de Y suelen ser negativas.Caso 1Caso 2
-
CovarianzaLa covarianza aprovecha esta caracterstica sealada en
la transparencia anterior (al emplear el producto de las
puntuaciones diferencias de X e Y). He aqu la frmula:En el caso 1,
la covarianza ser un valor positivo, y en el caso 2, la covarianza
ser un valor negativo. Por tanto la covarianza nos da una idea de
si la relacin entre X e Y es positiva o negativa.Problema: la
covarianza no en un ndice acotado (v.g., cmo interpretar una
covarianza de 6 en trminos del grado de asociacin), y no tiene en
cuenta la variabilidad de las variables. Por eso se emplea el
siguiente ndice....
-
Coeficiente de correlacin (lineal) de PearsonEl coeficiente de
correlacin de Pearson parte de la covarianza:Ahora veremos varias
propiedades del ndice...
-
Coeficiente de correlacin (lineal) de PearsonPropiedad 1. El
ndice de correlacin de Pearson no puede valer menos de -1 ni ms de
+1.
Un ndice de correlacin de Pearson de -1 indica una relacin
lineal negativa perfecta
Un ndice de correlacin de Pearson de +1 indica una relacin
lineal positiva perfecta.
Un ndice de correlacin de Pearson de 0 indica ausencia de
relacin lineal. (Observad que un valor cercano a 0 del ndice no
implica que no haya algn tipo de relacin no lineal: el ndice de
Pearson mide relacin lineal.)
-
Coeficiente de correlacin (lineal) de PearsonPropiedad 2. El
ndice de correlacin de Pearson (en valor absoluto) no vara cuando
se transforman linealmente las variables.
Por ejemplo, la correlacin de Pearson entre la temperatura (en
grados celsius) y el nivel de depresin es la misma que la
correlacin entre la temperatura (medida en grados Fahrenheit) y el
nivel de depresin.
Evidentemente, el ndice de correlacin de Pearson es el mismo
entre las puntaciones directas de X e Y, o entre las puntuaciones
diferenciales de X e Y, o entre las puntuaciones tpicas de X e Y.
(Recordad que las puntuaciones diferenciales y las puntuaciones
tpicas son transformaciones lineales de las puntuaciones
directas.)
-
Coeficiente de correlacin (lineal) de PearsonInterpretacinHemos
de tener en cuenta qu es lo que estamos midiendo para poder
interpretar cun grande es la relacin entre las variables bajo
estudio. En muchos casos, depende del rea bajo estudio.
rendimiento
inteligenciaEn todo caso, es muy importante efectuar el diagrama
de dispersin. Por ejemplo, en el caso de la izquierda, es claro que
no hay relacin entre inteligencia y rendimiento. Sin embargo, si
calculamos el ndice de correlacin de Pearson nos dar un valor muy
elevado, causado por la puntuacin atpica en la esquina superior
derecha.
-
Coeficiente de correlacin (lineal) de PearsonInterpretacin
(2)
Es importante indicar que CORRELACIN NO IMPLICA CAUSACIN. El que
dos variables estn altamente correlaciones no implica que X causa Y
ni que Y causa X.
(Esa es una de las razones empleadas por las tabaqueras en el
tema de la correlacin entre cncer de pulmn y el hecho de
fumar.)
-
Coeficiente de correlacin (lineal) de PearsonInterpretacin (3)Es
importante indicar que el coeficiente de correlacin de Pearson
puede verse afectado por la influencia de terceras variables. Por
ejemplo, si furamos a un colegio y medimos la estatura y pasamos
una prueba de habilidad verbal, saldr que los ms altos tambin
tienen ms habilidad verbal...claro, que eso puede ser debido
simplemente a que en el colegio los nios ms altos sern mayores en
edad que los ms bajos. Habilidad numricaEstatura
6 aos8 a10 a12 a14 aSi se parcializa esta tercera variable
(mediante correlacin parcial, que ya veremos ms adelante),
difcilmente habr una relacin de importancia entre estatura y
habilidad numrica.
Hay muchos casos en que es la tercera variable la causante de
una alta relacin entre X e Y (y ello muchas veces es difcil de
identificar)
-
Coeficiente de correlacin (lineal) de PearsonInterpretacin
(3)Por otra parte, el valor del coeficiente de Pearson depende en
parte de la variabilidad del grupo.Rendimientointeligencia
CI bajoCI altoSi efectuamos el coeficiente de Pearson entre
inteligencia y rendimiento con todos los sujetos, el valor del
coeficiente de Pearson ser bastante elevado.Sin embargo, si
empleamos nicamente los individuos con CI bajo (o CI alto) y
calculamos la correlacin con Rendimiendo, el valor del coeficiente
de Pearson ser claramente menor.Un grupo heterogneo dara pues un
mayor grado de relacin entre variables que un grupo homogneo.
-
5.4 Otros coeficientes: variables semi-cuantitativas Claro est,
es posible obtener medidas del grado de relacin de variables cuando
stas no sean cuantitativas. El caso en que las variables X e Y sean
ordinalesRecordad, cuando tenemos variables con escala ordinal,
podemos establecer el orden entre los valores, pero no sabemos las
distancias entre los valores. (Si supiramos la distancia entre los
valores ya estaramos al menos en una escala de intervalo)Podemos
calcular el coeficiente de correlacin de Spearman o el coeficiente
de correlacin de Kendall. (Veremos el primero.)
-
Coeficiente de correlacin de Spearman Lo que tenemos ahora son 2
sucesiones de valores ordinales.
El coeficiente de Spearman es un caso especial del coeficiente
de correlacin de Pearson aplicada a dos series de los n primeros
nmeros naturales (cuando no hay empates; si hay muchos- empates hay
otra frmulaes la diferencia entre el valor ordinal en X y el valor
ordinal en Y del sujeto i
-
Coeficiente de correlacin de Spearman (propiedades) Primera. Se
encuentra acotado, como el coeficiente de Pearson entre -1 y
+1.
Un coeficiente de Spearman de +1 quiere decir que el que es
primero en X es primero en Y, el que es segundo en X es segundo en
I, etcUn coeficiente de Sperman de -1 quiere decir que el que es
primero en X es ltimo en Y, el segundo en X es el penltimo en Y,
etc.Segunda. Su clculo es muy sencillo (ms que el del coeficiente
de correlacin de Pearson). No obstante, con los ordenadores y un
programa estadstico, esto es irrelevante estos das...
-
5.5 Variables cualitativas Prueba c2 como medida de asociacin y
como prueba de contraste
La prueba chi-cuadrado es una prueba no paramtrica que se emplea
para medir la asociacin entre dos variables cuando tenemos tablas
de contingencia. Tambin es empleada, de manera general, para
evaluar la divergencia entre una puntuaciones observadas (empricas)
y unas puntuaciones predichas (tericas).
De manera general, el estadstico chi-cuadrado se obtiene as:
Donde fe representa las frecuencias empricas y ft representa las
frecuencias tericas
-
Prueba c2 como medida de asociacin: El caso de independencia de
2 variables cualitativas
Las frecuencias empricas son las que tenemos en la tabla de
contingencia. Ahora bien, cmo computar las frecuencias tericas? Tal
proceso es simple:Si ambas variables son independientes, la
frecuencia terica de cada celdilla ser el resultado de multiplicar
la suma de frecuencias de la fila x la suma de frecuencia de las
columnas, y ese resultado se divide por N
Para calcular "chi-cuadrado" con tablas de contingencia en
internet:http://faculty.vassar.edu/lowry/newcs.html
-
Prueba c2 como medida de asociacin. Coeficientes derivados e
interpretacin
A partir de la prueba chi-cuadrado, se han propuesto cierto
nmero de medidas de asociacin entre variables cuando tenemos
frecuencias en tablas de contingencia. Se trata de cuantificar la
fuerza de la relacin entre dos variables.
Caso de tener tablas 2x2: Coeficiente phi
Este ndice se interpreta de manera anloga al coeficiente de
Pearson (pero observa que phi no puede ser negativo...slo de 0 a
1)
-
Prueba c2 como medida de asociacin: Coeficientes derivados e
interpretacin
Este ndice se interpreta anlogamente al ndice de Pearson
(excepto por el tema del signo).Caso de tener ms de 2 filas
columnas: Prueba de Cramerm es el nmero menor entre el nmero de
filas-1 y columnas-1Observa que si la tabla es 2x2 este ndice
coincide con el ndice phi