CORRELACIÓN LINEAL SIMPLE - …asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica...d • Fuerte o intensa ... Coeficientes cercanos a -1.00 o a +1.00 indican que existe

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

CORRELACIÓN LINEAL SIMPLE

ANÁLISIS DE CORRELACIÓN

Cuando se trabaja con dos variables, pueden surgir diferentes preguntas

como:

http://www.cuautitlan.unam.mx Correlación Lineal Simple

arra de acero y

dureza?, etc.

Qué es un análisis de correlación?

ente si tiene relación o incidencia en el nivel de glucosa en la

angre.

¿Existe relación entre lo que

una empresa gasta en

publicidad y el importe de sus

ventas?, ¿existe relación entre

el número de años de

antigüedad en el trabajo y la

productividad?, ¿existe relación

entre la edad de un adulto y la

presión sistólica?, ¿existe

relación entre el contenido de

carbono de una b

la

¿

Es un grupo de técnicas estadísticas empleado para medir la intensidad de

la relación entre dos variables. La variable que se intenta predecir se

denomina variable dependiente (Y) y la variable utilizada para la predicción

es la variable independiente (X); esta variable debe seleccionarse con

cuidado, para que podamos tener cierto nivel de seguridad de que si incide

en el comportamiento de la variable dependiente. Por ejemplo, si deseamos

saber si el nivel de glucosa en la sangre de un varón adulto, tiene relación

con el peso de dicho varón, podemos decir que el peso de los varones,

seguram

s



Qué es un diagrama de dispersión?

riables de interés,

e fácil interpretación.

construye un diagrama de

ispersión?

1. Primero se dibujan los ejes X y Y.

tes valores de

variable independiente.

ntes valores de

variable dependiente.

s correspondientes a los

pares ordenados o pares de observaciones.

elación

ntre estas dos variables y que el peso incide en el nivel de glucosa.

¿

Es una gráfica que presenta visualmente

la relación entre dos va

d

¿Cómo se

d

2. En el eje X se marca una escala

adecuada para los diferen

la

3. En el eje Y se marca una escala

adecuada para los difere

la

4. Por último se dibuja el conjunto de punto

Por ejemplo, si tomamos una muestra aleatoria de 10 varones adultos y a

cada uno de ellos les medimos el peso (en kg) y el nivel de glucosa en la

sangre (en mg/100 ml), obtenemos los siguientes valores, designando al

peso como la variable independiente X y al nivel de glucosa en la sangre,

como la variable dependiente Y, ya que suponemos que debe existir r

e

X Peso 64.7 75.3 73.0 82.1 76.2 95.7 59.4 93.4 82.5 78.9 (kg)

Y Glucosa

(mg/100ml) 98 109 88 107 93 121 79 118 109 85



e dibuja el diagrama de dispersión

la línea, pues la fuerza

e la correlación no depende de la dirección;

están alineados pero se

encuentran muy juntos en esa tendencia;

puntos más o

menos definido;

n entre las dos

variables, y

na relación entre

las dos variables.

S

¿Cómo analizar un diagrama

de dispersión?

las dos

variables, la cual puede ser:

Al observar los puntos del

diagrama, nos podemos dar

una idea de la intensidad de la

relación entre

• Perfecta, si los puntos están perfectamente alineados sin importar la

pendiente o sentido (positivo o negativo) de

d

• Fuerte o intensa, cuando los puntos no

• Moderada, cuando no se observa

una tendencia clara, pero un

acomodo de los

• Débil, cuando no es posible definir

una relació

• Nula o espuria, cuando se observa

que no hay ningu



Coeficiente de correlación

iginado por el investigador Karl

earson aproximadamente en el año 1900.

n la intensidad, r = -0.41 y r =

0.41 denotan ambos la misma intensidad.

Cómo se calcula?

La fórmula para calcular r es

Una medida de la intensidad de la relación entre las dos variables de

interés, es el coeficiente de correlación, or

P

¿Cómo se denota el coeficiente de correlación?

Se denota con r, y puede tomar cualquier valor entre –1.00 y +1.00.

Coeficientes cercanos a -1.00 o a +1.00 indican que existe una correlación

intensa entre las dos variables de interés. Un coeficiente cercano a cero

indica correlación débil, y uno de cero significa que no existe correlación. El

signo negativo indica que existe una relación inversa, es decir, conforme X

aumenta, Y disminuye. Una correlación positiva indica que si X aumenta, Y

también lo hace. El signo no tiene que ver co

+

¿

])()(][)()([ 2222 YYnXXn ∑−∑∑−∑

))(()( YXXYnr ∑∑−∑=



n donde:

es el número de pares de observaciones

E

n

X∑ es la suma de valores de la variable X

es la suma de valores X elevados al cuadrado

es el cuadrado de la suma de valores de X

es la suma de valores Y elevados al cuadrado

Y

)( XY∑ es la suma de los productos de X por Y

Y∑

2

es la suma de valores de la variable Y

)( X∑2

)( X∑2 )( Y∑

2)( Y∑ es el cuadrado de la suma de valores de

Continuando con nuestro ejemplo, calcularemos el coeficiente de correlación entre el peso y el nivel de glucosa de los varones adultos; lo haremos con calculadora paso a paso, pero debemos mencionar que se puede resolver

cilmente con cualquier paquete de software estadístico.

rimero con una tabla, calculamos las sumatorias:

fa

P

X Y X2 XY Y2

64.7 98 4,186.09 6,340.6 9,604 75.3 109 5,670.09 8,207.7 11,881 73.0 88 5,329.00 6,424.0 7,744 82.1 107 6,740.04 8,784.7 11,449 76.2 93 5,806.44 7,086.6 8,649 95.7 121 9,158.49 11,579.7 14,641 59.4 79 3,528.36 4,692.6 6,241 93.4 118 8,723.56 11,021.2 13,924 82.5 109 6,806.25 8,992.5 11,881 78.9 85 6,225.21 6,706.5 7,225

781.2 1,007 62,173.90 79,836.1 103,239


A continuación, con el valor de n=10, es decir, el número de varones

adultos a los que se les midió el peso y la glucosa y los resultados de la

tabla anterior, aplicamos la fórmula:

=−−

−=

])007,1()239,103(10][)2.781()90.173,62(10[)007,1)(2.781()1.836,79(10

22r

]341,18][56.465,11[6.692,11

=r

8063.037.501,146.692,11==r

Como r resultó de signo positivo, indica que conforme aumenta el peso de

los varones adultos, la glucosa también se incrementa; esta relación

podemos decir que tiene un grado de intensidad entre moderado y fuerte.

¿Existen otros coeficientes que midan la intensidad de relación entre dos

variables?

Como los términos débil, moderado y fuerte utilizados para el coeficiente de

correlación, no tienen un significado preciso, una medida que tiene un

significado más exacto es el coeficiente de determinación, que se calcula al

elevar al cuadrado el coeficiente de correlación y se denota por r2. Sólo

toma valores entre 0.00 y 1.00 y se puede expresar en porcentaje con

valores entre 0% y 100%.

¿Cómo se define el coeficiente de determinación?

El coeficiente de determinación r2 es la proporción de la variación total en la

variable dependiente Y que se explica por, o se debe a, la variación en la

variable dependiente X; también podemos decir que r2 es el cuadrado de r

el coeficiente de correlación

6501.0)8063.0( 22 ==r

En nuestro ejemplo calculamos r2



Entonces podemos afirmar que el 65.01% de la variación que se manifiesta

en el nivel de glucosa de los varones, se debe o está explicada por la

variación en el peso.

Coeficiente de no determinación

Es lógico que el coeficiente de no determinación sea la proporción de la

variación total en Y que no es explicada por la variación en X; se calcula

por medio de 1-r2

En nuestro ejemplo calculamos 1-r2

3499.06501.011 2 =−=− r

Por lo tanto, el 34.99% de la variación de la glucosa, no se explica por la

variación en el peso, sino que se debe a otros factores como puede ser la

edad, la altura o los hábitos alimenticios.

ANÁLISIS DE REGRESIÓN

Al continuar con el estudio de la relación entre dos variables X y Y, ahora es

pertinente considerar el caso en que es necesario pronosticar la variable

dependiente Y con base en la variable independiente X, es decir, que nos

puede interesar pronosticar el nivel de glucosa en la sangre de un varón

adulto que tenga X peso.

¿Qué es el análisis de regresión?

Es la técnica empleada para realizar la

predicción del valor de la variable

dependiente Y, con base en un valor

seleccionado de la variable independiente X




ación.

correspondiente a una lín

Nota: La palabra regresión la utilizó por primera vez Sir

Francis Galton en 1877 en su estudio de los factores

hereditarios. Descubrió que las estaturas de los

descendientes de padres altos, tendían a una regresión

(es decir a volver o retornar) hacia la estatura promedio

de la pobl

Al observar el diagrama de dispersión, se puede

considerar que una línea recta parece describir mejor la ubicación promedio

de los puntos, por lo que se determinará mediante una ecuación

matemática ea recta.

¿Qué es la ecuación de regresión?

Es una expresión matemática que define la relación entre dos variables,

llamada también recta de regresión. Se pueden trazar manualmente varias

rectas que pasen aproximadamente cerca de todos los puntos, pero el

concepto de “cerca” se debería al juicio de cada persona que realiza el

ajuste; para evitar esta subjetividad y elegir la recta que mejor se ajuste a

los puntos, utilizaremos el método de mínimos cuadrados.

¿Qué es el método de mínimos

cuadrados?

Es una técnica empleada para llegar a

la ecuación de regresión, minimizando

la suma de los cuadrados de las

distancias o desviaciones verticales

entre los valores Y verdaderos (de los

puntos) y los valores pronosticados o

estimados de Y (de la recta).


La forma general de la ecuación de regresión o recta de regresión, es

bXaY +=' En donde: Y’ es el valor pronosticado o estimado de la variable Y, para un valor deleccionado de X. a es la ordenada al origen de la recta o la intersección con el eje Y; también se puede decir que es el valor estimado de Y cuando X vale cero. b es la pendiente de la recta, es decir, el cambio promedio (incremento o decremento según sea el signo) en Y’, por cada unidad de cambio en la variable independiente X. X es cualquier valor seleccionado para la variable independiente. Como la pendiente b indica el comportamiento o actitud que tiene la variable dependiente Y con respecto a la variable independiente X, le denominaremos como coeficiente de regresión. ¿Cómo se calculan el coeficiente de regresión y la ordenada al origen? Con base en el planteamiento y solución de un sistema de dos ecuaciones lineales normales, podemos definir las dos fórmulas correspondientes.


XbYa

bienonXb

nYa

XXnYXXYnb

−=

∑−

∑=

∑−∑∑∑−∑

= 22 )()())(()(

X Y X2 XY Y2

64.7 98 4,186.09 6,340.6 9,604 75.3 109 5,670.09 8,207.7 11,881 73.0 88 5,329.00 6,424.0 7,744 82.1 107 6,740.04 8,784.7 11,449 76.2 93 5,806.44 7,086.6 8,649 95.7 121 9,158.49 11,579.7 14,641 59.4 79 3,528.36 4,692.6 6,241 93.4 118 8,723.56 11,021.2 13,924 82.5 109 6,806.25 8,992.5 11,881 78.9 85 6,225.21 6,706.5 7,225

781.2 1,007 62,173.90 79,836.1 103,239

XyY son los promedios o medias

de las variables X y Y. Continuando con nuestro ejemplo, con los valores de la siguiente tabla, calcularemos la ecuación de la recta de regresión, que estima o pronostica el valor de nivel de glucosa en la sangre para un valor del peso de un varón adulto: Calculamos ahora los valores de a y b:


XYcomoquedaregresiónderectaladeecuaciónlaquelopor

a

b

02.103.21':

03.21)12.78(02.17.100)10

2.781(02.110007,1

02.156.465,116.692,11

)2.781()90.173,62(10)007,1)(2.781()1.836,79(10

2

+=

=−=−=

==−

−=

78.12 kg es el peso promedio de la muestra de varones adultos que se está analizando, y 100.7 mg/100ml es nivel de glucosa promedio de dicha muestra.

La ordenada al origen indica que, hipotéticamente un varón adulto que pesara 0 kg, tendría un nivel de glucosa en la sangre de 21.03 mg/100ml, aunque debemos observar que el peso de los varones adultos está en un rango experimental aproximadamente entre 60 y 100 kg. El coeficiente de regresión indica que, por cada kilogramo de peso que aumente un varón, su nivel de glucosa se incrementará (ya que el coeficiente de regresión es de signo positivo) en 1.02 mg/100ml.

Para un varón adulto que tenga un peso de 80.0 kg, podríamos estimar su nivel de glucosa, sustituyendo el valor del peso en la ecuación de la recta de regresión encontrada:

Con base en el coeficiente de regresión, también podríamos decir, que si el varón con 80.0 kg de peso tiene un nivel de glucosa estimado o pronosticado de 102.62 mg/100ml, otro varón con 81.0 kg de peso, tendrá un nivel de glucosa estimado de 102.62+1.02=103.64 mg/100ml. ¿Cómo trazar la recta de regresión en el diagrama de dispersión?

Para dibujar una línea recta, sólo necesitamos las coordenadas de dos puntos, las cuales se pueden obtener substituyendo dos valores (cualesquiera, de preferencia dentro del rango de los valores originales) de la variable independiente X o abscisas, en la ecuación de regresión y obteniendo dos valores estimados de Y’ u ordenadas. Dibujando estos dos puntos en el diagrama de dispersión, se puede fácilmente trazar la recta de regresión.

62.10258.8103.21)0.80(02.103.21' =+=+=Y



Es conveniente indicar que el punto de coordenadas P(0,a) de la intersección de la recta con el eje Y, y el punto de coordenadas P( ),( YX de las medias de las dos variables, pertenecen a la recta de regresión. En nuestro ejemplo, para trazar la recta de regresión debemos saber que contamos con los siguientes puntos que pertenecen a la recta: El punto P(0, 21.03) correspondiente a la intersección de la recta con el eje Y de la variable dependiente (nivel de glucosa en la sangre), y el punto P(78.12, 100.7) correspondiente a las medias de las dos variables, pertenecen a la recta de regresión

XY 02.103.21' += Podemos encontrar dos puntos dentro del rango experimental, sustituyendo por ejemplo los valores de 60.0 y 100.0 kg de peso en la ecuación de la recta de regresión

mlmgY 100/01.123)0.100(02.103.21' =+=mlmgY 100/22.82)0.60(02.103.21' =+=

Por lo que, por los puntos P(60.0, 82.22) y P(100.0, 123.01) se puede trazar la recta de regresión

En el diagrama de dispersión anterior, se puede observar que no todos los puntos están sobre la recta de regresión, lo cual indica que al realizar el pronóstico de la variable dependiente Y, no tendríamos una exactitud del 100%, sino que habría un error, es decir que, la estimación del nivel de glucosa no es exacta, con base en el peso de los varones adultos. En el caso hipotético de que todos los puntos estuvieran sobre la recta de regresión, el pronóstico sería exacto.



¿Cómo medir la precisión de los pronósticos o estimaciones? La medida que indica la precisión en el pronóstico o estimación de la variable dependiente Y, con respecto a la variable independiente X, se llama error estándar de regresión. Se denota con y es similar a la desviación estándar que nos mide la dispersión de un conjunto de valores con respecto a la media, así, el error estándar de regresión mide la dispersión vertical de los puntos con respecto a una recta promedio que llamamos recta de regresión.

xyS .

¿Cómo se calcula el error estándar de regresión? Se calcula con la siguiente fórmula:

2

]))(([)(

2)'(

22

.

2

.

−

∑∑−∑−

∑−∑

=

−−∑

=

nn

YXXYbnYY

S

bienon

YYS

xy

xy

Podemos ver en las fórmulas anteriores que el denominador del radical es n-2, en lugar de n-1 como era para el caso de la desviación estándar; lo anterior obedece a que para encontrar los valores a y b en la recta de regresión, son dos incógnitas en el sistema de dos ecuaciones lineales normales, lo cual también podríamos explicar diciendo que así como para calcular la desviación estándar se necesitan como mínimo dos valores, para calcular el error estándar de regresión se necesitan como mínimo tres puntos. Para calcular el error estándar de regresión en nuestro ejemplo, de acuerdo a la primer fórmula, debemos calcular los residuos, es decir, las distancias o desviaciones

verticales entre los valores observados del nivel de glucosa en la sangre (Y) y los correspondientes valores estimados (Y’); por el método de mínimos cuadrados, la suma de estos residuos debe ser igual a cero, es decir ; reiterando que se puede hacer fácilmente con los paquetes de software estadístico, lo hacemos en la siguiente tabla

0)'( =−∑ YY

X Y Y’ Y-Y’ (Y-Y’)2

64.7 98 87.01 10.99 120.6865 75.3 109 97.82 11.18 124.8994 73.0 88 95.48 -7.48 55.9297 82.1 107 104.76 2.24 5.0229 76.2 93 98.74 -5.74 32.9703 95.7 121 118.63 2.37 5.6258 59.4 79 81.61 -2.61 6.8085 93.4 118 116.28 1.72 2.9496 82.5 109 105.17 3.83 14.6939 78.9 85 101.50 -16.50 272.0997

781.2 1,007 1007 0.00 641.6864



Calculamos el error estándar muestral, con las dos fórmulas

96.82108.8086864.641

84136.192,11.834,1

8)26.169,1(02.11.834,1

210

]10

)007,1)(2.781(1.836,79[02.110

)007,1(239,103

96.82108.8086864.641

2106864.641

.

2

.

.

===−

=

−=

−

−−−=

===−

=

xy

xy

xy

S

S

bienoS El error estándar de regresión tiene un valor de 8.96 mg/100ml Relación entre coeficiente de correlación y el error estándar de regresión: Cuando en el diagrama de dispersión, los puntos están muy cerca de la recta de regresión, podemos afirmar que la intensidad de la relación entre las dos variables es fuerte, es decir, que el coeficiente de correlación (r) es muy cercano a , pero también podemos decir que el error estándar de regresión ( ) es casi cero; por el contrario, cuando la relación entre dos variables es nula, los puntos en el diagrama están totalmente dispersos con respecto a la recta de regresión, lo que conlleva que

y que

00.1±xyS .

0=r ∞=xyS . . ¿Cuáles son los supuestos básicos para la regresión lineal? El análisis de la regresión lineal, se sustenta en que se cumplan o satisfagan los siguientes supuestos:

1. Para cada valor de la variable independiente X, existe un conjunto de valores Y, que tienen distribución normal. Se le conoce como supuesto de normalidad; si la distribución sólo es aproximadamente normal, para el análisis de regresión se puede decir que se satisface el supuesto.

2. Las medias ( xy /μ ) de las distribuciones normales de valores Y, se encuentran todas en la recta de regresión. Se le conoce como supuesto de linealidad.

3. Las desviaciones estándares (σ ) de dichas distribuciones normales, ahora representadas por el error estándar de regresión ( ), son iguales. Se le conoce como supuesto de homoscedasticidad; este supuesto es importante que se cumpla para el uso del método de mínimos cuadrados.

xyS .

4. Para cada valor de la variable independiente X, se presenta un error, es decir, la distancia o desviación vertical entre un valor observado Y y su correspondiente valor pronosticado o estimado Y’; es necesario que se cumpla la suposición de que estos errores sean independientes para cada valor de X; se le conoce como supuesto de independencia de error.



Si las distribuciones de los valores Y para cada valor de X son aproximadamente normales, entonces existen las mismas relaciones que tienen los valores de μ yσ en la distribución normal, es decir, con una muestra suficientemente grande, aproximadamente:

xySY .1'± abarca o comprende el 68.26% centrado de los valores observados.

xySY .2'± abarca o comprende el 95.44% centrado de los valores observados.

xySY .3'± abarca o comprende el 99.74% centrado de los valores observados. En nuestro ejemplo, si tomamos un varón adulto de X=75.0 kg de peso y estimamos su nivel de glucosa en la sangre con

mlmgY 100/52.9749.7603.21)0.75(02.103.21' =+=+= Entonces: entre de nivel de glucosa en la sangre, se encuentra el 68.26% centrado, de los varones con 75.0 kg de peso.

mlmgyentredecires 100/47.10656.88,,96.852.97)96.8(152.97 ±=±

entre de nivel de glucosa en la sangre, se encuentra el 95.44% centrado, de los varones con 75.0 kg de peso.


entre de nivel de glucosa en la sangre, se encuentra el 99.74% centrado, de los varones con 75.0 kg de peso.


Casi todas las variables independientes que se han estudiado, son de tipo cuantitativo, es decir, proporcionan valores numéricos de medición, pero en el análisis de regresión a veces es necesario utilizar como variables independientes, las que son de tipo cualitativo, es decir que sus valores son categorías que proporcionan el concepto de atributo, como por ejemplo el sexo, la nacionalidad, el grupo racial, la profesión u ocupación, la zona de residencia, etc. Para utilizar una variable independiente cualitativa en el análisis de regresión, ésta debe tener la posibilidad de ser cuantificada, lo anterior puede lograrse utilizando una variable ficticia. ¿Qué es una variable ficticia? Es una variable que solo toma un número finito de valores enteros positivos (incluyendo a veces al cero), para identificar las diferentes categorías de una variable cualitativa.



Como por ejemplo:

Variable Cualitativa

VariableFicticia

Sexo X Masculino 0 Femenino 1

Cuando la variable independiente cualitativa es el tiempo (hora, día, mes, año, etc.), al análisis de regresión respectivo, se le llama análisis de series de tiempo. Al dibujar el diagrama de dispersión, se acostumbra unir los puntos con una línea quebrada, ya que los valores del tiempo como variable cualitativa, están equidistantes Tomemos como ejemplo las ventas mensuales (en miles de pesos) de una empresa como la variable dependiente, durante el periodo de agosto de 2005 a julio de 2006; este periodo de tiempo sería la variable independiente cualitativa, que transformamos en una variable ficticia en la siguiente tabla:

Variable independiente

cualitativa

Variableficticia

Variable dependiente

(ventas)

Mes X Y X2 XY Y2

Agosto 1 486 1 486 236,196 Septiembre 2 626 4 1,252 391,876 Octubre 3 630 9 1,890 396,900 Noviembre 4 809 16 3,236 654,481 Diciembre 5 925 25 4,625 855,625 Enero 6 546 36 3,276 298,116 Febrero 7 870 49 4,350 756,900 Marzo 8 368 64 2,944 135,424 Abril 9 426 81 3,834 181,476 Mayo 10 694 100 6,940 481,636 Junio 11 523 121 5,753 273,529 Julio 12 562 144 6,744 315,844 78 7,465 650 45,330 4,978,003

Primero calculamos la recta de regresión

XYcomoquedaregresiónderectaladeecuaciónlaquelopor

a

b

33.2220.767':

20.7675.6)33.22(08.6221278)33.22(

12465,7

33.22716,1

310,38)78()650(12

)465,7)(78()330,45(122

−=

=−−=−−=

−=−

=−

−=



Podemos pronosticar las ventas para diciembre de 2006, con el valor ficticio de X=17 y sustituyéndolo en la ecuación de regresión

pesosdemilesY 67.387)17(33.2220.767' =−= Esta estimación puede no ser muy exacta pues tenemos un error que puede ser muy grande. Calculemos ahora el error estándar de regresión y los coeficientes de correlación, determinación y no determinación:

pesosdemilesS

S

S

xy

xy

xy

14.16278.287,2610

80.877,26210

12.273,7192.150,33410

)50.192,3)(33.22(92.150,334212

]12

)465,7)(78(330,45)[33.22(12

)465,7(003,978,4

.

.

2

.

==

=−

=−−−

=

−

−−−−=

7868.02133.0112133.0)4618.0(

4618.080.950,82

310,38676,835,880,6

310,38

)811,009,4)(716,1(310,38

])465,7()003,978,4(12][)78()650(12[)465,7)(78()330,45(12

2

22

22

=−=−

=−=

−=−

=−

=

−=

−−

−=

rr

r

r

Lo que indica que sólo el 21.33% de la variación en las ventas, está explicado por la variación en el tiempo, en tanto que el 78.68% muchísima variación no está explicada, es decir que el coeficiente de correlación indica un grado de intensidad débil entre las dos variables.


CORRELACIÓN LINEAL SIMPLE - …asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica...d • Fuerte o intensa ... Coeficientes cercanos a -1.00 o a +1.00 indican que existe

Documents