ESTADISTICA Sesión N° 12 REGRESIÓN Y CORRELACIÓN LINEAL
ESTADISTICA
Sesión N° 12
REGRESIÓN Y CORRELACIÓN LINEAL
ESTA
DIS
TIC
A
¿QUE ES LA CORRELACIÓN?
1. ANALISIS DE CORRELACION
DEFINICIÓN. La correlación es el método empleado para
determinar el grado de asociación o relacionamiento entre las
variables que se estudian, para así determinar en qué medida una
relación funcional describe o explica en una forma adecuada la
relación entre estas variables.
TIPOS DE CORRELACIÓN. Atendiendo al relacionamiento entre
las variables X e Y podemos tener:
a) Correlación Directa o Positiva. Cuando las variables X e Y presentan variacionesen un mismo sentido, esto es, para mayores valores de X corresponde mayores
valores de Y.
b) Correlación Inversa o Negativa. Cuando las variaciones de X e Y son ensentidos contrarios, esto es, para mayores valores de X corresponden menores
valores de Y.
c) Sin correlación. Cuando no existe ningún tipo de relacionamiento entre las
variables.
INTRODUCCIÓN
El análisis de este relacionamiento entre dos variables (X,Y)
presenta dos aspectos diferentes:
Unas veces nuestro interés está en conocer si las dos
variables están asociadas y medir hasta qué punto los
cambios en una pueden explicarse por los cambios que
ocurren en la otra. En tal caso tenemos un problema de
Correlación.
Otras veces, cuando estamos seguros que existe un alto
grado de asociación entre las dos variables, el análisis se
encamina a cuantificar la relación existente con el fin de
predecir cuáles serán los valores de la variable respuesta, en
este caso tenemos un problema de Regresión.
DIAGRAMA DE DISPERSIÓN
• Sea Y una variable de interés o variable dependiente, y X una variable independiente.
• La gráfica de estos valores se denomina DIAGRAMA DE DISPERSIÓN (scatterplot)
( , )
( , )
...
( , )
x y
x y
x yn n
1 1
2 2
POSIBLES RELACIONES
X
3020100
Y
50
40
30
20
10
0
X
100806040200
Y
14
12
10
8
6
4
2
0
X
86420-2-4-6-8
Y
110
100
90
80
70
60
50
40
30
X
403020100
Y
50
40
30
20
10
0
CORRELACIÓN DIRECTA
O POSITIVA
CORRELACIÓN INVERSA
O NEGATIVA
NO EXISTE CORRELACIÓN LINEAL
COEFICIENTE DE CORRELACION
Es un número que indica el grado de asociación entre las variables
y se define del siguiente modo:
1 1
1
2 2 2 2
xy
x y
i i
i
n n
i i
n
i i S
S Sx nx y ny
x y nxyr
Características:
i) El coeficiente r es un número comprendido entre -1 y +1
1 r 1
ii) Si r 0 Existe una correlación directa o positiva
iii) Si r 0 Existe una correlación Inversa o negativa
iv) Si r 1 Existe una perfecta asociación positiva entre las dos variables
v) Si r 1 Existe una perfecta asociación negativa entre las dos variables
vi) Si r 0 No Existe asociación entre las dos variables, no existe asociación lineal.
ANALISIS DE REGRESIONREGRESIÓN. Es un método que se emplea para encontrar una
función que se ajusta a una nube de puntos o diagrama de
dispersión, con la finalidad de obtener una predicción aproximada
de una de las variables a partir de la otra.
0
20
40
60
80
100
120
140
160
0 2 4 6 8 10
Ve
nta
s e
n M
illo
nes
Gastos en Publicidad (Millones)
Diagrama de Dispersión
Y f ( X )
OBJETIVOS
• Mostrar la forma como la variable independiente (X) se relaciona con la variable dependiente (Y).
• Hacer pronósticos sobre los valores de la variable dependiente, con base en el conocimiento de los valores de la variable independiente.
2. REGRESION LINEAL SIMPLE
Este tipo de regresión se utiliza cuando existe solo una variable
independiente X para una variable dependiente Y. Está definida por
la siguiente ecuación lineal en su forma general:
0 1Y b b X e
Donde:
Y Es la variable respuesta o la predicción de la variable Y dado un valor X .
0b Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la línea de
regresión cruza el eje de las Y.
1b Es la pendiente de la línea, o la variación promedio en Y por cada variación de
una unidad en X.
X Es cualquier valor seleccionado de la variable independiente X.
e Es el error de predicción
METODO DE MINIMOS CUADRADOS PARA ESTIMAR
LOS COEFICIENTES DE REGRESIÓN.
Es un método para obtener la recta que se ajuste mejor a los
datos, al graficar los datos sabemos que podemos trazar infinidad
de rectas pero este método nos proporciona la de mejor ajuste.
A ie se le llama desviación o error que puede ser negativo o positivo, si elevamos las
desviaciones al cuadrado, para obtener la recta más representativa la suma de los errores
al cuadrado 2 2 2 2
1 2 3 ne e e ..... e debe ser lo más pequeña posible.
ESTIMACION DE LOS COEFICIENTES
RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresión Y en X
utilizaremos la siguiente ecuación de estimación:
0 1Y b b X
Donde los valores de 0b y 1
b en la ecuación de regresión son conocidos como coeficientes
de regresión y las fórmulas para calcularlos son:
Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con
respecto a 0
b y 1
b . (Investigación del alumno)
y b xb 0 1
n
i
i
i
n
i i
x nx
x y nxyb
2 2
1
1
1
Resultados de los datos
EFICIENCIA en función del TIEMPO DE VIDA
y = -7,1217x + 103,67
R2 = 0,9307
0
10
20
30
40
50
60
70
80
90
100
0 2 4 6 8 10 12 14
Tiempo de Vida (años)
Efi
cie
nc
ia (
%)
1.2 EJEMPLO DE CORRELACION
Ejemplo1: Consideramos que las ventas se relacionan con los gastos en
publicidad y si tenemos los datos que se presentan en la siguiente tabla
entonces podremos observar la siguiente gráfica:
Observando el gráfico podemos decir que las ventas y el gasto en publicidad tienen una correlación Directa o Positiva.
AñoGastos en
publicidad en millones (X)
Ventas en millones (Y)
1998 3 201999 5 402000 5 802001 6 1202002 6 902003 7 1252004 4 352005 8 135
0
20
40
60
80
100
120
140
160
0 2 4 6 8 10
Ven
tas e
n M
illo
nes
Gastos en Publicidad (Millones)
Diagrama de Dispersión
1.4 EJEMPLO DE CORRELACION (r)Ejemplo2: Del ejemplo1 hallar el coeficiente de correlación
N°Publicidad
(X)Ventas (Y) XY X2 Y2
1998 3 20 60 9 4001999 5 40 200 25 16002000 5 80 400 25 64002001 6 120 720 36 144002002 6 90 540 36 81002003 7 125 875 49 156252004 4 35 140 16 12252005 8 135 1080 64 18225Total 44 645 4015 260 65975
∑X ∑Y ∑XY ∑ X2 ∑ Y2
2 2
1 1
1
2 2 2 2
4015 8 5.5 80.630.932
260 8 5.5 65975 8 80.63
i i
i
n n
i i
n
i i
x nx y ny
x y nxyr
8, 5.5, 80.625n x y
Interpretación: Como r=0.932, existe una alta correlación positiva entre
los gastos en publicidad y las ventas.
3.3 EJEMPLO APLICATIVO
Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar las
ventas mensuales (en miles de soles) frente a los años de experiencia.
Los datos están en la siguiente tabla.
a) ¿Se trata de una relación lineal?. Realizar el diagrama de dispersión
b) Calcular e interpretar el coeficiente de correlación y el determinación
b) Si es una ecuación lineal hallar la ecuación de regresión determinando
los coeficientes de regresión.
c) Predecir la venta de un empleado con 40 años de experiencia (Estimar
Y para un valor X=40)
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
0
5
10
15
20
25
30
35
40
45
0 5 10 15 20 25 30 35
Ve
nta
s (
Mile
s)
Experiencia
Solución:
a) Diagrama de dispersión
Según el diagrama de dispersión existe una relación aproximadamente
lineal.
b) Hallando los coeficientes de regresión
N° Experiencia (X)
Ventas(miles)(Y) XY X2 Y2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
∑X= 106 ∑Y=194 ∑XY=3478 ∑ X2=2390 ∑ Y2=5798
n 7 ; x 106
x 15.14n 7
; 194
y 27.717
0 1b y b x 27.71 (0.688 )15.14 17.29
22 2
1
1
1
2390 7(15.14)0.688
3478 7(15.14)(27.71)n
i
i
i
n
i i
x nx
x y nxyb
b.1 Ecuación e interpretación
Entonces la ecuación de regresión estimada será:
Y 17.29 0.688X
Interpretación:
0b 17.29 , Son las ventas de un empleado cuando X es cero o
cuando no tienen años de experiencia. En otras palabras un
vendedor tendrá en promedio ventas de S/. 17290 si no tiene años de
experiencia.
1b 0.688 , Es el incremento en 0.688 cuando X aumenta en una
unidad. En otras palabras es el aumento en S/. 688 por cada año de
experiencia que adquiera un empleado.
C) Predicción para X=40
Y 17.29 0.688( 40 ) 44.826
Un empleado con 40 años de experiencia en ventas, venderá aproximadamente S/.44826
4. COEFICIENTE DE DETERMINACIONMide el porcentaje de variabilidad en Y que puede explicarse a través delconocimiento de la variable independiente X. Se calcula con la siguiente fórmula:
2
2 2
2 2 2 2
i i
( x x )( y y )R r
x nx y ny
Características:
i) Es un valor no negativo ya que se encuentra entre 0 y 1 2
0 R 1
ii) Es un valor muy importante en cualquier análisis de regresión, ya que muestra el grado
hasta el cual están relacionadas la variabilidad de X e Y
Ejemplo: Del ejemplo sobre la regresión entre los años de experiencia y las ventas
tenemos:
r 0.939 , por lo cual 22
R 0.939 0.883
Interpretación: El 88.3% de las variaciones de las ventas (Y) son explicados por los
años de experiencia. Existe además un (100-88.3)% = 11.7% que no es explicado por
los años de experiencia.
5. ERROR ESTÁNDAR DE ESTIMACIÓNEn el anterior diagrama de dispersión no todos los puntos coinciden con la línea
de regresión. Si todos los puntos estuvieran sobre la línea no habría error alpredecir la variable dependiente Y basándose en la variable independiente X.
La predicción perfecta es prácticamente imposible, por lo tanto es necesaria unamedida que indique que tan precisa es una predicción de Y basada en X. Estamedida es llamada el error estándar de estimación. El error estándar deestimación, simbolizado Sy.x, es el mismo concepto de la desviación estándar. Ladesviación estándar mide la dispersión alrededor de la media, el error estándar deestimación mide la dispersión alrededor de la línea de dispersión.
El error estándar de estimación es calculado con la siguiente fórmula.
22
1 1 1
.
ˆ
2 2
n n n
i i i i
i i i
y x
y a y b x yY Y
n ns