Top Banner
ESTADISTICA Sesión N° 12 REGRESIÓN Y CORRELACIÓN LINEAL
21

Regresion y Regresion

Dec 14, 2015

Download

Documents

Jean Galindo

estadistica
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Regresion y Regresion

ESTADISTICA

Sesión N° 12

REGRESIÓN Y CORRELACIÓN LINEAL

Page 2: Regresion y Regresion

ESTA

DIS

TIC

A

¿QUE ES LA CORRELACIÓN?

Page 3: Regresion y Regresion

1. ANALISIS DE CORRELACION

DEFINICIÓN. La correlación es el método empleado para

determinar el grado de asociación o relacionamiento entre las

variables que se estudian, para así determinar en qué medida una

relación funcional describe o explica en una forma adecuada la

relación entre estas variables.

TIPOS DE CORRELACIÓN. Atendiendo al relacionamiento entre

las variables X e Y podemos tener:

a) Correlación Directa o Positiva. Cuando las variables X e Y presentan variacionesen un mismo sentido, esto es, para mayores valores de X corresponde mayores

valores de Y.

b) Correlación Inversa o Negativa. Cuando las variaciones de X e Y son ensentidos contrarios, esto es, para mayores valores de X corresponden menores

valores de Y.

c) Sin correlación. Cuando no existe ningún tipo de relacionamiento entre las

variables.

Page 4: Regresion y Regresion

INTRODUCCIÓN

El análisis de este relacionamiento entre dos variables (X,Y)

presenta dos aspectos diferentes:

Unas veces nuestro interés está en conocer si las dos

variables están asociadas y medir hasta qué punto los

cambios en una pueden explicarse por los cambios que

ocurren en la otra. En tal caso tenemos un problema de

Correlación.

Otras veces, cuando estamos seguros que existe un alto

grado de asociación entre las dos variables, el análisis se

encamina a cuantificar la relación existente con el fin de

predecir cuáles serán los valores de la variable respuesta, en

este caso tenemos un problema de Regresión.

Page 5: Regresion y Regresion

DIAGRAMA DE DISPERSIÓN

• Sea Y una variable de interés o variable dependiente, y X una variable independiente.

• La gráfica de estos valores se denomina DIAGRAMA DE DISPERSIÓN (scatterplot)

( , )

( , )

...

( , )

x y

x y

x yn n

1 1

2 2

Page 6: Regresion y Regresion

POSIBLES RELACIONES

X

3020100

Y

50

40

30

20

10

0

X

100806040200

Y

14

12

10

8

6

4

2

0

X

86420-2-4-6-8

Y

110

100

90

80

70

60

50

40

30

X

403020100

Y

50

40

30

20

10

0

CORRELACIÓN DIRECTA

O POSITIVA

CORRELACIÓN INVERSA

O NEGATIVA

NO EXISTE CORRELACIÓN LINEAL

Page 7: Regresion y Regresion

COEFICIENTE DE CORRELACION

Es un número que indica el grado de asociación entre las variables

y se define del siguiente modo:

1 1

1

2 2 2 2

xy

x y

i i

i

n n

i i

n

i i S

S Sx nx y ny

x y nxyr

Características:

i) El coeficiente r es un número comprendido entre -1 y +1

1 r 1

ii) Si r 0 Existe una correlación directa o positiva

iii) Si r 0 Existe una correlación Inversa o negativa

iv) Si r 1 Existe una perfecta asociación positiva entre las dos variables

v) Si r 1 Existe una perfecta asociación negativa entre las dos variables

vi) Si r 0 No Existe asociación entre las dos variables, no existe asociación lineal.

Page 8: Regresion y Regresion

ANALISIS DE REGRESIONREGRESIÓN. Es un método que se emplea para encontrar una

función que se ajusta a una nube de puntos o diagrama de

dispersión, con la finalidad de obtener una predicción aproximada

de una de las variables a partir de la otra.

0

20

40

60

80

100

120

140

160

0 2 4 6 8 10

Ve

nta

s e

n M

illo

nes

Gastos en Publicidad (Millones)

Diagrama de Dispersión

Y f ( X )

Page 9: Regresion y Regresion

OBJETIVOS

• Mostrar la forma como la variable independiente (X) se relaciona con la variable dependiente (Y).

• Hacer pronósticos sobre los valores de la variable dependiente, con base en el conocimiento de los valores de la variable independiente.

Page 10: Regresion y Regresion

2. REGRESION LINEAL SIMPLE

Este tipo de regresión se utiliza cuando existe solo una variable

independiente X para una variable dependiente Y. Está definida por

la siguiente ecuación lineal en su forma general:

0 1Y b b X e

Donde:

Y Es la variable respuesta o la predicción de la variable Y dado un valor X .

0b Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la línea de

regresión cruza el eje de las Y.

1b Es la pendiente de la línea, o la variación promedio en Y por cada variación de

una unidad en X.

X Es cualquier valor seleccionado de la variable independiente X.

e Es el error de predicción

Page 11: Regresion y Regresion

METODO DE MINIMOS CUADRADOS PARA ESTIMAR

LOS COEFICIENTES DE REGRESIÓN.

Es un método para obtener la recta que se ajuste mejor a los

datos, al graficar los datos sabemos que podemos trazar infinidad

de rectas pero este método nos proporciona la de mejor ajuste.

A ie se le llama desviación o error que puede ser negativo o positivo, si elevamos las

desviaciones al cuadrado, para obtener la recta más representativa la suma de los errores

al cuadrado 2 2 2 2

1 2 3 ne e e ..... e debe ser lo más pequeña posible.

Page 12: Regresion y Regresion

ESTIMACION DE LOS COEFICIENTES

RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresión Y en X

utilizaremos la siguiente ecuación de estimación:

0 1Y b b X

Donde los valores de 0b y 1

b en la ecuación de regresión son conocidos como coeficientes

de regresión y las fórmulas para calcularlos son:

Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con

respecto a 0

b y 1

b . (Investigación del alumno)

y b xb 0 1

n

i

i

i

n

i i

x nx

x y nxyb

2 2

1

1

1

Page 13: Regresion y Regresion

Resultados de los datos

EFICIENCIA en función del TIEMPO DE VIDA

y = -7,1217x + 103,67

R2 = 0,9307

0

10

20

30

40

50

60

70

80

90

100

0 2 4 6 8 10 12 14

Tiempo de Vida (años)

Efi

cie

nc

ia (

%)

Page 14: Regresion y Regresion

1.2 EJEMPLO DE CORRELACION

Ejemplo1: Consideramos que las ventas se relacionan con los gastos en

publicidad y si tenemos los datos que se presentan en la siguiente tabla

entonces podremos observar la siguiente gráfica:

Observando el gráfico podemos decir que las ventas y el gasto en publicidad tienen una correlación Directa o Positiva.

AñoGastos en

publicidad en millones (X)

Ventas en millones (Y)

1998 3 201999 5 402000 5 802001 6 1202002 6 902003 7 1252004 4 352005 8 135

0

20

40

60

80

100

120

140

160

0 2 4 6 8 10

Ven

tas e

n M

illo

nes

Gastos en Publicidad (Millones)

Diagrama de Dispersión

Page 15: Regresion y Regresion

1.4 EJEMPLO DE CORRELACION (r)Ejemplo2: Del ejemplo1 hallar el coeficiente de correlación

N°Publicidad

(X)Ventas (Y) XY X2 Y2

1998 3 20 60 9 4001999 5 40 200 25 16002000 5 80 400 25 64002001 6 120 720 36 144002002 6 90 540 36 81002003 7 125 875 49 156252004 4 35 140 16 12252005 8 135 1080 64 18225Total 44 645 4015 260 65975

∑X ∑Y ∑XY ∑ X2 ∑ Y2

2 2

1 1

1

2 2 2 2

4015 8 5.5 80.630.932

260 8 5.5 65975 8 80.63

i i

i

n n

i i

n

i i

x nx y ny

x y nxyr

8, 5.5, 80.625n x y

Interpretación: Como r=0.932, existe una alta correlación positiva entre

los gastos en publicidad y las ventas.

Page 16: Regresion y Regresion

3.3 EJEMPLO APLICATIVO

Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar las

ventas mensuales (en miles de soles) frente a los años de experiencia.

Los datos están en la siguiente tabla.

a) ¿Se trata de una relación lineal?. Realizar el diagrama de dispersión

b) Calcular e interpretar el coeficiente de correlación y el determinación

b) Si es una ecuación lineal hallar la ecuación de regresión determinando

los coeficientes de regresión.

c) Predecir la venta de un empleado con 40 años de experiencia (Estimar

Y para un valor X=40)

N° Experiencia (X) Ventas(miles)

1 13 26

2 16 33

3 30 36

4 2 16

5 8 26

6 6 19

7 31 38

Page 17: Regresion y Regresion

0

5

10

15

20

25

30

35

40

45

0 5 10 15 20 25 30 35

Ve

nta

s (

Mile

s)

Experiencia

Solución:

a) Diagrama de dispersión

Según el diagrama de dispersión existe una relación aproximadamente

lineal.

Page 18: Regresion y Regresion

b) Hallando los coeficientes de regresión

N° Experiencia (X)

Ventas(miles)(Y) XY X2 Y2

1 13 26 338 169 676

2 16 33 528 256 1089

3 30 36 1080 900 1296

4 2 16 32 4 256

5 8 26 208 64 676

6 6 19 114 36 361

7 31 38 1178 961 1444

∑X= 106 ∑Y=194 ∑XY=3478 ∑ X2=2390 ∑ Y2=5798

n 7 ; x 106

x 15.14n 7

; 194

y 27.717

0 1b y b x 27.71 (0.688 )15.14 17.29

22 2

1

1

1

2390 7(15.14)0.688

3478 7(15.14)(27.71)n

i

i

i

n

i i

x nx

x y nxyb

Page 19: Regresion y Regresion

b.1 Ecuación e interpretación

Entonces la ecuación de regresión estimada será:

Y 17.29 0.688X

Interpretación:

0b 17.29 , Son las ventas de un empleado cuando X es cero o

cuando no tienen años de experiencia. En otras palabras un

vendedor tendrá en promedio ventas de S/. 17290 si no tiene años de

experiencia.

1b 0.688 , Es el incremento en 0.688 cuando X aumenta en una

unidad. En otras palabras es el aumento en S/. 688 por cada año de

experiencia que adquiera un empleado.

C) Predicción para X=40

Y 17.29 0.688( 40 ) 44.826

Un empleado con 40 años de experiencia en ventas, venderá aproximadamente S/.44826

Page 20: Regresion y Regresion

4. COEFICIENTE DE DETERMINACIONMide el porcentaje de variabilidad en Y que puede explicarse a través delconocimiento de la variable independiente X. Se calcula con la siguiente fórmula:

2

2 2

2 2 2 2

i i

( x x )( y y )R r

x nx y ny

Características:

i) Es un valor no negativo ya que se encuentra entre 0 y 1 2

0 R 1

ii) Es un valor muy importante en cualquier análisis de regresión, ya que muestra el grado

hasta el cual están relacionadas la variabilidad de X e Y

Ejemplo: Del ejemplo sobre la regresión entre los años de experiencia y las ventas

tenemos:

r 0.939 , por lo cual 22

R 0.939 0.883

Interpretación: El 88.3% de las variaciones de las ventas (Y) son explicados por los

años de experiencia. Existe además un (100-88.3)% = 11.7% que no es explicado por

los años de experiencia.

Page 21: Regresion y Regresion

5. ERROR ESTÁNDAR DE ESTIMACIÓNEn el anterior diagrama de dispersión no todos los puntos coinciden con la línea

de regresión. Si todos los puntos estuvieran sobre la línea no habría error alpredecir la variable dependiente Y basándose en la variable independiente X.

La predicción perfecta es prácticamente imposible, por lo tanto es necesaria unamedida que indique que tan precisa es una predicción de Y basada en X. Estamedida es llamada el error estándar de estimación. El error estándar deestimación, simbolizado Sy.x, es el mismo concepto de la desviación estándar. Ladesviación estándar mide la dispersión alrededor de la media, el error estándar deestimación mide la dispersión alrededor de la línea de dispersión.

El error estándar de estimación es calculado con la siguiente fórmula.

22

1 1 1

.

ˆ

2 2

n n n

i i i i

i i i

y x

y a y b x yY Y

n ns