Top Banner
Docente: Luis Zapatel Arriaga Curso: Estadística Aplicada Tema: Análisis de Regresión Lineal Múltiple
32

Regresion Multiple2

Jun 08, 2015

Download

Education

juancasa2791

Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Regresion Multiple2

Docente: Luis Zapatel Arriaga

Curso: Estadística Aplicada

Tema: Análisis de Regresión Lineal

Múltiple

Page 2: Regresion Multiple2

AGENDA

Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.

Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación.

Interpretar una matriz de correlación.Establecer y explicar una tabla ANOVA.Realizar una prueba de hipótesis para determinar si los

de coeficientes de regresión son diferentes de cero. Realizar una prueba de hipótesis para cada uno de los

coeficientes de regresión.

Page 3: Regresion Multiple2

INTRODUCCIÓN

En el análisis de regresión lineal simple buscamos

la relación entre la variable dependiente Y y una

sola variable independiente, demostrando su

empleo para determinar una ecuación que

describa la relación entre dos variables. A

continuación presentaremos el estudio del análisis

de regresión examinando casos en los que

intervienen dos o más variables independientes.

Page 4: Regresion Multiple2

INTRODUCCIÓN

El análisis de regresión múltiple es el estudio de la forma en

que una variable dependiente, , se relaciona con dos o más

variables independientes. En el caso general emplearemos k

para representar la cantidad de variables independientes.

Los conceptos de un modelo de regresión y una ecuación de

regresión que presentamos en el tema anterior se pueden

aplicar al caso de la regresión múltiple. La ecuación que

describe la forma en que la variable dependiente, , se

relaciona con las variables independientes 1, 2 ,...,k y un

término de error se llama modelo de regresión. El modelo de

regresión múltiple tiene la forma siguiente:

kk xbxbxbby ...ˆ 22110

Page 5: Regresion Multiple2

EJEMPLOS

VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X1,X2,......)

Volumen de ventas, en unidades Precio unitarioGasto de Propaganda

Peso de los estudiantes EstaturaEdad

Consumo de bienes industriales por año

Ingreso disponibleImportación de bienes de consumo

Unidades consumidas de un bien por familia

Precio unitario del bienIngresoNúmero de integrantes por familia

Precio de una vivienda Nº de habitacionesNº de pisosÁrea construidaÁrea techada , etc.

Page 6: Regresion Multiple2

Análisis de regresión múltiple para 2 variables independientes

Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

X1 y X2 son las variables independientes.

a es la intercepción en Y. b1 es el cambio neto en Y para cada cambio unitario en X1,

manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1 constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión.

El cálculo de éstos valores es por demás laborioso a mano…

Y a b X b X' 1 1 2 2

Page 7: Regresion Multiple2

…. Por ejemplo para el caso de las dos variables

independientes, para poder resolver y obtener y en

una ecuación de regresión múltiple el cálculo se

presenta muy tediosa porque se tiene atender 3

ecuaciones que se generan por el método de

mínimo de cuadrados:

Page 8: Regresion Multiple2

Análisis de regresión múltiple con k variables independientes La ecuación general de regresión múltiple con k variables independientes es:

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

Y a b X b X b Xk k' ... 1 1 2 2

Page 9: Regresion Multiple2

Error estándar múltiple de la estimación

El error estándar múltiple de la estimación

es la medida de la eficiencia de la

ecuación de regresión.

Está medida en las mismas unidades que

la variable dependiente.

Es difícil determinar cuál es un valor

grande y cuál es uno pequeño para el

error estándar.

Page 10: Regresion Multiple2

Error estándar múltiple de la estimación La fórmula es:

Donde Y es la observación. Y’ es el valor estimado en la ecuación

de regresión. n es el número de observaciones y k es

el número de variables independientes.

)1()1(

)'( 2

12

kn

SSEkn

YYS kY

Page 11: Regresion Multiple2

Regresión y correlación múltiples (suposiciones) Las variables independientes y dependientes

tienen una relación lineal. La variable dependiente debe ser continua y

al menos con escala de intervalo. La variación en (Y - Y’) o residuo debe ser la

misma para todos los valores de Y. Cuando éste es el caso, se dice que la diferencia presenta homoscedasticidad.

Los residuos deben tener distribución normal con media igual a 0.

Las observaciones sucesivas de la variable dependiente no deben estar correlacionadas.

Page 12: Regresion Multiple2

Matriz de correlación

La matriz de correlación se usa para mostrar todos los posibles coeficientes de correlación simple entre todas las variables. La matriz también es útil para analizar localizar la

correlación de las variables independientes. En la matriz se muestra, qué tan fuerte están

correlacionadas las variables independientes, con la variable dependiente.

También es útil para verificar si existe correlación entre las variables independientes Multicolinealidad, lo cuál distorsionaría el error estándar y llevaría a conclusiones incorrectas (se tolera valores entre -0.7 y 0.7), de ser mayor se elimina una variable y se recalcula la ecuación de regresión.

Page 13: Regresion Multiple2

ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION

Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. Supongamos que existen k variables independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la variable dependiente es:

ikkiii xbxbxbby ...ˆ 22110

Xy

Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como:

Page 14: Regresion Multiple2

ENFOQUE MATRICIAL

Donde:

1

3

2

1

.

.

.

xnny

y

y

y

y

pnnkiii

k

k

k

x

xxxx

xxxx

xxxx

xxxx

X

.......1

........................

........................

........................

.......1

.......1

.......1

321

3333231

2232221

1131211

1

2

1

0

.

.

.

xpkb

b

b

b

donde: p = k+1, número de parámetros

Page 15: Regresion Multiple2

Una vez estimado el modelo es conveniente

obtener una medida acerca de la bondad del

ajuste realizado. Un estadístico que facilita esta

medida es el coeficiente de determinación (R2),

que se define:

Coeficiente de Determinación Múltiple r2

Page 16: Regresion Multiple2

Prueba global

Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0.

En otras palabras ¿podría la cantidad de variación explicada R2, ocurrir al azar?

La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos. Las hipótesis son:

Ha : al menos uno de los coeficientes de regresión no es cero.

0...: 3210 kH

Page 17: Regresion Multiple2

Prueba global continuación

El estadístico de prueba es la distribución F

con k (número de variables independientes)

y n - (k + 1) grados de libertad, donde n es

el tamaño de la muestra.

El estadístico de prueba se calcula con: F = [(SSR) /(k)] /[(SSE) /(n-

k+1)].

Page 18: Regresion Multiple2

Tabla ANOVA

La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está).

Fuente de Variación

Suma de cuadrados

Grados de libertad

Cuadro medio F

Regresión SSR K SSR/k= MSRMSRMSE

Error SSE n-(k+1) SSE/(n-(k+1))= MSE

Total SSTotal n-1

Page 19: Regresion Multiple2

Ejemplo: El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:

Ingresos Brutos semanales (en miles de dólares)

Anuncios en TV(en miles de dólares)

Anuncios en periódicos

(en miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94 3.0 2.5

Page 20: Regresion Multiple2

Planteando matricialmente los datos

1894

94

94

95

92

95

90

96

x

y

1 5.0 1.5

1 2.0 2.0

1 4.0 1.5

1 2.5 2.5

1 3.0 3.3

1 3.5 2.3

1 2.5 4.2

1 3.0 2.5

X

132

1

0

x

b

b

b

8x3

Page 21: Regresion Multiple2

Determinando la ecuación de regresión El modelo es:

22110ˆ xbxbby

yXXX 1)(

Entonces primero resolvemos las matrices para encontrar los parámetros:

0,24910,1313-1,0353

0,13130,2239-1,0389

-1,0353-1,03895,9989

2

1

0

3010.1

2902.2

2301.83

1856

2401

750

b

b

b

1)( XX yX

Page 22: Regresion Multiple2

• Interpretemos los parámetros estimados de las variables independientes:

Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes, los ingresos brutos semanales se incrementarán en 2.2902 miles de dólares.

Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad, los ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.

Finalmente la ecuación es:

213010.12902.22301.83ˆ XXy

Coeficientesa

83.230 1.574 52.882 .000 79.184 87.276

2.290 .304 1.153 7.532 .001 1.509 3.072

1.301 .321 .621 4.057 .010 .477 2.125

(Constante)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.

Page 23: Regresion Multiple2

Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente:

64.021. XXyS

Hallando el error estándar de estimación

322110

2

. 21

n

yXbyXbybyS

XXy

Reemplazando los valores previamente encontrados y tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación:

Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores observados es 0.64.

Resumen del modelo

.959a .919 .887 .64259Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Page 24: Regresion Multiple2

Hallando el Coef. de Determinación

919.0

959.02

r

r

Elevamos al cuadrado el coeficiente de correlación y encontraremos el coeficiente de determinación:

Resumen del modelo

.959a .919 .887 .64259Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Interpretación: Aproximadamente el 91.9% de los

cambios producidos en los ingresos brutos semanales

son explicados por los cambios producidos en los gastos

de publicidad (en televisión y periódicos)

919.0

959.02

r

r

Page 25: Regresion Multiple2

MATRIZ DE CORRELACIONCorrelaciones

1.000 .808 -.021

.808 1.000 -.556

-.021 -.556 1.000

. .008 .481

.008 . .076

.481 .076 .

8 8 8

8 8 8

8 8 8

Ingresos Brutossemanales (enmiles de dólares)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Ingresos Brutossemanales (enmiles de dólares)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Ingresos Brutossemanales (enmiles de dólares)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Correlación de Pearson

Sig. (unilateral)

N

IngresosBrutos

semanales (en miles de

dólares)

Anuncios enTV (en milesde dólares)

Anuncios enperiódicos

(en miles dedólares)

Page 26: Regresion Multiple2

ANOVAb

23.435 2 11.718 28.378 .002a

2.065 5 .413

25.500 7

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Anuncios en periódicos (en miles de dólares),Anuncios en TV (en miles de dólares)

a.

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)b.

Anova

0:1 iunmenosloPorH

0...: 3210 kH

En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que ratifica la relación entre las variables.

Page 27: Regresion Multiple2

En la Facultad de Ciencias Contables, Económicas y Financieras de la Universidad“ Santo Toribio de Mogrovejo” quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de Gestión de Proyectos, para lo cual se escoge al azar una muestra de 7 alumnos y ellos registran notas promedios en las asignaturas de Contabilidad Básica, Doctrina Contable y Macroeconomía como se muestran en el siguiente cuadro.

Page 28: Regresion Multiple2

AlumnoGestión de Proyectos

Contabilidad Básica

Doctrina Contable

Macroeconomía

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

Determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de Métodos Cuantitativos, conociendo las notas de las asignaturas Contabilidad Básica, Doctrina Contable II y Macroeconomía, con un nivel de significancia del 5%

Page 29: Regresion Multiple2

Calculamos los coeficientes de regresión utilizando las fórmulas de las ecuaciones o en el programa SPSS: Coeficientesa

3.140 2.529 1.241 .303

.054 .309 .088 .175 .872

.189 .189 .248 .999 .391

.501 .390 .739 1.284 .289

(Constante)

Contabilidad Basica

Doctrina Contable

Macroeconomia

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Metodos Cuantitativosa.

Por lo tanto podemos construir la ecuación de regresión que buscamos:

Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3

En el análisis de regresión múltiple la constante es el valor de la ecuación de regresión de la variable dependiente Y dado que todas las variables independientes sean iguales a cero.

Page 30: Regresion Multiple2

Resumen del modelo

.967a .935 .869 .529Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Macroeconomia,Doctrina Contable, Contabilidad Basica

a.

En los resultados de SPSS se llama error típico y para explicar la relación del aprendizaje de Métodos Cuantitativos que se viene desarrollando es de 0.529

Page 31: Regresion Multiple2

Calculando el coeficiente de Determinación en el ejercicio (con variable independiente).

12.018 = 0.934 = R2…..Interprete¡¡¡

12.857

R = ……; Interprete

Page 32: Regresion Multiple2

Trabajando con el ejemplo del curso de Gestión de Proyectos, veremos que aplicando SPSS, nos saldría como resultado:

ANOVAb

12.018 3 4.006 14.314 .028a

.840 3 .280

12.857 6

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,Contabilidad Basica

a.

Variable dependiente: Metodos Cuantitativosb.

¿A que conclusión podemos llegar al 3% de error?