Top Banner
Regresión lineal múltiple. Validación y predicción Juan R González 2002
23

Regresion Multiple Lineal Prediccion

Jan 17, 2016

Download

Documents

Walter Diaz

Regresion Multiple Lineal
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Regresion Multiple  Lineal Prediccion

Regresión lineal múltiple.Validación y predicción

Juan R González2002

Page 2: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•De nuevo aparece (X’X) en este problema, si haycolinealidad no se puede invertir (matriz singular)

•Problema de colinealidad: X1=a+bX2

•Poco usual en la práctica pero si que aparece lacasi-colinealidad (e.d. b casi 1)

•En este caso (X’X) es casi singular y lasestimaciones son poco estables (puede darsegrandes cambios en las estimaciones

Page 3: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Detección 1: Factor de inflación de la varianza(FIV) y la tolerancia (T)

211

jRFIV

−= 211

jRFIV

T −==

•Regla empírica (Kleinbaum): Existen problemas decolinealidad si algun FIV es >10, e.d Ri

2=0,9 y Ti<0,1

Page 4: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Detección 2: Realizar un análisis de componentesprincipales y establecer el índice de condición (apartir de los valores propios)

•Regla empírica (Belsley): Indices de condición entre5 y 10 colinealidad débil. Entre 30 y 100 colinealidadmoderada o fuerte.

ΨΨ

de VAPMin de Máx VAP

nescorrelacio de matriz Ψ

Page 5: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

Con SPSS:Opción Regresión lineal, Estadísticos…

Page 6: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

Diagnósticos de colinealidada

3,985 1,000 ,00 ,00 ,00 ,008,389E-03 21,794 ,00 ,00 ,35 ,715,505E-03 26,903 ,03 ,29 ,51 ,221,540E-03 50,874 ,96 ,71 ,14 ,06

Dimensión1234

Modelo1

AutovalorIndice decondición (Constante) Altura (cm)

Presióndiastólica

inicial

Presiónsistólicainicial

Proporciones de la varianza

Variable dependiente: Peso en Kg.a.

Page 7: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Ejercicio: Con los datos de colesterol realizar unestudio de colinealidad usando los FIV y losíndices de condición

•Nota: Previamente valorar la necesidad detransformar variables

Page 8: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Aparición cuando las variablesexplicativas son series temporales•P.e. si miro la altura a lo largo deltiempo 1’60 ⇒ siguiente medida >= 1’60

•Problemas (los de siempre):•Mala estimación•Varianza mal calculada•Predicciones no correctas

Page 9: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Detección: Test de Durbin-Watson

=

=−−

= n

tt

n

ttt

e

eed

1

2

1

21)(

Tiene en cuenta el residuo de una observacióny el anterior (Datos ordenados!!!)Regla:

d~2 independenciad<2 autocorrelación positivad>2 autocorrelación negativa

Problema: d no tiene distribución (simulación)

Page 10: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

Con SPSS:Opción Regresión lineal, Estadísticos…

Page 11: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Ejercicio: Con el modelo sin colinealidad de losdatos de colesterol validar la hipótesis deindependencia (no autocorrelación)

Page 12: Regresion Multiple  Lineal Prediccion

PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones puntuales

01

0120 XXXXsty pn−

−−± )'('ˆ ,/α

01

0120 1 XXXXsty pn−

−− +± )'('ˆ ,/α

1. IC predicción del valor medio de Y para unacombinación de X0=(1,X1,X2,…,Xp) observados

2. IC para un valor individual de Y dado x=X0 (intervalode predicción)

Page 13: Regresion Multiple  Lineal Prediccion

PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones globales

3. IC predicción esperado

4. IC predicción dato observado

01

00 XXXXspnppFy −−± )'('),(ˆ α

01

00 1 XXXXspnppFy −+−± )'('),(ˆ α

Page 14: Regresion Multiple  Lineal Prediccion

Predicciones

•Ejercicio: Con los datos de colesterol y el modelosin colinealidad estimar cuál sería el nivel decolesterol medio para un individuo de 85 años.

•¿y para los que no hacen ejercicio?

Page 15: Regresion Multiple  Lineal Prediccion

Interacción y confusión

CONFUSIÓSituación en la que la relación entre una

determinada exposición y un determinadoresultado es debido a la influencia de una

tercera variable

Page 16: Regresion Multiple  Lineal Prediccion

Interacción y confusión

tercera variable

XVariable independiente

Variable dependiente

Page 17: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Variable independiente

Variable dependiente

Factor de confusiónconfounder

confounding variable

Page 18: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Tasa de mortalidad /1000 (1986) CRUDA AJUSTADA

Costa Rica 3.8 3.7Venezuela 4.4 4.6México 4.9 5.0Cuba 6.7 4.0Canadá 7.3 3.2Estados Unidos 8.7 3.6

Ejemplo intuitivo

Page 19: Regresion Multiple  Lineal Prediccion

Interacción y confusión

X es un confusor......

Y M

X

Y M

X

Y M

X

X NO es un confusor......

Y M

X

Y M

X

Y M

X

Page 20: Regresion Multiple  Lineal Prediccion

Interacción y confusión

CONTROL DE LA CONFUSIÓN

en el Diseño→ Apareamiento→ Restricción

en el Análisis→ Estratificación→ Ajuste (estandarización)→ Apareamiento→ Modelización

Page 21: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Hay interacción cuando:“la relación entre 2 o más factores difiere del

resultados de los efectos individuales”

El efecto puede ser:* Mayor del esperado (interacción positiva o

sinergismo)* Menor del esperado (interacción negativa o

antagonismo)

Page 22: Regresion Multiple  Lineal Prediccion

Interacción y confusión

1. ¿Hay asociación?2. En ese caso: ¿es debida a confusión?3. ¿ Se mantiene la asociación (magnitud similar) enlos estratos formados por una tercera variable?

NO(Hay interacción)

SÍ(No hay interacción)

Page 23: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Ejercicio: Con los datos de Presión arterial, tabaco ycafé, contrastar la existencia de interacción yconfusión y obtener la mejor estimación para el efectode ambos factores

Nota: Previamente debemos calcular la variable deinteracción tabaco y café