ANALISIS DE REGRESION APLICADO REGRESION LINEAL SIMPLE 1. Modelo de Regresión Lineal Simple. 1. Objetivo de Análisis de Regresión 2. Metodología. Gráficos de Dispersión. 3. Características y Propiedades 2. Estimación de los Parámetros. 1. Mínimos Cuadrados Ordinarios (MCO) 2. Propiedades de los Estimadores 3. Pruebas de Hipótesis. Análisis de Residuos. 1 Giampaolo Orlandoni Merli, 2012. IEAC. 4. Predicción.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
ANALISIS DE REGRESION APLICADO
REGRESION LINEAL SIMPLE
1. Modelo de Regresión Lineal Simple. 1. Objetivo de Análisis de Regresión2. Metodología. Gráficos de Dispersión.3. Características y Propiedades
2. Estimación de los Parámetros. 1. Mínimos Cuadrados Ordinarios (MCO)2. Propiedades de los Estimadores
3. Pruebas de Hipótesis. Análisis de Residuos.
1Giampaolo Orlandoni Merli, 2012. IEAC.
4. Predicción.
MODELOS DE REGRESION SEGÚN LA ESCALA DE LAS VARIABLES
INTERVALO Regresión Logística Regresión Lineal INTERVALO g gAnálisis Discriminante
gRegresión No Lineal
2
1.-REGRESION: RELACION ENTRE VARIABLES (Y,X)
Estudiar la relación entre las variables (Y,X) a partir de un conjunto de pares de datos (x1, y1), . . . , (xn, yn)
1 ANALISIS DESCRIPTIVO1. ANALISIS DESCRIPTIVO
1. Diagrama de Dispersión.
C fi i d C l ió2. Coeficiente de Correlación.
3. Recta de Regresión Lineal.
2 ANALISIS INFERENCIAL2. ANALISIS INFERENCIAL
1. Modelo Estadístico
E i ió d P á2. Estimación de Parámetros
3. Pruebas de Hipótesis
P di ió
3
4. Predicción
Analizar relación de dependencia entre una VARIABLE
OBJETIVO DEL ANALISIS DE REGRESION
Analizar relación de dependencia entre una VARIABLEDEPENDIENTE y una VARIABLE EXPLICATIVA , con el propósito deESTIMAR y PREDECIR el valor medio poblacional de la variable Y enfunción de los valores conocidos o fijos (en muestras repetidas) de lavariable X.
1. Forma Funcional de la relación Y = f(X) = + X2. Grado de Asociación entre las variables: Corr(Y;X)3. Estimar la parámetros de la forma funcional: Y = + X4. Predecir Y = f(Xnuevos)
•Estimar la relación de dependencia entre una variable (dependiente•Estimar la relación de dependencia entre una variable (dependiente,respuesta) y una variable (explicativa, independiente, covariable)
•Predecir el valor promedio poblacional de la variable dependiente en
5
•Predecir el valor promedio poblacional de la variable dependiente enfunción de valores de la variable independiente.
1. Identificar las Variables: V. Respuesta (Y), V. Explicativa (X).
METODOLOGIA DEL ANALISIS DE REGRESION LINEAL
2. Verificar las hipótesis de Linealidad y Homocedasticidad
• Diagrama de dispersión de los datos
• Transformaciones de los datos si es necesario• Transformaciones de los datos si es necesario
3. Estimar los parámetros del modelo: Mínimos Cuadrados (MC)
4. Contrastar las Hipótesis del Modelo de Regresión:p g
• Ho: 1=0 (X no explica a Y) vs H1:1<> 0
• Ho: No existe relación lineal entre las variables (Y,X)
5. Diagnóstico del modelo con los Residuos (Verificación de supuestos):
• No Autocorrelación
• Homocedasticidad• Homocedasticidad
• Normalidad
6. Verificar si otras variables explicativas relevantes pueden medirse enlos individuos e incluirse en el modelo Regresión Múltiple.
7. Predecir y Concluir con el modelo de Regresión Lineal estimado
2.-MODELO DE REGRESION LINEAL SIMPLETERMINO ALEATORIO:OMISIONES, ERRORES MEDIDA, VARIABLES NO OBSERVADAS,
Yi= + βXi + i i ~NID(0,σ2), (i=1,...,n)
V S O O S V S,VARIABLES NO DISPONIBLES
Interpretación de los parámetros:
:Representa el valor medio de la respuesta (Y), que no depende de lavariable explicativa (X) Interceptovariable explicativa (X). Intercepto.
:Representa el incremento de la respuesta media (Y) cuando la variableexplicativa (X) varía en una unidad (pendiente de la recta)
V i bl YVariableY:• Normalidad• Independencia • Igual Varianza para diferentes Xi
10
g p
Y = + X + TERMINO DE ERROR O PERTURBACION ALEATORIA εi
•ERRORES DE MEDIDA, VARIABLES NO OBSERVADAS O NO DISPONIBLES.•FACTORES NO OBSERVABLES DISTINTOS DE X, QUE AFECTAN A Y
bXaY ˆei = (Yi - )iYYi
iY iY
•Puntos: valores observados de Y•Línea de Regresión: predicción de Y para distintos valores de X•Líneas Verticales entre puntos y línea de regresión: residuo o error de predicción
>0 =0<0
11Relación Directa Relación Inversa No Relación
ModeloLineal Simple
Yi = + Xi + i i ~NID(0,σ2), (i=1,...,n)
Lineal Simple Y= X
•Modelo Lineal en Parámetros correctamente especificado
•Variable Explicativa X no estocástica
Supuestos
•Variable Explicativa X no estocástica
•Identificabilidad del Modelo: n>p
•E(i)=0
•V(i)=σ2 Homocedasticidad
•CV(i, j)=0, i≠j Errores no Autocorrelacionados
Estimación:
1)Estimación Parámetros:
Min SCE(β)= MinΣei2= MinΣ[yi – (a+bXi)]2
MínimosCuadrados
b=Sxy/Sxx =rxy(sy/sx)
a=Ŷ- b
12
2)Estimación de la Varianza del Modelo
s2=RSS/(n-2)
3.-SUPUESTOS DEL MCRL1-LINEALIDAD EN PARAMETROS: la variable respuesta depende linealmente de los regresores
E [Y/ X1] = y = 0 + 1x1
2-X NO ESTOCÁSTICA. Los valores de x son fijos en repetidas muestras, pero no constantes (V(X) > 0).
3 COV( X) 0 El l d d l b i i d di d l i bl li i L3-COV(, X) =0: El valor esperado de las perturbaciones es independiente de las variables explicativas. Los factores no incluidos explícitamente en el modelo no afectan el valor esperado de Y dado X.
E[] = 0 E[y] = X
4-VARIANZA() HOMOCEDÁSTICA. Variación alrededor de E[Y/X] es la misma para todo X
Var(/X) = E[2] = 2
5-RESIDUOS NO AUTOCORRELACIONADOS. Las observaciones son independientes: COV(t, t-1)=0
Supuestos 4 y 5 ~ Perturbaciones Esféricas
6-IDENTIFICABILIDAD (n > p): Número de Observaciones mayor que Número de Parámetros
7-CORRECTA ESPECIFICACION DEL MODELO
8-ESTABILIDAD DE PARAMETROS: Los parámetros del modelo no varían al considerar las distintas observaciones. Modelo permanece inalterado para todo el periodo muestral
4.-PROPIEDADES ESTADISTICAS DE LOS ESTIMADORES MCO
1.-LINEALES: Estimadores son función lineal de la variable aleatoria Y
b= (X’X)-1X’y = (X’X)-1X’(X + U) = + (X’X)-1X’U
2.- INSESGADOS: Los estimadores, en promedio estiman los parámetros desconocidos poblacionales
E(b) = ( )
3.- EFICIENTES: Los estimadores tienen Varianza mínima en la clase de t d l ti d li l i dtodos los estimadores lineales insesgados:
VAR[ b X] = 2(X’X)-1 MÍNIMAVAR[ b X] (X X) MÍNIMA
PROPIEDADES NUMÉRICAS DE LOS ESTIMADORES MCO
o Están expresados en términos de cantidades observables: Y, X.
o Son estimadores puntuales proporcionan un valor únicoo Son estimadores puntuales, proporcionan un valor único.
o La línea de regresión tiene las siguientes propiedades:
1. Pasa a través de las medias muestrales de (Y; X).
2. La media de ŷi es igual a la media de Yŷi g
3. La media de los residuos es cero, dado que ei= 0.
4. Los residuos no están correlacionados con los valores
estimados de Yi: ŷiei = 0.
5. Los residuos no están correlacionados con Xi: Xiei = 0
La línea de regresión pasa por el centroide del plano de regresión: punto formado por las medias muestrales de las variables (Y; X)
METODO MINIMOS CUADRADOS:METODO MINIMOS CUADRADOS:
•Procedimiento para obtener la ecuación de la línea que mejor se ajusta a los
datos de la muestra (estimación de los parámetros del modelo de regresión)( p g )
•La línea de mejor ajuste es aquella que minimiza la suma de cuadrados de los
residuos (distancia entre Yi: valor observado y valor estimado: ).iYi
2i
2ii emin)YY(min
5.1-Relación Lineal Determinista: Modelo Matemático: Y = f(X) = A + B*X
5- ESTIMACION MINIMOS CUADRADOS
i X (TS) Y (D) e=(Y-Ŷ)1 10 40 0
2 11 43 0
3 12 46 0 50
60
70
80
4 13 49 0
5 14 52 0
6 15 55 0
7 16 58 0
8 1 61 0
y = 3x + 10R² = 1
10
20
30
40
50
Y
8 17 61 0
9 18 64 0
10 19 67 0
11 20 70 0
0
10
0 5 10 15 20 25
X
Estimación de t pIntercepto 10 0 na na
X 3 0 na na
Relación Lineal Determinista:• Ajuste Perfecto de la línea recta a los datos• No hay Error de estimación No pueden hacerse pruebas estadísticas
17
• No hay Error de estimación No pueden hacerse pruebas estadísticas
5.2-ESTIMACION MINIMO CUADRATICA. Relación Estadística.
6.- CALIDAD (BONDAD) DE AJUSTE DEL MODELO • El coeficiente de determinación (R2) mide la bondad de ajuste del modelo:
0 R2 1• 0 R2 1 • Nunca decrece con el número de variables explicativas en el modelo.
• A menor distancia entre las observaciones (Y) y la línea de regresión (Ŷ), mejor ajusta el modelo a los datosmejor ajusta el modelo a los datos
• R2 representa el porcentaje de variabilidad de Y explicado por el modelo
ANALISIS DE VARIANZA (ANOVA)ANALISIS DE VARIANZA (ANOVA)SUMA DE CUADRADOS gl•SCT = Σyi
2
Suma TotalVariación Total de los valores observados de Y en torno a su n-1Suma Total
Cuadradosobservados de Y en torno a su media muestral
n 1
•SCR = ΣŷiSuma
•Variación de los valores estimados de Y en torno a su
Cuadrados Regresión
media•Variación de Y explicada por el modelo
k=p-1
•SCE = Σe 2•SCE = ΣeiSuma Errores Cuadrados
Variación de Y no explicada por el modelo n-k
PRUEBA DE HIPOTESIS: SIGNIFICACION ESTADISTICA de las ESTIMACIONES de los PARAMETROS del MODELO
1-Significación estadística de la variable independiente:•Calcular el cociente entre la estimación del coeficiente y su error estándar•Compararlo con el cuantil correspondiente de la distribución t(n-k), (k=p+1)( )
H0 : i = 0 (LA VARIABLE Xi NO TIENE EFECTO SIGNIFICATIVO SOBRE Y) H1 : i 0
tc= )ˆ(
ˆ
i
i
βDS β
tn_k
Estimación ds t p
Interc 7.12 0.13 54.73 0.00
X -0 27 0 01 -31 71 0 00
2-La bondad de ajuste del modelo se valora mediante el•Coeficiente de Determinación R2
X -0.27 0.01 -31.71 0.00
Coeficiente de Determinación R•Valor de la prueba F
Fuente Variación
ANOVA
SC gl CM F R2g CM F R2Modelo SCR=7.97 1 CMR =7.965 1005 0.99Error SCE =0.07 9 CME =0.0079Total SCT =8.04 10
7.- ANALISIS DE RESIDUOS
Residuos (ri)( i)
Modelo CORRECTO. PATRON ALEATORIO
YPi
No LINEALIDAD HETEROCEDASTICIDAD
Residuos (ri) Residuos (ri)
YPi YPi
ANALISIS DE RESIDUOS: Presencia de Datos OutliersDatos Outliers:•Datos que tienen influencia excesiva en la estimación de los parámetros del modelo deDatos que tienen influencia excesiva en la estimación de los parámetros del modelo de regresión•Ejemplo: Datos Forbes
22 24 26 28 30
Temp
22 24 26 28 30
020
521
019
520
0
2830
2224
26 Pressure
Forbes, J. (1857). Further experiments and remarks on the measurement of 14
014
5
Lpres
heights and boiling point of water. Transactions of the Royal Society of Edinburgh, 21, 235-243.
Sig . (2-tailed)NPearson CorrelationSig . (2-tailed)N
Libras
35
237 237 237N
Correlation is significant at the 0.01 level (2-tailed).**.
VARIABLE DEFINICION
EJEMPLO 5: DATOS ULCERA
REAPARICION TIEMPO REAPARICION SINTOMATOLOGIA ULCEROSA (MESES)
RESPUESTA TIEMPO RESPUESTA TRATAMIENTO SINTOMATOLOGIA ULCEROSA (SEMANAS)
TABACO PACIENTE HA DEJADO DE FUMAR DURANTE EL TRATAMIENTO (S1=1,NO=2)
ALCOHOL CONSUMO ALCOHOL (GRAMOS/DIA)
CAFE CONSUMO CAFÉ (0,1,…,9)
ANTIACIDO TOMA ANTIACIDOS (0,1,2,…,9)
36
DATOS ULCERAMODELO1: LOS RESULTADOS INDICAN QUE HAY HETEROCEDASTIDADMODELO1 REAP = 12.19 - 1.21 TR (R=0.77; s=1.89)
HETEROCEDASTICIDAD RESIDUOS: NORMALES(0,1)
( ; )
DATOS ULCERA: LnREAP = + LnTR+ •La Prueba de Levene sugiere transformar las variables, tomando el logaritmo de las valores originalesvalores originales. •Los resultados indican que luego de la transformación sugerida por la prueba de Levene, la varianza se estabiliza. El bl d H t d ti id d d li i d•El problema de Heterocedasticidad queda eliminado.