1_RegSimple_2012

ANALISIS DE REGRESION APLICADO

REGRESION LINEAL SIMPLE

1. Modelo de Regresión Lineal Simple. 1. Objetivo de Análisis de Regresión2. Metodología. Gráficos de Dispersión.3. Características y Propiedades

2. Estimación de los Parámetros. 1. Mínimos Cuadrados Ordinarios (MCO)2. Propiedades de los Estimadores

3. Pruebas de Hipótesis. Análisis de Residuos.

1Giampaolo Orlandoni Merli, 2012. IEAC.

4. Predicción.

MODELOS DE REGRESION SEGÚN LA ESCALA DE LAS VARIABLES

Variables INDEPENDIENTES

Variable DEPENDIENTE

CATEGORICAINDEPENDIENTES (NOMINAL, ORDINAL) INTERVALO

CATEGORICAS Regresión Categórica ANALISIS DE

(NOMINAL,ORDINAL)

(Escalamiento Optimo)Regresión OrdinalRegresión Logística

VARIANZA (ANOVA)

INTERVALO Regresión Logística Regresión Lineal INTERVALO g gAnálisis Discriminante

gRegresión No Lineal

2

1.-REGRESION: RELACION ENTRE VARIABLES (Y,X)

Estudiar la relación entre las variables (Y,X) a partir de un conjunto de pares de datos (x1, y1), . . . , (xn, yn)

1 ANALISIS DESCRIPTIVO1. ANALISIS DESCRIPTIVO

1. Diagrama de Dispersión.

C fi i d C l ió2. Coeficiente de Correlación.

3. Recta de Regresión Lineal.

2 ANALISIS INFERENCIAL2. ANALISIS INFERENCIAL

1. Modelo Estadístico

E i ió d P á2. Estimación de Parámetros

3. Pruebas de Hipótesis

P di ió

3

4. Predicción

Analizar relación de dependencia entre una VARIABLE

OBJETIVO DEL ANALISIS DE REGRESION

Analizar relación de dependencia entre una VARIABLEDEPENDIENTE y una VARIABLE EXPLICATIVA , con el propósito deESTIMAR y PREDECIR el valor medio poblacional de la variable Y enfunción de los valores conocidos o fijos (en muestras repetidas) de lavariable X.

• Y: Variable Resp esta (Dependiente)• Y: Variable Respuesta (Dependiente)• X: Variable Explicativa (Independiente, Regresor)

Objetivos Específicos: Objetivos Específicos:1. Describir el comportamiento de un proceso:

1. Forma Funcional de la relación Y = f(X).2. Grado de Asociación entre las variables (X,Y).

2. Estimar Relación Funcional y Predecir Variable Respuesta:

4

1. Estimar la relación funcional entre Y y los valores conocidos de X2. Predecir valores de Y con base en nuevos valores de X

OBJETIVO DEL ANALISIS DE REGRESION

Y: Variable Respuesta (Dependiente)

X: Variable Explicativa (Independiente, Covariable)

1. Forma Funcional de la relación Y = f(X) = + X2. Grado de Asociación entre las variables: Corr(Y;X)3. Estimar la parámetros de la forma funcional: Y = + X4. Predecir Y = f(Xnuevos)

•Estimar la relación de dependencia entre una variable (dependiente•Estimar la relación de dependencia entre una variable (dependiente,respuesta) y una variable (explicativa, independiente, covariable)

•Predecir el valor promedio poblacional de la variable dependiente en

5

•Predecir el valor promedio poblacional de la variable dependiente enfunción de valores de la variable independiente.

1. Identificar las Variables: V. Respuesta (Y), V. Explicativa (X).

METODOLOGIA DEL ANALISIS DE REGRESION LINEAL

2. Verificar las hipótesis de Linealidad y Homocedasticidad

• Diagrama de dispersión de los datos

• Transformaciones de los datos si es necesario• Transformaciones de los datos si es necesario

3. Estimar los parámetros del modelo: Mínimos Cuadrados (MC)

4. Contrastar las Hipótesis del Modelo de Regresión:p g

• Ho: 1=0 (X no explica a Y) vs H1:1<> 0

• Ho: No existe relación lineal entre las variables (Y,X)

5. Diagnóstico del modelo con los Residuos (Verificación de supuestos):

• No Autocorrelación

• Homocedasticidad• Homocedasticidad

• Normalidad

6. Verificar si otras variables explicativas relevantes pueden medirse enlos individuos e incluirse en el modelo Regresión Múltiple.

7. Predecir y Concluir con el modelo de Regresión Lineal estimado

1-Relación Lineal Determinista: Modelo Matemático. Y= f(X) = A + B*X

GRAFICOS DE DISPERSION entre dos variables (X,Y)

i X (TS) Y (D)1 10 40

2 11 43

3 12 46

4 13 49

50

60

70

80

Y = f(X) = A + B*X

4 13 49

5 14 52

6 15 55

7 16 58

8 17 610

10

20

30

40Y

Relación Lineal, DirectaCorrelación Positiva, Perfecta

9 18 64

10 19 67

11 20 70

00 5 10 15 20 25

X

2 Relación Lineal Estocástica: Modelo Estadístico Y= f(X) = A + B*X + E2-Relación Lineal Estocástica: Modelo Estadístico. Y= f(X) = A + B*X + Ei X (TS) Y (D)1 10 4.5

2 11 4.23.54.04.55.0

3 12 3.8

4 13 3.6

5 14 3.4

6 15 3.0

7 16 2.9 0 51.01.52.02.53.03.5

Y

Relación Lineal, InversaCorrelación Negativa, Fuerte

7

7 16 2.9

8 17 2.4

9 18 2.2

10 19 2.1

11 20 1.8

0.00.5

0 5 10 15 20 25

X (Tiempo Solidificación)

Correlación Negativa, Fuerte

• Gráfico de Dispersión entre dos variables (X Y)

GRAFICOS DE DISPERSION

• Gráfico de Dispersión entre dos variables (X,Y)

• Objetivo: Visualizar Asociación entre dos variables

• Tipo relación

• Grado de asociación

Correlación entre Dos Variables Cor(X,Y)= rxy

G d d A i ióRelación

Grado de Asociación

Fuerte DébilNo Asociación

8

Directa (>0) rxy +1 rxy0 rxy = 0Inversa (<0) rxy -1 rxy0 rxy = 0

PATRONES DE CORRELACION

CORRELACIONCORRELACION NO LINEAL

9

Modelo de Regresión Lineal Simple:

2.-MODELO DE REGRESION LINEAL SIMPLETERMINO ALEATORIO:OMISIONES, ERRORES MEDIDA, VARIABLES NO OBSERVADAS,

Yi= + βXi + i i ~NID(0,σ2), (i=1,...,n)

V S O O S V S,VARIABLES NO DISPONIBLES

Interpretación de los parámetros:

:Representa el valor medio de la respuesta (Y), que no depende de lavariable explicativa (X) Interceptovariable explicativa (X). Intercepto.

:Representa el incremento de la respuesta media (Y) cuando la variableexplicativa (X) varía en una unidad (pendiente de la recta)

V i bl YVariableY:• Normalidad• Independencia • Igual Varianza para diferentes Xi

10

g p

Y = + X + TERMINO DE ERROR O PERTURBACION ALEATORIA εi

•ERRORES DE MEDIDA, VARIABLES NO OBSERVADAS O NO DISPONIBLES.•FACTORES NO OBSERVABLES DISTINTOS DE X, QUE AFECTAN A Y

bXaY ˆei = (Yi - )iYYi

iY iY

•Puntos: valores observados de Y•Línea de Regresión: predicción de Y para distintos valores de X•Líneas Verticales entre puntos y línea de regresión: residuo o error de predicción

>0 =0<0

11Relación Directa Relación Inversa No Relación

ModeloLineal Simple

Yi = + Xi + i i ~NID(0,σ2), (i=1,...,n)

Lineal Simple Y= X

•Modelo Lineal en Parámetros correctamente especificado

•Variable Explicativa X no estocástica

Supuestos

•Variable Explicativa X no estocástica

•Identificabilidad del Modelo: n>p

•E(i)=0

•V(i)=σ2 Homocedasticidad

•CV(i, j)=0, i≠j Errores no Autocorrelacionados

Estimación:

1)Estimación Parámetros:

Min SCE(β)= MinΣei2= MinΣ[yi – (a+bXi)]2

MínimosCuadrados

b=Sxy/Sxx =rxy(sy/sx)

a=Ŷ- b

12

2)Estimación de la Varianza del Modelo

s2=RSS/(n-2)

3.-SUPUESTOS DEL MCRL1-LINEALIDAD EN PARAMETROS: la variable respuesta depende linealmente de los regresores

E [Y/ X1] = y = 0 + 1x1

2-X NO ESTOCÁSTICA. Los valores de x son fijos en repetidas muestras, pero no constantes (V(X) > 0).

3 COV( X) 0 El l d d l b i i d di d l i bl li i L3-COV(, X) =0: El valor esperado de las perturbaciones es independiente de las variables explicativas. Los factores no incluidos explícitamente en el modelo no afectan el valor esperado de Y dado X.

E[] = 0 E[y] = X

4-VARIANZA() HOMOCEDÁSTICA. Variación alrededor de E[Y/X] es la misma para todo X

Var(/X) = E[2] = 2

5-RESIDUOS NO AUTOCORRELACIONADOS. Las observaciones son independientes: COV(t, t-1)=0

Supuestos 4 y 5 ~ Perturbaciones Esféricas

6-IDENTIFICABILIDAD (n > p): Número de Observaciones mayor que Número de Parámetros

7-CORRECTA ESPECIFICACION DEL MODELO

8-ESTABILIDAD DE PARAMETROS: Los parámetros del modelo no varían al considerar las distintas observaciones. Modelo permanece inalterado para todo el periodo muestral

4.-PROPIEDADES ESTADISTICAS DE LOS ESTIMADORES MCO

1.-LINEALES: Estimadores son función lineal de la variable aleatoria Y

b= (X’X)-1X’y = (X’X)-1X’(X + U) = + (X’X)-1X’U

2.- INSESGADOS: Los estimadores, en promedio estiman los parámetros desconocidos poblacionales

E(b) = ( )

3.- EFICIENTES: Los estimadores tienen Varianza mínima en la clase de t d l ti d li l i dtodos los estimadores lineales insesgados:

VAR[ b X] = 2(X’X)-1 MÍNIMAVAR[ b X] (X X) MÍNIMA

PROPIEDADES NUMÉRICAS DE LOS ESTIMADORES MCO

o Están expresados en términos de cantidades observables: Y, X.

o Son estimadores puntuales proporcionan un valor únicoo Son estimadores puntuales, proporcionan un valor único.

o La línea de regresión tiene las siguientes propiedades:

1. Pasa a través de las medias muestrales de (Y; X).

2. La media de ŷi es igual a la media de Yŷi g

3. La media de los residuos es cero, dado que ei= 0.

4. Los residuos no están correlacionados con los valores

estimados de Yi: ŷiei = 0.

5. Los residuos no están correlacionados con Xi: Xiei = 0

La línea de regresión pasa por el centroide del plano de regresión: punto formado por las medias muestrales de las variables (Y; X)

METODO MINIMOS CUADRADOS:METODO MINIMOS CUADRADOS:

•Procedimiento para obtener la ecuación de la línea que mejor se ajusta a los

datos de la muestra (estimación de los parámetros del modelo de regresión)( p g )

•La línea de mejor ajuste es aquella que minimiza la suma de cuadrados de los

residuos (distancia entre Yi: valor observado y valor estimado: ).iYi

2i

2ii emin)YY(min

5.1-Relación Lineal Determinista: Modelo Matemático: Y = f(X) = A + B*X

5- ESTIMACION MINIMOS CUADRADOS

i X (TS) Y (D) e=(Y-Ŷ)1 10 40 0

2 11 43 0

3 12 46 0 50

60

70

80

4 13 49 0

5 14 52 0

6 15 55 0

7 16 58 0

8 1 61 0

y = 3x + 10R² = 1

10

20

30

40

50

Y

8 17 61 0

9 18 64 0

10 19 67 0

11 20 70 0

0

10

0 5 10 15 20 25

X

Estimación de t pIntercepto 10 0 na na

X 3 0 na na

Relación Lineal Determinista:• Ajuste Perfecto de la línea recta a los datos• No hay Error de estimación No pueden hacerse pruebas estadísticas

17

• No hay Error de estimación No pueden hacerse pruebas estadísticas

5.2-ESTIMACION MINIMO CUADRATICA. Relación Estadística.

i

VariableIndependiente

VariableDependiente Estimación

ErrorEstimación

Ŷ

ErrorCuadrado Y = α + β X + E

X Y Ŷ e = (Y-Ŷ) e2

1 10 4.50 4.43 0.07 0.012 11 4.20 4.16 0.04 0.003 12 3.80 3.89 -0.09 0.014 13 3 60 3 62 -0.02 0 004 13 3.60 3.62 0.02 0.005 14 3.40 3.35 0.05 0.006 15 3.00 3.08 -0.08 0.017 16 2.90 2.81 0.09 0.018 17 2.40 2.54 -0.14 0.02

18 2 20 2 27 0 07 0 019 18 2.20 2.27 -0.07 0.0110 19 2.10 2.01 0.09 0.0111 20 1.80 1.74 0.06 0.00

Total 165 34 0.00 0.075.00

ANOVA

SC gl CM F R2

SCR=7.97 1 CMR =7.965 1005 0.99

y = -0.27x + 7.12R² = 0.99

2 50

3.00

3.50

4.00

4.50

Y

Y = α + β X + E

0.99SCE =0.07 9 CME =0.0079SCT =8.04 10

0.50

1.00

1.50

2.00

2.50Y

18

β0.00

0 5 10 15 20 25

X

Estimación de t p

Intercepto 7.12 0.13 54.73 0.00

X -0.27 0.01 -31.71 0.00

6.- CALIDAD (BONDAD) DE AJUSTE DEL MODELO • El coeficiente de determinación (R2) mide la bondad de ajuste del modelo:

0 R2 1• 0 R2 1 • Nunca decrece con el número de variables explicativas en el modelo.

• A menor distancia entre las observaciones (Y) y la línea de regresión (Ŷ), mejor ajusta el modelo a los datosmejor ajusta el modelo a los datos

• R2 representa el porcentaje de variabilidad de Y explicado por el modelo

ANALISIS DE VARIANZA (ANOVA)ANALISIS DE VARIANZA (ANOVA)SUMA DE CUADRADOS gl•SCT = Σyi

2

Suma TotalVariación Total de los valores observados de Y en torno a su n-1Suma Total

Cuadradosobservados de Y en torno a su media muestral

n 1

•SCR = ΣŷiSuma

•Variación de los valores estimados de Y en torno a su

Cuadrados Regresión

media•Variación de Y explicada por el modelo

k=p-1

•SCE = Σe 2•SCE = ΣeiSuma Errores Cuadrados

Variación de Y no explicada por el modelo n-k

PRUEBA DE HIPOTESIS: SIGNIFICACION ESTADISTICA de las ESTIMACIONES de los PARAMETROS del MODELO

1-Significación estadística de la variable independiente:•Calcular el cociente entre la estimación del coeficiente y su error estándar•Compararlo con el cuantil correspondiente de la distribución t(n-k), (k=p+1)( )

H0 : i = 0 (LA VARIABLE Xi NO TIENE EFECTO SIGNIFICATIVO SOBRE Y) H1 : i 0

tc= )ˆ(

ˆ

i

i

βDS β

tn_k

Estimación ds t p

Interc 7.12 0.13 54.73 0.00

X -0 27 0 01 -31 71 0 00

2-La bondad de ajuste del modelo se valora mediante el•Coeficiente de Determinación R2

X -0.27 0.01 -31.71 0.00

Coeficiente de Determinación R•Valor de la prueba F

Fuente Variación

ANOVA

SC gl CM F R2g CM F R2Modelo SCR=7.97 1 CMR =7.965 1005 0.99Error SCE =0.07 9 CME =0.0079Total SCT =8.04 10

7.- ANALISIS DE RESIDUOS

Residuos (ri)( i)

Modelo CORRECTO. PATRON ALEATORIO

YPi

No LINEALIDAD HETEROCEDASTICIDAD

Residuos (ri) Residuos (ri)

YPi YPi

ANALISIS DE RESIDUOS: Presencia de Datos OutliersDatos Outliers:•Datos que tienen influencia excesiva en la estimación de los parámetros del modelo deDatos que tienen influencia excesiva en la estimación de los parámetros del modelo de regresión•Ejemplo: Datos Forbes

22 24 26 28 30

Temp

22 24 26 28 30

020

521

019

520

0

2830

2224

26 Pressure

Forbes, J. (1857). Further experiments and remarks on the measurement of 14

014

5

Lpres

heights and boiling point of water. Transactions of the Royal Society of Edinburgh, 21, 235-243.

195 200 205 210 135 140 145

135

ANALISIS DE RESIDUOS: Presencia de Datos Outliers

150.00

140 00

145.00

Outlier

135.00

140.00

130.00190 195 200 205 210 215

Coef ES t pIntercepto -41.99 3.34 -12.58 0.00

LY = 0.89 X - 41.99; R² = 0.995

Intercepto 41.99 3.34 12.58 0.00X 0.89 0.02 54.45 0.00

Cuadro ANOVA

i X LY Ye e=Y‐ Ye1 194.50 131.79 132.05 ‐0.262 194.30 131.79 131.87 ‐0.08

11 203 60 140 04 140 19 0 15gl SC CM F

Regresión 1 425.76 425.76 2964.96Residuo 15 2.15 0.144 (p=0.000)Total 16 427.91

11 203.60 140.04 140.19 ‐0.1512 204.60 142.44 141.08 1.3613 209.50 145.47 145.47 0.00

17 212.20 147.80 147.88 ‐0.08

ANALISIS DE RESIDUOS: Eliminación de Datos Outliersi PE LgPEb Presion Estimacion Error Estima Error

X D 100 LY Y Ye e = (Y ‐ Ye) CuadradoX D 100 LY Y Ye e (Y Ye) Cuadrado1 194.5 0 131.79 20.79 132.00 -0.21 0.0462 194.3 0 131.79 20.79 131.82 -0.04 0.0013 197.8 0 135.02 22.40 134.94 0.09 0.0084 198.4 0 135.55 22.67 135.47 0.07 0.0065 199.4 0 136.46 23.15 136.36 0.09 0.0096 199.9 0 136.83 23.35 136.81 0.02 0.0017 200.9 0 137.82 23.89 137.70 0.13 0.0168 201.1 0 138.00 23.99 137.87 0.13 0.0179 201.4 0 138.06 24.02 138.14 -0.08 0.00710 201.3 0 138.04 24.01 138.05 -0.01 0.00011 203 6 0 140 04 25 14 140 10 0 06 0 00411 203.6 0 140.04 25.14 140.10 -0.06 0.00412 204.6 1 142.44 26.57 142.44 0.00 0.00013 209.5 0 145.47 28.49 145.35 0.12 0.01414 208.6 0 144.34 27.76 144.55 -0.21 0.04415 210.7 0 146.30 29.04 146.42 -0.12 0.01516 211.9 0 147.54 29.88 147.49 0.05 0.002

LY 0 89 X 41 16 R² 0 999

17 212.2 0 147.80 30.06 147.76 0.04 0.002Total 3450 2373 426 0.00 0.189

Medias 202.95 139.60 25.06

Coef ES t pIntercepto -41.16 1.026 -40.11 0.00X 0.89 0.005 176.07 0.00D 1 45 0 120 12 05 0 00

LY = 0.89 X - 41.16; R² = 0.999

•Incluir una variable artificial con valoruno en la posición del datos outlier.(Di 1 i 12)D 1.45 0.120 12.05 0.00

Anova gl SC CM FRegresión 2 427.72 213.86 15816.06Residuo 14 0.189 0.014 (p=0.000)Total 16 427.91

(Di=1, i=12)•Se confirma como outlier si la pruebat es significativa. (tc=12.05 (p=0.0)

ANALISIS DE RESIDUOS: Presencia de Datos Outliers

FORMAS FUNCIONALES

8.-EJEMPLOS MODELOS DE REGRESION LINEAL SIMPLE

1 EJEMPLO 1 DATOS MADERA1. EJEMPLO 1: DATOS MADERA

2. EJEMPLO 2: DATOS PESO CEREBRO_CUERPO

3 EJEMPLO 3: DATOS OXIGENO3. EJEMPLO 3: DATOS OXIGENO

4. EJEMPLO 4: DATOS NIÑOS

5. EJEMPLO 5: DATOS ULCERA5. J O 5: OS U C

6. EJEMPLO 6: VARIABLES CATEGORICAS EXPLICATIVAS

27

EJEMPLO 1: DATOS MADERA•OBJETIVO: DETERMINAR LA RELACION ENTRE LA DUREZA DE LA MADERA (X) y SURESISTENCIAA LA DEFORMACION (Y).( )

•VARIABLES:

•Y: RESISTENCIA DE LA MADERAA DEFORMACION (PSI)

•X: DUREZA DE LA MADERA (PSI)

i X Y lgX lgY1 2205 8612 7 698 9 061

X: DUREZA DE LA MADERA (PSI)

•MUESTRA: n=27 TIPOS DE MADERA

RELACION FUNCIONAL LINEAL: Y = F(X) + + X + 1 2205 8612 7.698 9.0612 1897 8914 7.548 9.0953 1932 9850 7.566 9.1954 1612 7627 7.385 8.9395 1598 6954 7.377 8.847

MODELO LINEALYE = 2169.8 + 3.5X; R2=61.49%

6 1804 8365 7.498 9.0327 1752 9469 7.469 9.1568 2067 8410 7.634 9.0379 2365 10327 7.769 9.243

10 1646 7320 7 406 8 898

MODELO LOG-LINEALlgYE = 3.29 + 0.77X; R2=61.05%

10 1646 7320 7.406 8.898

26 2540 12090 7.840 9.40027 2322 10072 7.750 9.218

Media 1893.9 8791.4 7.5 9.1

y = 0.7662x + 3.2969R2 = 0.6105

9 009.109.209.309.409.50

Media 1893.9 8791.4 7.5 9.1DE 303.5 1353.0 0.2 0.2CV 0.2 0.2 0.0 0.0r 0.78414 0.78137R2 61.49% 61.05%

8.708.808.909.00

7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9

EJEMPLO 2: Datos PESO CEREBRO_CUERPOPESO CEREBRO PESO CUERPO

LnPCr = a + b LnPCu+ e ANOVA

336.189 1 336.189 697.424 .000

28 923 60 482

Regression

Residual

Sum ofSquares df Mean Square F Sig.

28.923 60 .482

365.111 61

Residual

Total

The independent variable is LnPCu.Coefficients

.752 .028 .960 26.409 .000LnPCuB Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

2.135 .096 22.227 .000(Constant)

Model Summary

Adjusted R Std Error of

.960 .921 .919 .694R R Square

Adjusted RSquare

Std. Error ofthe Estimate

The independent variable is LnPCu.

30Interpretación: Aumento del Peso Corporal en 1% Aumento en Peso Cerebro= 0.752%

EJEMPLO 3: Datos OXIGENO (Atletas Masculinos)

VARIABLES Significado

EDAD (años)

PESO (Kg)

OX (ml/Kg/min)TASA ENTRADA OXIGENO ( l/K / i )

( / g/ )TASA ENTRADA OXIGENO (ml/Kg/min)

TC (min) TIEMPO CARRERA (Tiempo para correr 1.5 millas)

PDPulso en descanso

PCPulso en Carrera

PCM Max Pulso en Carrera

Modelo Regresión Lineal Simple: OX= f(TC) + U

31

Modelo Regresión Lineal Simple: OX f(TC) + U

Datos OXIGENO (Atletas Masculinos): Matriz de Correlaciones Simples

Datos OXIGENO (Atletas Masculinos). LnOX = + TC +

Coefficients

-3.311 .361 -.862 -9.166 .000TC (TIEMPO CARRERA:min/1.5 millas)

B Std. Error


Beta


t Sig .

Model Summary

862 743 735 2 745R R Square

AdjustedR Square

Std. Error ofthe Estimate

82.422 3.855 21.379 .000(Constant)

.862 .743 .735 2.745The independent variable is TC (TIEMPO CARRERA:min/1.5 millas).

Coefficientsa

5.638 .180 31.357 .000(Constant)Model1

B Std. Error


Beta


t Sig .

-.759 .076 -.879 -9.947 .000LnTC

Dependent Variable: LnOXa.

33

EJEMPLO 4: Datos NIÑOS

VARIABLES

PESO (libras)

EDAD (meses)

ALTURA (pulgadas)

SEXO (F,M)

34

MODELO: PESO =f(ALTURA) + U

MODELO: LnPESO=A+B LnALT

Dependent Variable: LnP

.631 402.124 1 235 .000 -5.027 2.340R Square F df1 df2 Sig.

Model SummaryConstant b1Parameter Estimates

Th i d d t i bl i L AThe independent variable is LnA.Coefficients a

Model B Std Error


Beta


t Sig-5.027 .480 -10.469 .0002.340 .117 .794 20.053 .000

(Constant)LnA

Model1

B Std. Error Beta t Sig.

Dependent Variable: LnPa. Correlations

1 .649** .635**.000 .000

237 237 237.649** 1 .775**

Pearson CorrelationSig . (2-tailed)NPearson Correlation

Meses

Pulgadas

Meses Pulgadas Libras

.000 .000237 237 237.635** .775** 1.000 .000237 237 237

Sig . (2-tailed)NPearson CorrelationSig . (2-tailed)N

Libras

35

237 237 237N

Correlation is significant at the 0.01 level (2-tailed).**.

VARIABLE DEFINICION

EJEMPLO 5: DATOS ULCERA

REAPARICION TIEMPO REAPARICION SINTOMATOLOGIA ULCEROSA (MESES)

RESPUESTA TIEMPO RESPUESTA TRATAMIENTO SINTOMATOLOGIA ULCEROSA (SEMANAS)

TABACO PACIENTE HA DEJADO DE FUMAR DURANTE EL TRATAMIENTO (S1=1,NO=2)

ALCOHOL CONSUMO ALCOHOL (GRAMOS/DIA)

CAFE CONSUMO CAFÉ (0,1,…,9)

ANTIACIDO TOMA ANTIACIDOS (0,1,2,…,9)

36

DATOS ULCERAMODELO1: LOS RESULTADOS INDICAN QUE HAY HETEROCEDASTIDADMODELO1 REAP = 12.19 - 1.21 TR (R=0.77; s=1.89)

HETEROCEDASTICIDAD RESIDUOS: NORMALES(0,1)

( ; )

DATOS ULCERA: LnREAP = + LnTR+ •La Prueba de Levene sugiere transformar las variables, tomando el logaritmo de las valores originalesvalores originales. •Los resultados indican que luego de la transformación sugerida por la prueba de Levene, la varianza se estabiliza. El bl d H t d ti id d d li i d•El problema de Heterocedasticidad queda eliminado.

•MODELO_2: LnREAP = 2.55 - 0.50 LnTR (r=0.75; s=0.27; DW=1.93)•MODELO_3: LnREAP = 2.58 - 0.17 TR (r=0.78; s=0.26; DW=1.80)

GRAFICO

DE DISPERSIONRELACION ENTRE TIEMPO REAPARICION Y TIEMPO RESPUESTA

ESTIMACIONESTIMACION POR MINIMOS CUADRADOS ORDINARIOS

ESTIMACION

DE PARAMETROSANALISIS DE VARIANZA

COEFICIENTE DE DETERMINACION

ANALISIS DE RESIDUOS

DIAGNOSTICO*GRAFICO DE PROBABILIDAD NORMAL

*GRAFICO RESIDUOS

PRUEBA PARA ESTABILIZAR VARIANZA EN PRESENCIA DE HETEROCEDASTICIDAD (PRUEBA DE LEVENE)HETEROCEDASTICIDAD (PRUEBA DE LEVENE)

TRANSFORMACION

Y NUEVA ESTIMACIONLA RESULTADOS, LUEGO DE LA TRANSFORMACION SUGERIDA, INDICAN ELIMINACION DE LA HETEROCEDASTICIDAD

1. EJEMPLO: Datos NIÑOS

EJEMPLO 6: VARIABLES CATEGORICAS EXPLICATIVAS

1. EJEMPLO: Datos NIÑOS

VARIABLESPESO (lib )PESO (libras)ALTURA (pulgadas)SEXO (F,M)MODELO: LnPeso = f(LnAlt, Sexo)

2 EJEMPLO: Datos Ulcera2. EJEMPLO: Datos Ulcera

Modelo: LnReap = f(LnTR, Fumar)

3. INTERACCIONES ENTRE VARIABLE DICOTOMICA Y VARIABLES EXPLICATIVAS

39

Modelo: LnReap = f(LnRes, Fumar, LnRes_Fuma)

MODELO: LnPESO=A+B LnALT, por CSX

CSX r R2 s bo b11 0.809 0.654 0.11 -4.39 2.18

40

0 0.781 0.610 0.12 -6.34 2.66

TIPOS DE DATOS EN ANALISIS DE REGRESION

DATOS CARACTERISTCAS

Datos medidos sobre n individuos en unDatos Transversales (Cross-Section)

Datos medidos sobre n individuos en un momento del tiempo

Series Temporales(Time Series)

Datos medidos sobre una misma unidad de medida a lo largo del tiempo

Datos Conjuntos (Pooled Data)

Mezcla de datos transversales y series temporales

(Pooled Data)

Datos PanelDatos sobre una muestra de UO medidosen instantes diferentes de tiempo

1_RegSimple_2012

Documents

metodo minimos

tasa entrada

relacin lineal

los resultados

los residuos

en torno

variable explicativa

variable respuesta