Top Banner
Tema 3. Modelo de regresi´ on simple Estad´ ıstica (CC. Ambientales). Profesora: Amparo Ba´ ıllo Tema 3: Regresi´ on simple 1
58
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Tema 3. Modelo de regresion simple

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 1

  • Introduccion

    Objetivo del modelo de regresion simple:

    Explicar el comportamiento de una variable cuantitativa de interesY (consumo de gasolina de un coche hbrido, temperatura delagua marina) como funcion de otra variable cuantitativa Xobservable (velocidad del vehculo en ciudad, profundidad a la quese observa la temperatura del agua).

    Y = variable respuesta, endogena o dependiente

    X = regresor, predictor, variable explicativa, exogena oindependiente

    Estudiaremos principalmente el modelo de regresion lineal simple,en el que se expresa Y como funcion lineal de X .

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 2

  • El modelo

    Diseno fijo y aleatorio

    En el diseno aleatorio tomamos una muestra (x1, y1), . . . , (xn, yn)de una poblacion (X ,Y ) donde X es una variable aleatoria (losvalores observados de X no estan prefijados de antemano).

    (X ,Y ) =(Estatura en cm,Peso en kg) de un estudianteuniversitario elegido al azar.

    (X ,Y ) =(Nivel de un cierto contaminante,Mortalidad) en unaciudad elegida al azar.

    En este caso el modelo de regresion establece una expresion para lafuncion de regresion E (Y |X = x).

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 3

  • Ejemplo 3.1: Se desea estudiar la relacion entre la anchura X (enmm.) y la longitud Y (en mm.) de la concha del Patelloidapygmaea, una lapa pegada a las rocas a lo largo de las costasprotegidas en el area Indo-Pacfica. Se observan los datos:

    X Y X Y X Y X Y

    0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.81.5 3.6 1.9 5.3 2.1 5.7 2.3 6.21.6 4.3 1.9 5.7 2.1 5.8 2.3 6.31.7 4.7 2.0 4.4 2.2 5.2 2.3 6.41.7 5.5 2.0 5.2 2.2 5.3 2.4 6.41.8 5.7 2.0 5.3 2.2 5.6 2.4 6.31.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 4

  • En el diseno fijo prefijamos unos valores x1, . . . , xn de la variableX . Para cada xi tomamos una o varias observaciones de Y .

    (X ,Y ) =(profundidad en m. del agua marina,temperatura en oCdel agua a esa profundidad)

    xi 100 200 500 1000 1500 2000

    yi 22 20 12 6 5 4

    El modelo de regresion en este caso establece una expresion paraE (Yi ), el valor esperado de Y cuando el valor prefijado de X es xi .

    Si todos los xi estan a la misma distancia entre s se trata de undiseno fijo equiespaciado.

    El tratamiento estadstico de ambos disenos es parecido, aunque lanotacion sea diferente. A menudo, por simplicidad, utilizaremos lanotacion del diseno fijo aunque el diseno del experimento seaaleatorio.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 5

  • El modelo de regresion lineal simple

    Diseno fijo: Diseno aleatorio:Yi = 0 + 1xi + Ui (Y |X = xi ) = 0 + 1xi + Ui

    donde 0 y 1 son respectivamente la ordenada en el origen y lapendiente de la recta de regresion. Ui es un termino deperturbacion o error experimental.

    Interpretacion de los parametros de la regresion:

    0 representa el valor medio de la respuesta Y cuando la variableexplicativa X vale 0.

    1 representa la variacion que experimenta en media la respuestaY cuando la variable explicativa X aumenta en una unidad.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 6

  • Hipotesis basicas del modelo:

    a) E (Ui ) = 0, para cada i = 1, . . . , n.

    b) Var(Ui ) = 2, para cada i = 1, . . . , n.

    c) E (UiUj) = 0 , para todo i 6= j .d) Ui Normal, para todo i .Ademas en el diseno aleatorio supondremos que X1, . . . ,Xn sonindependientes.

    Hipotesis equivalentes para diseno fijo:

    Y1, . . . ,Yn son observaciones independientes, con

    Yi N(0 + 1xi , 2).Hipotesis equivalentes para diseno aleatorio:

    (X1,Y1), . . . , (Xn,Yn) son independientes, con

    Y |X = xi N(0 + 1xi , 2).Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 7

  • Las hipotesis basicas se verifican mediante analisis de los residuos.Sin embargo, como la hipotesis de linealidad E (Yi ) = 0 + 1xi esfundamental, el primer paso siempre debe ser un analisis grafico delos datos, por ejemplo, un diagrama de dispersion de y frente a x .

    Ejemplo 3.1 (cont.):

    0.5 1 1.5 2 2.5 33

    3.5

    4

    4.5

    5

    5.5

    6

    6.5

    Anchura de la concha

    Long

    itud

    de la

    conc

    ha

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 8

  • Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras deagua de 53 lagos de Florida para estudiar los factores ambientalesrelacionados con la contaminacion por mercurio que exhiben dichospeces. En las muestras se midio, por ej., la alcalinidad del agua(mg/l de carbonato calcico). El diagrama de dispersion representalos valores medios de alcalinidad frente a la concentracion mediade mercurio (pp. por millon) para los 53 lagos.

    0 20 40 60 80 100 120 1400

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    Nivel de mercurio

    Alca

    linida

    d

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 9

  • Ejemplo 3.2 (cont.):Lago Alcalinidad Mercurio Lago Alcalinidad MercurioAlligator 5.9 1.23 Lochloosa 55.4 0.34Annie 3.5 1.33 Louisa 3.9 0.84Apopka 116.0 0.04 Miccasukee 5.5 0.50Blue Cypress 39.4 0.44 Minneola 6.3 0.34Brick 2.5 1.20 Monroe 67.0 0.28Bryant 19.6 0.27 Newmans 28.8 0.34Cherry 5.2 0.48 Ocean Pond 5.8 0.87Crescent 71.4 0.19 Ocheese Pond 4.5 0.56Deer Point 26.4 0.83 Okeechobee 119.1 0.17Dias 4.8 0.81 Orange 25.4 0.18Dorr 6.6 0.71 Panasoffkee 106.5 0.19Down 16.5 0.50 Parker 53.0 0.04Eaton 25.4 0.49 Placid 8.5 0.49East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10Farm-13 128.0 0.05 Rodman 114.0 0.16George 83.7 0.15 Rousseau 97.5 0.10Griffin 108.5 0.19 Sampson 11.8 0.48Harney 61.3 0.77 Shipp 66.5 0.21Hart 6.4 1.08 Talquin 16.0 0.86Hatchineha 31.0 0.98 Tarpon 5.0 0.52Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65Istokpoga 17.3 0.56 Trafford 81.5 0.27Jackson 12.6 0.41 Trout 1.2 0.94Josephine 7.0 0.73 Tsala Apopka 34.0 0.40Kingsley 10.5 0.34 Weir 15.5 0.43Kissimmee 30.0 0.59 Wildcat 17.3 0.25

    Yale 71.8 0.27

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 10

  • Ejemplo 3.3 (cont.):

    3.2 3.4 3.6 3.8 4

    1

    0.8

    0.6

    0.4

    0.2

    0

    x

    y

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 11

  • Estimacion de los parametros del modelo

    Sea (x1, y1), . . . , (xn, yn) la muestra observada de (X ,Y ).Estimamos los parametros 0 y 1 de la recta de regresionmediante el metodo de mnimos cuadrados. El objetivo esminimizar la suma de los residuos al cuadrado VNE =

    ni=1 e

    2i ,

    donde ei = yi yi e yi = 0 + 1xi . Cada residuo ei es ladistancia en vertical entre el (xi , yi ) observado y (xi , yi ).

    1.5 1 0.5 0 0.5 11

    0

    1

    2

    3

    4

    5

    x

    y

    (xi,yi)

    ei

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 12

  • VNE

    0= 2

    ni=1

    (yi 0 1xi ) = 0n

    i=1

    yi = n0 + 1

    ni=1

    xi

    VNE

    1= 2

    ni=1

    xi (yi 0 1xi ) = 0n

    i=1

    xiyi = 0

    ni=1

    xi + 1

    ni=1

    x2i

    Entonces 1 =covxy

    vxdonde

    covxy =1

    n

    ni=1

    (xi x)(yi y) = 1n

    ni=1

    xiyi x y

    vx =1

    n

    ni=1

    (xix)2 = 1n

    ni=1

    x2i x2 x =1

    n

    ni=1

    xi y =1

    n

    ni=1

    yi

    Ademas y = 0 + 1x 0 = y 1x

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 13

  • Ejemplo 3.1 (cont.):

    0.5 1 1.5 2 2.5 33

    3.5

    4

    4.5

    5

    5.5

    6

    6.5

    Anchura de la concha

    Long

    itud d

    e la c

    onch

    a

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 14

  • Otra expresion de la recta de regresion es el modelo endesviaciones a la media

    y y = 1(x x).

    Su utilizacion es recomendable cuando 0 no es interpretable.

    Ejemplo 3.1 (cont.):

    El modelo en desviaciones a la media nos recuerda que la relacionlineal entre X e Y se debe estudiar solo en un entorno de (x , y).

    No debemos extrapolar las conclusiones extradas de la regresionfuera del rango de las observaciones utilizadas para construir elmodelo.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 15

  • Los residuos ei , i = 1, . . . , n, tienen n 2 grados de libertad, puesverifican las ecuaciones de restriccion

    ni=1

    ei = 0n

    i=1

    eixi = 0.

    Definimos la varianza residual como

    s2R =1

    n 2n

    i=1

    e2i .

    Mide la variabilidad de los datos (xi , yi ), i = 1, . . . , n, respecto a larecta de regresion estimada.

    Observacion: Se verifica quen

    i=1

    e2i = n(vy 21vx),

    siendo vy =1

    n

    ni=1

    (yi y)2 = 1n

    ni=1

    y 2i y 2.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 16

  • Ejemplo 3.1 (cont.):

    Residuos

    -0.0577 -0.1540 0.0467 -0.1525-0.7555 0.1460 0.1467 0.2475-0.2551 0.5460 0.2467 0.3475-0.0548 -0.9537 -0.5529 0.44750.7452 -0.1537 -0.4529 0.24780.7456 -0.0537 -0.1529 0.14780.2456 -0.1533 0.0471 -0.4510

    s2R =

    vy = s2R =

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 17

  • Inferencia sobre los parametros del modelo

    Propiedades de los estimadores de los parametros

    Bajo la hipotesis de normalidad

    1 1sR

    1nvx

    tn2 IC1(1) =(1 tn2,/2 sR

    1

    nvx

    )

    0 0sR

    1n

    (1 + x

    2

    vx

    ) tn2 IC1(0) =

    (0 tn2,/2 sR

    1

    n

    (1 +

    x2

    vx

    ))

    (n 2)s2R2

    2n2 IC1(2) =(

    (n 2)s2R2n2,/2

    ,(n 2)s2R2n2,1/2

    )Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 18

  • Ejemplo 3.1 (cont.):

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 19

  • El contraste de la regresion

    H0 : 1 = 0 (no hay relacion lineal entre X e Y )

    H1 : 1 6= 0

    A nivel de significacion la region de rechazo de este contraste es

    R =

    {|1| > tn2,/2 sR

    1

    nvx

    }= {0 / IC1(1)}.

    Ejemplo 3.1 (cont.):

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 20

  • Planteemos este mismo contraste desde un punto de vista querelaciona la regresion y analisis de la varianza.

    La variabilidad total de Y viene dada por

    VT =n

    i=1

    (yi y)2 = n vy = VE + VNE,

    donde VE y VNE son independientes,

    VE =n

    i=1

    (yi y)2 = 21nvx

    denota la variabilidad explicada por el modelo de regresion lineal y

    VNE =n

    i=1

    e2i

    denota la variabilidad residual.Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 21

  • Tabla ADEVA para regresion lineal simple:

    FV SC gl Varianzas F

    Explicada porregresor

    VE 1 VE F =VE

    s2RResidual VNE n 2 s2R

    Total VT n 1Si H0 : 1 = 0 es cierta tenemos que

    F =VE

    s2R F1,n2

    Por tanto, la region de rechazo de H0 : 1 = 0 a nivel designificacion es

    R = {F > F1,n2,}.Observacion: Esta region de rechazo y la de la pagina 20 sonequivalentes.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 22

  • Ejemplo 3.1 (cont.):

    Valores previstos

    3.1577 5.1540 5.5533 5.95254.3555 5.1540 5.5533 5.95254.5551 5.1540 5.5533 5.95254.7548 5.3537 5.7529 5.95254.7548 5.3537 5.7529 6.15224.9544 5.3537 5.7529 6.15224.9544 5.5533 5.7529 6.7510

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 23

  • Observacion: Contrastar H0 : 1 = 0 frente a H1 : 1 6= 0significa que, aceptando que existe una relacion lineal entre X e Y ,analizamos si una recta horizontal (1 = 0) representa mejor losdatos que otra de pendiente no nula (1 6= 0). Pero aceptar H0 nosignifica que no exista ningun tipo de relacion funcional entre X eY , ni que estas sean independientes.

    Ejemplo 3.4:

    1 0.5 0 0.5 10.5

    0

    0.5

    1

    x

    y

    Y = X2 + U, IC0.90(1)=(0.10,0.29)

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 24

  • Los coeficientes de correlacion y determinacion

    Para evaluar el grado de ajuste de una recta de regresion podemosutilizar el coeficiente de determinacion

    R2 =VE

    VT=

    ni=1(yi y)2ni=1(yi y)2

    =21vx

    vy=

    (covxy

    vxvy

    )2= (rxy )

    2,

    siendorxy =

    covxyvxvy

    .

    el coeficiente de correlacion lineal de Pearson entre x e y .

    Si la relacion entre x e y es marcadamente lineal, entonces R2 y|rxy | seran muy proximos a 1. Si no existe relacion lineal entre lasvariables entonces R2 y rxy seran proximos a cero.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 25

  • 46

    Coeficiente de determinaciCoeficiente de determinacin n RR2 2

    Valoracin de cunto se ajustan los puntos a la recta

    El El COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACINN es la proporcies la proporcin de n de variabilidad explicada por la regresivariabilidad explicada por la regresinn

    RR22 = SCE /SCT= SCE /SCT

    En REGRESIREGRESIN SIMPLEN SIMPLE el COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACINN coincide con el COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACIN AL CUADRADON AL CUADRADO

    R =

    47

    Coeficiente de determinaciCoeficiente de determinacin n RR22

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 26

  • Ejemplo 3.1 (cont.):

    Observemos tambien que

    R2 = 1 VNEVT

    = 1 (n 2)s2R

    nvy.

    La ventaja del coeficiente de determinacion frente al coeficiente decorrelacion es que la definicion de R2 es perfectamentegeneralizable a cualquier modelo lineal. Esto es muy util en elcontexto de regresion multiple (Tema 4).

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 27

  • Estimacion y prediccion

    Un modelo de regresion sirve para estimar E (Y |X = x0) y parapredecir futuros valores de Y para un valor x0 de X .

    Los problemas de estimacion y prediccion son distintos, aunque lasexpresiones matematicas que aparecen en su resolucion son casiiguales. En el primero intentamos obtener un estimador deE (Y |X = x0) = 0 + 1x0, que es un numero fijo aunquedesconocido.

    En el problema de prediccion de Y0 = Y |X = x0 estamosinteresados en conocer, para un valor x0 fijo de X , el valorcorrespondiente de Y . Y |X = x0 es una variable aleatoria.Al final estimaremos E (Y |X = x0) y predeciremosY0 = Y |X = x0 mediante el mismo valor, y = 0 + 1x0, pero elerror de estimacion y el de prediccion son distintos.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 28

  • Estimacion de la media condicionada

    Queremos estimar E (Y0) = E (Y |X = x0) = 0 + 1x0, el valorpromedio de la respuesta cuando X = x0.

    Un estimador razonable es

    y0 = 0 + 1x0 = y + 1(x0 x).

    Se trata de un estimador centrado: E (y0) = E (Y |X = x0).Ademas

    IC1(E (Y0)) =

    y0 tn2,/2 sR

    1

    n+

    (x0 x)2n vx

    .

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 29

  • Ejemplo 3.1 (cont.): Estimar la longitud esperada de la conchade Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcularun intervalo de confianza al 90% para la estimacion.

    Estimar la longitud esperada de la concha de Patelloida pygmaeacuando la anchura es de 2.0 mm. Calcular un intervalo deconfianza al 90% para la estimacion.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 30

  • Ejemplo 3.1 (cont.):

    0.5 1 1.5 2 2.5 32

    3

    4

    5

    6

    7

    Anchura de la concha

    Long

    itud d

    e la c

    onch

    aBanda de confianza al 90% para E(Y|X=x0)

    min xi max xi

    Interpolacin

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 31

  • Prediccion de la respuesta

    En el problema de prediccion deseamos prever Y0 = (Y |X = x0),la respuesta cuando la variable independiente es igual a x0.

    Si conocieramos E (Y |X = x0) podramos utilizar esta esperanzacomo prediccion de Y0 = (Y |X = x0). Entonces ya tenemos unaprimera fuente de error debido a la propia variabilidad deY |X = x0 en torno a su media.Ademas, como E (Y |X = x0) es desconocida, la estimamosmediante y0 = 0 + 1x0: segunda fuente de error en la prediccion.Por tanto, finalmente predecimos Y |X = x0 mediante y0.Un intervalo de confianza para la prediccion de Y |X = x0 es

    IC1(Y0) =

    y0 tn2,/2 sR

    1 +1

    n+

    (x0 x)2n vx

    .Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 32

  • Ejemplo 3.1 (cont.): Predecir la longitud de la concha dePatelloida pygmaea cuando la anchura es de 1.4 mm. Calcular unintervalo de confianza al 90% para la prediccion.

    Predecir la longitud de la concha de Patelloida pygmaea cuando laanchura es de 2.0 mm. Calcular un intervalo de confianza al 90%para la prediccion.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 33

  • Ejemplo 3.1 (cont.):

    0.5 1 1.5 2 2.5 32

    3

    4

    5

    6

    7

    Anchura de la concha

    Long

    itud

    de la

    con

    cha

    Bandas de confianza al 90% para E(Y|X=x0) y para Y|X=x0

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 34

  • Diagnosis del modelo

    Verificamos las hipotesis basicas del modelo mediante analisis delos residuos.

    Ejemplo 3.5 (Anscombe 1973): Cuatro conjuntos de datos

    1

    x y10 8.04

    8 6.9513 7.58

    9 8.8111 8.3314 9.96

    6 7.244 4.26

    12 10.847 4.825 5.68

    2

    x y10 9.14

    8 8.1413 8.74

    9 8.7711 9.2614 8.10

    6 6.134 3.10

    12 9.137 7.265 4.74

    3

    x y10 7.46

    8 6.7713 12.74

    9 7.1111 7.8114 8.84

    6 6.084 5.39

    12 8.157 6.425 5.73

    4

    x y8 6.588 5.768 7.718 8.848 8.478 7.048 5.25

    19 12.508 5.568 7.918 6.89

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 35

  • La recta de regresion lineal de Y sobre X es en los cuatro casosy = 3 + 0.5x . Tambien son iguales la VE, la VNE, s2R = 1.52, elestadstico t del contraste H0 : 1 = 0 y la correlacion. Parece quelas cuatro situaciones son identicas. Pero al estudiar el grafico delos residuos ei frente a los valores previstos yi

    Prediccion CONJUNTO 1 DE DATOS

    1110987654

    Residuo

    2

    0

    -2

    Prediccion CONJUNTO 2 DE DATOS

    1110987654

    Residuo

    2.0

    0.0

    -2.0

    Prediccion CONJUNTO 3 DE DATOS

    1110987654

    Residuo

    4

    0

    -4

    Prediccion CONJUNTO 4 DE DATOS

    131211109876

    Residuo

    2

    0

    -2

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 36

  • Hipotesis de linealidad: E (Yi ) = 0 + 1xi

    Establece que, en el rango de valores observados, el valor esperadode la respuesta Y es una funcion lineal de la variable independienteX . Solo tiene sentido contrastar la hipotesis en dicho rango.

    Comprobaremos la linealidad mediante el grafico de dispersion deY frente a X y mediante el grafico de los residuos ei frente a losvalores previstos yi .Ejemplo 3.6:

    X

    1.0.8.6.4.20.0

    y

    3.0

    2.5

    2.0

    1.5

    1.0

    .5

    Predicci n

    3.53.02.52.01.51.0

    Residuos

    .3

    .2

    .1

    .0

    -.1

    -.2

    -.3

    -.4

    -.5

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 37

  • Ejemplo 3.1 (cont.):

    3 4 5 6 71

    0.5

    0

    0.5

    1

    Valor previsto de Y

    Res

    iduo

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 38

  • Ejemplo 3.2 (cont.): Regresion de Y = Nivel de contaminacionpor mercurio de un pez del lago sobre X = Alcalinidad del lago

    0 0.2 0.4 0.6 0.80.5

    0

    0.5

    1

    Valor previsto de Y

    Res

    iduo

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 39

  • Si no se verifica la hipotesis de linealidad entonces estaremosutilizando un modelo inadecuado para describir el valor esperadode Y en funcion de X . Esto conduce a malas predicciones.

    Ejemplo 3.2 (cont.):

    0 20 40 60 80 100 120 1400

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    Alcalinidad

    Con

    cent

    raci

    n d

    e m

    ercu

    rio

    Una solucion habitual a la ausencia de linealidad es transformar lavariable X mediante una funcion g y/o la variable Y mediante unafuncion f de manera que entre g(X ) y f (Y ) s sea razonablesuponer una relacion lineal.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 40

  • Hipotesis de homocedasticidad: Var(Ui ) = 2 para todo i

    Si esta hipotesis no se verifica entonces los intervalos de confianzapara 0 y 1 son incorrectos, pues las varianzas de 0 y 1 noestan bien estimadas.

    Para estudiar la posible heterocedasticidad de los datos es utilrepresentar los residuos ei frente a las predicciones yi o frente a xi .As vemos si la variabilidad de los residuos crece o decrece con losvalores de X .

    Ademas, si concluimos que las observaciones son heterocedasticas,el grafico nos sugiere que pauta de variacion siguen y algunaposible transformacion de las variables X e Y que linealice larelacion.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 41

  • 22

    Grfico de los residuos ei

    En abcisas los valores de xi (edades en aos)

    En ordenadas los residuos ei sin tipificar

    es este un valor anmalo?

    23

    RESIDUOS RESIDUOS VALORES PRONOSTICADOSVALORES PRONOSTICADOSse cumplen las hipse cumplen las hiptesis del modelo?tesis del modelo?

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 42

  • Hipotesis de normalidad: Ui Normal para todo iEsta hipotesis es necesaria para calcular las distribuciones de i . Sino se verifica, entonces no son validos ni los intervalos deconfianza para 0 y 1 ni el contraste de la regresion.

    Para comprobar la normalidad graficamente utilizamos unhistograma o un diagrama de cajas y un grafico probabilsticonormal o un Q-Q plot de los residuos estandarizados.

    El residuo ei estandarizado se define como ei =ei

    sR

    1 hisiendo

    1

    n hi = 1

    n

    (1 +

    (xi x)2vx

    ) 1

    una cantidad que mide el efecto palanca del punto (xi , yi ). Losresiduos estandarizados siguen aproximadamente una distribucionN(0,1).

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 43

  • Ejemplo 3.1 (cont.): Histograma de los residuos estandarizados ydensidad N(0,1)

    2 1 0 10

    0.1

    0.2

    0.3

    0.4

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 44

  • Ejemplo 3.2 (cont.): Histograma de los residuos estandarizados ydensidad N(0,1)

    1 0.5 0 0.5 1 1.5 20

    0.1

    0.2

    0.3

    0.4

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 45

  • Tambien podemos hacer un contraste (como el deKolmogorov-Smirnov) de la bondad de ajuste de los residuosestandarizados a la distribucion gaussiana.

    El problema para utilizar este tipo de contrastes es que los residuosno son observaciones independientes, aunque si n es grande esto sepuede obviar.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 46

  • Transformacion de los datos

    Cuando falla la hipotesis de linealidad y quiza tambien la dehomocedasticidad y/o normalidad, una solucion sencilla y muyutilizada es transformar una o las dos variables X e Y .

    El objetivo es que se verifiquen las hipotesis del modelo deregresion simple para la relacion entre las variables transformadas:

    f (Yi ) = 0 + 1xi + Ui , con Ui N(0, 2),

    o bien

    f (Yi ) = 0 + 1g(xi ) + Ui , con Ui N(0, 2),

    o bien

    Yi = 0 + 1g(xi ) + Ui , con Ui N(0, 2).

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 47

  • Para decidir si transformamos X , Y o ambas variables, tendremosen cuenta si solo falla la hipotesis de linealidad o, por el contrario,las residuos dejan de verificar alguna de las otras hipotesis.

    Si solo falla la linealidad, conviene transformar solo X porque estono afecta a las propiedades de las perturbaciones. En cambio, silos residuos muestran heterocedasticidad o no normalidad,conviene transformar al menos Y para intentar resolver todos losproblemas simultaneamente.

    A continuacion presentamos algunos ejemplos de relaciones nolineales, pero linealizables.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 48

  • Transformacion logartmica:Si Y ' Ke1X , entonces log Y = 0 + 1X .

    0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 55

    0

    5

    10

    15

    20

    25

    30

    35

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 49

  • Transformacion doble logartmica:Si Y ' KX 1 entonces log(Y ) ' log K + 1 log X = 0 + 1 log X .

    0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 55

    0

    5

    10

    15

    20

    25

    1 < 1

    1 > 1

    0.5 1 1.5 2 2.5 3 3.5 4 4.5 50.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    1.6

    1 > 0 1 < 0

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 50

  • Transformacion inversa:Si Y ' 0 + 1

    X, entonces Y ' 0 + 1X1.

    0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

    1

    2

    3

    4

    5

    6

    7

    0

    0.5 1 1.5 2 2.5 3 3.5 4 4.5 55

    6

    7

    8

    9

    10

    11

    12

    0

    1 < 0 1 > 0

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 51

  • Si Y ' Ke1X , con 1 > 0, entonces log Y = 0 + 1X1.

    0 2 4 6 8 10 12 14 16 18 200.5

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    K

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 52

  • Ejemplo 3.2 (cont.):

    0 20 40 60 80 100 120 1404

    3

    2

    1

    0

    1

    x

    log(

    y)

    0 1 2 3 4 54

    3

    2

    1

    0

    1

    log(x)

    log(

    y)

    0 0.2 0.4 0.6 0.8 14

    3

    2

    1

    0

    1

    1/x

    log(

    y)

    0 0.2 0.4 0.6 0.8 10

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    1/x

    y

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 53

  • Ejemplo 3.2 (cont.):

    2 1.5 1 0.5 0 0.52

    1

    0

    1

    2

    Valor previsto de log(Y)

    Resid

    uos

    esta

    ndar

    izado

    s

    Regresion de log(Y) sobre log(X)

    2.5 2 1.5 1 0.5 0

    2

    1

    0

    1

    2

    Valor previsto de log(Y)Re

    siduo

    esta

    ndar

    izado

    Regresin de log(Y) frente a X

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 54

  • Ejemplo 3.7: Peso del cerebro (en g) en funcion del peso corporal(en kg) para 62 especies de mamferos (Fuente: Allison &Sacchetti 1976, Science)

    0 2000 4000 6000 80000

    1000

    2000

    3000

    4000

    5000

    6000

    Peso cuerpo (en kg)

    Peso

    cer

    ebro

    (en g

    )

    Elefante africano

    Elefante asitico

    Humano

    5 0 5 10

    2

    0

    2

    4

    6

    8

    10

    Log(Peso cuerpo)

    Log(

    Peso

    cere

    bro)

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 55

  • Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de laUnion Europea.

    Mujeres Hombres Mujeres Hombres

    Alemania 9.30 8.30 Irlanda 5.50 5.80Austria 4.50 3.30 Italia 15.60 8.70Belgica 10.70 7.80 Luxemburgo 3.30 1.70Espana 23.00 11.20 Portugal 5.20 3.90Finlandia 10.70 9.80 Dinamarca 6.00 4.50Francia 13.30 9.60 Reino Unido 5.30 6.70Grecia 17.80 7.50 Suecia 7.10 7.20Pases Bajos 4.70 2.30

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 56

  • Ejemplo 3.8 (cont.): 1/Y = 0.2975 0.0236X

    2 4 6 8 10 12

    5

    10

    15

    20

    25

    Tasa de paro hombres UE 1999

    Tasa

    de

    paro

    muje

    res U

    E 19

    99

    0 5 10 156

    4

    2

    0

    2

    4

    6

    8

    Valor previsto de Y

    Resid

    uo

    2 4 6 8 10 120

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    Tasa de paro hombres UE 1999

    1/(Ta

    sa de

    paro

    mujer

    es U

    E 199

    9)

    0 0.1 0.2 0.3

    0.06

    0.04

    0.02

    0

    0.02

    0.04

    0.06

    Valor previsto de 1/Y

    Res

    iduo

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 57

  • Interpretacion del coeficiente de regresion

    En el modelo Y = 0 + 1x + U el coeficiente 1 representa elincremento que experimenta la respuesta Y cuando la variableexplicativa x aumenta en una unidad.

    En el modelo log Y = 0 + 1x + U el coeficiente 1 se interpretacomo el incremento relativo o porcentual que experimenta larespuesta Y cuando la variable x aumenta en una unidad.

    Si utilizamos el modelo Y = 0 + 1 log x + U, 1 representa elincremento de la respuesta Y cuando x aumenta en un 1%.

    En el modelo log Y = 0 + 1 log x + U, 1 es aproximadamente elincremento relativo de y cuando x aumenta en un 1%. Estemodelo es frecuentemente empleado en el contexto economico,donde a 1 se le denomina elasticidad.

    Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 58