Top Banner
Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon © 2012 W.H. Freeman and Company
42

10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Jan 09, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Inferens for regresjon

10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon

© 2012 W.H. Freeman and Company

Page 2: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Denne uken: Enkel lineær regresjon

• Litt repetisjon fra kapittel 2 • Statistisk modell for enkel lineær regresjon • Estimering av modell-parametre • Konfidensintervall og hypotestetesting for

modell-parametre • Prediksjonsintervall

Page 3: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Respons- og forklaringsvariable

● Ofte har variable ulike roller i en studie ● Responsvariabel måler utfall av en studie ● En forklaringsvariabel brukes til å forklare endringer i en responsvariabel ● Forklaringsvariabelen kan slik brukes til å forklare variasjonen i responsvariabelen

Page 4: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Regresjonslinje

•En regresjonslinje er en rett linje som beskriver hvordan responsvariabelen y endrer seg når forklaringsvariabelen x skifter verdier •Vi sier ofte at regresjonslinjen predikerer verdien av y for en gitt verdi av x •En rett linje som relaterer y til x har en likning på formen

y=b0+b1x b1 kalles stigningstallet, mengden y endrer seg når x endrer seg med en enhet. b0 kalles skjæringspunktet, verdien y tar for x=0

Page 5: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Minste kvadraters regresjon ●Hvordan finne «beste» b0 og b1 fra data? ●Ingen linje vil gi perfekt tilpasning ●Ønsker vertikal avstand mellom linje og observert y verdi minst mulig ●Minste kvadraters regresjonslinje: Linjen som gjør kvadratsummen av vertikale avstander minst mulig ●Observasjoner (x1,y1),...,(xn,yn) ●Minimerer xy 51.337.13ˆ +−=

Page 6: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Likninger for minste kvadraters regresjonslinje

)...hat"y(" ˆSkriver −y

Page 7: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Regresjon og korrelasjon ● forklarer andelen av variasjon i y som kan forklares av x ● To kilder til variasjon, variasjon langs linjen (forklart av x)

og variasjon rundt linjen (ikke forklart av x)

Page 8: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Residualer

●Residualer er differensen mellom observert verdi og predikert verdi: residual=observert y - predikert y= ●“Resten”, det vi ikke har forklart ved forklaringsvariabelen gjennom regresjonslinjen ●Residual for hver observasjon:

Page 9: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Det er egentlig populasjonsforventningen µy vi modellerer som en lineær funksjon av x: µy = β0 + β1x.

Vi skal nå finne ut om den observerte sammenhengen er statistisk signifikant (og ikke et resultat av tilfeldigheter).

Data i et scatterplot er tilfeldig utvalg fra en populasjon med en linær sammenheng mellom x og y. Et annet utvalg litt annet scatterplot

10.1 Inferens for enkel lineær regresjon

Page 10: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Sammenligning av respons på to behandlinger: Forventet respons varierer med type behandling

Page 11: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

• Regresjon: Sub-populasjoner, en for hver verdi av forklaringsvariabelen x

• Forventningen er en rettlinjet funksjon av x • Observerte y-er for gitt verdi av x vil variere rundt denne

forventningen gitt av x: Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved

standardavviket σ, er den samme for alle verdier av x

Page 12: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

•Statistisk modell for lineær regresjon I populasjonen er den lineære regresjonsligningen

µy = β0 + β1x.

Data er observajoner fra modellen: Data = fit + residual yi = (β0 + β1xi) + εi

hvor εi er uavhengige og Normalfordelte N(0,σ). Enkel lineær regresjon antar lik varians for alle y (homoskedasitet = σ er den samme for alle verdier av x).

For enhver gitt verdi x, følger responsen y en normalfordeling med standardavvik σ

Page 13: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Modell for enkel lineær regresjon

• Modell: μy=β0+β1x • Vil forvente variasjoner rundt μy

• Har n parvise observasjoner av forklarings- og responsvariablene (x1,y1),...,(xn,yn)

• Modell for yi: yi= β0+β1xi + εi

• εi antas uavhengige og N(0,σ)-fordelte • 3 ukjente parametre: β0, β1, σ • Statistisk modell for enkel lineær regresjon

Page 14: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Sammenheng med minste kvadraters metode

●Observasjoner (x1,y1),...,(xn,yn) ● Regresjonslinje y = b0 + b1x

● Minimere ∑(error)2=∑(yi-b0-b1xi)2

● b1=rsy/sx, b0=y-b1x

●Modell for forventningen til y gitt x: μy=β0+ β1x ●b0 er estimat for β0 , b1 er estimat for β1

Page 15: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Inferens • Inferens om ukjente størrelser

– Stigningstall β1

– Skjæringspukt β0

– Forventet respons μy for gitt verdi x – Individuell fremtidig respons y for gitt verdi x

• Antakelser: – observasjonene er uavhengige – Sammenhengen er lineær – y er normalfordelt rundt sin forventning – Variansen til y er konstant

+ estimering av σ

Page 16: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Estimering • Modell: μy=β0+β1x • Minste-kvadraters estimater: b1=rsy/sx, b0=y-b1x • b0 og b1 er forventningsrette estimater for β0 og β1

• b0 og b1 er normalfordelte hvis εi er N(0,σ) – Tilnærmet normalfordelte generelt

• Forventningsrett estimat for μy for x = x*:

• Prediksjon av respons y for x = x*:

Page 17: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Residualer

Page 18: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Estimering av σ

Page 19: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Eksempel: Sammenhengen mellom drivstoff-forbruk målt ved «miles per gallon» (MPG) og hastighet

målt av «miles per hour» (MPH), 60 observasjoner

Page 20: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

MPG versus MPH

• Start alltid med grafisk fremstilling av data • Eksempel indikerer ikke-lineær sammenheng • Kan få lineær sammenheng ved transformasjoner • I eksempel: log (ln) transformasjon av MPH

Page 21: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket
Page 22: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Eksempelet analysert i Minitab

Page 23: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Residualplott- mot forklaringsvariabelen

Page 24: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Residualplott - kvantilplott

Page 25: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Estimatorene b0 og b1 for regresjonskoeffisientene er normalfordelte med forventning β0, β1 . Vi må estimere variansene deres Vi bruker t-fordeling med n – 2 frihetsgrader. b1 har estimert standardavvik SEb1

b0 har estimert standardavvik SEb0

Estimat ∓ t* SEestimat

t* er kritisk verdi i t(n – 2)-fordelingen med areal C mellom –t* og +t*.

Konfidensintervall

Page 26: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

• SEb0 og SEb1 avhenger blant annet av s • Dere finner dem ved bruk av dataprogram

Page 27: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Konfidensintervall – eksempel n=60

Page 28: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Konfidensintervall for stignigstall β1 for hånd- eksempel

Page 29: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Signifikanstester

• Ofte: Ønsker å teste H0:β1=0 – Svarer til at det ikke er noen sammenheng

mellom x og y – μy=β0

• Testobservator

• Software tester også: H0:β0=0 – Sjeldent av interesse

Page 30: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket
Page 31: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Signifikanstest for β1 i Minitab- eksempel

Page 32: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Signifikanstest for β1 for hånd -eksempel

Page 33: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Konfidensintervall for forventet respons

Page 34: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Regression Analysis: MPG versus LOGMPH The regression equation is MPG = - 7,80 + 7,87 LOGMPH Predictor Coef SE Coef T P Constant -7,796 1,155 -6,75 0,000 LOGMPH 7,8742 0,3541 22,24 0,000 S = 0,999516 R-Sq = 89,5% R-Sq(adj) = 89,3%

Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 18,976 0,141 (18,694; 19,258) (16,956; 20,997) Values of Predictors for New Observations New Obs LOGMPH 1 3,40

Konfidensintervall for forventet respons i Minitab- eksempel

Page 35: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Konfidensintervall for forventet respons for hånd- eksempel

Page 36: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Konfidensgrenser for forventet respons (stiplede linjer). Viser konfidensintervall for gitt x-verdi

Page 37: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Hvorfor er konfidensintervallene for x* i midten smalere enn for x* langt fra midten?

Page 38: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Prediksjonsintervall

Formler for SE i kap. 10.2

Page 39: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket
Page 40: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Prediksjonssintervall for forventet respons for hånd- eksempel

Page 41: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket

Prediksjonsgrenser (stiplede linjer). Viser prediksjonsintervall for gitt x-verdi

Page 42: 10.1 Enkel lineær regresjon 11.1-11.2 Multippel …...Data = Forventning gitt av linjen + Residual • Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket