Top Banner
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel
47

Statistik II Lektion 5 Modelkontrol

Feb 23, 2016

Download

Documents

_azra_

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel. Opbygning af statistisk model. Eksplorativ data-analyse. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende?. Ja. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Statistik II  Lektion 5 Modelkontrol

Statistik II Lektion 5Modelkontrol

ModelkontrolModelsøgningStørre eksempel

Page 2: Statistik II  Lektion 5 Modelkontrol

Opbygning af statistisk model

Specificer modelLigninger og antagelser

Estimer parametre

ModelkontrolEr modellen passende?

Anvend modellen

Ja

Nej

Eksplorativ data-analyse

Herunder test, modelsøgning, prædiktioner og fortolkninger.

Page 3: Statistik II  Lektion 5 Modelkontrol

Generel Lineær Model Y afhængig skala variabel x1,…,xk forklarende variable, skala eller binære

Model:

hvor fejlleddet e er normalfordelt med middelværdi 0 og varians s2, e ~N(0, s2).

Middelværdien for Y givet x = (x1,…,xk) er

Dvs. regressions-”linjen” angiver middelværdien.

k

i iikk xxxXYE111)|(

e

e

k

i ii

kk

x

xxY

1

11

Page 4: Statistik II  Lektion 5 Modelkontrol

Generel Lineær Model

Mere præcist: i’te observation yi ud af n er givet ved

xj,i er j’te forklarende variabel for den i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

iikkii xxY e ,,11

Idependent and Identically Distributed - IID

Systematisk del Tilfældig del

Page 5: Statistik II  Lektion 5 Modelkontrol

Estimater og prædiktion

Lad a være et estimat af Lad b1 være et estimat af 1 , osv…

Definer den prædikterede værdi som

Dvs. er et estimat af middelværdien

kk xbxbay 11ˆ

y

kk xxXYE 11)|(

Page 6: Statistik II  Lektion 5 Modelkontrol

Residual I den sande model har vi

Det kan vi skrive om til

Residualet, ei, er derfor et estimat af fejlleddet:

Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

ee

]|[11

XYExxY kk

]|[ XYEY e

iii yye ˆ

Page 7: Statistik II  Lektion 5 Modelkontrol

Estimation

Vores estimater, a, b1, b2,…, bk, er fundet ved at minimere summen af de kvadrerede residualer:

Metoden kaldes mindste kvadraters metode

SSE står for Sum of Squared Errors SSE angiver også størrelsen af den uforklarede variation i

data.

n

iii

n

ii yyeSSE

1

2

1

2 ˆ

Page 8: Statistik II  Lektion 5 Modelkontrol

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at

modellens antagelser er overholdt!

Antagelse: Middelværdi-strukturen i modellen er

Kan være svært at checke direkte, hvis vi har mange forklarende variable.

Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.

Grafisk check: plot af af ei mod . iy

iy

kk xxXYE 11)|(

Page 9: Statistik II  Lektion 5 Modelkontrol

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige?

Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.

Grafisk check: Et plot at ei mod eller x.

Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka

normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant

(homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er

normalfordelte

iy

iy

iy

Page 10: Statistik II  Lektion 5 Modelkontrol

Residualplot

y ellerx ˆ0

Residualer

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ).

0

Residualer

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

0

Residualer

Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Tid

0

Residualer

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

y ellerx ˆ

y ellerx ˆ٪

٪

٪

y

Page 11: Statistik II  Lektion 5 Modelkontrol

Eksempel: Salg og Reklame Data: n = 30 par af observationer (xi,yi)

yi = Ugentlige salg xi = Ugentlige reklame-budget

Model:

Hvor ei ~N(0,s2)

e ii xy

Page 12: Statistik II  Lektion 5 Modelkontrol

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’

I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy

Page 13: Statistik II  Lektion 5 Modelkontrol

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .

Derefter kan man fx lave scatter plots.

Page 14: Statistik II  Lektion 5 Modelkontrol

Scatter plot af

residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)

residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst).

Ser jo ganske usystematisk ud!

iy

Page 15: Statistik II  Lektion 5 Modelkontrol

Histogrammet burde ligne en normalfordeling.Det gør det også sådan cirka – så ingen problemer her

Histogram af residualer

Page 16: Statistik II  Lektion 5 Modelkontrol

Normalfordelingsplot (Q-Q plot) Konstruer et ”kunstige” data u1,u2,…,un som følger en

normalfordeling.

I et Q-Q plot plotter man ui. mod ei.

Bemærk at både ui’erne og ei’erne er sorterede.

Hvis residualerne er normalfordelte, vil vi have ei ≈ ui. Dvs (ei,ui) ligge usystematisk omkring en linje med

hældning 1 og skæring 0.

Page 17: Statistik II  Lektion 5 Modelkontrol

Normalfordelingsplot (Q-Q plot) Det kunstige data (ui’erne) opnås ved at inddele

normalfordelingen i n+1 lige store stykker.

Areal = 1/(n+1)

u5

Page 18: Statistik II  Lektion 5 Modelkontrol

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’

Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt

Page 19: Statistik II  Lektion 5 Modelkontrol

Definition

Fordel: Nem at fortolke: Andel af den totale variation der er forklaret af modellen.

Ulempe: R2 vokser når vi tilføjer flere forklarende variable. Dvs. ved at tilføje flere og flere forklarende variable kan vi få et vilkårligt stort R2.

Mål: Vi jagter den simplest mulige model, der forklarer data tilfredsstillende.

Determinations-koefficienten R2

SSTSSE

SSTSSRR 12

Page 20: Statistik II  Lektion 5 Modelkontrol

Justeret R2

Definition:

Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k.

Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre.

Ulempe: Ikke samme simple fortolkning som R2.

1

112

nSST

knSSER

Page 21: Statistik II  Lektion 5 Modelkontrol

Generelt vil vi teste om en eller flere i’er kan sættes lig nul. Det svarer til at fjerne de tilsvarende led fra modellen.

Formelle hypoteser H0: 1 = … = q = 0 H1: i ≠ 0 for mindst et af de q parametre

Testes vha. af et F-test. Teststørrelsen F ≥ 0 og følger en F-fordeling Jo større F er jo mere kritisk for H0. Vi konkluderer som sædvanligt på baggrund af p-værdi.

Hypotese-test

q ’er efter eget valg

Page 22: Statistik II  Lektion 5 Modelkontrol

F-test detaljer for de nysgerrige Teststørrelsen er

SSE er summen af de kvadrerede fejl i en model, hvor når 1,…, q er med (den oprindelige model)

SSE* er summen af de kvadrede fejl når 1,…, q ikke er med.

Der gælder SSE* ≥ SSE. Intuition: Jo større forskel (SSE*-SSE) jo mere betyder 1,…,

q for modellen og jo mindre tror vi på F.

1

*

knSSE

qSSESSEF

Page 23: Statistik II  Lektion 5 Modelkontrol

F-fordelingen

543210

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

F

f(F

)

Areal = p-værdi

F-fordeling

F

Page 24: Statistik II  Lektion 5 Modelkontrol

Modelform

Sidst så vi på en model for forbruget af gas (Gas) forklaret ved temperatur (Temp) og om huset var isoleret (Insulate)

Her er xFør dummy variabel

At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som

Gas = Temp + Insulate + Temp*Insulate I forbindelse med analyse eller fortolkning af modellen er

det stadig nyttigt at skrive den matematiske formel op.

e FørTempFørTempFørFørTempTemp xxxY ,,

Page 25: Statistik II  Lektion 5 Modelkontrol

Modelsøgning Formål: Find den simplest mulig model, der beskriver data

tilfredsstillende. Kandidater: Vi vil kun bruge modeller der overholder det

hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med.

Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv…

Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2.

Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.

Page 26: Statistik II  Lektion 5 Modelkontrol

Backwards søgning Backwards-søgning:

Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke.

Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så Det hierarkiske princip er overholdt p-værdien > (typisk = 0.05)

Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model.

Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. Forbehold: Før hver ”test-runde” skal man afklare om modellens

antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.

Page 27: Statistik II  Lektion 5 Modelkontrol

Stort Eksempel: Boligpriser

price: Boligens pris i $ sqft: Boligens størrelse i kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal biler, der er plads til i

garagen.

Page 28: Statistik II  Lektion 5 Modelkontrol

Eksplorativ analyse

Page 29: Statistik II  Lektion 5 Modelkontrol

Krydstabel garage vs bedrooms

Bemærk: Mange ’expected counts’<5, så vi kan ikke bruge en c2test.

Løsning: Slå kategorier sammen

Page 30: Statistik II  Lektion 5 Modelkontrol

Omkodning af Garage Omkodning: garage = 0 til 1 → garage2 =

0 garage ≥ 2 → garage2

= 1 SPSS: Transform→Recode into Different Variables…

Page 31: Statistik II  Lektion 5 Modelkontrol

Omkodning af Bedrooms Omkodning:

bedroom = 1 til 2 → bedroom2 = 2 bedroom = 3 → bedroom2 = 3 bedroom = 4 til 5 → bedroom2 = 4

Page 32: Statistik II  Lektion 5 Modelkontrol

Krydstabel garage2 vs bedrooms2

Hypotese: H0: Uafhængighed H1: Afhængighed

Teststørrelse: c2

P-værdi < 0.0005 Konklusion:

Vi afviser H0, dvs.der er afhængighed.

Page 33: Statistik II  Lektion 5 Modelkontrol

Logistisk Regression

Afhængig variabel garage2 Forklarende variabel price Output:

Konklusion: Pris har en betydning, hvis modellen er god… men det er modellen ikke…

Page 34: Statistik II  Lektion 5 Modelkontrol

Variansanalyse Afhængig: Boligpris Forklarende: Garage2 og Bedroom2 Model(formel):

Dummy variable: xg0 = 1 garage2 = 0

iibigbgibigbg

ibbibbiggi

xxxx

xxxy

e

,3,030,2,020

,33,22,00

),0(~ 2se Ni

xb2 = 1 garage2 = 2 xb3 = 1 garage2 = 3

Page 35: Statistik II  Lektion 5 Modelkontrol

Modelform Slipper for detaljerne: Brug modelform Modelform:

Denne model kaldes mættet, da alle tænkelig vekselvirkninger er medtaget.

Er man ekstra doven, så skriver man kun

De resterende led følger af det hierarkiske princip.

Garage2 + Bedroom2 + Garage2*Bedroom2

Garage2*Bedroom2

Page 36: Statistik II  Lektion 5 Modelkontrol

SPSS: Test af model-led

Vi afviser hypotesen om at vekselvirkningsleddet kan udelades. Konklusion: Prisen på bolig kan ikke forklares af antal soveværelser

og størrelsen på garagen alene. Et vekselvirkningsled mellem antal soveværelser og størrelsen på garagen er nødvendig.

Næste skridt burde være modelkontrol.

Page 37: Statistik II  Lektion 5 Modelkontrol

Boligpris og Boligareal

Page 38: Statistik II  Lektion 5 Modelkontrol

Badeværelser og Boligpris

Page 39: Statistik II  Lektion 5 Modelkontrol

Generel Lineære Model - Startmodel Afhængig: Boligpris Forklarende: sqft, baths og bedroom2 Modelform:

sqft + baths + bedroom2 +sqft*bedroom2 + baths*bedroom2 + sqft*baths

Page 40: Statistik II  Lektion 5 Modelkontrol

Model-formel Den tilsvarende model-formel er

xb2 og xb3 er dummyvariable kodet som før.

iibibathsbbathsibibathsbbaths

ibisqftbsqftibisqftbsqft

ibbibbibathsbathsisqftsqfti

xxxx

xxxx

xxxxy

e

,3,3*,2,2*

,3,3*,2,2*

,33,22,,

),0(~ 2se Ni

Page 41: Statistik II  Lektion 5 Modelkontrol

Modelkontrol Scatterplot af

ei mod ^yi Godt: Usystematisk Skidt: Variansen er

ikke konstant.

Løsninger? Indfør price2 = log(price) Indfør price2 = √price

Page 42: Statistik II  Lektion 5 Modelkontrol

Normalfordelte Residualer

Fordelingen er lidt for spids til at være normalfordelt. Men lad det nu ligge…

Page 43: Statistik II  Lektion 5 Modelkontrol

Test i SPSS

Ingen af interaktionsleddene er signifikante! Fjerner mindst signifikante led (baths*sqft)

Page 44: Statistik II  Lektion 5 Modelkontrol

Reduceret Model

Begge tilbageværende vekselvirkningsled er mindre signifikante end før – lidt atypisk.

Vi fjerner bedrooms2*baths

Page 45: Statistik II  Lektion 5 Modelkontrol

Slutmodel

Nu er bedrooms2*sqrt stærkt signifikant! Modelsøgningen er slut – pånær modelkontrol.

Page 46: Statistik II  Lektion 5 Modelkontrol

Estimater

Antal badeværelser har betydning for prisen Ligeledes har antal soveværelser og boligareal Prisen for en ekstra sqft afhænger af antal værelser.

Page 47: Statistik II  Lektion 5 Modelkontrol

Mini-Projekt

Omfang: Ca. 30 sider (ikke noget krav – sådan ender det som regel)

Indhold: Beskrivelse af data Opstilling af (kvalitative) hypoteser Anvend modeller og metoder fra kurset

Aflevering: Senest mandag. d. 26/11 kl. 12. pr. e-mail til [email protected] og en hard-copy til Dorte.

Eksamen: Torsdag 5. November.