Statistik II Lektion 3

Statistik IILektion 3

Logistisk Regression

Kategoriske og Kontinuerte Forklarende Variable

Setup: To binære variable X og Y.

Statistisk model:

Konsekvens:

Logistisk regression: 2 binære var.

x

x

e

exXYP

1)|1(

xxXYP

xXYPxXYLogit

)|1(1

)|1(ln)|1(

Logit-forskelle og Odds-ratio

Logit-forskel

Odds-ratio

)0|1()1|1( XYLogitXYLogit

ee

e

XYOdds

XYOddsYOR

)0|1(

)1|1()1(

Likelihood-funktionen

Definer Likelihood funktionen L( , ; data).

L(, ; data) siger, hvor ”troelig” (likely) data under vores model for givne og .

Estimation Lad og betegne estimaterne af de sande, men

ukendte parametre og .

Parametrene og estimeres ved maximum-likelihood metoden:

Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS).

Vi kalder og maximum-likelihood (ML) estimater.

Estimaternes fordeling.

Antag er den sande værdi og er et ML estimat.

For hver data-indsamling får vi lidt forskellige estimater af pga. af tilfældig variation i data.

Hvis vi har indsamlet data nok, så gælder der

Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE() afhænger af mængden af data.

2)(,~ˆ SEN

Konfidensinterval for

Da gælder følgende:

95.096.1ˆ96.1ˆ

95.096.1ˆ96.1

SESEP

SESEP 95.096.1ˆ96.1ˆ

95.096.1ˆ96.1

SESEP

SESEP

2,ˆ~ˆ SEN

Konfidensinterval for Vi har altså at det sande er indeholdt i intervallet

med 95% sandsynlighed.

Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment.

Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten ellers så gør det ikke.

Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β:

Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel).

Et 95% konfidens-interval for odds-ratio:

)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE

];[ )ˆ(96.1ˆ)ˆ(96.1ˆ SESE ee

Signifikanstest

Hypoteser H0: β = 0 (uafhængighed)

H1: β = 0 (afhængighed)

Teststørrelse: (Wald teststør.)

Under H0 gælder:

Store værdier af Z2 er ufordelagtige for H0.

22 )(ˆ SEZ

1~ 22 Z

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: = K H1: ≠ K

Lad [a,b] være et 95% konfidens-interval for .

Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau = 0.05.

Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau = 0.05.

SPSS Output

SE p-værdi

e 95% konf-int. for exp

Model: xxXYLogit )|1(

Model: )|1( xXYLogit

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?

Er du en god læser

Nej Ja Total

Sætnings-læsning

Hurtig 806.3%

119993.7%

1279100.0%

Langsom 8028.1%

20571.9%

285100.0%

Usikker 1135.5%

2064.5%

31100.0%

Total 17111.2%

142488.8%

1595100.0%

Odds for ”Ja” givet hastighed

1199/80 = 14.99

205/80 = 2.56

20/11 = 1.81

Logit for ”Ja” givet hastighed

ln(14.99) = 2.707

ln(2.56) = 0.94

ln(1.81) = 0.59

Uafhængighed

I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens:

Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker)

Vi sammenligner par af Odds vha et Odds-ratio.

Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed =

Hurtig. Vi sammenligner nu Odds for hver kategori med Odds

for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios.

Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1.

Tilsvarende er alle logit-forskelle = 0.

Logistisk Regressionsmodel

Model: Logit(Ja|Hastighed) = + Hastighed

Logit(Ja|Hurtig) = + Hurtig

Logit(Ja|Langsom) = + Langsom

Logit(Ja|Usikker) = + Usikker

Overparametriseret! (hvorfor?)

For reference-kategorien sæt Hurtig = 0.

Logit-forskelle

Logit(Ja|Langsom) - Logit(Ja|Hurtig) =

+ Langsom) - = Langsom

Logit(Ja|Usikker) - Logit(Ja|Hurtig) =

+ Usikker) - = Usikker

Dvs. Langsom og Usikker er de to logit-forskelle af interesse.

Hypotesetest Uinteressant hypotse (hvorfor?)

H0: Langsom = 0

H1: Langsom ≠ 0

Interessant hypotese (hvorfor?) H0: Langsom = Usikker = 0

H1: Langsom ≠ 0 og/eller Usikker ≠ 0

Teststørrelse: Wald ~ 2(df ) df = antal parametre ivolveret i H0.

SPSS

”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

SPSS Output

Lansom

Usikker

H0: Lansom = Usikker = 0

H0: Usikker = 0

NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…).

To parametre i H0: Lansom og Usikker.

Alternativ: Dummy-variable

For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker.

xHurtig = 0 altid

xLangsom = 1 hvis Hastighed = Langsom

xLangsom = 0 hvis Hastighed ≠ Langsom

xUsikker = 1 hvis Hastighed = Usikker

xUsikker = 0 hvis Hastighed ≠ Usikker

Dummy-variable: Nu Som Tabel

Hastighed xLangsom xUsikker

Hurtig 0 0

Langsom 1 0

Usikker 0 1

Dummy-variable

Model:

Eksempel:

UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit )|(

Langsom

UsikkerLangsomHurtigLangsomJaLogit

010)|(

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den

logistiske regression skrives på den generelle form:

i

ii xXYLogit )|1(

iii

iii

x

x

x

x

e

eXYP

iii

iii

exp1

exp

1)|1(

Skala forklarende variabel Eksempel:

Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)

Plot: Andel Ja’er for hver score.

Logistisk Regressionsmodel Model: Logit(Ja|Score=x) = + x

Sandsynlighed:

Plot: Logit(Ja|Score=x)

x

x

e

exScoreJaP

1)|(

Logistiske funktion

x

x

e

e

1

x

x

e

e5.05.1

5.05.1

1

Fortolkning Logit-forskel:

Så hver gang score stiger med en stiger logit med .

Odds-ratio:

Så hver gang score stiger med en ændres Odds’et med en faktor e.

xxxx

xScoreJaLogitxScoreJaLogit

1

)|()1|(

ee

e

xScoreJaOdds

xScoreJaOddsx

x

1

)|(

)1|(

Hypotesetest

H0: = 0

H1: ≠ 0

Teststørrelse:

Hvis vi afviser H0 siger vi at er signifikant.

SEWald

ˆ

Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.

Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output

Estimerede model:

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp() = 1,208, hver gang scoren stiger med 1.

xxScoreJaLogit 189.0402.0)|(

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:

Logit(Ja|Score=x) = + x + x2

Hvis ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows -test Ide: Sammenlign observerede antal Ja’er og

forventede antal Ja’er i den tilpassede model.

Ox = observerede antal personer med score x, der svarer ”Ja”.

Nx = antal personer med score x.

Ex = forventede antal personer med score x, der svarer ”Ja”.

x

x

xxx e

eNxScoreJaPNE

1)|(

Modelkontrol: Hosmer-Lemeshows -test Teststørrelse:

Hvis vores værdier af a og b er korrekte gælder

Hvor df = ”antal led i summen” –

”antal parametre i modellen”

Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen

kikset.

x x

xx

E

OE 22

df22 ~

SPSS Output

Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel.

Model:

Reference-kategorier: Dreng og Hurtig Dvs: Dreng = 0 og Hurtig = 0

Logit(Ja|Dreng,Hurtig) = +Dreng+Hurtig = +0+0 =

Logit(Ja|Pige,Langsom) = +Pige+Langsom

HastighedKønHastighedKønJaLogit ),|(

Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) =

(+Køn+Langsom) - (+Køn+Hurtig) = Langsom.

Dvs. Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.

Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (+Pige+Hastighed) - (+Dreng+Hastighed) = Pige.

Dvs. Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge

faktisk afhænger af hastigheden – at der er en interaktion?

Indfør interaktionsled Køn,Hastighed.

Model:

Logit(Ja|Køn,Hastighed) =

+ Køn + Hastighed + Køn,Hastighed

Parametere der refererer til en eller flere reference- kategorier sættes lig nul: Dreng,Hurtig = 0

Dreng, Langsom = 0

Dreng, Usikker = 0

Interaktion / Vekselvirkning

Pige, Hurtig = 0

Pige, Langsom ≠ 0 Pige, Usikker ≠ 0

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)

Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

Køn

Dreng Pige

Læsehastighed Hurtig Pige

Langsom Langsom PigeLangsom

Pige,Langsom

Usikker Usikker PigeUsikker

Pige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = Pige +

Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = Usikker +

Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

Hypotse

H0: Pige,Langsom = Pige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og

Hastighed.

H1: Pige,Langsom ≠0 og/eller Pige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.

Statistik II Lektion 3

Documents