Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Jan 13, 2016
Statistik IILektion 3
Logistisk Regression
Kategoriske og Kontinuerte Forklarende Variable
Setup: To binære variable X og Y.
Statistisk model:
Konsekvens:
Logistisk regression: 2 binære var.
x
x
e
exXYP
1)|1(
xxXYP
xXYPxXYLogit
)|1(1
)|1(ln)|1(
Logit-forskelle og Odds-ratio
Logit-forskel
Odds-ratio
)0|1()1|1( XYLogitXYLogit
ee
e
XYOdds
XYOddsYOR
)0|1(
)1|1()1(
Likelihood-funktionen
Definer Likelihood funktionen L( , ; data).
L(, ; data) siger, hvor ”troelig” (likely) data under vores model for givne og .
Estimation Lad og betegne estimaterne af de sande, men
ukendte parametre og .
Parametrene og estimeres ved maximum-likelihood metoden:
Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS).
Vi kalder og maximum-likelihood (ML) estimater.
Estimaternes fordeling.
Antag er den sande værdi og er et ML estimat.
For hver data-indsamling får vi lidt forskellige estimater af pga. af tilfældig variation i data.
Hvis vi har indsamlet data nok, så gælder der
Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE() afhænger af mængden af data.
2)(,~ˆ SEN
Konfidensinterval for
Da gælder følgende:
95.096.1ˆ96.1ˆ
95.096.1ˆ96.1
SESEP
SESEP 95.096.1ˆ96.1ˆ
95.096.1ˆ96.1
SESEP
SESEP
2,ˆ~ˆ SEN
Konfidensinterval for Vi har altså at det sande er indeholdt i intervallet
med 95% sandsynlighed.
Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment.
Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten ellers så gør det ikke.
Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.
)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE
Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β:
Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel).
Et 95% konfidens-interval for odds-ratio:
)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE
];[ )ˆ(96.1ˆ)ˆ(96.1ˆ SESE ee
Signifikanstest
Hypoteser H0: β = 0 (uafhængighed)
H1: β = 0 (afhængighed)
Teststørrelse: (Wald teststør.)
Under H0 gælder:
Store værdier af Z2 er ufordelagtige for H0.
22 )(ˆ SEZ
1~ 22 Z
Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: = K H1: ≠ K
Lad [a,b] være et 95% konfidens-interval for .
Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau = 0.05.
Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau = 0.05.
SPSS Output
SE p-værdi
e 95% konf-int. for exp
Model: xxXYLogit )|1(
Model: )|1( xXYLogit
Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?
Er du en god læser
Nej Ja Total
Sætnings-læsning
Hurtig 806.3%
119993.7%
1279100.0%
Langsom 8028.1%
20571.9%
285100.0%
Usikker 1135.5%
2064.5%
31100.0%
Total 17111.2%
142488.8%
1595100.0%
Odds for ”Ja” givet hastighed
1199/80 = 14.99
205/80 = 2.56
20/11 = 1.81
Logit for ”Ja” givet hastighed
ln(14.99) = 2.707
ln(2.56) = 0.94
ln(1.81) = 0.59
Uafhængighed
I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens:
Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker)
Vi sammenligner par af Odds vha et Odds-ratio.
Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!
Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed =
Hurtig. Vi sammenligner nu Odds for hver kategori med Odds
for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios.
Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1.
Tilsvarende er alle logit-forskelle = 0.
Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = + Hastighed
Logit(Ja|Hurtig) = + Hurtig
Logit(Ja|Langsom) = + Langsom
Logit(Ja|Usikker) = + Usikker
Overparametriseret! (hvorfor?)
For reference-kategorien sæt Hurtig = 0.
Logit-forskelle
Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
+ Langsom) - = Langsom
Logit(Ja|Usikker) - Logit(Ja|Hurtig) =
+ Usikker) - = Usikker
Dvs. Langsom og Usikker er de to logit-forskelle af interesse.
Hypotesetest Uinteressant hypotse (hvorfor?)
H0: Langsom = 0
H1: Langsom ≠ 0
Interessant hypotese (hvorfor?) H0: Langsom = Usikker = 0
H1: Langsom ≠ 0 og/eller Usikker ≠ 0
Teststørrelse: Wald ~ 2(df ) df = antal parametre ivolveret i H0.
SPSS
”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.
SPSS Output
Lansom
Usikker
H0: Lansom = Usikker = 0
H0: Usikker = 0
NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…).
To parametre i H0: Lansom og Usikker.
Alternativ: Dummy-variable
For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker.
xHurtig = 0 altid
xLangsom = 1 hvis Hastighed = Langsom
xLangsom = 0 hvis Hastighed ≠ Langsom
xUsikker = 1 hvis Hastighed = Usikker
xUsikker = 0 hvis Hastighed ≠ Usikker
Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker
Hurtig 0 0
Langsom 1 0
Usikker 0 1
Dummy-variable
Model:
Eksempel:
UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit )|(
Langsom
UsikkerLangsomHurtigLangsomJaLogit
010)|(
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den
logistiske regression skrives på den generelle form:
i
ii xXYLogit )|1(
iii
iii
x
x
x
x
e
eXYP
iii
iii
exp1
exp
1)|1(
Skala forklarende variabel Eksempel:
Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)
Plot: Andel Ja’er for hver score.
Logistisk Regressionsmodel Model: Logit(Ja|Score=x) = + x
Sandsynlighed:
Plot: Logit(Ja|Score=x)
x
x
e
exScoreJaP
1)|(
Logistiske funktion
x
x
e
e
1
x
x
e
e5.05.1
5.05.1
1
Fortolkning Logit-forskel:
Så hver gang score stiger med en stiger logit med .
Odds-ratio:
Så hver gang score stiger med en ændres Odds’et med en faktor e.
xxxx
xScoreJaLogitxScoreJaLogit
1
)|()1|(
ee
e
xScoreJaOdds
xScoreJaOddsx
x
1
)|(
)1|(
Hypotesetest
H0: = 0
H1: ≠ 0
Teststørrelse:
Hvis vi afviser H0 siger vi at er signifikant.
SEWald
ˆ
Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.
Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
SPSS Output
Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp() = 1,208, hver gang scoren stiger med 1.
xxScoreJaLogit 189.0402.0)|(
Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:
Logit(Ja|Score=x) = + x + x2
Hvis ikke er signifikant, så er en logit-lineær model passende.
Modelkontrol: Hosmer-Lemeshows -test Ide: Sammenlign observerede antal Ja’er og
forventede antal Ja’er i den tilpassede model.
Ox = observerede antal personer med score x, der svarer ”Ja”.
Nx = antal personer med score x.
Ex = forventede antal personer med score x, der svarer ”Ja”.
x
x
xxx e
eNxScoreJaPNE
1)|(
Modelkontrol: Hosmer-Lemeshows -test Teststørrelse:
Hvis vores værdier af a og b er korrekte gælder
Hvor df = ”antal led i summen” –
”antal parametre i modellen”
Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen
kikset.
x x
xx
E
OE 22
df22 ~
SPSS Output
Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.
Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.
Multipel Logistisk Regression Ide: Mere end en forklarende variabel.
Model:
Reference-kategorier: Dreng og Hurtig Dvs: Dreng = 0 og Hurtig = 0
Logit(Ja|Dreng,Hurtig) = +Dreng+Hurtig = +0+0 =
Logit(Ja|Pige,Langsom) = +Pige+Langsom
HastighedKønHastighedKønJaLogit ),|(
Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) =
(+Køn+Langsom) - (+Køn+Hurtig) = Langsom.
Dvs. Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.
Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (+Pige+Hastighed) - (+Dreng+Hastighed) = Pige.
Dvs. Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.
Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge
faktisk afhænger af hastigheden – at der er en interaktion?
Indfør interaktionsled Køn,Hastighed.
Model:
Logit(Ja|Køn,Hastighed) =
+ Køn + Hastighed + Køn,Hastighed
Parametere der refererer til en eller flere reference- kategorier sættes lig nul: Dreng,Hurtig = 0
Dreng, Langsom = 0
Dreng, Usikker = 0
Interaktion / Vekselvirkning
Pige, Hurtig = 0
Pige, Langsom ≠ 0 Pige, Usikker ≠ 0
Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.
Køn
Dreng Pige
Læsehastighed Hurtig Pige
Langsom Langsom PigeLangsom
Pige,Langsom
Usikker Usikker PigeUsikker
Pige,Usikker
Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = Pige +
Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = Usikker +
Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
Hypotse
H0: Pige,Langsom = Pige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og
Hastighed.
H1: Pige,Langsom ≠0 og/eller Pige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.