StatistikLektion 3
Simpel Lineær Regression
Kriminalitet og uddannelse i Florida: Er der en sammenhæng? Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x):
Er der en sammenhæng?
Scatterplot
Scatterplot
Et scatterplot er et plot af to variable: x : forklarende variabel
(percent high school)
y : respons variabel (crime rate)
For den i’te observation har vi xi (crime rate for i’te
distrikt)
yi (% high school for i’te distrikt)
Data: (x1,y1), (x2,y2),…, (xn,yn)
x
Y
xi
yi
(xi,yi)
Forventet respons: En ret linje Den rette linje a + bx beskriver
den forventede (dvs. middel) respons:
E[y] = a + bx Eksempel:
E[y] = 210 + 2,5x Fortolkning:
Antag x = 40 (% high school), så er den forventede crime rate 210 + 2,5·40 = 310
Hvis x øges med 1, så øges den forventede værdi af y med 2,5.
x
y
b
E[y] = a + bx
a
Hvis x = 0 , så er den forventede værdi af y = 210.
UK: Expected
1
Fejlleddet
De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen.
Afvigelsen mellem punkt og linjen betegnes fejlleddet ei.
Regressionsmodel:
yi = a + bxi+ ei
Bemærk: n fejlled e1, e2, ..., en.
x
y
xi
yi
(xi,yi)
ei
Flere detaljer og antagelser på næste slide…
a + bx
Simpel lineær regressionsmodel ),0( iid 2
10 Nxy iiii
• Y - den afhængige variabel.• X - den uafhængige variabel – faste• β - det græske bogstav ”beta”• β0 - skæringspunkt med y-aksen• β1 - hældningskoefficient• iid - UK: independent, identically distributed
= uafhængig, identisk fordelte• ε - det græske bogstav ”epsilon”• εi - det eneste stokastiske element i modellen
Lineær regressionsmodel: Figur Model:
yi = a + bxi+ ei
Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-
afvigelse s Dvs. punkterne ligger
usystematisk spredt omkring en ret linje, hvor variationen er konstant.
X
Y
i.i.d. normalfordelte fejlled
Fordelingen af yi omkring regressionslinjen.
x1 x3x2 x4 x5
iii xY 10
Kontinuert forklarende variabel x
Visuelt check af antagelser Lav et scatter plot
x
x
x
y
x
y
y
y
√
√
%
%
En tilnærmet linje
En estimeret regressionslinje er givet ved:
Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y)
Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - .
x
y
xi
yi
(xi,yi) E[y] = a + bx
= a + bxyiy
ei
= a + bxy
iy
Mindste kvadraters metode
Summen af de kvadrede residualer betegnes:
UK: Sum of Squared Errors.
SSE kan skrives som
x
y
xi
yi
(xi,yi) E[y] = a + bx
= a + bxyiy
ei
n
ii
n
iii eyySSE
1
2
1
2ˆ
n
iii bxaySSE
1
2
Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.
Analyze → General Linear Model → Univariate
Simpel lineær regression i SPSS
x
y
Den estimerede regressionslinje er altså:
Fortolkning Hver gang procent high school stiger et point stiger den
forventede crime rate med 1,501 mord pr 100.000. Hvis der er nul procent high school, så er den forventede
crime rate -51,806… Hvis procent high school er 71,2, så er den prædikterede
crime rate: -51,806 + 1,501·71,2 = 55,07.
SPSS: Resultata
b
= -51,806 + 1,501 xy
Graphs → Chart builder → Scatter/Dot → Simple Scatter
Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
Regressionslinje i SPSS
Hypotesetest af b Nul-hypoteser:
H0: b = 0 Alternativ-hypoteser:
Ha: b 0 Ha: b > 0 Ha: b < 0
Teststørrelse
hvor se er standardfejlen:se
bt
2
i i xx
sse
2
n
SSEs,hvor
Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader
Fortolkning af H0: β = 0Er der en lineær sammenhæng mellem X og Y?
H0: β1 = 0 ingen lineær sammenhæng
Ha: β1 ≠ 0 lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
H0: b = 0 vs Ha: b 0
Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. crime og high school.
Hypotesetest i SPSS
156.4361.0
501.1
se
bt
-3 -2 -1 0 1 2 3
P-værdi
4.156-4.156
t-fordeling med df = n-2
0
Total og uforklaret variation - illustration
Den totale variation ses når vi ”kigger langs” x-aksen.
Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.
TSS SSE
Determinationskoefficienten r 2
TSS Den totale variation TSS – SSE Den forklarede variation (totale – uforklarede)
Determinationskoefficienten
Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret
af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.
TSS
SSETSSr
2
Som en del af output’et for lineær regression får man bl.a. følgende kasse:
Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % high school.
Determinationskoefficienten i SPSS
Determinationskoefficienten r2
Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2
Multipel Lineær Regression (MLR) Antag vi har
y : afhængig variabel x1 : første forklarende var. x2 : anden forklarende var.
MLR model:
yi = a + b1x1,i+b2x2,i+e Her:
x1,i er værdien af x1 for i’te ”person”. Forventede værdi:
E[y] = a + b1x1+b2x2
Dvs. regressionsplanet angiver gennemsnittet for responsen
x1
x2
y
x1,i
x2,i
ei
yi
a + b1x1+b2x2
Fortolkning af bi
Antag vi har k forklarende variable:
yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e
Fortolkningen af bj: Hvis x1 øges med 1, så øges den forventede værdi af y
med b1, hvis x2, x3, …, xk forbliver uændrede.
Teori: Kriminalitet afhænger også af graden af ubanisering. Multipel lineær regression af Crime rate (y) mod både
Uddannelser (x1) og Urbanisering (x2). Prædiktionsligning:
Eksempel: Kriminalitet i Florida (fortsat)
21 673.054.08.56ˆ xxy
Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).
Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:
Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).
For hver ekstra procent-point uddannede falder crime rate med 0.54.
21 673.054.08.56ˆ xxy
)4054.07.83ˆ 21 xxy (
)5054.04.90ˆ 21 xxy (
Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.
Simpsons paraksok - igen Sammenhæng mellem crime
rate og uddannelse Sort linje:
SLR for alle data Blå linje:
SLR kun for områder med høj grad af urbanisering.
Grøn linje: SLR kun for områder med
lav urbanisering.
Bemærk hvor forskellig sammenhængen er i de to grupper.
Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:
Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).
For hver ekstra procent-point uddannede falder crime rate med 0.54.
21 673.054.08.56ˆ xxy
)4054.07.83ˆ 21 xxy (
)5054.04.90ˆ 21 xxy (
Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.
MLR model:
y = a + b1x1+b2x2+ ··· +bkxk +e Er der mindst en af xj’erne der har en lineær sammenhæng
med y? Nul-hypotese:
H0: b1 = b2 = … = bk = 0 Alternativ-hypotese:
Ha: Mindst et bj 0 Teststørrelse:
Hypotesetest for MLR: F-test
0)1(1 2
2
knR
kRF
y har ingen lineær sammenhæng med et eneste xj.
y har en lineær sammenhæng med med mindst et af xj’erne.
Jo større F jo mindre tror vi på H0.
F-testet
Hvis H0 er sand, så følger F en F-fordeling.
Som c2-fordelingen kan F-fordelingen kun tage positive værdier.
P-værdien finder vi vha. SPSS (næste slide).
Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable.
P-værdi
Observeret F
I eksemplet:
Konklusion?
F-test i SPSSP-værdi
P-værdi
9.495
F-værdiNyl-hypotesen vedrører to b’er.