Statistik Lektion 3

StatistikLektion 3

Simpel Lineær Regression

Kriminalitet og uddannelse i Florida: Er der en sammenhæng? Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x):

Er der en sammenhæng?

Scatterplot

Scatterplot

Et scatterplot er et plot af to variable: x : forklarende variabel

(percent high school)

y : respons variabel (crime rate)

For den i’te observation har vi xi (crime rate for i’te

distrikt)

yi (% high school for i’te distrikt)

Data: (x1,y1), (x2,y2),…, (xn,yn)

x

Y

xi

yi

(xi,yi)

Forventet respons: En ret linje Den rette linje a + bx beskriver

den forventede (dvs. middel) respons:

E[y] = a + bx Eksempel:

E[y] = 210 + 2,5x Fortolkning:

Antag x = 40 (% high school), så er den forventede crime rate 210 + 2,5·40 = 310

Hvis x øges med 1, så øges den forventede værdi af y med 2,5.

x

y

b

E[y] = a + bx

a

Hvis x = 0 , så er den forventede værdi af y = 210.

UK: Expected

1

Fejlleddet

De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen.

Afvigelsen mellem punkt og linjen betegnes fejlleddet ei.

Regressionsmodel:

yi = a + bxi+ ei

Bemærk: n fejlled e1, e2, ..., en.

x

y

xi

yi

(xi,yi)

ei

Flere detaljer og antagelser på næste slide…

a + bx

Simpel lineær regressionsmodel ),0( iid 2

10 Nxy iiii

• Y - den afhængige variabel.• X - den uafhængige variabel – faste• β - det græske bogstav ”beta”• β0 - skæringspunkt med y-aksen• β1 - hældningskoefficient• iid - UK: independent, identically distributed

= uafhængig, identisk fordelte• ε - det græske bogstav ”epsilon”• εi - det eneste stokastiske element i modellen

Lineær regressionsmodel: Figur Model:

yi = a + bxi+ ei

Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-

afvigelse s Dvs. punkterne ligger

usystematisk spredt omkring en ret linje, hvor variationen er konstant.

X

Y

i.i.d. normalfordelte fejlled

Fordelingen af yi omkring regressionslinjen.

x1 x3x2 x4 x5

iii xY 10

Kontinuert forklarende variabel x

Visuelt check af antagelser Lav et scatter plot

x

x

x

y

x

y

y

y

√

√

%

%

En tilnærmet linje

En estimeret regressionslinje er givet ved:

Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y)

Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - .

x

y

xi

yi

(xi,yi) E[y] = a + bx

= a + bxyiy

ei

= a + bxy

iy

Mindste kvadraters metode

Summen af de kvadrede residualer betegnes:

UK: Sum of Squared Errors.

SSE kan skrives som

x

y

xi

yi

(xi,yi) E[y] = a + bx

= a + bxyiy

ei

n

ii

n

iii eyySSE

1

2

1

2ˆ

n

iii bxaySSE

1

2

Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Analyze → General Linear Model → Univariate

Simpel lineær regression i SPSS

x

y

Den estimerede regressionslinje er altså:

Fortolkning Hver gang procent high school stiger et point stiger den

forventede crime rate med 1,501 mord pr 100.000. Hvis der er nul procent high school, så er den forventede

crime rate -51,806… Hvis procent high school er 71,2, så er den prædikterede

crime rate: -51,806 + 1,501·71,2 = 55,07.

SPSS: Resultata

b

= -51,806 + 1,501 xy

Graphs → Chart builder → Scatter/Dot → Simple Scatter

Efterfølgende dobbelt-klik på plottet og vælg:

Elements → Fit line at total

Regressionslinje i SPSS

Hypotesetest af b Nul-hypoteser:

H0: b = 0 Alternativ-hypoteser:

Ha: b 0 Ha: b > 0 Ha: b < 0

Teststørrelse

hvor se er standardfejlen:se

bt

2

i i xx

sse

2

n

SSEs,hvor

Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader

Fortolkning af H0: β = 0Er der en lineær sammenhæng mellem X og Y?

H0: β1 = 0 ingen lineær sammenhæng

Ha: β1 ≠ 0 lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

H0: b = 0 vs Ha: b 0

Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. crime og high school.

Hypotesetest i SPSS

156.4361.0

501.1

se

bt

-3 -2 -1 0 1 2 3

P-værdi

4.156-4.156

t-fordeling med df = n-2

0

Total og uforklaret variation - illustration

Den totale variation ses når vi ”kigger langs” x-aksen.

Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.

TSS SSE

Determinationskoefficienten r 2

TSS Den totale variation TSS – SSE Den forklarede variation (totale – uforklarede)

Determinationskoefficienten

Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret

af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

TSS

SSETSSr

2

Som en del af output’et for lineær regression får man bl.a. følgende kasse:

Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % high school.

Determinationskoefficienten i SPSS

Determinationskoefficienten r2

Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter

r2

Multipel Lineær Regression (MLR) Antag vi har

y : afhængig variabel x1 : første forklarende var. x2 : anden forklarende var.

MLR model:

yi = a + b1x1,i+b2x2,i+e Her:

x1,i er værdien af x1 for i’te ”person”. Forventede værdi:

E[y] = a + b1x1+b2x2

Dvs. regressionsplanet angiver gennemsnittet for responsen

x1

x2

y

x1,i

x2,i

ei

yi

a + b1x1+b2x2

Fortolkning af bi

Antag vi har k forklarende variable:

yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e

Fortolkningen af bj: Hvis x1 øges med 1, så øges den forventede værdi af y

med b1, hvis x2, x3, …, xk forbliver uændrede.

Teori: Kriminalitet afhænger også af graden af ubanisering. Multipel lineær regression af Crime rate (y) mod både

Uddannelser (x1) og Urbanisering (x2). Prædiktionsligning:

Eksempel: Kriminalitet i Florida (fortsat)

21 673.054.08.56ˆ xxy

Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:

Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).

For hver ekstra procent-point uddannede falder crime rate med 0.54.

21 673.054.08.56ˆ xxy

)4054.07.83ˆ 21 xxy (

)5054.04.90ˆ 21 xxy (

Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Simpsons paraksok - igen Sammenhæng mellem crime

rate og uddannelse Sort linje:

SLR for alle data Blå linje:

SLR kun for områder med høj grad af urbanisering.

Grøn linje: SLR kun for områder med

lav urbanisering.

Bemærk hvor forskellig sammenhængen er i de to grupper.

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:

Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).

For hver ekstra procent-point uddannede falder crime rate med 0.54.

21 673.054.08.56ˆ xxy

)4054.07.83ˆ 21 xxy (

)5054.04.90ˆ 21 xxy (

Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

MLR model:

y = a + b1x1+b2x2+ ··· +bkxk +e Er der mindst en af xj’erne der har en lineær sammenhæng

med y? Nul-hypotese:

H0: b1 = b2 = … = bk = 0 Alternativ-hypotese:

Ha: Mindst et bj 0 Teststørrelse:

Hypotesetest for MLR: F-test

0)1(1 2

2

knR

kRF

y har ingen lineær sammenhæng med et eneste xj.

y har en lineær sammenhæng med med mindst et af xj’erne.

Jo større F jo mindre tror vi på H0.

F-testet

Hvis H0 er sand, så følger F en F-fordeling.

Som c2-fordelingen kan F-fordelingen kun tage positive værdier.

P-værdien finder vi vha. SPSS (næste slide).

Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable.

P-værdi

Observeret F

I eksemplet:

Konklusion?

F-test i SPSSP-værdi

P-værdi

9.495

F-værdiNyl-hypotesen vedrører to b’er.

Statistik Lektion 3

Documents

Statistik Lektion 3