Korelacija in regresija - Oddelek za psihologijo | slopsy.ff.uni-lj.si/Katedre/PM/gradiva/OS11-Linearna... · · 2011-11-131 Linearna regresija Univerza v Ljubljani, Filozofska

1

Linearna regresija

Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo Študij prve stopnje Psihologija

1. semester, predmet Opisna statistika doc. dr. Anja Podlesek

REGRESIJA

KORELACIJA

opis odnosov, napovedovanje

opis velikosti povezanosti

Napovedovanje

• Predikcija, ocena Y na osnovi vrednosti X

– Y … kriterijska spremenljivka

– X … prediktorska spremenljivka

• Regresijska analiza:

– enostavna (bivariatna) vs. multipla regresija

– linearna vs. nelinearna regresija

Scatterplot (r = 0.48)

HOME_3

HO

BB

Y_

2

20

40

60

80

100

120

140

160

180

200

60 70 80 90 100 110 120 130 140 150

Pogojne aritmetične sredine

X

Y

Če poznamo vrednosti X, je boljša napoved

Y (tj. Y') aritmetična sredina dosežkov Y

vseh posameznikov, ki so dosegli tak

rezultat X.

MY = najboljša

napoved Y, če

ne poznamo

vrednosti X

regresijska premica

HOME_3

HO

BB

Y_

2

20

40

60

80

100

120

140

160

180

200

60 70 80 90 100 110 120 130 140 150

Pogojne aritmetične sredine

X

Y

e

Napaka napovedi (rezidual): e = Y - Y’

Y’

Y = Y’ + e

Načelo najmanjših kvadratov

• Y’ napovedujemo na osnovi pogojnih sredin • linearna regresija: Y’ ležijo na premici • Y so razpršene okrog Y’: 𝑌 − 𝑌′ = 0 • vsota kvadratov odklonov je minimalna:

𝑌 − 𝑌′ 2 = min • standardna napaka napovedi = razpršitev

dejanskih okoli napovedanih vrednosti

2

Za napovedovanje potrebujemo le enačbo premice:

Y’ = a + bX

a:

vrednost Y,

ko je X = 0

b:

povečanje Y’,

ko X naraste

za 1 enoto

osamljenost

str

es

0.5

1.5

2.5

3.5

4.5

5.5

6.5

0 4 8 12 16 20 24

DX

DY

X

Yb

D

D

a

regresijska premica

X

YYX

X

XYYX

YX

rx

xyb

XXN

YXXYNb

22

22

cov

a Y b XYX YX

22 YYN

YXXYNbXY

YbXa XYXY

XSS

SPb

Testiranje hipotez I: Razstavljanje totalne vsote kvadratov

Totalna SS = Modelna (pojasnjena) SS + Nepojasnjena SS (napaka)

( )Y Yii

N

1

2( )Y Yi

i

N

1

2( )Y Yi

i

N

i

1

2

= +

Y

Y

N

YY

2

2

Y

ˆσ

pojasnjena var + N

YY

2

2

Y.X

)ˆ(σ

nepojasnjena var

N

YY

2

2

Yσ

totalna var =

Testiranje hipotez I: Razstavljanje totalne vsote kvadratov

• MSregresija

• MSnapaka = 0, če so vse dejanske vrednosti enake napovedanim.

• Izračunamo F = MSR/MSe in ga primerjamo s F porazdelitvijo z 1 in N - 2 df.

• H0: F = 0

1

)ˆ( 2

1

YY

MS

N

i

i

R

2

)ˆ( 2

1

N

YY

MSi

N

i

i

e

Standardna napaka napovedi

21σ

2

)ˆ(σ 2

XYY

2

Y.X

N

Nr

N

YY

Nepristranska ocena standardne napake napovedi na osnovi vzorčnih podatkov

2

XYY

2

Y.X 1σˆ

σ rN

YY

Standardna napaka napovedi za populacijo

SSe = (1 – r2) SSY večja kot je korelacija, manjša je SSe

Koeficient učinkovitosti napovedi zmanjšanje σe na račun povezanosti

E r 1 1 2

r r2

E%

0.20 0.04 2

0.50 0.25 13.4

0.70 0.49 28.6

0.90 0.81 56.4

0.95 0.90 68.8

0.99 0.98 85.9

2

XY1 rk

k … koeficient alienacije

%1100 kE

3

regresijska premica

HOME_3

HO

BB

Y_

2

20

40

60

80

100

120

140

160

180

200

60 70 80 90 100 110 120 130 140 150

Razstavljanje variance Y kot podlaga r

X

Y

var(Y) = var(Y’) + var(e)

Y - Mtot = (Y’ - Mtot) + (Y - Y’)

Mtot

Y’

e

Y

standardna deviacija rezidualov =

standardna napaka napovedi se

Skupna varianca = pojasnjena + nepojasnjena varianca

2

e

2

Y'

2

Y σσσ

Koeficient determinacije r2: delež pojasnjene variance

2

Y

2

e

2

Y

2

Y'2

σ

σ1

σ

σr

r … Pearsonov koeficient korelacije

r b bXY XY YX

Y

Y

X

X

Y X

Y

X Y

X

2

2

2

2

2

2

2

2

21 1

. .

Inferenčni testi v zvezi z regresijskimi koeficienti: preverjamo, ali so koeficienti pomembno različni od 0

Hipoteze testiramo s t-testom:

Testiranje hipotez II: Testiranje parametrov

modela

a

a

b

b ,

s

at

s

bt

X

Y

H02: b = 0

X

Y

Y

a

Y

H01: a = 0 Y = 0

Dejanske

Napovedane

.ˆ: i p y xIZ Y z SE

regresijska premica

HOME_3

HO

BB

Y_

2

20

40

60

80

100

120

140

160

180

200

60 70 80 90 100 110 120 130 140 150

Y Mtot

Napovedni interval

Model napovedovanja, ko imamo opravka s populacijo:

X

2

)1( Y

2

ey.x

N

SSr

df

SSSE

𝐼𝑍: 𝑌 i ± 𝑡p𝑆𝐸y.x

Napoved na osnovi vzorčnih podatkov:

• Napovedni interval je večji kot interval zaupanja za napovedane vrednosti.

• Širina intervala zaupanja za dejanske in za napovedane vrednosti narašča z naraščanjem razdalje med MX in Xi.

X

Y

Dejanske

vrednosti

Y

Napovedane

vrednosti

+ upoštevati vzorčne variacije v regresijskih koeficientih 95 % interval zaupanja za napovedane vrednosti = interval, v katerem se bi pri 95 % vzorcev nahajala napovedana vrednost Y’ pri nekem X 95 % napovedni interval za Y (včasih tudi interval zaupanja za dejanske [angl. observed] vrednosti) = interval okrog napovedane vrednosti, v katerem se nahaja srednjih 95 % dejanskih vrednosti Y pri posameznikih, ki imajo določeno vrednost X

Predpostavke v regresijski analizi 1. naključno vzorčenje, 2. linearnost odnosa, 3. homoscedastičnost, 4. normalnost porazdelitve rezidualov

analiza rezidualov + druga regresijska diagnostika

4

Naključno vzorčenje oz. neodvisnost podatkov

1. Napake napovedi ne smejo biti korelirane (problem: pri časovnih vrstah).

2. Mera t. i. serialne korelacije: Durbin-Watson – Zaseda lahko vrednosti od 0 do 4.

– 2 = ni avtokorelacije, 0 = pozitivna avtokorelacija, 4 = negativna avtokorelacija

3. Narišemo odnos med reziduali in napovedanimi vrednostmi. Pregledamo, če obstajajo kakšni vzorci. Naredimo lahko tudi graf ACF analize časovnih vrst

Autocorrelation Plot

0 10 20 30 40 50 60

Lag

-1.0

-0.5

0.0

0.5

1.0

Corr

ela

tion

Y’

Rez

idu

al

Za preverjanje linearnosti odnosa:

• Narišemo odnos med reziduali in Y’.

• Iščemo morebitne vzorce.

Rez

idu

al

X

Y

Y’

Napov edane v rednosti Y

Re

zid

ua

li

-50

-30

-10

10

30

50

70

90

100 200 300 400 500 600 700 800 900

Primer rezidualnega grafa

pri nelinearni povezanosti

Homoscedastičnost =

Standardna napaka napovedi je enaka na celotnem razponu X.

• Narišemo odnos med reziduali in Y’. Iščemo morebitne vzorce.

• Y združimo v nekaj razredov in z Levenovim testom preverimo enakost varianc.

Y’

Rez

idu

al Skupina 1

Skupina 2 Skupina 3

Rez

idu

al

Y’


pri heteroscedastičnosti

Napov edane v rednosti Y

Re

zid

ua

li

-50

-30

-10

10

30

50

39.7 39.9 40.1 40.3 40.5 40.7 40.9

Normalnost porazdelitve rezidualov

• Narišemo odnos med reziduali in Y’. Iščemo morebitne vzorce.

• Naredimo grafe normalnosti rezidualov (histogram rezidualov, normalni verjetnostni graf).

• Uporabimo K-S (Lilliefors) test.

p (

no

rmal

na)

Rezidual

Normalnost Nenormalnost

Rez

idu

al

Y’

5


pri normalni porazdeljenosti rezidualov

Normal Probability Plot of Residuals

Residuals

Exp

ecte

d N

orm

al V

alu

e

-3

-2

-1

0

1

2

3

-40 -30 -20 -10 0 10 20 30

Robustnost regresije pri kršenju predpostavk

Predpostavka Na kaj vpliva kršenje?

Robustnost

Opomba

Normalnost Na inferenčne teste, intervale zaupanja

Visoka Le če je N dovolj velik (>10)

Neodvisnost Na inferenčne teste

Nizka Odvisno od višine avtokorelacije

Homoscedastičnost Na intervale zaupanja, na inferenčne teste

Nizka Posebej pri majhnih vzorcih

Linearnost Na interpretacijo r in regresijskih koeficientov

Nizka Prepričaj se!

Kaj lahko naredimo, če so predpostavke kršene?

• Lahko poskusimo transformirati podatke, toda:

– pri nekaterih podatkih ne bo uspešna nobena transformacija;

– včasih dobro transformacijo težko najdemo.

• Uporabimo nelinearno regresijo. 0 200 400 600

1.2

2.4

3.6

4.8

6.0

7.2

Length (mm)

Wei

gh

t (k

g)

Transformacije v regresiji

10 100 1000

0.001

0.01

0.1

1.0

8.0

Length (mm; log scale)

Wei

gh

t (k

g;

log s

cale

)

Weight versus length

in the beetle

Scorpaenichthys

marmoratus

Izstopajoče in vplivne točke

• točke, ki so močno oddaljene od regresijske premice

• Problem 1: Ali so to res izstopajoče (posebne, drugačne) vrednosti (angl. outliers)? – Pregled rezidualov

(surovih, standardiziranih, studentiziranih)

• Problem 2: Ali pomembno vplivajo na statistične zaključke (angl. influential points)? – Pregled različnih mer (DFFit,

DFBeta, Cookova razdalja, ročica, Mahalanobisova razdalja)

X

Y

Outlier?

Outlier?

X

Y

-20

-10

0

10

20

30

40

50

60

70

-5 5 15 25 35 45 55 65

N = 100 r = 0.81

N = 101 r = 0.74

6

Z

X

-10

10

30

50

70

90

110

10 30 50 70 90 110

N = 100 r = 0.09

N = 101 r = 0.31

Analiza vplivnih točk I: Studentizirani reziduali

• Narišemo odnos med Studentiziranimi reziduali in napovedanimi vrednostmi.

• “Veliki” reziduali so tisti, ki imajo studentizirano vrednost > 3,0.

• Taki primeri močno prispevajo k nepojasnjeni varianci (varianci napake).

0.5 1.0 1.5 2.0

LAGE

-4

-3

-2

-1

0

1

2

3

4

ST

UD

EN

T

Analiza vplivnih točk II: Ročica (angl. Leverage)

• Ročica meri potencialni vpliv točke na regresijsko premico.

• Določena je le na osnovi X vrednosti – točke, ki so bolj oddaljene od sredine X, imajo večjo ročico.

• “Velika ročica” = večja od 4/N.

0.5 1.0 1.5 2.0

LAGE

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.10

LE

VE

RA

GE

Majhna ročica

Velika ročica

X

Y

Analiza vplivnih točk III: Cookova razdalja

• Cookova razdalja: mera ročice + prispevka k varianci napake

• “Velika” = večja od 1.

Manjša Cookova razdalja

Večja Cookova razdalja

1.4 1.5 1.6 1.7 1.8

ESTIMATE

0.0

0.1

0.2

0.3

0.4

0.5

CO

OK

X

Y

Reševanje težav z vplivnimi točkami

• Ali imajo pomembne učinke na rezultate regresije?

• To ugotovimo tako, da jih izbrišemo, ponovno izvedemo analize in primerjamo rezultate pred in po izbrisu.

• Ali sta oceni nagiba in presečišča pomembno drugačni ali še vedno ležita znotraj 95% CI za ocene pred izbrisom?

Vplivne točke vključene

Vplivne točke izbrisane

Y

Ni pomembnega učinka

X

Y

Pomemben učinek

Učinek brisanja vplivnih točk

Ponovimo: Posamezni primeri lahko nesorazmerno vplivajo na velikost korelacijskih in regresijskih koeficientov.

Vplivnost je odvisna od oddaljenosti točke od:

• aritmetične sredine X in

• regresijske premice

Kaj se lahko zgodi po brisanju vplivnih točk?

• Zmanjša se velikost vzorca (N) in s tem tudi moč analize.

• Zmanjša se MSe, s tem se zmanjša sb in poveča moč.

• Če je N majhen, je prvi učinek najbrž večji od drugega, razen če so vplivne točke zelo ekstremne.

Korelacija in regresija - Oddelek za psihologijo | slopsy.ff.uni-lj.si/Katedre/PM/gradiva/OS11-Linearna... · · 2011-11-131 Linearna regresija Univerza v Ljubljani, Filozofska

Documents