1
Linearna regresija
Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo Študij prve stopnje Psihologija
1. semester, predmet Opisna statistika doc. dr. Anja Podlesek
REGRESIJA
KORELACIJA
opis odnosov, napovedovanje
opis velikosti povezanosti
Napovedovanje
• Predikcija, ocena Y na osnovi vrednosti X
– Y … kriterijska spremenljivka
– X … prediktorska spremenljivka
• Regresijska analiza:
– enostavna (bivariatna) vs. multipla regresija
– linearna vs. nelinearna regresija
Scatterplot (r = 0.48)
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Pogojne aritmetične sredine
X
Y
Če poznamo vrednosti X, je boljša napoved
Y (tj. Y') aritmetična sredina dosežkov Y
vseh posameznikov, ki so dosegli tak
rezultat X.
MY = najboljša
napoved Y, če
ne poznamo
vrednosti X
regresijska premica
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Pogojne aritmetične sredine
X
Y
e
Napaka napovedi (rezidual): e = Y - Y’
Y’
Y = Y’ + e
Načelo najmanjših kvadratov
• Y’ napovedujemo na osnovi pogojnih sredin • linearna regresija: Y’ ležijo na premici • Y so razpršene okrog Y’: 𝑌 − 𝑌′ = 0 • vsota kvadratov odklonov je minimalna:
𝑌 − 𝑌′ 2 = min • standardna napaka napovedi = razpršitev
dejanskih okoli napovedanih vrednosti
2
Za napovedovanje potrebujemo le enačbo premice:
Y’ = a + bX
a:
vrednost Y,
ko je X = 0
b:
povečanje Y’,
ko X naraste
za 1 enoto
osamljenost
str
es
0.5
1.5
2.5
3.5
4.5
5.5
6.5
0 4 8 12 16 20 24
DX
DY
X
Yb
D
D
a
regresijska premica
X
YYX
X
XYYX
YX
rx
xyb
XXN
YXXYNb
22
22
cov
a Y b XYX YX
22 YYN
YXXYNbXY
YbXa XYXY
XSS
SPb
Testiranje hipotez I: Razstavljanje totalne vsote kvadratov
Totalna SS = Modelna (pojasnjena) SS + Nepojasnjena SS (napaka)
( )Y Yii
N
1
2( )Y Yi
i
N
1
2( )Y Yi
i
N
i
1
2
= +
Y
Y
N
YY
2
2
Y
ˆσ
pojasnjena var + N
YY
2
2
Y.X
)ˆ(σ
nepojasnjena var
N
YY
2
2
Yσ
totalna var =
Testiranje hipotez I: Razstavljanje totalne vsote kvadratov
• MSregresija
• MSnapaka = 0, če so vse dejanske vrednosti enake napovedanim.
• Izračunamo F = MSR/MSe in ga primerjamo s F porazdelitvijo z 1 in N - 2 df.
• H0: F = 0
1
)ˆ( 2
1
YY
MS
N
i
i
R
2
)ˆ( 2
1
N
YY
MSi
N
i
i
e
Standardna napaka napovedi
21σ
2
)ˆ(σ 2
XYY
2
Y.X
N
Nr
N
YY
Nepristranska ocena standardne napake napovedi na osnovi vzorčnih podatkov
2
XYY
2
Y.X 1σˆ
σ rN
YY
Standardna napaka napovedi za populacijo
SSe = (1 – r2) SSY večja kot je korelacija, manjša je SSe
Koeficient učinkovitosti napovedi zmanjšanje σe na račun povezanosti
E r 1 1 2
r r2
E%
0.20 0.04 2
0.50 0.25 13.4
0.70 0.49 28.6
0.90 0.81 56.4
0.95 0.90 68.8
0.99 0.98 85.9
2
XY1 rk
k … koeficient alienacije
%1100 kE
3
regresijska premica
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Razstavljanje variance Y kot podlaga r
X
Y
var(Y) = var(Y’) + var(e)
Y - Mtot = (Y’ - Mtot) + (Y - Y’)
Mtot
Y’
e
Y
standardna deviacija rezidualov =
standardna napaka napovedi se
Skupna varianca = pojasnjena + nepojasnjena varianca
2
e
2
Y'
2
Y σσσ
Koeficient determinacije r2: delež pojasnjene variance
2
Y
2
e
2
Y
2
Y'2
σ
σ1
σ
σr
r … Pearsonov koeficient korelacije
r b bXY XY YX
Y
Y
X
X
Y X
Y
X Y
X
2
2
2
2
2
2
2
2
21 1
. .
Inferenčni testi v zvezi z regresijskimi koeficienti: preverjamo, ali so koeficienti pomembno različni od 0
Hipoteze testiramo s t-testom:
Testiranje hipotez II: Testiranje parametrov
modela
a
a
b
b ,
s
at
s
bt
X
Y
H02: b = 0
X
Y
Y
a
Y
H01: a = 0 Y = 0
Dejanske
Napovedane
.ˆ: i p y xIZ Y z SE
regresijska premica
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Y Mtot
Napovedni interval
Model napovedovanja, ko imamo opravka s populacijo:
X
2
)1( Y
2
ey.x
N
SSr
df
SSSE
𝐼𝑍: 𝑌 i ± 𝑡p𝑆𝐸y.x
Napoved na osnovi vzorčnih podatkov:
• Napovedni interval je večji kot interval zaupanja za napovedane vrednosti.
• Širina intervala zaupanja za dejanske in za napovedane vrednosti narašča z naraščanjem razdalje med MX in Xi.
X
Y
Dejanske
vrednosti
Y
Napovedane
vrednosti
+ upoštevati vzorčne variacije v regresijskih koeficientih 95 % interval zaupanja za napovedane vrednosti = interval, v katerem se bi pri 95 % vzorcev nahajala napovedana vrednost Y’ pri nekem X 95 % napovedni interval za Y (včasih tudi interval zaupanja za dejanske [angl. observed] vrednosti) = interval okrog napovedane vrednosti, v katerem se nahaja srednjih 95 % dejanskih vrednosti Y pri posameznikih, ki imajo določeno vrednost X
Predpostavke v regresijski analizi 1. naključno vzorčenje, 2. linearnost odnosa, 3. homoscedastičnost, 4. normalnost porazdelitve rezidualov
analiza rezidualov + druga regresijska diagnostika
4
Naključno vzorčenje oz. neodvisnost podatkov
1. Napake napovedi ne smejo biti korelirane (problem: pri časovnih vrstah).
2. Mera t. i. serialne korelacije: Durbin-Watson – Zaseda lahko vrednosti od 0 do 4.
– 2 = ni avtokorelacije, 0 = pozitivna avtokorelacija, 4 = negativna avtokorelacija
3. Narišemo odnos med reziduali in napovedanimi vrednostmi. Pregledamo, če obstajajo kakšni vzorci. Naredimo lahko tudi graf ACF analize časovnih vrst
Autocorrelation Plot
0 10 20 30 40 50 60
Lag
-1.0
-0.5
0.0
0.5
1.0
Corr
ela
tion
Y’
Rez
idu
al
Za preverjanje linearnosti odnosa:
• Narišemo odnos med reziduali in Y’.
• Iščemo morebitne vzorce.
Rez
idu
al
X
Y
Y’
Napov edane v rednosti Y
Re
zid
ua
li
-50
-30
-10
10
30
50
70
90
100 200 300 400 500 600 700 800 900
Primer rezidualnega grafa
pri nelinearni povezanosti
Homoscedastičnost =
Standardna napaka napovedi je enaka na celotnem razponu X.
• Narišemo odnos med reziduali in Y’. Iščemo morebitne vzorce.
• Y združimo v nekaj razredov in z Levenovim testom preverimo enakost varianc.
Y’
Rez
idu
al Skupina 1
Skupina 2 Skupina 3
Rez
idu
al
Y’
Primer rezidualnega grafa
pri heteroscedastičnosti
Napov edane v rednosti Y
Re
zid
ua
li
-50
-30
-10
10
30
50
39.7 39.9 40.1 40.3 40.5 40.7 40.9
Normalnost porazdelitve rezidualov
• Narišemo odnos med reziduali in Y’. Iščemo morebitne vzorce.
• Naredimo grafe normalnosti rezidualov (histogram rezidualov, normalni verjetnostni graf).
• Uporabimo K-S (Lilliefors) test.
p (
no
rmal
na)
Rezidual
Normalnost Nenormalnost
Rez
idu
al
Y’
5
Primer rezidualnega grafa
pri normalni porazdeljenosti rezidualov
Normal Probability Plot of Residuals
Residuals
Exp
ecte
d N
orm
al V
alu
e
-3
-2
-1
0
1
2
3
-40 -30 -20 -10 0 10 20 30
Robustnost regresije pri kršenju predpostavk
Predpostavka Na kaj vpliva kršenje?
Robustnost
Opomba
Normalnost Na inferenčne teste, intervale zaupanja
Visoka Le če je N dovolj velik (>10)
Neodvisnost Na inferenčne teste
Nizka Odvisno od višine avtokorelacije
Homoscedastičnost Na intervale zaupanja, na inferenčne teste
Nizka Posebej pri majhnih vzorcih
Linearnost Na interpretacijo r in regresijskih koeficientov
Nizka Prepričaj se!
Kaj lahko naredimo, če so predpostavke kršene?
• Lahko poskusimo transformirati podatke, toda:
– pri nekaterih podatkih ne bo uspešna nobena transformacija;
– včasih dobro transformacijo težko najdemo.
• Uporabimo nelinearno regresijo. 0 200 400 600
1.2
2.4
3.6
4.8
6.0
7.2
Length (mm)
Wei
gh
t (k
g)
Transformacije v regresiji
10 100 1000
0.001
0.01
0.1
1.0
8.0
Length (mm; log scale)
Wei
gh
t (k
g;
log s
cale
)
Weight versus length
in the beetle
Scorpaenichthys
marmoratus
Izstopajoče in vplivne točke
• točke, ki so močno oddaljene od regresijske premice
• Problem 1: Ali so to res izstopajoče (posebne, drugačne) vrednosti (angl. outliers)? – Pregled rezidualov
(surovih, standardiziranih, studentiziranih)
• Problem 2: Ali pomembno vplivajo na statistične zaključke (angl. influential points)? – Pregled različnih mer (DFFit,
DFBeta, Cookova razdalja, ročica, Mahalanobisova razdalja)
X
Y
Outlier?
Outlier?
X
Y
-20
-10
0
10
20
30
40
50
60
70
-5 5 15 25 35 45 55 65
N = 100 r = 0.81
N = 101 r = 0.74
6
Z
X
-10
10
30
50
70
90
110
10 30 50 70 90 110
N = 100 r = 0.09
N = 101 r = 0.31
Analiza vplivnih točk I: Studentizirani reziduali
• Narišemo odnos med Studentiziranimi reziduali in napovedanimi vrednostmi.
• “Veliki” reziduali so tisti, ki imajo studentizirano vrednost > 3,0.
• Taki primeri močno prispevajo k nepojasnjeni varianci (varianci napake).
0.5 1.0 1.5 2.0
LAGE
-4
-3
-2
-1
0
1
2
3
4
ST
UD
EN
T
Analiza vplivnih točk II: Ročica (angl. Leverage)
• Ročica meri potencialni vpliv točke na regresijsko premico.
• Določena je le na osnovi X vrednosti – točke, ki so bolj oddaljene od sredine X, imajo večjo ročico.
• “Velika ročica” = večja od 4/N.
0.5 1.0 1.5 2.0
LAGE
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
LE
VE
RA
GE
Majhna ročica
Velika ročica
X
Y
Analiza vplivnih točk III: Cookova razdalja
• Cookova razdalja: mera ročice + prispevka k varianci napake
• “Velika” = večja od 1.
Manjša Cookova razdalja
Večja Cookova razdalja
1.4 1.5 1.6 1.7 1.8
ESTIMATE
0.0
0.1
0.2
0.3
0.4
0.5
CO
OK
X
Y
Reševanje težav z vplivnimi točkami
• Ali imajo pomembne učinke na rezultate regresije?
• To ugotovimo tako, da jih izbrišemo, ponovno izvedemo analize in primerjamo rezultate pred in po izbrisu.
• Ali sta oceni nagiba in presečišča pomembno drugačni ali še vedno ležita znotraj 95% CI za ocene pred izbrisom?
Vplivne točke vključene
Vplivne točke izbrisane
Y
Ni pomembnega učinka
X
Y
Pomemben učinek
Učinek brisanja vplivnih točk
Ponovimo: Posamezni primeri lahko nesorazmerno vplivajo na velikost korelacijskih in regresijskih koeficientov.
Vplivnost je odvisna od oddaljenosti točke od:
• aritmetične sredine X in
• regresijske premice
Kaj se lahko zgodi po brisanju vplivnih točk?
• Zmanjša se velikost vzorca (N) in s tem tudi moč analize.
• Zmanjša se MSe, s tem se zmanjša sb in poveča moč.
• Če je N majhen, je prvi učinek najbrž večji od drugega, razen če so vplivne točke zelo ekstremne.