1 Linearna regresija Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo Študij prve stopnje Psihologija 1. semester, predmet Opisna statistika doc. dr. Anja Podlesek REGRESIJA KORELACIJA opis odnosov, napovedovanje opis velikosti povezanosti Napovedovanje • Predikcija, ocena Y na osnovi vrednosti X – Y … kriterijska spremenljivka – X … prediktorska spremenljivka • Regresijska analiza: – enostavna (bivariatna) vs. multipla regresija – linearna vs. nelinearna regresija Scatterplot (r = 0.48) HOME_3 HOBBY_2 20 40 60 80 100 120 140 160 180 200 60 70 80 90 100 110 120 130 140 150 Pogojne aritmetične sredine X Y Če poznamo vrednosti X, je boljša napoved Y (tj. Y') aritmetična sredina dosežkov Y vseh posameznikov, ki so dosegli tak rezultat X. MY = najboljša napoved Y, če ne poznamo vrednosti X regresijska premica HOME_3 HOBBY_2 20 40 60 80 100 120 140 160 180 200 60 70 80 90 100 110 120 130 140 150 Pogojne aritmetične sredine X Y e Napaka napovedi (rezidual): e = Y - Y’ Y’ Y = Y’ + e Načelo najmanjših kvadratov • Y’ napovedujemo na osnovi pogojnih sredin • linearna regresija: Y’ ležijo na premici • Y so razpršene okrog Y’: − ′ =0 • vsota kvadratov odklonov je minimalna: − ′ 2 = min • standardna napaka napovedi = razpršitev dejanskih okoli napovedanih vrednosti
6
Embed
Korelacija in regresija - Oddelek za psihologijo | slopsy.ff.uni-lj.si/Katedre/PM/gradiva/OS11-Linearna... · · 2011-11-131 Linearna regresija Univerza v Ljubljani, Filozofska
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Linearna regresija
Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo Študij prve stopnje Psihologija
1. semester, predmet Opisna statistika doc. dr. Anja Podlesek
REGRESIJA
KORELACIJA
opis odnosov, napovedovanje
opis velikosti povezanosti
Napovedovanje
• Predikcija, ocena Y na osnovi vrednosti X
– Y … kriterijska spremenljivka
– X … prediktorska spremenljivka
• Regresijska analiza:
– enostavna (bivariatna) vs. multipla regresija
– linearna vs. nelinearna regresija
Scatterplot (r = 0.48)
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Pogojne aritmetične sredine
X
Y
Če poznamo vrednosti X, je boljša napoved
Y (tj. Y') aritmetična sredina dosežkov Y
vseh posameznikov, ki so dosegli tak
rezultat X.
MY = najboljša
napoved Y, če
ne poznamo
vrednosti X
regresijska premica
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Pogojne aritmetične sredine
X
Y
e
Napaka napovedi (rezidual): e = Y - Y’
Y’
Y = Y’ + e
Načelo najmanjših kvadratov
• Y’ napovedujemo na osnovi pogojnih sredin • linearna regresija: Y’ ležijo na premici • Y so razpršene okrog Y’: 𝑌 − 𝑌′ = 0 • vsota kvadratov odklonov je minimalna:
Koeficient determinacije r2: delež pojasnjene variance
2
Y
2
e
2
Y
2
Y'2
σ
σ1
σ
σr
r … Pearsonov koeficient korelacije
r b bXY XY YX
Y
Y
X
X
Y X
Y
X Y
X
2
2
2
2
2
2
2
2
21 1
. .
Inferenčni testi v zvezi z regresijskimi koeficienti: preverjamo, ali so koeficienti pomembno različni od 0
Hipoteze testiramo s t-testom:
Testiranje hipotez II: Testiranje parametrov
modela
a
a
b
b ,
s
at
s
bt
X
Y
H02: b = 0
X
Y
Y
a
Y
H01: a = 0 Y = 0
Dejanske
Napovedane
.ˆ: i p y xIZ Y z SE
regresijska premica
HOME_3
HO
BB
Y_
2
20
40
60
80
100
120
140
160
180
200
60 70 80 90 100 110 120 130 140 150
Y Mtot
Napovedni interval
Model napovedovanja, ko imamo opravka s populacijo:
X
2
)1( Y
2
ey.x
N
SSr
df
SSSE
𝐼𝑍: 𝑌 i ± 𝑡p𝑆𝐸y.x
Napoved na osnovi vzorčnih podatkov:
• Napovedni interval je večji kot interval zaupanja za napovedane vrednosti.
• Širina intervala zaupanja za dejanske in za napovedane vrednosti narašča z naraščanjem razdalje med MX in Xi.
X
Y
Dejanske
vrednosti
Y
Napovedane
vrednosti
+ upoštevati vzorčne variacije v regresijskih koeficientih 95 % interval zaupanja za napovedane vrednosti = interval, v katerem se bi pri 95 % vzorcev nahajala napovedana vrednost Y’ pri nekem X 95 % napovedni interval za Y (včasih tudi interval zaupanja za dejanske [angl. observed] vrednosti) = interval okrog napovedane vrednosti, v katerem se nahaja srednjih 95 % dejanskih vrednosti Y pri posameznikih, ki imajo določeno vrednost X