Korelace a regrese
• síla (těsnost) závislosti dvou náhodných veličin: korelace
– symetrický vztah obou veličin
– neslouží k předpovědi
• způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese
– možnost předpovědi
• příklad: výška otce, výška jeho syna (v dospělosti)
– korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn)
– regrese: lze z výšky otce odhadnout výšku syna ?
řada populací - synové otců vysokých 170 cm, 171 cm ...
Pearsonův korelační koeficient
• měří sílu lineární závislosti spojitých veličin
• vždy platí: -1 X,Y 1
• v případě normálního rozdělení platí:
nezávislost X, Y X,Y = 0
• odhad pomocí
• nezávislost zamítáme, pokud | t | t1-(n-2), kde
22,
)()(
))((
yyxx
yyxxr
ii
iiYX
21 2
,
nr
rt
YX
Příklady
30 35 40 45
100
120
140
160
180
200
220
lat
mort
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
lat
mort
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
lat
mort
65 70 75
6000
7000
8000
9000
10000
0,45
delka
hm
otn
ost
65 70 75
6000
7000
8000
9000
10000
r=0,45
delka
hm
otn
ost
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
latitude
mort
alit
y
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
latitude
mort
alit
y
65 70 75
6000
7000
8000
9000
10000
r=0,45
delka
hm
otn
ost
Spearmanův korelační koeficient
• místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k
• hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li
– | rS | r(n) (tabelováno pro n do 30)
• není třeba znát naměřené hodnoty, stačí jejich pořadí• při pochybnosti o normalitě
rn n
R QS i ii
n
1
6
122
1( )( )
12/1
nz
rS
Princip regresní závislosti
• zabýváme se dvojicí veličin:
– Y (vysvětlovaná, závisle proměnná)
– X (vysvětlující, nezávisle proměnná, regresor)
– hledáme vysvětlení chování Y při dané hodnotě X=x
– podmíněné rozdělení Y při daném X=x (změní se, když změníme x?)
• lineární regrese (předpoklady):
– populační průměr Y při dané hodnotě X=x je lineární funkcí x
– variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x
Porodní hmotnost podle porodní délky
Rozdělení hmotnosti dětí dlouhých 45 - 55 cm výška: 45
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
2000 2500 3000 3500 4000 4500 5000 5500
výška: 46
0
10
20
30
40
50
60
70
80
90
100
110
120
2000 2500 3000 3500 4000 4500 5000 5500
výška: 47
0
20
40
60
80
100
120
140
160
180
200
220
240
260
2000 2500 3000 3500 4000 4500 5000 5500
výška: 48
0
50
100
150
200
250
300
350
400
450
500
2000 2500 3000 3500 4000 4500 5000 5500
výška: 49
0
50
100
150
200
250
300
350
400
450
500
550
600
650
700
2000 2500 3000 3500 4000 4500 5000 5500
výška: 50
0
100
200
300
400
500
600
700
800
900
1000
1100
2000 2500 3000 3500 4000 4500 5000 5500
výška: 51
0
50
100
150
200
250
300
350
400
450
500
550
600
650
700
2000 2500 3000 3500 4000 4500 5000 5500
výška: 52
0
50
100
150
200
250
300
350
400
450
500
2000 2500 3000 3500 4000 4500 5000 5500
výška: 53
0
20
40
60
80
100
120
140
160
180
200
2000 2500 3000 3500 4000 4500 5000 5500
výška: 54
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
2000 2500 3000 3500 4000 4500 5000 5500
výška: 55
0
2
4
6
8
10
12
14
16
18
20
22
24
26
2000 2500 3000 3500 4000 4500 5000 5500
Porodní hmotnost a délka
Závislost porodní hmotnosti na porodní délce
délka
hmot
nost
1000
2000
3000
4000
5000
6000
44 46 48 50 52 54 56
Matematický popis regresní závislosti
i=1,2,...,n
- neznámé parametry
i - náhodná chyba N2) (normální rozdělení)
2 - neznámý parametr (rozptyl)
• x1, ..., xn - dané hodnoty proměnné X
• y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y
- průměrná změna Y při jednotkové změně X
- průměrná hodnota Y při X=0
iii xy 10
Odhad parametrů
• metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek:
• toto minimum se nazývá reziduální součet čtverců (Se)
• odhad rozptylu :
( )y b b xi ii
n
0 1
2
1
22
nS
s e
Modelová představa
0
1
0 1 2 3 4
1
b1
[x i, y i]
x i
y i
y i
b 0
y
x
y=b 0+b 1 x
Příklad (úmrtnost na melanom)
• pozorování: jednotlivé státy USA
• MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959
• LAT: zeměpisná šířka státu
• LONG: zeměpisná délka státu
• POP: počet obyvatel (v milionech)
• OCEAN: zda na břehu oceánu
• lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?
Příklad (těsná závislost)
Úmrtnost na melanom
zeměpisná šířka
úm
rtno
st
75
100
125
150
175
200
225
25 30 35 40 45 50
Příklad (slabá závislost)
Úmrtnost na melanom
zeměpisná délka
úm
rtn
ost
75
100
125
150
175
200
225
-125 -100 -75
Statistické vlastnosti odhadů
• H0 (Y nezávisí na x): (tj. yi=+ei)
• zamítáme, když odhad b1 se dostatečně liší od 0
• použijeme
• H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T | t1-(n - 2)
• ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y
21
1
1
..xx
sb
bESb
T i
Příklad (závislost na zeměpisné délce)
parametr odhad S.E. t p
abs. 183,5 29,92 6,133 < 0,001
LONG 0,3363 0,3245 1,0363 0,305
• přímka: odhad MORT = 183,5 + 0,3363 • LONG
• závislost není průkazná na hladině =0,05
• změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)
Se=52 439,0 s2 = 1 115,7 R2=0,022
Příklad (závislost na zeměpisné šířce)
parametr odhad S.E. t p
abs. 389,2 23,81 16,34 < 0,001
LAT -5,978 0,5984 -9,990 < 0,001
Se=17 173,01 s2 = 365,38 R2=0,680
• přímka: odhad MORT = 389,2 - 5,978 • LAT
• závislost je průkazná na hladině =0,05 (i na menších)
• změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší
Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce)
Variabilita součetčtverců
st.vol.
podíl F p
regrese 36 464,2 1 36 464,2 99,8 < 0,001
reziduální 17 173,1 47 365,38
celková 53 637,3
• celková variabilita = vysvětlená regresí + reziduální
• koeficient determinace:
68,03,536372,36464
1ˆ22
22
yy
S
yy
yyR
i
e
i
i
n
i
n
i
n
iiiii yyyyyy
1 1 1
222ˆˆ
Mnohonásobná lineární regrese
• lineární závislost na několika regresorech:
yi = xi1 + xi2 + ... + k xik + ei
• j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů
• H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace)
• H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu
• pro k=1 jsou obě hypotézy ekvivalentní
Příklad (závislost na délce i šířce)
parametr odhad S.E. t p
abs. 401,17 28,04 14,31 < 0,001
LAT -5,929 0,604 -9,82 < 0,001
LONG 0,153 0,187 0,82 0,418
• neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %)
• závislost na LAT byla:
Se=16 927,7 s2 = 367,99 R2=0,684
Se=17 173,01 s2 = 365,38 R2=0,680
Příklad (opravdu na délce nezáleží?)
parametr odhad S.E. t p
abs. 760,35 123,33 6,17 < 0,001
LAT -6,584 0,600 -10,98 < 0,001
LONG 7,418 2,445 3,03 0,004 LONG2 0,039 0,013 2,98 0,005
Se=14 139,5 s2 = 314,21 R2=0,736
bez kvadratického členu bylo:
Se=16 927,7 s2 = 367,99 R2=0,684
Příklad (pobřežní státy jsou jiné ?)parametr odhad S.E. t p
abs. 360,690 21,498 16,78 < 0,001
LAT -5,489 0,526 -10,44 < 0,001
OCEAN 20,430 4,825 4,23 < 0,001
Se=12 357,0 s2 = 268,63 R2=0,770
v kvadratickém modelu bylo:
Se=14 139,5 s2 = 314,21 R2=0,736
Příklad ( analýza kovariance)Závislost úmrtnosti na zeměpisné šířce
zeměpisná šířka
úm
rtn
ost
60
80
100
120
140
160
180
200
220
240
30 35 40 45 50
vnitrozemský státpobřežní stát
Umělé proměnné v regresi
• umělá proměnná: nabývá hodnot 0 - 1
• jediný regresor - umělá proměnná dvouvýběrový t test
• několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění
• spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance
• regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)
Statistické modely závislosti
nezávisle závisle proměnná
proměnná (é)spojitá nominální
spojitá regrese, korelacelogistická regrese
(pro 0-1)
nominální analýza rozptylukontingenční
tabulka