Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 1 Badanie współzaleŜności dwóch cech ilościowych X i Y . Analiza korelacji prostej Badanie zaleŜności dwóch cech ilościowych. Analiza regresji prostej Kody znaków: Ŝółte wyróŜnienie – nowe pojęcie czerwony – uwaga kursywa – komentarz
56
Embed
Badanie współzaleŜności dwóch cech ilościowych X i Y ...agrobiol.sggw.pl/biometria/media//rajfura/STAT_Rol/Wyklad KORELACJE... · Analiza regresji prostej ... Testowanie hipotezy
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 1
Badanie współzaleŜności dwóch cech ilościowych X i Y.
Analiza korelacji prostej
Badanie zaleŜności dwóch cech ilościowych.
Analiza regresji prostej
Kody znaków:
Ŝółte wyróŜnienie – nowe pojęcie czerwony – uwaga kursywa – komentarz
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 2
Zagadnienia 1. Związek deterministyczny (funkcyjny)
a korelacyjny.
2. Idea opisu współzaleŜności.
3. Testowanie hipotezy o korelacji.
1. Regresja liniowa Y względem X.
2. Prosta regresji.
3. Testowanie hipotezy o regresji.
4. Współczynniki opisujące regresję.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 3
Wprowadzenie - przykład A
W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10 czas pracy
1 40 40 34 21 7 16 12 31 9
zarobki 10 400 400 340 210 70 160 120 310 90
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 4
Wprowadzenie - przykład A
W firmie_A za 1 godzinę dyŜuru pracownik otrzymuje 10 zł. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
Firma_A osoba 1 osoba 2 osoba 3 osoba 4 osoba 5 osoba 6 osoba 7 osoba 8 osoba 9 osoba 10
czas pracy
1 40 40 34 21 7 16 12 31 9
zarobki 10 400 400 340 210 70 160 120 310 90
Posortowane rosnąco wg czasu pracy:
Firma_A osoba 1 osoba 6 osoba 10 osoba 8 osoba 7 osoba 5 osoba 9 osoba 4 osoba 2 osoba 3
czas pracy
1 7 9 12 16 21 31 34 40 40
zarobki 10 70 90 120 160 210 310 340 400 400
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 5
Wprowadzenie - przykład A
Firma A
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 6
Wprowadzenie - przykład A
Firma A
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Zarobki zaleŜą od czasu pracy według wzoru: zarobki = 10*czas pracy
y=10x
Jest to zaleŜność funkcyjna (deterministyczna).
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 7
Wprowadzenie - przykład B
W firmie_B za 1 godzinę dyŜuru pracownik otrzymuje 8 zł+opłatę za interwencję. Zapytano 10 osób o ich tygodniowy czas pracy i zarobki. tygodniowy czas pracy w godzinach – cecha X tygodniowe zarobki w złotych – cecha Y
czas pracy
3 8 9 12 19 24 35 35 38 40
zarobki 44 120 72 128 310 260 427 310 380 430
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 8
Wprowadzenie - przykład B
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Punkty nie leŜą na jednej prostej. Jest to zaleŜność korelacyjna.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 9
Wprowadzenie - przykład B
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Firma B
0
50
100
150
200
250
300
350
400
0 10 20 30 40
czas pracy
zarobki
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 10
wyniki
z pierwszego
poletka
wyniki
z drugiego
poletka
Idea opisu współzaleŜności cech
Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli:
plon xi (kg)
20 21 22 23 22 25 30 27 24 26
zawartość skrobi yi (%)
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Czy te wyniki wskazują na występowanie współzaleŜności między cechami X, Y?
Tworzenie wykresu.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 11
(współczynnik r jest oceną parametru populacyjnego ρ)
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 27
Opis współzaleŜności cd.
Obliczamy współczynnik korelacji r dla próby według wzoru:
( ) ( )
( ) ( ) ( ) ( )∑∑
∑
∑∑
∑
==
=
==
=
−⋅−
⋅⋅−⋅=
−⋅−
−⋅−=
n
ii
n
ii
n
iii
n
ii
n
ii
n
iii
yyxx
yxnyx
yyxx
yyxxr
1
2
1
2
1
1
2
1
2
1
RównowaŜny zapis licznika:
( ) ( ) ∑∑==
⋅⋅−⋅=−⋅−n
iii
n
iii yxnyxyyxx
11
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 28
Opis współzaleŜności cd.
Oznaczenia upraszczające zapis wzoru:
( )∑=
−=n
iix xxSS
1
2
, ( )∑
=
−=n
iiy yySS
1
2
, ( ) ( )∑
=
−⋅−=n
iiixy yyxxS
1
Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.
Uproszczony zapis wzoru na współczynnik korelacji liniowej Pearsona dla próby:
yx
xy
SSSS
Sr
⋅=
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 29
Testowanie współzaleŜności
Czy korelacja między cechami X, Y jest znacząca (istotna)?
Jeśli cechy X oraz Y mają rozkład normalny, moŜna weryfikować hipotezę dotyczącą korelacji:
Hipoteza zerowa o braku korelacji
Hipoteza alternatywna
0ρ:0 =H 0ρ:1 ≠H
• wybieramy poziom istotności α, • losujemy próbę dwucechową: (x1, y1), (x2, y2 ), ..., (xn, yn), • obliczamy współczynnik korelacji r dla próby według wzoru:
yx
xy
SSSS
Sr
⋅=
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 30
Test r • stosujemy test r: wartość empiryczna funkcji testowej remp = r, • odczytujemy wartość krytyczną r α , v = n -2 , • jeŜeli | remp | > r α , v = n – 2, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 31
Test t
MoŜna zastosować teŜ test t-Studenta:
• wartość empiryczna funkcji testowej wyraŜona jest wzorem
21 2
−⋅−
= nr
rtemp
• odczytujemy wartość krytyczną t α , v, gdzie
ν = n-2
• jeŜeli | temp | > t α , v, to H0 odrzucamy, w
przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 32
Przykład Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny zawartość skrobi (%)
16,216,316,416,516,616,716,816,9
1717,117,2
18 20 22 24 26 28 30 32
plon
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 33
Przykład cd. Przyjmujemy, Ŝe: 1. cecha X - plon z poletka, cecha Y – zawartość skrobi mają rozkłady normalne, oraz 2. ρ jest współczynnikiem korelacji między zmiennymi losowymi X, Y; jego wartość jest nieznana. • Obliczamy współczynnik korelacji r między cechami X, Y na podstawie próby ze wzoru:
yx
xy
SSSS
Sr
⋅=
,
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 34
Przykład cd.
kgx 24= , %7,16=y , 84=xSS , 680,SS y =
, 86,S xy −=
r = - 0,90,
Czy korelacja między cechami X, Y jest znacząca (istotna)?
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 35
Przykład cd. • stawiamy hipotezę o braku korelacji:
0ρ:0 =H , 0ρ:1 ≠H ,
• wybieramy poziom istotności α = 0,05, • stosujemy test r; wzór funkcji testowej:
remp = r gdzie: r - współczynnik korelacji między cechami X, Y obliczony na podstawie próby; w przykładzie r = - 0,9, zatem remp = - 0,9, • odczytujemy wartość krytyczną r α , v = n -2 = r 0,05 , 8 = 0,632, • poniewaŜ | remp | = | - 0,90 | > r 0,05, 8 = 0,632, więc hipotezę H0 odrzucamy.
Stwierdzamy statystycznie istotną korelację między plonem bulw ziemniaczanych a zawartością skrobi.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 36
Przykład cd.
Zastosowanie testu t-Studenta:
( )84,5210
9,01
9,02
1 22−=−⋅
−−
−=−⋅−
= nr
rtemp
• odczytujemy wartość krytyczną t α , v = n -2 = t 0,05 , 8 =2,31,
• poniewaŜ | temp | = 5,84 > 2,31 = t 0,05 , 8, to H0 odrzucamy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 37
Badanie zaleŜności dwóch cech ilościowych.
Analiza regresji prostej
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 38
Badanie zaleŜności cechy Y od X Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: plon xi 20 21 22 23 22 25 30 27 24 26 zawartość skrobi yi
17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny zawartość skrobi (%)
16,2
16,3
16,4
16,5
16,6
16,7
16,8
16,9
17
17,1
17,2
18 20 22 24 26 28 30 32
plon
Analiza korelacji przeprowadzona przy poziomie istotności 0,05 wykazała istotną korelację między plonem bulw a zawartością skrobi. Wyznaczono współczynnik korelacji Pearsona r = -0,90. Plon bulw i zawartość skrobi są ujemnie skorelowane.
O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)...
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 39
Oznaczenia i terminologia
Opis zaleŜności cechy Y od cechy X (opis regresji cechy Y względem cechy X)
cecha X : objaśniająca, opisująca, niezaleŜna
cecha Y : objaśniana, opisywana, zaleŜna
Postać funkcji regresji II rodzaju:
g (x) = β1 ∙ x + β0 lub g (x) = β ∙ x + α współczynnik regresji stała regresji
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 40
Opis zaleŜności cechy Y od X X, Y – cechy obserwowane w doświadczeniu, Y~N n – liczba jednostek doświadczalnych (liczebność próby), Próba:
nr jednostki doświadczalnej 1 2 3 n wartości cechy X: x1 x2 x3 ... xn wartości cechy Y: y1 y2 y3 ... yn
Diagram korelacyjny:
prosta regresji
cecha X
cecha Y
11β b= , 00β b=
równanie prostej regresji:
y = b1*x + b0
b1 - współczynnik regresji
b0 - stała regresji
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 41
Prosta regresji
Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów
(MNK):
Komentarz...
ei
cecha X
cecha Y
równanie prostej regresji:
y = b1*x + b0
b1 = ? b0 = ?
y (xi) = b1*xi + b0
ei = y( xi ) – yi
min1
2 →∑=
n
iie
yi
xi
y(xi)
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 42
Prosta regresji cd. Estymatory uzyskane metodą najmniejszych kwadratów:
( ) ( )
( )∑
∑
=
=
−
−⋅−= n
ii
n
iii
xx
yyxx
b
1
2
11
xbyb ⋅−= 10
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 43
Prosta regresji cd.
Oznaczenia upraszczające zapis wzoru:
( )∑=
−=n
iix xxSS
1
2
, ( )∑
=
−=n
iiy yySS
1
2
,
( ) ( )∑=
−⋅−=n
iiixy yyxxS
1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y.
Estymatory uzyskane metodą najmniejszych kwadratów:
x
xy
SS
Sb =1
, xbyb ⋅−= 10
Interpretacja współczynnika regresji b1...
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 44
Test t
Czy badana zaleŜność jest znacząca (istotna)?
Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Wybieramy poziom istotności α, stosujemy test t-Studenta:
b
emps
bt 1=
, gdzie ( ) x
xyy
bSSn
SbSSs
⋅−⋅−
=2
1
Odczytujemy z tablic wartość krytyczną: 2,α −== nvkryt tt
Wnioskujemy:
Jeśli | temp | > t kryt to H0 odrzucamy, w przeciwnym przypadku
H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 45
Test F Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Wybieramy poziom istotności α, stosujemy test F-Fishera:
xyy
xy
empSbSS
nSbF
1
1 )2(
−−⋅⋅
=
Odczytujemy z tablic wartość krytyczną: 2,1,α 21 −=== nvvkryt FF
Wnioskujemy:
Jeśli Femp > Fkryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 46
Przykład W przykładzie: n=10, kgx 24= , %7,16=y , SSx = 84, SSy = 0,68,
Sxy = -6,8.
Wyznaczamy równanie prostej regresji.
Współczynniki w równaniu
081,084
8,61 −=−==
x
xy
SS
Sb
64,1824)081,0(7,1610 =⋅−−=⋅−= xbyb
Prosta regresji: y = 18,64 – 0,081x
y = – 0,081x + 18,64 Uwaga o odczytaniu znaku współczynnika regresji.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 47
Przykład cd.
Badamy istotność regresji cechy Y względem cechy X (istotność zaleŜności Y od X)
Stawiamy hipotezę:
H0: β1 = 0 H1: β1 ≠ 0
(hipoteza o braku regresji)
Poziom istotności α = 0,05, stosujemy test t-Studenta:
( ) ( ) 014,0672
1292,0
84210
)8,6()081,0(68,0
2
1 ==⋅−
−⋅−−=⋅−⋅−
=x
xyy
bSSn
SbSSs
79,5014,0
081,01 −=−==b
emps
bt
31,2tt 8,05,0kryt ==
Wnioskujemy: |temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy.
Stwierdzono statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 48
Przykład cd. Zamiast testu t moŜna zastosować test F:
11,341292,0
4064,4
)8,6()081,0(68,0
2)-(10)8,6()081,0()2(
1
1 ==−⋅−−
⋅−⋅−=−
−⋅⋅=
xyy
xy
empSbSS
nSbF
11,34=empF 32,58,1,05,0 == FFkryt
Wnioskujemy: Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 49
Zgodność znaków współczynników b1 oraz r
Prosta regresji: y = b0 + b1*x
Dla cech X, Y znaki współczynnika regresji b1 i współczynnika
korelacji r są jednakowe. Na podstawie współczynnika regresji
b1 moŜna powiedzieć, jaki jest kierunek korelacji badanych cech.
W przykładzie
Prosta regresji y = 18,64 – 0,081x b1 = -0,081
zatem współczynnik korelacji r < 0.
Zawartość skrobi jest ujemnie skorelowana z plonem bulw ziemniaka. Kiedy plon rośnie, zawartość skrobi maleje.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 50
Interpretacja współczynnika regresji b1
Prosta regresji: y = b0 + b1*x
Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach
cechy X), to wartość cechy Y zmieni się o |b1| jednostek
(w jednostkach cechy Y), a dokładniej:
• wzrośnie, gdy b1 > 0
• zmaleje, gdy b1 < 0
Interpretacja współczynnika regresji b1 w przykładzie
Prosta regresji y = 18,64 – 0,081x b1 = -0,081
Jeśli plon bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,081%.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 51
Interpretacja – współczynnik determinacji
Współczynnik determinacji, ozn. d
d = r2 · 100%, gdzie r – współczynnik korelacji
Interpretacja współczynnika determinacji
Współczynnik d przedstawia udział zmienności cechy Y
objaśnionej (wytłumaczonej) zmiennością cechy X.
W przykładzie:
r = - 0,9, to d = (- 0,9)2· 100% = 0,81· 100% = 81%
W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu, natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu.
Anna Rajfura, Katedra Doświadczalnictwa i Bioinformatyki SGGW 52
Predykcja wartości cechy Y
Obliczanie wartości przewidywanej dla cechy zaleŜnej Y oparte na równaniu regresji.