Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)
Post on 14-Jan-2016
57 Views
Preview:
DESCRIPTION
Transcript
Wykład 13 Przykład z muszkami (krzyżówka
wsteczna CcNn z ccnn)
Kolor oczu
czerwone fioletowe
Rozmiarskrzydła
normalne 39 11
mniejsze 18 32
• Uzupełniamy tabelkę wartościami oczekiwanymi przy Ho
Kolor oczu Suma
czerwone fioletowe
Kształtskrzydła
normalne 39 ( ) 11 ( ) 50
mniejsze 18 ( ) 32 ( ) 50
Suma 57 43 100
• Czy w badanej populacji muszek kolor oczu i kształt skrzydła są zmiennymi niezależnymi ?
• p1 = Pr(czerwone oczy | normalne skrzydła),
• p2 = Pr(czerwone oczy | mniejsze skrzydła), H0: p1 = p2 ; kolor oczu i rozmiar skrzydła są niezależne
• HA: p1 p2 ; kolor oczu i rozmiar skrzydła są zmiennymi zależnymi
1p
2p
• Zastosujemy test chi-kwadrat dla niezależności2
s = (O-E)2/E ma przy H0 rozkład 21 .
• Testujemy na poziomie = 0.05; odrzucamy gdy 2
s > 3.84 = 2critical
• X2 =
• Wniosek
• Nie możemy jednak powiedzieć, że czerwone oczy powodują, że muszka ma normalne skrzydła. Prawidłowy wniosek to obserwacja, że kolor oczu i kształt skrzydła są zmiennymi zależnymi albo, że u muszek z normalnymi skrzydłami częściej występują czerwone oczy niż u muszek z mniejszymi skrzydłami.
• Nie możemy formułować wniosku przyczynowego ponieważ nie kontrolujemy analizowanych zmiennych a jedynie je obserwujemy. [W tym wypadku zależność wynika z faktu, że geny determinujące kształt oczu i rozmiar skrzydła leżą na jednym chromosomie.]
Tablice wielodzielcze: rk
• r rzędów, k kolumn: rk
• Analiza analogiczna do tablic 22.
• Przykład: 34 (r = 3 ; k = 4 )
Kolor włosów Suma
Brązowe Czarne Jasne Rude
Koloroczu
Brązowe
438(331.7)
288(154.1)
115(356.5)
16 (14.6)
857
Szare/Zielone
1387(1212.3)
746(563.3)
946(1303.0)
53(53.4)
3132
Niebieskie
807(1088.0)
189(505.6)
1768(1169.5)
47(48.0)
2811
Suma 2632 1223 2829 116 6800
• Czy kolor oczu i włosów są zmiennymi zależnymi?
• H0: Kolor włosów i kolor oczu to zmienne niezależne
• HA: Kolor oczu i kolor włosów to zmienne zależne
• Wykonujemy test niezależności chi-kwadrat 2 = (O-E)2/E ma przy H0 rozkład 2
6.
• {df = (r-1)(k-1) = (2)(3) = 6}
• Testujemy na poziomie = .0005. Wartość krytyczna 2
6 = .
2
s =
• Wniosek
• Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics’’,
D.S. Moore, G. P. McCabe
• Estymator dla Pr(Oczy niebieskie) =
• Estymator dla Pr(Oczy niebieskie| włosy brązowe) =
• Estymator dla Pr(Oczy niebieskie | czarne włosy) =
• Estymator dla Pr(Oczy niebieskie | jasne włosy) =
• Estymator dla Pr(Oczy niebieskie | rude włosy) =
• Testowanie niezależności odpowiada testowaniu, że odpowiednie p-stwa warunkowe są te same w każdej klasie.
• Gdy testujemy niezależność w dużych tabelach to na ogół nie zapisujemy H0 za pomocą p-stw warunkowych
• Przypomnienie założeń:Próby losoweObserwacje niezależne"E" w każdej komórce musi być 5
Dokładny test Fishera
• Stosujemy dla małych rozmiarów prób
• Przykład : ECMO
• ECMO to ``nowa’’ procedura służąca ratowaniu noworodków cierpiących na poważne zaburzenia pracy układu oddechowego.
• CMT – konwencjonalna terapia
Zabieg
Wynik CMT ECMO Suma
Zgon 4 1 5
Życie 6 28 34
Suma 10 29 39
• H0: wynik nie zależy od zabiegu
• Znajdziemy warunkowe p-stwo zaobserwowanych wyników przy ustalonych ``sumach’’ w rzędach i kolumnach (przy H0 ).
• Przypomnijmy symbol Newtona -
• – na tyle sposobów można wybrać zbiór k elementowy ze zbioru n elementowego
k
n
– Na ile sposobów dokładnie 4 dzieci spośród 5 z tych które ``miały’’ umrzeć mogło przypadkowo zostać przyporządkowanych do grupy CMT –
– Na ile sposobów dokładnie 6 dzieci spośród 34 z tych które ``miały’’ przeżyć mogło przypadkowo zostać przyporządkowanych do grupy CMT –
– Na ile sposobów 10 dzieci spośród 39 mogło przypadkowo zostać przyporządkowanych do grupy CMT –
• HA: ECMO jest lepsza niż CMT
• Przypadki bardziej ekstremalne w kierunku alternatywy– # liczba śmierci = CMT:4, ECMO:1 CMT:5,
ECMO:0
• P-wartość =
• Wniosek
Przedziały ufności dla różnicy między p-stwami warunkowymi
• W tabelach 2x2, wyrażamy H0 jako p1 = p2
• Przykład z lekarstwem
• p1 = Pr(poprawa | lekarstwo),
p2 = Pr(poprawa | placebo).
• Przybliżony 95% PU dla p1-p2 wynosi
• W przykładzie z lekarstwami •
22
21
2
222
1
111 ,
)ˆ1(ˆ,
)ˆ1(ˆSESESE
n
ppSE
n
ppSE
SEpp 96.1)ˆˆ( 21
SE
ˆ ˆ 21 pp
• PU dla p1-p2 wynosi
• Mamy 95% pewności, że p-stwo poprawy po zażyciu lekarstwa jest większe od p-stwa poprawy po zażyciu placebo o co najmniej
i nie więcej niż o
• W ogólności do konstrukcji przedziałów ufności na poziomie (1–) stosujemy Z/2 (zamiast 1.96) .
Regresja liniowa
• Dane: pary obserwacji (X, Y),• (x1, y1), (x2, y2), …, (xn, yn)• Przykłady: X = stężenie, Y = szybkość
reakcji• X = dawka, Y =odpowiedź• X = waga, Y = wzrost• X = wyniki z pierwszego kolokwium, • Y = wyniki z drugiego kolokwium
eee
y = 1.1x - 0.113
R2 = 0.3619
0
0,2
0,4
0,6
0,8
1
1,2
0 0,2 0,4 0,6 0,8 1 1,2
Midterm 1
Mid
term
2
Najczęściej mamy jedną losową próbę i obserwujemy dwie zmienne
Czasami jedną z tych zmiennych kontrolujemy – wówczas zwykle nazywamy ją X a ``odpowiedź’’ oznaczamy jako Y
Przykład : n = 5x y (x-x) (y-y) (x-x)* (y-y) xy 14.7- .79x różnice
5 12 -1 2 -2 60 10.79 1.209
7 11 1 1 1 77 9.22 1.780
2 12 -4 2 -8 24 13.15 -1.149
7 9 1 -1 -1 63 9.22 -0.220
9 6 3 -4 -12 54 7.65 -1.649
suma 30 50 0 0 -22 278
Suma [()2]
28 26 8.714
• Wartości brzegowe: Jak zwykle
• średnie x = x/n,
• y = y/n
• Sumy kwadratów:
• SSX = (x-x)2 = 28 = (n-1) sX2 ,
• SSY = (y-y)2 = 26 = (n-1) sY2
• Sx=
• Sy=
65.24
28
1
nSS X
55.24
26
1
nSSY
Nowa wielkość: "suma iloczynów“
SPXY = (x –x)(y –y) =
Mierzy stopień korelacji między X i YPróbkowy współczynnik korelacji
Gdy r>0 wtedy ``najlepsza’’ prosta opisująca relację między X i Y odpowiada funkcji rosnącej a gdy r <0 funkcji malejącej.
,
YX
XY
SSSS
SPr
• r jest estymatorem współczynnika korelacji w populacji
• Gdy zmienne są niezależne wtedy ρ=0 (ale nie zawsze na odwrót).
• Jeżeli ρ=1 to Y=aX+b, a>0.• Jeżeli ρ=-1 to Y=aX+b, a<0.
YVar XVar
)])([( EYYEXXE
• r=1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o dodatnim współczynniku nachylenia
• r=-1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o ujemnym współczynniku nachylenia.
• Wygodny wzór do obliczeń• • SPXY = (xy) – (x)(y)/n = xy – nxy =
Scatterplot
0
5
10
15
0 2 4 6 8 10
Model statystyczny
• Y = 0 + 1 X + błąd losowy
• Dla ustalonej wartości X, Y jest zmienną losową o wartości oczekiwanej
Y|X = 0 + 1 X i odchyleniu standardowym Y|X . Będziemy zakładali, że Y|X nie zależy od X.
• Nasz cel – estymacja 0 i 1.
• 1 estymujemy za pomocą
• b1 =
0 estymujemy za pomocą • b0 = y - b1x =• Wyestymowana prosta regresji ma wzór•
X
XY
SS
SP
W jakim sensie ta prosta jest najlepsza ?
• Dla każdej wartości możemy obliczyć wartość y przewidywaną przez daną prostą
• = b0 + b1 x .
• Dla każdej pary obserwacji (x,y) obliczamy różnicę między wartością zaobserwowaną y a przewidywaną
• różnica = y - y
y
Suma kwadratów różnic
• Definicja:
• SS(res) = (y- )2
• Możemy korzystać ze wzoru
• SS(res) = SSY - SP2XY /SSX
• SS(res) =
y
• ``Najlepsza’’ prosta to taka, która daje najmniejszą możliwą wartość SS(res)
• SS(res) mierzy jakość dopasowania
Resztowy błąd standardowy
• sY|X =
• sY mierzy rozrzut y od y
• sY|X mierzy rozrzut y od ``najlepszej’’ prostej
• Około 68% obserwacji jest w odległości nie większej niż 1 sY|X od prostej; 95% w odległości 2 sY|X od prostej.
• Uwaga – odległość liczymy na osi y.
70.13
714.8
2
)(
nresidSS
• Y ~ N(Y|X, Y|X)
• Zatem Y - Y|X
• Tak więc błąd losowy
• Dodatkowo zakładamy (tak jak w ANOV-ie), że Y|X nie zależy od X.
Y|X estymujemy za pomocą sY|X .
• Tak więc nasz wyestymowany model
• Jak dobre są nasze estymatory ?
• SEb1 = = 0.32228
704.1 22| X
XY
SS
s
• (b1- 1) / SEb1 ma rozkład Studenta z df = n-2 stopniami swobody.
• Możemy więc skonstruować 95% PU dla 1,
• Testowanie
• Chcemy przetestować czy Y i X są zależne, a dokładniej czy średnia Y zależy od X. W ramach modelu liniowego odpowiada to testowaniu hipotezy czy
1 =
• Czy (Y) zależy od (X) ? (Dokładniej - Czy X i Y są skorelowane ?)
• H0: 1 = 0. (Y) nie zależy (X). (Y|X nie zależy od X)
• HA: 1 0 (Y|X zależy od X)
• [HA może być kierunkowa, 1 < 0 lub 1 > 0]
• Użyjemy testu niekierunkowego. ts = b1 / SEb1 przy H0 ma rozkład Studenta z df = n-2 =
stopniami swobody.
• Wartość krytyczna t.025 =3.182.
• ts = b1 / SEb1 = -0.7857/0.322 = 2.44
• –3.182 < 2.44 < 3.182, więc
• Na poziomie istotności 0.05 nie mamy przesłanek aby twierdzić, że X i Y są skorelowane (albo że Y zależy od X).
• UWAGA Testujemy zależność Y od X w ramach modelu
liniowego. Ten test nie jest w stanie wykryć pewnych nieliniowych form zależności.
Mały rozmiar próby – kiepska moc.
Przykład• Długość i ciężar węży
• SSX = (x-x)2 =172
SPXY = xy – nxy =1237
• b1 = = 1237/172 = 7.19
• b0 = y - b1x = 152- 7.19*63 = -301
• Y = -301 + 7.19 X + błąd
X
XY
SS
SP
Length
We
igh
t
55 60 65
10
01
20
14
01
60
18
02
00
• SEb1 =
• 95% PU dla β1: 7.19 ± t0.025(7)*0.9531
= (4.9, 9.4)• Testowanie
ts = b1/ SEb1 = 7.19/0.9531=7.54
P-wartość < 0.001
2 2| 12.5
0.9531172
Y X
X
s
SS
top related