Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)

Wykład 13 Przykład z muszkami (krzyżówka

wsteczna CcNn z ccnn)

Kolor oczu

czerwone fioletowe

Rozmiarskrzydła

normalne 39 11

mniejsze 18 32

• Uzupełniamy tabelkę wartościami oczekiwanymi przy Ho

Kolor oczu Suma

czerwone fioletowe

Kształtskrzydła

normalne 39 ( ) 11 ( ) 50

mniejsze 18 ( ) 32 ( ) 50

Suma 57 43 100

• Czy w badanej populacji muszek kolor oczu i kształt skrzydła są zmiennymi niezależnymi ?

• p1 = Pr(czerwone oczy | normalne skrzydła),

• p2 = Pr(czerwone oczy | mniejsze skrzydła), H0: p1 = p2 ; kolor oczu i rozmiar skrzydła są niezależne

• HA: p1 p2 ; kolor oczu i rozmiar skrzydła są zmiennymi zależnymi

• Zastosujemy test chi-kwadrat dla niezależności2

s = (O-E)2/E ma przy H0 rozkład 21 .

• Testujemy na poziomie = 0.05; odrzucamy gdy 2

s > 3.84 = 2critical

• X2 =

• Wniosek

• Nie możemy jednak powiedzieć, że czerwone oczy powodują, że muszka ma normalne skrzydła. Prawidłowy wniosek to obserwacja, że kolor oczu i kształt skrzydła są zmiennymi zależnymi albo, że u muszek z normalnymi skrzydłami częściej występują czerwone oczy niż u muszek z mniejszymi skrzydłami.

• Nie możemy formułować wniosku przyczynowego ponieważ nie kontrolujemy analizowanych zmiennych a jedynie je obserwujemy. [W tym wypadku zależność wynika z faktu, że geny determinujące kształt oczu i rozmiar skrzydła leżą na jednym chromosomie.]

Tablice wielodzielcze: rk

• r rzędów, k kolumn: rk

• Analiza analogiczna do tablic 22.

• Przykład: 34 (r = 3 ; k = 4 )

Kolor włosów Suma

Brązowe Czarne Jasne Rude

Koloroczu

Brązowe

438(331.7)

288(154.1)

115(356.5)

16 (14.6)

Szare/Zielone

1387(1212.3)

746(563.3)

946(1303.0)

53(53.4)

Niebieskie

807(1088.0)

189(505.6)

1768(1169.5)

47(48.0)

Suma 2632 1223 2829 116 6800

• Czy kolor oczu i włosów są zmiennymi zależnymi?

• H0: Kolor włosów i kolor oczu to zmienne niezależne

• HA: Kolor oczu i kolor włosów to zmienne zależne

• Wykonujemy test niezależności chi-kwadrat 2 = (O-E)2/E ma przy H0 rozkład 2

• {df = (r-1)(k-1) = (2)(3) = 6}

• Testujemy na poziomie = .0005. Wartość krytyczna 2

• Wniosek

• Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics’’,

D.S. Moore, G. P. McCabe

• Estymator dla Pr(Oczy niebieskie) =

• Estymator dla Pr(Oczy niebieskie| włosy brązowe) =

• Estymator dla Pr(Oczy niebieskie | czarne włosy) =

• Estymator dla Pr(Oczy niebieskie | jasne włosy) =

• Estymator dla Pr(Oczy niebieskie | rude włosy) =

• Testowanie niezależności odpowiada testowaniu, że odpowiednie p-stwa warunkowe są te same w każdej klasie.

• Gdy testujemy niezależność w dużych tabelach to na ogół nie zapisujemy H0 za pomocą p-stw warunkowych

• Przypomnienie założeń:Próby losoweObserwacje niezależne"E" w każdej komórce musi być 5

Dokładny test Fishera

• Stosujemy dla małych rozmiarów prób

• Przykład : ECMO

• ECMO to ``nowa’’ procedura służąca ratowaniu noworodków cierpiących na poważne zaburzenia pracy układu oddechowego.

• CMT – konwencjonalna terapia

Zabieg

Wynik CMT ECMO Suma

Zgon 4 1 5

Życie 6 28 34

Suma 10 29 39

• H0: wynik nie zależy od zabiegu

• Znajdziemy warunkowe p-stwo zaobserwowanych wyników przy ustalonych ``sumach’’ w rzędach i kolumnach (przy H0 ).

• Przypomnijmy symbol Newtona -

• – na tyle sposobów można wybrać zbiór k elementowy ze zbioru n elementowego

– Na ile sposobów dokładnie 4 dzieci spośród 5 z tych które ``miały’’ umrzeć mogło przypadkowo zostać przyporządkowanych do grupy CMT –

– Na ile sposobów dokładnie 6 dzieci spośród 34 z tych które ``miały’’ przeżyć mogło przypadkowo zostać przyporządkowanych do grupy CMT –

– Na ile sposobów 10 dzieci spośród 39 mogło przypadkowo zostać przyporządkowanych do grupy CMT –

• HA: ECMO jest lepsza niż CMT

• Przypadki bardziej ekstremalne w kierunku alternatywy– # liczba śmierci = CMT:4, ECMO:1 CMT:5,

ECMO:0

• P-wartość =

• Wniosek

Przedziały ufności dla różnicy między p-stwami warunkowymi

• W tabelach 2x2, wyrażamy H0 jako p1 = p2

• Przykład z lekarstwem

• p1 = Pr(poprawa | lekarstwo),

p2 = Pr(poprawa | placebo).

• Przybliżony 95% PU dla p1-p2 wynosi

• W przykładzie z lekarstwami •

)ˆ1(ˆ,

)ˆ1(ˆSESESE

SEpp 96.1)ˆˆ( 21

ˆ ˆ 21 pp

• PU dla p1-p2 wynosi

• Mamy 95% pewności, że p-stwo poprawy po zażyciu lekarstwa jest większe od p-stwa poprawy po zażyciu placebo o co najmniej

i nie więcej niż o

• W ogólności do konstrukcji przedziałów ufności na poziomie (1–) stosujemy Z/2 (zamiast 1.96) .

Regresja liniowa

• Dane: pary obserwacji (X, Y),• (x1, y1), (x2, y2), …, (xn, yn)• Przykłady: X = stężenie, Y = szybkość

reakcji• X = dawka, Y =odpowiedź• X = waga, Y = wzrost• X = wyniki z pierwszego kolokwium, • Y = wyniki z drugiego kolokwium

y = 1.1x - 0.113

R2 = 0.3619

0 0,2 0,4 0,6 0,8 1 1,2

Midterm 1

Najczęściej mamy jedną losową próbę i obserwujemy dwie zmienne

Czasami jedną z tych zmiennych kontrolujemy – wówczas zwykle nazywamy ją X a ``odpowiedź’’ oznaczamy jako Y

Przykład : n = 5x y (x-x) (y-y) (x-x)* (y-y) xy 14.7- .79x różnice

5 12 -1 2 -2 60 10.79 1.209

7 11 1 1 1 77 9.22 1.780

2 12 -4 2 -8 24 13.15 -1.149

7 9 1 -1 -1 63 9.22 -0.220

9 6 3 -4 -12 54 7.65 -1.649

suma 30 50 0 0 -22 278

Suma [()2]

28 26 8.714

• Wartości brzegowe: Jak zwykle

• średnie x = x/n,

• y = y/n

• Sumy kwadratów:

• SSX = (x-x)2 = 28 = (n-1) sX2 ,

• SSY = (y-y)2 = 26 = (n-1) sY2

• Sx=

• Sy=

Nowa wielkość: "suma iloczynów“

SPXY = (x –x)(y –y) =

Mierzy stopień korelacji między X i YPróbkowy współczynnik korelacji

Gdy r>0 wtedy ``najlepsza’’ prosta opisująca relację między X i Y odpowiada funkcji rosnącej a gdy r <0 funkcji malejącej.

• r jest estymatorem współczynnika korelacji w populacji

• Gdy zmienne są niezależne wtedy ρ=0 (ale nie zawsze na odwrót).

• Jeżeli ρ=1 to Y=aX+b, a>0.• Jeżeli ρ=-1 to Y=aX+b, a<0.

YVar XVar

)])([( EYYEXXE

• r=1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o dodatnim współczynniku nachylenia

• r=-1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o ujemnym współczynniku nachylenia.

• Wygodny wzór do obliczeń• • SPXY = (xy) – (x)(y)/n = xy – nxy =

Scatterplot

0 2 4 6 8 10

Model statystyczny

• Y = 0 + 1 X + błąd losowy

• Dla ustalonej wartości X, Y jest zmienną losową o wartości oczekiwanej

Y|X = 0 + 1 X i odchyleniu standardowym Y|X . Będziemy zakładali, że Y|X nie zależy od X.

• Nasz cel – estymacja 0 i 1.

• 1 estymujemy za pomocą

• b1 =

0 estymujemy za pomocą • b0 = y - b1x =• Wyestymowana prosta regresji ma wzór•

W jakim sensie ta prosta jest najlepsza ?

• Dla każdej wartości możemy obliczyć wartość y przewidywaną przez daną prostą

• = b0 + b1 x .

• Dla każdej pary obserwacji (x,y) obliczamy różnicę między wartością zaobserwowaną y a przewidywaną

• różnica = y - y

Suma kwadratów różnic

• Definicja:

• SS(res) = (y- )2

• Możemy korzystać ze wzoru

• SS(res) = SSY - SP2XY /SSX

• SS(res) =

• ``Najlepsza’’ prosta to taka, która daje najmniejszą możliwą wartość SS(res)

• SS(res) mierzy jakość dopasowania

Resztowy błąd standardowy

• sY|X =

• sY mierzy rozrzut y od y

• sY|X mierzy rozrzut y od ``najlepszej’’ prostej

• Około 68% obserwacji jest w odległości nie większej niż 1 sY|X od prostej; 95% w odległości 2 sY|X od prostej.

• Uwaga – odległość liczymy na osi y.

nresidSS

• Y ~ N(Y|X, Y|X)

• Zatem Y - Y|X

• Tak więc błąd losowy

• Dodatkowo zakładamy (tak jak w ANOV-ie), że Y|X nie zależy od X.

Y|X estymujemy za pomocą sY|X .

• Tak więc nasz wyestymowany model

• Jak dobre są nasze estymatory ?

• SEb1 = = 0.32228

704.1 22| X

• (b1- 1) / SEb1 ma rozkład Studenta z df = n-2 stopniami swobody.

• Możemy więc skonstruować 95% PU dla 1,

• Testowanie

• Chcemy przetestować czy Y i X są zależne, a dokładniej czy średnia Y zależy od X. W ramach modelu liniowego odpowiada to testowaniu hipotezy czy

• Czy (Y) zależy od (X) ? (Dokładniej - Czy X i Y są skorelowane ?)

• H0: 1 = 0. (Y) nie zależy (X). (Y|X nie zależy od X)

• HA: 1 0 (Y|X zależy od X)

• [HA może być kierunkowa, 1 < 0 lub 1 > 0]

• Użyjemy testu niekierunkowego. ts = b1 / SEb1 przy H0 ma rozkład Studenta z df = n-2 =

stopniami swobody.

• Wartość krytyczna t.025 =3.182.

• ts = b1 / SEb1 = -0.7857/0.322 = 2.44

• –3.182 < 2.44 < 3.182, więc

• Na poziomie istotności 0.05 nie mamy przesłanek aby twierdzić, że X i Y są skorelowane (albo że Y zależy od X).

• UWAGA Testujemy zależność Y od X w ramach modelu

liniowego. Ten test nie jest w stanie wykryć pewnych nieliniowych form zależności.

Mały rozmiar próby – kiepska moc.

Przykład• Długość i ciężar węży

• SSX = (x-x)2 =172

SPXY = xy – nxy =1237

• b1 = = 1237/172 = 7.19

• b0 = y - b1x = 152- 7.19*63 = -301

• Y = -301 + 7.19 X + błąd

Length

55 60 65

• SEb1 =

• 95% PU dla β1: 7.19 ± t0.025(7)*0.9531

= (4.9, 9.4)• Testowanie

ts = b1/ SEb1 = 7.19/0.9531=7.54

P-wartość < 0.001

2 2| 12.5

0.9531172

Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)

Documents

T1 ccnn Secilla

Ccnn alumno 7º

Exposicion de Ccnn

Programación didactica ccnn

horoskop, krzyżówka 13 - ziemiapiotrkowska.pl · 1...

Presentacion ccnn quito

Krzyżówka muzyczna

Refuerzo CCNN

Trabajo Ccnn

ccnn bloque 3

Ccnn maquinas simples

Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn....

KRZYŻÓWKA SSzzóóssttkkaa

UNIDAD DIDÁCTICA CCNN

Ccnn 5 egb_cuaderno

CCNN 2º ESO.docx