Top Banner
Analiza współzależności dwóch cech II
67

Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Aug 10, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Analiza współzależności dwóch cech II

Page 2: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Dopasowanie funkcji regresji do danych empirycznych

Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych.

Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej:

ei = yi − yi .

Page 3: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Dopasowanie funkcji regresji do danych empirycznych

Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.

W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:

• Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):

Se =

N∑i=1

(yi − yi)2

N − 2=

N∑i=1

e2i

N − 2.

Page 4: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Średni błąd szacunkuOkreśla on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).

Page 5: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik determinacji

• Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej

R2 = 1 −

N∑i=1

(yi − yi)2

N∑i=1

(yi − y)2.

R2 = (rxy)2 .

Page 6: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład

Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.

Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)

1 1 10

2 2 11

3 3 12

4 4 14

5 5 15

6 5 15

7 6 16

8 7 18

9 8 19

10 9 20

y = 8,5 + 1,3 ⋅ x .

Page 7: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładStaż pracy (w latach)

Wydajność pracy (w szt./h)

1 10 9,8 0,2 0,042 11 11,1 -0,1 0,013 12 12,4 -0,4 0,164 14 13,7 0,3 0,095 15 15 0,0 0,005 15 15 0,0 0,006 16 16,3 -0,3 0,097 18 17,6 0,4 0,168 19 18,9 0,1 0,019 20 20,2 -0,2 0,04

Razem — — 0,60

xi yi

yi = 8,5 + 1,3 ⋅ xi ei = yi − yi e2i = (yi − yi)2

N = 10, Se =

N∑i=1

e2i

N − 2=

0,610 − 2

= 0,27.

Page 8: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład

Se =

N∑i=1

e2i

N − 2=

0,610 − 2

= 0,27.

Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.

Page 9: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład

1 10 9,8 0,2 0,04 252 11 11,1 -0,1 0,01 163 12 12,4 -0,4 0,16 94 14 13,7 0,3 0,09 15 15 15 0,0 0,00 05 15 15 0,0 0,00 06 16 16,3 -0,3 0,09 17 18 17,6 0,4 0,16 98 19 18,9 0,1 0,01 169 20 20,2 -0,2 0,04 25

Razem 150 — — 0,60 102

xi yi yi = 8,5 + 1,3 ⋅ xi e2i = (yi − yi)2

N = 10, y =15010

= 15, R2 = 1 −

N∑i=1

(yi − yi)2

N∑i=1

(yi − y)2= 1 −

0,6102

= 0,9941.

ei = yi − yi (yi − y)2

Page 10: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładR2 = 0,9941.

Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%.

Wyd

ajno

ść p

racy

7

10

13

16

19

22

Staż pracy0 1 2 3 4 5 6 7 8 9

y = 1,3x + 8,5R² = 0,9941

Page 11: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Wykorzystanie funkcji regresjiWłaściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.

Page 12: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładNa podstawie oszacowanej funkcji regresji z poprzedniego przykładu:

y = 8,5 + 1,3 ⋅ x

przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem

xP = 12

Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.

Page 13: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładOtrzymujemy:

y = 8,5 + 1,3 ⋅ xP = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .

Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.

Page 14: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik korelacji rang Spearmana

Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).

Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang — rangowaniem.

Page 15: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

RangowaniePoszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.

Nr jednostki Wariant cechy Ranga1 podstawowe 12 zawodowe 23 średnie 4

Średnia z 3, 4, 54 średnie 45 średnie 46 wyższe 6,5 Średnia z 6, 77 wyższe 6,5

Page 16: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru

gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla poszczególnych jednostek badania.

rs = 1 −6

N∑i=1

d2i

N(N2 − 1),

Page 17: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei — im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.

Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.

Page 18: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IZa pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Kraj Liczba ludności (w tys.)

Emisja zanieczyszczeń powietrza CO2(w mln ton)

Austra 8 105 79,5Belgia 10 416 123,5Dania 5 401 50,5Finlandia 5 226 56,7Francja 60 044 415,7Grecja 11 015 110,5Hiszpania 43 768 368,3Irlandia 4 024 47,7Luksemburg 454 12,1Holandia 16 275 175,9Niemcy 82 561 876,8Portugalia 10 524 68,7Szwecja 8 991 51,5Wielka Brytania 59 561 555,6Włochy 57 537 488Polska 38 180 317,7

Page 19: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IRangowanie ze względu na pierwszą cechę - Liczbę ludności.

Kraj Liczba ludności (w tys.)

Ranga

Luksemburg 454 1Irlandia 4 024 2Finlandia 5 226 3Dania 5 401 4Austra 8 105 5Szwecja 8 991 6Belgia 10 416 7Portugalia 10 524 8Grecja 11 015 9Holandia 16 275 10Polska 38 180 11Hiszpania 43 768 12Włochy 57 537 13Wielka Brytania 59 561 14Francja 60 044 15Niemcy 82 561 16

Page 20: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IRangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.

Kraj Emisja zanieczyszczeń powietrza CO2(w mln ton)

Ranga

Luksemburg 12,1 1Irlandia 47,7 2Dania 50,5 3Szwecja 51,5 4Finlandia 56,7 5Portugalia 68,7 6Austra 79,5 7Grecja 110,5 8Belgia 123,5 9Holandia 175,9 10Polska 317,7 11Hiszpania 368,3 12Francja 415,7 13Włochy 488 14Wielka Brytania 555,6 15Niemcy 876,8 16

Page 21: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IObliczenie różnic między rangami

Kraj

Liczba ludności (w tys.)

Emisja zanieczyszczeń powietrza CO2(w mln ton)

Rangi X Rangi Y Różnice rang Kwadraty różnic rang

Luksemburg 454 12,1 1 1 0 0Irlandia 4 024 47,7 2 2 0 0Finlandia 5 226 56,7 3 5 -2 4Dania 5 401 50,5 4 3 1 1Austra 8 105 79,5 5 7 -2 4Szwecja 8 991 51,5 6 4 2 4Belgia 10 416 123,5 7 9 -2 4Portugalia 10 524 68,7 8 6 2 4Grecja 11 015 110,5 9 8 1 1Holandia 16 275 175,9 10 10 0 0Polska 38 180 317,7 11 11 0 0Hiszpania 43 768 368,3 12 12 0 0Włochy 57 537 488 13 14 -1 1Wielka Brytania 59 561 555,6 14 15 -1 1Francja 60 044 415,7 15 13 2 4Niemcy 82 561 876,8 16 16 0 0Razem — — — — — 28

xi yi di d2i

Page 22: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I

xi yi di d2i

Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.

N = 16,N

∑i=1

d2i = 28,

rs = 1 −6 ⋅

N∑i=1

d2i

N(N2 − 1)= 1 −

6 ⋅ 2816 ⋅ (162 − 1)

= 1 − 0,041 = 0,959.

Page 23: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I

xi

Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Emis

ja C

O2

(w m

ln to

n)

7

185,6

364,2

542,8

721,4

900

Liczba ludności (w tys.)0 20000 40000 60000 80000

Page 24: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IIZa pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka

UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego

Katarzyna Beksa 5 biegły

Przemysław Bełkot 4 dobry

Paweł Dentka 3 dobry

Michalina Drzwi-Okno 3 przeciętny

Franciszek Głąb 2 przeciętny

Jacek Kolosalny 1 słaby

Leokadia Masełko 4 biegły

Rafał Nieuważny 4 biegły

Józef Piszpan 1 przeciętny

Zyglinda Żyłka 2 przeciętny

Page 25: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IIRangowanie dla cechy pierwszej — czas poświęcony nauce.

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X

1 Jacek Kolosalny 1 słaby 1,5

2 Józef Piszpan 1 przeciętny 1,5

3 Franciszek Głąb 2 przeciętny 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5

5 Paweł Dentka 3 dobry 5,5

6 Michalina Drzwi-Okno 3 przeciętny 5,5

7 Przemysław Bełkot 4 dobry 8

8 Leokadia Masełko 4 biegły 8

9 Rafał Nieuważny 4 biegły 8

10 Katarzyna Beksa 5 biegły 10

Page 26: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IIRangowanie dla cechy drugiej — poziom znajomości języka.

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1

2 Józef Piszpan 1 przeciętny 1,5 3,5

3 Franciszek Głąb 2 przeciętny 3,5 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5

5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5

6 Paweł Dentka 3 dobry 5,5 6,5

7 Przemysław Bełkot 4 dobry 8 6,5

8 Leokadia Masełko 4 biegły 8 9

9 Rafał Nieuważny 4 biegły 8 9

10 Katarzyna Beksa 5 biegły 10 9

Page 27: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IIObliczanie różnic rang i ich kwadratów:

Nr UczeńCzas poświęcony dziennie na naukę

(w godz.)

Poziom znajomości języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25

2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4

3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0

5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 2 4

6 Paweł Dentka 3 dobry 5,5 6,5 -1 17 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25

8 Leokadia Masełko 4 biegły 8 9 -1 19 Rafał Nieuważny 4 biegły 8 9 -1 1

10 Katarzyna Beksa 5 biegły 10 9 1 1

Razem — — — — — 14,5

di d2i

rs = 1 −6 ⋅

N∑i=1

d2i

N(N2 − 1)= 1 −

6 ⋅ 14,510 ⋅ (102 − 1)

= 1 − 0,09 = 0,91.

Page 28: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład IIWartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.

Rang

i dla

cec

hy Y

0

2

4

6

8

10

Rangi dla cechy X1 2 3 4 5 6 7 8 9 10

Page 29: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.

Page 30: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Schemat tablicy korelacyjnejWarianty zmiennej

niezależnej

Warianty zmiennej zależnej

. . . . .

. . . . .

. . . . .

xi

x1

x2

xl

y1 y2 yk

yj

n11

n21

n12 n1k

n2kn22

nl1 nl2 nlk

n∙j =l

∑i=1

nij n∙1 n∙2 n∙k

ni∙ =k

∑j=1

nij

n1∙

n2∙

nl∙

N

N - ogólna liczba jednostek,ni∙ - liczebności brzegowe cechy X,n∙j - liczebności brzegowe cechy Y .

nij - liczebności warunkowe odpowiadające:i-temu wariantowi cechy Xj-temu wariantowi cechy Y

Page 31: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):

Page 32: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

i z k rozkładów cechy X (dla każdego yi):

Page 33: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:

Page 34: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.

y(x1) |  pod warunkiem, że X = x1

y(x2) |  pod warunkiem, że X = x2

y(xl) |  pod warunkiem, że X = xl

średnie grupowe:

Page 35: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla danych pogrupowanych w tablicy

Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna.

Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.

Page 36: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Analiza wykresu rozrzutu punktów empirycznych

Cen

a di

amen

tu (w

dol

arac

h)

-1000

1000

3000

5000

7000

9000

11000

13000

15000

17000

19000

Waga diamentu (w caratach)0,1 0,4 0,7 1 1,3 1,6

Page 37: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Analiza liczebności w tablicy korelacyjnej

Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.

Page 38: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Analiza liczebności w tablicy korelacyjnej

Im mniej pasażerów zabieramy tym szybciej jedziemy?

Liczba pasazerów

Prędkość samochodu

45 — 55 55 — 65 65 — 75 75 — 85 85 — 95

0 0 1 1 1 01 1 3 3 0 12 1 2 3 1 03 2 3 0 0 04 0 2 0 0 0

xi

yj

Page 39: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Miary korelacji dla pogrupowanych danych

Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary:

• Stosunek korelacji, eyx,

• Współczynnik C-Pearsona, C,

• Współczynnik Q-Yule’a, Q.

Page 40: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Stosunek korelacjiOparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.

eyx =Sy(x)

Sy,

y - średnia ogólna cechy Y,

Sy - odchylenie standardowe cechy Y,

Sy(x) - odchylenie standardowe średnich grupowych: y(x1), …, y(xl) .

Page 41: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Stosunek korelacjiZ powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.

y =1N

k

∑j=1

yjn∙j =1N

l

∑i=1

k

∑j=1

yjnij, Sy =1N

k

∑j=1

(yj − y)2n∙j ,

y(xi) =1ni∙

k

∑j=1

yjnij, Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ .

Page 42: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Stosunek korelacjiStosunek korelacji zawiera się w przedziale od 0 do 1:

0 ⩽ eyx ⩽ 1.

Przy braku korelacji

eyx = 0.

Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.

Page 43: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Własności stosunku korelacji

• Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.

• Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to

|rxy | ⩽ eyx,

A równość występuje tylko w przypadku zależności liniowej.

Page 44: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Własności stosunku korelacji

• Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np.

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44

Duże miasto 3 6 14 23

Ogółem 33 50 17 100

Page 45: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem.

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

Ogółem 22 58 20 100

Page 46: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

y =1N

k

∑j=1

∘yjn∙j =3296100

= 32,96 %

n∙j∘yj

n∙j∘yj

Page 47: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność, YOgółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

3,8416 0,0016 4,1616 —

84,52 0,09 83,23 167,84

n∙j∘yj

n∙j∘yj

( ∘yj − y)2

n∙j(∘yj − y)2

Page 48: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Sy =1N

k

∑j=1

( ∘yj − y)2n∙j =167,84

100= 1,3

Page 49: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Miesięczne dochody w zł

X

Proc. udz. wyd. na ż., Y

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19 663 34,89 71,1209

1200 — 1600 3 55 2 60 1978 32,97 0,0027

1600 — 2000 19 2 — 21 655 31,19 65,7555

Ogółem 22 58 20 100 3296 — 136,8791

ni∙

3

∑j=1

nij∘yj y(xi) (y(xi) − y)2 ⋅ ni∙

Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ =136,88

100= 1,17

Page 50: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Sy(x) = 1,17,

eyx =Sy(x)

Sy=

1,171,3

= 0,9.

Sy = 1,3,

Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engela.

Page 51: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład I — Obie cechy mierzalne

Śred

nie

grup

owe

cech

y Y

30

31

32

33

34

35

Środki klas dla cechy X1000 1160 1320 1480 1640 1800

Page 52: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład II — Cecha X niemierzalna

W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze.

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44

Duże miasto 3 6 14 23

Ogółem 33 50 17 100

Page 53: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład II — Cecha X niemierzalna

Miejsce zamieszkania

X

Ocena z matematyki na maturze YOgółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44Duże miasto 3 6 14 23

33 50 17 100

99 200 85 384

0,7056 0,0256 1,3456 —23,2848 1,28 22,8752 47,44

n∙j

n∙jyj

(yj − y)2

n∙j(yj − y)2

y =1N

k

∑j=1

yjn∙j =384100

= 3,84 Sy =1N

k

∑j=1

(yj − y)2n∙j =47,44100

= 0,69

Page 54: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład II — Cecha X niemierzalna

Miejsce zamieszkania

X

Ocena z matematyki na maturze Y

3 4 5

Wieś 25 6 2 33 109 3,30 9,52

Małe miasto 5 38 1 44 172 3,91 0,21

Duże miasto 3 6 14 23 103 4,48 9,37

Ogółem 33 50 17 100 384 — 19,09

ni∙

3

∑j=1

nijyj y(xi) (y(xi) − y)2 ⋅ ni∙

Sy(x) =1N

l

∑i=1

(y(xi) − y)2ni∙ =19,09100

= 0,44

Page 55: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład II — Cecha X niemierzalna

Sy(x) = 0,44,

eyx =Sy(x)

Sy=

0,440,69

= 0,64.

Sy = 0,69,

Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.

Page 56: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Tablica kontyngencjiW przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.

Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:

C =χ2

χ2 + N,

gdzie χ2 to wartość statystyki χ2 (chi-kwadrat).

Page 57: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Tablica kontyngencjiWartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru

χ2 =l

∑i=1

k

∑j=1

(nij − nij)2

nij,

nij - liczebności warunkowe (empiryczne),gdzie

gdyby cechy były niezależne:nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,

nij =ni∙ ⋅ n∙j

N.

Page 58: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik C-PearsonaWspółczynnik C-Pearsona

C =χ2

χ2 + N

oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.

Page 59: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Skorygowany współczynnikC-Pearsona

Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona:

Cskor = C ⋅C*

C* − 1,

gdzieC* = min(l, k),

l - liczba wierszy tablicy kontyngencji,k - liczba kolumn tablicy kontyngencji.

Page 60: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładW pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:

WynikiX

Metoda nauczania, YRazem

A B C

Pozytywne 30 80 50 160

Negatywne 10 60 20 90

Razem 40 140 70 250

Ustalimy siłę zależności między tymi cechami niemierzalnymi.

Page 61: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładWyniki

X

Metoda nauczania, YRazem

A B C

Pozytywne

Negatywne

Razem

n11 = 30

n21 = 10

n∙1 = 40

n12 = 80

n22 = 60

n∙2 = 140

n13 = 50

n23 = 20

n∙3 = 70 N = 250

n1∙ = 160

n2∙ = 90

Liczebności teoretyczne:

n11 =n1∙ ⋅ n∙1

N=

160 ⋅ 40250

= 25,6 n12 =n1∙ ⋅ n∙2

N=

160 ⋅ 140250

= 89,6 n13 =n1∙ ⋅ n∙3

N=

160 ⋅ 70250

= 44,8

n21 =n2∙ ⋅ n∙1

N=

90 ⋅ 40250

= 14,4 n22 =n2∙ ⋅ n∙2

N=

90 ⋅ 140250

= 50,4 n23 =n2∙ ⋅ n∙3

N=

90 ⋅ 70250

= 25,3

Page 62: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Przykład

30 25,6 4,4 19,36 0,76

80 89,6 -9,6 92,16 1,03

50 44,8 5,2 27,04 0,60

10 14,4 -4,4 19,36 1,34

60 50,4 9,6 92,16 1,83

20 25,3 -5,3 28,09 1,11

Razem — — — 6,67

nij nij nij − nij (nij − nij)2 (nij − nij)2

nij

χ2 =(nij − nij)2

nij= 6,67 C =

χ2

χ2 + N=

6,676,67 + 250

= 0,16

Page 63: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładC =

χ2

χ2 + N=

6,676,67 + 250

= 0,16

Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.

Page 64: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik współzależności Q-Yule’a

Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych:

Q =ad − bcad + bc

.

Warianty cechyniemierzalnej X

Warianty cechy niemierzalnej Y

y1 y2

x1 a b

x2 c d

Page 65: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

Współczynnik współzależności Q-Yule’a

Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.

Page 66: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładUważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki

EgzaminPłeć

RazemMężczyzna Kobieta

Zdany 70 125 195

Niezdany 20 85 105

Razem 90 210 300

Page 67: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania

PrzykładEgzamin

PłećRazem

Mężczyzna Kobieta

Zdany 70 125 195

Niezdany 20 85 105

Razem 90 210 300

Q =ad − bcad + bc

=70 ⋅ 85 − 125 ⋅ 2070 ⋅ 85 + 125 ⋅ 20

= 0,41.

Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.