Transcript
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
1
2 test
2 test (hi-kvadrat) je statistiki postupak koji je veoma praktian i esto se koristi, a slui da
bi utvrdili odstupaju li dobivene - opaene frekvencije (fo) od frekvencija koje bismo oekivali uz
odreene hipoteze (teoretske ili oekivane frekvencije - ft ). Drugim rijeima, je li odstupanje
izmeu opaenih i teoretskih frekvencija dobiveno sluajno uslijed greke pri uzorkovanju, ili je to
prava razlika?
Opaene frekvencije su one koje dobijemo nekim istraivanjem, npr. broj ljudi s odreenom
dijagnozom, broj puaa u nekom uzorku, broj prijevremeno roene djece kod majki s dijabetesom i
kod majki bez dijabetesa itd. Oznaava se grkim slovom hi. I on, kao i t-test, spada u
inferencijalnu statistiku.
( )
t
2
to2
f
f-f= pri emu fo znai opaene frekvencije,
a ft teoretske ili oekivane frekvencije.
No, za razliku od t-testa i nekih drugih rauna koji se mogu primijeniti samo na
kvantitativne podatke, hi2 je primjenjiv i kada su podaci izraeni na nominalnoj ljestvici, dakle kada
se radi o kvalitativnim podacima (kategorije kao to su spol, rasa, mjesto roenja). Takoer, t-test se
smije raunati samo ako su podaci rasporeeni prema normalnoj ili barem simetrinoj raspodjeli,
dok hi2 moemo primijeniti i ako je distribucija rezultata znaajno razliita od normalne. Dakle,
kada ne moemo upotrijebiti tzv. parametrijsku statistiku, koja zahtijeva normalnu distribuciju i
kvantitativne podatke, koristi se hi2 koji spada u tzv. neparametrijsku statistiku.
Bitno je naglasiti da se 2 test rauna samo na frekvencijama (brojene vrijednosti, npr. broj
bolesnika na odjelu, broj novina koje se svaki dan prodaju na kiosku, broj pobaaja kod
maloljetnica u Hrvatskoj, broj studenata koji su proli na ispitu itd.) i u raun nije doputeno uvrstiti
nikakve mjerene vrijednosti, mjerne jedinice ni postotke. Osnovni podaci u istraivanju dakako,
mogu biti i mjerene vrijednosti, ali se u 2 test unose samo njihove frekvencije. Npr. ako imamo
podatke o plaama radnih terapeuta u Hrvatskoj, te o njihovom zadovoljstvu poslom, potrebno je
plae kategorizirati u dvije ili tri kategorije (npr. 2000-3500 kn niska; 3501-5000 srednja; 5001-
6500 visoka), te pobrojiti frekvencije u svakoj kategoriji. Zadovoljstvo poslom moemo
kategorizirati kao ZADOVOLJAN ili NEZADOVOLJAN, odnosno takoer se moe iskazati u tri
kategorije (nisko, srednje, visoko).
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
2
Hi-kvadrat doputa provjeru razliitih hipoteza; pri emu se raunski izvodi uvijek na isti
nain, samo je razliit nain odreivanja teoretskih frekvencija.
2 test moemo upotrijebiti u ovim sluajevima:
1. Kad imamo frekvencije JEDNOG UZORKA i provjeravamo razlikuju li se dobivene frekvencije
od frekvencija koje oekujemo uz neku hipotezu - npr.:
hipoteza o sluajnoj raspodjeli, na primjer kod bacanja novia: bacimo novi 100 puta,
i dobijemo 40 puta pismo i 60 puta glavu, a po sluaju je 50:50, pa usporeujemo te dvije
distribucije da vidimo postoji li statistiki znaajna razlika meu njima.
hipoteza postavljena na osnovi nekog poznatog odnosa u populaciji, npr. od ukupnog
broja oboljelih od raka 25% se odnosi na rak dojke, a mi elimo usporediti da li se naih
63 sluajeva raka dojke od ukupno 250 na klinici za tumore razlikuje od poznatog udjela.
hipoteza o normalnoj raspodjeli, npr. esta kada promatramo sposobnosti: da li je neka
sposobnost normalno raspodijeljena meu ispitanicima u naem uzorku.
2. 2 moemo testirati i DVA ILI VIE NEZAVISNIH UZORKA i elimo ustanoviti razlikuju li se
uzorci u opaenim svojstvima. Npr. postoji li statistiki znaajna razlika u udjelu studenata i
studentica na studiju fizioterapije i sanitarnih inenjera.
3. Postoji i hi2 za zavisne uzorke. Kad imamo frekvenciju DVAJU ZAVISNIH UZORAKA (1
grupa) koji imaju dihotomna svojstva. Usporeuju se rezultati jedne te iste grupe prije i
poslije tj. ispituje se je li dolo do promjene. Naziva se jo McNemarov test.
2 test ima i odreena ogranienja pri uporabi:
- test nije dobro koristiti ako su oekivane frekvencije premale. Svaka oekivana frekvencija
trebala bi iznositi barem 5.0
- najmanji broj rezultata na kojem se moe primijeniti 2 mora iznositi barem 20.
2 na jednom uzorku: - usporedba sa sluajnom distribucijom
1) U 100 bacanja novia dobili smo 44 puta glavu i 56 puta pismo. Utvrdite postoji li statistiki
znaajna razlika izmeu dobivene distribucije i distribucije po sluaju.
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
3
Tablica za hi-kvadrat test trebala bi izgledati poput ove nie. U prvi stupac upisujemo
opaene frekvencije, dakle, one podatke koje smo dobili u istraivanju, podatke s terena. U ovom
zadatku teoretska distribucija je sluajna, to znai da su sve ft meusobno jednake, a njihovu
vrijednost dobit emo tako da sumu frekvencija podijelimo s brojem kategorija (100 : 2). Potom
utvrdimo razliku opaenih i teoretskih frekvencija. Tu razliku prije kvadriranja moramo umanjiti za
0.5 kad god radimo s jednim stupnjem slobode, i to njezinu apsolutnu vrijednost, dakle,
zanemarujui predznak. To je tzv. Yatesova korekcija za kontinuitet. Kada smo kvadrirali umanjene
razlike, potrebno je svaku pojedinu podijeliti s pripadajuom teoretskom frekvencijom, te zadnji
stupac na koncu zbrojiti. Dobiveni zbroj je hi-kvadrat test. Naime, formula nam slui kako bi nas
vodila kroz postupak, pa jo jednom naglaavam da dobiveni zbroj zadnjeg stupca ne treba
uvrtavati u formulu.
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
44
56
50
50
-6
6
5.5
5.5
30.25
30.25
0.605
0.605
100 100 1.21
Hi2 =2= 1.21
Sada je potrebno, kao i kod t-testa, utvrditi je li dobiveni hi-kvadrat znaajan ili nije. Za to nam
trebaju stupnjevi slobode (df). Za hi kvadrat test na jednom uzorku, stupnjevi slobode odreuju se
tako da broj kategorija umanjimo za 1. Ovdje imamo dvije kategorije, glavu i pismo, pa stoga
imamo 1 stupanj slobode.
df = N kategorija - 1
Oitamo granine vrijednosti uz odgovarajui stupanj slobode iz tablice za hi-kvadrat, te na hi-
kvadrat usporedimo s graninim vrijednostima po istom principu koji smo svladali za t-test.
Kako je dobiveni hi-kvadrat manji od granine vrijednosti uz
5% rizika, zakljuujemo da ne postoji statistiki znaajna
razlika izmeu nae distribucije i distribucije po sluaju.
Dobiveni 2= 1.21 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63
P>0.05
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
4
2) U 120 bacanja kocke jedinicu smo dobili 25 puta, dvojku 17 puta, trojku 15, etvorku 23, peticu
24 puta i esticu 16 puta. Razlikuju li se dobiveni rezultati statistiki znaajno od oekivanog po
sluaju?
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
1
2
3
4
5
6
25
17
15
23
24
16
20
20
20
20
20
20
5
-3
-5
3
4
-4
25
9
25
9
16
16
1.25
0.45
1.25
0.45
0.80
0.80
120 120 5.00
Ne postoji statistiki znaajna razlika izmeu nae distribucije
i distribucije po sluaju.
3) Pitali smo 91-og pacijenta koja im je terapija bila najuinkovitija od tri vrste terapije koju su
proli. 26 pacijenata navelo je elektroterapiju, 23 masau, a preostali su se odluili za plivanje.
Zanima nas postoji li statistiki znaajna razlika izmeu nae distribucije i sluajne kako bi utvrdili
preferiraju li pacijenti statistiki znaajno jednu vrstu terapije u odnosu na drugu.
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
26
23
42
30.33
30.33
30.33
-4.33
-7.33
11.67
18.748
53.73
136.189
0.618
1.77
4.49
91 91 6.88
Razlika je statistiki znaajna. Pacijenti znaajno vie biraju
plivanje kao najuinkovitiju terapiju, nego elektroterapiju ili
masau.
Dobiveni 2= 5 df = broj kategorija-1 = 6-1 = 5
Granini 2 (5%) = 11.070
Granini 2 (1%) = 15.086
P>0.05
Dobiveni 2= 6.88 df = broj kategorija-1 = 3-1 = 2
Granini 2 (5%) = 5.991
Granini 2 (1%) = 9.210 P
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
5
2 na jednom uzorku: - usporedba s poznatim udjelom
Poznati udio ili zadani udio u populaciji odnosi se na ve utvrenu vrijednost (frekvenciju ili
postotak) u populaciji s kojom elimo usporediti na uzorak. Slijede primjeri:
4) Od ukupnog broja oboljelih od raka, 18% odnosi se na rak dojke. Zanima nas razlikuje li se ta
distribucija u populaciji od one koju smo dobili na naem uzorku: od 250 sluajeva tumora
registriranih u klinici za tumore u posljednjih 6 mjeseci, 63 je pacijentica s rakom dojke.
Pri postavljanju ovog zadatka, moramo voditi rauna da je ovih 250 sluajeva ukupan broj
opaenih frekvencija, od ega 63 otpada na tumor dojke, a preostali na druge tumore. Dakle, imamo
dvije kategorije. S obzirom da u tablicu za hi-kvadrat ne smijemo stavljati postotke, ovih 18%
moramo pretvoriti u teoretsku frekvenciju pomou postotnog rauna. Trebamo dobiti koliko je 18%
od 250, te onda dobiveni broj oduzeti od 250 kako bi dobili drugu teoretsku frekvenciju. Dalje
postupak slijedi kao i u prethodnoj vrsti hi-kvadrat testa.
45=100
25018=
100
SVE%=f t
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
63
187
45
205
18
-18
17.5
17.5
306.25
306.25
6.81
1.49
250 250 8.30
Hi2 =2= 8.30
U naem istraivanju je statistiki znaajno vei udio tumora
dojke u odnosu na situaciju u cijeloj Hrvatskoj.
5) Udio osoba starijih od 60 godina u opoj populaciji Hrvatske iznosi 21.6%. U naem uzorku, od
2530 osoba, bilo je 598 osoba starijih od 60 godina. Utvrdite razlikuje li se znaajno udio starijih
osoba u naem uzorku, od onog u opoj populaciji.
Dobiveni 2= 8.30 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63
P
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
6
48.546=100
25306.21=
100
SVE%=f t
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
598
1932
546,48
1983,52
-51,52
51,52
51,02
51,02
2603.04
2603.04
4.76
1,31
2530 2530.00 6.07
Hi2 =2= 6,07
U naem istraivanju je statistiki znaajno vei udio osoba
starijih od 60 godina u odnosu na opu populaciju u Hrvatskoj.
6) U gradu Zagrebu je u oujku 2010. bilo 11,7% nezaposlenih, to ukupno iznosi 37.327 ljudi. U
naem istraivanju sudjelovalo je 1053 subjekata s podruja grada Zagreba, od ega je 98
nezaposlenih. Utvrdite razlikuje li se broj nezaposlenih u naem istraivanju od onog u populaciji
grada Zagreba.
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
98
955
123,2
929,8
-25,2
25,2
24,7
24,7
610.09
610.09
4.952
0,656
1053 1053.00 5.608
Razlika je statistiki znaajna uz rizik manji od 5%: u naem
uzorku udio nezaposlenih je znaajno manji nego u gradu
Zagrebu.
Dobiveni 2= 6.07 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
7
2 na 2 i vie nezavisnih uzoraka
7) Od ukupno 73 studenta na I godini studija sanitarnih inenjera, 21 ih je enskog spola, dok je na
studiju fizioterapije I godine upisano 50 studentica od ukupno 96 studenata. Utvrdite postoji li
statistiki znaajna razlika u udjelu studenata i studentica na studiju fizioterapije i sanitarnih
inenjera.
Kako bi rijeili ovaj zadatak, potrebno je prvo napraviti tablicu koja e nam biti osnova za
izraunavanje teoretskih frekvencija. U tablicu treba unijeti obje varijable, i spol i studij. Koja e
varijabla biti po redovima, a koja po stupcima, sasvim je svejedno, no, treba unijeti ne samo
subjekte s promatranim obiljejem, ve i one koji nemaju promatrano obiljeje, a to su u ovom
sluaju mukarci. U tablici treba naznaiti sume po stupcima i po redovima iji ukupan zbroj mora
biti jednak.
STUDENTICE STUDENTI Ukupno
FT
SAN
50
21
46
52
96
73
71 98 169
etiri frekvencije koje se nalaze u sredinjem dijelu tablice predstavljaju opaene
frekvencije. Teoretske frekvencije ft dobijemo tako da za svaku kuicu POMNOIMO SUMU
REDA SA SUMOM STUPCA I PODIJELIMO S TOTALNOM SUMOM FREKVENCIJA:
Ukupno FT 71 x 96 /169=
40,33
98 x 96 /169=
55,67
96
SAN 71 x 73 /169=
30,67
98 x 73 /169 =
42,33
73
Ukupno 71 98 169
Suma oekivanih/teoretskih frekvencija mora biti jednaka sumi opaenih frekvencija i to
nam slui za kontrolu da li smo dobro izraunali ft. Toleriraju se samo mala odstupanja vezana uz
zaokruivanje decimalnih brojeva.
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
8
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
t
2to
f
ff
50
21
46
52
40.33
30.67
55.67
42.33
9.67
9.67
9.67
9.67
9.17
9.17
9.17
9.17
84.09
84.09
84.09
84.09
2.085
2.742
1.511
1.987
169 169.00 8.325
df = (broj redova -1) x (broj stupaca -1) rauna se samo broj kategorija
Postoji statistiki znaajna razlika u omjeru studenata i studentica na I
godini studija fizioterapije i sanitarnih inenjera: na studiju
fizioterapije je znaajno vei udio studentica nego na studiju
sanitarnih inenjera.
8) Za dvije skupine bolesnika, od kojih je jedna koristila serum (grupa A), a druga nije (grupa B)
elimo utvrditi razlikuju li se znaajno po broju osoba koje su se oporavile. Uestalost oporavka u
skupini koja je dobila serum jest 75 oporavljenih osoba, od ukupno 100 koliko ih je primilo serum.
U skupini bez seruma bilo je takoer 100 osoba, od kojih se oporavilo 65 osoba.
Sami napravite 2 x 2 tablicu za hi-kvadrat, izraunajte hi-kvadrat i odredite je li razlika u
broju oboljelih statistiki znaajna ili nije.
oporavili se nisu se oporavili
A
B
75
65
25
35
100
100
140 60 200
Dobiveni 2= 8.325 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
9
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
t
2to
f
ff
75
25
65
35
70
30
70
30
5
5
5
5
4.5
4.5
4.5
4.5
20.25
20.25
20.25
20.25
0.289
0.675
0.289
0.675
200 200 1.928
Ne postoji statistiki znaajna razlika u broju osoba koje su se
oporavile izmeu skupine koja je primila serum (A) i skupine koja nije
primila serum (B).
9) Ispitajte postoji li statistiki znaajna razlika u uestalosti raka plua izmeu puaa i nepuaa.
U promatranoj skupini puaa od 488 osoba, njih 13 oboljelo je od raka plua, dok je u skupini od
660 nepuaa oboljelo 5 osoba.
Puai Nepuai
S rakom plua
Bez raka plua
13
475
5
655
18
1130
488 660 1148
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
( )
t
2
to
f
f-f
13
5
475
655
7.65
10.35
480.35
649.65
5.35
-5.35
-5.35
5.35
4,85
4,85
4,85
4,85
23,52
23,52
23,52
23,52
3.07
2.27
0.049
0.036
1148 1148.00 5.425
Dobiveni 2= 1.928 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P>0.05
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
10
Postoji statistiki znaajna razlika u udjelu oboljelih od raka plua
izmeu puaa i nepuaa: u skupini puaa ima znaajno vie
oboljelih od raka plua.
10) Studenti su podijeljeni u 3 grupe i zadano im je gradivo koje moraju nauiti pomou 3 razliite
metode (A, B i C). Na provjeri znanja, od 55 ljudi koji su uili metodom A, 50 studenata je
zadovoljilo za prolaz, od 61 osobe koja je uila metodom B, prolo je 47 osoba, dok je u skupini
studenata koji su uili metodom C palo 8 od ukupno 64 studenta. Utvrdite postoji li statistiki
znaajna razlika u prolaznosti studenata s obzirom na razliitu metodu kojom su uili.
A B C
Zadovoljio
Nije zadovoljio
50
5
47
14
56
8
153
27
55 61 64 180
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
50
47
56
46.75
51.85
54.40
3.25
-4.85
1.60
10.56
23.52
2.56
0.226
0.454
0.047
5
14
8
8.25
9.15
9.60
-3.25
4.85
-1.60
10.56
23.52
2.56
1.280
2.572
0.267
180 180.00 4.846
Ne postoji statistiki znaajna razlika u uspjenosti studenata izmeu
skupina koje su uile pomou tri razliite metode.
Dobiveni 2= 5.425 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P0.05
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
11
11) Istraivaa je zanimalo koja srednja kola najbolje priprema uenike za prijamni ispit.
Promatrani su maturanti iz tri srednje kole (I, II i III gimnazija), te je utvreno da od 89 uenika I
gimnazije koji su se prijavili na prijamni ispit, njih 69 ga je i poloilo; od 123 uenika II gimnazije,
94 je poloilo prijamni ispit, te iz III gimnazije je 47 uenika poloilo prijamni od ukupno njih 62
koji su se prijavili na fakultete.
POLOILI NISU POLOILI
I
II
III
69
94
47
20
29
15
89
123
62
210 64 274
fo
ft
fo - ft
(fo - ft)2
( )
t
2
to
f
f-f
69
94
47
68.21
94.27
47.52
0.79
-0.27
-0.52
0.6241
0.0729
0.2704
0.0091
0.0007
0.0057
20
29
15
20.79
28.73
14.48
-0.79
0.27
0.52
0.6241
0.0729
0.2704
0.0300
0.0025
0.0187
274 274.00 0.0667
ako se rauna na dvije decimale 0.04
Ne postoji statistiki znaajna razlika izmeu maturanata triju srednjih
kola u uspjenosti upisa na fakultete.
PONOVIMO:
2 test spada u neparametrijsku statistiku za njegovo koritenje nije vano da rezultati budu normalno distribuirani.
Moe se koristiti i na nominalnoj mjernoj skali.
Dobiveni 2= 0.067 df = 1 x 2 = 2
Granini 2 (5%) = 5.99
Granini 2 (1%) = 9.21 P>0.05
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
12
Razlikujemo opaene i teoretske frekvencije. Opaene f dobijemo u istraivanju, a teoretske moramo izraunati sami.
Vrste hi-kvadrat testa koje smo koristili su 2 na jednom uzorku, te 2 na 2 i vie nezavisnih uzoraka. Od 2 na jednom uzorku radili smo usporedbu sa sluajnom distribucijom, te sa zadanim udjelom u populaciji.
Kad je df=1, radimo korekciju: umanjujemo razliku opaene i teoretske frekvencije za 0.5 (bez minusa!).
Nacrtajte mentalnu mapu na temu 2 testa kako biste si lake uobliili i organizirali gradivo.
LITERATURA:
1. Dyer, C. (1995) Beginning research in psychology. Oxford: Blackwell Publishers Inc.
2. Howell, D.C. (1989) Fundamental Statistics for the Behavioral Sciences. Boston: PWS Kent Publishing Company.
3. Petz, B. (1997) Osnovne statistike metode za nematematiare. Jastrebarsko: Naklada Slap.
4. http://www.enviroliteracy.org/pdf/materials/1210.pdf Preuzeto 19.05.2010.
NAPOMENE:
Svi podaci u ovim zadacima izmiljeni su za potrebe vjebi studenata i ne predstavljaju stvarno stanje u navedenim populacijama.
U zadacima toni rezultati mogu biti i oni koji donekle odstupaju od navedenih rezultata, uslijed rada s drukijim brojem decimalnih vrijednosti.
Zadnja promjena 13.05.2014.
top related