-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
1
2 test
2 test (hi-kvadrat) je statistiki postupak koji je veoma
praktian i esto se koristi, a slui da
bi utvrdili odstupaju li dobivene - opaene frekvencije (fo) od
frekvencija koje bismo oekivali uz
odreene hipoteze (teoretske ili oekivane frekvencije - ft ).
Drugim rijeima, je li odstupanje
izmeu opaenih i teoretskih frekvencija dobiveno sluajno uslijed
greke pri uzorkovanju, ili je to
prava razlika?
Opaene frekvencije su one koje dobijemo nekim istraivanjem, npr.
broj ljudi s odreenom
dijagnozom, broj puaa u nekom uzorku, broj prijevremeno roene
djece kod majki s dijabetesom i
kod majki bez dijabetesa itd. Oznaava se grkim slovom hi. I on,
kao i t-test, spada u
inferencijalnu statistiku.
( )
t
2
to2
f
f-f= pri emu fo znai opaene frekvencije,
a ft teoretske ili oekivane frekvencije.
No, za razliku od t-testa i nekih drugih rauna koji se mogu
primijeniti samo na
kvantitativne podatke, hi2 je primjenjiv i kada su podaci
izraeni na nominalnoj ljestvici, dakle kada
se radi o kvalitativnim podacima (kategorije kao to su spol,
rasa, mjesto roenja). Takoer, t-test se
smije raunati samo ako su podaci rasporeeni prema normalnoj ili
barem simetrinoj raspodjeli,
dok hi2 moemo primijeniti i ako je distribucija rezultata
znaajno razliita od normalne. Dakle,
kada ne moemo upotrijebiti tzv. parametrijsku statistiku, koja
zahtijeva normalnu distribuciju i
kvantitativne podatke, koristi se hi2 koji spada u tzv.
neparametrijsku statistiku.
Bitno je naglasiti da se 2 test rauna samo na frekvencijama
(brojene vrijednosti, npr. broj
bolesnika na odjelu, broj novina koje se svaki dan prodaju na
kiosku, broj pobaaja kod
maloljetnica u Hrvatskoj, broj studenata koji su proli na ispitu
itd.) i u raun nije doputeno uvrstiti
nikakve mjerene vrijednosti, mjerne jedinice ni postotke.
Osnovni podaci u istraivanju dakako,
mogu biti i mjerene vrijednosti, ali se u 2 test unose samo
njihove frekvencije. Npr. ako imamo
podatke o plaama radnih terapeuta u Hrvatskoj, te o njihovom
zadovoljstvu poslom, potrebno je
plae kategorizirati u dvije ili tri kategorije (npr. 2000-3500
kn niska; 3501-5000 srednja; 5001-
6500 visoka), te pobrojiti frekvencije u svakoj kategoriji.
Zadovoljstvo poslom moemo
kategorizirati kao ZADOVOLJAN ili NEZADOVOLJAN, odnosno takoer
se moe iskazati u tri
kategorije (nisko, srednje, visoko).
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
2
Hi-kvadrat doputa provjeru razliitih hipoteza; pri emu se
raunski izvodi uvijek na isti
nain, samo je razliit nain odreivanja teoretskih
frekvencija.
2 test moemo upotrijebiti u ovim sluajevima:
1. Kad imamo frekvencije JEDNOG UZORKA i provjeravamo razlikuju
li se dobivene frekvencije
od frekvencija koje oekujemo uz neku hipotezu - npr.:
hipoteza o sluajnoj raspodjeli, na primjer kod bacanja novia:
bacimo novi 100 puta,
i dobijemo 40 puta pismo i 60 puta glavu, a po sluaju je 50:50,
pa usporeujemo te dvije
distribucije da vidimo postoji li statistiki znaajna razlika meu
njima.
hipoteza postavljena na osnovi nekog poznatog odnosa u
populaciji, npr. od ukupnog
broja oboljelih od raka 25% se odnosi na rak dojke, a mi elimo
usporediti da li se naih
63 sluajeva raka dojke od ukupno 250 na klinici za tumore
razlikuje od poznatog udjela.
hipoteza o normalnoj raspodjeli, npr. esta kada promatramo
sposobnosti: da li je neka
sposobnost normalno raspodijeljena meu ispitanicima u naem
uzorku.
2. 2 moemo testirati i DVA ILI VIE NEZAVISNIH UZORKA i elimo
ustanoviti razlikuju li se
uzorci u opaenim svojstvima. Npr. postoji li statistiki znaajna
razlika u udjelu studenata i
studentica na studiju fizioterapije i sanitarnih inenjera.
3. Postoji i hi2 za zavisne uzorke. Kad imamo frekvenciju DVAJU
ZAVISNIH UZORAKA (1
grupa) koji imaju dihotomna svojstva. Usporeuju se rezultati
jedne te iste grupe prije i
poslije tj. ispituje se je li dolo do promjene. Naziva se jo
McNemarov test.
2 test ima i odreena ogranienja pri uporabi:
- test nije dobro koristiti ako su oekivane frekvencije premale.
Svaka oekivana frekvencija
trebala bi iznositi barem 5.0
- najmanji broj rezultata na kojem se moe primijeniti 2 mora
iznositi barem 20.
2 na jednom uzorku: - usporedba sa sluajnom distribucijom
1) U 100 bacanja novia dobili smo 44 puta glavu i 56 puta pismo.
Utvrdite postoji li statistiki
znaajna razlika izmeu dobivene distribucije i distribucije po
sluaju.
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
3
Tablica za hi-kvadrat test trebala bi izgledati poput ove nie. U
prvi stupac upisujemo
opaene frekvencije, dakle, one podatke koje smo dobili u
istraivanju, podatke s terena. U ovom
zadatku teoretska distribucija je sluajna, to znai da su sve ft
meusobno jednake, a njihovu
vrijednost dobit emo tako da sumu frekvencija podijelimo s
brojem kategorija (100 : 2). Potom
utvrdimo razliku opaenih i teoretskih frekvencija. Tu razliku
prije kvadriranja moramo umanjiti za
0.5 kad god radimo s jednim stupnjem slobode, i to njezinu
apsolutnu vrijednost, dakle,
zanemarujui predznak. To je tzv. Yatesova korekcija za
kontinuitet. Kada smo kvadrirali umanjene
razlike, potrebno je svaku pojedinu podijeliti s pripadajuom
teoretskom frekvencijom, te zadnji
stupac na koncu zbrojiti. Dobiveni zbroj je hi-kvadrat test.
Naime, formula nam slui kako bi nas
vodila kroz postupak, pa jo jednom naglaavam da dobiveni zbroj
zadnjeg stupca ne treba
uvrtavati u formulu.
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
44
56
50
50
-6
6
5.5
5.5
30.25
30.25
0.605
0.605
100 100 1.21
Hi2 =2= 1.21
Sada je potrebno, kao i kod t-testa, utvrditi je li dobiveni
hi-kvadrat znaajan ili nije. Za to nam
trebaju stupnjevi slobode (df). Za hi kvadrat test na jednom
uzorku, stupnjevi slobode odreuju se
tako da broj kategorija umanjimo za 1. Ovdje imamo dvije
kategorije, glavu i pismo, pa stoga
imamo 1 stupanj slobode.
df = N kategorija - 1
Oitamo granine vrijednosti uz odgovarajui stupanj slobode iz
tablice za hi-kvadrat, te na hi-
kvadrat usporedimo s graninim vrijednostima po istom principu
koji smo svladali za t-test.
Kako je dobiveni hi-kvadrat manji od granine vrijednosti uz
5% rizika, zakljuujemo da ne postoji statistiki znaajna
razlika izmeu nae distribucije i distribucije po sluaju.
Dobiveni 2= 1.21 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63
P>0.05
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
4
2) U 120 bacanja kocke jedinicu smo dobili 25 puta, dvojku 17
puta, trojku 15, etvorku 23, peticu
24 puta i esticu 16 puta. Razlikuju li se dobiveni rezultati
statistiki znaajno od oekivanog po
sluaju?
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
1
2
3
4
5
6
25
17
15
23
24
16
20
20
20
20
20
20
5
-3
-5
3
4
-4
25
9
25
9
16
16
1.25
0.45
1.25
0.45
0.80
0.80
120 120 5.00
Ne postoji statistiki znaajna razlika izmeu nae distribucije
i distribucije po sluaju.
3) Pitali smo 91-og pacijenta koja im je terapija bila
najuinkovitija od tri vrste terapije koju su
proli. 26 pacijenata navelo je elektroterapiju, 23 masau, a
preostali su se odluili za plivanje.
Zanima nas postoji li statistiki znaajna razlika izmeu nae
distribucije i sluajne kako bi utvrdili
preferiraju li pacijenti statistiki znaajno jednu vrstu terapije
u odnosu na drugu.
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
26
23
42
30.33
30.33
30.33
-4.33
-7.33
11.67
18.748
53.73
136.189
0.618
1.77
4.49
91 91 6.88
Razlika je statistiki znaajna. Pacijenti znaajno vie biraju
plivanje kao najuinkovitiju terapiju, nego elektroterapiju
ili
masau.
Dobiveni 2= 5 df = broj kategorija-1 = 6-1 = 5
Granini 2 (5%) = 11.070
Granini 2 (1%) = 15.086
P>0.05
Dobiveni 2= 6.88 df = broj kategorija-1 = 3-1 = 2
Granini 2 (5%) = 5.991
Granini 2 (1%) = 9.210 P
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
5
2 na jednom uzorku: - usporedba s poznatim udjelom
Poznati udio ili zadani udio u populaciji odnosi se na ve
utvrenu vrijednost (frekvenciju ili
postotak) u populaciji s kojom elimo usporediti na uzorak.
Slijede primjeri:
4) Od ukupnog broja oboljelih od raka, 18% odnosi se na rak
dojke. Zanima nas razlikuje li se ta
distribucija u populaciji od one koju smo dobili na naem uzorku:
od 250 sluajeva tumora
registriranih u klinici za tumore u posljednjih 6 mjeseci, 63 je
pacijentica s rakom dojke.
Pri postavljanju ovog zadatka, moramo voditi rauna da je ovih
250 sluajeva ukupan broj
opaenih frekvencija, od ega 63 otpada na tumor dojke, a
preostali na druge tumore. Dakle, imamo
dvije kategorije. S obzirom da u tablicu za hi-kvadrat ne
smijemo stavljati postotke, ovih 18%
moramo pretvoriti u teoretsku frekvenciju pomou postotnog rauna.
Trebamo dobiti koliko je 18%
od 250, te onda dobiveni broj oduzeti od 250 kako bi dobili
drugu teoretsku frekvenciju. Dalje
postupak slijedi kao i u prethodnoj vrsti hi-kvadrat testa.
45=100
25018=
100
SVE%=f t
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
63
187
45
205
18
-18
17.5
17.5
306.25
306.25
6.81
1.49
250 250 8.30
Hi2 =2= 8.30
U naem istraivanju je statistiki znaajno vei udio tumora
dojke u odnosu na situaciju u cijeloj Hrvatskoj.
5) Udio osoba starijih od 60 godina u opoj populaciji Hrvatske
iznosi 21.6%. U naem uzorku, od
2530 osoba, bilo je 598 osoba starijih od 60 godina. Utvrdite
razlikuje li se znaajno udio starijih
osoba u naem uzorku, od onog u opoj populaciji.
Dobiveni 2= 8.30 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63
P
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
6
48.546=100
25306.21=
100
SVE%=f t
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
598
1932
546,48
1983,52
-51,52
51,52
51,02
51,02
2603.04
2603.04
4.76
1,31
2530 2530.00 6.07
Hi2 =2= 6,07
U naem istraivanju je statistiki znaajno vei udio osoba
starijih od 60 godina u odnosu na opu populaciju u
Hrvatskoj.
6) U gradu Zagrebu je u oujku 2010. bilo 11,7% nezaposlenih, to
ukupno iznosi 37.327 ljudi. U
naem istraivanju sudjelovalo je 1053 subjekata s podruja grada
Zagreba, od ega je 98
nezaposlenih. Utvrdite razlikuje li se broj nezaposlenih u naem
istraivanju od onog u populaciji
grada Zagreba.
fo
ft
fo - ft
fo - ftKorig
(fo - ft)2
t
2to
f
ff
98
955
123,2
929,8
-25,2
25,2
24,7
24,7
610.09
610.09
4.952
0,656
1053 1053.00 5.608
Razlika je statistiki znaajna uz rizik manji od 5%: u naem
uzorku udio nezaposlenih je znaajno manji nego u gradu
Zagrebu.
Dobiveni 2= 6.07 df = broj kategorija-1 = 2-1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
7
2 na 2 i vie nezavisnih uzoraka
7) Od ukupno 73 studenta na I godini studija sanitarnih
inenjera, 21 ih je enskog spola, dok je na
studiju fizioterapije I godine upisano 50 studentica od ukupno
96 studenata. Utvrdite postoji li
statistiki znaajna razlika u udjelu studenata i studentica na
studiju fizioterapije i sanitarnih
inenjera.
Kako bi rijeili ovaj zadatak, potrebno je prvo napraviti tablicu
koja e nam biti osnova za
izraunavanje teoretskih frekvencija. U tablicu treba unijeti
obje varijable, i spol i studij. Koja e
varijabla biti po redovima, a koja po stupcima, sasvim je
svejedno, no, treba unijeti ne samo
subjekte s promatranim obiljejem, ve i one koji nemaju
promatrano obiljeje, a to su u ovom
sluaju mukarci. U tablici treba naznaiti sume po stupcima i po
redovima iji ukupan zbroj mora
biti jednak.
STUDENTICE STUDENTI Ukupno
FT
SAN
50
21
46
52
96
73
71 98 169
etiri frekvencije koje se nalaze u sredinjem dijelu tablice
predstavljaju opaene
frekvencije. Teoretske frekvencije ft dobijemo tako da za svaku
kuicu POMNOIMO SUMU
REDA SA SUMOM STUPCA I PODIJELIMO S TOTALNOM SUMOM
FREKVENCIJA:
Ukupno FT 71 x 96 /169=
40,33
98 x 96 /169=
55,67
96
SAN 71 x 73 /169=
30,67
98 x 73 /169 =
42,33
73
Ukupno 71 98 169
Suma oekivanih/teoretskih frekvencija mora biti jednaka sumi
opaenih frekvencija i to
nam slui za kontrolu da li smo dobro izraunali ft. Toleriraju se
samo mala odstupanja vezana uz
zaokruivanje decimalnih brojeva.
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
8
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
t
2to
f
ff
50
21
46
52
40.33
30.67
55.67
42.33
9.67
9.67
9.67
9.67
9.17
9.17
9.17
9.17
84.09
84.09
84.09
84.09
2.085
2.742
1.511
1.987
169 169.00 8.325
df = (broj redova -1) x (broj stupaca -1) rauna se samo broj
kategorija
Postoji statistiki znaajna razlika u omjeru studenata i
studentica na I
godini studija fizioterapije i sanitarnih inenjera: na
studiju
fizioterapije je znaajno vei udio studentica nego na studiju
sanitarnih inenjera.
8) Za dvije skupine bolesnika, od kojih je jedna koristila serum
(grupa A), a druga nije (grupa B)
elimo utvrditi razlikuju li se znaajno po broju osoba koje su se
oporavile. Uestalost oporavka u
skupini koja je dobila serum jest 75 oporavljenih osoba, od
ukupno 100 koliko ih je primilo serum.
U skupini bez seruma bilo je takoer 100 osoba, od kojih se
oporavilo 65 osoba.
Sami napravite 2 x 2 tablicu za hi-kvadrat, izraunajte
hi-kvadrat i odredite je li razlika u
broju oboljelih statistiki znaajna ili nije.
oporavili se nisu se oporavili
A
B
75
65
25
35
100
100
140 60 200
Dobiveni 2= 8.325 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
9
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
t
2to
f
ff
75
25
65
35
70
30
70
30
5
5
5
5
4.5
4.5
4.5
4.5
20.25
20.25
20.25
20.25
0.289
0.675
0.289
0.675
200 200 1.928
Ne postoji statistiki znaajna razlika u broju osoba koje su
se
oporavile izmeu skupine koja je primila serum (A) i skupine koja
nije
primila serum (B).
9) Ispitajte postoji li statistiki znaajna razlika u uestalosti
raka plua izmeu puaa i nepuaa.
U promatranoj skupini puaa od 488 osoba, njih 13 oboljelo je od
raka plua, dok je u skupini od
660 nepuaa oboljelo 5 osoba.
Puai Nepuai
S rakom plua
Bez raka plua
13
475
5
655
18
1130
488 660 1148
fo
ft
fo - ft
korigirano
fo - ft
(fo - ft)2
( )
t
2
to
f
f-f
13
5
475
655
7.65
10.35
480.35
649.65
5.35
-5.35
-5.35
5.35
4,85
4,85
4,85
4,85
23,52
23,52
23,52
23,52
3.07
2.27
0.049
0.036
1148 1148.00 5.425
Dobiveni 2= 1.928 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P>0.05
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
10
Postoji statistiki znaajna razlika u udjelu oboljelih od raka
plua
izmeu puaa i nepuaa: u skupini puaa ima znaajno vie
oboljelih od raka plua.
10) Studenti su podijeljeni u 3 grupe i zadano im je gradivo
koje moraju nauiti pomou 3 razliite
metode (A, B i C). Na provjeri znanja, od 55 ljudi koji su uili
metodom A, 50 studenata je
zadovoljilo za prolaz, od 61 osobe koja je uila metodom B, prolo
je 47 osoba, dok je u skupini
studenata koji su uili metodom C palo 8 od ukupno 64 studenta.
Utvrdite postoji li statistiki
znaajna razlika u prolaznosti studenata s obzirom na razliitu
metodu kojom su uili.
A B C
Zadovoljio
Nije zadovoljio
50
5
47
14
56
8
153
27
55 61 64 180
fo
ft
fo - ft
(fo - ft)2
t
2to
f
ff
50
47
56
46.75
51.85
54.40
3.25
-4.85
1.60
10.56
23.52
2.56
0.226
0.454
0.047
5
14
8
8.25
9.15
9.60
-3.25
4.85
-1.60
10.56
23.52
2.56
1.280
2.572
0.267
180 180.00 4.846
Ne postoji statistiki znaajna razlika u uspjenosti studenata
izmeu
skupina koje su uile pomou tri razliite metode.
Dobiveni 2= 5.425 df = 1 x 1 = 1
Granini 2 (5%) = 3.84
Granini 2 (1%) = 6.63 P0.05
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
11
11) Istraivaa je zanimalo koja srednja kola najbolje priprema
uenike za prijamni ispit.
Promatrani su maturanti iz tri srednje kole (I, II i III
gimnazija), te je utvreno da od 89 uenika I
gimnazije koji su se prijavili na prijamni ispit, njih 69 ga je
i poloilo; od 123 uenika II gimnazije,
94 je poloilo prijamni ispit, te iz III gimnazije je 47 uenika
poloilo prijamni od ukupno njih 62
koji su se prijavili na fakultete.
POLOILI NISU POLOILI
I
II
III
69
94
47
20
29
15
89
123
62
210 64 274
fo
ft
fo - ft
(fo - ft)2
( )
t
2
to
f
f-f
69
94
47
68.21
94.27
47.52
0.79
-0.27
-0.52
0.6241
0.0729
0.2704
0.0091
0.0007
0.0057
20
29
15
20.79
28.73
14.48
-0.79
0.27
0.52
0.6241
0.0729
0.2704
0.0300
0.0025
0.0187
274 274.00 0.0667
ako se rauna na dvije decimale 0.04
Ne postoji statistiki znaajna razlika izmeu maturanata triju
srednjih
kola u uspjenosti upisa na fakultete.
PONOVIMO:
2 test spada u neparametrijsku statistiku za njegovo koritenje
nije vano da rezultati budu normalno distribuirani.
Moe se koristiti i na nominalnoj mjernoj skali.
Dobiveni 2= 0.067 df = 1 x 2 = 2
Granini 2 (5%) = 5.99
Granini 2 (1%) = 9.21 P>0.05
-
Zdravstveno veleuilite u Zagrebu Vjebe iz statistike
12
Razlikujemo opaene i teoretske frekvencije. Opaene f dobijemo u
istraivanju, a teoretske moramo izraunati sami.
Vrste hi-kvadrat testa koje smo koristili su 2 na jednom uzorku,
te 2 na 2 i vie nezavisnih uzoraka. Od 2 na jednom uzorku radili
smo usporedbu sa sluajnom distribucijom, te sa zadanim udjelom u
populaciji.
Kad je df=1, radimo korekciju: umanjujemo razliku opaene i
teoretske frekvencije za 0.5 (bez minusa!).
Nacrtajte mentalnu mapu na temu 2 testa kako biste si lake
uobliili i organizirali gradivo.
LITERATURA:
1. Dyer, C. (1995) Beginning research in psychology. Oxford:
Blackwell Publishers Inc.
2. Howell, D.C. (1989) Fundamental Statistics for the Behavioral
Sciences. Boston: PWS Kent Publishing Company.
3. Petz, B. (1997) Osnovne statistike metode za nematematiare.
Jastrebarsko: Naklada Slap.
4. http://www.enviroliteracy.org/pdf/materials/1210.pdf Preuzeto
19.05.2010.
NAPOMENE:
Svi podaci u ovim zadacima izmiljeni su za potrebe vjebi
studenata i ne predstavljaju stvarno stanje u navedenim
populacijama.
U zadacima toni rezultati mogu biti i oni koji donekle odstupaju
od navedenih rezultata, uslijed rada s drukijim brojem decimalnih
vrijednosti.
Zadnja promjena 13.05.2014.