-
POGLAVLJE 4
Deskriptivna statistika
U uvodnom poglavlju kada smo odgovarali na pitanje: ta je
statistika i emu ona slui?
kazali smo da postoje samo dva naina na koji koristimo
statistiku. Jedan je da kvantitativno
opiemo neku pojavu a drugi je da statistikom analizom na osnovu
manifestacije neke pojave
(uzorka) doemo do zakljuaka o samoj pojavi (populaciji). Dakle,
moemo rei da postoje dve
vrste statistike koje se meusobno dopunjuju.
a) deskriptivna (ili opisna) statistika ija je cilj da
sistematski, numeriki i saeto prikae
neke podatke; i
b) statistiku zakljuivanja iji je cilj da nam omogui uoptavanje
(generalizaciju) od uzorka
na populaciju.
Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku
izmeu deskriptivne statistike i
statistike zakljuivanja bie potrebno da se upoznate i sa jednom
i sa drugom tj. da proitate
celu ovu knjigu. Na ovom mestu dovoljno je da kaemo da se
deskriptivna statistika bavi
kvantitativnim opisivanjem podataka kojim raspolaemo (najee su
to podaci iz uzorka jer
retko ili gotovo nikad nismo u prilici da opisujemo cele
populacije) dok statistika zakljuivanja
nastoji da uini korak dalje: da na osnovu raspoloivih podataka
kae i neto vie.
Ukoliko npr. izmerimo visinu svih deaka i devojica u nekom estom
razredu osnovne
kole, nee nam biti teko da izraunamo prosenu visinu celog
razreda, prosenu visinu
deaka i prosenu visinu devojica. To je, izmeu ostalog, posao
deskriptivne statistike. Ukoliko
pak na osnovu tih podataka elimo da zakljuimo da razlika u
visini izmeu deaka i devojica
(devojice su na tom uzrastu obino neto vie) nije sluajna ve je
posledica delovanja nekog
sistematskog inioca (ranijeg poetka puberteta) i da
najverovatnije ne vai samo za na uzorak
ve i za sve deake i devojice tog uzrasta onda prelazimo u domen
statistike zakljuivanja. Ve
na ovom krajnje jednostavnom primeru uviate koliko je posao
statistike zakljuivanja riziniji,
koliko je veliki iskorak od deskriptivne statistike do
statistike zakljuivanja. Kako je uopte
mogue, ak i uz sve mogue ograde, tvrditi neto o stvarima koje ne
poznajemo, koje nismo
izmerili? Moraete da saekate odgovor na ovo pitanje a on e vas,
obeavam, uvesti u samu
sutinu naunog pristupa svetu. Ukoliko vam ovo obeanje u ovom
trenutku izgleda moda
Deskriptivna statistika se bavi opisom onoga to znamo.
Statistika zakljuivanja ima mnogo tei
zadatak da na osnovu onoga to znamo kaemo neto o onome to ne
znamo.
-
isuvie smelo upitajte se u emu se zapravo sastoji posao naunika.
On ili ona neprekidno
pokuavaju da odgonetnu ovaj bskonano veliki i sloeni svet na
osnovu veoma ograniene
koliine podataka kojima raspolau. Oni neprekidno ele da u svojim
podacima pronau
pravilnosti koje ne opisuju samo te podatke ve se odnose i na
injenice izvan i preko svojih
podataka. To, verujte, ne bi bilo mogue bez statistike
zakljuivanja.
U ovom poglavlju baviemo se iskljuivo deskriptivnom statistikom.
Odmah treba rei
da je deskriptivna statistika svakako jednostavniji, za uenje
laki ali i dosadniji deo statistike.
Pravi izazovi za razumevanje i uenje statistike dolaze tek pri
susretu sa statistikom
zakljuivanja. No, kako to obino biva treba poeti od jednostavnog
i lakeg jer bez
razumevanja osnovnih pojmova deskriptivne statistike svakako se
ne moe razumeti statistika
zakljuivanja (Poglavlje 7).
Kako opisati podatke?
Bez obzira da li su pred vama podaci do kojih ste doli na osnovu
prouavanja uzorka
(to e gotovo uvek biti sluaj) ili na osnovu prouavanja
populacije (to se gotovo nikada nee
desiti), svako pa i najjednostavnije istraivanje sruie pred vas
gomilu brojeva sa kojima, bar
isprva, neete znati ta da radite. Pretpostavimo da elite da
ispitate vezu izmeu visine i
inteligencije tj. da na osnovu istraivanja proverite olako
izreenu tvrdnju da su vii ljudi ujedno
i pametniji. Dosadila su vam prazna naglabanje na tu temu,
navoenje primera (Pera je visok i
pametan), kontraprimera (Ljuba je jo vii ali je glup ko uskija)
i neproverenih glasina (to
vai samo za ene, jer su mukarci ionako svi glupi) i elite da
jednom za svagda date nauni
odgovor na to vano pitanje. im iole ozbiljnije ponete da
razmiljate o vaem istraivanju
odmah e vam postati jasno da vas zanima univerzalni odgovor na
to pitanje, odgovor koji e
vaiti za sve ljude, i da nikada neete imati dovoljno novca,
vremena i energije da izmerite
visinu i inteligenciju svih ljudi na ovoj planeti. Stoga ete
svoje pitanje, i svoju ljubopitljivost,
ta je to parametrijska a ta neprametrijska statistika?
Nezavisno od podele na deskriptivnu i statistiku zakljuivanja,
postoji i podela po kojoj se statistika
se deli na
a) parametrijsku; i
b) neparametrijsku statistiku.
Iako emo se ve u ovom poglavlju pozivati na obe ove podele,
pravi smisao druge podele (po kojoj
se statistika deli na parametrijsku i neprametrijsku) postae vam
jasan tek kada budete proitali
Poglavlje 9 ove knjige.
-
ubrzo morati da suzite i da se zadovoljite ispitivanjem odnosa
visine inteligencije na mladima iz
nae zemlje. Nijedno psiholoko istraivanje se ne moe izvriti bez
ispitanika a vama su svakako
najpristupaniji ispitanici uenici i studenti. Ve sada, na ovom
potpuno izmiljenom primeru
uviate da krajnje realna ogranienja usmeravaju nauni interes.
Mladih ljudi (uzrasta od 15 do
30 godina) ak i u tako maloj zemlji kao to je naa je relativno
mnogo, novaca za istraivanje
uvek malo, pa ete najverovatnije morati da se zadovoljite
uzorkom koji e obuhvatiti npr. 200-
300 studenata naeg fakulteta. Kada prikupite taj uzorak od vaih
ispitanike ete (drei se
naela da je vano prikupiti to vie informacija) osim podataka o
visini i inteligenciji eleti da
prikupite i druge podatke: o polu (moda odista veza izmeu pameti
i visine vai samo za
devojke), mestu stanovanja, materijalnom stanju i sl. Vrlo se
lako moe desiti da se pred vama
nae 1000 razliitih brojeva koje e biti krajnje teko obuhvatiti
jednim pogledom.
Istraivanje koje studenti naeg fakulteta obavljaju u okviru svog
zavrnog rada obino
podrazumeva zadavanje dva psiholoka merna instrumenta (ili
testa) na uzorku od 100 do 200
ispitanika. Svaki taj test se sastoji od nekih 30 do 40 pitanja
pa je sasvim mogue da ete se pri
analizi podataka tom prilikom susresti sa 150 (ispitanika) x 30
(pitanja po testu) x 2 (testa) =
9000 brojeva koji e sadrati sve informacije koje ste vi
prikupili vaim istraivanjem. Nema
glave koja e tih 9000 hiljada brojeva moi da sagleda i da na
osnovu njih donese ispravne
zakljuke. Nikako ne bi trebalo da budete zadivljeni tom koliinom
podataka. Uz sve duno
potovanje naporu koji je pred vama, istraivanja tog obima su
kolska i prvenstveno slue tome
da studenti demonstriraju kompetencije koje su stekli tokom svog
trogodinjeg kolovanja.
Svako iole ozbiljnije istraivanje je daleko obimnije i, samim
tim, rezultira u daleko veoj koliini
podataka, u daleko vie brojeva koje treba analizirati.
Sva ova pria bila je usmerna samo ka jednom zakljuku: saimanje i
saeto prikazivanje
podataka je jedan od osnovnih zadataka deskriptivne statistike.
Bez tog saetog prikazivanja
podataka, istraiva nikada nee biti u mogunosti da se do kraja
zblii sa svojim podacima, da
ih obuhvati jednim pogledom, da ih sagleda, oseti i razume. Pre
pristupanja bilo kakvoj
statistikoj analizi valja prvo pogledati podatke koje smo
dobili. Jedno od zlatnih pravila kojih se
dre dobri istraivai glasi: uvek gledaj u svoje podatke!
Zato je vano gledati u podatke?
Laka dostupnost raunarskim programima za statistiku obradu
podataka donela je sa
sobom i lou naviku koju bar za ovu priliku moemo da nazovemo
gubljenje kontakta sa
podacima. ak i meu iskusnim istraivaima iroko je rasprostranjen
manir da se statistikoj
analizi pristupa odmah posle unosa podataka. Postoje bar dva
vana razloga zbog kojih je
gledanje u podatke nuno da bi se dobio pravi oseaj o tome ta nam
oni govore.
-
1. Otkrivanje greaka unosa i traka. Budui da je podataka uvek
mnogo, velika je
verovatnoa da emo negde pogreiti prilikom unosa podataka, da emo
umesto
broja 77 (to moe biti IQ naeg ispitanika) u program kojim
unosimo podatke radi
dalje statistike obrade upisati broj 777 (to svakako ne moe biti
IQ naeg
ispitanika). Uskoro emo, ba na tom primeru, videti kako
posledice takve banalne
greke mogu biti veoma ozbiljne. Isto tako, gledanjem u podatke
lako emo otkriti
trke, podatke koji odudaraju od opteg trenda i koji zahtevaju
posebnu panju.
Moda je trak posledica nerazumevanja uputstva koje smo dali
ispitanicima,
moda je trak posledica ispitanikove nesaradnje. Neki ispitanici
jednostavno ne
obraaju panju na uputstvo koje smo im dali pa misle da smo ih
pitali jednu stvar a
odgovaraju na neku sasvim drugu. Neki drugi, iz njima poznatih
razloga, ne ele da
sarauju i bez obzira na garanciju anonimnosti koju uvek dajemo
svim ispitanicima,
na sva pitanja odgovaraju istim odgovorom. Pregledom podataka
lako ete otkriti
ispitanika koji je na sva postavljena pitanja odgovorio
jednoobrazno sa sasvim se
slaem ili sasvim se ne slaem. Takvi nazovi odgovori samo unose
um u
istraivanje i ometaju nas da steknemo pravu sliku o pojavi koju
prouavamo. to
pre ih otkrijemo i to pre ih eliminiemo iz naih podataka, jer
greke unosa i
odgovori ispitanika koji se ne pridravaju uputstva i nisu
podaci, to bolje. Pri tom,
nikako ne treba iz podataka izbacivati trke koji nisu posledica
nemarnosti (bilo
istraivaa bilo ispitanika) ve jednostavno dolaze od ispitanika
koji se ne uklapaju u
opti trend. Takvih ispitanika e uvek biti i oni samo potvruju
jednu od osnovnih
teza statistike o varijabilnosti ovog sveta. Ponekad je veoma
teko razlikovati
podatke koji odudaraju od opteg trenda samo zbog toga to su
retki (i koje svakako
treba sauvati) od onih koji su posledica nemarnosti. Stoga je
vano da se oslonimo
na jo jedno zlatno istraivako pravilo: iz naih podataka moemo da
izbacimo
samo one podatke za koje sa sigurnou moemo da tvrdimo da
predstavljaju
pogreno oitavanje (ili artefakt) bilo da je ono nastalo grekom
istraivaa bilo da je
ono nastalo nesaradljivou ispitanika.
2. Odluka o vrsti statistike analize. Koju vrstu statistike
analize emo primeniti zavisi i
od toga kako izgledaju nai podaci. Da li nai podaci bitno
odstupaju od
matematikih modela normalne distribucije i prave linije (o tome
ta je normalna ili
Gausova distribucija priaemo detaljno u Poglavlju 5) u prilinoj
meri utie na
odluku o tome koje statistike postupke emo primeniti u
nastojanju da iz njih
izvuemo maksimalnu koliinu informacija. Ukoliko nai podaci ne
odstupaju bitno
od normalne distribucije primeniemo parametrijsku statistiku a
ukoliko odstupaju
imaemo dosta razloga da razmiljamo o primeni neparametrijske
statistike. Ukoliko
se odnos izmeu dve varijable ne moe najbolji opisati pravom ve
krivom linijom
moda emo biti prinueni da ih transformiemo. Mada postoje
formalni statistiki
-
tetsovi koji proveravaju stepen odstupanja podataka od tih
matematikih modela,
ak i neizvebanom oku nee biti preterano teko da uoi bitna
odstupanja. Jo
jedan razlog da pre svake analize bacite pogled na svoje
podatke.
Kako saeti podatke?
Osnovni zadatak deskriptivne statistike jeste uvoenje reda u
haos. Haos nastaje usled
ogromne koliine podataka koja se prikupi ak i u najjednostanijim
istraivanjima; a red se uvodi
organizacijom i saimanjem tih podataka. Bez tog organizovanja i
saimanja podataka bilo bi
teko, ako ne i nemogue, da ostvarite kontakt sa svojim podacima
o kom smo malo pre priali.
U statistici postoji nekoliko naina da se samu podaci: tabelarno
(upotrebom tabela), grafiki
(crtanjem), i numeriki (brojano). Sva tri naina se meusobno
dopunjuju i valja ih
primenjivati u cilju ostvarivanja to boljeg kontakta sa
prikupljenim podacima.
1. Tabelarno prikazivanje podataka.
Organizacijom i grupisanjem podataka u tabele mi veoma lako,
iole zainteresovanom itaocu,
moemo da saoptimo veoma veliku koliinu informacija. Saimanje
podataka u tabele ini ih
pristupanijim i lakim za upotrebu. Hiljade i hiljade pojedinanih
posmatranja moe se saeti u
veoma pregledne tabele. Tako Tabela 4.1. na saet i organizovan
nain rezimira podatke o
bruto i neto zaradama svih zaposlenih u Srbiji za 2008 2010.
godinu. Ta tabela (saimajui
doslovno milione pojedninanih podataka) nam omoguuje da jednim
pogledom utvrdimo
kako su prosene plate u Beogradu najvee a u Toplikom okrugu
najmanje, kako su plate
unutar Vojvodine manje-vie ujednaene dok u Centralnoj Srbiji
postoje mnogo vea
odstupanja od okruga do okruga, kako se prosene plate u
Vojvodini i prosene plate u Srbiji
bitno ne razlikuju od republikog proseka. Bez pomoi te tabele
bilo bi potpuno nemogue
savladati sve te silne podatke i bilo bi, isto tako, potpuno
nemogue na osnovu njih doneti bilo
kakav zakljuak. Dobro organizovane i pregledne tabele nam
omoguavaju da vidimo ono to je
nemogue videti u sirovim podacima. Tabelarno prikazivanje
podataka i pravila koja olakavaju
dizajniranje tabela bile su velike teme statistikih udbenika sve
do masovne rasprostranjenosti
programa za statistiku obradu podataka. Danas ti programi
obiluju odista velikim
mogunostima i opcijama koj znaajno olakavaju taj posao. Zbog
toga se mi neemo mnogo
zadravati na tabelarnom saimanju podataka ve emo se od te teme
oprostiti uz konstataciju
da je tabeliranje podataka veoma koristan i lak nain da
ostvarite bolji kontakt sa podacima i da
ga svakako treba koristiti pre nego to se upustite u dalju
statistiku analizu. N
-
2008. 2009. 2010.
bruto zarade
neto zarade
bruto zarade
neto zarade
bruto zarade
neto zarade
Republika Srbija 45674 32746 44147 31733 47450 34142
Centralna Srbija 45582 32688 44424 31930 47806 34422
GRAD BEOGRAD 56011 40089 55627 39862 59174 42489
MAVANSKI OKRUG 38514 27617 36142 25998 40154 28884
PODUNAVSKI OKRUG 47458 34117 42455 30653 47086 34082
UMADIJSKI OKRUG 39421 28324 38942 28044 41764 30119
POMORAVSKI OKRUG 38190 27368 36629 26605 38713 28367
BORSKI OKRUG 41569 29905 40757 29340 45628 32809
ZAJEARSKI OKRUG 34760 24925 34564 24822 38205 27507
ZALTIBORSKI OKRUG 39190 28460 36997 26848 40148 29165
MORAVIKI OKRUG 36907 26577 36808 26549 39830 28727
RASINSKI OKRUG 35863 26150 34736 25288 37086 26918
NIAVSKI OKRUG 38317 27337 36522 26269 39488 28513
TOPLIKI OKRUG 31234 22398 29510 21217 32669 23689
PINJSKI OKRUG 33556 24009 34102 24495 36302 26118
Vojvodina 45924 32906 43403 31203 46496 33392
SEVERNO-BAKI OKRUG 41947 30188 40874 29318 43102 30998
SREDNJE-BANATSKI OKRUG 43209 30935 41824 30017 45310 32358
SEVERNO-BANATSKI OKRUG 42385 30392 40707 29270 42348 30467
JUNO-BANATSKI OKRUG 47734 34173 44194 32125 49280 35212
ZAPADNO-BAKI OKRUG 43092 30974 40834 29383 42103 30291
JUNO-BAKI OKRUG 49290 35278 46774 33513 50524 36327
SREMSKI OKRUG 43611 31216 39095 28123 40853 29442
Izvor podataka: Republiki zavod za statistiku, 2012.
Tabela 4.1. Prosene zarade po okruzima , godinji prosek u
dinarima za 2008 -2010.
-
2. Grafiko prikazivanje podataka.
Davno je reeno da slika govori vie od hiljadu rei. U naoj prii o
deskriptivnoj statistici
to bi jednostavno znailo da je grafiki (slikovni) nain esto
mnogo efikasniji u saetom
prikazivanju podataka od tabelarnog. Odista, dok tabele esto
mogu da budu veoma
komplikovane i da zahtevaju prilian stepen koncentracije,
grafikoni su uvek laki i jednostavni za
razumevanje. Postoji vie naina na koje moemo da grafiki
predstavimo rezultate. Jedan,
moda i najee korien nain jeste upotrebom histograma
(stubia).
Slika 4.1. Rast obima maloprodaje u Srbiji u milijardama evra za
period 2006 2011. Izvor: magazin InStore, 2012. Lako se moe uoiti
da je taj promet, uprkos svetskoj ekonomskoj krizi koja je poela u
jesen 2008. u stalnom
usponu i da se udvostruio u proteklih 6 godina.
Histogrami se mogu koristiti za prikazivanje bilo kojih podataka
ali su naroito pogodni
za prikazivanje diskretnih varijabli ili odnosa diskretnih i
kontinuiranih varijabli. Na apscisi (X osi)
Slike 4.1. su godine (diskretni, celi brojevi) dok se na
ordinati (Y osi) nalazi maloprodajni promet
izraen u evrima (kontinuirana varijabla). Isti princip korien je
i u Slici 4.2. koja prikazuje
promet u maloprodaji u pet ex-YU drava. Na apscisi se nalaze
imena drava (nominalna,
diskretna varijabla) dok se na ordinati nalazi maloprodajni
promet izraen u evrima
(kontinuirana varijabla).
3,86
5,45
6,265,91
6,56
7,74
0
1
2
3
4
5
6
7
8
9
2006 2007 2008 2009 2010 2011
-
Slika 4. 2. Obim maloprodaje u pet ex-YU drava u 2011. izraen u
milijardama evra. Izvor: magazin InStore, 2012. Uoavate da je
maloprodajni promet najvei u najmnogoljudnijoj Srbiji a najmanji u
Crnoj Gori koja ima najmanji
broj stanovnika.
Distribucije
U uvodnom poglavlju upoznali smo se sa pojmom varijabilnosti.
Kazali smo da je
varijabilnost jedna od osnovnih zakonitosti ovog sveta i da se
ljudi razlikuju po svim merenim
osobinama i da su sve pojave koje merimo varijabilne pa ih stoga
u nauci i zovemo varijablama.
Nain na koji se varijable rasporeuju du kontinuuma naih
ispitanika nazivamo distribucija
(raspored) neke varijable. U deskriptivnoj statistici mi
nastojimo da opiemo distribuciju na
najekonominiji nain tako to emo opisati njen oblik i tako to emo
navesti neku meru njene
centralne tendencije i neku meru njene varijabilnosti.
Slika 4.3. e nam posluiti da detaljnije objasnimo mogue razlike
izmeu distribucija. Najbolji
nain da mislite o nekoj distribuciji jeste da ispod krive koja
je opisuje zamislite glavice
ispitanika iji skorovi obrazuju tu distribuciju. Tamo gde je
kriva koja opisuje distribuciju najvia
nalazi se najvie ispitanika a tamo gde je kriva koja opisuje
distribuciju najnia nalazi se
najmanje ispitanika. Na sve tri distribucije prikazane na Slici
4.3. najvie ispitanika u sredinjem
delu distribucije a najmanje na njenim krajevima. Oigledno je da
su distribucije A i C istog
oblika a da je oblik distribucije B neto drugaiji. Isto tako,
moemo rei i da se distribucije A i B
7,74
5,67
4,72
2,81
0,86
0
1
2
3
4
5
6
7
8
9
Srbija Hrvatska Slovenija Bosna i Hercegovina
Crna Gora
Distribucije se meusobno razlikuju po obliku, merama centralne
tendencije i merama
varijabilnosti. Najjednostavniji numeriki opis neke distribucije
sastoji se od navoenja mere
centralne tendencije i mere varijabilnosti.
-
ne razlikuju po centralnoj tendenciji jer se najvei broj
ispitanika u obe distribucije grupie oko
iste vrednosti. Nasuprot tome, centralna tendencija distribucije
C pomerena je udesno, ka viim
vrednostima. S druge strane, varijabilnost (raspon od najnieg do
najvieg skora) distribucije A i
C je jednaka dok je varijabilnost distribucije B neto manja.
Moemo rei da je distribucija B ua
nego distribucije A i C jer je razmak izmeu najnieg skore te
distribucije manji nego to je to
sluaj sa distribucijama A i C.
Slika 4. 3. Tri distribucije koje se meusobno razlikuju po
obliku, centralnoj tendenciji i varijabilnosti
U psihologiji obino imamo posla sa varijablama koje se simetrino
rasporeuju. Zbog toga su
na Slici 4.3. sve tri prikazane distribucije simetrine. Najee,
distribucija psiholokih varijabli
ima zvonasti oblik kakav imaju distribucije A i C. Distribuciju
takvog oblika zovemo normalna ili
Gausova distribucija u ast velikog nemakog matematiara iz 19.
veka. Normalnom ili
Gausovom distribucijom emo se mnogo detaljnije baviti u
Poglavlju 5. Na ovom mestu
dovoljno je da kaemo da nam, budui najea, ona slui kao standard
za opisivanje drugih
distribucija koje horizonatlno ili vertikalno odstupaju od
nje.
Horizonatlno odstupanje (zakrivljenost) od normalne distribucije
nazivamo skjunes (od
engleskog skewness). Zavisno od smera odstupanja, postoje
pozitivno (Slika 4.6.) i negativno
(Slika 4.7.) zakrivljene distribucije.
Vertikalno odstupanje od normalne distribucije zovemo kurtozis
(engleski curtosis) i ono
ukazuje na to da li je gomilanje skorova ispod take najvie
uestalosti vie ili nie nego kod
normalne distribucije. Budui da nam slui kao standard, za
normalnu distribuciju kaemo da je
mezokurtina (tj. srednje visoka). Vie a ue distribucije su
leptokurtine a nie a ire su
platokurtine (Slika 4.4).
-
Slika 4.4. Kurtozis: vertikalno odstupanje od normalne
distribucije
Mere i parametri
Ve na samom poetku ove knjige istakli smo razliku izmeu uzoraka
(podataka kojima
raspolaemo) i populacija (svih sluajeva koji nas zanimaju).
Uzorci su dostupni i nee nam biti
naroito teko da ih opiemo merama centralne tendencije (kao to je
npr. aritmetika sredina
uzorka) i merama varijabilnosti (kao to je npr. standardna
devijacija uzorka). U tom svom znaenju,
re mera se odnosi na broj koji saima neke bitne osobine uzorka.
S druge strane re parametar
oznaava broj koji saima neke bitne osobine populacije. Dok su
nam mere lako dostupne i
poznate, parametri (pravo stanje stvari) nam uglavnom ostaju
nedostupni i nepoznati zbog toga to
su populacije po pravilu ogromne a njihovo prouavanje skupo. Sve
to znamo o populacijama i
parametrima znamo na osnovu prouavanju uzoraka. Zbog toga kaemo
da su mere procene
populacijskih parametara do kojih dolazimo na osnovu prouavanja
uzorka. Sasvim
razumljivo,prilikom odabira uzorka trudimo se da nam on omogui
nepristrasnu i to je mogue
taniju procenu parametara (pravih vrednosti). Po unapred
usvojenom dogovoru (konvenciji)
parametre oznaavamo grkim slovima () a mere latininim slovima
(M, SD).
-
I. MERE CENTRALNE TENDENCIJE
Numeriki opis podataka obavezno podrazumeva i navoenje neke mere
centralne
tendencije. Ukoliko u svakodnevnom ivotu elimo da opiemo neku
pojavu mi se veoma esto
pozivamo na neki broj koji opisuje neki proseni intenzitet te
pojave. Kada posle posete nekoj
stranoj zemlji elimo da nae sagovornike ubedimo u to kako se u
toj zemlji dobro ivi mi kao
lako prihvatljiv argument navodimo da je u toj zemlji prosena
plata npr. 800 evra tj. dosta via
nego to je prosena plata u naoj zemlji. Isto tako, kada se
raspitujemo za klimu u nekoj
dalekoj i nepoznatoj zemlji podaci o prosenoj letnjoj i zimskoj
temperaturi nam pomau da
shvatimo ta nas oekuje na toj destinaciji. Uspenu karijeru naeg
Vlade Divca u amerikoj NBA
ilustrujemo podatkom da je on odigravi 1134 utakmice u proseku
davao 11.8 koeva po
utakmici i da je proseno imao 8.2 uhvaene lopte i 3.1 dodavanja
po utakmici. Oni koji poznaju
koarku su svakako zadivljeni tim brojevima. Naravno, svakome je
jasno da je na Vlade na
nekim utakmicama bio uspeniji a na nekim manje uspean ali da ti
brojevi dobro opisuju
njegovo viegodinje igranje u najprestinijoj koarkakoj ligi na
svetu. Do njih smo doli tako
to smo ukupan broj koeva, uhvaenih lopti i dodavanja podelili sa
brojem utakmica koje je
Divac odigrao. Na taj nain, dobili smo 3 aritmetike sredine (za
svaku kategoriju po jednu). Sa
samo 3 broja opisali smo ono to se deavalo tokom 16 godina na
preko hiljadu utakmica.
Aritmetika sredina
Aritmetika sredina (engleski mean) je intuitivna i lako
razumljiva mera centralne
tendencije. Sa njom se sreemo svakodnenvno kada izraunavamo
prosenu ocenu tokom
studija, prosenu cenu kilograma paradjaza na razliitim gradskim
pijacama, prosean broj
posetilaca Narodnog pozorita i sl. Svako od nas ima neko
iskustvo sa tom merom i zbog toga
polazimo od nje u naoj nameri da se upoznamo sa osnovim
elementima deskriptivne statistike.
Svako od nas je bar jednom bio u prilici da izrauna aritmetiku
sredinu pa vam se verovatno
ini da o aritmetikoj sredini znate sve i da itajui ovu knjigu
neete saznati nita novo o ovoj
njaee korienoj meri centralne tendencije. Ipak, postoje 3 veoma
vane osobine aritmetike
sredine o kojima do sada verovatno niste razmiljli i koje e nam
posluiti kao uzor kada
budemo ocenjivali ostale mere koje koristimo u opisu
podataka.
1. Aritmetika sredina je uvek samo jedna. Za svaki niz mera
postoji samo jedna
aritmetika sredina. To je veoma zgodna osobina za neku meru. Kao
to ete uskoro
videti, ona nije zajednika svim merama centralne tendencije.
2. Aritmetika sredina poiva na svim prikupljenim podacima. Ko to
znate, pri
izraunavanju aritmetike sredine uzimamo u obzir sve pojedinane
sluajeve, svaku
utakmicu na kojoj je igrao Vlade Divac, ocenu sa svakog ispita
koji ste polagali.
Aritmetika sredina zavisi od rezultata svakog naeg ispitanika.
Kao to ete uskoro
-
videti, ova lepa osobina nije zajednika svim merama centralne
tendencija ali ni svim
merama varjabilnosti
3. Aritmetika sredina je izraena u mernim jedinicama varijable
koju merimo. Ukoliko
izraunavamo aritmetiku sredinu visine ona e biti izraena u
centimetrima, ukoliko
izraunavamo aritmetiku sredinu teine ona e biti izraena u
kilogramima itd. Kao to
ete uskoro videti, nisu sve mere centralne tendencije i sve mere
varijabilnosti izraene
u jednicama varijable koje merimo.
Te lepe osobine aritmetike sredine e nam posluiti kao uzor na
osnovu koga emo
procenjivati i ostale mere deskriptivne statistike, bez obzira
da li se radi o merama centralne
tendencije ili se radi o merama varijabilnosti.
Kako se rauna aritmetika sredina
Kao to smo ve kazali i kao to svi dobro znamo aritmetika sredina
se rauna tako to
saberemo pojedinane vrednosti varijable koju merimo pa taj zbir
podelimo sa brojem
posmatranja odnosno ispitanika. Tu operaciju moemo lako da
opiemo sledeom formulom:
Formula 4.1. Aritmetika sredina populacije () je kolinik zbira
(svih pojedinanih (xi) posmatranja i broja tih posmatranja (N).
Primera radi, pretpostavimo da se populacija koja prouavamo
sastoji od samo 9 sluajeva koji
su opisani brojevima:
46 64 54 67 77 68 62 56 38
Aritmetika sredina populacije je onda
Aritmetika sredina ima i jedni ozbiljnu manu: veoma je osetljiva
na ekstremne vrednosti ili trke
tj. na vrednosti koje jasno odudaraju od ostalih vrednosti u
nekom nizu mera. Samo jedna takva
vrednost, samo jedan pogreno unet podatak ili samo jedan
ispitanik koji po svojim osnovnim
osobinama ne pripada ostalim lanovima naeg uzorka moe da bitno
utie na vrednost
aritmetike sredine. Taj problem osetljivost na trke- razmatraemo
i kada uskoro budemo
govorili o standardnoj devijaciji i o Pirsonovom indeksu
korelacije.
N
xi
-
Ukoliko, u skladu sa onim to smo do sada ve rekli o populacijama
i uzorcima, zbog
finansijskih i vremenskih ogranienja nismo u stanju da prouavamo
tako veliku populaciju
biemo primorani da njenu aritmetiku sredinu procenimo na osnovu
aritmetike sredine
uzorka. U naem primeru kazaemo da smo do aritmetike sredine
uzorka M doli tako to smo
svaki od 9 brojeva nae populacije upisali na poseban papiri, sve
papirie ubacili u eir, dobro
ih izmeali i da smo (u skladu sa prethodno donesenom odlukom)
odluili da populacijski
parametar procenimo na osnovu uzorka koji obuhvata samo 4
sluaja. Tako bismo npr. mogli
da iz eira izvuemo 4 broja
38 62 67 64
Ta etiri broja jesu na sluajni reprezentativni uzorak na osnovu
koga emo napraviti
procenu aritmetike sredine popilacije. Kaemo sluajni jer smo
odabir ta etiri broja u
potpunosti prepustili sluaju; meajui papirie u eiru trudili smo
se da iskljuimo bilo kakav
sistematski uticaj na izvlaenje. Kaemo reprezentativni jer ovaj
uzorak
reprezentuje/predstavlja nama obino nedostupnu populaciju;
govori u njeno ime. Aritmetiku
sredinu uzorka izraunaemo po formuli
Formula 4.2. Aritmetika sredina uzorka () je kolinik zbira (svih
pojedinanih (xi) posmatranja i broja tih posmatranja (n).
Lako ete uoiti slinost izmeu Formule 4.1. i Formule 4.2.
Aritmetika sredina
populacije i aritmetika sredina uzorka raunaju se na isti nain.
Jedina razlika izmeu dve
formule je u notaciji. Kao to smo ve kazali populacijske
parametre oznaavamo grkim
slovima a uzorake procene tih parametara latininim simbolima.
Razlika izmeu dve formule
je i u tome to broj posmatranja/ispitanika u populaciji
oznaavamo velikim latininim slovom
N a broj ispitanika u uzorku malim latininim slovom n.
11.599
532
n
xM
i
Aritmetika sredina populacije je parametar a aritmetika sredina
uzorka M je mera,
najbolja procena vrednosti parametra kojom raspolaemo.
Aritmetika sredinu uzorka
oznaava se i kao AS i kao . Engleski naziv za aritmetiku sredinu
je mean.
-
Sledei Formulu 2 za izraunavanje aritemetike sredine uzorka
dobijamo vrednost
Posmatrajui ishod raunske operacije kojom smo izraunali i M lako
uviamo da
nismo dobili isti rezultat odnosno da naa procene parametra ne
odgovara njegovoj stvarnoj
vrednosti. Da stvar bude jo gora, veoma retko emo biti u prilici
da znamo istinsku vrednost
parametra i samim tim da znamo koliko naa procena te vrednosti
odstupa od parametra.
Naalost, u daljem bavljenju statistikom moraemo da se pomirimo
sa takvim stanjem stvari.
Vano je da iz ovog, naoko veoma prostog, primera uoite jo jednu
stvar. Odluili smo
se da stanje u populaciji od 9 ispitanika procenimo na osnovu
uzorka u koji e ui 4 posmatranja
i dobili smo vrednost M = 57.50. Oigledno je da bi u nekom
ponovljenom merenju u na
uzorak od 4 posmatranja najverovatnije ule neke druge vrednosti
i da samim tim i aritmetika
sredina uzorka vie ne bi bila ista, naa porcena parametra ne bi
bila ista. Sasvim je mogue da
u na sluajni uzorak uu 4 najmanja broja iz te mini populacije
ili da pak 4 najvea broja budu
izvuena iz eira. Oigledno je da e svaki od mnogo razliitih
uzoraka koji se mogu izvui iz
populacije dati drugaiju vrednost M, drugaiju procenu . Mi se
ovde neemo previe dugo
baviti izraunavnjem mogueg broja razliitih uzoraka veliine n = 4
iz populacije veliine N = 9.
50.574
231M
Bez obzira koliko se trudili da naa mera bude nepristrasna
procena parametra, u praksi nikada
neemo znati koliko ona odstupa od stvarne vrednosti parametra.
Aritmetika sredina je oekivana
vrednost skora koji pripadnici neke populacije postiu na nekoj
varijabli. Ukoliko npr. znamo da
prosena visina svih mladia iz Novog Sada 175 cm, najmanje emo
pogreiti ako oekujemo da e
prvi mladi koji e proi ispred ulaza u na fakultet biti visok 175
cm.
Za znatieljne: koliko je mogue izvui razliitih uzoraka veliine n
= 4 iz populacije N = 9?
Odgovor na ovo pitanje dobiemo ako reimo jednainu 126)!!*(
!
nNn
Nk
Faktorijal broja 9 (N!)= 362880, faktorijal broja 4 (n!) = 24 a
faktorijal broja 5 (N-n)! = 120.
Po istoj formuli postoji:
210 razliitih uzoraka veliine n = 4 koji se mogu izvui iz
populacije N = 10
495 razliitih uzoraka veliine n = 4 koji se mogu izvui iz
populacije N = 12
1001 razliit uzorak veliine n = 4 koji se mogu izvui iz
populacije N = 14
-
Za nas je vanije da uoimo da je u svakoj realnoj situaciji kada
se N meri stotinama
hiljada (npr. svi mladi koji ive u naoj zemlji) ili milionima
ljudi (npr. svi graani Srbije sa
pravom glasa) a n iznosi 2 ili 3 hiljade ispitanika (broj
ispitanika na koje se oslanjaju vodee
istraivake agencije kada pokuavaju da predvide ishod republikih
izbora) broj razliitih
uzoraka koji se mogu izvui iz neke populacije praktino
beskonaan. Primera radi naveemo
podatak da je broj razliitih kombinacija (uzoraka od 7 iz
populacije od 39) u igri Loto negde
preko 14 miliona. Broj razliitih uzoraka veliine 2 hiljade iz
populacije od 4.5 miliona je svakako
viestruko vei.
Medijana
Osim aritmetike sredine, kao mera centralne tendencije veoma
esto se koristi i
medijana. Po definiciji, medijana je ona brojana vrednost koja
neki niz brojeva (uzorak ili
populaciju) deli na 2 jednaka dela. Budui da se pola brojeva
nalazi ispod a pola brojeva iznad
vrednosti medijane, medijana se naziva i sredinja ili centralna
vrednost. Do vrednosti medijane
dolazimo tako to neki niz skorova poreamo po veliini od
najmanjeg ka najveem i potom
pronaemo vrednost koja taj niz deli na dva jednaka dela, na dve
polovine. U naem primeru
niza od 9 brojeva
38 46 54 56 62 64 67 68 77
medijana je broj 62 jer je taj broj istovremeno vii od 4 broja
sa njegove leve i nii od 4 broja sa
njegove desne strane. Ukoliko bi trebalo da izraunamo medijanu
nekog niza koji sainjava
paran broj posmatranja kao to je npr. niz
38 46 54 56 62 64 67 68 77 77
medijana bi se nalazila tano u sredini izmeu brojeva 62 i 64 i
imala vrednost 63.
Iz beskonano mnogo uzoraka koje smo izvukli iz neke populacije
dobiemo beskonani broj
meusobno razliitih procena aritmetike sredine te populacije. Bez
obzira to znamo da bi neki
drugi uzorak dao drugaiju procenu parametra u realnim
ogranienjima svakog istraivanja mi se
obino oslanjamo samo na jednu procenu parametra .
Medijanu oznaavamo sa Mdn. Engleski naziv za medijanu je
median.
Jo jedna jedinstvena odlika aritmetike sredine: u univarijatnoj
distribuciji (distribuciji jedne
varijable) suma kvadriranih odstupanja ostalih brojeva od
aritmetike sredine je uvek manja od
sume kvadriranih odstupanja tih brojeva od bilo kog drugog broja
iz te distribucije.
-
Veoma esto medijana se saoptava uporedo sa vrednou aritmetike
sredine. To je
zbog toga to medijana, za razliku od aritmetike sredine, nije
osteljiva na ekstremne vrednosti
na trke. Ukoliko bi neko napravio greku unosei podatke i kao
najviu vrednost iz nae
populacije od 9 brojeva umesto 77 upisao 777 dolo bi do drastine
promene aritmetike
sredine. U tom sluaju aritmetika sredina vie ne bi bila = 59.11
ve bi bila = 136.89.
Vrednost medijane se ne bi promenila i ostala bi ista Mdn =
62.
Medijana je mera centralne tendencije koju koristimo kada
opisujemo podatke koji
dolaze sa ordinalne skale budui da nema nikakvog smisla da
izraunavamo aritmetiku sredinu
ukoliko nije zadovoljen uslov ekvidistantnosti merne skale. Tako
npr. medijanom a ne
aritmetikom sredinom- bismo opisali progresivnu fazu neke
bolesti za grupu pacijenta.
Mod
Mod je trea i, videemo, najnesavrenija mera centralne
tendencije. Mod je vrednost
najuestalijeg (najfrekventnijeg) posmatranja. U nizu mera
1 2 4 4 5
Za razliku od aritmetike sredine, medijana nije osetljiva na
ekstremne vrednosti. Kao i aritmetika
sredina, medijana je uvek samo jedna i izraena je u mernim
jedinicama varijable koju merimo. Za
razliku od aritmetike sredine, medijana ne poiva na svim
prikupljenimm podacima. Posao
medijane je da se parkira u sredinu brojanog niza i ona uopte ne
brine o tome koji se skorovi
nalaze bilo sa njene leve bilo sa njene desne strane. Ukoliko
bismo na originalni niz od 9 brojeva:
38 46 54 56 62 64 67 68 77
zamenili npr. nizom:
38 46 54 56 62 664 667 668 777
aritmetika sredina bi se drastino promenila ali bi medijana
ostala ista, ne bi ni trepnula. Neka se
ceo svet promeni, medijani je samo jedna stvar vana: da bude u
sredini.
-
mod ima vrednost 4. Vrednost moda je najea, pa samim tim postoji
i najvea verovatnoa
da e se nai u uzorku koji vuemo iz neke populacije. Mod nije
frekvencija najeeg skora;
mod je vrednost najeeg skora.
Mada je mod najgrublja mera centralne tendencije, mod (ali ne
aritmetiku sredinu i
medijanu) moemo raunati i kada imamo podatke koji potiu sa
nominalne skale. Dakle, mada
nema nikakvog smisla da raunamo aritmetiku sredinu i medijanu
aribtrarno dodeljenih
brojeva koji samo obeleavaju neke pojave sasvim je u redu da
saoptimo koja je od tih pojava
najuestalija, da saoptimo mod.
Aritmetika sredina, medijana i mod
Aritmetika sredina i medijana su najee koriene mere centralne
tendencije.
Aritmetiku sredinu raunamo ukoliko podaci dolaze sa intervalne i
racio skale, medijanu
moemo da raunamo i kod podataka koji dolaze sa ordinalne skale.
Mod moemo da
raunamo i kada imamo posla sa nominalnim podacima. Kod
simetrinih distribucija
aritmetika sredina i medijana se nalaze jedna blizu druge.
Ukoliko je distribucija savreno
simetrina, aritmetika sredina i medijana imaju istu vrednost.
Ukoliko je distribucija
unimodalna i savreno simetrina -kao to je to sluaj sa normalnom
(Gausovom) distribucijom
onda aritmetika sredina, medijana i mod imaju istu vrednost
(Slika 4.5). U pozitivno
zakrivljenoj distribuciji aritmetika sredina ima viu vrednost
nego mod (Slika 4.6) a u negativno
zakrivljenoj distribuciji mod ima viu vrednost nego aritemtika
sredina (Slika 4.7). Vrednost
medijane je u oba sluaja i kod negativno i kod pozitivno
zakrivljene distribucije u sredini:
izmeu vrednosti moda i vrednosti medijane.
Za razliku od aritmetike sredine, mod nije osetljiv na ekstremne
vrednosti, ne poiva na svim
prikupljenim podacima i ne mora da bude samo jedan. U
distribuciji
1 2 4 4 5 6 6 9
imamo dva moda (4 i 6) pa za takvu distribuciju kaemo da je
bimodalna. Kada skupljamo
antropometrijske podatke (visina, teina) o mukarcima i enama,
obino dobijamo podatke koji se
bimodalno distribuiraju. Mada su u psihologiji takve pojave
veoma retke, u naelu, moemo se
sresti i sa polimodlanim distribucijama tj. sa distribucijama
koje imaju vie od dva moda.
-
Slika 4. 5. U normalnoj/Gausovoj distribuciji, aritmetika
sredina, medijana i mod imaju istu vrednost. Postoji potpuna
saglasnost sve tri mere centralne tendencije.
Slika 4. 6. U pozitivno zakrivljenoj distribuciji postoji
srazmerno mali broj ekstremno visokih vrednosti koje guraju
aritmetiku sredinu udesno. Mod se, kao i uvek, nalazi na mestu
iznad koga je vrh distribucije. Stoga je aritmetika sredina vea od
medijane a medijana je vea od moda.
-
Slika 4.7. U negativno zakrivljenoj distribuciji postoji mali
broj ekstremno niskih vrednosti koje guraju aritmetiku sredinu
ulevo. Mod je krajnje desno jer se tamo nalazi vrh distribucije, na
mesti najeeg skora. Medijana je - za razliku od aritmetike sredine-
neosetljiva na ekstremne vrednosti pa e zadrati svoje mesto izmeu
moda i aritmetike sredine. Stoga je mod je vei od medijane a
medijana je vea od aritmetike sredine.
Od sve tri mere centralne tendencije jedino aritmetika sredina
poiva na svim
prikupljenim podacima tj. koristi sve prikupljene informacije.
Isto tako, aritmetika sredina je
jedina od tri mere centralne tendencije koju emo koristiti kada
od deskriptivne statistike
budemo preli na statistiku zakljuivanja. Medijanu i mod
koristimo iskljuivo u deskriptivne
svrhe, kada bez pretenzija da zakoraimo u statistiku
zakljuivanja- saimamo podatke koji su
pred nama; koristimo ih prvenstveno za opis pozitivno ili
negativno zakrivljenih distribucija.
Zakljuak o merama centralne tendencije
Mere centralne tendencije nam govore otome gde se u opsegu
brojeva od minus do plus
beskonano nalaze nai podaci. Centralnu tendenciju nekog niza
skorova opisujemo jednim
brojem, najee aritmetikom sredinom. U sluaju veoma zakrivljenih
distribucija i onda kada
nam je cilj da samo opisujemo podatke a ne i da iskoraimo u
statistiku zakljuivanja, kao mere
centralne tendencije koristimo medijanu i mod.
II. MERE VARIJABILNOSTI
Opseg
Navoenje opsega (razlike izmeu najvieg i najnieg skora ) je
intuitivno najblii i
najprostiji nain da saeto opiemo varijabilnost neke
distribucije. U primeru nae populacije od
9 brojeva
38 46 54 56 62 64 67 68 77
-
opseg (engleski range) je razlika izmeu brojeva 77 38 i iznosi
39. Kada smo malo pre govorili o
distribucijama koristili smo opseg da bismo ukazali na to da se
distribucije (osim po obliku i po
merama centralne tendencije) mogu razlikovati i po
varijabilnosti. Opseg je veoma gruba mera
varijabilnosti budui da je potpuno neosetljiv na skorove koji se
nalaze izmeu najvieg i
najnieg skora. Koristimo ga samo u deskriptivnoj statistici,
uglavnom da bismo otkrili greke
koje se deavaju prilikom unosa podataka i/ili da bismo otkrili
trke, skorove koji jasno
odudaraju od ostalih. Opseg uzorka esto ne daje dobru procenu
opsega populacije budui da
se u uzorku najverovatnije nee nai ekstremnii skorovi koji se
nalaze u populaciji. Daleko je
vea verovatnoa da se ekstremni populacijski skorovi nau u veim
nego u manjim uzorcima.
Drugim reima, veliina ospega uzorka zavisi od veliine samog
uzorka a to je dosta nepoeljna
okolnost u situaciji kada na osnovu poznavanja uzroka pokuavamo
da procenimo stanje u
populaciji. Zbog toga, za razliku od varijanse (i standardne
devijacije, vidi dole) opseg nije
mera varijabilnosti koju emo koristiti kada sa deskriptivne
statistike budemo preli na
statistiku zakljuivanja.
Kvartilni opseg i kvartilna devijacija
Jedan, danas sve ree korieni, nain da opiemo varijabilnost neke
distribucije jeste
preko kvartilnog opsega ili kvartilne devijacije. Do vrednosti
ovih mera varijabilnosti dolazimo
tako to distribuciju podelimo na etiri koraka ili kvartila. To
emo uraditi tako to emo prvo
izraunati medijanu koja za niz skorova (za ovaj primer
upotrebiemo neto dui niz)
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
ima vrednost 46.
Potom emo odrediti levu i desnu medijanu tj. medijane leve i
desne polovine skorova. U
naem sluaju bie to brojevi 35 i 54.
22 25 34 35 41 41 46 46 46 48 49 54 54 59 60
Broj 35 oznaava prvi kvartil (Q1) tj. medijanu skorova koji se
nalaze ulevo od medijane ukupnog
niza; broj 54 oznaava trei kvartil (Q3) tj. medijanu skorova
koji se nalaze udesno od medijane
ukupnog niza.
-
Standardna devijacija
Upravo smo videli da su dve do sada razmatrane mere
varijabilnosti daleko od lepih
osobina aritmetike sredine koje smo nedavno istakli: ni opseg ni
kvartilna devijacija ne koriste
sve prikupljene informacije, njihova vrednost ne poiva na svim
prikupljenim podacima. Treba
nam dakle neka mera varijabilnosti koja bi ila ruku pod ruku sa
aritmetikom sredinom. Mera
varijabilnosti koji bismo koristili uvek kada koristimo
aritmetiku sredinu a to se odnosi upravo
na poeljne istraivake situacije kada analiziramo podatke koji
potiu sa intervalne ili racio
skale.
Na prvi pogled ini se da nije teko doi do takve mere
varijabilnosti. Mogli bismo
jednostavno da izraunamo proseno odstupanje od aritmetike
sredine. Zdrav razum nam
govori da to je varijabilnost nekog niza skorova vea, bie vea i
odstupanja pojedinanih
skorova od njihove aritmetike sredine. I obrnuto: to je
varijabilnost nekog niza skorova manja,
biie manja i odstupanja pojedinanih skorova od njihove
aritmetike sredine. Ukoliko
izraunamo njihovo proseno odstupanje od aritmetike sredine to bi
moglo da nam da dobru
sliku o varijabilnosti tog niza skorova.
[ Uskoro emo videti da je to (mada) intuitivno ujedno i loe
reenje.]
Hajde da vidimo kuda e nas odvesti ovaj pristup, da izraunamo
proseno odstupanje
od aritmetike sredine. Uradiemo to sluei se formulom
Formula 4.3. Proseno linearno odstupanje od aritmetike sredine.
Iako intuitivan, ovaj pristup ne vodi nikuda.
N
xi )(
Interkvartilni opseg (engleski interquartile range) je razlika
izmeu prvog i treeg kvartila
IQR = Q3 Q1
u naem primeru IQR = 54 -35 = 19
Kvartilna devijacija (engleski quartile deviation) je jednaka
polovini interkvartilnog opsega
2
IQRQD
U naem primeru 5.92
3554
QD
-
gde je oznaka za sumu, xi oznaka za svaki pojedinani skor,
oznaka za aritmetiku sredinu
populacije a N oznaka za broj posmatranja odnosno oznaka za broj
pripadnika te populacije. U
naem primeru populacije od 9 posmatranja i = 59.11
0
9
0
Ishod ovog rauna je, sa intuitivnog stanovita, neoekivan jer
proizilazi da je
varijabilnost unutar nae populacije jednaka nuli, odnosno da
unutar nae populacije nema
nikakve varijabilnosti. Taj zakljuak je oigledno pogrean jer se
svaki od 9 skorova razlikuje od
svih ostalih skorova i svaki skor se razlikuje od njihove
zajednike aritmetike sredine. Dakle,
varijabilnost postoji ali mi nismo uspeli da joj pristupimo na
pravi nain. Izvor naeg problema
je u tome to se iznad razlomake crte (u brojiocu) pojavljuju
negativni i pozitivni brojevi zbog
toga to su neki skorovi manji a neki vei od zajednike aritmetike
sredine. U sledeem koraku
otkrivamo da se ti negativni i pozitivni brojevi potiru i da je
njihov konani zbir jednak nuli.
Ukoliko nulu podelimo sa brojem posmatranja (N = 9) ili sa bilo
kojim drugim brojem, krajnji
rezultat e uvek biti nula. Do tog ishoda doi emo uvek, bez
obzira na to koliko skorova ini
nau populaciju, bez obzira na njihovu brojanu vrednost i bez
obzira na vrednost aritmetike
sredine.
Dakle, moemo da zakljuimo da nas raunanje prosenog odstupanja
(prosene
devijacije) od aritmetike sredine vodi u orsokak zbog toga to se
negativni i pozitivni brojevi
koji opisuju ta odstupanja meusobno potiru. Dobar nain da reim
problem jeste da umesto
prosenog odstupanja od aritmetike sredine izraunamo proseno
kvadrirano odstupanje od
aritmetike sredine. Jo u osnovnoj koli smo nauili da je svako a2
pozitivan broj (jer plus puta
9
)77()68()67()64()62()56()54()46()38(
9
89.1789.889.789.489.2)11.3()11.5()11.13()11.22(
Jedna vana osobina aritmetike sredine o kojoj do sada nismo
govorili jeste da je suma odstupanja
(devijacija) pojedinanih skorova od aritmetike sredine uvek
jednaka nuli. To je ujedno i sutina
aritmetike sredine. Aritmetika sredina je teite niza skorova.
Zbir linearnih odstupanja od
aritmetike sredine uvek e biti nula, pa e i njihov prosek biti
uvek nula. Ukoliko ne bismo
kvadrirali odstupanja od aritmetike sredine indeks
varijabilnosti bi bio nula za svaki niz brojeva i
samim tim bio bi potpuno beskorisan. Isto tako, suma kvadriranih
odstupanja od aritmetike
sredine e uvek biti manja od sume kvadriranih odstupanja od bilo
koje druge vrednosti. Na ovo
emo se vratiti u Poglavlju 6 kada budemo govorili o linearnom
odnosu izmeu dve varijable.
-
plus daje plus, a minus put aminus takoe daje plus). Raunajui
proseno kvadrirano
odstupanje oslobodili smo se opasnosti da zbir mera odstupanja
bude nula. Takva odluka je
sasvim u redu i zbog toga to negativno odstupanje nekog skora od
aritmetike sredine samo
po sebi ne znai nita loe, nema nikakvu negativnu konotaciju.
Ukoliko npr. raunamo broj
neopravdanih izostanaka uenika iz nekog razreda, skorovi koji su
manji od aritmetike sredine
(i samim tim imaju negativne devijacije od aritmetike sredine)
govore upravo neto dobro i
pozitivno.
Hajde, da vidimo kuda e nas odvesti raunanje prosenog
kvadrirarnog odstupanja od
aritmetike sredine. Krenuemo od formule
Formula 4.4. Proseno kvadrirano odstupanje od aritmetike
sredine. Pravi nain da opiemo varijabilnost nekog niza brojeva
=127.43
Na taj nain dobili smo proseno kvadrirano odstupanje od
aritmetike sredine, broj koji e
uvek biti 0 (u sluaju da su svi skorovi jednaki aritmetikoj
sredini) ili vei od nule (u svim
ostalim sluajevima).
N
xi2)(
Proseno kvadrirano odstupanje od aritmetike sredine zovemo
varijansa i oznaavamo sa
V ili sa 2.
V = 2 = N
xi2)(
Kao to vidimo, formula za izraunavanje populacijske varijanse
sastoji se iz brojioca u kome
se nalazi suma kvadriranih odstupanja (ili kako se skraeno kae
suma kvadrata, na
engleskom sum of squares, skraeno SS) i imenioca u kome se
nalazi broj skorova (N). Zbog
injenice da je varijansa prosek kvadriranih odstupanja od
aritmetike sredine na
engleskom se za varijansu veoma esto koristi i izraz mean square
koji se na na jezik
prevodi kao srednji kvadrat. Prema tome, gornju formulu moemo da
dopunimo i da
napiemo kao
V = 2 = N
xi2)(
= N
SS= srednji kvadrat
9
)77()68()67()64()62()56()54()46()38( 222222222
-
Izraunavanjem varijanse dobili smo meru varijabilnosti koja ima
neke ali ne i sve dobre
osobine koje ima aritmetika sredina. Varijansa jeste jedna (iz
istih podataka moe se izraunati
samo jedna vrednost varijanse) i poiva na svim prikupljenim
podacima. Ipak, za razliku od
aritmetike sredine varijansa nije izraena u mernim jednicama
varijable koju merimo.
Aritmetika sredina visine je izraena u centimentrima, aritmetika
sredina teine je izraena u
kilogramima, aritmetika sredina inteligencije je izraena u IQ
jedinicama. Ali izraunavajui
varijansu mi smo kvadrirali odstupanja svakog pojedinanog skora
od aritmetike sredine. Ta
operacija je matematiki sasvim opravdana i, videli smo, krajnje
poeljna. Ipak, ne umemo da
odgovorimo na pitanje ta je to kilogram na kvadrat , kakve veze
imaju kvadratni centrimetri sa
visinom i ta je to IQ2. Zbog toga kaemo da je varijansa izraena
kao nedimenzionalni broj. Da
bismo -u naem traganju za merom varijabilnosti koja e ii ruku
pod ruku sa aritmetikom
sredinom- dobili meru varijabilnosti koja je izraena u mernim
jednicima varijable koju merimo
pribei emo starom matematikom triku: izraunaemo kvadratni koren
varijanse i nazvati ga
standardna devijacija (engleski standard deviation).
=
Formula 4.5. Standardna devijacija populacije je kvadratni koren
populacijske varijanse
2
Za razliku od varijanse koje je nedimenzionalni broj standradna
devijacija, kao i aritmetika
sredina je izraena u mernim jedinicama varijable koju merimo.
Zapravo, standardna
devijacija poseduje sve tri lepe osobine koje poseduje i
aritmetika sredina: ona je samo
jedna, poiva na svim prikupljenim informacijama i izraena je u
mernim jednicama
varijable koju merimo. Standardna devijacija skorova koji
opisuju visinu izraena je i
centimetrima, standardna devijacija skorova koji opisuju teinu
izraena je u kilogramima,
standardna devijacija ineteligencije izraena je u IQ
jedinicama.
Mada zbog jasno definisanog meusobnog odnosa varijansa i
standardna devijacija u
deskriptivnoj statistici nose sa sobom istu koliinu informacija,
treba uoiti da je varijansa
bogatiji (moemo da kaemo i stariji) pojam u odnosu na pojam
standardne devijacije koji
je izveden iz pojma varijanse.
-
Do standardne devijacije smo doli posle dve komplikacije. Prvo
smo se oslobodili
negativnih brojeva u brojiocu tako to smo kvadrirali odstupanja
od aritmetike sredine. Na taj
nain izraunali smo varijansu populacije. Potom smo izraunali
kvadratni koren te varijanse i
dobili standardnu devijaciju, indeks varijabilnosti koji je
izraen u mernim jedinicama
originalnog merenja.
Varijansu uzorka (SD2) raunamo na slian nain kao i varijansu
populacije s time da u imeniocu
umesto vrednosti n imamo vrednost n-1.
Formula 4.6. Varijansa uzorka. oznaka za sumu, xi =oznaka za
svaki pojedinani skor, x = oznaka za aritmetiku sredinu uzorka, n =
oznaka za broj posmatranja odnosno oznaka za veliinu uzorka, n-1 =
oznaka za broj stepeni slobode
Broj n-1 nazivamo brojem stepeni slobode (engleski degrees of
freedom ili skraeno df).
U ovom trenutku ne moemo da objasnimo ovaj pojam ali emo se
vratiti na njega u dogledno
vreme. Vano je da uoite da je po definiciji broj n-1 najsliniji
broju n i da sa poveanjem naeg
uzorka posledice delenja brojioca (sume kvadrata) sa n ili sa
n-1 postaju sve manje. Dakle, im
na uzorak premai neki realni okvir od n = 30 (retka su psiholoka
istraivanja koja e biti
obavljena na manjem uzorku) postaje prilino svejedno da li
brojilac delimo sa 30 (n) ili sa 29
(n-1).
Standardna devijacija je mera prosene udaljenosti od aritmetike
sredine i treba je
koristiti samo onda kada raunamo aritmetiku sredinu, a to je
onda kada se bavimo podacima
koji potiu sa intervalne i racio skale. Standardna devijacija je
jednaka nuli kada ne postoji
nikakva varijabilnost skorova, kada svi skorovi imaju istu
vrednost.
Kao to o aritmetikoj sredini moemo misliti kao o prosenom skoru
tako o standardnoj
devijaciji moemo da mislimo kao o prosenoj varijabilnosti tj.
kao o prosenom odstupanju
od aritmetike sredine.
Kao i kod populacije, standardna devijacija uzorka je kvadratni
koren varijanse uzorka.
2SDSD
Standardna devijacija je, kao i aritmetika sredina, veoma
osetljiva na trke .
1
)( 22
n
MXSD
xi
-
Zakljuak o merama varijabilnosti
Varijabilnost ili podatak o tome koliko se skorovi meusobno
razlikuju je, uz meru
centralne tendencije, veoma vaan atribut svakog niza skorova. U
psiholokim istraivanjima
varijabilnost najee izraavamo jednim brojem koji se odnosi na
varijansu ili na standardnu
devijaciju. to je vea varijansa (ili standardna devijacija) vea
je i varijabilnost izmeu skorova.
Pojam varijabilnosti je veoma vaan za razumevanje gradiva koje
je pred nama. Uostalom, sva
psiholoka istraivanja se bave ispitivanjem varijanse. Ukoliko se
ljudi meusobno ne bi
razlikovali u odnosu na neku bitnu osobinu (visinu donjeg praga
ulne osetljivosti, inteligenciju,
anksioznost, ekstroverziju, lokus kontrole itd.) na nauni
interes za tu osobinu bio bi svakako
manji. Psiholoka istraivanja pokuavaju da rasvetle uzroke
variranja bilo koje od posmatranih
osobina tako to e variranje jedne varijable (varijansu varijable
Y) dovesti u vezu sa variranjem
druge varijable (varijansom varijable X). Ukoliko npr. otkrijemo
da su individualne razlike u
kolskom uspehu (varijansa varijable Y) povezane sa individualnim
razlikama u vrednoi
(varijansa varijable X) onda moemo rei da smo varijansom
varijable X bar donekle objasnili
varijansu varijable Y.
-
ta treba da znamo?
- Cilj deskriptivne (ili opisne) statistike je da numeriki i
saeto prikazuje neke podatke.
Deskriptivna statistika se bavi opisom onoga to znamo.
- Najekonominiji nain da opiemo neku distribuciju jeste da
definiemo njen oblik i da
navedemo neku meru njene centralne tendencije i neku meru njene
varijabilnosti. Distribucije
se meusobno razlikuju po obliku, merama centralne tendencije i
merama varijabilnosti.
- Horizonatlno odstupanje (zakrivljenost) od normalne
distribucije nazivamo skjunes. Vertikalno
odstupanje od normalne distribucije zovemo kurtozis i ono
ukazuje na to da li je gomilanje
skorova ispod take najvie uestalosti vie ili nie nego kod
normalne distribucije.
-Aritmetika sredina je uvek samo jedna, poiva na svim
prikupljenim podacima i izraena je u
mernim jedinicama varijable koju merimo. Osteljiva je na
ekstremne vrednosti.
-Medijana je sredinja vrednost u distribuci neke varijable:
vrednost koja je via od 50%
sluajeva i nia od 50% sluajeva. U distribuciji moe da bude samo
jedna medijana; medijana je
izraena u mernim jedinicama varijable koju merimo ali ne poiva
na svim prikupljenim
podacima. Medijana je neosetljiva na ekstremne vrednosti.
-Mod je vrednost najeeg skora, neosetljiv na ekstremne
vrednosti. Distribucija moe da ima
vie od jednog moda. Distribucije sa dva moda nazivamo bimodalne,
a one sa vie modova
polimodalne.
-Opseg je najjednostavnija mera varijabilnosti. Opseg je razmak
izmeu najvieg i najnieg
skora.
- Interkvartilni opseg je razlika izmeu prvog i treeg kvartila.
Kvartilna devijacija je jednaka
polovini interkvartilnog opsega.
-Varijansa je proseno kvadrirano odstupanje od aritmetike
sredine. Varijansa je uvek
pozitivan broj: nula ili vea od nule. Za neki niz mera varijansa
je samo jedna, poiva na svim
prikupljenim podacima ali nije izraena u mernim jedinicama
varijable koju merimo. Varijansa je
nedimenzionalni broj.
-Standardna devijacija je kvadratni koren varijanse. Za neki niz
mera standardna devijacija je
samo jedna, poiva na svim prikupljenim podacima i izraena je u
mernim jedinicama varijable
koju merimo. Koristimo je uvek kada koristimo i aritmetiku
sredinu, onda kada opisujemo
podatke sa intervalne ili racio skale. Standardna devijacija je
uvek pozitivan broj: nula ili vea od
nule.