Deskriptivna Statistika

POGLAVLJE 4

Deskriptivna statistika

U uvodnom poglavlju kada smo odgovarali na pitanje: ta je statistika i emu ona slui?

kazali smo da postoje samo dva naina na koji koristimo statistiku. Jedan je da kvantitativno

opiemo neku pojavu a drugi je da statistikom analizom na osnovu manifestacije neke pojave

(uzorka) doemo do zakljuaka o samoj pojavi (populaciji). Dakle, moemo rei da postoje dve

vrste statistike koje se meusobno dopunjuju.

a) deskriptivna (ili opisna) statistika ija je cilj da sistematski, numeriki i saeto prikae

neke podatke; i

b) statistiku zakljuivanja iji je cilj da nam omogui uoptavanje (generalizaciju) od uzorka

na populaciju.

Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku izmeu deskriptivne statistike i

statistike zakljuivanja bie potrebno da se upoznate i sa jednom i sa drugom tj. da proitate

celu ovu knjigu. Na ovom mestu dovoljno je da kaemo da se deskriptivna statistika bavi

kvantitativnim opisivanjem podataka kojim raspolaemo (najee su to podaci iz uzorka jer

retko ili gotovo nikad nismo u prilici da opisujemo cele populacije) dok statistika zakljuivanja

nastoji da uini korak dalje: da na osnovu raspoloivih podataka kae i neto vie.

Ukoliko npr. izmerimo visinu svih deaka i devojica u nekom estom razredu osnovne

kole, nee nam biti teko da izraunamo prosenu visinu celog razreda, prosenu visinu

deaka i prosenu visinu devojica. To je, izmeu ostalog, posao deskriptivne statistike. Ukoliko

pak na osnovu tih podataka elimo da zakljuimo da razlika u visini izmeu deaka i devojica

(devojice su na tom uzrastu obino neto vie) nije sluajna ve je posledica delovanja nekog

sistematskog inioca (ranijeg poetka puberteta) i da najverovatnije ne vai samo za na uzorak

ve i za sve deake i devojice tog uzrasta onda prelazimo u domen statistike zakljuivanja. Ve

na ovom krajnje jednostavnom primeru uviate koliko je posao statistike zakljuivanja riziniji,

koliko je veliki iskorak od deskriptivne statistike do statistike zakljuivanja. Kako je uopte

mogue, ak i uz sve mogue ograde, tvrditi neto o stvarima koje ne poznajemo, koje nismo

izmerili? Moraete da saekate odgovor na ovo pitanje a on e vas, obeavam, uvesti u samu

sutinu naunog pristupa svetu. Ukoliko vam ovo obeanje u ovom trenutku izgleda moda

Deskriptivna statistika se bavi opisom onoga to znamo. Statistika zakljuivanja ima mnogo tei

zadatak da na osnovu onoga to znamo kaemo neto o onome to ne znamo.

isuvie smelo upitajte se u emu se zapravo sastoji posao naunika. On ili ona neprekidno

pokuavaju da odgonetnu ovaj bskonano veliki i sloeni svet na osnovu veoma ograniene

koliine podataka kojima raspolau. Oni neprekidno ele da u svojim podacima pronau

pravilnosti koje ne opisuju samo te podatke ve se odnose i na injenice izvan i preko svojih

podataka. To, verujte, ne bi bilo mogue bez statistike zakljuivanja.

U ovom poglavlju baviemo se iskljuivo deskriptivnom statistikom. Odmah treba rei

da je deskriptivna statistika svakako jednostavniji, za uenje laki ali i dosadniji deo statistike.

Pravi izazovi za razumevanje i uenje statistike dolaze tek pri susretu sa statistikom

zakljuivanja. No, kako to obino biva treba poeti od jednostavnog i lakeg jer bez

razumevanja osnovnih pojmova deskriptivne statistike svakako se ne moe razumeti statistika

zakljuivanja (Poglavlje 7).

Kako opisati podatke?

Bez obzira da li su pred vama podaci do kojih ste doli na osnovu prouavanja uzorka

(to e gotovo uvek biti sluaj) ili na osnovu prouavanja populacije (to se gotovo nikada nee

desiti), svako pa i najjednostavnije istraivanje sruie pred vas gomilu brojeva sa kojima, bar

isprva, neete znati ta da radite. Pretpostavimo da elite da ispitate vezu izmeu visine i

inteligencije tj. da na osnovu istraivanja proverite olako izreenu tvrdnju da su vii ljudi ujedno

i pametniji. Dosadila su vam prazna naglabanje na tu temu, navoenje primera (Pera je visok i

pametan), kontraprimera (Ljuba je jo vii ali je glup ko uskija) i neproverenih glasina (to

vai samo za ene, jer su mukarci ionako svi glupi) i elite da jednom za svagda date nauni

odgovor na to vano pitanje. im iole ozbiljnije ponete da razmiljate o vaem istraivanju

odmah e vam postati jasno da vas zanima univerzalni odgovor na to pitanje, odgovor koji e

vaiti za sve ljude, i da nikada neete imati dovoljno novca, vremena i energije da izmerite

visinu i inteligenciju svih ljudi na ovoj planeti. Stoga ete svoje pitanje, i svoju ljubopitljivost,

ta je to parametrijska a ta neprametrijska statistika?

Nezavisno od podele na deskriptivnu i statistiku zakljuivanja, postoji i podela po kojoj se statistika

se deli na

a) parametrijsku; i

b) neparametrijsku statistiku.

Iako emo se ve u ovom poglavlju pozivati na obe ove podele, pravi smisao druge podele (po kojoj

se statistika deli na parametrijsku i neprametrijsku) postae vam jasan tek kada budete proitali

Poglavlje 9 ove knjige.

ubrzo morati da suzite i da se zadovoljite ispitivanjem odnosa visine inteligencije na mladima iz

nae zemlje. Nijedno psiholoko istraivanje se ne moe izvriti bez ispitanika a vama su svakako

najpristupaniji ispitanici uenici i studenti. Ve sada, na ovom potpuno izmiljenom primeru

uviate da krajnje realna ogranienja usmeravaju nauni interes. Mladih ljudi (uzrasta od 15 do

30 godina) ak i u tako maloj zemlji kao to je naa je relativno mnogo, novaca za istraivanje

uvek malo, pa ete najverovatnije morati da se zadovoljite uzorkom koji e obuhvatiti npr. 200-

300 studenata naeg fakulteta. Kada prikupite taj uzorak od vaih ispitanike ete (drei se

naela da je vano prikupiti to vie informacija) osim podataka o visini i inteligenciji eleti da

prikupite i druge podatke: o polu (moda odista veza izmeu pameti i visine vai samo za

devojke), mestu stanovanja, materijalnom stanju i sl. Vrlo se lako moe desiti da se pred vama

nae 1000 razliitih brojeva koje e biti krajnje teko obuhvatiti jednim pogledom.

Istraivanje koje studenti naeg fakulteta obavljaju u okviru svog zavrnog rada obino

podrazumeva zadavanje dva psiholoka merna instrumenta (ili testa) na uzorku od 100 do 200

ispitanika. Svaki taj test se sastoji od nekih 30 do 40 pitanja pa je sasvim mogue da ete se pri

analizi podataka tom prilikom susresti sa 150 (ispitanika) x 30 (pitanja po testu) x 2 (testa) =

9000 brojeva koji e sadrati sve informacije koje ste vi prikupili vaim istraivanjem. Nema

glave koja e tih 9000 hiljada brojeva moi da sagleda i da na osnovu njih donese ispravne

zakljuke. Nikako ne bi trebalo da budete zadivljeni tom koliinom podataka. Uz sve duno

potovanje naporu koji je pred vama, istraivanja tog obima su kolska i prvenstveno slue tome

da studenti demonstriraju kompetencije koje su stekli tokom svog trogodinjeg kolovanja.

Svako iole ozbiljnije istraivanje je daleko obimnije i, samim tim, rezultira u daleko veoj koliini

podataka, u daleko vie brojeva koje treba analizirati.

Sva ova pria bila je usmerna samo ka jednom zakljuku: saimanje i saeto prikazivanje

podataka je jedan od osnovnih zadataka deskriptivne statistike. Bez tog saetog prikazivanja

podataka, istraiva nikada nee biti u mogunosti da se do kraja zblii sa svojim podacima, da

ih obuhvati jednim pogledom, da ih sagleda, oseti i razume. Pre pristupanja bilo kakvoj

statistikoj analizi valja prvo pogledati podatke koje smo dobili. Jedno od zlatnih pravila kojih se

dre dobri istraivai glasi: uvek gledaj u svoje podatke!

Zato je vano gledati u podatke?

Laka dostupnost raunarskim programima za statistiku obradu podataka donela je sa

sobom i lou naviku koju bar za ovu priliku moemo da nazovemo gubljenje kontakta sa

podacima. ak i meu iskusnim istraivaima iroko je rasprostranjen manir da se statistikoj

analizi pristupa odmah posle unosa podataka. Postoje bar dva vana razloga zbog kojih je

gledanje u podatke nuno da bi se dobio pravi oseaj o tome ta nam oni govore.

1. Otkrivanje greaka unosa i traka. Budui da je podataka uvek mnogo, velika je

verovatnoa da emo negde pogreiti prilikom unosa podataka, da emo umesto

broja 77 (to moe biti IQ naeg ispitanika) u program kojim unosimo podatke radi

dalje statistike obrade upisati broj 777 (to svakako ne moe biti IQ naeg

ispitanika). Uskoro emo, ba na tom primeru, videti kako posledice takve banalne

greke mogu biti veoma ozbiljne. Isto tako, gledanjem u podatke lako emo otkriti

trke, podatke koji odudaraju od opteg trenda i koji zahtevaju posebnu panju.

Moda je trak posledica nerazumevanja uputstva koje smo dali ispitanicima,

moda je trak posledica ispitanikove nesaradnje. Neki ispitanici jednostavno ne

obraaju panju na uputstvo koje smo im dali pa misle da smo ih pitali jednu stvar a

odgovaraju na neku sasvim drugu. Neki drugi, iz njima poznatih razloga, ne ele da

sarauju i bez obzira na garanciju anonimnosti koju uvek dajemo svim ispitanicima,

na sva pitanja odgovaraju istim odgovorom. Pregledom podataka lako ete otkriti

ispitanika koji je na sva postavljena pitanja odgovorio jednoobrazno sa sasvim se

slaem ili sasvim se ne slaem. Takvi nazovi odgovori samo unose um u

istraivanje i ometaju nas da steknemo pravu sliku o pojavi koju prouavamo. to

pre ih otkrijemo i to pre ih eliminiemo iz naih podataka, jer greke unosa i

odgovori ispitanika koji se ne pridravaju uputstva i nisu podaci, to bolje. Pri tom,

nikako ne treba iz podataka izbacivati trke koji nisu posledica nemarnosti (bilo

istraivaa bilo ispitanika) ve jednostavno dolaze od ispitanika koji se ne uklapaju u

opti trend. Takvih ispitanika e uvek biti i oni samo potvruju jednu od osnovnih

teza statistike o varijabilnosti ovog sveta. Ponekad je veoma teko razlikovati

podatke koji odudaraju od opteg trenda samo zbog toga to su retki (i koje svakako

treba sauvati) od onih koji su posledica nemarnosti. Stoga je vano da se oslonimo

na jo jedno zlatno istraivako pravilo: iz naih podataka moemo da izbacimo

samo one podatke za koje sa sigurnou moemo da tvrdimo da predstavljaju

pogreno oitavanje (ili artefakt) bilo da je ono nastalo grekom istraivaa bilo da je

ono nastalo nesaradljivou ispitanika.

2. Odluka o vrsti statistike analize. Koju vrstu statistike analize emo primeniti zavisi i

od toga kako izgledaju nai podaci. Da li nai podaci bitno odstupaju od

matematikih modela normalne distribucije i prave linije (o tome ta je normalna ili

Gausova distribucija priaemo detaljno u Poglavlju 5) u prilinoj meri utie na

odluku o tome koje statistike postupke emo primeniti u nastojanju da iz njih

izvuemo maksimalnu koliinu informacija. Ukoliko nai podaci ne odstupaju bitno

od normalne distribucije primeniemo parametrijsku statistiku a ukoliko odstupaju

imaemo dosta razloga da razmiljamo o primeni neparametrijske statistike. Ukoliko

se odnos izmeu dve varijable ne moe najbolji opisati pravom ve krivom linijom

moda emo biti prinueni da ih transformiemo. Mada postoje formalni statistiki

tetsovi koji proveravaju stepen odstupanja podataka od tih matematikih modela,

ak i neizvebanom oku nee biti preterano teko da uoi bitna odstupanja. Jo

jedan razlog da pre svake analize bacite pogled na svoje podatke.

Kako saeti podatke?

Osnovni zadatak deskriptivne statistike jeste uvoenje reda u haos. Haos nastaje usled

ogromne koliine podataka koja se prikupi ak i u najjednostanijim istraivanjima; a red se uvodi

organizacijom i saimanjem tih podataka. Bez tog organizovanja i saimanja podataka bilo bi

teko, ako ne i nemogue, da ostvarite kontakt sa svojim podacima o kom smo malo pre priali.

U statistici postoji nekoliko naina da se samu podaci: tabelarno (upotrebom tabela), grafiki

(crtanjem), i numeriki (brojano). Sva tri naina se meusobno dopunjuju i valja ih

primenjivati u cilju ostvarivanja to boljeg kontakta sa prikupljenim podacima.

1. Tabelarno prikazivanje podataka.

Organizacijom i grupisanjem podataka u tabele mi veoma lako, iole zainteresovanom itaocu,

moemo da saoptimo veoma veliku koliinu informacija. Saimanje podataka u tabele ini ih

pristupanijim i lakim za upotrebu. Hiljade i hiljade pojedinanih posmatranja moe se saeti u

veoma pregledne tabele. Tako Tabela 4.1. na saet i organizovan nain rezimira podatke o

bruto i neto zaradama svih zaposlenih u Srbiji za 2008 2010. godinu. Ta tabela (saimajui

doslovno milione pojedninanih podataka) nam omoguuje da jednim pogledom utvrdimo

kako su prosene plate u Beogradu najvee a u Toplikom okrugu najmanje, kako su plate

unutar Vojvodine manje-vie ujednaene dok u Centralnoj Srbiji postoje mnogo vea

odstupanja od okruga do okruga, kako se prosene plate u Vojvodini i prosene plate u Srbiji

bitno ne razlikuju od republikog proseka. Bez pomoi te tabele bilo bi potpuno nemogue

savladati sve te silne podatke i bilo bi, isto tako, potpuno nemogue na osnovu njih doneti bilo

kakav zakljuak. Dobro organizovane i pregledne tabele nam omoguavaju da vidimo ono to je

nemogue videti u sirovim podacima. Tabelarno prikazivanje podataka i pravila koja olakavaju

dizajniranje tabela bile su velike teme statistikih udbenika sve do masovne rasprostranjenosti

programa za statistiku obradu podataka. Danas ti programi obiluju odista velikim

mogunostima i opcijama koj znaajno olakavaju taj posao. Zbog toga se mi neemo mnogo

zadravati na tabelarnom saimanju podataka ve emo se od te teme oprostiti uz konstataciju

da je tabeliranje podataka veoma koristan i lak nain da ostvarite bolji kontakt sa podacima i da

ga svakako treba koristiti pre nego to se upustite u dalju statistiku analizu. N

2008. 2009. 2010.

bruto zarade

neto zarade

bruto zarade

neto zarade

bruto zarade

neto zarade

Republika Srbija 45674 32746 44147 31733 47450 34142

Centralna Srbija 45582 32688 44424 31930 47806 34422

GRAD BEOGRAD 56011 40089 55627 39862 59174 42489

MAVANSKI OKRUG 38514 27617 36142 25998 40154 28884

PODUNAVSKI OKRUG 47458 34117 42455 30653 47086 34082

UMADIJSKI OKRUG 39421 28324 38942 28044 41764 30119

POMORAVSKI OKRUG 38190 27368 36629 26605 38713 28367

BORSKI OKRUG 41569 29905 40757 29340 45628 32809

ZAJEARSKI OKRUG 34760 24925 34564 24822 38205 27507

ZALTIBORSKI OKRUG 39190 28460 36997 26848 40148 29165

MORAVIKI OKRUG 36907 26577 36808 26549 39830 28727

RASINSKI OKRUG 35863 26150 34736 25288 37086 26918

NIAVSKI OKRUG 38317 27337 36522 26269 39488 28513

TOPLIKI OKRUG 31234 22398 29510 21217 32669 23689

PINJSKI OKRUG 33556 24009 34102 24495 36302 26118

Vojvodina 45924 32906 43403 31203 46496 33392

SEVERNO-BAKI OKRUG 41947 30188 40874 29318 43102 30998

SREDNJE-BANATSKI OKRUG 43209 30935 41824 30017 45310 32358

SEVERNO-BANATSKI OKRUG 42385 30392 40707 29270 42348 30467

JUNO-BANATSKI OKRUG 47734 34173 44194 32125 49280 35212

ZAPADNO-BAKI OKRUG 43092 30974 40834 29383 42103 30291

JUNO-BAKI OKRUG 49290 35278 46774 33513 50524 36327

SREMSKI OKRUG 43611 31216 39095 28123 40853 29442

Izvor podataka: Republiki zavod za statistiku, 2012.

Tabela 4.1. Prosene zarade po okruzima , godinji prosek u dinarima za 2008 -2010.

2. Grafiko prikazivanje podataka.

Davno je reeno da slika govori vie od hiljadu rei. U naoj prii o deskriptivnoj statistici

to bi jednostavno znailo da je grafiki (slikovni) nain esto mnogo efikasniji u saetom

prikazivanju podataka od tabelarnog. Odista, dok tabele esto mogu da budu veoma

komplikovane i da zahtevaju prilian stepen koncentracije, grafikoni su uvek laki i jednostavni za

razumevanje. Postoji vie naina na koje moemo da grafiki predstavimo rezultate. Jedan,

moda i najee korien nain jeste upotrebom histograma (stubia).

Slika 4.1. Rast obima maloprodaje u Srbiji u milijardama evra za period 2006 2011. Izvor: magazin InStore, 2012. Lako se moe uoiti da je taj promet, uprkos svetskoj ekonomskoj krizi koja je poela u jesen 2008. u stalnom

usponu i da se udvostruio u proteklih 6 godina.

Histogrami se mogu koristiti za prikazivanje bilo kojih podataka ali su naroito pogodni

za prikazivanje diskretnih varijabli ili odnosa diskretnih i kontinuiranih varijabli. Na apscisi (X osi)

Slike 4.1. su godine (diskretni, celi brojevi) dok se na ordinati (Y osi) nalazi maloprodajni promet

izraen u evrima (kontinuirana varijabla). Isti princip korien je i u Slici 4.2. koja prikazuje

promet u maloprodaji u pet ex-YU drava. Na apscisi se nalaze imena drava (nominalna,

diskretna varijabla) dok se na ordinati nalazi maloprodajni promet izraen u evrima

(kontinuirana varijabla).

3,86

5,45

6,265,91

6,56

7,74

0

1

2

3

4

5

6

7

8

9

2006 2007 2008 2009 2010 2011

Slika 4. 2. Obim maloprodaje u pet ex-YU drava u 2011. izraen u milijardama evra. Izvor: magazin InStore, 2012. Uoavate da je maloprodajni promet najvei u najmnogoljudnijoj Srbiji a najmanji u Crnoj Gori koja ima najmanji

broj stanovnika.

Distribucije

U uvodnom poglavlju upoznali smo se sa pojmom varijabilnosti. Kazali smo da je

varijabilnost jedna od osnovnih zakonitosti ovog sveta i da se ljudi razlikuju po svim merenim

osobinama i da su sve pojave koje merimo varijabilne pa ih stoga u nauci i zovemo varijablama.

Nain na koji se varijable rasporeuju du kontinuuma naih ispitanika nazivamo distribucija

(raspored) neke varijable. U deskriptivnoj statistici mi nastojimo da opiemo distribuciju na

najekonominiji nain tako to emo opisati njen oblik i tako to emo navesti neku meru njene

centralne tendencije i neku meru njene varijabilnosti.

Slika 4.3. e nam posluiti da detaljnije objasnimo mogue razlike izmeu distribucija. Najbolji

nain da mislite o nekoj distribuciji jeste da ispod krive koja je opisuje zamislite glavice

ispitanika iji skorovi obrazuju tu distribuciju. Tamo gde je kriva koja opisuje distribuciju najvia

nalazi se najvie ispitanika a tamo gde je kriva koja opisuje distribuciju najnia nalazi se

najmanje ispitanika. Na sve tri distribucije prikazane na Slici 4.3. najvie ispitanika u sredinjem

delu distribucije a najmanje na njenim krajevima. Oigledno je da su distribucije A i C istog

oblika a da je oblik distribucije B neto drugaiji. Isto tako, moemo rei i da se distribucije A i B

7,74

5,67

4,72

2,81

0,86

0

1

2

3

4

5

6

7

8

9

Srbija Hrvatska Slovenija Bosna i Hercegovina

Crna Gora

Distribucije se meusobno razlikuju po obliku, merama centralne tendencije i merama

varijabilnosti. Najjednostavniji numeriki opis neke distribucije sastoji se od navoenja mere

centralne tendencije i mere varijabilnosti.

ne razlikuju po centralnoj tendenciji jer se najvei broj ispitanika u obe distribucije grupie oko

iste vrednosti. Nasuprot tome, centralna tendencija distribucije C pomerena je udesno, ka viim

vrednostima. S druge strane, varijabilnost (raspon od najnieg do najvieg skora) distribucije A i

C je jednaka dok je varijabilnost distribucije B neto manja. Moemo rei da je distribucija B ua

nego distribucije A i C jer je razmak izmeu najnieg skore te distribucije manji nego to je to

sluaj sa distribucijama A i C.

Slika 4. 3. Tri distribucije koje se meusobno razlikuju po obliku, centralnoj tendenciji i varijabilnosti

U psihologiji obino imamo posla sa varijablama koje se simetrino rasporeuju. Zbog toga su

na Slici 4.3. sve tri prikazane distribucije simetrine. Najee, distribucija psiholokih varijabli

ima zvonasti oblik kakav imaju distribucije A i C. Distribuciju takvog oblika zovemo normalna ili

Gausova distribucija u ast velikog nemakog matematiara iz 19. veka. Normalnom ili

Gausovom distribucijom emo se mnogo detaljnije baviti u Poglavlju 5. Na ovom mestu

dovoljno je da kaemo da nam, budui najea, ona slui kao standard za opisivanje drugih

distribucija koje horizonatlno ili vertikalno odstupaju od nje.

Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes (od

engleskog skewness). Zavisno od smera odstupanja, postoje pozitivno (Slika 4.6.) i negativno

(Slika 4.7.) zakrivljene distribucije.

Vertikalno odstupanje od normalne distribucije zovemo kurtozis (engleski curtosis) i ono

ukazuje na to da li je gomilanje skorova ispod take najvie uestalosti vie ili nie nego kod

normalne distribucije. Budui da nam slui kao standard, za normalnu distribuciju kaemo da je

mezokurtina (tj. srednje visoka). Vie a ue distribucije su leptokurtine a nie a ire su

platokurtine (Slika 4.4).

Slika 4.4. Kurtozis: vertikalno odstupanje od normalne distribucije

Mere i parametri

Ve na samom poetku ove knjige istakli smo razliku izmeu uzoraka (podataka kojima

raspolaemo) i populacija (svih sluajeva koji nas zanimaju). Uzorci su dostupni i nee nam biti

naroito teko da ih opiemo merama centralne tendencije (kao to je npr. aritmetika sredina

uzorka) i merama varijabilnosti (kao to je npr. standardna devijacija uzorka). U tom svom znaenju,

re mera se odnosi na broj koji saima neke bitne osobine uzorka. S druge strane re parametar

oznaava broj koji saima neke bitne osobine populacije. Dok su nam mere lako dostupne i

poznate, parametri (pravo stanje stvari) nam uglavnom ostaju nedostupni i nepoznati zbog toga to

su populacije po pravilu ogromne a njihovo prouavanje skupo. Sve to znamo o populacijama i

parametrima znamo na osnovu prouavanju uzoraka. Zbog toga kaemo da su mere procene

populacijskih parametara do kojih dolazimo na osnovu prouavanja uzorka. Sasvim

razumljivo,prilikom odabira uzorka trudimo se da nam on omogui nepristrasnu i to je mogue

taniju procenu parametara (pravih vrednosti). Po unapred usvojenom dogovoru (konvenciji)

parametre oznaavamo grkim slovima () a mere latininim slovima (M, SD).

I. MERE CENTRALNE TENDENCIJE

Numeriki opis podataka obavezno podrazumeva i navoenje neke mere centralne

tendencije. Ukoliko u svakodnevnom ivotu elimo da opiemo neku pojavu mi se veoma esto

pozivamo na neki broj koji opisuje neki proseni intenzitet te pojave. Kada posle posete nekoj

stranoj zemlji elimo da nae sagovornike ubedimo u to kako se u toj zemlji dobro ivi mi kao

lako prihvatljiv argument navodimo da je u toj zemlji prosena plata npr. 800 evra tj. dosta via

nego to je prosena plata u naoj zemlji. Isto tako, kada se raspitujemo za klimu u nekoj

dalekoj i nepoznatoj zemlji podaci o prosenoj letnjoj i zimskoj temperaturi nam pomau da

shvatimo ta nas oekuje na toj destinaciji. Uspenu karijeru naeg Vlade Divca u amerikoj NBA

ilustrujemo podatkom da je on odigravi 1134 utakmice u proseku davao 11.8 koeva po

utakmici i da je proseno imao 8.2 uhvaene lopte i 3.1 dodavanja po utakmici. Oni koji poznaju

koarku su svakako zadivljeni tim brojevima. Naravno, svakome je jasno da je na Vlade na

nekim utakmicama bio uspeniji a na nekim manje uspean ali da ti brojevi dobro opisuju

njegovo viegodinje igranje u najprestinijoj koarkakoj ligi na svetu. Do njih smo doli tako

to smo ukupan broj koeva, uhvaenih lopti i dodavanja podelili sa brojem utakmica koje je

Divac odigrao. Na taj nain, dobili smo 3 aritmetike sredine (za svaku kategoriju po jednu). Sa

samo 3 broja opisali smo ono to se deavalo tokom 16 godina na preko hiljadu utakmica.

Aritmetika sredina

Aritmetika sredina (engleski mean) je intuitivna i lako razumljiva mera centralne

tendencije. Sa njom se sreemo svakodnenvno kada izraunavamo prosenu ocenu tokom

studija, prosenu cenu kilograma paradjaza na razliitim gradskim pijacama, prosean broj

posetilaca Narodnog pozorita i sl. Svako od nas ima neko iskustvo sa tom merom i zbog toga

polazimo od nje u naoj nameri da se upoznamo sa osnovim elementima deskriptivne statistike.

Svako od nas je bar jednom bio u prilici da izrauna aritmetiku sredinu pa vam se verovatno

ini da o aritmetikoj sredini znate sve i da itajui ovu knjigu neete saznati nita novo o ovoj

njaee korienoj meri centralne tendencije. Ipak, postoje 3 veoma vane osobine aritmetike

sredine o kojima do sada verovatno niste razmiljli i koje e nam posluiti kao uzor kada

budemo ocenjivali ostale mere koje koristimo u opisu podataka.

1. Aritmetika sredina je uvek samo jedna. Za svaki niz mera postoji samo jedna

aritmetika sredina. To je veoma zgodna osobina za neku meru. Kao to ete uskoro

videti, ona nije zajednika svim merama centralne tendencije.

2. Aritmetika sredina poiva na svim prikupljenim podacima. Ko to znate, pri

izraunavanju aritmetike sredine uzimamo u obzir sve pojedinane sluajeve, svaku

utakmicu na kojoj je igrao Vlade Divac, ocenu sa svakog ispita koji ste polagali.

Aritmetika sredina zavisi od rezultata svakog naeg ispitanika. Kao to ete uskoro

videti, ova lepa osobina nije zajednika svim merama centralne tendencija ali ni svim

merama varjabilnosti

3. Aritmetika sredina je izraena u mernim jedinicama varijable koju merimo. Ukoliko

izraunavamo aritmetiku sredinu visine ona e biti izraena u centimetrima, ukoliko

izraunavamo aritmetiku sredinu teine ona e biti izraena u kilogramima itd. Kao to

ete uskoro videti, nisu sve mere centralne tendencije i sve mere varijabilnosti izraene

u jednicama varijable koje merimo.

Te lepe osobine aritmetike sredine e nam posluiti kao uzor na osnovu koga emo

procenjivati i ostale mere deskriptivne statistike, bez obzira da li se radi o merama centralne

tendencije ili se radi o merama varijabilnosti.

Kako se rauna aritmetika sredina

Kao to smo ve kazali i kao to svi dobro znamo aritmetika sredina se rauna tako to

saberemo pojedinane vrednosti varijable koju merimo pa taj zbir podelimo sa brojem

posmatranja odnosno ispitanika. Tu operaciju moemo lako da opiemo sledeom formulom:

Formula 4.1. Aritmetika sredina populacije () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih posmatranja (N).

Primera radi, pretpostavimo da se populacija koja prouavamo sastoji od samo 9 sluajeva koji

su opisani brojevima:

46 64 54 67 77 68 62 56 38

Aritmetika sredina populacije je onda

Aritmetika sredina ima i jedni ozbiljnu manu: veoma je osetljiva na ekstremne vrednosti ili trke

tj. na vrednosti koje jasno odudaraju od ostalih vrednosti u nekom nizu mera. Samo jedna takva

vrednost, samo jedan pogreno unet podatak ili samo jedan ispitanik koji po svojim osnovnim

osobinama ne pripada ostalim lanovima naeg uzorka moe da bitno utie na vrednost

aritmetike sredine. Taj problem osetljivost na trke- razmatraemo i kada uskoro budemo

govorili o standardnoj devijaciji i o Pirsonovom indeksu korelacije.

N

xi

Ukoliko, u skladu sa onim to smo do sada ve rekli o populacijama i uzorcima, zbog

finansijskih i vremenskih ogranienja nismo u stanju da prouavamo tako veliku populaciju

biemo primorani da njenu aritmetiku sredinu procenimo na osnovu aritmetike sredine

uzorka. U naem primeru kazaemo da smo do aritmetike sredine uzorka M doli tako to smo

svaki od 9 brojeva nae populacije upisali na poseban papiri, sve papirie ubacili u eir, dobro

ih izmeali i da smo (u skladu sa prethodno donesenom odlukom) odluili da populacijski

parametar procenimo na osnovu uzorka koji obuhvata samo 4 sluaja. Tako bismo npr. mogli

da iz eira izvuemo 4 broja

38 62 67 64

Ta etiri broja jesu na sluajni reprezentativni uzorak na osnovu koga emo napraviti

procenu aritmetike sredine popilacije. Kaemo sluajni jer smo odabir ta etiri broja u

potpunosti prepustili sluaju; meajui papirie u eiru trudili smo se da iskljuimo bilo kakav

sistematski uticaj na izvlaenje. Kaemo reprezentativni jer ovaj uzorak

reprezentuje/predstavlja nama obino nedostupnu populaciju; govori u njeno ime. Aritmetiku

sredinu uzorka izraunaemo po formuli

Formula 4.2. Aritmetika sredina uzorka () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih posmatranja (n).

Lako ete uoiti slinost izmeu Formule 4.1. i Formule 4.2. Aritmetika sredina

populacije i aritmetika sredina uzorka raunaju se na isti nain. Jedina razlika izmeu dve

formule je u notaciji. Kao to smo ve kazali populacijske parametre oznaavamo grkim

slovima a uzorake procene tih parametara latininim simbolima. Razlika izmeu dve formule

je i u tome to broj posmatranja/ispitanika u populaciji oznaavamo velikim latininim slovom

N a broj ispitanika u uzorku malim latininim slovom n.

11.599

532

n

xM

i

Aritmetika sredina populacije je parametar a aritmetika sredina uzorka M je mera,

najbolja procena vrednosti parametra kojom raspolaemo. Aritmetika sredinu uzorka

oznaava se i kao AS i kao . Engleski naziv za aritmetiku sredinu je mean.

Sledei Formulu 2 za izraunavanje aritemetike sredine uzorka dobijamo vrednost

Posmatrajui ishod raunske operacije kojom smo izraunali i M lako uviamo da

nismo dobili isti rezultat odnosno da naa procene parametra ne odgovara njegovoj stvarnoj

vrednosti. Da stvar bude jo gora, veoma retko emo biti u prilici da znamo istinsku vrednost

parametra i samim tim da znamo koliko naa procena te vrednosti odstupa od parametra.

Naalost, u daljem bavljenju statistikom moraemo da se pomirimo sa takvim stanjem stvari.

Vano je da iz ovog, naoko veoma prostog, primera uoite jo jednu stvar. Odluili smo

se da stanje u populaciji od 9 ispitanika procenimo na osnovu uzorka u koji e ui 4 posmatranja

i dobili smo vrednost M = 57.50. Oigledno je da bi u nekom ponovljenom merenju u na

uzorak od 4 posmatranja najverovatnije ule neke druge vrednosti i da samim tim i aritmetika

sredina uzorka vie ne bi bila ista, naa porcena parametra ne bi bila ista. Sasvim je mogue da

u na sluajni uzorak uu 4 najmanja broja iz te mini populacije ili da pak 4 najvea broja budu

izvuena iz eira. Oigledno je da e svaki od mnogo razliitih uzoraka koji se mogu izvui iz

populacije dati drugaiju vrednost M, drugaiju procenu . Mi se ovde neemo previe dugo

baviti izraunavnjem mogueg broja razliitih uzoraka veliine n = 4 iz populacije veliine N = 9.

50.574

231M

Bez obzira koliko se trudili da naa mera bude nepristrasna procena parametra, u praksi nikada

neemo znati koliko ona odstupa od stvarne vrednosti parametra. Aritmetika sredina je oekivana

vrednost skora koji pripadnici neke populacije postiu na nekoj varijabli. Ukoliko npr. znamo da

prosena visina svih mladia iz Novog Sada 175 cm, najmanje emo pogreiti ako oekujemo da e

prvi mladi koji e proi ispred ulaza u na fakultet biti visok 175 cm.

Za znatieljne: koliko je mogue izvui razliitih uzoraka veliine n = 4 iz populacije N = 9?

Odgovor na ovo pitanje dobiemo ako reimo jednainu 126)!!*(

!

nNn

Nk

Faktorijal broja 9 (N!)= 362880, faktorijal broja 4 (n!) = 24 a faktorijal broja 5 (N-n)! = 120.

Po istoj formuli postoji:

210 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 10

495 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 12

1001 razliit uzorak veliine n = 4 koji se mogu izvui iz populacije N = 14

Za nas je vanije da uoimo da je u svakoj realnoj situaciji kada se N meri stotinama

hiljada (npr. svi mladi koji ive u naoj zemlji) ili milionima ljudi (npr. svi graani Srbije sa

pravom glasa) a n iznosi 2 ili 3 hiljade ispitanika (broj ispitanika na koje se oslanjaju vodee

istraivake agencije kada pokuavaju da predvide ishod republikih izbora) broj razliitih

uzoraka koji se mogu izvui iz neke populacije praktino beskonaan. Primera radi naveemo

podatak da je broj razliitih kombinacija (uzoraka od 7 iz populacije od 39) u igri Loto negde

preko 14 miliona. Broj razliitih uzoraka veliine 2 hiljade iz populacije od 4.5 miliona je svakako

viestruko vei.

Medijana

Osim aritmetike sredine, kao mera centralne tendencije veoma esto se koristi i

medijana. Po definiciji, medijana je ona brojana vrednost koja neki niz brojeva (uzorak ili

populaciju) deli na 2 jednaka dela. Budui da se pola brojeva nalazi ispod a pola brojeva iznad

vrednosti medijane, medijana se naziva i sredinja ili centralna vrednost. Do vrednosti medijane

dolazimo tako to neki niz skorova poreamo po veliini od najmanjeg ka najveem i potom

pronaemo vrednost koja taj niz deli na dva jednaka dela, na dve polovine. U naem primeru

niza od 9 brojeva

38 46 54 56 62 64 67 68 77

medijana je broj 62 jer je taj broj istovremeno vii od 4 broja sa njegove leve i nii od 4 broja sa

njegove desne strane. Ukoliko bi trebalo da izraunamo medijanu nekog niza koji sainjava

paran broj posmatranja kao to je npr. niz

38 46 54 56 62 64 67 68 77 77

medijana bi se nalazila tano u sredini izmeu brojeva 62 i 64 i imala vrednost 63.

Iz beskonano mnogo uzoraka koje smo izvukli iz neke populacije dobiemo beskonani broj

meusobno razliitih procena aritmetike sredine te populacije. Bez obzira to znamo da bi neki

drugi uzorak dao drugaiju procenu parametra u realnim ogranienjima svakog istraivanja mi se

obino oslanjamo samo na jednu procenu parametra .

Medijanu oznaavamo sa Mdn. Engleski naziv za medijanu je median.

Jo jedna jedinstvena odlika aritmetike sredine: u univarijatnoj distribuciji (distribuciji jedne

varijable) suma kvadriranih odstupanja ostalih brojeva od aritmetike sredine je uvek manja od

sume kvadriranih odstupanja tih brojeva od bilo kog drugog broja iz te distribucije.

Veoma esto medijana se saoptava uporedo sa vrednou aritmetike sredine. To je

zbog toga to medijana, za razliku od aritmetike sredine, nije osteljiva na ekstremne vrednosti

na trke. Ukoliko bi neko napravio greku unosei podatke i kao najviu vrednost iz nae

populacije od 9 brojeva umesto 77 upisao 777 dolo bi do drastine promene aritmetike

sredine. U tom sluaju aritmetika sredina vie ne bi bila = 59.11 ve bi bila = 136.89.

Vrednost medijane se ne bi promenila i ostala bi ista Mdn = 62.

Medijana je mera centralne tendencije koju koristimo kada opisujemo podatke koji

dolaze sa ordinalne skale budui da nema nikakvog smisla da izraunavamo aritmetiku sredinu

ukoliko nije zadovoljen uslov ekvidistantnosti merne skale. Tako npr. medijanom a ne

aritmetikom sredinom- bismo opisali progresivnu fazu neke bolesti za grupu pacijenta.

Mod

Mod je trea i, videemo, najnesavrenija mera centralne tendencije. Mod je vrednost

najuestalijeg (najfrekventnijeg) posmatranja. U nizu mera

1 2 4 4 5

Za razliku od aritmetike sredine, medijana nije osetljiva na ekstremne vrednosti. Kao i aritmetika

sredina, medijana je uvek samo jedna i izraena je u mernim jedinicama varijable koju merimo. Za

razliku od aritmetike sredine, medijana ne poiva na svim prikupljenimm podacima. Posao

medijane je da se parkira u sredinu brojanog niza i ona uopte ne brine o tome koji se skorovi

nalaze bilo sa njene leve bilo sa njene desne strane. Ukoliko bismo na originalni niz od 9 brojeva:

38 46 54 56 62 64 67 68 77

zamenili npr. nizom:

38 46 54 56 62 664 667 668 777

aritmetika sredina bi se drastino promenila ali bi medijana ostala ista, ne bi ni trepnula. Neka se

ceo svet promeni, medijani je samo jedna stvar vana: da bude u sredini.

mod ima vrednost 4. Vrednost moda je najea, pa samim tim postoji i najvea verovatnoa

da e se nai u uzorku koji vuemo iz neke populacije. Mod nije frekvencija najeeg skora;

mod je vrednost najeeg skora.

Mada je mod najgrublja mera centralne tendencije, mod (ali ne aritmetiku sredinu i

medijanu) moemo raunati i kada imamo podatke koji potiu sa nominalne skale. Dakle, mada

nema nikakvog smisla da raunamo aritmetiku sredinu i medijanu aribtrarno dodeljenih

brojeva koji samo obeleavaju neke pojave sasvim je u redu da saoptimo koja je od tih pojava

najuestalija, da saoptimo mod.

Aritmetika sredina, medijana i mod

Aritmetika sredina i medijana su najee koriene mere centralne tendencije.

Aritmetiku sredinu raunamo ukoliko podaci dolaze sa intervalne i racio skale, medijanu

moemo da raunamo i kod podataka koji dolaze sa ordinalne skale. Mod moemo da

raunamo i kada imamo posla sa nominalnim podacima. Kod simetrinih distribucija

aritmetika sredina i medijana se nalaze jedna blizu druge. Ukoliko je distribucija savreno

simetrina, aritmetika sredina i medijana imaju istu vrednost. Ukoliko je distribucija

unimodalna i savreno simetrina -kao to je to sluaj sa normalnom (Gausovom) distribucijom

onda aritmetika sredina, medijana i mod imaju istu vrednost (Slika 4.5). U pozitivno

zakrivljenoj distribuciji aritmetika sredina ima viu vrednost nego mod (Slika 4.6) a u negativno

zakrivljenoj distribuciji mod ima viu vrednost nego aritemtika sredina (Slika 4.7). Vrednost

medijane je u oba sluaja i kod negativno i kod pozitivno zakrivljene distribucije u sredini:

izmeu vrednosti moda i vrednosti medijane.

Za razliku od aritmetike sredine, mod nije osetljiv na ekstremne vrednosti, ne poiva na svim

prikupljenim podacima i ne mora da bude samo jedan. U distribuciji

1 2 4 4 5 6 6 9

imamo dva moda (4 i 6) pa za takvu distribuciju kaemo da je bimodalna. Kada skupljamo

antropometrijske podatke (visina, teina) o mukarcima i enama, obino dobijamo podatke koji se

bimodalno distribuiraju. Mada su u psihologiji takve pojave veoma retke, u naelu, moemo se

sresti i sa polimodlanim distribucijama tj. sa distribucijama koje imaju vie od dva moda.

Slika 4. 5. U normalnoj/Gausovoj distribuciji, aritmetika sredina, medijana i mod imaju istu vrednost. Postoji potpuna saglasnost sve tri mere centralne tendencije.

Slika 4. 6. U pozitivno zakrivljenoj distribuciji postoji srazmerno mali broj ekstremno visokih vrednosti koje guraju aritmetiku sredinu udesno. Mod se, kao i uvek, nalazi na mestu iznad koga je vrh distribucije. Stoga je aritmetika sredina vea od medijane a medijana je vea od moda.

Slika 4.7. U negativno zakrivljenoj distribuciji postoji mali broj ekstremno niskih vrednosti koje guraju aritmetiku sredinu ulevo. Mod je krajnje desno jer se tamo nalazi vrh distribucije, na mesti najeeg skora. Medijana je - za razliku od aritmetike sredine- neosetljiva na ekstremne vrednosti pa e zadrati svoje mesto izmeu moda i aritmetike sredine. Stoga je mod je vei od medijane a medijana je vea od aritmetike sredine.

Od sve tri mere centralne tendencije jedino aritmetika sredina poiva na svim

prikupljenim podacima tj. koristi sve prikupljene informacije. Isto tako, aritmetika sredina je

jedina od tri mere centralne tendencije koju emo koristiti kada od deskriptivne statistike

budemo preli na statistiku zakljuivanja. Medijanu i mod koristimo iskljuivo u deskriptivne

svrhe, kada bez pretenzija da zakoraimo u statistiku zakljuivanja- saimamo podatke koji su

pred nama; koristimo ih prvenstveno za opis pozitivno ili negativno zakrivljenih distribucija.

Zakljuak o merama centralne tendencije

Mere centralne tendencije nam govore otome gde se u opsegu brojeva od minus do plus

beskonano nalaze nai podaci. Centralnu tendenciju nekog niza skorova opisujemo jednim

brojem, najee aritmetikom sredinom. U sluaju veoma zakrivljenih distribucija i onda kada

nam je cilj da samo opisujemo podatke a ne i da iskoraimo u statistiku zakljuivanja, kao mere

centralne tendencije koristimo medijanu i mod.

II. MERE VARIJABILNOSTI

Opseg

Navoenje opsega (razlike izmeu najvieg i najnieg skora ) je intuitivno najblii i

najprostiji nain da saeto opiemo varijabilnost neke distribucije. U primeru nae populacije od

9 brojeva

38 46 54 56 62 64 67 68 77

opseg (engleski range) je razlika izmeu brojeva 77 38 i iznosi 39. Kada smo malo pre govorili o

distribucijama koristili smo opseg da bismo ukazali na to da se distribucije (osim po obliku i po

merama centralne tendencije) mogu razlikovati i po varijabilnosti. Opseg je veoma gruba mera

varijabilnosti budui da je potpuno neosetljiv na skorove koji se nalaze izmeu najvieg i

najnieg skora. Koristimo ga samo u deskriptivnoj statistici, uglavnom da bismo otkrili greke

koje se deavaju prilikom unosa podataka i/ili da bismo otkrili trke, skorove koji jasno

odudaraju od ostalih. Opseg uzorka esto ne daje dobru procenu opsega populacije budui da

se u uzorku najverovatnije nee nai ekstremnii skorovi koji se nalaze u populaciji. Daleko je

vea verovatnoa da se ekstremni populacijski skorovi nau u veim nego u manjim uzorcima.

Drugim reima, veliina ospega uzorka zavisi od veliine samog uzorka a to je dosta nepoeljna

okolnost u situaciji kada na osnovu poznavanja uzroka pokuavamo da procenimo stanje u

populaciji. Zbog toga, za razliku od varijanse (i standardne devijacije, vidi dole) opseg nije

mera varijabilnosti koju emo koristiti kada sa deskriptivne statistike budemo preli na

statistiku zakljuivanja.

Kvartilni opseg i kvartilna devijacija

Jedan, danas sve ree korieni, nain da opiemo varijabilnost neke distribucije jeste

preko kvartilnog opsega ili kvartilne devijacije. Do vrednosti ovih mera varijabilnosti dolazimo

tako to distribuciju podelimo na etiri koraka ili kvartila. To emo uraditi tako to emo prvo

izraunati medijanu koja za niz skorova (za ovaj primer upotrebiemo neto dui niz)

22 25 34 35 41 41 46 46 46 48 49 54 54 59 60

ima vrednost 46.

Potom emo odrediti levu i desnu medijanu tj. medijane leve i desne polovine skorova. U

naem sluaju bie to brojevi 35 i 54.

22 25 34 35 41 41 46 46 46 48 49 54 54 59 60

Broj 35 oznaava prvi kvartil (Q1) tj. medijanu skorova koji se nalaze ulevo od medijane ukupnog

niza; broj 54 oznaava trei kvartil (Q3) tj. medijanu skorova koji se nalaze udesno od medijane

ukupnog niza.

Standardna devijacija

Upravo smo videli da su dve do sada razmatrane mere varijabilnosti daleko od lepih

osobina aritmetike sredine koje smo nedavno istakli: ni opseg ni kvartilna devijacija ne koriste

sve prikupljene informacije, njihova vrednost ne poiva na svim prikupljenim podacima. Treba

nam dakle neka mera varijabilnosti koja bi ila ruku pod ruku sa aritmetikom sredinom. Mera

varijabilnosti koji bismo koristili uvek kada koristimo aritmetiku sredinu a to se odnosi upravo

na poeljne istraivake situacije kada analiziramo podatke koji potiu sa intervalne ili racio

skale.

Na prvi pogled ini se da nije teko doi do takve mere varijabilnosti. Mogli bismo

jednostavno da izraunamo proseno odstupanje od aritmetike sredine. Zdrav razum nam

govori da to je varijabilnost nekog niza skorova vea, bie vea i odstupanja pojedinanih

skorova od njihove aritmetike sredine. I obrnuto: to je varijabilnost nekog niza skorova manja,

biie manja i odstupanja pojedinanih skorova od njihove aritmetike sredine. Ukoliko

izraunamo njihovo proseno odstupanje od aritmetike sredine to bi moglo da nam da dobru

sliku o varijabilnosti tog niza skorova.

[ Uskoro emo videti da je to (mada) intuitivno ujedno i loe reenje.]

Hajde da vidimo kuda e nas odvesti ovaj pristup, da izraunamo proseno odstupanje

od aritmetike sredine. Uradiemo to sluei se formulom

Formula 4.3. Proseno linearno odstupanje od aritmetike sredine. Iako intuitivan, ovaj pristup ne vodi nikuda.

N

xi )(

Interkvartilni opseg (engleski interquartile range) je razlika izmeu prvog i treeg kvartila

IQR = Q3 Q1

u naem primeru IQR = 54 -35 = 19

Kvartilna devijacija (engleski quartile deviation) je jednaka polovini interkvartilnog opsega

2

IQRQD

U naem primeru 5.92

3554

QD

gde je oznaka za sumu, xi oznaka za svaki pojedinani skor, oznaka za aritmetiku sredinu

populacije a N oznaka za broj posmatranja odnosno oznaka za broj pripadnika te populacije. U

naem primeru populacije od 9 posmatranja i = 59.11

0

9

0

Ishod ovog rauna je, sa intuitivnog stanovita, neoekivan jer proizilazi da je

varijabilnost unutar nae populacije jednaka nuli, odnosno da unutar nae populacije nema

nikakve varijabilnosti. Taj zakljuak je oigledno pogrean jer se svaki od 9 skorova razlikuje od

svih ostalih skorova i svaki skor se razlikuje od njihove zajednike aritmetike sredine. Dakle,

varijabilnost postoji ali mi nismo uspeli da joj pristupimo na pravi nain. Izvor naeg problema

je u tome to se iznad razlomake crte (u brojiocu) pojavljuju negativni i pozitivni brojevi zbog

toga to su neki skorovi manji a neki vei od zajednike aritmetike sredine. U sledeem koraku

otkrivamo da se ti negativni i pozitivni brojevi potiru i da je njihov konani zbir jednak nuli.

Ukoliko nulu podelimo sa brojem posmatranja (N = 9) ili sa bilo kojim drugim brojem, krajnji

rezultat e uvek biti nula. Do tog ishoda doi emo uvek, bez obzira na to koliko skorova ini

nau populaciju, bez obzira na njihovu brojanu vrednost i bez obzira na vrednost aritmetike

sredine.

Dakle, moemo da zakljuimo da nas raunanje prosenog odstupanja (prosene

devijacije) od aritmetike sredine vodi u orsokak zbog toga to se negativni i pozitivni brojevi

koji opisuju ta odstupanja meusobno potiru. Dobar nain da reim problem jeste da umesto

prosenog odstupanja od aritmetike sredine izraunamo proseno kvadrirano odstupanje od

aritmetike sredine. Jo u osnovnoj koli smo nauili da je svako a2 pozitivan broj (jer plus puta

9

)77()68()67()64()62()56()54()46()38(

9

89.1789.889.789.489.2)11.3()11.5()11.13()11.22(

Jedna vana osobina aritmetike sredine o kojoj do sada nismo govorili jeste da je suma odstupanja

(devijacija) pojedinanih skorova od aritmetike sredine uvek jednaka nuli. To je ujedno i sutina

aritmetike sredine. Aritmetika sredina je teite niza skorova. Zbir linearnih odstupanja od

aritmetike sredine uvek e biti nula, pa e i njihov prosek biti uvek nula. Ukoliko ne bismo

kvadrirali odstupanja od aritmetike sredine indeks varijabilnosti bi bio nula za svaki niz brojeva i

samim tim bio bi potpuno beskorisan. Isto tako, suma kvadriranih odstupanja od aritmetike

sredine e uvek biti manja od sume kvadriranih odstupanja od bilo koje druge vrednosti. Na ovo

emo se vratiti u Poglavlju 6 kada budemo govorili o linearnom odnosu izmeu dve varijable.

plus daje plus, a minus put aminus takoe daje plus). Raunajui proseno kvadrirano

odstupanje oslobodili smo se opasnosti da zbir mera odstupanja bude nula. Takva odluka je

sasvim u redu i zbog toga to negativno odstupanje nekog skora od aritmetike sredine samo

po sebi ne znai nita loe, nema nikakvu negativnu konotaciju. Ukoliko npr. raunamo broj

neopravdanih izostanaka uenika iz nekog razreda, skorovi koji su manji od aritmetike sredine

(i samim tim imaju negativne devijacije od aritmetike sredine) govore upravo neto dobro i

pozitivno.

Hajde, da vidimo kuda e nas odvesti raunanje prosenog kvadrirarnog odstupanja od

aritmetike sredine. Krenuemo od formule

Formula 4.4. Proseno kvadrirano odstupanje od aritmetike sredine. Pravi nain da opiemo varijabilnost nekog niza brojeva

=127.43

Na taj nain dobili smo proseno kvadrirano odstupanje od aritmetike sredine, broj koji e

uvek biti 0 (u sluaju da su svi skorovi jednaki aritmetikoj sredini) ili vei od nule (u svim

ostalim sluajevima).

N

xi2)(

Proseno kvadrirano odstupanje od aritmetike sredine zovemo varijansa i oznaavamo sa

V ili sa 2.

V = 2 = N

xi2)(

Kao to vidimo, formula za izraunavanje populacijske varijanse sastoji se iz brojioca u kome

se nalazi suma kvadriranih odstupanja (ili kako se skraeno kae suma kvadrata, na

engleskom sum of squares, skraeno SS) i imenioca u kome se nalazi broj skorova (N). Zbog

injenice da je varijansa prosek kvadriranih odstupanja od aritmetike sredine na

engleskom se za varijansu veoma esto koristi i izraz mean square koji se na na jezik

prevodi kao srednji kvadrat. Prema tome, gornju formulu moemo da dopunimo i da

napiemo kao

V = 2 = N

xi2)(

= N

SS= srednji kvadrat

9

)77()68()67()64()62()56()54()46()38( 222222222

Izraunavanjem varijanse dobili smo meru varijabilnosti koja ima neke ali ne i sve dobre

osobine koje ima aritmetika sredina. Varijansa jeste jedna (iz istih podataka moe se izraunati

samo jedna vrednost varijanse) i poiva na svim prikupljenim podacima. Ipak, za razliku od

aritmetike sredine varijansa nije izraena u mernim jednicama varijable koju merimo.

Aritmetika sredina visine je izraena u centimentrima, aritmetika sredina teine je izraena u

kilogramima, aritmetika sredina inteligencije je izraena u IQ jedinicama. Ali izraunavajui

varijansu mi smo kvadrirali odstupanja svakog pojedinanog skora od aritmetike sredine. Ta

operacija je matematiki sasvim opravdana i, videli smo, krajnje poeljna. Ipak, ne umemo da

odgovorimo na pitanje ta je to kilogram na kvadrat , kakve veze imaju kvadratni centrimetri sa

visinom i ta je to IQ2. Zbog toga kaemo da je varijansa izraena kao nedimenzionalni broj. Da

bismo -u naem traganju za merom varijabilnosti koja e ii ruku pod ruku sa aritmetikom

sredinom- dobili meru varijabilnosti koja je izraena u mernim jednicima varijable koju merimo

pribei emo starom matematikom triku: izraunaemo kvadratni koren varijanse i nazvati ga

standardna devijacija (engleski standard deviation).

=

Formula 4.5. Standardna devijacija populacije je kvadratni koren populacijske varijanse

2

Za razliku od varijanse koje je nedimenzionalni broj standradna devijacija, kao i aritmetika

sredina je izraena u mernim jedinicama varijable koju merimo. Zapravo, standardna

devijacija poseduje sve tri lepe osobine koje poseduje i aritmetika sredina: ona je samo

jedna, poiva na svim prikupljenim informacijama i izraena je u mernim jednicama

varijable koju merimo. Standardna devijacija skorova koji opisuju visinu izraena je i

centimetrima, standardna devijacija skorova koji opisuju teinu izraena je u kilogramima,

standardna devijacija ineteligencije izraena je u IQ jedinicama.

Mada zbog jasno definisanog meusobnog odnosa varijansa i standardna devijacija u

deskriptivnoj statistici nose sa sobom istu koliinu informacija, treba uoiti da je varijansa

bogatiji (moemo da kaemo i stariji) pojam u odnosu na pojam standardne devijacije koji

je izveden iz pojma varijanse.

Do standardne devijacije smo doli posle dve komplikacije. Prvo smo se oslobodili

negativnih brojeva u brojiocu tako to smo kvadrirali odstupanja od aritmetike sredine. Na taj

nain izraunali smo varijansu populacije. Potom smo izraunali kvadratni koren te varijanse i

dobili standardnu devijaciju, indeks varijabilnosti koji je izraen u mernim jedinicama

originalnog merenja.

Varijansu uzorka (SD2) raunamo na slian nain kao i varijansu populacije s time da u imeniocu

umesto vrednosti n imamo vrednost n-1.

Formula 4.6. Varijansa uzorka. oznaka za sumu, xi =oznaka za svaki pojedinani skor, x = oznaka za aritmetiku sredinu uzorka, n = oznaka za broj posmatranja odnosno oznaka za veliinu uzorka, n-1 = oznaka za broj stepeni slobode

Broj n-1 nazivamo brojem stepeni slobode (engleski degrees of freedom ili skraeno df).

U ovom trenutku ne moemo da objasnimo ovaj pojam ali emo se vratiti na njega u dogledno

vreme. Vano je da uoite da je po definiciji broj n-1 najsliniji broju n i da sa poveanjem naeg

uzorka posledice delenja brojioca (sume kvadrata) sa n ili sa n-1 postaju sve manje. Dakle, im

na uzorak premai neki realni okvir od n = 30 (retka su psiholoka istraivanja koja e biti

obavljena na manjem uzorku) postaje prilino svejedno da li brojilac delimo sa 30 (n) ili sa 29

(n-1).

Standardna devijacija je mera prosene udaljenosti od aritmetike sredine i treba je

koristiti samo onda kada raunamo aritmetiku sredinu, a to je onda kada se bavimo podacima

koji potiu sa intervalne i racio skale. Standardna devijacija je jednaka nuli kada ne postoji

nikakva varijabilnost skorova, kada svi skorovi imaju istu vrednost.

Kao to o aritmetikoj sredini moemo misliti kao o prosenom skoru tako o standardnoj

devijaciji moemo da mislimo kao o prosenoj varijabilnosti tj. kao o prosenom odstupanju

od aritmetike sredine.

Kao i kod populacije, standardna devijacija uzorka je kvadratni koren varijanse uzorka.

2SDSD

Standardna devijacija je, kao i aritmetika sredina, veoma osetljiva na trke .

1

)( 22

n

MXSD

xi

Zakljuak o merama varijabilnosti

Varijabilnost ili podatak o tome koliko se skorovi meusobno razlikuju je, uz meru

centralne tendencije, veoma vaan atribut svakog niza skorova. U psiholokim istraivanjima

varijabilnost najee izraavamo jednim brojem koji se odnosi na varijansu ili na standardnu

devijaciju. to je vea varijansa (ili standardna devijacija) vea je i varijabilnost izmeu skorova.

Pojam varijabilnosti je veoma vaan za razumevanje gradiva koje je pred nama. Uostalom, sva

psiholoka istraivanja se bave ispitivanjem varijanse. Ukoliko se ljudi meusobno ne bi

razlikovali u odnosu na neku bitnu osobinu (visinu donjeg praga ulne osetljivosti, inteligenciju,

anksioznost, ekstroverziju, lokus kontrole itd.) na nauni interes za tu osobinu bio bi svakako

manji. Psiholoka istraivanja pokuavaju da rasvetle uzroke variranja bilo koje od posmatranih

osobina tako to e variranje jedne varijable (varijansu varijable Y) dovesti u vezu sa variranjem

druge varijable (varijansom varijable X). Ukoliko npr. otkrijemo da su individualne razlike u

kolskom uspehu (varijansa varijable Y) povezane sa individualnim razlikama u vrednoi

(varijansa varijable X) onda moemo rei da smo varijansom varijable X bar donekle objasnili

varijansu varijable Y.

ta treba da znamo?

- Cilj deskriptivne (ili opisne) statistike je da numeriki i saeto prikazuje neke podatke.

Deskriptivna statistika se bavi opisom onoga to znamo.

- Najekonominiji nain da opiemo neku distribuciju jeste da definiemo njen oblik i da

navedemo neku meru njene centralne tendencije i neku meru njene varijabilnosti. Distribucije

se meusobno razlikuju po obliku, merama centralne tendencije i merama varijabilnosti.

- Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes. Vertikalno

odstupanje od normalne distribucije zovemo kurtozis i ono ukazuje na to da li je gomilanje

skorova ispod take najvie uestalosti vie ili nie nego kod normalne distribucije.

-Aritmetika sredina je uvek samo jedna, poiva na svim prikupljenim podacima i izraena je u

mernim jedinicama varijable koju merimo. Osteljiva je na ekstremne vrednosti.

-Medijana je sredinja vrednost u distribuci neke varijable: vrednost koja je via od 50%

sluajeva i nia od 50% sluajeva. U distribuciji moe da bude samo jedna medijana; medijana je

izraena u mernim jedinicama varijable koju merimo ali ne poiva na svim prikupljenim

podacima. Medijana je neosetljiva na ekstremne vrednosti.

-Mod je vrednost najeeg skora, neosetljiv na ekstremne vrednosti. Distribucija moe da ima

vie od jednog moda. Distribucije sa dva moda nazivamo bimodalne, a one sa vie modova

polimodalne.

-Opseg je najjednostavnija mera varijabilnosti. Opseg je razmak izmeu najvieg i najnieg

skora.

- Interkvartilni opseg je razlika izmeu prvog i treeg kvartila. Kvartilna devijacija je jednaka

polovini interkvartilnog opsega.

-Varijansa je proseno kvadrirano odstupanje od aritmetike sredine. Varijansa je uvek

pozitivan broj: nula ili vea od nule. Za neki niz mera varijansa je samo jedna, poiva na svim

prikupljenim podacima ali nije izraena u mernim jedinicama varijable koju merimo. Varijansa je

nedimenzionalni broj.

-Standardna devijacija je kvadratni koren varijanse. Za neki niz mera standardna devijacija je

samo jedna, poiva na svim prikupljenim podacima i izraena je u mernim jedinicama varijable

koju merimo. Koristimo je uvek kada koristimo i aritmetiku sredinu, onda kada opisujemo

podatke sa intervalne ili racio skale. Standardna devijacija je uvek pozitivan broj: nula ili vea od

nule.

Deskriptivna Statistika

Documents