D ESKRIPTIVNE KARAKTERISTIKE DISTRIBUCIJA VARIJABLI Osnove istraživanja u sportu i fizičkom vaspitanju Fakultet sporta i fizičkog vaspitanja Novi Sad dr Željko Krneta
DESKRIPTIVNE
KARAKTERISTIKE
DISTRIBUCIJA VARIJABLI
Osnove istraživanja u sportu i
fizičkom vaspitanju
Fakultet sporta i fizičkog vaspitanja Novi Sad
dr Željko Krneta
Svaka varijabla, dobijena kao rezultat
merenja nekog uzorka entiteta, ima
odgovarajuću distribuciju, raspodelu
rezultata merenja.
Svaka distribucija ima odgovarajuću
matematičku funkciju na kojoj je potrebno
odrediti neke osnovne parametre, kako bi
se dobile potrebne informacije o uzorku
entiteta u odnosu na tu varijablu.
Kada se analizira funkcija distribucije neke
varijable, njene osnovne karakteristike čine:
• mere centralne tendencije,
• mere varijabilnosti i
• mere oblika distribucije.
Ove karakteristike služe da bi se dobile
potpune informacije o distribuciji
analizirane varijable i ona adekvatno
opisala.
Potrebno je imati u vidu da li su rezultati
dobijeni na osnovu velikog ili malog uzorka
ispitanika, odnosno da li se radi o distribuciji
populacije ili o distribuciji uzorka izvučenog iz
populacije. Tada treba razlikovati pojmove
"parametar" i "statistik",
Parametar je numerička karakteristika rezultata
merenja populacije.
Statistik je numerička karakteristika merenja
izračunata na uzorku ispitanika.
Da bi se razlikovali parametri i statistici, u
terminologiji statistike koriste se grčka
slova za obeležavanje parametara, a
latinična za statistike.
Tako je za aritmetičku sredinu populacije
oznaka μ (mi) a za grupu ispitanika M (od
eng. Mean) ili AS.
Za standardnu devijaciju kao parametar
oznaka je σ (sigma), a kao statistik je s.
MERE CENTRALNE TENDENCIJE
Osnovni centralni pokazatelj distribucije
rezultata je aritmetička sredina.
Aritmetička sredina je najbolja mera
osnovnih kvantitativnih karakteristika
jedne varijable.
NXASMXN
i
i /1
Na primer, posmatrajmo sledeće vrednosti
rezultata osam ispitanika u nekom testu:
15, 20, 21, 20, 36, 15, 25, 15
Suma ovih osam vrednosti je 167, pa je
aritmetička sredina 167/8 = 20,875.
• Ako se od svih rezultata merenja
oduzme aritmetička sredina, pa se
razlike saberu, dobija se 0, odnosno
i = 1, ..., N.
Može se reći da je aritmetička
težište rezultata te varijable.
01
N
i
i XX
• Aritmetička sredina je optimalni
reprezent rezultata u analiziranoj
varijabli.
• Aritmetička sredina je veoma važan
pokazatelj normalne distribucije, koji
odgovara najvećoj frekvenciji rezultata.
• Kod normalne distribucije ona deli
krivu normalne distribucije na dva
jednaka dela. Naravno, to je moguće uz
veliki broj rezultata (podataka).
• Ako se razlike između rezultata i
aritmetičke sredine kvadriraju, onda
će njihov ukupni zbir biti najmanji
mogući.
Σ(X - AS)2 = minimalno
• U slučaju da se uzme bilo koji drugi
rezultat umesto aritmetičke sredine,
zbir će biti veći.
Pored aritmetičke sredine, nekada je
dobro imati informacije o centralnoj
vrednosti rezultata, odnosno centralnom
položaju rezultata ako se poređaju po
veličini, što se naziva - medijana.
Medijana je rezultat koji se nalazi tačno
u sredini skupa vrednosti.
Ako složimo po veličini ranije prikazanih
osam rezultata :
15, 15, 15, 20, 20, 21, 25, 36,
tada će četvrti i peti rezultat predstavljati
srednju poziciju ovog niza. Pošto oba
rezultata iznose 20, medijana je 20.
Kod neparnog broja rezultata medijana je
tačno cetralna vrednost u nizu podataka.
Kod parnog broja dva centralna rezultata,
ako nisu ista, se saberu i podele sa 2.
Mod (modalna vrednost, modus) je
najfrekventnija vrednost u analiziranom
skupu rezultata. Da bi se odredio mod,
potrebno je da se rangiraju rezultati, a
najfrekventnija vrednost u takvom nizu
predstavlja mod. U donjem primeru to je 15.
15, 15, 15, 20, 20, 21, 25, 36
U nekim distribucijama postoje više od jedne
modalne vrednosti. Na primer, kod bimodalne
distribucije postoje dve vrednosti koje su
najfrekventnije.
MERE VARIJABILNOSTI
U istraživanjima u sportu i fizičkom vaspitanju
formiraju se serije podataka koje imaju
promenljive vrednosti, odnosno variraju u
većoj ili manjoj meri.
U opisu distribucije neke varijable jedna od
najvažnijih karakteristika je varijabilnost
podataka. Osnovne mere varijabilnosti su
varijansa, standardna devijacija, raspon
rezultata i koeficijent varijabilnosti.
Najjednostavnija mera varijabilnosti je varijaciona
širina ili raspon rezultata (R). Izračunava se
jednostavnim oduzimanjem minimalne vrednosti
od maksimalne vrednosti serije podataka.
Karakteriše distribuciju kontinuiranih i diskretnih
podataka i izražava se u jedinici mere.
Raspon je jednoznačna mera varijabilnosti i
izuzetno je osetljiva na ekstremne vrednosti u
seriji podataka. Kada se u seriji podataka nalazi
jedna ekstremno visoka ili niska vrednost, ona
veštački povećava varijacionu širinu i tada raspon
ne odražava realnu procenu varijabilnosti pojave
koja se analizira.
Kod normalne i simetrične distribucije, variranje
rezultata u odnosu na aritmetičku sredinu je
simetrično. To znači da podjednako variraju
vrednosti manje od aritmetičke sredine kao i one
koje su veće od te vrednosti.
Mera tog variranja, odnosno varijabiliteta, naziva
se varijansa. Izračunava na sledeći način:
Varijansa ima neke karakteristike koje su veoma
važne za razmatranje metoda za analizu
podataka.
1/2
1
22
NXXS i
N
i
1. Varijansa je prosečna mera međusobne
kvadrirane udaljenosti entiteta od
aritmetičke sredine analiziranih
rezultata.
2. Varijansa je mera raspršenja rezultata;
što je varijansa veća, to se entiteti više
razlikuju i obratno.
3. Kada bi varijansa bila 0, rezultat svakog
entiteta bi bio jednak aritmetičkoj
sredini.
Standardna devijacija je prosečno
odstupanje rezultata od aritmetičke sredine
u jedinicama odgovarajuće mere.
Standardna devijacija (σ , S) se dobija kao
kvadratni koren iz varijanse.
Varijansa se prikazuje u kvadriranim
jedinicama, što ništa ne govori većini
istraživača i ta vrednost je besmislena u
prostoru merenja te varijable, odnosno u
tom metričkom prostoru.
Pošto je varijansa kvadratna veličina, ona
ima neke osobine koje standardna
devijacija nema, a koje služe u složenijim
metodama obrade podataka. Npr. varijanse
u istom metričkom prostoru se mogu
sabirati, odnosno dobijati tzv. zajednička
varijansa.
U praksi se najčešće koriste tri mere
varijabiliteta: raspon (R), standardna
devijacija (S) i koeficijent varijabilnosti.
Koeficijent varijabilnosti je mera koja
pokazuje koliki procenat vrednosti
aritmetičke sredine iznosi standardna
devijacija.
Izračunava se jednostavnim deljenjem
vrednosti standardne devijacije sa
aritmetičkoim sredinom, pa množenjem
sa 100, čime se dobija procentna
vrednost:
𝐾𝑉 =𝑆
𝐴𝑆∗ 100
Standardna pogreška aritmetičke sredine
služi za donošenje zaključka o položaju
stvarne vrednosti aritmetičke sredine u
nekom većem uzorku, odnosno u nekoj
populaciji.
Izračunava se određeni stepen pouzdanosti
u populaciji iz koje su ispitanici izvučeni:
.N
S
NSxx
Ako se pretpostavi da je aritmetička
sredina neke varijable dobijena tako što
sadrži aritmetičke sredine mnogo grupa od
npr. 100 ispitanika. Aritmetička sredina za
jednu grupu ispitanika ne mora da je ista i
za drugu, treću, ..., n-tu grupu ispitanika.
Pitanje je koja je u stvari prava aritmetička
sredina. Prava aritmetička sredina nije u
jednoj tački, nego oscilira oko zajedničke
aritmetičke sredine.
Ako se želi sigurnost od 95% da izračunata
aritmetička sredina pada u raspon oko zajedničke
aritmetičke sredine, treba dobijenu standardnu
pogrešku aritmetičke sredine pomnožiti sa
odgovarajućim koeficijentom za taj nivo
pouzdanosti:
Tek tada se može utvrditi da aritmetička sredina,
uz 95% sigurnosti, za bilo koji uzork iz iste
populacije pada u raspon AS ± DX koji se naziva
interval poverenja .
DXx 96,1
Ta procena zavisi od broja ispitanika u
uzorku i varijanse. Što je varijabilitet
ispitanika veći, tj. što se oni više
međusobno razlikuju, manja je
pouzdanost s kojom se određuje
aritmetička sredina.
Ako je broj ispitanika veći, raspon je
manji, pa bi aritmetička sredina bila
tačnije procenjena.
Kada se izračunavaju vrednosti
pokazatelja distribucije neke varijable, to
su samo procene stvarnih vrednosti tih
pokazatelja u populaciji.
Sve ove vrednosti (aritmetička sredina,
varijansa, standardna devijacija,
standardna pogreška aritmetičke sredine)
su deskriptivni pokazatelji jedne
varijable i ta oblast statistike se naziva
deskriptivna statistika.
Deskriptivnom statistikom se mogu samo
opisivati fenomeni i njihove relacije, što
nije dovoljno za većinu istraživanja u
sportu i fizičkom vaspitanju.
Dobijeni rezultati primenom deskriptivne
statistike koriste se samo kao osnovni
podaci za pravu naučnu obradu i analizu.
POJAM NORMALNE DISTRIBUCIJE
Jedan od najvažnijih koncepata
parametrijske statistike je koncept
normalne distribucije. To je jedna
teoretska, matematička disribucija koju je
definisao matematičar Carl Friedrich
Gauss (1777-1855) po kome je i dobila
naziv Gausova distribucija ili normalna
distribucija
Normalna distribucija je distribucija koja je
simetrična, zvonastog oblika, kontinuirana i
pravilna. Na horizontalnoj osi su vrednosti
analizirane varijable a vertikalna osa sadrži
frekvencije, odnosno verovatnoće pojavljivanja
odgovarajuće vrednosti u analiziranoj varijabli.
Najveće frekvencije podataka su u centru
krivulje normalne distribucije, odnosno u delu
gde je zaobljena u vidu zvona. Frekvencije su
sve manje od centra krivulje u oba pravca, a na
krajevima imaju nultu ili skoro nultu vrednost.
Poznato je da se većina pojava u prirodi
distribuira upravo u vidu Gausove, odnosno
normalne distribucije. Tako i u oblasti sporta i
fizičkog vaspitanja većina varijabli koje se
generišu u procesu merenja i procene raznih
karakteristika i sposobnosti ispitanika, ima
distribuciju blisku normalnoj distribuciji.
Kažemo blisku zato što je normalna distibucija
samo jedna teoretska, matematička distribucija,
koja u prirodi nije realno ostvariva. Međutim,
smatra se da se na velikim uzorcima dobija
distribucija koja je veoma bliska Gausovoj
teoretskoj distribuciji.
MERE OBLIKA DISTRIBUCIJE
Za istraživanja u sportu i fizičkom vaspitanju
važani su i pokazatelji oblika distribucije,
odnosno stepen odstupanja uočene distribucije
od normalne.
Najznačajnije su dve mere oblika distribucije :
• Skjunis (Skewness) – mera asimetrije
distribucije i
• Kurtosis – mera homogenosti distribucije.
Asimetričnost distribucije se procenjuje na osnovu
koeficijenta Skewness, koji predstavlja odnos aritmetičke
sredine, moda distribucije i standardne devijacije, i može
imati pozitivnu ili negativnu vrednost. Taj odnos se
određuje kao :
gde je M - aritmetička sredina
Mo - modalna vrednost
S - standardna devijacija
Kada je distribucija simetrična skjunis ima vrednost 0.
Smatra se da je vrednost skjunisa do ±0,5 dobra,
vrednost do ± 1,0 prihvatljiva, dok vrednost veća od ± 1
ukazuje na značajnu asimetriju distribucije.
Homogenost distribucije se procenjuje na
osnovu koeficijenta kurtosis.
U grafičkom prikazu distribucije putem
histograma homogenost se procenjuje na osnovu
zaobljenosti krive distribucije, odnosno na
osnovu oblika vrha krive.
Kada je vrednost kurtosisa 3, odnosno 0 ako se izražava sa
korekcijom kao u programu SPSS), radi se o normalnoj
distribuciji ili Mezokurtičnoj distribuciji (primer c na
slici).
Ako je njegova vrednost pozitivna, radi se o
Leptokurtičnoj distribuciji (primer a na slici), koja se
karaktriše izraženim vrhom krive. Leptokurtična
distribucija ukazuje na izraženo grupisanje rezultata oko
aritmetičke sredine, odnosno povećanu homogenost
distribucije rezultata.
Kada je vrednost kurtosisa negativna, distribucija se naziva
Platikurtična distribucija (primer b na slici) i karakteriše
se spljoštenim vrhom krive distribucije. Ovakva
distribucija ukazuje na povećanu disperziju rezultata,
odnosno smanjenu homogenost distribucije.