Top Banner
1 1. Statistika 5tatistika je matematička disciplina koja je počela svoj intenzivni ra 3 v 0j tek u XX veku. Na početku XX veka samo je zaneraarIjivi deo nauke i prakse koristio statistiku u svora radu, аИ je 2at 0 na kraju XX veka težko naći oblast nauke ili prakse koja se bar jednim deloin ne oslanja na teoriju verovatnoće i matematičke statistike. Statistika je metod kvantitativnog istraživanja pojava. Ona istražuje pojave ne na pojedi 11im nego na mnoštvu slučajeva. Individualni slučajevi pojave mogu pokazati manja ili veća odstupanja od prosečnog ili tipičnog pa je zato neophodno da se posmatraju u velikom broju, u masi, da bi se otkrilo šta je u njima opšte i zakonito. 1.1 Osnovni pojmovi statistike Predmet ispitivanja matematičke statistike je populacija. Populaciju čine elementi ili pojave. Na pop- ulac.iji ispitujemo neku karakteristiku koju nazivamo obeležje. Možemo najednoj populaciji posmatrati i više obeležja. Primer 1.1 I Posmatramo broj izostanaka u toku jednog polugodiSta učenika osnovne Skole u Jugoslamji. U ovom slučaju populaciju čine svi uCenici osnovnih Skola u Jugoslaviji., a obeležje koje posmatramo je broj izostanaka. Ovo obeležje može uzeti vrednosti 0,1,2,.,.. N. II Posmatramo uspešnost novog Ieka na pacijentima sa povišenim krvnim pritiskom.. Sada populaciji čins svi ljudi sa pomSemm krvnim pritiskorn, a obeležje je uspešnosi leka. Realizo- vane vrednosti obeležja mogu se opisati rečima: uspešan, delimično usve$an i neuspešan. III Posmatramo prinos pSenice po hektaru u Vojvodini u toku 2000. godine. Poyulaciju Cine sve obradive površine u Vojvodini zasejane pšenicom, a obeležje je prinos pSenice po hektaru. Prinos pšenice, odnosno posmairano obeležje, nalazi se u intervalau [0,800 t] IV Posmatramo dnevni unos vitamina A i vitamina C kod. decs predškobkog uzrasta. U ovom slučaju posmatramo dva obeležja. Prvo obeležje je anos vitamina A i njegove vrednosti
30

Statistika

Aug 13, 2015

Download

Documents

Osnove statistike koje su potrebne u naucno istrazivackom radu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Statistika

1

1. Statistika

5tatistika je matematička disciplina koja je počela svoj intenzivni ra3v0j tek u XX veku. Na početku XX veka samo je zaneraarIjivi deo nauke i prakse koristio statistiku u svora radu , аИ je 2a t0 na kraju XX veka težko naći oblast nauke ili prakse koja se bar jednim deloin ne oslanja na teoriju verovatnoće i matematičke statistike.

Statistika je metod kvantitativnog istraživanja pojava. Ona istražuje pojave ne na pojedi11im nego na mnoštvu slučajeva. Individualni slučajevi pojave mogu pokazati manja ili veća odstupanja od prosečnog ili tipičnog pa je zato neophodno da se posm atraju u velikom broju, u masi, da bi se otkrilo šta je u njima opšte i zakonito.

1.1 O snovni pojm ovi s ta tis tik e

Predmet ispitivanja matematičke statistike je p o p u lac ija . Populaciju čine elementi ili pojave. Na pop- ulac.iji ispitujemo neku karakteristiku koju nazivamo obeležje . Možemo najedno j populaciji posm atrati i više obeležja.

P rim e r 1.1

I Posmatramo broj izostanaka u toku jednog polugodiSta učenika osnovne Skole u Jugoslamji.U ovom slučaju populaciju čine svi uCenici osnovnih Skola u Jugoslaviji., a obeležje koje posmatramo

je broj izostanaka. Ovo obeležje može uzeti vrednosti 0 ,1 ,2 ,. , . . N.

II Posmatramo uspešnost novog Ieka na pacijentima sa povišenim krvnim pritiskom..Sada populaciji čins svi ljudi sa pomSemm krvnim pritiskorn, a obeležje je uspešnosi leka. Realizo- vane vrednosti obeležja mogu se opisati rečima: uspešan, delimično usve$an i neuspešan.

III Posmatramo prinos pSenice po hektaru u Vojvodini u toku 2000. godine.

Poyulaciju Cine sve obradive površine u Vojvodini zasejane pšenicom, a obeležje je prinos pSenice po hektaru. Prinos pšenice, odnosno posmairano obeležje, nalazi se u intervalau [0,800 t]

IV Posmatramo dnevni unos vitamina A i vitamina C kod. decs predškobkog uzrasta.U ovom slučaju posmatramo dva obeležja. Prvo obeležje je anos vitamina A i njegove vrednosti

Page 2: Statistika

: . -

pripadaju intervalu [0,100 mgJ. a drugo posmatrano obeležje je unos C vitamina čije ~ Љ ш ваш vrednosti pripadaju intervalu [0.1-500 mgJ.

Iz prethodnog prim era uočavamo da posmatrana obeležja mogu biti numerička (primeri I I I U alributivna (primer II). Numerička obeležja izražavaju se brojem, a atributivna opisno.

Očigledno je gotovo nemoguće da posmatrano obeležje registrujemo kod svakog elementa pop-iae^J Fizičkije neizvodljivo izmeriti količinu A vitamina koje svako dete unese. Takođeje ne moguće primez^i riovi Iek na svakog pacijenta sa 'povišenim pritiskom. Najčešće populacije sadrže veliki broj elemena:^

Prva etapa u statističkom proučavanju predstavlja izbor uzorka nad kojim će biti izvršeno posmatran;t. To znači da iz populacije izvojimo n elemenata (jedinki) koji čine uzorak. Broj n nazivamo obim uzorki O vojejedan od najtežih i najkomleksnijih problemajer na osnovu dobijenih rezultata na uzorku donosimo zaključak o celoj populaciji.

Druga etapa sastoji se ustatističkom posmatranju izabranog uzorka.U trećoj etapi grupišemo i sređujemo podatke dobijene pri statističkom posm atranju.Oetvrta etapa se sastoji iz dva dela. Prvi deo je obrada sređenih podataka, a u drugom delu dajemo

naučnu analizu rezulatata. Rezultati dobijeni na osnovu obrade uzorka pridružuju se celoj populaciji.Na sliei 1 je Sernatski prikazano statističko proučavanje.

Slika I.

fc b o r uzorka. Ocena populacije na osnovu podataka iz uzorka predstavljajedan oblik induktivnog uopš- tavanjajer se osobine ispitanog dela (uzorka) pripisuju celini (populaciji) iz k o je je uzet. Zaključci donetio populaciji na osnovu ispitivanja njenih delova mogu da budu pogrešni ili tačni. Znači da je zaključako populaciji slučajna promenljiva kojoj odgovara neka verovatnoća. Verovatnoća tačnosti zaključka o

Page 3: Statistika

1.1. OSNQVNI POJMOVI ST A TlST lK E 3

populaciji je utoliko veća ukoliko uzorak bolje reprežentuje populaciju. Uzorak koji dobro reprezentuje populaciju naziva se reprezentativni uzorak. Da bi uzorak bio reprezentativan rnoraju biti ispunjeni neki uslovi. Prvo1 svaki elemenat populacije mora da ima jednaku verovatnoću da uđe u uzorak. Drugo, uzorak treba da bude dovoljno velik.

P r im e r 1.2 Posmatramo visinu mladi6a u dobi od 20 do 30 godina u Jugoslaviji. Naramo ukupan broj m.ladića u Jugodaviji je suviše vdik da b'ismo mogli da izvršemo merenje svakog od njih. Iz tog razloga potrbno je izabrati reprezentativni uzorak.

Ukoliko bismo kao uzorak uzeli igrače košarkaških klubova u Jugoslaviji dobili bismo pogreSne rezultate jer ovako i.zabrani uzorak nije reprezentativan. Pre svega, na ovaj naćin nije svaki mladić imao jednaku

■■' verovatnoću da uđe u uzorak.Jedna od mogućnostije da u uzorak uđu svi mladići rodeni na jedna slučajno izabrani dan, na primer,

svi mladici rodeni 10. avgusta. Na ovaj n a čin je dobijen reprezentativni uzorak.

Pri izboru uzorka možemo se voditi subjektivnim i objektivnim kriterijumom. Subjektivan način izbora uzorka vrsi se prema sopstvenoj oceni organizatora ispitivanja i on se najčešće odlučuje za one elemente populacije koje smatra tipičnim. Druga mogućnost je da se izbor uzorka vrši po strogo objek- tivnoj proceđuri tako da svaki elemenat (jedinka) populacije im ajednaku mogućnost da bude uključen u uzorak. Cesto se pri izboru uzorka mora izvršiti ispitivanje veličine cele populacije. Tek kada dobijemo procenu o velićini populacije možemo pristupiti izboru uzorka.

Najjednostavniji izbor uzorka je p ro s t s lu ča jan uzo rak . U praksi se do ovakvog uzorka dolazi pojedinaćnim "izvlačenjem" elemenata iz osnovnog skupa. Najčešće se za "izvlačenje" koriste slučajni brojevi.

Druga mogućnost izbora uzorkaje s tra tifik o v an i uzo rak . Pri ovom izboru uzorkapopulaciju delimo u grupe sa istim ili nejednakim brojem jedinica. Nakon odredjivanja grupa, što se može izvesti na razne načine, izbor elementa se vrši putem uzimanja prostog slučajnog uzorka za svaku grupu. Na primer, ukoliko ispitujemo neko obeležje na školskoj deci. tada populaciju (sva školska deca) možemo podeliti u grupe po broju godina ili po polu. Primenom stratifikovanog uzorka postiže se veća preciznost celog uzorka, a sama podela populacije na grupe može da ima poseban interes i elementi svake grupe mogu se uzeti kao posebne populacije iz koje je uzet prost slučajan uzorak.

Uzorak kod koga se uzima s is te m a tisk i svaki A:-ti elemenat iz populacije naziva se sistematski uzorak. Prvo se bira elemenat koji nosi broj izmedju 1 i k. Nekaje izabran i-ti elemnat 1 < i < k, zatim u uzorak ulaze svi elenmti koji se nalaze na i + k, i + 2k, г + Зк ... Ovaj postupak se često primenjuje u slučajevima kada postoji lista svih elemenata populacije. Sistemski izbor jednak je sa slučajnim samo onda kada se elementi u listi poredjani na slučajan način.

P r im e r 1.3 Želimo da ispitamo koliko su studenti tehničkog.fakult-eta pohadjali nastavu u tokujedne školske godine. Pri izboru uzorka može se koristiti činjenica da svi studenti imaju indeks. Na taj način postoji Hsta u kojoj se nalaze svi elementi populacije. Neka je na tehnički fakultet upisano 1000 studenata. Želimo da uzmemo uzorak od 50 studenata. Možemo primeniti sistematiski način izbora. Prvo na slučajan način izaberemo broj izmedju 1 i 20. Neka je izabran broj 5. Zatim u uzorak uzimamo studente sa brojem indeksa 5. 25. 45. 65, ..., 965, $85.

Ovde su iznete samo najjednostavnije mogućnosti izbora uzorka. U praksi je, često, to veoma kom- leksan problem. Iz tog razloga više se ne ćemo baviti analizom izbora uzorka, nego ćemo sm atrati da je posmatrani uzorak reprezentativan

Posle etape izbora uzorka, nastupa etapa statističkog posmatranja. Osnovni zadatak koji se u ovoj etapi postavlja je zahtev tačnosti, istinitosti i potpunosti prikupljanja podataka. Izpitivanje neke masovne pojave zahteva brižljivu pripremu. Cesto je neophodna saradnja stručnjaka za statistiku i stručnjaka za oblast u kojoj se vrše statistička ispitivanja. Potrebno je tačno utvrditi cilj posm atranja i formuIisati problem.

Page 4: Statistika

:iK A

1.2 G rup isan je i sređivanje p o d a tak aPosle izbora uzorka i statističkog posmatranja pristupamo III etapi statističkog proučava'ja i :; ;e sređivanje prikupljenog materijala. Kao rezultat dobijaju se statističke tabele. Apsolutne brojke '-;:;e proizilaze kao rezultat sređivanja imaju same po sebi veliki praktičan značaj. U nekim istra2:vaz;^sa pogodna klasifikacija i tabeliranje podataka mogu da daju tako jasnu sliku o posmatranom obeiežju ća dalja analiza nije ni potrebna. U drugim slučajevima sređivanje podataka nije dovoljno, ali je neophcćro za naredne etape statističkog proučavanja.

Pod klasifikacijom podataka podrazumevamo grupisanje podataka po grupama ili klasama prema odgovarajućoj vrednosti numeričkog ili atributivnog obeležja.

Sređivanje sirovog matrijala prikupljenog pri statističkom posmatranju ima za cilj da olakša upoređi- vanje, da istakne najznačajnije karakteristike tako da Iako budu uočljive i da omogući statističku analizu.

Statistička tabela mora biti jasna i pregledna.Neka obeležje X može uzeti s različitih vrednosti x 1, x 2,

obima n dobijamo nizb i ,h ,h , - ■ ■, bn

u k o je m je 6j 6 { x u x 2, . . . , x s} ,i — l , . . . , n . Ovako navedeni podaci su nepregledni. Zato ih treba grupisati, U uzorku ( l . l) prebrajamo koliko puta se pojavila realizovana vrednost X1. Dobijeni broj označavamo sa f \ i nazivamo ga frekvencija ili učestalost pojavljivanja vrednost Х\ u uzorku. Slično postupamo i pri dobijanju brojeva / 2 , / 3 , . . . , f s■ Veličine f \ , / 2 , . . . , f s zadovoljavaju uslov

/1 + /2 + • • • + .fs — п

i nazivaju se frekvencijama ili učestalostima. Realizovane vrednosti obeležja X i odgovarajuće frekvencije f0r 1niraju statističku tabelu

, x s. Pri izvršenom merenju na uzorku

(1.1)

X UX 1 / lZ2 /2

Xs f s

Tabela I

P r im e r 1.4 Ispitivanjemje obuhvaćeno 50 bračnih parova koji su u braku između 5 i 10 godina i zabeležen je broj dece u braku. Dobijeni su podaci:

L 2., 3,2,1,2,2,0,3,2,1,1,3,2,2,0, Jh, 1,1,2,2,2,2,1,0,

3,1,1,1,1,2,3,2,0,2,2,4,2,2,1,1,0,3,2,1,1,2,2,2,1.

Ako pogledamo prethodni niz brojeva teSko je uočiti koji broj dece je dominantan, da Ii ima više brakova sa jednim deteom ili dvoje dece i sliCno. Iz tih razloga grupisaćemo podatke. U ovom slučaju posmatrano obeležje X je broj dece, a njegove realizovane vrednosti su 0 ,1 ,2 ,3 i 4. Prvo ćemo izvršiti prebrajanje, odnosno određivanje frekvencija za svaku realizovanu vrednost:

O:+Hf 1 : » Ш Н 2 : « Ш Ш 3:||||| 4:||

Sada pristupamo formiranju statističke tabele

broj dece u braku (x{) _ broj brakova {fi)5

1 162 213 6

__________ 4__________ ________ 2_______

Page 5: Statistika

1.2. GRUPISANJE I SREĐ IVANJE PODATAKA 5

Tabela: Broj dece u brakovima

Ukoliko je broi realizovanih vrednosti obeležja X velik tada se podaci grupišu u intervale iIi klase. Ako sa х т{п označimo najmanju vrednost u uzorku, a sa Xmax najveću vrednost u uzorku veličina

^ — ^mai %min

se naziva ra n g posmatranog uzorka. Neka je s broj inrvala u koje želimo da grupišemo podatke. Tada je r/ssidužina jednog intervala. Nekada se, iz praktičnih razloga, može umesto ranga r koristiti neki broj r' > гДако da broj r '/s bude jednostavniji za primenu. Sada određujemo disjunktne intervale [m1 ,m 2], (m2 ,m 3j, . . . . (m.s.m s+i] tako da je TO1 < x m{„ i 77¾+1 > Xmax. Kako je intervale nemoguće sabirati i rnnožiti u daljoj analizi se interval i,- = (777 ,777;+^ zamenjuje svojom sredinom. Iz tog razloga se u statističku tabelu pored kolene u kojoj se nalzai interval uvodi i kolona koja sadrži sredinu intervala Xi = mj^ nifl ■ Prema tome, na ovaj način dobijamo statističku tabelu oblika

klase (ii) sredina klase (z;) frekvencija (/;)

[TOilTO2I X1 = 2 pi* /1

(m2,m3] X2 = lli /2

[772.;, TTls 4-1 ] „ _ m,+m,+ 1_^J_=__'2_1 1 ._ fs

Tabela 2

Uvođeajem kolone "sredina intervala" tabele 1 i 2 možemo istovetno tretirati u daljim statističkim ispitivanjirna.

P r im e r 1.5 Izm trenaje visina 80 učenika prvog razreda. Dobijeni su sledeći podaci:

120 132 131 136 128 135 129 127 120 129ЦО 138 132 ЦО 132 131 138 137 125 125130 133 135 124 137 136 140 141 132 121132 138 126 129 141 121 138 119 125 139129 139 135 136 119 123 124 129 135 132131 132 124 137 123 125 129 131 132 139123 134 132 126 132 129 137 132 133 135139 121 127 134 132 129 135 132 137 127

U datom primeru velik je broj realizacija obeležja X , naime X u datom uzorku uzima 21 različitu vrednosti. Ukoliko podatke ne grupišemo u klase dobi6emo da su odgovarajuće frekvencije veoma male. Taj nedostatak sprečava dalja statistička ispitivanje. Iz tog razloga dobijene podatke grupisaćemo u klase. Pri odredivanjiL broja klasa treba voditi računa da u svakoj klasi bude bar 5 realizacija. Za posmatrani primer mžemo uzeti 1 = 6. Kako je x min — 119, a Xmax = 141 to je rang jednak 1^1-119-22 pa je dužina klase 22/6 = 3.66 cm. Dobijeni broj nije pogodan za izraćunavanje pa biramo da dužina intervala bude Jt cm. Konačno možemo formirati statističku tabelu

Page 6: Statistika

6 STATISTIKA

visina [cm] sredina intervala broj učenika (fi)(118,122] 120

_

(122,126] 124 ' 12(126,130] 128 13(130,134] 132 21(134,138] 136 18(138.Ц2Ј _____ i 40 ______ 9______

U slučaju kada posmatramo atributivno obeležje post,upakje analogan kao u slučaju statističke tabele1. Jedino se umesto vrednosti Xl l X2. . . . ,х т posm atraju atributivni opisi.

P r im e r 1.6 RadLi analize obrazovanosti punoletnih gradana u Somboru izabran je uzorak od 100 Hca i registrovanaje strućna sprema. Dobijeni podaci su sredeni u narednoj tabeli:

stručna sprema broj gradananepotpuna osnovna 8

osnovna 20srednja 54visoka 18

1.2.1 Poligoni i h istogram i

Geometrijska prikaz statističke tabele I je poligon frekvencija. Na х —osu nanosimo realizovane vrednost obeležja A’, a na у —osu vrednosti frekvencija. Spajanjem tačaka (z ,-,/i) ,i = I 1-. ■ , s dobijamo traženi poligon. Ukoliko su podaci sređeni kao u tabeli 2, tj. ako imamo intervale za vrednost obeležja tada kao geometrijsku ilustraciju dobijamo histogram frekvencija. To je niz pravougaonika koji sejednom stranom oslanja na x -o su tako da im je ta strana jednaka širini klase (intervala), a visine su im jednake frekvenciji nad odgovarajućom klasom.

P r im e r 1.7 Na osnovu poda ta iz primera 1-4 dobijamo odgovarajući poligon, a na sonovu podataka iz primera 1.5 dobijamo odgovarajući histogram:

Page 7: Statistika

1.2. GRUPlSANJE 1 SR E Đ IVA N JE PO D ATAKA 7

A

is--

13—12 —

------------------------------------- ---------------- 1------------------------------------------------------------- т~

118 122 126 130 134 138 142

Poligon frekvencija Histogram frekvencija

Cesto se iz poligona frekvencije ili iz histograma frekvencije ne dobije slika o celoj populacije, Zato se uvodimo ројаш relativne frekvencije, kao i odgovarajuće poligone i histograrne.

Veličiuu г /, definisanu izrazom

r f i = — , i = l , . . . , s , ( 1 . 2 )n

gde je f i frekvencija, a n obima uzorka, nazivamo re la tiv n a frekvencija . Sada u statističku tabelu dodajemo još jednu kolonu u koju unosimo odgovarajuće relativne frekvencije.

Ukoliko na poligonima i histogramima na у —osu nanesemo relativnu frekvenciju dobijamo poligone i hist,ograme relat.ivnih frekvencija.

P rim e r 1.8 Nacrtati poligon relativne frekvencije za primer 1-4 i poligon i histogra za primer 1.5.Prvo ćemo' odrediti relativne frekvencije za date primere. Na taj način dobijamo nove statisii6ke tabele

broj dece u braku (xi) broj brakova (fi) rel. frek. (rfj)_5 0.1

1 16 0.322 21 O.423 6 0.12

__________ 4__________ ________ 2________ O.O4

Tabela: Broj dece u brakovima

v ism a [cm] sred in a in te rv a la broj u č e n ik a (fi) rel. fr e k . ( r f i )

(118,122] 120 7 7_ _80 0.0875

(122,126] i 24 12 i l 80 "= 0.15

(126,130] 128 13 M — 80 — 0.1625

(130,134] 132 21 21 _. 80 0.2625

(134,138] 136 18 Ш - 80 ~~ 0.225

(138,142] i 40 9 J L _ 80 ~ 0.1125

Page 8: Statistika

S STATISTIKA

Tabela: Visina učenika prvog razredaOdgovarajući poligon relativne frekvencije za primer o broju dece u braku je

1.3 Ivlere cen triran o sti i ra s tu ra n ja

1.3.1 M ere ce n tr iran o s ti

Cesto se u praksi traži da odredimo samo neke karakteristike obeležja koje posmatramo. Najčešće je potrebno odrediti mere centriranosti obeležja. U ovom delu daćemo defniciju tri mere centriranosti.

Neka je dat realizovani uzorak obima n

/ X /x \X1 / l

ili tabelarno: %2 /2 (1.3)

1 Xs fs JA ritm e tičk a s re d in a uzorka ili srednja vrednost uzorka je broj

x =Е:i= 1

П

X > Z i(ako je uzorak dat tabelarno: x = —------ -)

n(1.4)

Aritmetička sredina je najva2nija i najjednostavnija od svih mera centriranosti.Za aritmetičku sredinu važe sledeće osobine:

1. Aritmetička sredina uzorka je uvek veća od najmanje i manja od najve6e vrednosti realizovanog obeležja

%min ^ * ^ ^mai-

2. Zbir odstupanja vrednosti obeležja X u uzorku od srednje vrednosti uzorka jednak je nuli,

П ■ S^ 2 ( x i - x ) = 0, ( ^ 2 f i ( x i - x ) = 0).1=1 t=l

Page 9: Statistika

1.3. M ERE C E N T R IR A N O S T IIR A S T U R A N JA 9

3. Zbir kvadrata odstupanja vrednosti obeležja X od aritmetičke sredine manji je od zbira kvadrata odstupanja vrednosti obeležja X od proizvoljnog broia,

п Tl S S^ ( х ; - х ) 2 < ^ Г ( х { - а ) 2, а ф х , ( У ^ /{(х{ - х ) 2 < ^ / ; ( х г - - а ) 2).i= l i=1 x= 1 i= l

4. Ako posmatramo dva uzorka obima Ti1 i п 2 i na oba uzorka posm atram o isto obeležje X , tada ako je Xi aritmetička sredina prvog uzorka, a X2 aritmetička sredina drugog uzorka tada se aritmetička sredina uzorka dobijenog spajanjem oba uzorka može dobiti korišćenjem formule

T l i X 1 + Tl2X 2

тг-1 + Ti2

Nekaje niz statističkih podataka vrednosti posmatranog obeležja X uređen po rastućim vrednostima,

Zi < Z2 < ■ ■ ■ < х п. (1.5)

onda se m ed ijan a definiše kao vrednost

®(n+i)/2 п' neparan broj%med. x n/2‘>’xn/2 + l _ _ _^_ _ v _ * ™ . '„ , , . ^ - , . . с ^ „ .„ i ir . р ^ д Х с Ш D i u j

(i.6)

Opisno, medijana je vrednost obeležja koja se nalazi na središnjem mestu niza brojeva (1.5), odnosno, deli niz datih brojeva na dva jednaka dela.

Geometrijski, medijana je tačka XmecI na x-osi sa osobinom da prava x = x med deli histogram na dva dela jednakih površina.

Treća mera centriranosti koju ćemo ovde definisati je m odus. Modus x mod je ona vrednosti obeležja koja se najčešće pojavljuje u uzorku. Modus ne mora biti jednoznačno određen, tj. u uzorku može postojati više vrednosti obeležja čije su frekvencije maksimalne.

Geometrijski, modus je vrednost na x-osi za koju poligon frekvencija dostiže maksimum.

m o d u s a r itm e tic k a s re d in a m o d u s m e d i ja n a

P rim e r 1.9 Profesor trebada zaključi ocene iz matematike Petru i Milošu. Njihove ocene su:

Petar: 5 ,4 ,3 ,Ц 5 ,4 ,4 Miloš: 1,5,5;4;5,5,3,5

Profesor može prim eniti jednu od mera centriranosti. pa tako dobija sledeće mogućnosti:

Page 10: Statistika

LO STATISTIKA

- 5 + 4 + 3 + 4 + 4 + 5 + 4 + 4 33 / y n rPetar: x = ----------------------------------------— — —4-125

________________________8_______________ 8___1_____redanjem ocena u neopadaju 'ci niz dobijamo .3> 4ЛЛ>4Л>5,5

4 + 4-4%med _2_

%mocL —4

Miloš: x =1 + 5 + 5 + 4 + 5 + 5 + 3 + 5 33

8 ~~ ~ ¥=4 .1 2 5

redanjem ocena u neopadaju 'ci niz dobijamo1,3,4,5,5,5.5,5

5 + 5JL

= 5

%mod. —5

Sam oje aritmetićka sredina ocena posmatrana dva učenikajednaka. Kod druge dve mere centriranosti MiloS ima bolju ocenu od Petra.

1.3.2 M ere ra s tu ra n ja

Aritmetička sredina i druge mere centriranosti često nisu dovoljna za oslikavanje posmatranog obeležja što pokazuje naredni primer.

P r im e r 1.10 Izabrane su dve grupe od po četiri mladića i dobijeni su sledeći rezultati merenjavisina:

grupa I: 160 cm, 210 cm, 155 cm, 215 cmgrupa II: 184 ст> 185 cm, 186 cm, 185 cm,

U obe grupe mladića srednja visinaje 185 cm. Iako su aritmetičke Sredine iste očigledno postoje znatne razlike u date dve grupe mladića. Dok se visina mladića u grupi I I nalaze u neposrednoj blizini aritmetičke sredine, u grupi I se realizovane vrednosti znatno razlikuju od srednje vrednosti.

Da bismo dobili uvid u rasturanje realizovanih vrednosti oko aritmetičke sredine uvodimo nekoliko mera rasturanja. I kod mera rasturanja poželjno je da njohova vrednost zavisi od svih vrednosti realizo- vanog uzorka, da ima neko konkretno značenje sa jasnim svojstvima i da su pogodna za dalja izračuna- vanja.

Prva i najjednostavnija mera rasturanja je ra n g koji se definiše kao razlika najveće i najmanje reali­zovane vrednosti u uzorku,

ir a n g = Xmax (1.7)

Osnovni nedostatak ranga je što ne zavisi od svih vrednosti iz uzorka, već samo od ekstremnih vrednosti. Cesto te ekstremne vrednosti mogu biti izuzetne i veoma udaljene od najvećeg dela realizovanih vrednosti.

_Najprirodnije j e da se rasturanje ocenjuje preko odstupanja vrednosti x; od neke srednie vređnosti. ■ N §i^će_^za^ sreduju~vrgđnoSt~u2ima arrttnetićka sTecHna uzorka x. Na ovaj način dobijamo naredne mere rasturanja.

Page 11: Statistika

1.3. MERE C EN TRIRANO STI I R A ST U R A N JA 11

Druga inera rasturanje je s re d n je s ta n d a rd n o o d s tu p a n je i definiše se kao aritmetička sredina apsolutnih razlika vrednosti o'b^TežjaT'Xi f aritmetičke sredine uzorka, odnosno

IXi — х\ (

SSOi- 1

\

S S O =1=1

n

\

( 1.8)

Kako su apsolutne vrednosti nepogodne za dalji rad, defmisaćemo novu i za statistička ispitivanja najvažniju meru rasturanja. To je u z o ra č k a d isp e rz ija (ili srednje kvadratno odstupanje) koja se definiSe sa ----------------------- --------------------— ----------------------------------------

X > - x ) 2 Е :/

-2 i=l i=l ■х2.

Xi - X

- 2 Г=1 S = ------

i=lП

\

\

(1.9)

R.ečima, uzoračka disperzija je aritm etička sredina kvadrata odstupanja vrednosti Xi od aritmetičke sre­dine.

Spomeuućeino još dve mere rast,uranja koje su u direktnoj vezi sa uzoračkom disperzijom (19): To

i s tan d a rd n o o d s tu p an je

сл.JV z = ^ - з ~ \П - 1 i

b z i^ n j ( s ' — V s

(1.10)

(1.11)

P rim e r 1.11 Za prethodni primer 1.10 odredićemo sve definisane mere rasturanja. Tako dobijamo:

grupa I:rang — 215 — 155 = 60 cm

SSO - 1160— 1S5[+ |210-185 |+ | 155- 185| + |2 l5 -1 8 5 | _ Д 0 _ 97 5 ст 4 4

-2 __ (160— 185)2+(210—185)г+ (155- 185)2+ (215—185)2 _ 3050 _ y g 2 5 ст24 4

š '2 = |762.5 ст?=1016.66ст2

š = л/762.5 = 27.61 cm š1 = 31.885 cm

grupa II:rang — 186 — 184 = 2 cmSSO = U 84-185 | + |l8 5 -1 8 5 W l8 6 -1 8 5 | + |185-185 | _ g g £ m

4

-2 _ (l8 4 —185)2+ (185—185)2+(186—185)2+(185— X85)2 _ g 5 24

š /2 = |0 .5 = 0.666 cm2

5 = v/05 = 0.707 cm s' = 0.816497

Dobijeni rezultati potvrduju naša zapažanja. U grupi I mladića rasturanja su velika i značajna od aritmetiCke sredine, dokje u grupi I I to rasturanje gotovo neprimetno.

Page 12: Statistika

12 STATISTIKA

1.4 K orelacija i reg resija

Gotovo pri s 'rim statističkim ispitivanjima potrebno je posm atrati više od jednog obeležja na populaciji. Ćesto nas ue interesuju obeležja zasebno nego njihov međusobni odnos.

T ab e la kontigencije. Neka se na nekoj populaciji posm atraju dva obeležja X i Y Neka obeležje X ima г različitih realizacija: Z 1 , • • •, x r , a obeležje Y s različitih realizacija: у \ , • ■ •, ys i neka je iz populacije uzet uzorak obima n. Tada se kao rezultat statističkog posm atranja ili merenja dobija niz uređenih parova:

(zi,2/i), (z2,y2), - - •, {xn,Vn)- (1.12)

Analogno dobijanju statističke tabele 1 i prethodni sirovi uzorak može se predstaviti u obliku sledeće tabele

Unutar tabele nalaze se frekvencije /y (г = l , . . . , r ; j = l , . . . , s ) koje oznacavaju Droj eiemanata uzorka (1.12) koji poseduju vrednost oba obeležja, z; i Уј. Sabirajući elemente tabele kontigencije duž vrsta i koloua dobijamo marginalne frekvencije Д i f j . U tabeli se nalazi r x s polja sa frekvencijama. Svako takvo polje naziva se "ćelija".

K orelacija. Značajno mesto u metodama statističke analize zauzimaju ispitivanja zavisnosti i veze između obeležja. Na primer, istraživanje zavisnosti između krvnog pritiska i telesne težine ili veze između visine braće i sestara. U matematici se zavisnost izražava pomoću funkcija, tako da svakoj vrednosti z odgovara vrednost za y. To je funkcionalna zavisnost. M edutim u empirijskim istraživanjima ova veza nije funkcionalna. nego statistička ili korelaciona. Na primer, ako smo utvrdili da postoji veza između dužine ruke i noge. ne može se u individualnim slučajevima na osnovu dužine ruke sa punom preciznošću utvrditi dužina noge, i obrnuto.

Jedan od problema je ispitivanje međuzavisnosti obeležja X i Y koju nazivamo k o re lac ija . Ko- relaciju sagledavamo na osnovu k o efic ijen ta kore lacije i k o efic ijen ta d e te rm in a c ije . Cilj korelacije je određivanjejačine veze između obeležja. Kod korelacije izračunat pokazatelj ukazuje samo najačinu kvantitativnog slaganja dva obeležja. Prethodno je potrebna kvalitativna analiza da bi se preko nje sagledao smisao datog ispitivanja. Koeficijent korelacije jednom brojkom pokazuje smer i stepen ko­relacije odnosno zavisnosti.

Koeficijent korelacije označava se sa r i izračunava na osnovu uzorka (1.12) sa

^ J 2 ( c c i - x ) ( y i - y )

r = —— -------------------------------------------------------------------------r ^ -, (1.14)S x S y

gde su x i y aritmetičke sredine obeležja X i Y dobijene na osnovu istog uzorka, a šx i šy odgovarajuća standardna odstupanja obeležja.

Vrednost koeficijenta korelacije nalazi se u intervalu [-1,1]. Kada je r = +1 ili je bHzu jedinice, znači da postoji veomajaka pozitivna korelacija između obeležja, tj. obeležja X i Y su direktno proporcionalna. Ako je r jednak -1 ili je blizu -1 tada postoji veoma jaka negativna (obrnuta) veza između obeležja. Kada je r = 0 ili je vrednost r u okolini nule znači da ne postoji veza, odnosno ne postoji zavisnost među posmatranim obeležjima.

Page 13: Statistika

1.4. KORELACIJA IR E G R E SIJA 13

Ako X i Y nisu u Iinearnoj1 već .u nekoj drugoj fimkcionalnoj vezi k.oeficijent г ne može dostići evstreinne vrednosti, -1 i I1 jer je koeficijent korelacije rnerilo jedino linearne zavisnosti. Zbog toga je potrebno postupati obazrivo pri interpretaciji koeficijenta korelacije.

Isto tako izmedju dva obeležja X i Y može postojati visoka korelacija, m ada ona ne utiču direk- tno jeHno na drugo Tako je na primer HoeI izračunao koeficijent korelacije izmedju učiteljskih plata i potrošnje likera u SAD i dobio visoku vrednost r = 0.9. Očigledno je da ova dva obeležja ne mogu di- rektno uticati jedno na drugo. Medjutim, povećanje nacionalnog dohotka izaziva istovremeno povećanje svih plata i celokupne potrošnje. Zato su se povećale i učiteljske plate i potrošnja l.ikera. Posm atrana dva obeležja efektivno vrlo slabo zavise jedno od drugog, a visoka vrednost njihovog koeficijenta korelacije potiče od trećeg obeležja koje direktno i istovremeno utiče na oba obeležja.

Znači pre.izračunavanja koeficijente korelacije potrebnaje detaljna prethodna analiza na osnovu koje donosimo zaključak da Ii izmedju posm atranih obeležja postoji veza, tj. da Ii ima smisla primeniti koeficijent korelacije za statističku analizu.

P rim er 1.12 NasluĆajannačinjeizabranopetproizvodajednefabrike. Izm erenajeduzina[cm ] (obeležje X ) i tezina [g] (obeležje Y ) izabranih proizvoda i dobijeni su rezultati

(3,9), (4,11), (6,14), (7,15), (10,16).

Izračunavanjem dobijamor = 0.939

i zaključujmio da postoji značajna zavisnost izmedu đužine i težine proizvoda. Kako je r > 0 to je u pit.anj:i direktna zavisnost. Znaći, veza dežina povlači za sobom i veću dužinu proizvoda i obrnuto.

Koeficijent korelacije je samo mera stepena povezanosti dva obeležja X i Y, dok se analizom regresije može odrediti priroda povezanosti. Na ta j način možemo vrednost jednog obeležja predstaviti u funkciji drugog obeležja. Ukoliko obeležje Y predstavimo u funkciji od obeležja X kažemo da je obeležje X nezavisno, a Y zavisno obeležje. Ukoliko postoji veza između obležja ona može biti linearna ili nelin- earna (kvadratna. kubna, eksponencijalna). Ovde ćemo, zbogjednostavnosti, razm otriti slučaj linearne zavisnosti.

Ukoliko je veza linearna regresionu pravu tražimo u jednom od sledeći oblika

(1.15)

(1.16)y — ax + b

x = cy + d.

Koeficijent,e a i b, odnosno c i d određujemo na osnovu uzorka (1.12).

Prava linearne regresije

Page 14: Statistika

14 STATISTIKA

Pri određivanju potrebnihkoeficijenata primenjujemo metod najmanjih kvadrata, odnosno postavl- jamo uslov da zbir kvadrata odstupanja realizovanih vrednosti obeležja od odgovarajućih vrednpsti na regresionoj pravoj bude minimalan. Znači odredjujemo položaj prave tako da prav što više prijanja uz dati skup tačaka. Usvojićemo da nam prava dobijena na opisani način predstavlja najbolju moguću linearnu vezu izmedju obeležja X i Y. Koeficijenti a i b u jedilačini (1.15) određuju u linearnog sisterna

a E L i x I + *> E L ,S i = T t i * * l i , ч(1.17)

aL?=ixi + nb = EL iVi

Određivanje potrebnih koeficijenata može da se uprosti ako je poznat koeficijent korelacije r i tada koeficijent a direktno dobijamo iz relacije

Sya = r-zr.Sx

Zajednačinu (1.16), tj. kada obeležje X smatramo zavisnim, a obeležje Y nezavisnim, koeficijente c i d dobijamo kao rešenje sistema

с EL1 y2i + d £L i Уг = EL i *i Vi(1-18)

c E i= I Vi + nd = E i= Xi

Koeficijent c se može odrediti i iz relacijeSx

C = r —Sy

Regresione prave služe za predviđanje vrednosti jednog obeležja u zavisnosti od drugog. Ipak, treba naglasiti. da ta predviđanja ne možemo bez greške. Iz tih razloga razvijena je i teorija ocene standardne greške regresije. Za regresione prave (1.15) i (1.16) standarnu grešku regresije izračunavamo uz pomoć formula

9y —1

B * - t f ) 2. Odnosno дх =n ' i=l

1 П

i E(*<n.ć-^ ■хГ)2,n i=l

gde su vrednosti Vi l Xri dobijene očitavanjem sa regersione prave. Kada je standardna greška regresije jednaka nuli znači da nema rasturanja realizovanih vrednosti oko prave. Male vrednosti standardne greške ukazuje na to da su tačke (x i,y i) malo rasturene oko regresione prave. Regresionu pravu ima smisla koristiti za predviđanja samo kada je standardna greška mala.

P r im e r 1.13 Za uzorak iz prethodnom primera odredi 'cemo regresione prave i standardne greše regresije. Kako je

5 5 5 5 5

^ x f = 210, ^ X i = 30, У ^Х ју ј = 420, ^ y ? = 879, ^ . j / i = 65 i n = 5t=l t=l i=l i=l i=l

sistemi (1.17) i (1.18) postaju

210a + ЗОб = 420 879c + 65 d = 42030a + 5b = 65 ’ 65c + 5d = 30

čija su rešenja a = 1, b — 7. odnosno c = ^ = 0.88, d = 5.44, pa su regresione prave

y = x 4- 7 odnosno x = 0.88j/ + 5.44

Page 15: Statistika

1.5. TE STIR A N JE HIPOTEZA 15

Standardne greške regresije su:

9y = \ / 5 = 0-89 odnosno дх — %^3.53 = 1.87.

Obe regresione prave (1.15) i (1.16) seku se u tački (x ,y ) i poklapaju se samo u slučaju r = 1 ili r = —1. To znači da je veza u tim slučajevima između obeležja X i Y čisto linearna. Ukoliko je manja svarna linearna zavisnost izmedju X i Y, utoliko regresione prave više odtupaju jedna od druge, tj. veći je ugao koje zaklapaju. Za r = 0 regresione prave postaju norm alnejedna na drugu.

1.5 T estiran je h ipoteza

Često se pri statističkim analizama postavlja hipoteza. To je neko tvrđenje o jednom ili više obeležja za koje želimo da utvrdimo da Ii je istinito ili nije. Tako možemo testirati hipotezu da visina studenata ima normalnu raspodelu, da je prosečna visina studenata tehnike 180, da boja očinu i boja kose nisu u vezi i slično. Postoji.veliki broj testova koji na osnovu uzoraka daju odgovor da Iije hipoteza tačna ili nije. Naravno, ne možemo doneti potpuno pozitivan ili potpuno negativan odgovor jer ne možemo, u većini slučajeva, ispitati celu populaciju. Metode ili testovi provere hipoteza omogućuju da se donese sudo tačnosti hipoteze sa verovatnoćom P dovoljno bliskoj jedinici. Provera statističkih hipoteza naziva se verifikacija statističkih hipoteza. Osnovni zadatak u teoriji provere statističkih hipoteza je određivanje pravila, po kome se, na osnovu uzorka, može rešiti pitanje, da Ii se prihvata ili odbacuje hipoteza. Dugo vremena su se ovi kriterijumi konstruisali intuicijom, a opšte i tačne teorije nije bilo. Savremenu teoriju provere statističkih hipoteza dali su J. Nejman (1928.)' i E. Pirson (1932.) Hipotezu koju želimo da ispitamo nazivamo nulta hipoteza i označavamo je sa Ho- P ri testovima, potrebno je definisati i Sta je alternativna hip'oteza koju označavamo sa Н г. Tako možemo testirati nultu hipotezu d a je prosečna

Page 16: Statistika

16 STATISTIKA

visina Jugoslovena 176 cm. protiv alternativne da prosečna visina nije 176 cm. Takođe možemo testirati hipotezu da je prosečna visina Jugoslovena 176 protiv alternativne da je prosečna visina m anja od 176 cm.

U praksi se kod testova verifikacija najčešće koriste pragovi značajnosti a — 0.05 i a = 0.01 Ako je prag značajnosti a = 0.05 to znači da je verovatnoća da odbacimo hipotezu Ho iako je tačna 0.05. To znači da je učinjena greška. S ta više, ta greška će se pojavljivati sa učestalošću a. Drugim rečima, za prag značajnosti a = 0.05 (5%), Ho će u 5% slučajeva biti neopravdano odbačena. Odbacivanje nulte hipoteze u slučaju kada je ona tačna naziva se greškom prve vrste. S druge strane, takođe je moguće da netačna hipoteza Ho bude prihvaćena. U tom slučaju reč je o greški druge vrste (često nazvana i P greška). Moć statističkog testa đefiniše se kao 1 — P i zapravo predstavlja verovatnoću da će nulta hipoteza biti opravdano odbačena. Jedini način da se umanji prisustvo obe vrste grešaka jeste povećanje obima uzorka n. Prethodna priča može se prikazati sledećom tabelom,

Ako je Ho tačna Ako je Ho pogrešna Ako je H0 odbačena Greška I vrste Nema greškeAko je Ho prihvaćena Nema greške Greška II vrste

Tabela: Dve vrste grešaka testiranja statističkih hipoteza

Ovde ćemo prezentovati dva test.a koji se odnose na hipoteze o jednakosti nekih obeležja u dve popu- lacijeiHdvauzorka.

1.5.1 T estiran je h ip o teza o razlici izm eđu a ritm e tič k ih sred ina

U primenama se čestojavljaju situacije kada treba uporediti srednje vrednosti dveju populacija. Naprimer, neka jednu populaciju čine svi Jugosloveni, a drugu populaciju svi Japanci. Zelimo da uporedimo srednju vrednosti visina Jugoslovena i Japanaca. Sa druge strane, često se ispituje uspešnog novog Ieka ili novog semena ili novog postupka. Tada se iz iste populacije uzimaju dva uzorka, te se na jednom primenjuje novina. a na drugom ne.

U statističkoj analizi moramo poći od pretpostavke da posm atrana obeležja na obe populacije imaju normalne rapodeleA f(m i,ai) iN (m ,2, 02). Ovde ćemo posm atrati slučaj kada standarna odstupanja tih obeležja nepoznata. alijednaka (a i = (J2)- Pomoću dva uzorka obima rc.j i тг2 izvučena iz odgovarajućih populacija potrebno je testirati hipotezu

Ho{mi - т 2).

R.ečima, potrebno je testirati hipotezu da su srednje vrednosti obeležja u dve populacije jednake.Alternativna hipoteza može biti

# 1 (ra1 ^ m 2) ili H 1(m 1 < m 2) ili # 1 (m 1 > m 2).

Test za verifikaciju posmatrane hipoteze može se dati u tri koraka.

korak 1: na osnovu uzoraka sračunavamo vrednosti:

x 1, s l , x 2 ,s%

na osnovu formula iz sekcije mere centriranosti i mere rasturanja.

korak 2: formiramo statistiku, odnosno izračunavamo vrednost:

Page 17: Statistika

l.5. TESTIRAN JE HIPOTEZA 17

(Napomena: prethodna statistika, pod pretpostavkom da je Ho tačna, ima Studentovu raspodelu sa nj + 77-2 — 1 stepeni slobode.)

korak 3: Iz tablice za Studentovu raspodelu očitavamo vrednost tk i0, gde je k = П\ + п 2 — 1 i donosimo zaključak (posmatramo slučaj kada je alternativna hipoteza Н\{т,\ ф rn2))

— Ako je |t| > ta k tada odbacujemo hipotezu Ho iprihvatamo hipotezu Hi;

- Ako je \t\ < tatk tada odbacujemo hipotezu Н\ i prihvatamo hipotezu Ho',

P rim er 1.14 Grupi od 12 pacijenata koji se leče od poviSenog maksimalnog arterijskog krvnog pritiska dat je lek za snižavanje pritiska. Vrednost maksimamalnog arterijskog krvnog pritiska pre lećenja bile su [u mmHgJ:

220,180,270,290, 200,300,250,190,220,230,260, 270,

a posle uzimanja leka:

190,170,220,260, 220, 200, 260,150, 160,170,210, 190.

Sa pragom značajnosti (rizikom) a = 0.05 Selimo da ispitatamo da Ii Iek daje rezultate.

Postavićemo hipotezu da Iek ne daje rezultate tj. da nije..doSlo do promena. Testiramo hipotezu da je aritmetička sredina uzorka pre uzimanja Ieka i posle uzimanja Ieka ista. Primenom opisanog testa dobijamo:

korak 1: Iz uzorka sračunavamo potrebne veličine

п г = 12, тг2 = 12, X 1 = 240, 5? = 1545.45, X 2 = 200, S22 = 1290.91.

korak 2: Izračunavamo xrrednost odgovaraju 'ce statistike

t = 2.60177

korak 3: Iz tablica za Studentomi raspodelu dobijamo čo.os.23 = 2.0 6 9. Kako je t > čo.05,23 to datu hipotezu odbacujemo, što znači da dati Iek utiče na krvni pritisak. kako se realizovana vrednost nalazi u desnostranoj kritičnoj oblasti to prihvatamo alternativnu hipotezu Ho(m i > m 2), odnosno da Iek smanjuje krvni pritisak.

P rim e r 1.15 Na slućajan način je izbrano 120 vlasnik.a automobila u Beogradu i dobijeno je da u proseku godiSnje troše 450 litara benzina sa standardnim odstupanjem od 120 litara. Slučajno odabranih 100 vlasnika u Novm Sadu prosečno godišnje troSi 420 litara benzina sa standamim odstupanjem od 150 litara. Ispitaćemo da Ii mo£emo da smatramo da je godišnja potrošnja vlasnika automobila u Novom Sadu i Beogradujednaka. Testiramo hipotezu Ho(m^ — ттг2).

korak 1: Dato jeU1 = 120, тг2 = 100, 5 j = 450, S21 = UO2, š 2 = 420, 5 = 1502.

korak 2: IzraCunavamo vrednost odgovarajuće statistike

t= 1.61

korak 3: Iz tablica za Studentovu raspodelu dobijamo to.05.269 = 1-96. Kako j e t < io.o5,269 t° nemamo osnova da odbacimo hipotezu o jednakost godišnjih potrošnja benzina u Beogradu i Novom Sadu.

Page 18: Statistika

18 STATISTIKA

1.5.2 T estiran je h ip o teze o razlici dve p ro p o rc ije

Posmatrarao učestalost neke pojave na dve populacije. Na primer, posmatramo odlazak na godišnji odmor u Jugoslaviji i u Nemačkoj. Interesuje nas da Ii u je učestalost odlaska na godišnji odmor jednaka u obe populacije, tj. da Ii isti procenat jugoslovenskih i nemačkih porodica ide.na 9 dm0r. U tu svrhu koristiom test 0 jednakosti dve proporcije.

Sada ćemo uopštiti priču. Neka je u prvoj populaciji izabran uzorak obima П\ i neka se pojava koju posmatramo realizovala u Traj slučajeva. Neka je iz druge populacije izabran uzorak obima n 2 i neka je posmatrana pojava registrovana u m 2 slučajeva. Želimo da testiramo nultu hipotezu

# 0 ( P 1 = P 2 ) ,

odnosno hipotezu d a je proporcija u obe populacijejednaka protiv alternativne, da proporcije nisujednake tj-

# 1 ( P 1 ^ P 2 ) , Н \ ( p i < р 2 ) ) # i ( p i > p 2 )-

U tu svrhu primenjujemo naredni test.

korak 1 : izraćunavamo vrednosti

П1П2 _ Tn1 _ m 2 _ Ш\ 4-77¾n = ----- -----, P1 = — , р2 = — -, p = ------ ----- , q = A - p ]П] + П 2 TZ1 77-2 Tt1 + тг2

korak 2 : izračunavamo statistiku, odnosno veličinu

t = p . - p 2

(Napomena: prethodna statistika, pod pretpostavkom da je Ho tačna, ima Normalnu raspodelu A f{0,l))

korak 3: Iz tablice za normalnu raspodelu očitavamo vrednost t a i donosimo zaključak (posmatramo slučaj kadaje alternativna hipoteza H 1(p1 7^p2))

- Ako je |t| > ta tada odbacujemo hipotezu #o i prihvatamo hipotezu Н\\

- Ako je |tj < t a tada odbacujemo hipotezu H1 i prihvatamo hipotezu Но\

P rim e r 1.16 Zelimo da ispitamo da Iije zastupljenost pušaCa medu studentima i studenkinjama isti. Iz tog razloga izabran je uzorak od 150 studenkinja i registrovano je da 17 pušača, a od 120 studenata njih 15 su pušaći.

. Primenićemo prethodno navedeni test.

korak 1: Na osnovu uzorka imamo т г = 17, п г = 150, m 2 = 15, n 2 = 120, pa je

71= 66.67, pi = 0.11, p2 = 0.125, p = 0.1185.

korak 2: Vrednost statistike za dati uzorak jet = -0.378 .

korak 3: Iz tablice za Normalnu raspodelu dobijamo t a = 1.96. Kako je realizovana vrednost |t| = 0.378 manja od vrednosti očitana iz tablice to nemamo osnova. da odbacimo hipotezu ojednakostiprocenatapušaia među studentima i madu studenkinjama.

Page 19: Statistika

1.6. X2-T E S T N EZA VISN O STI 19

1.6 j 2-te s t nezavisnosti

U ninogim slučajevima raspolažemo nenumeričkim, odnosno atributivnim obeležijima. U takvim situaci- jama broj poznatih metoda iz statistike koji se mogu primeniti je veoma mali. Najčešće se primenjuje test koji pokazuju zavisnost između dva obeležja. Neka je data tabela (1.13) gde su Xi i Уј đati opisno. Takvu tabelu u slučaju atributivnog obeležja nazivamo tabela kontigencije. Zelimo da testiram o hipotezuo zavisnosti posm atrana dva obeležja, tj. želimo da testiramo hipotezu

# o ( obeležja X i Y su nezavisna).

P rim er 1.17 Želimo da ispitamo da Ii postoji zavisnost u obrazovanju supružnika u Somboru. U tu svrhu izabrali .smo uzorak od 200 brakova i prikupili potrebne podatke. Neka je obeležje X predstavlja obrdzovanje žene. a Y obrazovanje muškarca. Sređivanjem podatak dobili smo tabelu kontegencije

X / Y osnovna srednja visokaosnovna 36 Тб 6 58srednja 12 65 23 100visoka 3 10 29 _ j 2 _

51 91 58

i hoćem.o da testiramo hipotezu

Ho(ne postoji veza izmedu obrazovanja supružnika u Somboru)

sa pragom značajnosti a = 0.05.

Najčešće korišćeni test za testiranje hipoteze o nezavisnosti atributivnih obeležja je x 2-test koji se može opisati sledećim koracima.

korak 1: Za svaku ćeliju iz tabele kontigencije izračunavamo hipotetičnu verovatnoću pij pom oću formule

f i . S.jPij = — -n n

Sada za svaku ćeliju izračunavamo teorijsku frekvenciju FiJ na osnovu formule

Fij = npij.

korak 2: Izračunavamo statistiku{ f i i - F i i ) 2

X2 = E E j?.. •i=i j= 1 p ^

(Pod predpostavkom da je Ho tačna ova statistika ima X2 raspodelu sa (r — 1) • (s — 1) stepeni slobode.)

korak 3: Iz tablice za x 2 raspodelu očitavamo vrednost x 2 (r _i)(s_i) i donosimo zaključak

- Ako je x ^ Xa (r_i)(s_i) onda hipotezu Ho o nezavisnosti dva obeležja treba odbaciti, tj. u tom slučaju posm atrana dva obeležja smatramo da su zavisna;

- Ako je x 2 < Xa (r— i)(s-i) on<ia nemamo osnova da odbacimo hipotezu o nezavisnosti dva obeležja

Page 20: Statistika

•20 STATISTIKA

Napomena. Pri statističkoj analizi, kako je to već naglašeno, treba voditi računa o veličini uzorka i realizovanim frekvencijama. Uzorak je zadovoljavajući ukoliko u tabeli kontigencije nema nijedna ćelija sa frekvencijom manjom od I i nema više od- 20% ćelija sa frekvencijom manjom od 5. Najbolji način da se izbegne ovaj problem leži u odabiranju uzorka koji će biti dovoljno velik da se izbegnu tako niske vrednosti frekvencija. Moglo bi se, međutim, izvršiti i jednostavno odbacivanje onih vrsta ili kolona koje sadrže nedozvoljeno niske / ; ;- ili kombinovanje vrsta ili kolona iz istog razloga. Takav postupak se ipak ne preporučuje u svakodnevnoj praksi. Bolje je, kadgod je to moguće, ponoviti posmatranje na dovoljno velikom uzorku.

P r im e r 1.18 Nastavljamo primer 1 .17 i primenjujemo x 2-fesč

korak 1: Izračunavamo sve vrednosti f i j i beležimo ih u tabelu. Tako dobijamo proširenu tabelu

X / Y osnovna srednja visokaosnovna 36 Јб 6 58

Ц .78 26.38 16.82srednja U 65 23 100

25.5 45.5 29visoka 3 10 29 ~ W

10.7 19.1 12.1851 91 58

korak 2: sračunavamo potrebnu statistiku

X2 = 30.46 + 2.96 + 6.96 + 7 .14 + 15.5 + 1.24 + 5.54 + 4.33 + 23.22 = 97.35

korak 3: iz tablice za x 2 raspodelu vrednostXo.05,4 — 9-488

Kako je

Х 2 > Х о .0 5 ,4

to odbacujemo nultu hipotezu i smatramo da obrazovanja supružnika nisu nezavisna. Drugim rečima, doSli smo do zaključka da su obrazovanja supruznika u vezi, odnosno medusobno su zavisna.

Koristeći x 2~test mogli smo ispitati da Ii postoji značajna zavisnost između dva posmatrana obeležja. Međutim ostalo je otvoreno pitanje, ako postoji zavisnost koliko je ona jaka. U tu svhu koristi se ксн efic ijen t k o n tig en c ije koji predstavlja meru zavisnosti između dva atributivna obeležja. U primeni koeficijenta kontegencije ne treba da se gubi iz vida neka njegova ograničenja značajna za interpretacijui upoređivanje. U potpunom odsustvu veze koeficijent kontigencije je 0, ali ne dostiže 1 kod potpune zavisnosti. Njegova najveća gornja granica zavisi od broja atributivnih karakteristika.

U praksi se primenjuju još neki od neparametarskih pokazatelja korelacije, kao što su Spirmanov koeficijent korelacije ranga, Kendalov koeficijent korelacije ranga, Kendalov koeficijent saglasnosti.

1.7 F ak torska (disperziona) analizaAko na obeležje X neke populacije deluje jedan promenljivi faktor A onda se može postaviti pitanje da Ii uticaj faktora A dovodi do bitnih ili slučajnih promena posmatranog obeležja.

P r im e r 1.19 U toku setve u Vojvodini su korišćena četiri vrste semena pSenice: s l, s2, s3 i s4- Želimo da ispitamo da Iije vrsta semana uticala na prinos. Sada populaciju čine sve oranice u Vojvodini zasejane pšenicom, posmatrano obeležje je prinos pSenice, a faktor ćiji uticaj želimo da ispitamo je vrsta semena.

Page 21: Statistika

1.8. PRlMENA RAČU NARA U S T A T lS T IC I 21

Osnovna ideja faktorske analizeje da u uzorak uđe Ti1 parcela zasejana semnom s l, n2 parcele zasejane semenom s2, n3 zasejane semenom s3 i n 4 zasejane semenom s4. Hipotez.u koju želimo da testiram o je

Ho(ne postoji bitan uticaj faktora (semena) na prinos)

tj. da su aritmetičke sredine sa parcela pod istim semenom jednake. Tada prethodnu hipotezu zapisujemo

H o i x 1 = X 2 = X 3 = х 4 ) .

Disperzionu analizu je razvio R..A. FiSer u biološkim istraživanjima, ali je ona našla primenu i u mnogim drugim slučajevima. Iz tog razloga se odgovarajući test naziva F test, a odgovarajuća statistikaFiSerova.,Ovde nećemo, zbog svoje složenosti, dati algoritam F-testa.

-¾:-

P r im e r 1.20 Posmatramo uticaj vrste paste na kvalitet zuba. Izabrano je 23 pacijenta koji su koristili po jednu.vrstu paste u poslednje 3 godine i beleženje broj pojave karijesa u tom razdoblju. Tako je dobijen uzorak

vrsta pasteA в C D

~Y~~~3~~2~~~2~0 5 0 41 2 0 11 1 1з 0 02 20 1

J _

Primenom F-testa možemo testirati hipotezu da vrsta paste ne utiče na pojavu karijesa, tj. da jeprosečan broj pojave karijesa jednak bez obzira na vrstu paste koja je korišćena.

Zboq služenosti. kako smo to već navomenuli, ne ćemo navoditi međurezultate. Konačna vrednost F3 19 3 19količnika je Fo = 3.21346. Iz tablize za F raspodelu dobijamo F0 ’05 = 3.13. Kako je F$ > ^ 005 ^0 sa

pragom zna6ajnosti a = 0.05 odbacujemo datu hipotezi i zaključujemo da postoji uticaj vrste paste na pojavu karijesa.

Kada je primenom F testa donet zaključak da je uticaj posm atranog faktora značajan u odnosu na posmatrano obeležje može se nastaviti analiza da bi se našlo koja modifikacija faktora dovodi do bitnog odtupanja srednje vrednosti. Za ovu analizu primenjuje se test ojednakosti dve aritmetičke sredine opisan nešto ranije. Tako se dolazi do grupe podataka, kod koje srednja vrednost pokazuje bitno odtupanje od ostalih srednjih vrednosti. a time se uočava modifikacija faktora koja svojim uticajem dovodi do ovakvog odtupanja.

1.8 P rim ena raču n ara u s ta tis tic i

Svojoj ekspanziji u poslednjih dvadeset godina statistika najviše duguje računarima.Vreme koje je potrebno za obradu prikupljenih podata prilikom statističkih posmatranja nekada se

merilo danima i mesecima. Naime, većina statsitičke anaUze iziskuje veoma dug račun. Pored toga postojala je velika verovatnoća pojave greške pri izračunavanju. ZamisHmo da "peSke" ili uz pomoć jed- nostavnog digitrona pokušamo da obradimo uzorak od IGOC učenLka i da izračunamo koeficijent korelacija

Page 22: Statistika

22 STATISTIKA

između visine i težine. Broj potrebnih međuzbirova i među proizvodaje prilično velik, a uz to potrebno je viliki,broj puta"ukucavati" brojeve u digitron i zapisivati ih na papir što daje realnu šansu da pogrešimo. U tom slučaju je neophodna provera dobijenih rezultata.

Primena računara znatno ubrzava izračunavanje i mogućnost greške svodi na minimum. Ukoliko obradu statističkih podataka radimo uz pomoć računara naš zadatak se svodi samo na taeno unošenje podataka dobijenih statističkirn posmatranjem. Sve nadalje prepuštamo računaru.

Razmotrimo ceo postupak statističke analize.U prvoj etapi. prilikom izbora uzorka, računar može da odigra značajnu ulogu u slučajnom odabiru

elemenata iz populacije u uzorak. Naravno, tad a ne moramo da koristimo tablicu slučajnih brojeva, izvlačenje iz šešira i slično. U drugoj etapi, tj. pri statističkom posmatranju računar ima najm anji udeo ali zato u trećoj etapi sređivanja podataka i četvrtoj etapi, naučnoj obradi i analizi podataka nezamisliv je rad bez računara. Računari omogućuju obradu uzoraka velikih dimenzija što 'rezultuje pouzdanijim rezultatima istraživanja.

Nekada je bilo potrebno koristiti ogromnu količinu statsitičkih tabela. Svaka tabela sa sobom nosii grešku jer je data samo u diskretnim taćkama, a vrednosti su izračunate na fiksan broj decimala. Primenom računara statističke tabele su potpuno izgubile primenu i značaj, a postignutaje i veća tačnost.

Statistika je zahvaljujući računarima uzela toliko zamaha d aje danas nemoguće zamisliti čak i prenos sportskog događaja bez propratne statističke analize. Svako iole ozbiljnija studija iz družtvenih, bioloških, rnedicinskih, tehnićkih nauka nezarnislivaje bez primena aparata matematičke statsitike.

Danas na tržištu postoji veliki broj paketa za statističku obradu. Neki od njih, jednostavniji za ko- rišćenje, namenjeni su žiroj populaciji korisnika, dok postoje i softverski paketi namenjeni profesionalnom bavljenju statistikom.

Statgraphics je jedan od softverskih paketa namenjen za veliki broj korisnika. Rad u njemu je relativno jedriostavaii. Omoguću je nam unos prikupljenih podataka u bazi ili korišćenje već postojeće baze. U okviru paketa postoji veliki broj statističkih analiza. Naravno, sve analize pomenute u ovom udžbeniku mogu se sprovest,i korišćenjem Statgraphics. Ta analiza d a ta je u prilogu korišćenjem paketa Statgraphics Plus v.5.

Page 23: Statistika

'.*'#■

2. K ratak pregled pojmova iz verovatnoće i statistike

2.1 A lgebra događa ja

• S lu ča jn i e k sp e rim e n t je eksperiment čiji se ishod ne može sa sigurnošći predvideti i koji se može ponoviti neograničen broj pu ta (pod isim uslovima).

• S lu ča jn i d o g ađ a j je događaj koji u datom slučajnom eksperimentu može da se desi ili da se ne deši, ali nema treće mogućnosti.

• S iguran događaj je onaj koji u svakom izvođenju uočenog slučajnog eksperimenta nastupa obavezno. a nem oguć onaj događaj koji u tom eksperimentu ne može da se desi.

Oznake: za događaje velika slova latinice A, B , . . . , X , Y , . . . (po potrebi i sa indeksima), za sigurandogađaj I, za nemoguć događaj 0.

• Dogadaj A pov lači (im p lic ira ) događaj B {A C B) ako se pri svakom ostvarivanju događaja A ostvaruje događaj B.

• Dogadaji A i B su je d n a k i (A = B ) ako važi A C B i B C A.• E lem en ta ran događaj ne sadrži ni jedan drugi događaj. Dogadaj koji nije elementaran je složen.• Dogadaj s u p ro ta n događaju A (Л) je događaj koji se ostvaruje tačno onda kada se događaj A ne

ostvaruje.• Z b ir događaja A i B (A + B ili A U B ako je A П B = 0) je događaj .koji se ostvaruje tačno onda

kada se ostvari bar jedan od događaja A i B .• P ro izvod događaja A i B (A B ili A П B ) je događaj koji se ostvaruje tačno onda kada se ostvare

oba događaja A i B istovremeno.• Dogadaji A i B su n esag la sn i, međusobno se isk lju ču ju , ako je , A B = 0.• R azlika događaja A i B (А \В ) je dogadaj koji se ostvaruje tačno onda kada se događaj A ostvari

a događaj B ne ostvari.• Dogadaji A i , A 2, . . . , A n čine potpuni sistem događaja ako je А \ + A 2 H------ b A n = I i A iA j = 0

za i ф j.

Page 24: Statistika

24 VEROVATNOĆA I STATSITSIKA

2.1.1 O sobine d o g ađ a ja

zbir proizvodA + A = A A A = A

A^rB = B^rA A B = BA

A + (B + C ) = (A + B )+ C A (BC) = (AB) C

Л + (B C ) = (A + B ) (A+C) A (B + C ) = (AB) + (AC)

A + A = I A A = 0

Л+0 = A Л0 = 0

A + I = I A I = A

A + B = A B ______________ A B = A + B _____________

• A C A• A C l• A = A• А \В = A B• I \A = A

V

A + B AB

2.2 V erovatnoće s lu ča jn ih događaja

2.2.1 F rekvencija d o g ađ a ja

• EVekvencija (u česta lo st) događaja A je broj ostvarenja događaja A pri izvođenju više slučajnih eksperimenata čiji ishod je A ili A.

• R e la tiv n a frek v en c ija и п (A) događaja A je količnik frekvencije (m ) i ukupnog broja slučajnih eksperimenata (n):

/ л тWn (A) = —. n

• V ero v a tn o ča d o g a đ a ja A:

Page 25: Statistika

2.3. USLOVNA VEROVATNOČA 25

2.2.2 O snovna svo jstva verovatoće• Verovatnoća događaja A je nenegativan broj:

0 < P { A ) < 1.

• Verovatnoća sigurnog događaja I je i:

P( I ) = L

• Verovatnoća zbira nesaglasnih događaja je zbir verovatnoća tih događaja:

P ( A + B) = P( A) + P ( B ) .

• P ^4) = 1 - P (A)• P (0) = O. А с В = > Р ( В \ А ) = Р ( В ) - Р ( А )• A c B = > P ( A ) < P ( B )• P ( A + B) = P( A) + P ( B ) - P ( A B )• Događaji A i ^A2, . . . , A n čine potpuni sistem događaja => A{Aj = 0, za i ф j i

P (Ai + A 2 + -----f A n) — ^ 2 P (Ak) — 1-к— 1

2.3 U slovna verovatnoća

• U slovna v e ro v a tn o ć a događaja 5 .pod uslovom da se događaj A ostvario i P( A) > 0:

p , м п - П А В )P { B I A ) ~ T W

• Događaj B je n ezav isan od dogadaja A, za koji je P ( A ) > 0, ako ostvarenje događaja A ne menja verovatnoću događaja В\

P ( B / A ) = P ( B ) .

• Ako je P (A) = 0. onda je svaki događaj nezavisan od A.• Ako je događaj A nezavisan od dogadaja B, onda je i događaj B nezavisan od dogadaja A.• Dogadaj A je nezavisan od dogadaja B ako i samo ako je P (AB) = P (A) P ( B ) .• Ako su događaji A i B uzajamno nezavisani, onda su to i dogadaji: A i B, A i B, A i B.• Za zavisne događaje A i B važi:

P (AB) = P (A) P (B/ A) = P (B) ( A / B ) .

• Za zavisne događaje А \ , A ^ , •. ■, An važi:

P ^ П i4fcj = P ( A i ) ■ P (A2ZA1) ■ • • P ( A J A 1A 2 ■ • • A n- , ) .

• Događaji A i , A 2, . . . , A n su nezav isn i u p o tp u n o s ti, ako je svaki od njih nezavisan od svih proizvoda koji se mogu dobiti od preostalih događaja.

• Za događaje A i , A 2, . . . , A n nezavisne u potpunosti je:

Wn^=n^*)-V fc = I / fc = i

Page 26: Statistika

26 VEROVATNOĆA I STATSITSIKA

2.3.1 B ajesova i form ula to ta In e verovatnoće

• Ako se o ostvarivanju događaja A može izneti n uzajamrio nesaglasnih hipoteza H \ , H z , . . . , H n sa P (Hk) > 0, Tc = 1,2, . . . , n i P (A) > 0, onda važi:

B ajeso v a fo rm ula

f M = - g . ) ^ № L l t - U ...... *Y ^ P ( H t ) P ( A f H h)k = l

fo rm u la to ta In e v erovatnoće

Р( А) = ј ^ Р ( Н к) Р ( А / Н к). к=\

2.3.2 S lučajne prom enljive

• S lu č a jn a p ro m en ljiv a X je preslikavanje skupa svih elementarnih događaja I u skup TZ. Pri tom, za sval<i interval D C TZ skup svih elementarnih događaja na kojima X uzima vrednost iz D je jedan događaj.

C> Oznake: za događaje velika, a za vrednosti slučajnih promenljivih odgovarajuća mala slova latinice.

2.3.3 P unkcija raspodele verovatnoće

• F u n k cija ra sp o d e le v ero v atn o će slučajne promenljive X je funkcija koja svakom realnom broju x dodeljuje verovatnoću

P ( X G (-oo , x)) = P ( X < x) ,

odaosno to je funkcija za koju je

F( x ) = P ( X < x ) , x e TZ.

F je monotono neopadajuća funkcija.Iim F (x) — 0,~* — OO

• Iim F( x) — 1,X —*■ + CO

• Za svako 0¾ € TZ funkcija F je neprekidna sleva u zo,

Iim F ( x ) - F ( x o).

2.3.4 S lu č a jn a p ro m e rd jiv a a p so lu tn o n e p re k id n o g tip a

• je ona slučajna promenljiva X za koju postoji funkcija f ( x ) > 0, x G 7^,(gustina ra sp o d e le v e ro v a tn o će slučajne promenljive X) pomoću koje se njena funkcija raspodele F može izraziti kao

F (х) = [ f (ž) dt■

Page 27: Statistika

2.3. USLOVNA VEROVATNOĆA 27

2 .3 .5 K r i v a g u s t i n e r a s p o d e l e v e r o v a t n o ć e

• K riva g u stin e ra sp o d e le v e ro v a tn o će je grafik funkcije raspodele slučajne promenljive neprekidnog tipa.

□ Površina osenčene oblasti jednaka je verovatnoći da slučajna promenljiva X uzme vrednost manju od x, odnosno u intervalu [a, b).

2.3.6 M atem atičk o očekivanje

• M atem atičk o oček iv an je slučajne promenljive X d isk re tn o g tip a sa zakonom ra sp o d e le

Je

Х\ 2-'2 -i'3 • ■ ■ х к P l P 2 Рз ■ ■ ■ P k

M ( X ) = Y ^ x lPi . i= 1

• M atem a tičk o oček ivan je slučajne promenljive X n ep rek id n o g tip a sa g u s tin o m ra sp o d e le / (ako integral apsolutno postoji):

/+oox f (x) dx

- O O

. JM( C) = C

. M ( C X ) = C M ( X )• M ( X + Y) = M ( X ) + M ( Y )• M ( X - Y ) = M ( X ) - M ( Y ). a < X < b =Ф- a < M ( X) < b

2.3.7 B inom ni (B ernulijev) zakon ( q = l - p )• pojedinačna verovatnoća:

funkcija distribucije:

P ( X = k) = Ck )pkqn- k , k = OA , . . . . n

• matematičko očekivanje:

• disperzija:

M (X) = n ■ p.

D ( X) = n ■ p ■ q = np (1 — p ) .

Page 28: Statistika

28 VEROVATNOĆA I STATSITSIKA

2.3.8 P oasonov zakon (c > 0)• pojedinačna verovatnoća:

CkP ( X = k) = — ■ е~с, Jfc = 0 , l , . . . , n

к\• funkcija distribucije:

™ - £ £ - ‘~.i=0

gde je k = [z] za x ¢ Z• matematičko očekivanje:

M (X) = n ■ p.

• disperzija:D ( X ) = n - p

• Matematičko očekivanje slučajne promenljive Л’ d isk re tn o g tip a sa zak o n o m ra sp o d e le

f х \ -1'2 - i ' : j ------ >'-k ■ ■ Л

\ P l P 2 P-i ■ ■ ■ P k ■ ■ ■ J

je ........... . 30

M ( X ) = Y j HPu i=i

ukoliko ovaj red apsolutno konvergira.• D isp erz ija D ( X ) slučajne promenljive X:

D (X) = M [ ( X - M (Л'))2ј = M ( X 2) - (M ( X) ) 2

• S rednje k v a d ra tn o o d s tu p a n je slučajne promenljive X :

а ( Х ) = Ј о Џ С ) .

• Za disperziju slučajne promenljive X i konstantu C važi:. D(C) = O• D( C X ) = C 2D ( X )• D ( X + C) = D ( X ) .

2.3.9 N orm aln i (G ausov) zakon

• gustina raspodele:

/* (z ) = ^ ^ e H * - ^ M )у2ттс• funkcija distribucije:

• matematičko očekivanje:M (X) = m.

• disperzija:D (X) = cr2.

Page 29: Statistika

2.4. E L E M E N T I M ATE M A TIČ K E STA TISTIK E 29

2.3.10 S ta n d a rd n a n o rm a ln a d istrib u c ija

• gustina raspodele:

» funkcija distribucije:

^ -jg i< ***- O O

• matematičko očekivanje:M ( X ) = 0.

• disperzija:D ( X ) = 1.

2.4 E lem en ti m atem atičke statistike

• P o p u la c ija ili g en e ra ln i sk u p (osnovni skup, s ta t is tič k a m asa) je skup E sa velikim brojem elemenata sa nekom zajedničkom osobinom koja se za svaki elemenat izražava određenim brojem.

• Elementi populacije, skupa E, su s ta tis tič k e jed in ice , a njihova zajednička osobinaje obeležje p o p u lac ije .

2.4.1 R asp o d e la , d isp e rz ija i o d stu p an je

• Za uzorak obima n registrovano je k međusobno različitih vrednosti obeležja X: x it i = 1, 2, . . . , k , sa odgovarajućim apsolutnim fi i relativnim w* frekveiicijama.

• E m p ir ijsk a fu n k c ija ra sp o d e le

к (z) = J2Ui’ х е пX i < X

• U z o račk a d isp e rz ija

S2 = ~ Y ^ f i ( Xi ~ m *)2П ^

i = l

• S ta n d a rd n o o d s tu p a n je ;V ^

• A ri tm e tič k a s re d in a u zo rk a

Page 30: Statistika

30 VEROVATNOĆA I STATSITSIKA

• P o p ra v lje n a u zo račk a d isp e rz ija

š 2 = ~ ^ ~ V f i (xi - m * f n — 1 ^ j

i—1

• P o p ra v lje n o s ta n d a rd n o o d s tu p a n je :

O cena p a ra m e ta ra

• Relativna frekvencija1 71

P = 1 E f < n z^i= 1pojavljivanja dogadaja A u uzorku ( xh X2r ■ ■ ,хп) , ( f i—1 ako je Xi neka od vrednosti obeležja X za koje se događaj A ostvaruje, a /;= 0 u suprotnom) je ocena p a r a m e tra p(A) .

• Ocena On param etra 6 je p o s to ja n a ako za svako e > 0 va2i:

Iim P (|$,j - в\ < e) = 1.п—>oo Vl 1

• Ocena 9п param etra 9 je c e n tr ira n a ako važi:

M (9п) = 9.

• Ako suZ1 = J 1 ( * ! , * * . . . , * , . ) i Z2 = I2 (* ! ,* 2 , . . . ,* „ )

slučajne prome11ljive koje zavise od uzorka i za koje važi:

P ( 1 1 < Z2) = 1, P ( h < e < i 2) > p ,

ondase slučajni interval [Zj1Z2] naziva in te rv a l p o v e ren ja za parametar 9 sa nivoom poverenja p.

L IT E R A T U R A

1. 0 . Hažić, Numeričke i statističke metode u obradi eksperimentalnih podataka, Institu t za matem- atiku, PM F, Novi Sad, 1992.

2. S. Hadživuković, Tehnika m etoda uzorka, Naučna knjiga, Beograd, 1975.

3. B. Ivanović, Toerijska statistika, Jugoslovenski institu t za ekonomsko istraživanje, Beograd, 1966.

4. S. Vukadinović, Zbirka rešenih zadataka iz matematičke statistike, N aučna knjiga, Beograd, 1988.

5. S. Vukadinović, Elementi teorije verovatnoće i matematičke statistike, P rivred11i pregled, Beograd. 1990.

6. J. H. Zar, Biostatistical Analysis, Prentice-Hall, inc., Englewood ClifFs, N J, 1974.