STATISTIKA Simona PUSTAVRH, ŠC Novo mesto 1 1. OSNOVNI POJMI Definicija 1: Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v določenem prostoru in času. Množičen pojav: ocenjevanje dijakov merjenje višin dijakov branje knjig dijakov smučanje v Sloveniji merjenje krvnega tlaka promet skozi določeno križišče mesečne plače zaposlenih serijska proizvodnja določenega izdelka 2 Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje, kodiranje in razvrščanje podatkov, urejanje in grafično prikazovanje podatkov, povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in zakonitosti populacije in napovedovanje vrednosti). 3 Definicija 2: Populacija je množica, ki jo želimo statistično proučiti. Statistična enota je en element populacije. Populacijo lahko sestavljajo živa bitja, predmeti, dogodki. Opredelitev populacije: stvarno (kdo ali kaj spada v populacijo in kdo ne) geografsko (kje je populacija opazovana) časovno (kdaj je zajeta) 4
21
Embed
1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
STATISTIKA
Simona PUSTAVRH,ŠC Novo mesto
1
1. OSNOVNI POJMI
Definicija 1:Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov vdoločenem prostoru in času.
Množičen pojav:ocenjevanje dijakovmerjenje višin dijakovbranje knjig dijakovsmučanje v Slovenijimerjenje krvnega tlakapromet skozi določeno križiščemesečne plače zaposlenihserijska proizvodnja določenega izdelka
2
Osnovne naloge statistike:zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje)čiščenje, kodiranje in razvrščanje podatkov,urejanje in grafično prikazovanje podatkov,povzemanje in sprejemanje zaključkev (odkrivanje lastnosti inzakonitosti populacije in napovedovanje vrednosti).
3
Definicija 2:Populacija je množica, ki jo želimo statistično proučiti. Statističnaenota je en element populacije.
Populacijo lahko sestavljajo živa bitja, predmeti, dogodki.
Opredelitev populacije:stvarno (kdo ali kaj spada v populacijo in kdo ne)geografsko (kje je populacija opazovana)časovno (kdaj je zajeta)
4
Definicija 3:Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vseenote populacije enako možnost (enako verjetnost) biti izbrane v vzorec.
Slučajni vzorec predstavlja (reprezentira) celotno populacijo.
Enostavno slučajno vzorčenje: žrebanje (loterijski način)vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, jeponovno izbrana),vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne morebiti ponovno izbrana).
5
Definicija 4:Preučevano lastnost (značilnost) enote imenujemo statističnaspremenljivka. Vrednost statistične spremenljivke je lastnost eneopazovane enote in jo imenujemo podatek.
PRIMER 1Statistične spremenljivke: višina dijaka, ocena dijaka.
Definicija 5:Parameter je statistična karakteristika populacije.
PRIMER 2Parametri: povprečna višina dijakov, povprečna ocena dijakov.
Število enot populacije označimo z N.
6
Glede na način izražanja podatke ločimo na:opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih nemoremo ovrednotiti numerično (npr. spol, kraj bivanja, barvaavtomobila),vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti,njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženomesto na tekmi, zadovoljstvo z malico),številske (ali kvantitativne): vrednosti izrazimo numerično oz.številsko. Ločimo diskretne in zvezne številske podatke.
Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončnamnožica realnih števil (npr. število prometnih nesreč, št. prebranihknjig, št. dijakov v razredu).Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr.višina ali teža dijaka, višina žepnine, cena knjig).
7
PRIMER 3V tabeli so zbrani nekateri podatki slučajnega vzorca dijakov Šolskegacentra Novo mesto v šolskem letu 2009/2010:
Zap.št. Spol Letnik Št. bratov/sester Višina (cm)1. moški 1 1 174,32. ženski 3 2 169,73. ženski 1 0 164,24. moški 2 2 182,95. moški 3 3 186,26. moški 4 1 180,17. ženski 4 0 172,88. moški 2 1 177,7
8
Odgovorite na naslednja vprašanja:1 Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena
(stvarno, časovno, krajevno)?2 Kaj je statistična enota? Kako velik je vzorec?3 Katere statistične spremenljivke so predstavljene v tabeli?4 Kakšna je posamezna spremenljivka glede na način izražanja?5 Katere parametre populacije bi lahko določili?
9
PRIMER 4Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici všol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašativsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov,ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezenvzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo?
Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki.Uporabljamo jo za urejanje majhnega števila številskih podatkov.
Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki gaimenujemo rang.
Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang.Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bilirazlični med seboj.
13
PRIMER 5Pot do šole. 12 dijakov smo vprašali, koliko časa porabijo za pot do šole.Rezultati v minutah so
20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35.
Zapiši podatke v ranžirno vrsto in jim določi rang.
Rešitev:
Čas (min) 20 22 28 30 32 32 35 35 35 38 40 45Rang
14
GRUPIRANJE PODATKOV
PRIMER 6Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mlekaso porabili v prejšnjem tednu. Zbrani podatki v litrih so:
Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka?
15
Grupiranje: združevanje podatkov v skupine (razrede):najprej določimo skupne lastnosti enot v posameznih razredih (od 5do 20 razredov),vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, dabi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšnoenoto ne bi obstajal razred, v katerega bi jo uvrstili),enote porazdelimo po razredih.
16
I. Grupiranje številskih spremenljivk v r razredov:
Najmanjša vrednost, ki še sodi v i-ti razred: xi ,minNajvečja vrednost, ki še sodi v i-ti razred: xi ,max
(Absolutna) frekvenca razreda fi : število enot v i-tem razredu
Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov inpripadajočih frekvenc:
Razred Vrednost spr. fi1. x1,min − x1,max f12. x2,min − x2,max f2...
...r. xr ,min − xr ,max fr
Skupaj / N
Frekvenčna porazdelitev številske spremenljivke
17
PRIMER 7Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mlekaso porabili v prejšnjem tednu. Zbrani podatki v litrih so:
Širina razreda di : razlika med zgornjo in spodnjo mejo razreda
di = xi ,z − xi ,s
Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda:
xi =xi ,s + xi ,z
2
Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-temrazredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavipodatkov.
23
PRIMER 8Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabimleka izračunaj f ◦i , fi%, Fi , F ◦i , xi ,s , xi ,z , di , xi .
Rešitev:
Raz. Poraba mleka (l) fi f ◦i fi% Fi F ◦i xi,s xi,z di xi1. 0−pod 2 52. 2−pod 4 133. 4−pod 6 164. 6−pod 8 95. 8−pod 10 7
Skupaj / 50
Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER
24
PRIMER 9Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb.Njihove starosti v letih so:
Podatke grupiraj v razrede, kot so oblikovani v tabeli, nato pa za vsakrazred izračunaj f ◦i , fi%, Fi , F ◦i , xi ,s , xi ,z , di , xi .
25
Rešitev:
Raz. Starost fi f ◦i fi% Fi F ◦i xi,s xi,z di xi1. 1−102. 11−203. 21−304. 31−405. 41−50
Skupaj /
26
II. Grupiranje opisnih podatkov
Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotekvsakega razreda.
Razred Lastnost spr. fi f ◦i fi %1. lastnost 1 f1 f ◦1 f1 %2. lastnost 2 f2 f ◦2 f2 %...
......
...r. lastnost r fr f ◦r fr %
Skupaj / N 1 100
Frekvenčna porazdelitev opisne spremenljivke
27
PRIMER 10Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov.Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence.Zbrani podatki so:
3. GRAFIČNO PRIKAZOVANJE PODATKOVHistogram je prikaz grupiranih številskih podatkov v pravokotnemkoordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu.Če so razredi enako široki, so višine stolpcev premosorazmerne sfrekvencami razredov, sicer so s frekvencami premosorazmerne ploščinepravokotnikov.
Frekvenčni poligon je linijski poligon v pravokotnem koordinatnemsistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnihrazredov, ordinate pa frekvencam: (xi , fi). Da grafikon povežemo zabscisno osjo, dodamo še točki (x0, 0) in (xr+1, 0).
5
7
9
13
0 0
16
0
2
4
6
8
10
12
14
16
18
-1 1 3 5 7 9 11
Poraba mleka v l
Št.
dru
žin
Excel: Črtni diagram (primeren za prikaz vrstnih in številskih podatkov)
31
Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov.Narišemo stolpec poljubne širine in poljubne višine. Višino stolpcaproglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnihodstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo zrazličnimi barvami, zato za pojasnitev dodamo legendo.
0%
20%
40%
60%
80%
100%
Od
sto
tek
upokojenci
brezposelni
delavci
študenti
dijaki
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
32
Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Deleženot v posameznem razredu je prikazan s krožnim izsekom. Velikostsrediščnega kota za vsak razred izračunamo kot odstotek polnega kota:fi % · 360◦. Tudi strukturni krog opremimo z legendo.
33,3%
25,6%
18,9%
8,9%
13,3%
dijaki
študenti
delavci
brezposelni
upokojenci
Excel: Tortni diagram (primeren za prikaz vrstnih in opisnih podatkov)
33
Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko zaprikaz grupiranih opisnih ali številskih podatkov. Širina stolpca jepoljubna, višina stolpca pa je premosorazmerna s frekvenco razreda.
0
5
10
15
20
25
30
35
dijaki študenti delavci brezposelni upokojenci
Šte
vilo
ose
b
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
34
PRIMER 11Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa venem letu. Primerjaj zaslužke dijaka po mesecih.
35
PRIMER 12Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa venem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemoo višinah zaslužkov dijaka po mesecih?
36
4. SREDNJE VREDNOSTI
Srednja vrednost je mera za osredinjenost podatkov. Pove, kje senahajajo podatki. Obravanali bomo tri srednje vrednosti:
medianamodusaritmetična sredina (povprečje)
37
MEDIANA
Definicija 6:Mediana (ali središčnica) je srednja vrednost, od katere ima polovicaenot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jobomo z Me.
Mediano za majhno število podatkov najhitreje določimo tako, da podatkenajprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, nakaterem se nahaja mediana: N+1
2 . Če ta vrednost ni celo število, jemediana povprečje sosednjih dveh vrednosti.
38
PRIMER 13Določi mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultatkomentiraj.
PRIMER 14Določi mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min.Rezultat komentiraj.
Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (alimajhni) podatki ne vplivajo na njeno vrednost.
Excel: MEDIAN
39
MODUS
Definicija 7:Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednostispremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo.
PRIMER 15Določi modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultatkomentiraj.
Med podatki je lahko tudi več modusov (tiste vrednosti, ki seenakomnogokrat pojavljajo največkrat).
Excel: MODE
40
ARITMETIČNA SREDINA
Definicija 8:Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako,da vsoto vseh vrednosti spremenljivke delimo s številom enot v populacijiN. Označili jo bomo z µ ali x :
µ =x1 + x2 + · · ·+ xN
N ali µ =ΣN
i=1xiN
Excel: AVERAGE
41
PRIMER 16Izračunaj aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min.
1 Rezultat komentiraj.2 Kako bi se spremenila aritmetična sredina, če bi vsakemu podatku
prišteli 5 min?3 Kako bi se spremenila aritmetična sredina, če bi podatek pomnožili s
5?4 Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z
aritmetično sredino?5 Od vsakega podatka odštej aritmetično sredino. Kolikšna je vsota teh
vrednosti?
42
Lastnosti aritmetične sredine:Če vsakemu podatku prištejemo isto vrednost a, a > 0, se tudiaritmetična sredina poveča za a. Če vsakemu podatku odštejemo a,se aritmetična sredina zmanjša za a.Če vsak podatek pomnožimo z a, se tudi aritmetična sredina pomnožiz a.Če vsak podatek nadmestimo z aritmetično sredino, ostane vsotapodatkov nespremenjena.Če od vsakega podatka odštejemo aritmetično sredino (izračunamoodklon od aritmetične sredine), je vsota vseh odklonov enaka 0.
PRIMER 17Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali paspremenljivke kraj bivanja? Odgovor obrazloži.
43
PRIMER 18V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahkosklepamo?
1 Da je največ dijakov starih 15 let.2 Da so vsi dijaki stari približno 15 let.3 Da so vsi dijaki stari 15 let.4 Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15
let.5 Da je vsota starosti vseh otrok v skupini 75 let.
PRIMER 19Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kajlahko poveš o ocenah pisne naloge posameznih dijakov?
44
5. RAZPRŠENOST PODATKOV
Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejorazlične vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti nasliki:
Obravnavali bomo naslednje mere za razpršenost:variacijski razmikstandardni odklon (standardna deviacija)medčetrtinski razmik
45
VARIACIJSKI RAZMIK
Definicija 9:Variacijski razmik je razlika med največjo in najmanjšo vrednostjo vpopulaciji. Označimo ga z VR.
VR = xmax − xmin
PRIMER 20Izračunaj variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min. Rezultat komentiraj.
Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza)
46
STANDARDNI ODKLON
Definicija 10:Standardni odklon (ali standardna deviacija) je enaka korenu povprečjakvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ:
σ =
√ΣN
i=1(xi − µ)2
NZa uporabo je bolj preprosta formula:
σ =
√ΣN
i=1x2i
N − µ2
Dokaz.
47
PRIMER 21Izračunaj standardni odklon zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min.
1 Rezultat komentiraj.2 Kaj bi se zgodilo s standardnim odklonom, če bi vsem vrednostim
prišteli 5 min?3 Kako bi se spremenil standardni odklon, če bi vsak podatek pomnožili
s 5?
Če vsakemu podatku prištejemo a, se standardni odklon ne spremeni.Če vsak podatek pomnožimo z a, a > 0, se tudi standardni odlklonpomnoži z a.
Excel:standardni odklon: STDEVP
48
Uporaba žepnega računala
Vnos podatkov:vključimo statistiko (na ekranu se izpiše STAT ali S ali SD)vsak podatek posebej vnesemo tako, da ga vtipkamo, nato papritisnemo tipko DATA (ali D ali x)
PRIMER 22S pomočjo žepnega računala izračunaj aritmetično sredino in standardniodklon zamud avtobusa v petih vožnjah: 2,2,6,7,10 min. Rezultataprimerjaj s prejšnjima rezultatoma.
49
Kaj pove standardni odklon?Spoznajmo najprej normalno porazdelitev podatkov:
50
Primeri normalno porazdeljenih podatkov:IQ ljuditeža odraslih ljudičas, ki ga potrebuje avtobus od Novega mesta do Ljubljanedolžina žebljev pri serijski proizvodnji
Splošno:Če je porazdelitev podatkov približno normalna (simetričen histogram), sepribližno 2
3 podatkov nahaja na intervalu [µ− σ, µ+ σ].
51
ARITMETIČNA SREDINA IN STANDARDNI ODKLONGRUPIRANIH PODATKOV
PRIMER 23Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike.Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, vT1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov?
PRIMER 25Starost oseb - nadaljevanje primera Izračunaj aritmetično sredino instandardni odklon starosti oseb, ki so bile včeraj pregledane v okulističniambulanti. Rezultat obrazloži.
Definicija 11:Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine:
prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših(ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se naN+1
4 -tem mestudrugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših(ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) -nahaja se na 2(N+1)
4 -tem mestutretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših(ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na3(N+1)
4 - tem mestu
Če vrednosti N+14 , 2(N+1)
4 in 3(N+1)4 niso celoštevilske, vzamemo za kvartil
povprečje sosednjih vrednosti.
59
S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako,da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov šenajmanjšo in največjo vrednost med podatki.
Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang.box-and-whiskers plot ali box-plot).
Definicija 12:Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (MedQ1 in Q3 se nahaja 50 % podatkov.)
60
PRIMER 26V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeliza računalnikom. Zbrani podatki so:
Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico? Ali semnenja razlikujejo po letnikih?
67
Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsakletnik:
1. l. % 2. l. % 3. l. % 4. l. % Sk. %Zadov. 35 45 35 20 135Nezadov. 15 15 10 50 90Skupaj 50 60 45 70 225
68
Grafični prikaz strukture
69
8. POVEZANOST ŠTEVILSKIH SPREMENLJIVK
PRIMER 31Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, inporabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba gorivapovezana s številom prevoženih kilometrov.
Kateri statistični spremenljivki nastopata v primeru?Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov,vedno porabil enako količino goriva?Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, vprimerjavi z vožnjami, pri katerih bo prevozil več km?Razmisli, kaj vpliva na porabo goriva.
70
Spremenljivka X : število prevoženih kilometrovSpremenljivka Y : količina porabljenega goriva
Povezanost med številskima spremenljivkama X in Y imenujemokorelacija.
Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnemsistemu, če eno od spremenljivk proglasimo za neodvisno in drugo zaodvisno. Tako dobljeni diagram imenujemo razsevni diagram.
71
Razsevni diagram:
Razsevni diagram
Excel: Raztreseni (XY)
72
Linearna povezanost
Spremenljivki X in Y sta povezani linearno, če točke v razsevnemdiagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo(ovalna oblika množice točk v razsevnem diagramu).
Premico, ki se najbolj prilega točkam, imenujemo regresijska premica.
Ločimo pozitivno in negativno linearno povezanost.
73
Pozitivna linearna povezanost: večje vrednosti spremenljivke X sopovezane z v povprečju večjimi vrednostmi spremenljivke Y . (regresijskapremica je naraščajoča)
74
Negativna linearna povezanost: večje vrednosti spremenljivke X sopovezane z v povprečju manjšimi vrednostmi spremenljivke Y . (regresijskapremica je padajoča)
75
Ni povezanosti
76
PRIMER 32Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabogoriva v litrih. Rezultati so prikazani v tabeli: