STATISTIKA

1.KIRJELDAV STATISTIKA

Tunnuste kirjeldamine:

missugused on tunnuste väärtusedmillised on kõige tüüpilisemad väärtusedmissuguse vahemikus väärtused muutuvadkui tugevasti väärtused erinevate objektide puhul varieeruvad

Tunnuse väärtuste jaotus: Mõõdetud tunnuse jaotuse saame anda sagedustabeli kaudu.

Sageli leitakse iga väärtuse osakaal e suhteline sagedus, selleks jagatakse väärtuse esinemissagedus vaatluste koguarvuga.

f i=nin

Sageli esitatakse suhteline sagedus protsendina

f i=nin·100

Pideva arvtunnuse sagedus- ja jaotustabel

Eelpool räägituga sarnase sagedus- ja jaotustabeli saab moodustada ka pideva arvtunnuse jaoks, kuid siin ei ole mõistlik koostada tabelit iga üksiku väärtuse jaoks.

Pideva tunnuse väärtused tuleb jagada mõislikesse vahemikesse – klassidesse, seega tuleb määrata klassipiirid.

Näiteks üliõpilaste kuukulutusi võiks vaadelda 1000 krooni kaupa klassideks jagatult.

Pideva arvtunnuse sagedus- ja jaotustabel

Sobiv on:

valida klasside pikkused võrdsetena;klassipiirideks ümmargused arvud;klasside arv suurusjärku ruutjuur valimi mahust, enamasti aga mitte rohkem kui 20.

Vajadusel võib otsmised klassid jätta lahtiseks.i-nda klassi piirid on tavaliselt [ai-1, ai), alumine otspunkt loetakse klassi, ülemine mitte.

Kulutused ühes kuus:

Pideva tunnuse jaotuse näitlikustamiseks sobib ka jaotushulknurk ehk jaotuspolügon.

Kumuleeritud sagedus- ja jaotustabel:Arvtunnuste puhul pakub mõnikord huvi leida kumuleeritud sagedus- ja/ või jaotustabelid, milles on esitatud kumuleeritud sagedused või suhtelised sagedused.Kumuleeritud suhtelised sagedused moodustavad tunnuse (empiirilise) jaotusfunktsiooni.

Näide:

Vanus <18 18-19 20-24 25-29 30-34 35-39 40+Kum.sagedus 295 1139 4783 8888 11617 12742 13000Kum.suht.sag

2.3 8.8 36.8 68.4 89.4 98.0 100

Üliõpilasi Kuni 1000 111000-2000 272000-3000 453000-4000 464000-5000 195000-6000 146000-7000 77000-8000 28000-9000 39000-10000 410000 ja enam 3

Näeme siit, et umbes kolmandik lastest sünnib alla 25-aastastele emadele. Ligi 90% 2002.aastal sünnitanutest on kuni 34 aastat vanad.

Jaotusparameetrid. MoodJaotusi iseloomustavad jaotusparameetrid.Mood on tunnuse suurima sagedusega väärtus.Moodi on võimalik leida iga tüüpi tunnuste puhul.Mood võib tunnusel ka puududa - näiteks siis, kui on tegemist ühtlase jaotusega.Moode võib olla ka mitu - siis on jaotus bimodaalne.Klassifitseeritud tunnuse puhul saab määrata moodklassi.

Moodi leidmiseks sobib kõrval paiknev radiaalgraafik, mida kutsutakse “tuulte roosiks”.

Näide: Vastsündinute isade vanusejaotuse moodklass on 25-29 aastat.

Arvtunnuse asendit (paiknemist) iseloomustavad arvkarakteristikud

Tunnuse iseloomustamisel on tarvis teada, missugused on tema väärtused.Arvtunnuse väärtusi iseloomustab nende asetus või paiknemine arvteljel. Nende paiknemist püütakse iseloomustada ühe arvuga.Üks selliseid arve on mood.Väga levinud asendikarakteristik on keskmine (ka aritmeetiline) keskmine.Keskmist saab leida arvtunnuste puhul, kuid järjestustunnuste puhul leitakse mõnikord ka koodide keskmised, mille tõlgendamisel tuleb arvestada koodide tähendusi.

Arvtunnuse keskmine

Arvtunnuse keskmise arvutusvalem, kus

x=1n∑i=1

n

x i

summeeritakse kõigi kogumi objektide tunnuse X väärtused ja jagatakse objektide arvuga n.

Näide: (Andmed näite 4 juures). Keskmiselt kulub üliõpilasel kuus 4587 krooni.

Diskreetse arvtunnuse keskmise valem

Diskreetse arvtunnuse keskmise arvutamiseks saab kasutada ka valemit

x=1n∑i=1

k

aini=∑i=1

k

ai f i

Edasi vaatame pidevat arvtunnus, mille väärtused on mõõdetud n objektil, seega on saadud n väärtust x1, x2, …, xn,mis esialgu on järjestatud mõõtmise järjekorras.VariatsioonridaMingil kogumil mõõdetud tunnuse X variatsioonrida on sellel kogumil saadud tunnuseväärtuste jada, mis on järjestatud kasvavalt (mittekahanevalt):

x1 < x2 < x3 < ... < xn.

Kui kahel (või enamal) kogumi objektil on tunnuse X väärtus sama, siis on tegemist kordustega variatsioonreaga.

Näide 4. Üliõpilaste rahakulu kuu jooksul

9000 5000 2000 1000 1600 4000 5000 6000 2000 7000

6000 10000 10000 4000 3000 2500 1800 3500 3000 8000

4000 2000 13000 1600 2000 3500 4000 3000 4000 6000

Järjestame:

1000 1600 1600 1600 1800 2000 2000 2000 2500 3000 3000 3000 3500 4000 4000 4000 4000 4000 5000 5000 6000 6000 6000 6000 7000 8000 9000 10000 10000 13000

Variatsioonrea otspunktid

Variatsioonrida määrab kogumi minimaalse ja maksimaalse elemendi, mis teatavas mõttes iseloomustavad tunnuse paiknemist ja ka hajuvust. Need on variatsioonrea otspunktid. Seega määrab variatsioonrida

kogumi maksimaalse väärtuse maxja kogumi minimaalse väärtuse min.

MediaanVariatsioonirea keskpunkti nimetatakse mediaaniks med

Kui variatsioonireas on paaritu arv liikmeid, siis on mediaaniks liige järjekorranumbriga

r=n+12

med=tunnuse see väärtus, mille järjekorranumber variatsioonireas on r ehk xr

Kui variatsioonireas on paarisarv liikmeid, siis pole keskmist liiget ja mediaan defineeritakse kui kahe keskmise liikme poolsumma, st

med=

xn2

+xn2

+1

2

Üliõpilaste kulutuste suurus:

Kõige suurem summa onmax = 13 000 krooni

Kõige väiksem summamin= 1 000 krooni

Kulutuste mediaan on 92 elementmed = 4 000 krooni

Kvartiilid

Mediaan jaotab variatsioonrea kaheks osaks: alumiseks (siia kuuluvad mediaanist väiksemad väärtused) ja ülemiseks (kuhu kuuluvad mediaanist suuremad väärtused).

Variatsioonrea alumise poole mediaani nimetatakse alumiseks ehk esimeseks kvartiiliks (qa),variatsioonrea ülemise poole mediaani – ülemiseks ehk kolmandaks kvartiiliks (qü).

Mediaan ja kvartiilid jaotavad variatsioonrea neljaks osaks, millest igasse kuulub (ligikaudu) veerand kõigist variatsioonrea liikmetest.

Kulutuste kvartiilid

Esimesse poolde (väiksemate kulude) hulka kuuluvad elemendid järjekorranumbritega 1 ... 15. Selle osa mediaan on element järjekorranumbriga 8.

Suuremasse poolde jäävad elemendid järjekorra numbritega 16 … 30, nende mediaan on element number 23.

qa = 2 000, qü = 6 000

Mediaani ja kvartiilide suuruse vahekord võimaldab hinnata variatsioonrea tihedamaid ja hõredamaid piirkondi.

Karpdiagramm - Kvartiile, mediaani, miinimumi ja maksimumi illustreeritakse sageli karpdiagrammi (karp-ja–vuntsid) abil.

Hajuvuse karakteristikudOluline ja kõige sagedamini kasutatav hajuvuse karakteristik on dispersioon.

DX=1n∑i=1

n

¿¿

Üldkogumi dispersiooni tähisena kasutatakse sümbolit σ 2

Valimi dispersiooni tähistamiseks kasutatakse sümbolit s2

Valimi põhjal leitud üldkogumi dispersiooni hinnangu saab leida seosega

s2= 1n−1∑i=1

n

¿¿

Arvutamisel võime kasutada ka valemit

s2=∑i=1

n

x2−¿¿¿¿

Hajuvuse karakteristikud

StandardhälveRuutjuurt dispersioonist nimetatakse standardhälbeks.

Üldkogumi standardhälvet tähistatakse σ.

Valimi standardhälbe tähistamiseks kasutatakse sümbolit s.

Variatsioonikoefitsent

Standardhälve on absoluutne mõõt.

Võrdlemaks hajuvusi tunnustel, mille väärtustel on erinevat mõõtühikut, kasutatakse variatsioonikoefitsenti CV.

CV= sx·100

Näide: Töötajate keskmine kuutasu on 7030 krooni ja standardhälve 590 krooni; keskmine tööstaaž on 20 aastat, standardhälve 3 aastat.

Kas kuutasu suhteline hajuvus on suurem kui staaži suhteline hajuvus?

CVtasu = 8,3% CVstaaž = 15%

Valimi põhjal leitud hinnang üldkogumi parameetrile.

Punkthinnang – valimi põhjal leitud üldkogumi parameetri hinnang. Vahemikhinnang – vahemik kuhu üldkogumi parameetri väärtus langeb.

Vahemikhinnangu konstrueerimiseks kasutatakse:

keskväärtuse punkthinnangut,teadaolevat või hinnatud standardhälvet,kasutatava valimi mahtu,valitud usaldusnivood.

Usaldusvahemik: 95% usaldusintervall in intervall, mis arvutatakse valimist saadud andmete põhjal selliselt, et garanteerida üldkogumi parameetri tegeliku väärtuse katmine 95% tõenäosusega.P (u<μ<U )≥1−α

P (μ<u )≤ α2

ja P(μ>U )≤ α2

Usalduspiiride arvutamine

1. Leiame valimi põhjal keskväärtuse ja standardhälbe hinnangu x , s2. Leiame keskväärtuse (1- α) –usalduspiirid

(x¿−ts

√n; x+t s

√n)¿

Näide: Valimi põhjal on esmakursuslaste keskmine pikkus 176,2 cm. Leiame esmakursuslaste pikkuse 95% usaldusintervalli. Keskmine 176,2 Standardhälve 1,70 n = 30 t = 1,688 Usaldusintervall: (172,8 ; 179,7) Näeme, et üldkogumi keskväärtus (177,6) jääb leitud vahemikku.

2. STATISTILISTE HÜPOTEESIDE KONTROLLIMINE

Sageli on uurija huvitatud niivõrd keskmise taseme arvulisest väärtusest, vaid tahab teada, kas üldkogumi keskväärtus rahuldab teatud tingimust.

Kas samal ametikohal töötavate meeste palk on kõrgem kui naiste palk?Kas mahlapakis on mahla nii palju kui pakendil kirjas?

Sellisel juhul saab ülesande vastus olla sõnaline - uurimistulemused kas kinnitavad oletust ja see kehtib ka üldkogumis või ei ole oletus vaatlustulemustega kooskõlas, seega ei kehti üldkogumis.

Selleks, et kasutada matemaatilise statistika metoodikat erinevatest valdkondadest pärinevate hüpoteeside kontrollimiseks, tuleb vastav hüpotees tõlkida statistika keelde ehk sõnastada vastav statistiline hüpotees.

Sisuline hüpotees, statistiline hüpotees

Väide: Naised ja mehed on tööturul ebavõrdses olukorras.Statistiline hüpotees: Naiste ja meeste keskmine palk ei ole võrdne.

Väide: Mahla pakkides ei ole nii palju mahla kui pakendil lubatud.Statistiline hüpotees: Keskmine mahla kogus pakendis erineb lubatust.

Statistiline hüpotees esitatakse alati hüpoteeside paarina.

1.keskmine mahla kogus pakis = 1liiter2.keskmine mahla kogus pakis ≠ 1 liiter

Need hüpoteesid on üksteist välistavad, üks neist peab kehtima.

Nullhüpotees väidab tavaliselt üldkogumi vastavust teatavale standardile.Nullhüpotees on väide üldkogumi parameetri kohta ja kehtib niikaua kuni seda pole ümberlükatud.

Sisukas hüpotees on väide üldkogumi parameetrikohta, mis on tõene siis, kui nullhüpotees osutub valeks.

Nullhüpotees (H0): väide, mida eeldatakse üldkogumis kehtivat..Sisukas hüpotees (H1): tõestamist vajav hüpotees.

Statistikameetodite abil ei saa väiteid tõestada absoluutselt kindlasti, alati jääb teatav eksimise võimalus.

Juhuslikkusest tulenev eksimus.Vead otsustamisel

I tüüpi viga α tekib kui kummutatakse tegelikult kehtiv nullhüpotees .

α väärtus on tõenäosus teha I tüüpi vigaα = P (H0 kummutatakse| H0 kehtib)α – olulisuse nivoo

II tüüpi viga β tekib kui null-hüpoteesi ei kummutata ja tegelikult nullhüpotees ei kehti .

β väärtus on tõenäosus teha II tüüpi vigaβ = P (H0 ei kummutata| H0 ei kehti)1-β – testi võimsus; tõenäosus mitte teha II tüüpi viga

Olgu vaja kontrollida hüpoteese:H 0 : μ=a H 1: μ≠a

Millal võime öelda, et üldkogumi keskväärtus erineb etteantud konstandist?Kuidas määrata, millal on valimi põhjal leitud keskmine etteantud konstandist piisavalt kaugel?

On mõistlik, kui otsustusreegel on ühesugune kõigi üldkogumite korral.Normeerime vahe x−a

Z= x−as

√n

Otsustusreegel:kui |Z|≤∆, siis võtame vastu H0kui |Z|>∆, siis võtame vastu H1

Δ – piir „küllaltki kaugel“;Z – teststatistik, millele toetudes otsus langetatakse.

Teststatistiku väärtuse piirkonda, milles võetakse vastu sisukas hüpotees, nimetatakse kriitiliseks piirkonnaks.Sobiv on selleks valida kahest osast koosnev piirkond (−∞,−∆) ja (∞ ,∆).

Kui valime ∆=zα /2 (normaaljaotuse täiendkvantiil – leitakse tabelis), vastab kriitiline piirkond olulisuse nivoole α.

Olulisuse nivoo - tõke I liiki tõenäosusele

Maksimaalne lubatud eksimise tõenäosus sisuka hüpoteesi tõestamisel. Tähistatakse α, valib uurija. Praktikas sagedamini kasutatavad väärtused on 0,05; 0,01 ja 0,1.

Nullhüpoteesi ei saa TÕESTADA.

Ülesandedkeskväärtuse võrdlemine konstandigakahe üldkogumi keskväärtuste võrdlemine sõltumatud valimid sõltuvad valimid

Meetodid

usalduspiiride meetodt-testi meetodolulisuse tõenäosuse meetod

Olulisuse tõenäosus – väikseim olulisuse nivoo, mille korral saame (oma valimi põhjal) vastu võtta sisuka hüpoteesi. Tähistatakse p.

Keskväärtuse võrdlemine konstandiga

Sisukas hüpotees mida soovitakse tõestada H 1: μ≠a Nullhüpotees H 0 : μ=a

Valim mahuga n Olulisuse nivoo α = 0,05

Usalduspiiride meetod

Lahendus 1. Leiame valimi põhjal keskväärtuse hinnangu x

2. Leiame keskväärtuse (1- α) –usalduspiirid (x−z α2

s

√n; x+z α

2

s

√n)

Otsustamise reegel

1. Kui konstant a sattub usalduspiirkonda

(x−z α2

s

√n≤a≤ x+ z α

2

s

√n)

siis tuleb vastu võtta nullhüpotees: μ väärtuseks võib olla konstant a ehk keskväärtus μ ei erine oluliselt konstandist a.

2. Kui konstant a ei sattu usalduspiirkonda, st kehtib üks võrratustest

(x¿−z α2

s

√n<a)¿

Või

(a< x+z α2

s

√n)

Siis on sisukas hüpotees: μ≠a tõestatud olulisuse nivool α

Näide : Eelmisel aastal oli esmakursuslaste keskmine pikkus 177,6 cm. Väide: 2007. aasta esmakursuslaste keskmine pikkus erineb eelmise aasta esmakursuslaste keskmisest pikkusest ehk nende keskmine pikkus ei ole 177,6 cm. Lahendus. Leiame 2007. aasta valimi põhjal esmakursuslaste pikkuse - 179,89 cm. Leiame 95% usaldusintervalli: (178,3 ; 181,5) OTSUS ?Otsus: 2007. aasta esmakursuslaste keskmine pikkus erineb 2006. aasta esmakursuslaste keskmisest pikkusest. Ehk: eelmise aasta ja selle aasta esmakursuslaste keskmine pikkus on erinev.

T-testi meetod

Leiame valimi põhjal keskväärtuse ja standardhälbe hinnangud x ja s ning arvutame t-statistiku väärtuse.

t=|x−a|s

√n

Võrdleme leitud t-statistiku väärtust t-jaotuse tabeliväärtustega, mis vastavad valitud olulisuse nivoole.

Otsustuse reegel

1. Kui |t|≥t (α ), siis on tõestatud sisukas hüpotees H1

2. Kui |t|<t (α ), siis tuleb vastu võtta nullhüpotees, st keskväärtus μ ei erine oluliselt konstandist a, midagi pole võimalik tõestada

Olulisuse tõenäosuse meetod

Leiame valimi põhjal keskväärtuse , standardhälbe s ja t-statistiku väärtused

t=|x−a|s

√n

Leiame t-statistiku väärtusele vastava olulisuse tõenäosus p.

Otsustuse reegel

1. Kui p < α, siis on tõestatud sisukas hüpotees H1 2. Kui p > α, siis tuleb vastu võtta nullhüpotees. Keskväärtus μ ei erine oluliselt konstandist a, midagi pole võimalik tõestada.

Ühepoolsed ja kahepoolsed hüpoteesid

Kahepoolse hüpoteesiga on tegemist siis, kui uurija ei määra, kas keskväärtus on konstandist a suurem või väiksem ning soovib lihtsalt tõestada selle erinevust nimetatud konstandist.

Kui aga teooriast on teada, missugune erinevus peaks olema, siis saab kontrollida ühepoolset hüpoteesi. H1: μ > a

Peame meeles

Kui hüpoteesi H1 ei õnnestu vastu võtta, siis öeldakse, et μ ei ole statistiliselt oluliselt suurem kui a, kuid loomulikult ei järeldu siit, et μ oleks väiksem kui a.

Keskmiste võrdlemine sõltumatute valimite korral

Olgu meil kaks üldkogumit.Kummastki üldkogumist on võetud valim vastavalt suurustega n1 ja n2 .Tähistame üldkogumite keskmised μ1 ja μ2.

Hüpoteesid:H 0 : μ1=μ2 H 1: μ1≠ μ2

Kontrollimiseks kasutatakse t-statistikut:

t=|x1−x2|s √ n1n2

n1+n2

s=√ (n1−1 ) s12+(n2−1)s2

2

n1+n2−2

Otsustamise reegel

Otsustamiseks võrreldakse arvutatud t-statistikut kriitilise väärtusega t α /2 ,dfkus df=n1+n2−2.

Kui |t|≥t α /2 ,df , siis võtame vastu H1,kui |t|<t α /2 ,df , siis võtame vastu H0.

Näide: Küsitleti bakalaureusekraadiga ülikooli lõpetanud psühholooge. Üheks tunnuseks oli küsitletava palk. Sooviti kontrollida, kas mees- ja naispsühholoogide palgad on erinevad. Uuringus osales 12 naist ja 10 meest.

Naised: 1801 1702 1496 1370 1680 1420 1700 1404 1680 1220 2300 2005

Mehed: 2035 1486 1807 2100 2050 1870 1680 1825 1200 2200

Hüpoteesid: H0: μ1= μ2 mees- ja naispsühholoogide keskmine palk on võrdne,

H1: μ1≠μ2 mees- ja naispsühholoogide keskmine palk on erinev.

Lahendus. Naispsühholoogide keskmine palk: 1648,2. Meespsühholoogide keskmine palk: 1825,3.

Standardhälbe ühishinnang: 301,5 t-statistik: 1,37 Olulisuse nivoo α = 0,05 t-jaotuse kriitiline väärtus t(0.025;20) = 2.086 OTSUS?

Vastus: Nende andmete põhjal pole võimalik tõestada mees- ja naispsühholoogide keskmise palga erinevust.

Keskmiste võrdlemine sõltuvate paaride korral

Ülesanne seondub keskmise muutuse hindamisega.Sel korral on tegemist ühe üldkogumiga, kus tunnust on mõõdetud kaks korda. Seega on mõõdetud samu objekte.

Hüpoteesid:H0: μ1 = μ2H1: μ1 ≠ μ2

Kontrollimiseks kasutatakse t-statistikut, mille arvutamisel arvestatakse üksikvaatluste vahesid. Nende põhjal leitakse keskmine vahe.

t=|d|sd

√n

Otsustamise reegel

Otsustamiseks võrreldakse arvutatud t-statistikut kriitilise väärtusega t α /2 ,dfkus df=n−1

Kui|t|≥t α /2 ,df , siis võtame vastu H1,kui |t|<t α /2 ,df , siis võtame vastu H0.

Näide: Uuriti füüsilise pingutuse mõju üliõpilase tähelepanuvõimele. Katses osales 10 juhuslikult valitud katsealust, kellele korraldati test. Pärast tunniajalist kehalist koormust tuli neil uuesti täita analoogiline test.

Testide hinded olid järgmised:

enne: 74 36 41 67 96 69 57 76 71 90pärast: 69 41 40 51 80 66 53 73 66 82

HüpoteesidH0: μ1= μ2 kehaline koormus ei põhjusta testi keskmise hinde muutust, H1: μ1≠μ2 kehaline koormus põhjustab testi keskmise hinde muutust. Lahendus: Leiame testi tulemuste vahed: 5 -5 1 16 16 3 4 3 5 8. Keskmine muutus: 5,6.Vahede standardhälve: sd = 6,43 valimi maht: n = 10 Olulisuse nivoo α = 0,1 t-jaotuse kriitiline väärtus t(0.05;9) = 1.833 OTSUS?Vastus: Kehaline koormus põhjustab tähelepanu kontrolliva testi keskmise hinde olulise muudatuse.

3. STATISTILINE SÕLTUVUS

Kahe tunnuse ühisjaotus

1. Kahe (diskreetse) tunnuse ühine sagedusjaotus2. Kahe tunnuse ühisjaotus (suhtelised sagedused)3. Ühisjaotus ja marginaaljaotused4. Tinglikud jaotused5. Tinglikud keskmised

1. Kahe (diskreetse) tunnuse ühine sagedusjaotusOlgu tunnusel X väärtused a1 , a2 ,…,akvastavalt esinemissagedustega n1∗¿ ,n2∗¿ ,… ,n

k∗¿¿¿¿

Ja olgu samal kogumil mõõdetudtunnusel Y väärtused b1 , b2 ,…,bmvastavalt esinemissagedustega n¿ 1 , n¿ 2 ,…,n¿ k

Kahe tunnuse ühine sagedusjaotus näitab, kui paljudel juhtudel oli ühekorraga X väärtus a i ja Y väärtus b j, seda näitab vastava väärtuspaari sagedus nij.Kehtivad võrdused:

∑i=1

k

ni=∑j=1

m

n j=∑i=1

k

∑j=1

m

nij

Kahe tunnuse ühisjaotuse tabel

X...Y b1 b2 ... bm Kokkua1 n11 n12 ... n1m n1.a2 n21 n22 ... n2m n2.... ... ... ... ... ...ak nk1 nk2 ... nkm nk.

Kokku n.1 n.2 ... n. m n

Näide: Tagalahe algkoolis on 56 õpilast, neist 31 poissi ja 25 tüdrukut. Lapsed jagunevad klassidesse alljärgnevalt: Klass: 1 2 3 4 Kokku Õpilasi: 10 13 15 18 56

Kuidas saada teada, mitu poissi ja mitu tüdrukut õpib igas klassis?

Selleks on vaja leida kahe tunnuse ühine sagedusjaotus.

Õpilaste jaotus soo ja klassi järgi

Klass 1. 2. 3. 4. KokkuPoisse 7 6 8 10 31Tüdrukuid 3 7 7 8 25Kokku 10 13 15 18 56

2.Kahe tunnuse ühisjaotus

Kahe tunnuse ühisjaotuse leidmiseks suhteliste sageduste kaudu arvutatakse

f ij=n ijn,

∑i=1

k

∑j=1

m

f ij=1 , ehk 100%

Kahe tunnuse ühisjaotuse tabel

X...Y b1 b2 ... bm Kokkua1 f 11 f 12 ... f 1m f 1.a2 f 21 f 22 ... f 2m f 2.... ... ... ... ... ...ak f k 1 f k 2 ... f km f k .

Kokku f .1 f .2 ... f .m 1

3.Ühisjaotus ja marginaaljaotused

Ühine sagedusjaotus on olemas nii arv- kui ka kvalitatiivsetel tunnustel, sh ka nominaaltunnustel. On ka võimalik, et üks vaadeldavatest tunnustest on üht, teine teist tüüpi.Ühise sagedusjaotuse veeru- ja reasummad moodustavad vastavalt marginaalsed sagedusjaotused. Need ühtivad üldjuhul vastavalt tunnuste Y ja X sagedus-jaotustega.

Oluline on see, et ühisjaotus määrab üheselt marginaal-jaotused, vastupidi aga mitte: samade marginaaljaotustega saab olla palju erinevaid ühisjaotusi.

Statistilise sõltuvuse määratlus

Öeldakse, et tunnused X ja Y on statistiliselt sõltumatud, kui iga x ja y puhul kehtib võrdus F(x,y) = F(x) F(y).

Siin F(x) ja F(y) on tunnuste X ja Y jaotusfunktsioonid, F(x,y) on nende kahe tunnuse ühisjaotuse funktsioon.Tunnused X ja Y on statistiliselt sõltuvad, kui võrdus ei kehti kõigi argumentide korral, st kui leidub mingi selliste väärtuste paar (x, y), mille korral võrdus ei kehti.

Kui leidub niisugune indeksite paari ija j, et tunnuste X ja Y ühisjaotuse tabelis kehtib seosnnij ≠ni .n. j

kus nij tähistab sagedust lahtris i-ndas reas ja j-ndas veerus,ni .ja n. j on vastavad marginaalsagedused ja n on valimi maht, siis ei ole tunnused X ja Y

sõltumatud.

Statistilise sõltuvuse tugevuse mõõtmine:

Kui tugev on statistiline sõltuvus?Kas statistiline sõltuvus kehtib ka üldkogumis, ehk kas see sõltuvus on statistiliselt oluline?

Viimast küsimust ei esitata kõikse statistika puhul, sest sel korral ühtib valim ja üldkogum ning iga statistiline sõltuvus on oluline.

Statistilise seose kordaja omadused

1. Statistilise seose kordaja väärtus muutub 0 ja 1 vahel.2. Kui tunnused on statistiliselt sõltumatud, siis on seosekordaja väärtus 0.3. Kui tunnuste vahel on täielik statistiline sõltuvus, siis on seosekordaja väärtus 1.4. Tugevamale seosele vastab suurem seosekordaja väärtus

Täielik vastastikune sõltuvus seisneb selles, et teades ühe tunnuse väärtust võib täpselt öelda ka teise tunnuse väärtuse ja vastupidi.Täielik vastastikune sõltuvus saab aset leida üksnes selliste tunnuste vahel, millel on võrdne arv väärtusi (väärtusklasse) ja sel juhul on jaotustabelis igas reas ja igas veerus ainult üks nullist erinev arv.Täielik ühepoolne sõltuvus seisneb selles, et teades ühe tunnuse väärtust võib täpselt öelda ka teise tunnuse väärtuse, kuid mitte vastupidi.Täieliku ühepoolse sõltuvuse korral on tunnuste väärtuste arvud erinevad, ning alati saab suurema väärtuste arvuga tunnuse väärtust teades täpselt öelda väiksema väärtuste arvuga tunnuse väärtuse, ent mitte vastupidi.

Lemmikharrastuse sõltuvus linnast

Tallinn Tartu OtepääIluuisutamine 45 0 0Ujumine 0 20 0Suusatamine 0 0 33

Nende tunnuste vahel on täielik vastastikune statistiline sõltuvus

Lemmikharrastuse sõltuvus linnast

Tallinn Tartu OtepääIluuisutamine 20 0 0Võimlemine 25 0 0Ujumine 0 15 0Korvpall 0 5 0Suusatamine 0 0 33

Nende tunnuste vahel on täielik ühepoolne sõltuvus: lemmikala järgi saab öelda linna, vastupidi üldiselt mitte.

Hii-ruut-statistik statistilise sõltuvuse hindamiseks

Statistilise sõltuvuse hindamiseks kasutatakse hii-ruut statistikut ( χ2). Hii-ruut statistik arvutatakse valemist

χ2=∑i=1

m

∑j=1

q

¿¿¿¿

Kus nij tähistab sagedust tabeli i-ndas veerus ja j-ndas reas, ni .ja n. j on vastavad marginaalsagedused ja

~n ij=ni . · n. jn

Crameri V

Statistilise sõltuvuse tugevust mõõtvate seosekordajate seas on tuntuim Crameri V, mis arvutatakse järgmiselt:

V=√ χ2

n (k−1 ),

Kus k=min (m;q), s.o tabeli ridade arvu ja veergude arvu miinimum, n on valimi maht ja hii-ruut on statistilise sõltuvuse statistik.

Hajuvusdiagramm ehk korrelatsiooniväli

Kahe tunnuse abil kirjeldatud vaatlusi saab esitada graafikul punktidena, mille koordinaatideks on vastavalt tunnuste väärtused.

Sellist graafikut nimetatakse hajuvusdiagrammiks ehk korrelatsiooniväljaks.

Sõltuvus kahe arvulise tunnuse vahel

Korrelatiivne sõltuvus

r=∑i=1

n

(x i−x¿)( y i− y )

√∑i=1

n

¿¿¿¿

¿

Lineaarse korrelatsioonikordaja omadused

Korrelatiivne sõltuvus on vastastikune ja sümmeetriline.Korrelatsioonikordaja väärtus on – 1 ja 1 vahel.Absoluutväärtuselt maksimaalse korrelatiivse sõltuvuse korral on tunnuste X ja Y vahel lineaarne funktsionaalne sõltuvus |r| =1.Kui korrelatsioonikordaja väärtus on 0, siis öeldakse, et tunnused on mittekorreleeritud. Sellest ei järeldu aga nende tunnuste statistiline sõltumatus.

Lineaarse korrelatsioonikordaja omadused

Kui tunnuste vahel on kasvav seos, on korrelatsioonikordaja positiivne r > 0.Kui tunnuste vahel on kahanev seos, on korrelatsioonikordaja negatiivne r < 0.Kahe binaarse tunnuse puhul võrdub korrelatsioonikordaja väärtus Crameri V-kordaja väärtusega.

Statistilise sõltuvuse eriliikide vahekorrad

Lineaarne mudel. Regressioonisirge

Lineaarne regressioonimudelParameetrite hindamine vähimruutude meetodilRegressioonisirge korrelatsiooniväljal

Ühe argumendiga lineaarne regressioonmudel

Põhimõtteliselt kõige lihtsam on alljärgnev lineaarne mudel:Y=a+bX+ε

See on sirge mudel, ning temaga esitatud sirget X/Y-tasandil nimetatakse regressioonisirgeks.

Mudelis sisalduvad suurused

Y mõõdetud (arvuline) funktsioontunnus;X mõõdetud (arvuline) argumenttunnus;a ja b on mudeli parameetrid, mis hinnatakse statistilise andmestiku põhjal, nimetatakse vastavalt vabaliige ja regressioonikordaja.ε on mudeli viga.

Ekstreemumülesanne

Parameetritele a ja b otsitakse niisuguseid väärtusi (hinnanguid), mille korral mudeli vea ruut oleks keskmiselt võimalikult väike.

Selleks lahendatakse ekstreemumülesanne

∑i=1

n

¿¿

parameetrite a ja b suhtes.See tähendab, et leitakse osatuletised ja lahendatakse saadud võrrandisüsteem.

Ekstreemumülesande lahendamineTuleb leida osatuletised

∂∂a

¿

∂∂b

¿

Ja need võrrutada nulliga.

Tulemusena saame normaalvõrrandite süsteemi:

a·n+b∑i=1

n

x i=∑i=1

n

y i

a∑i=1

n

x i+b∑i=1

n

x i2=∑

i=1

n

x i y i

kas tundmatuteks on a ja b

Regressioonikordaja bVõrrandisüsteemi lahendamisel saame avaldise b jaoks:

b=n∑i=1

n

xi y i−∑i=1

n

x i∑i=1

n

y i

n∑i=1

n

x i2−¿¿

Vabaliige avaldub regressioonikordaja hinnangu ja valimkeskmiste kaudu:

a= y− b x .

Lineaarse regressiooni parameetrite omadusi

Iga valimi punkti jaoks saab arvutada tema prognoosi ja prognoosiveaPrognoosi saab arvutada argumenttunnuse väärtuse x0 korral.

y i= a+b x i , εi= y i− y i

Vabaliikme avaldisest järeldub, et valimi keskmise prognoos ei sisalda prognoosiviga, seega on täpne.

Prognoosiviga avaldub kujulε i=( y i− y )−b( xi−x)

Seega on prognoosivigade keskmine üle kõigi valimi punktide võrdne nulliga

Prognoosivigade hajuvus

Prognoosivigade hajuvust iseloomustab

sε2= 1n−2∑i=1

n

¿¿

Ruutjuurt sellest avaldisest nimetatakse mudeli standardveaks.

Mudeli standardviga iseloomustab funktsioontunnuse kõrvalekallet regressioonivõrrandiga määratud väärtusest.

s=√s2

Lineaarne korrelatsioonikordaja ja lineaarse mudeli täpsus

Lineaarse mudeli täpsust iseloomustab lineaarne korrelatsioonikordaja

Korrelatsioonikordaja ruut, nn determinatsioonikordaja näitab, kui suure osa funktsioontunnuse dispersioonist kirjeldab mudel.

r2= regressiooni poolt kirjeldatud muutlikusfunktsioonitunnuse muutlikus

Näide: Tudengineiude mõõdud

Jrk nr Pikkus Kaal1 173 652 168 603 165 654 177 695 170 636 167 587 166 598 169 609 172 6410 170 66

Leiame tunnuste põhikarakteristikud:

Kasv KaalKeskmine 169,7 62,9Standardhälve 3,592 3,542Hälvete ruutude summad 116,1 112,9Korelatsioonikordaja 0,696Korelatsioonikordaja ruut 0,485Valimi maht 10

Seame enesele eesmärgiks leida kaalu lineaarne mudel sõltuvalt kasvust

Arvutame parameetrid:

b=r s ysx

a= y− b x

b=0,696 ·3,5423,592

=0,686

a=62,9−0,686 ·169,7=−53,6

Mudel on: Kaal=0,686 · kasv−53,6

Mudeli keskmine ruutviga on 112,9 ·0,515

8=7,273

Ja standardviga on sellest ruutjuur 2,70

Prognoosid ja vead.

Jrk nr Pikkus Kaal Mudelkaal Prognoosiviga1 173 65 65,165 -0,1652 168 60 61,733 -1,7333 165 65 59,674 5,3264 177 69 67,911 1,0895 170 63 63,106 -0.1066 167 58 61,047 -3,0477 166 59 60,360 -1,3608 169 60 62,419 -2,4199 172 64 64,479 -0,47910 170 66 63,106 2,894

Tunnuste valik mudelisse

Kui funktsioontunnus ei ole argumenttunnustega üldse korreleeritud, siis ei ole võimalik leida lineaarset mudelit (kuid on teatav lootus leida mittelineaarne mudel).

Argumenttunnuste valimisel tuleb eelistada neid, mis on funktsioontunnusega tugevamini korreleeritud.

Argumenttunnuste valimisel on enamasti kasulik vältida omavahel tugevasti korreleeritud tunnuste rühmi.

Kui argumenttunnuste seas on funktsioontunnusega positiivselt ja negatiivselt korreleerituid, siis on kasulikum lülitada mudelisse mõlemaid.

STATISTIKA

Documents