1.KIRJELDAV STATISTIKA Tunnuste kirjeldamine: missugused on tunnuste väärtused millised on kõige tüüpilisemad väärtused missuguse vahemikus väärtused muutuvad kui tugevasti väärtused erinevate objektide puhul varieeruvad Tunnuse väärtuste jaotus: Mõõdetud tunnuse jaotuse saame anda sagedustabeli kaudu. Sageli leitakse iga väärtuse osakaal e suhteline sagedus, selleks jagatakse väärtuse esinemissagedus vaatluste koguarvuga. f i = n i n Sageli esitatakse suhteline sagedus protsendina f i = n i n · 100 Pideva arvtunnuse sagedus- ja jaotustabel Eelpool räägituga sarnase sagedus- ja jaotustabeli saab moodustada ka pideva arvtunnuse jaoks, kuid siin ei ole mõistlik koostada tabelit iga üksiku väärtuse jaoks. Pideva tunnuse väärtused tuleb jagada mõislikesse vahemikesse – klassidesse, seega tuleb määrata klassipiirid.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1.KIRJELDAV STATISTIKA
Tunnuste kirjeldamine:
missugused on tunnuste väärtusedmillised on kõige tüüpilisemad väärtusedmissuguse vahemikus väärtused muutuvadkui tugevasti väärtused erinevate objektide puhul varieeruvad
Tunnuse väärtuste jaotus: Mõõdetud tunnuse jaotuse saame anda sagedustabeli kaudu.
Sageli leitakse iga väärtuse osakaal e suhteline sagedus, selleks jagatakse väärtuse esinemissagedus vaatluste koguarvuga.
f i=nin
Sageli esitatakse suhteline sagedus protsendina
f i=nin·100
Pideva arvtunnuse sagedus- ja jaotustabel
Eelpool räägituga sarnase sagedus- ja jaotustabeli saab moodustada ka pideva arvtunnuse jaoks, kuid siin ei ole mõistlik koostada tabelit iga üksiku väärtuse jaoks.
Pideva tunnuse väärtused tuleb jagada mõislikesse vahemikesse – klassidesse, seega tuleb määrata klassipiirid.
Näiteks üliõpilaste kuukulutusi võiks vaadelda 1000 krooni kaupa klassideks jagatult.
Pideva arvtunnuse sagedus- ja jaotustabel
Sobiv on:
valida klasside pikkused võrdsetena;klassipiirideks ümmargused arvud;klasside arv suurusjärku ruutjuur valimi mahust, enamasti aga mitte rohkem kui 20.
Vajadusel võib otsmised klassid jätta lahtiseks.i-nda klassi piirid on tavaliselt [ai-1, ai), alumine otspunkt loetakse klassi, ülemine mitte.
Kulutused ühes kuus:
Pideva tunnuse jaotuse näitlikustamiseks sobib ka jaotushulknurk ehk jaotuspolügon.
Kumuleeritud sagedus- ja jaotustabel:Arvtunnuste puhul pakub mõnikord huvi leida kumuleeritud sagedus- ja/ või jaotustabelid, milles on esitatud kumuleeritud sagedused või suhtelised sagedused.Kumuleeritud suhtelised sagedused moodustavad tunnuse (empiirilise) jaotusfunktsiooni.
Üliõpilasi Kuni 1000 111000-2000 272000-3000 453000-4000 464000-5000 195000-6000 146000-7000 77000-8000 28000-9000 39000-10000 410000 ja enam 3
Näeme siit, et umbes kolmandik lastest sünnib alla 25-aastastele emadele. Ligi 90% 2002.aastal sünnitanutest on kuni 34 aastat vanad.
Jaotusparameetrid. MoodJaotusi iseloomustavad jaotusparameetrid.Mood on tunnuse suurima sagedusega väärtus.Moodi on võimalik leida iga tüüpi tunnuste puhul.Mood võib tunnusel ka puududa - näiteks siis, kui on tegemist ühtlase jaotusega.Moode võib olla ka mitu - siis on jaotus bimodaalne.Klassifitseeritud tunnuse puhul saab määrata moodklassi.
Moodi leidmiseks sobib kõrval paiknev radiaalgraafik, mida kutsutakse “tuulte roosiks”.
Näide: Vastsündinute isade vanusejaotuse moodklass on 25-29 aastat.
Arvtunnuse asendit (paiknemist) iseloomustavad arvkarakteristikud
Tunnuse iseloomustamisel on tarvis teada, missugused on tema väärtused.Arvtunnuse väärtusi iseloomustab nende asetus või paiknemine arvteljel. Nende paiknemist püütakse iseloomustada ühe arvuga.Üks selliseid arve on mood.Väga levinud asendikarakteristik on keskmine (ka aritmeetiline) keskmine.Keskmist saab leida arvtunnuste puhul, kuid järjestustunnuste puhul leitakse mõnikord ka koodide keskmised, mille tõlgendamisel tuleb arvestada koodide tähendusi.
Arvtunnuse keskmine
Arvtunnuse keskmise arvutusvalem, kus
x=1n∑i=1
n
x i
summeeritakse kõigi kogumi objektide tunnuse X väärtused ja jagatakse objektide arvuga n.
Näide: (Andmed näite 4 juures). Keskmiselt kulub üliõpilasel kuus 4587 krooni.
Diskreetse arvtunnuse keskmise valem
Diskreetse arvtunnuse keskmise arvutamiseks saab kasutada ka valemit
x=1n∑i=1
k
aini=∑i=1
k
ai f i
Edasi vaatame pidevat arvtunnus, mille väärtused on mõõdetud n objektil, seega on saadud n väärtust x1, x2, …, xn,mis esialgu on järjestatud mõõtmise järjekorras.VariatsioonridaMingil kogumil mõõdetud tunnuse X variatsioonrida on sellel kogumil saadud tunnuseväärtuste jada, mis on järjestatud kasvavalt (mittekahanevalt):
x1 < x2 < x3 < ... < xn.
Kui kahel (või enamal) kogumi objektil on tunnuse X väärtus sama, siis on tegemist kordustega variatsioonreaga.
Variatsioonrida määrab kogumi minimaalse ja maksimaalse elemendi, mis teatavas mõttes iseloomustavad tunnuse paiknemist ja ka hajuvust. Need on variatsioonrea otspunktid. Seega määrab variatsioonrida
kogumi maksimaalse väärtuse maxja kogumi minimaalse väärtuse min.
MediaanVariatsioonirea keskpunkti nimetatakse mediaaniks med
Kui variatsioonireas on paaritu arv liikmeid, siis on mediaaniks liige järjekorranumbriga
r=n+12
med=tunnuse see väärtus, mille järjekorranumber variatsioonireas on r ehk xr
Kui variatsioonireas on paarisarv liikmeid, siis pole keskmist liiget ja mediaan defineeritakse kui kahe keskmise liikme poolsumma, st
med=
xn2
+xn2
+1
2
Üliõpilaste kulutuste suurus:
Kõige suurem summa onmax = 13 000 krooni
Kõige väiksem summamin= 1 000 krooni
Kulutuste mediaan on 92 elementmed = 4 000 krooni
Kvartiilid
Mediaan jaotab variatsioonrea kaheks osaks: alumiseks (siia kuuluvad mediaanist väiksemad väärtused) ja ülemiseks (kuhu kuuluvad mediaanist suuremad väärtused).
Variatsioonrea alumise poole mediaani nimetatakse alumiseks ehk esimeseks kvartiiliks (qa),variatsioonrea ülemise poole mediaani – ülemiseks ehk kolmandaks kvartiiliks (qü).
Mediaan ja kvartiilid jaotavad variatsioonrea neljaks osaks, millest igasse kuulub (ligikaudu) veerand kõigist variatsioonrea liikmetest.
Kulutuste kvartiilid
Esimesse poolde (väiksemate kulude) hulka kuuluvad elemendid järjekorranumbritega 1 ... 15. Selle osa mediaan on element järjekorranumbriga 8.
Suuremasse poolde jäävad elemendid järjekorra numbritega 16 … 30, nende mediaan on element number 23.
qa = 2 000, qü = 6 000
Mediaani ja kvartiilide suuruse vahekord võimaldab hinnata variatsioonrea tihedamaid ja hõredamaid piirkondi.
Karpdiagramm - Kvartiile, mediaani, miinimumi ja maksimumi illustreeritakse sageli karpdiagrammi (karp-ja–vuntsid) abil.
Hajuvuse karakteristikudOluline ja kõige sagedamini kasutatav hajuvuse karakteristik on dispersioon.
DX=1n∑i=1
n
¿¿
Üldkogumi dispersiooni tähisena kasutatakse sümbolit σ 2
Valimi dispersiooni tähistamiseks kasutatakse sümbolit s2
Valimi põhjal leitud üldkogumi dispersiooni hinnangu saab leida seosega
s2= 1n−1∑i=1
n
¿¿
Arvutamisel võime kasutada ka valemit
s2=∑i=1
n
x2−¿¿¿¿
Hajuvuse karakteristikud
StandardhälveRuutjuurt dispersioonist nimetatakse standardhälbeks.
Üldkogumi standardhälvet tähistatakse σ.
Valimi standardhälbe tähistamiseks kasutatakse sümbolit s.
Variatsioonikoefitsent
Standardhälve on absoluutne mõõt.
Võrdlemaks hajuvusi tunnustel, mille väärtustel on erinevat mõõtühikut, kasutatakse variatsioonikoefitsenti CV.
CV= sx·100
Näide: Töötajate keskmine kuutasu on 7030 krooni ja standardhälve 590 krooni; keskmine tööstaaž on 20 aastat, standardhälve 3 aastat.
Kas kuutasu suhteline hajuvus on suurem kui staaži suhteline hajuvus?
CVtasu = 8,3% CVstaaž = 15%
Valimi põhjal leitud hinnang üldkogumi parameetrile.
Punkthinnang – valimi põhjal leitud üldkogumi parameetri hinnang. Vahemikhinnang – vahemik kuhu üldkogumi parameetri väärtus langeb.
Vahemikhinnangu konstrueerimiseks kasutatakse:
keskväärtuse punkthinnangut,teadaolevat või hinnatud standardhälvet,kasutatava valimi mahtu,valitud usaldusnivood.
Usaldusvahemik: 95% usaldusintervall in intervall, mis arvutatakse valimist saadud andmete põhjal selliselt, et garanteerida üldkogumi parameetri tegeliku väärtuse katmine 95% tõenäosusega.P (u<μ<U )≥1−α
P (μ<u )≤ α2
ja P(μ>U )≤ α2
Usalduspiiride arvutamine
1. Leiame valimi põhjal keskväärtuse ja standardhälbe hinnangu x , s2. Leiame keskväärtuse (1- α) –usalduspiirid
(x¿−ts
√n; x+t s
√n)¿
Näide: Valimi põhjal on esmakursuslaste keskmine pikkus 176,2 cm. Leiame esmakursuslaste pikkuse 95% usaldusintervalli. Keskmine 176,2 Standardhälve 1,70 n = 30 t = 1,688 Usaldusintervall: (172,8 ; 179,7) Näeme, et üldkogumi keskväärtus (177,6) jääb leitud vahemikku.
2. STATISTILISTE HÜPOTEESIDE KONTROLLIMINE
Sageli on uurija huvitatud niivõrd keskmise taseme arvulisest väärtusest, vaid tahab teada, kas üldkogumi keskväärtus rahuldab teatud tingimust.
Kas samal ametikohal töötavate meeste palk on kõrgem kui naiste palk?Kas mahlapakis on mahla nii palju kui pakendil kirjas?
Sellisel juhul saab ülesande vastus olla sõnaline - uurimistulemused kas kinnitavad oletust ja see kehtib ka üldkogumis või ei ole oletus vaatlustulemustega kooskõlas, seega ei kehti üldkogumis.
Selleks, et kasutada matemaatilise statistika metoodikat erinevatest valdkondadest pärinevate hüpoteeside kontrollimiseks, tuleb vastav hüpotees tõlkida statistika keelde ehk sõnastada vastav statistiline hüpotees.
Sisuline hüpotees, statistiline hüpotees
Väide: Naised ja mehed on tööturul ebavõrdses olukorras.Statistiline hüpotees: Naiste ja meeste keskmine palk ei ole võrdne.
Väide: Mahla pakkides ei ole nii palju mahla kui pakendil lubatud.Statistiline hüpotees: Keskmine mahla kogus pakendis erineb lubatust.
Statistiline hüpotees esitatakse alati hüpoteeside paarina.
1.keskmine mahla kogus pakis = 1liiter2.keskmine mahla kogus pakis ≠ 1 liiter
Need hüpoteesid on üksteist välistavad, üks neist peab kehtima.
Nullhüpotees väidab tavaliselt üldkogumi vastavust teatavale standardile.Nullhüpotees on väide üldkogumi parameetri kohta ja kehtib niikaua kuni seda pole ümberlükatud.
Sisukas hüpotees on väide üldkogumi parameetrikohta, mis on tõene siis, kui nullhüpotees osutub valeks.
Statistikameetodite abil ei saa väiteid tõestada absoluutselt kindlasti, alati jääb teatav eksimise võimalus.
Juhuslikkusest tulenev eksimus.Vead otsustamisel
I tüüpi viga α tekib kui kummutatakse tegelikult kehtiv nullhüpotees .
α väärtus on tõenäosus teha I tüüpi vigaα = P (H0 kummutatakse| H0 kehtib)α – olulisuse nivoo
II tüüpi viga β tekib kui null-hüpoteesi ei kummutata ja tegelikult nullhüpotees ei kehti .
β väärtus on tõenäosus teha II tüüpi vigaβ = P (H0 ei kummutata| H0 ei kehti)1-β – testi võimsus; tõenäosus mitte teha II tüüpi viga
Olgu vaja kontrollida hüpoteese:H 0 : μ=a H 1: μ≠a
Millal võime öelda, et üldkogumi keskväärtus erineb etteantud konstandist?Kuidas määrata, millal on valimi põhjal leitud keskmine etteantud konstandist piisavalt kaugel?
On mõistlik, kui otsustusreegel on ühesugune kõigi üldkogumite korral.Normeerime vahe x−a
Z= x−as
√n
Otsustusreegel:kui |Z|≤∆, siis võtame vastu H0kui |Z|>∆, siis võtame vastu H1
Δ – piir „küllaltki kaugel“;Z – teststatistik, millele toetudes otsus langetatakse.
Teststatistiku väärtuse piirkonda, milles võetakse vastu sisukas hüpotees, nimetatakse kriitiliseks piirkonnaks.Sobiv on selleks valida kahest osast koosnev piirkond (−∞,−∆) ja (∞ ,∆).
Kui valime ∆=zα /2 (normaaljaotuse täiendkvantiil – leitakse tabelis), vastab kriitiline piirkond olulisuse nivoole α.
Olulisuse nivoo - tõke I liiki tõenäosusele
Maksimaalne lubatud eksimise tõenäosus sisuka hüpoteesi tõestamisel. Tähistatakse α, valib uurija. Praktikas sagedamini kasutatavad väärtused on 0,05; 0,01 ja 0,1.
siis tuleb vastu võtta nullhüpotees: μ väärtuseks võib olla konstant a ehk keskväärtus μ ei erine oluliselt konstandist a.
2. Kui konstant a ei sattu usalduspiirkonda, st kehtib üks võrratustest
(x¿−z α2
s
√n<a)¿
Või
(a< x+z α2
s
√n)
Siis on sisukas hüpotees: μ≠a tõestatud olulisuse nivool α
Näide : Eelmisel aastal oli esmakursuslaste keskmine pikkus 177,6 cm. Väide: 2007. aasta esmakursuslaste keskmine pikkus erineb eelmise aasta esmakursuslaste keskmisest pikkusest ehk nende keskmine pikkus ei ole 177,6 cm. Lahendus. Leiame 2007. aasta valimi põhjal esmakursuslaste pikkuse - 179,89 cm. Leiame 95% usaldusintervalli: (178,3 ; 181,5) OTSUS ?Otsus: 2007. aasta esmakursuslaste keskmine pikkus erineb 2006. aasta esmakursuslaste keskmisest pikkusest. Ehk: eelmise aasta ja selle aasta esmakursuslaste keskmine pikkus on erinev.
T-testi meetod
Leiame valimi põhjal keskväärtuse ja standardhälbe hinnangud x ja s ning arvutame t-statistiku väärtuse.
t=|x−a|s
√n
Võrdleme leitud t-statistiku väärtust t-jaotuse tabeliväärtustega, mis vastavad valitud olulisuse nivoole.
Otsustuse reegel
1. Kui |t|≥t (α ), siis on tõestatud sisukas hüpotees H1
2. Kui |t|<t (α ), siis tuleb vastu võtta nullhüpotees, st keskväärtus μ ei erine oluliselt konstandist a, midagi pole võimalik tõestada
Olulisuse tõenäosuse meetod
Leiame valimi põhjal keskväärtuse , standardhälbe s ja t-statistiku väärtused
t=|x−a|s
√n
Leiame t-statistiku väärtusele vastava olulisuse tõenäosus p.
Otsustuse reegel
1. Kui p < α, siis on tõestatud sisukas hüpotees H1 2. Kui p > α, siis tuleb vastu võtta nullhüpotees. Keskväärtus μ ei erine oluliselt konstandist a, midagi pole võimalik tõestada.
Ühepoolsed ja kahepoolsed hüpoteesid
Kahepoolse hüpoteesiga on tegemist siis, kui uurija ei määra, kas keskväärtus on konstandist a suurem või väiksem ning soovib lihtsalt tõestada selle erinevust nimetatud konstandist.
Kui aga teooriast on teada, missugune erinevus peaks olema, siis saab kontrollida ühepoolset hüpoteesi. H1: μ > a
Peame meeles
Kui hüpoteesi H1 ei õnnestu vastu võtta, siis öeldakse, et μ ei ole statistiliselt oluliselt suurem kui a, kuid loomulikult ei järeldu siit, et μ oleks väiksem kui a.
Keskmiste võrdlemine sõltumatute valimite korral
Olgu meil kaks üldkogumit.Kummastki üldkogumist on võetud valim vastavalt suurustega n1 ja n2 .Tähistame üldkogumite keskmised μ1 ja μ2.
Kui |t|≥t α /2 ,df , siis võtame vastu H1,kui |t|<t α /2 ,df , siis võtame vastu H0.
Näide: Küsitleti bakalaureusekraadiga ülikooli lõpetanud psühholooge. Üheks tunnuseks oli küsitletava palk. Sooviti kontrollida, kas mees- ja naispsühholoogide palgad on erinevad. Uuringus osales 12 naist ja 10 meest.
Vastus: Nende andmete põhjal pole võimalik tõestada mees- ja naispsühholoogide keskmise palga erinevust.
Keskmiste võrdlemine sõltuvate paaride korral
Ülesanne seondub keskmise muutuse hindamisega.Sel korral on tegemist ühe üldkogumiga, kus tunnust on mõõdetud kaks korda. Seega on mõõdetud samu objekte.
Hüpoteesid:H0: μ1 = μ2H1: μ1 ≠ μ2
Kontrollimiseks kasutatakse t-statistikut, mille arvutamisel arvestatakse üksikvaatluste vahesid. Nende põhjal leitakse keskmine vahe.
Kui|t|≥t α /2 ,df , siis võtame vastu H1,kui |t|<t α /2 ,df , siis võtame vastu H0.
Näide: Uuriti füüsilise pingutuse mõju üliõpilase tähelepanuvõimele. Katses osales 10 juhuslikult valitud katsealust, kellele korraldati test. Pärast tunniajalist kehalist koormust tuli neil uuesti täita analoogiline test.
HüpoteesidH0: μ1= μ2 kehaline koormus ei põhjusta testi keskmise hinde muutust, H1: μ1≠μ2 kehaline koormus põhjustab testi keskmise hinde muutust. Lahendus: Leiame testi tulemuste vahed: 5 -5 1 16 16 3 4 3 5 8. Keskmine muutus: 5,6.Vahede standardhälve: sd = 6,43 valimi maht: n = 10 Olulisuse nivoo α = 0,1 t-jaotuse kriitiline väärtus t(0.05;9) = 1.833 OTSUS?Vastus: Kehaline koormus põhjustab tähelepanu kontrolliva testi keskmise hinde olulise muudatuse.
3. STATISTILINE SÕLTUVUS
Kahe tunnuse ühisjaotus
1. Kahe (diskreetse) tunnuse ühine sagedusjaotus2. Kahe tunnuse ühisjaotus (suhtelised sagedused)3. Ühisjaotus ja marginaaljaotused4. Tinglikud jaotused5. Tinglikud keskmised
1. Kahe (diskreetse) tunnuse ühine sagedusjaotusOlgu tunnusel X väärtused a1 , a2 ,…,akvastavalt esinemissagedustega n1∗¿ ,n2∗¿ ,… ,n
k∗¿¿¿¿
Ja olgu samal kogumil mõõdetudtunnusel Y väärtused b1 , b2 ,…,bmvastavalt esinemissagedustega n¿ 1 , n¿ 2 ,…,n¿ k
Kahe tunnuse ühine sagedusjaotus näitab, kui paljudel juhtudel oli ühekorraga X väärtus a i ja Y väärtus b j, seda näitab vastava väärtuspaari sagedus nij.Kehtivad võrdused:
Näide: Tagalahe algkoolis on 56 õpilast, neist 31 poissi ja 25 tüdrukut. Lapsed jagunevad klassidesse alljärgnevalt: Klass: 1 2 3 4 Kokku Õpilasi: 10 13 15 18 56
Kuidas saada teada, mitu poissi ja mitu tüdrukut õpib igas klassis?
Selleks on vaja leida kahe tunnuse ühine sagedusjaotus.
Kahe tunnuse ühisjaotuse leidmiseks suhteliste sageduste kaudu arvutatakse
f ij=n ijn,
∑i=1
k
∑j=1
m
f ij=1 , ehk 100%
Kahe tunnuse ühisjaotuse tabel
X...Y b1 b2 ... bm Kokkua1 f 11 f 12 ... f 1m f 1.a2 f 21 f 22 ... f 2m f 2.... ... ... ... ... ...ak f k 1 f k 2 ... f km f k .
Kokku f .1 f .2 ... f .m 1
3.Ühisjaotus ja marginaaljaotused
Ühine sagedusjaotus on olemas nii arv- kui ka kvalitatiivsetel tunnustel, sh ka nominaaltunnustel. On ka võimalik, et üks vaadeldavatest tunnustest on üht, teine teist tüüpi.Ühise sagedusjaotuse veeru- ja reasummad moodustavad vastavalt marginaalsed sagedusjaotused. Need ühtivad üldjuhul vastavalt tunnuste Y ja X sagedus-jaotustega.
Oluline on see, et ühisjaotus määrab üheselt marginaal-jaotused, vastupidi aga mitte: samade marginaaljaotustega saab olla palju erinevaid ühisjaotusi.
Statistilise sõltuvuse määratlus
Öeldakse, et tunnused X ja Y on statistiliselt sõltumatud, kui iga x ja y puhul kehtib võrdus F(x,y) = F(x) F(y).
Siin F(x) ja F(y) on tunnuste X ja Y jaotusfunktsioonid, F(x,y) on nende kahe tunnuse ühisjaotuse funktsioon.Tunnused X ja Y on statistiliselt sõltuvad, kui võrdus ei kehti kõigi argumentide korral, st kui leidub mingi selliste väärtuste paar (x, y), mille korral võrdus ei kehti.
Kui leidub niisugune indeksite paari ija j, et tunnuste X ja Y ühisjaotuse tabelis kehtib seosnnij ≠ni .n. j
kus nij tähistab sagedust lahtris i-ndas reas ja j-ndas veerus,ni .ja n. j on vastavad marginaalsagedused ja n on valimi maht, siis ei ole tunnused X ja Y
sõltumatud.
Statistilise sõltuvuse tugevuse mõõtmine:
Kui tugev on statistiline sõltuvus?Kas statistiline sõltuvus kehtib ka üldkogumis, ehk kas see sõltuvus on statistiliselt oluline?
Viimast küsimust ei esitata kõikse statistika puhul, sest sel korral ühtib valim ja üldkogum ning iga statistiline sõltuvus on oluline.
Statistilise seose kordaja omadused
1. Statistilise seose kordaja väärtus muutub 0 ja 1 vahel.2. Kui tunnused on statistiliselt sõltumatud, siis on seosekordaja väärtus 0.3. Kui tunnuste vahel on täielik statistiline sõltuvus, siis on seosekordaja väärtus 1.4. Tugevamale seosele vastab suurem seosekordaja väärtus
Täielik vastastikune sõltuvus seisneb selles, et teades ühe tunnuse väärtust võib täpselt öelda ka teise tunnuse väärtuse ja vastupidi.Täielik vastastikune sõltuvus saab aset leida üksnes selliste tunnuste vahel, millel on võrdne arv väärtusi (väärtusklasse) ja sel juhul on jaotustabelis igas reas ja igas veerus ainult üks nullist erinev arv.Täielik ühepoolne sõltuvus seisneb selles, et teades ühe tunnuse väärtust võib täpselt öelda ka teise tunnuse väärtuse, kuid mitte vastupidi.Täieliku ühepoolse sõltuvuse korral on tunnuste väärtuste arvud erinevad, ning alati saab suurema väärtuste arvuga tunnuse väärtust teades täpselt öelda väiksema väärtuste arvuga tunnuse väärtuse, ent mitte vastupidi.
Lemmikharrastuse sõltuvus linnast
Tallinn Tartu OtepääIluuisutamine 45 0 0Ujumine 0 20 0Suusatamine 0 0 33
Nende tunnuste vahel on täielik vastastikune statistiline sõltuvus
Lemmikharrastuse sõltuvus linnast
Tallinn Tartu OtepääIluuisutamine 20 0 0Võimlemine 25 0 0Ujumine 0 15 0Korvpall 0 5 0Suusatamine 0 0 33
Nende tunnuste vahel on täielik ühepoolne sõltuvus: lemmikala järgi saab öelda linna, vastupidi üldiselt mitte.
Statistilise sõltuvuse hindamiseks kasutatakse hii-ruut statistikut ( χ2). Hii-ruut statistik arvutatakse valemist
χ2=∑i=1
m
∑j=1
q
¿¿¿¿
Kus nij tähistab sagedust tabeli i-ndas veerus ja j-ndas reas, ni .ja n. j on vastavad marginaal- sagedused ja
~n ij=ni . · n. jn
Crameri V
Statistilise sõltuvuse tugevust mõõtvate seosekordajate seas on tuntuim Crameri V, mis arvutatakse järgmiselt:
V=√ χ2
n (k−1 ),
Kus k=min (m;q), s.o tabeli ridade arvu ja veergude arvu miinimum, n on valimi maht ja hii-ruut on statistilise sõltuvuse statistik.
Hajuvusdiagramm ehk korrelatsiooniväli
Kahe tunnuse abil kirjeldatud vaatlusi saab esitada graafikul punktidena, mille koordinaatideks on vastavalt tunnuste väärtused.
Sellist graafikut nimetatakse hajuvusdiagrammiks ehk korrelatsiooniväljaks.
Sõltuvus kahe arvulise tunnuse vahel
Korrelatiivne sõltuvus
r=∑i=1
n
(x i−x¿)( y i− y )
√∑i=1
n
¿¿¿¿
¿
Lineaarse korrelatsioonikordaja omadused
Korrelatiivne sõltuvus on vastastikune ja sümmeetriline.Korrelatsioonikordaja väärtus on – 1 ja 1 vahel.Absoluutväärtuselt maksimaalse korrelatiivse sõltuvuse korral on tunnuste X ja Y vahel lineaarne funktsionaalne sõltuvus |r| =1.Kui korrelatsioonikordaja väärtus on 0, siis öeldakse, et tunnused on mittekorreleeritud. Sellest ei järeldu aga nende tunnuste statistiline sõltumatus.
Lineaarse korrelatsioonikordaja omadused
Kui tunnuste vahel on kasvav seos, on korrelatsioonikordaja positiivne r > 0.Kui tunnuste vahel on kahanev seos, on korrelatsioonikordaja negatiivne r < 0.Kahe binaarse tunnuse puhul võrdub korrelatsioonikordaja väärtus Crameri V-kordaja väärtusega.
Põhimõtteliselt kõige lihtsam on alljärgnev lineaarne mudel:Y=a+bX+ε
See on sirge mudel, ning temaga esitatud sirget X/Y-tasandil nimetatakse regressioonisirgeks.
Mudelis sisalduvad suurused
Y mõõdetud (arvuline) funktsioontunnus;X mõõdetud (arvuline) argumenttunnus;a ja b on mudeli parameetrid, mis hinnatakse statistilise andmestiku põhjal, nimetatakse vastavalt vabaliige ja regressioonikordaja.ε on mudeli viga.
Ekstreemumülesanne
Parameetritele a ja b otsitakse niisuguseid väärtusi (hinnanguid), mille korral mudeli vea ruut oleks keskmiselt võimalikult väike.
Selleks lahendatakse ekstreemumülesanne
∑i=1
n
¿¿
parameetrite a ja b suhtes.See tähendab, et leitakse osatuletised ja lahendatakse saadud võrrandisüsteem.
Ekstreemumülesande lahendamineTuleb leida osatuletised
∂∂a
¿
∂∂b
¿
Ja need võrrutada nulliga.
Tulemusena saame normaalvõrrandite süsteemi:
a·n+b∑i=1
n
x i=∑i=1
n
y i
a∑i=1
n
x i+b∑i=1
n
x i2=∑
i=1
n
x i y i
kas tundmatuteks on a ja b
Regressioonikordaja bVõrrandisüsteemi lahendamisel saame avaldise b jaoks:
b=n∑i=1
n
xi y i−∑i=1
n
x i∑i=1
n
y i
n∑i=1
n
x i2−¿¿
Vabaliige avaldub regressioonikordaja hinnangu ja valimkeskmiste kaudu:
a= y− b x .
Lineaarse regressiooni parameetrite omadusi
Iga valimi punkti jaoks saab arvutada tema prognoosi ja prognoosiveaPrognoosi saab arvutada argumenttunnuse väärtuse x0 korral.
y i= a+b x i , εi= y i− y i
Vabaliikme avaldisest järeldub, et valimi keskmise prognoos ei sisalda prognoosiviga, seega on täpne.
Prognoosiviga avaldub kujulε i=( y i− y )−b( xi−x)
Seega on prognoosivigade keskmine üle kõigi valimi punktide võrdne nulliga
Prognoosivigade hajuvus
Prognoosivigade hajuvust iseloomustab
sε2= 1n−2∑i=1
n
¿¿
Ruutjuurt sellest avaldisest nimetatakse mudeli standardveaks.
Mudeli standardviga iseloomustab funktsioontunnuse kõrvalekallet regressioonivõrrandiga määratud väärtusest.
s=√s2
Lineaarne korrelatsioonikordaja ja lineaarse mudeli täpsus
Lineaarse mudeli täpsust iseloomustab lineaarne korrelatsioonikordaja
Korrelatsioonikordaja ruut, nn determinatsioonikordaja näitab, kui suure osa funktsioontunnuse dispersioonist kirjeldab mudel.
r2= regressiooni poolt kirjeldatud muutlikusfunktsioonitunnuse muutlikus
Kui funktsioontunnus ei ole argumenttunnustega üldse korreleeritud, siis ei ole võimalik leida lineaarset mudelit (kuid on teatav lootus leida mittelineaarne mudel).
Argumenttunnuste valimisel tuleb eelistada neid, mis on funktsioontunnusega tugevamini korreleeritud.
Argumenttunnuste valimisel on enamasti kasulik vältida omavahel tugevasti korreleeritud tunnuste rühmi.
Kui argumenttunnuste seas on funktsioontunnusega positiivselt ja negatiivselt korreleerituid, siis on kasulikum lülitada mudelisse mõlemaid.