8/15/2019 Skripta Uporabne statistike http://slidepdf.com/reader/full/skripta-uporabne-statistike 1/188 U N I V E R Z A N A P R I M O R S K E M Fakulteta za matematiko, naravoslovje in informacijske tehnologije Janez Žibert skripta za predmet VERJETNOST IN STATISTIKA V TEHNIKI IN NARAVOSLOVJU na študijskem programu Računalništva in informatike na 2. stopnji UP FAMNIT prva izdaja Koper, 2012
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Ta skripta so nastala iz prosojnic, ki sem jih uporabljal na predavanjih pri predmetuVerjetnost in statistika v tehniki in naravoslovju na 2. stopnji študijske smeri Ra-čunalništva in informatike na Fakulteti za matematiko, naravoslovje in informacijsketehnologije na Univerzi na Primorskem v letih od 2009 do 2012.
Skripta predstavljajo uvod v statistiko, ki naj bi jo poznali vsi, ki se ukvarjajo z obde-
lavo in analizo podatkov v naravoslovju in tehniki. Statistične metode so predstavljenev knjigi predvsem z vidika uporabe na konkretnih primerih, ne ukvarjamo pa se sstrogim matematičnim izpeljevanjem in dokazovanjem posameznih statistični metodin njihovih lastnosti. V skriptih so predstavljena osnovna orodja in metode za stati-stično obdelavo podatkov, kjer se seznanimo z različnimi testi za preverjanje hipotez,regresijsko analizo in analizo variance.
Skripta so nastala s pomočjo naslednje literature:
• Douglas C. Montgomery, George C. Runger: Applied Statistics and Probability for Engineers, 4th ed. ,
• Michael J. Crawley: Statistics: An Introduction using R ,• dokumentacija programskega paketa Statistics Toolbox T M programa MATLAB,
The MathWorks, Inc.
Podatki, ki jih uporabljamo za primere statistične analize, so v glavnem povzeti iz:
• podatkovnih zbirk programskega paketa Statistics Toolbox T M
programa MATLAB, The MathWorks, Inc.,• knjige: Michael J. Crawley: Statistics: An Introduction using R , ki jih lahko
najdemo na spletni strani:http://www3.imperial.ac.uk/naturalsciences/research/statisticsusingr
V tem poglavju podamo nekaj osnovnih motivacij za uporabo statistične analize napodatkih. Seznanimo se s splošnimi pojmi statistične analize, kot so variabilnost, sta-tistična značilnost in testiranje domnev, statistično modeliranje, pridobivanje podatkovin interpretacija rezultatov, načrtovanje in analiza eksperimentov ter ugotavljanje od-visnosti ali neodvisnosti med podatki.
Primer namesto uvoda! Merimo vi ! ino 10-letnih deklic in de " kov. Imamo 15 de " kov in 15 deklic.
! Kaj merimo?! Vi"ino. To je koli #ina, ki se spreminja = spremenljivka Y .
! Rezultati meritev?! Izmerjene vi "ine otrok = vrednosti spremenljivke Y.
! Kak "en tip izmerjenih vrednosti?! Realne vrednosti – Y zavzame realne vrednosti = zvezna spremenljivka.
! Katere kategorije obravnavamo?! De #ke in deklice – kategorija = spremenljivka X diskretna ( "tevne vrednosti)! Lahko tudi: vsak otrok je kategorija zase:
spr. X zavzame vrednosti od 1 do 30, "e vedno diskretna spr.
Primer namesto uvoda! Merimo vi ! ino 10-letnih deklic in de " kov. Imamo 15 de " kov in 15 deklic.
! Kaj nas zanima?! Y v odvisnosti od X. Y je odzivna spremenljivka (ang. response variable )
! Ali, kako se vrednosti Y spreminjajo glede na vrednosti X.X je pojasnjevalna spremenljivka (ang. explanatory variable )
! Denimo, da ugotovimo, da so de ! ki v povpre ! ju vi " ji od deklic v tej skupini.Vpra " anja:! Ali gre na "i ugotovitvi verjeti ?
! Ali lahko sklepamo, da je tako pri vsej populaciji 10-letnikov?
! Torej: imamo vzorec 30 primerkov in bi radi na podlagi teh meritev sklepali nacelotno populacijo . Ali je vzorec dovolj velik, reprezentativen?
! Ali lahko razvrstimo de #ke in deklice na podlagi njihove vi "ine v dva razreda?
Variabilnost! Statistika se ukvarja z variabilnostjo!
! $e merimo iste koli #ine dvakrat zapored, bomo dobili razli #nerezultate. % " asovna razli " nost
! $e merimo iste koli #ine na razli #nih mestih, bomo dobili razli #nerezultate. % prostorska razli " nost
! Potrebujemo znanje (orodja) za preu ! evanje variabilnosti:! da ugotavljamo, kaj vpliva na rezultate,! da ugotavljamo, kako nastajajo rezultati,! da ugotavljamo, kako so rezultati medsebojno odvisni.
Statisti ! na zna ! ilnost ugotovitev/rezultatov! Kaj pomeni, ko re ! emo, ta rezultat je signifikanten?
! Slovar tujk: pomemben, zna #ilen.! V statistiki: rezultat se zelo verjetno ni zgodil po naklju # ju.
! Pojmi:! 'se zelo verjetno ni zgodil' - kaj to pomeni?
Npr., da se dogodek zgodi v manj kot 5% primerov. Verjetnost .
! 'po naklju # ju' – torej ni v povezavi s tistim, kar smo predvidevali?Predpostavljamo neko odvisnost na "ih meritev od nekih pojavov,lastnosti in preverjamo ali ta odvisnost obstaja. Imamo neko hipotezo ,ki je preverjamo ali dr &i ali ne.
! razli#ni vzorci – ponovljivost eksperimenta,! izbira primerkov za vzorce – naklju #nost! koliko primerkov za zanesljive ocene – mo # vzorca! relacije med primerki v vzorcu – odvisnost, neodvisnost med razli #nimi meritvami
primerek
vzorec 1
vzorec 2
Ponovitve eksperimentov – razli ! nost vzorcev! Razli ! ni vzorci lahko ‘povejo’ razli ! ne stvari o populaciji.
! Potrebno je pazljivo izbirati primerke iz populacije, da dobimo dejanskeugotovitve o populaciji.
! Ena mo $ nost pove ! anja zanesljivosti ugotovitev je ponovljivost poskusov, kjerv vsakem poskusu pridobimo svoj vzorec. Na ta na ! in lahko ovrednotimo
variabilnost rezultatov med vzorci in s tem sklepamo na zanesljivost na " ihugotovitev.
! Kaj " tejemo za razli ! ne vzorce – ‘prave’ ponovitve?! vzorci morajo biti pridobljeni iz poskusov, ki so med seboj neodvisni;! razli #ni vzorci ne smejo biti sestavljeni iz podatkov, ki so pridobljeni iz meritev na istih
primerkih, vendar v drugem #asu (primer: signali);! razli #ni vzorci ne smejo biti sestavljeni iz podatkov, ki so pridobljeni iz meritev na
primerkih, ki so prostorsko blizu skupaj (primer: populacija gozd, vzorci: drevesa obpotoku);
! podatki razli #nih vzorcev morajo biti med seboj primerljivi (enake koli #ine, enake skalemeritev).
Koliko podatkov v vzorcu?! Koliko podatkov (primerkov) naj vsebuje vzorec za zanesljive ocene
parametrov?! $ im ve #.
! Kaj pa je spodnja meja "tevila podatkov za ‘ "e’ dovolj dobre zanesljiveocene?! Razli #ni testi za mo # vzorca za statisti #no signifikantnost ocene.
! Mo&ne ovire pri pridobivanju podatkov (vzorcev):! kak "ne eksperimente je zelo te &ko ponavljati,! nekje lahko dobimo razli #ne vzorce, drugje pa ne,! mogo #e imamo nadzor nad eksperimentom, se pravi, da ga opazujemo in
ustrezno popravljamo razmere v eksperimentu, drugje pa imamo podatke, ki sobili &e pridobljeni in eksperimenta ne moremo ponoviti – torej imamo podatketak "ne kot so.
! )
Naklju ! nost izbire! Kako izbiramo primerke iz populacije, da tvorimo vzorec?! Vsak primerek mora biti enako verjetno izbran iz populacije –
naklju " nost izbire. Sicer je izbira pristranska.
! Primer: ! izbiramo drevo v gozdu, da bi merili u ! inke fotosinteze,!
Kako izbirati drevesa, da bomo zagotovili naklju!
nost izbire in bomo takoocenjevali u ! inke fotosinteze ! im manj pristransko?! izbiramo drevesa, ki so najbli & je na "emu laboratoriju,! izbiramo drevesa, ki imajo veje #im ni & je, da bomo lahko dosegle liste, kjer bomo
postavili merilne senzorje,! izbiramo drevesa, ki izgledajo na prvi pogled zdrava,
! Izberemo drevo na naslednji na ! in:! naklju #no izberemo par zemljepisnih koordinat,! gremo do teh koordinat v gozdu in! izberemo drevo, ki je najbli & je tem koordinatam.
Psevdo ponovitve – psevdo razli ! nost vzorcev! Dva tipa psevdo ponovitev:
! ! asovne psevdo ponovitve:! vklju#ujejo ponovitve meritev istega primerka ob razli #nih #asih
! krajevne psevdo ponovitve! vklju#ujejo ponovitve meritev v bli &nji okolici istega primerka
! Zakaj je to problem?! osnovna predpostavka ve ! ine statisti ! nih analiz je neodvisnost napak
posameznih meritev.! Pri ! asovnih ponovitvah ne moremo zagotoviti neodvisnosti posameznih
meritev, saj merimo isti primerek ob razli!
nih!
asih in zato meritve vsebujejoposebnosti tega primerka (so ! asovno korelirane).! Pri krajevnih ponovitvah ne moremo zagotoviti neodvisnosti posameznih
meritev, saj merimo (razli ! ne) primerke v isti okolici in zato meritvevsebujejo posebnosti tiste okolice (so krajevno korelirane).
Psevdo ponovitve: primer! Primer:
! Preu ! ujemo vpliv delovanja insekticida na rast rastlin.! Imamo 20 gredic, v vsaki gredici 50 rastlin (iste sorte).! 10 gredic po " kropimo z insekticidom, 10 pa ne.! Meritve opravimo 5-krat v obdobju rasti rastlin.
! Koliko imamo meritev?! 20 x 50 x 5 = 5000
! A so to med seboj neodvisne meritve?! Torej imamo 5000 razli ! nih primerkov. NE.
! Meritve istega primerka ob razli #nih #asih niso novi primerki.! Meritve razli #nih primerkov znotraj ene gredice imajo podobne pogoje rasti, torej imajo
skupne lastnosti zaradi skupne lege. Niso neodvisni primerki.! Neodvisne meriteve (primerki) so: 10 po "kropljenih gredic in 10 nepo "kropljenih.
Kako se posku " amo znebiti psevdo ponovitvam?! Prej "nji primer:
! ! e bi imeli 5000 podatkov in bi merili u ! inkovitost " kropljenja z insekticidom,imamo 1 prostostno stopnjo za " kropljenje in 4999 za napake.
! ! e pa gledamo samo gredice:! imamo 10 "kropljenih in 10 ne "kropljenih,! iz vsake gredice dobimo samo eno meritev (npr. odstotek pojedenih listov) za vsako
obdobje meritev, torej imamo 20 meritev za vsako obdobje.! Opravimo analizo za vsako obdobje.
! Kako se posku "amo znebiti psevdo ponovitvam?! povpre ! imo meritve na psevdo primerkih in izvajamo stat. analizo samo na
teh povpre ! enih vrednostih,! izvajamo stat. analizo na primerkih, ki smo jih izmerili v istem ! asovnem
obdobju (znotraj enega ! asovnega obdobja)! uporabimo metode primerne za obdelavo ! asovno pogojenih meritev
(obdelava signalov, DNA, ipd.)
Na ! rtovanje poskusov za sprejemanje ugotovitev! Sprejemanje ugotovitev o nekem pojavu/sistemu/procesu lahko
dose &emo s pravilnim na #rtovanjem poskusov:! pripraviti je potrebno kontrolirano okolje za izvajanje poskusa,! identificirati je potrebno dejavnike vpliva,! potrebno je upo "tevati in kontrolirati za #etne pogoje poskusa,! potrebno je upo "tevati zveze/relacije med razli #nimi meritvami,! izvajati je potrebno dolo #eno "tevilo meritev, da lahko dovolj zanesljivo
sklepamo o neki predpostavki/hipotezi,! postavit je potrebno jasno hipotezo, ki jo s poskusom preverjamo.
V tem poglavju obravnavamo osnovne statistične lastnosti podatkov, ki jih običajnopodajamo pri osnovni statistični analizi podatkov. Obravnavamo jih tudi pod pojmomopisna statistika.
Poglavje obravnava:
• osnovne mere centralne tendence,• osnovne mere razpršitve vrednosti ter• nekaj osnovnih grafov, ki jih v statistiki uporabljamo za prikazovanje podatkov.
! # tejemo insekte na rastlinah v 5-ih gredicah.! V prvi smo pre " teli 10, v drugi 1, v tretji 1000, v ! etrti 1 in v peti 10
insektov.! Izra ! unajmo povpre ! je: (10+1+1000+1+10)/5 = 204.4! A je to zadovoljiva ocena ‘povpre ! nega’ dogajanja v gredicah?
Te $ava je 1000 (insekti se razmno $ujejo zelo hitro, mogo ! e jih je bilov! eraj samo 10, danes jih je pa $e 1000. Proces se spreminjamultiplikativno.)
! Imamo dva procesa. Oba alternirajo ! e spreminjata vrednosti.! Katera bolj varira? A gre za enak proces?
Harmoni ! na sredina! Primer:
! Slon se giblje v obmo ! ju, ki je v obliki kvadrata s stranico 2km.! Vsak dan slon enkrat obhodi svoje obmo ! je:
! Zjutraj, da se pretegne, gre po eni stranici s hitrostjo 1 km/h.! Potem nadaljuje po drugi stranici s hitrostjo 2 km/h (je $e malce zbujen).! Na kar pove ! a hitrost na 4 km/h (je $e ogret) na tretji stranici.! Potem pa je $e utrujen in njegova hitrost pade na 1 km/h na zadnji stranici.
! Kak " na je njegova povpre ! na hitrost?! (1+2+4+1)/4 = 8/4 = 2 km/h. NAPAKA.
! Hitrost se izra ! una kot pot/ ! as.! Pot: 4x2 km = 8 km.! %as:
! prva stranica 2km in hitrost 1km/h, torej 2h! druga stranica 2km in hitrost 2km/h, torej 1h! tretja stranica 2km in hitrost 4km/h, torej 0.5h! ! etrta stranica 2km in hitrost 1km/h, torej 2h! SKUPAJ: 5.5 h
! Povpre ! na hitrost je torej: 8km / 5.5h = 1.4545 km/h .
Harmoni ! na sredina! Tak primer re " imo z izra ! unom harmoni ! ne sredine.! Harmoni " na sredina je recipro " na vrednost od
povpre " ja recipro " nih vrednosti:
>> v = [1,2,4,1];>> length(v)/sum(1./v)ans =
1.4545
>> 1/mean(1./v)ans = 1.4545
>> harmmean(v)ans = 1.4545
Variabilnost v podatkih! Koli! ina za merjenje variabilnosti ali razpr " enosti v
podatkih je varianca .
! Ve ! ja kot je variabilnost v podatkih:! ve ! ja bo negotovost v ocenjene statisti ! ne parametre,! manj " a bo zanesljivost potrjevanja (zavrnitve) hipoteze.
Primer! Kaj lahko re ! emo na podlagi teh rezultatov?
! Varianci vrta A in B sta enaki.Povpre ! ja razli ! na.
Ali sta vzorca enaka?! Studentov t-test: dva vzorca.! ANOVA: tri ali ve ! vzorcev.
! Povpre ! ja vrta B in C sta enaka.Variance razli ! ne.
A lahko re " emo, da so vzorci z enakimi povpre " ji enaki? NE!! Denimo, da je prag za po ! kodovanje rastlin zaradi ozona 8 pphm.! Ker so izmerjene vrednosti v obeh vrtovih B in C v povpre " ju pod pragom, je vse v redu.
PA NI.! Poglejmo vrt C:
! V 30% meritev so rastline podvr # ene vi ! jim koncentracijam ozona od mejnih.
Momenti vi " jega reda! Povpre ! je (moment prvega reda)
! Varianca (moment drugega reda)
! Momenti vi " jega reda vklju ! ujejo razlike vi " jih potenc (>2)
Koeficient asimetri ! nosti (skewness)! Tretji moment:
! Koeficient asimetri ! nosti:
! Mera asimetri ! nosti porazdelitve: ali ima porazdelitev dalj " i rep na levi(koeficient je negativen, negativna asimetrija) ali na desni (koeficient
je pozitiven, pozitivna asimetrija).! Normalna porazdelitev je simetri ! na zato je koeficient = 0.
! kvantil za 0 & p & 1 je vrednost v podatkih, pri katerih je p-ti dele $ razvr "! enih vrednosti na levi strani in (1-p)-ti dele $ razvr "! enihvrednosti na desni strani.
! Percentili! percentil je kvantil, kjer so vrednosti p zapisane v odstotkih,
torej 0 & p & 100.
>> data = importdata('datasets/das.txt');>> data = data.data;
Zareza je namenjena primerjanjuocen median med dvema
vzorcema.# irina zareze je izra ! unana tako, dav primeru, ko se zarezi neprekrivata, pomeni, da se medianirazlikujeta s 5% statisti ! nozna ! ilnostjo (ob predpostavkinormalne porazdelitve).
V tem poglavju pregledamo nekaj osnovnih pojmov verjetnostnega računa, deniramonaključne spremenljivke in porazdelitve naključnih spremenljivk. Tu se ne poglabljamov detaljne izpeljave in dokazovanje posameznih lastnosti naključnih spremenljivk, am-pak podajamo le najnujnejše, osnovne, lastnosti, ki jih potrebujemo pri statističnianalizi.
Poglavje obravnava:
• denicija naključne spremenljivke in porazdelitve naključnih spremenljivk•
različne porazdelitve naključnih spremenljivk,• primeri porazdelitev in njihovo uporabo,• iskanje ujemanja porazdelitev podatkov z znanimi porazdelitvami,• ocenjevanje parametrov porazdelitev po metodi maksimalnega verjetja in• neparametrične porazdelitve.
Delo s porazdelitvami: grafi ujemanja podatkov s porazdelitvami! Preverimo ali so vzorci porazdeljeni po normalni porazdelitvi.
>> x = exprnd(10,100,1);>> normplot(x)
! $ e je vzorec normalnoporazdeljen, se bo ujemals premico, sicer imamo odstopanja v oblik ! rke S ali banane .
Delo s porazdelitvami: grafi ujemanja podatkov s porazdelitvami! Graf kvantil-kvantil :
! Z grafom kvantil-kvantil preverimo ujemanje dveh vzorcev, ali izhajajo iz enake porazdelitve.! Povezana rde #a #rta povezuje to #ki prvega in tretjega kvartila ocenjeni iz obeh vzorcev
(koordinate x iz prvega vzorca, koordinati y pa iz drugega).! $ e se podatki porazdeljujejo okoli premice, potem prihajajo iz enake dru %ine porazdelitev (tudi #e
imajo razli #ne parametre), #e pa ne, pa niso iz enake dru %ine porazdelitev.
>> x = poissrnd(10,75,1);>> y = poissrnd(5,100,1);>> qqplot(x,y);
>> x = normrnd(5,1,100,1);>> y = wblrnd(2,0.5,100,1);>> qqplot(x,y);
Pri histogramu dolo #imo " tevilo podintervalov, ki so enako veliki, in " tejemo, kolikoprimerkov je v danem podintervalu. To izri " emo v obliki stolpcev.
bin=10 bin=20 bin=30
Neparametri ! ne porazdelitve! Ocenjevanje porazdelitev z jedri
– t-test2: primerjava povprečij dveh vzorcev z normalno porazdeljeno popu-lacijo,
– F-test: primerjava varianc dveh vzorcev z normalno porazdeljeno populacijo,– kontingenčne tabele: test enakosti porazdelitev,– Wilcoxonov test: primerjava povprečij dveh vzorcev z ne-normalno poraz-
deljenimi napakami,– test Kolmogorova in Smirnova: porazdelitev dveh naključnih spremenljivk.
Primer! Primer, da ugotavljamo povpre ! no ceno 1kg belega kruha v Sloveniji.
! Denimo, da je nekdo ugotovil, da je povpre ! na cena enaka 1.15 EUR.
! Kako lahko ugotovimo, ali je ta ocena pravilna?! Lahko gremo po vseh trgovinah in ugotavljamo ceno kruha.
! To je najbolj "a varianta. Vendar je ! asovno neizvedljiva.
! La# ja varianta: Naklju ! no izberemo nekaj trgovin in na podlagi njihovih cen kruhaizra ! unamo povpre ! no vrednost.!
Ocenjena vrednost iz na"
ega vzorca zna"
a 1.18 EUR.! Ali je razlika 0.03 EUR posledica na "e izbire vzorca?! Ali je razlika tak " na, da lahko trdimo, da je povpre ! na ocena kruha vi " ja od ocenjene povpre ! ne vrednosti 1.15
EUR?
! Pri testiranju hipotez se ukvarjamo s tak " nimi vpra " anji.
Terminologija pri testiranju hipotez! Hipoteza:
! Hipoteza je lastnost neke populacije, ki jo #elimo testirati.
! Ni! ta hipoteza:! Populacija ne izpolnjuje lastnosti.! “Ni! se ne dogaja”.! V na "em primeru:
! H0: povpre ! na vrednost kruha je 1.15 EUR.
! Alternativna hipoteza:! Nasprotje ni ! ti hipotezi, ki ga je mogo ! e statisti ! no ovrednotiti.! “Nekaj se dogaja.”! V na "em primeru ve ! mo #nih alternativnih hipotez:
! Povpre ! je ni enako 1.15 EUR. (dvo-stranski test)! Povpre ! je je ve ! je od 1.15 EUR. (eno-stranski test: desni)! Povpre ! je je manj "e od 1.15 EUR. (eno-stranski test: levi)
! Izvedba testiranja hipoteze:! Iz populacije izberemo naklju ! no dolo ! en vzorec .! Izra ! unamo ustrezno testno statistiko , ki ustreza hipotezi.
Testne statistike so razli ! ne glede na tip testa, ki ga uporabljamo.! Predpostavka pri vseh testih je: poznamo porazdelitev testne statistike ob ni ! ti hipotezi .
Terminologija pri testiranju hipotez! Statisti #na zna #ilnost
! Primer:! Denimo, da preverjamo, ali je povpre #na vrednost neke populacije enaka 50.! Hipotezi:
! Naklju #no smo izbrali vzorec iz 10-ih primerkov in ocenili povpre #no vrednost .! Verjetno lahko zaklju #imo:
! da v primeru, #e je ocenjena vrednost povpre # ja nekje okoli 50, potem je hipoteza H0 bolj verjetna.! in nasprotno: #e je ocenjena vrednost povpre # ja ob #utno razli #na od 50, potem je hipoteza H1 bolj
verjetna.! Denimo, da predpostavimo, #e
!
, potem velja hipoteza H0.! ali , potem velja hipoteza H1.
Torej:
zavrnemo H0 zavrnemo H0ne moremo zavrniti H0
kriti#no podro # je kriti #no podro # jepodro # je sprejetja hip
mejnevrednosti
Terminologija pri testiranju hipotez! Statisti #na zna #ilnost:
V primeru, da se odlo #imo, da delamo napako zavrnitve H0 (tip I) 5%, dobimo
v tem primeru mejne vrednosti 48.5 in 51.5.
Porazdelitev ocen povpre #ne vrednosti vprimeru, ko je dejanska povpre #na vrednost50 in izbiramo vzorce z 10 primerki.
zavrnemo H0 zavrnemo H0ne moremo zavrniti H0
kriti#no podro # je kriti #no podro # jepodro # je sprejetja hip
! P-vrednost je verjetnost, da testna statistika ob predpostavki, da ni ! ta hipoteza velja, zavzamevrednost, ki je ve ! ja ali enaka izra ! unani testni statistiki iz vzorca.
! P-vrednost pove ve ! kot statisti ! na zna ! ilnost. Pri statisti ! ni zna ! ilnosti povemo, da smo npr. v primerunapake zavrnitve 5% sprejeli hipotezo. Tu pa " e izvemo, kolik " na je verjetnost, da bi ob izra ! unanitestni statistiki naredili napako zavrnitve hipoteze.
! Z drugimi besedami: napaka zavrnitve 5% je prag, do katerega sprejmemo hipotezo, p-vrednost panam pove " e kolik " na je verjetnost, da smo naredili napako zavrnitve hipoteze ob izra ! unani statistikiiz danega vzorca.$ e je p-vrednost nad 5%, potem ne moremo zavrniti ni ! te hipoteze.
Terminologija pri testiranju hipotez! Enostranski in dvostranski testi
! dvostranski test:! mo $nost napake zavrnitve pravilne hipoteze razdelimo na oba konca porazdelitve testne statistike.
! enostranski test:! mo $nost napake zavrnitve pravilne hipoteze obravnavamo na eni ali drugi strani porazdelitve testne
Testiranje hipotez! Splo " en postopek pri testiranju hipotez:
! 1. Pri danem problemu dolo #imo lastnost (koli #ino), ki jo $elimo testirati.! 2. Dolo #imo ni #to hipotezo H0.! 3. Dolo #imo ustrezno alternativno hipotezo H1.! 4. Odlo #imo se, na podlagi katerega kriterija bomo preverjali ni #to hipotezo
(statisti #na zna #ilnost, p-vrednost).! 5. Izberemo pravilno testno statistiko za preverjanje hipoteze.! 6. Dolo #imo podro # je, kjer na podlagi te statistike lahko zavrnemo hipotezo.! 7. Izra #unamo testno statistiko iz vzorca(ev), ki ga (jih) imamo.! 8. Odlo #imo, ali ni #to hipotezo lahko zavrnemo
Intervali zaupanja v oceno parametrov! Interval zaupanja v oceno parametra je interval, v katerem lahko z veliko
verjetnostjo trdimo, da je dejanska vrednost parametra populacije.
! Spodnjo in zgornjo mejo intervala izra #unamo iz ocenjene vrednosti parametra izdanega vzorca populacije ob predpostavki znane porazdelitve ocenjenih vrednosti izvzorca.! Obi #ajno predpostavimo, da se ocene parametrov iz vzorcev porazdeljujejo normalno (po centralnem
limitnem izreku).
! &iroki intervali zaupanja pomenijo slabe (manj zanesljive) ocene parametrov.O$ ji intervali zaupanja pomenijo dobro (bolj zanesljive) ocene parametrov.
! Intervali zaupanja v oceno so odvisni predvsem od mo #i vzorca.
Intervali zaupanja v oceno parametrov! Napaka pri oceni povpre # ja:
! ve # ja kot je varianca, ve # ja je lahko napaka pri oceni povpre # ja,
! ve # podatkov imamo (ve # ja mo # vzorca), manj " o napako pri oceni delamo.
! Torej:
! Standardna napaka pri oceni povpre ! ja:
Intervali zaupanja v oceno parametrov! V primeru treh vrtov:
! Povpre # je koncentracije ozona v vrtu A je 3.0 ± 0.365 (1 s.e. n = 10).! Povpre # je koncentracije ozona v vrtu B je 5.0 ± 0.365 (1 s.e. n = 10).! Povpre # je koncentracije ozona v vrtu C je 5.0 ± 1.193 (1 s.e. n = 10).
Intervali zaupanja v oceno parametrov! Interval zaupanja v oceno variance pri normalno porazdeljeni populaciji:
Statistike enega vzorca! z-test:
! Testiramo, ali je ocenjeno povpre ! je vzorca iz populacije, ki je normalnoporazdeljena , enako predpostavljenemu povpre ! ju populacije ob znanivarianci .
! Testiramo, ali je ocenjeno povpre ! je vzorca iz populacije, ki je normalnoporazdeljena , enako predpostavljenmu povpre ! ju populacije ob znani varianci .
! Hipotezi:
! Testna statistika:
! Porazdelitev testne statistike : normalna
podro # je zavrnitve
podro # jenezavrnitve
Statistike enega vzorca! z-test:
! Testiramo, ali je ocenjeno povpre ! je vzorca iz populacije, ki je normalnoporazdeljena , enako predpostavljenemu povpre ! ju populacije ob znanivarianci .
! Testiramo, ali je ocenjeno povpre ! je vzorca iz populacije, ki je normalnoporazdeljena , enako predpostavljenemu povpre ! ju populacije ob neznanivarianci .
podro # je zavrnitve podro # je zavrnitvepodro # je
! Testiramo, ali je ocenjeno povpre ! je vzorca iz populacije, ki je normalnoporazdeljena , enako predpostavljenemu povpre ! ju populacije ob neznanivarianci .
! Hipotezi:
podro # jenezavrnitve
podro # jenezavrnitve
podro # je zavrnitve
Statistike enega vzorca! t-test: neznana varianca
load( 'datasets/cene.mat' )hold on ; plot(cene_jan, 'b' ); plot(cene_feb, 'r' ); hold off
Statistike dveh vzorcev! Prej: statistike enega vzorca:
! Obravnavamo lastnosti enega vzorca.! Predpostavimo neko lastnost, ki jo testiramo na danem vzorcu.
! Statistike dveh vzorcev! Primerjamo lastnosti dveh vzorcev.! Hipoteza 0: lastnosti obeh vzorcev se ne razlikujeta.
! Prej: primerjali smo lastnost z neko predpostavljeno lastnostjo.! Sedaj: primerjamo isto lastnost na dveh razli #nih vzorcih.
Statistike dveh vzorcev! z-test in t-test:
! prej: testirali smo enakost povpre # ja ocenjenega iz enega vzorca spredpostavljenim povpre # jem ob normalni porazdelitvi z znano (z-test) in neznanovarianco (t-test)
! sedaj: testiramo enakost ocenjenih povpre #ij iz dveh vzorcev ob predpostavkinormalne porazdelitve populacije z znano (z-test) in neznano varianco (t-test).
! Pri razvoju barve za kovino testiramo uporabo sredstva za hitrej " e su " enje barve.! Izvedemo eksperiment, kjer v prvem poskusu testiramo obi #ajno barvo brez
dodanega sredstva za su " enje, v drugem poskusu pa dodamo barvi sredstvo zasu " enje.
! V obeh poskusih smo pobarvali po 10 primerkov in merili #as su " enja barve. ! e izizku " enj poznamo std. odklon su " enja, ki zna " a 8 minut.
! V prvem primeru smo izmerili povpre # je su " enja 121 minut, v drugem pa 112minute.
Statistike dveh vzorcev: primerjava podatkov iz dele " ev! Primer:
! Denimo, da so v neki delovni organizaciji napredovale samo 4 $enskein 196 mo " kih. Ali lahko re #emo, da gre za neenakopravnost medspoloma?
! Preden to lahko re #emo, moramo povedati, koliko je zaposlenihmo " kih in $ensk. Denimo, da je zaposlenih 3270 mo " kih in 40 $ensk.To pomeni, da je napredovalo 10% $ensk in le 6% mo " kih.
! Preverimo, ali je favoriziranje $ensk statisti #no zna #ilno, ali je bolj plodnaklju # ja.
! To naredimo s testom, prirejenim za testiranje podatkov iz dele $ev.
Statistike dveh vzorcev: primerjava podatkov iz dele " ev
Statistike dveh vzorcev: primerjava podatkov iz dele " ev! Primer:
Statistike dveh vzorcev:brez predpostavke o normalnosti populacije! Za testiranje povpre #ij smo uporabili:
! z-test: v primeru, ko poznamo varianco populacije! t-test: v primeru, ko varianc ne poznamo! ob testa imata predpostavko, da so populacije normalno porazdeljene.
! Kaj pa #e populacije, ki jih testiramo, niso normalno porazdeljene?! Wilcoxonov test,
! testiramo, ali imata dva vzorca, ki izhajata iz populacije z neko porazdelitvijo,enaki mediani, ali da se mediani razlikujeta.
Wilcoxonov test! To je neparametri #en test, ki ga uporabimo v primeru, da populacije niso
nujno normalno porazdeljene.
! Wilcoxonovo statistiko W izra #unamo na naslednji na #in:! Vrednosti obeh vzorcev zdru $imo v en seznam.! Gremo po seznamu in za vsako vrednost dolo #imo, na katerem mestu je (po velikosti).
' e imamo dve vrednosti enaki, potem si delijo mesto (ang. ties). To lahko obravnavamona razli #ne na #ine, pri Wilcoxonovem testu re #emo, da so na mestu, ki je povpre # je obehmest, ki si ju razdelita.
! Se " tejemo vsa mesta prvega vzorca skupaj in vsa mesta drugega vzorca skupaj.! Primerjamo vsoti.! ' e se vsoti stat. zna #ilno razlikujeta, to pomeni, da hipotezo, da sta mediani enaki lahko
zavrnemo (testna statistika za za ve # je vzorce aproksimira z normalno porazdelitvijo).
>> tiedrank([10 20 30 40 20])ans =
1.0000 2.5000 4.0000 5.0000 2.5000
Wilcoxonov test
! Primerjava s t-testom:! Wilcoxonov test je bolj konzervativen. To pomeni, da ! e bomo s tem testom ugotovili, da sta povpre ! ja signifikantno razli ! na (p=
0.003 ), se bo to izrazilo "e bolj pri Studentovem testu (p= 0.0011 )! Po drugi strani ima t-test predpostavko o normalnosti populacije, kar ni vedno res.
garden = importdata( 'datasets/gardens.txt' );data = garden.data; % primerjamo vrt A in vrt B >> xrank = tiedrank([data(:,1); data(:,2)]) % izracunamo vrstni red posameznih vrednosti
! ho #emo ugotoviti zvezo med barvo o #i in barvo las pri ljudeh.! imamo npr. dve mo $ni barvi o #i (rjave in modre) in dve barvi las (svetla in temna)! Ljudi razvr "# amo v te " tiri kategorije in sicer " tejemo " tevilo ljudi, ki spada v eno izmed
kategorij.! Sestavimo tabelo:
! To imenujemokontingen ! na tabela = tabela frekvenc posameznih dogodkov v vzorcu.
modre o #i rjave o #i
svetli lasje 38 11
temni lasje 14 51
Ocene verjetnosti iz kontingen ! nih tabel! Kak " na je verjetnost, da izberemo v tak " nem vzorcu osebo s svetlimi
lasmi?! Vse skupaj imamo 49 (38+11) ljudi s svetlimi lasmi in vseh ljudi je skupaj 114.
Torej je verjetnost 49/114.Verjetnost, da izberemo oseb s temnimi lasmi je 65/114.
! Kak " na je verjetnost, da izberemo v tak " nem vzorcu osebo z modrmio#mi?! Verjetnost 52/114.! Z rjavimi o #mi 62/114.
Kontingen ! na tabela: test neodvisnosti! Kak " na je verjetnost, da ima oseba svetle lase in modre o #i?! Predpostavimo, da sta barva o ! i in barva las neodvisni koli ! ini.! V tem primeru je verjetnost tega dogodka, produkt verjetnosti, da
ima oseba svetle lase, z verjetnostjo, da ima modre o ! i.! 49/114 x 52/114
! Podobno lahko naredimo " e za ostala polja v tabeli.
modre o #i rjave o #i skupaj
svetli lasje 49/114 x 52/114 49/114 x 62/114
temni lasje 65/114 x 52/114 65/114 x 62/114
skupaj
Kontingen ! na tabela: test neodvisnosti! Ocenimo pri #akovane frekvence v tabeli:
! Pri#akovano " tevilo ljudi s svetlimi lasmi in modrimi o #mi jeE = 49/114 x 52/114 x 114 = 22.35
! To je mnogo manj od na " ih 38 ljudi. Zgleda, da je bila predpostavka oneodvisnosti med obema koli #inama prenagljena.
! Opazili smo, da se pri #akovane frekvence (pod predpostavko neodvisnosti) in
izmerjene frekvence razlikujejo.! Ali je razlika statisti #no zna #ilna?! Izra #unamo statistiko
! O je izmerjena frekvenca, E je pri #akovana frekvenca, vsota po vseh elementih vtabeli.
Kontingen ! na tabela: test neodvisnosti
svetli lasje in modre o #i 38 22.35 244.96 10.96svetli lasje in rjave o #i 11 26.65 244.92 9.19temni lasje in modre o #i 14 29.65 244.91 8.26temni lasje in rjave o #i 51 35.35 244.98 6.93
! Ko se " tejemo skupaj, dobimo
! Ali je testna statistika ustrezna, da bi lahko sprejeli ali zavrnili hipotezo,da sta ti dve koli #ini med seboj neodvisni?
!
Preden to ugotovimo, moramo vedeti naslednje:! po kak " ni porazdelitvi se porazdeljuje testna statistika! koliko prostostnih stopenj nastopa v podatkih,! kak " na so mejne vrednosti za zavrnitev hipoteze ob znani porazdelitvi in
Test Kolmogorova in Smirnova! Test Kolmogorova in Smirnova nam pomaga odgovoriti na naslednji
vpra " anji:! Prej: Ali je ocenjena porazdelitev iz vzorca enaka neki vnaprej napovedani
porazdelitvi, s katero $elimo modelirati populacijo? - statistika enega vzorca.! Sedaj: Ali sta porazdelitvi dveh razli #nih vzorcev enaki, ali sta statisti #no razli #ni?
- statistika dveh vzorcev (v nadaljevanju)
! Dve porazdelitvi sta lahko razli #ni,! #e imata razli #na povpre # ja,! #e imata enaka povpre # ja, pa imata razli #ni varianci ali momente vi " jega reda, itn.! #e imata razli #no kumulativno funkcijo porazdelitve verjetnosti = test KS
Test Kolmogorova in Smirnova! Test Kolmogorova in Smirnova primerja med seboj kumulativne
funkcije porazdelitve verjetnosti:
load datasets/wings.mat
F1 = cdfplot(wings(location== 'A' ));hold onF2 = cdfplot(wings(location== 'B' ))set(F1, 'LineWidth' ,2, 'Color' , 'r' )set(F2, 'LineWidth' ,2)legend([F1 F2], 'cdf location A' , 'cdflocation B' , 'Location' , 'NW' )hold off
! Opazujemo velikost kril lete #ih$u$elk v dveh geografsko razli #nihregijah.
! Ho #emo preveriti ali sta porazdelitviverjetnosti dol $ine kril, ocenjeni izvzorcev $u$elk iz obeh regij, enaki.
V tem poglavju je predstavljena regresijska analiza s poudarkom na linearnih regresij-skih modelih, ki se uporabljajo tako za modeliranje podatkov, napovedovanje vrednostiiz podatkov in za ugotavljanje vplivnosti posameznih podatkov na modelirane količine.
Poglavje obravnava:
• Linearna regresijska analiza:
– linearna regresija ene spremenljivke,– posplošeni linearni modeli - primer logistične regresije,– multipla linearna regresija,– koračna metoda določanja linearnega regresijskega modela.
• Ne-linearni regresijski modeli:
– splošen model,– regresijsko drevo - primer neparametričnega regresijskega modela.
Statisti ! no modeliranje! Statisti #no modeliranje se uporablja za dolo #anje modelov iz vzorcev.
! Statisti #en model je obi #ajno matemati #na funkcija (v primeru parametri #negamodela), ki ji na podlagi vzorca dolo #imo parametre, tako da se kar najbolje ujema spodatki v vzorcu.
! Statisti #en model uporabljamo:! za bolj zgo "! eno opisovanje podatkov iz vzorca,! za napovedovanje dogodkov,! za razvr "! anje novih primerkov v razli ! ne populacije (razrede).
! Zahteve pri statisti #nih modelih so:! da se ! im bolj natan ! no ujemajo s podatki, s katerih so ocenjeni,! da imajo lastnost posplo " evanja,! da so ! im manj kompleksni.
Regresijska analiza! Regresijska analiza je postopek dolo #itve modelov, da se ujemajo s podatki:
! postopek modeliranja (regresije) je odvisen od modela! #e je model parametri #en, potem z regresijsko analizo ocenjujemo parametre modela,! #e je model linearen, potem s postopki linearne algebre lahko dolo #amo parametre modela z minimizacijo
napake ujemanja modela s podatki,! #e je model nelinearen in parametri #en, uporabimo druga #ne postopke iskanja optimalnih parametrov
modela (nelinearna optimizacija).! #e je model neparametri #en (npr. regresijsko drevo), uporabimo druga #ne postopke.
! pri regresiji dolo ! amo odvisnost med odzivno spremenljivko Y in opisno spremenljivko X:! Y in X sta zvezni spremenljivki ( #e X diskretna (kategorijska) in Y zvezna = analiza variance)! #e X vektor, imamo multiplo regresijo! #e Y vektor, imamo multivariatno regresijo
Kvaliteta regresijskega modela! Poglejmo vrednosti SSR (varianca regresije), SSE (varianca
napake) in SSY (varianca y, skupna varianca):! v prvem primeru je SSE = 0 in zato, ker je SSY = SSR + SSE, sledi SSR = SSY.! v drugem primeru je SSR = 0 in zato, ker je SSY = SSR + SSE, sledi SSE = SSY.
! Predlagana mera: r kvadrat – determinacijski koeficient ! razmerje med varianco regresije in skupno varianco
! Bolj kot je diskriminacijski koeficient blizu 1, bolj " i je model.
Kvaliteta regresijskega modela! Druga mera:
! preverjamo porazdelitev napake (residualov):! residuali morajo imeti povpre # je 0 in konstantno varianco
! Izris residualov v odvisnosti od opisne spr. x.
! Graf (a) je v redu:! residuali so enakomerno razpr " eni po
celotnem grafu.Varianca residualov je konstantna.
! Grafi (b),(c),(d) pa ne:! varianca residualov ni konstantna:
heteroskedasti ! nost ! v primeru (b) nara "# a, z ve #anjem indeksa
(po #asu),! to lahko odpravimo s transformacijo
odzivne spremenljivke (log(y), sqrt(y), 1/y, ...)
! v primeru (c) varianca residualov najprejnara "# a potem pada,
! v primeru (d) podobno:! nakazuje neprimernost modela,
Posplo " eni linearni modeli! Pri posplo " enemu linearnemu modelu predpostavimo naslednje:
! Primer: logisti #na regresija.
Logisti ! na regresija! Imejmo primer avtomobilov razli #ne te $e:
! Koli! ina w predstavlja te # e avtomobilov, v spr. total so pre " teti avtomobili dolo ! ene te # e, v spr.poor pa so avtomobili, ki imajo veliko porabo goriva:
! Nari " imo dele # e avtomobilov z veliko porabo goriva po te # i:
MLR: Lastnosti ocenjenih parametrov! Varianca napake:
! Vsota kvadratov napake:
! Vsota kvadratov razlike napovedanih vrednosti in povpre # ja:
! Vsota kvadratov razlike napovedanih vrednosti in povpre # ja:
Ali:
n % "tevilo podatkovp % "tevilo parametrov regresije
spomnimo se pri regresiji
MLR: Statisti ! na ustreznost regresijskega modela! Test za statisti #no zna #ilnost modela regresije je test, da obstaja
(linearna) zveza med opisnimi spremenljivkami x in odzivnospremenljivko y.
! Ni#ta hipoteza:! Alternativna hipoteza: za vsaj en j
vsota kvadratovrazlik
prostostnestopnje
povpre # je kvadratovrazlik
kvocient F
regresija SS R k MSR = SS R/k MSR/MSE
napake SS E n-p MSE = SS E/(n-p)
skupaj SS T n-1
Primerjamo MSR/MSE z mejno vrednostjo iz kvantila F-porazdelitve.&e je izra #unana vrednost ve # ja od mejne vrednosti pri dolo #eni napaki (alfa) napa #ne zavrnitve,
MLR: Statisti ! na ustreznost regresijskega modela! Primer:
>> finv(0.95, 3, 107)ans = 2.6895
Dolo #imo mejno vrednost za napa #no zavrnitev hipoteze poFisherjevi porazdelitvi z mo ' nostjo napake 5%.
>> 1-fcdf(54.9, 3, 107)ans = 0
Na ! a vrednost (54.9) je mnogo ve " ja od mejne. Hipotezo zavrnemo.
To lahko preverimo tudi s p-vrednostjo
Hipotezo zavrnemo:Koncentracija ozona je linearno odvisna ali od sevanja, ali od vetra,ali od temperature, ali od kakr ! nekoli kombinacije vsote teh trehkoli " in.
Iskanje pravega regresijskega modela! Kako poi "#emo primeren regresijski model?
! Iskanje pravega modela:! Katere opisne spremenljivke vklju #iti v model in kak "ne kombinacije?! Kak "ni so medsebojni odnosi med opisnimi spremenljivkami?! Korelacije med opisnimi spr.! Ali je mogo #e zmanj "ati "tevilo prediktorjev in s tem dolo #iti jasne povezave med
opisni in odzivnimi spr. - iskanje minimalnega modela.
! Kot smo ' e videli, nam ocene o ustreznosti nekaj povedo o kvalitetimodela:! koliko variance uspemo opisati z modelom,! kateri #leni so statisti #no zna #ilni,! kako se porazdeljuje napaka med dejanskimi in napovedanimi vrednostmi.
Kora ! na metoda grajenja regresijskega modela! Postopek kora #ne izgradnje regresijskega modela:
! izberemo si za #etni model in ocenimo njegove parametre, potem pa primerjamoustreznost modelov z ve # ali manj dodanimi #leni.
! v vsakem koraku izra #unamo F-statistiko in ocenimo p-vrednost ter primerjamovrednosti med modelom z ali brez obravnavanega #lena.
! #e #len ni vklju #en v model, potem obravnavamo ni #to hipotezo, da bi bilkoeficient beta pri tem #lenu enak 0. &e lahko to hipotezo zavrnemo, potem #lenvklju#imo v model.
! Podobno, #e je #len ' e vklju #en v model in je ni #ta hipoteza, daj je koeficient betapri tem #lenu enak 0, in #e ugotovimo, da ne moremo zavrniti hipoteze, potem ta#len odstranimo iz modela.
Kora ! na metoda grajenja regresijskega modela! Postopek
1.Naredimo za #etni model in ocenimo parametre modela.2. &e v modelu nimamo #lenov, ki imajo p-vrednost, ki je ve # ja od neke za #etne
toleran #ne meje (to pomeni, da bi bil beta ob tem #lenu razli #en od 0, #e bi bil #lenv modelu), dodamo #len z najmanj "o p-vrednostjo v model in ponavljamo takorak, sicer gremo na korak 3.
3. &e imamo v modelu #lene s p-vrednostjo ve # jo od predpisane izstopne toleran #nemeje (to pomeni, da je zelo verjetno, da je beta enak 0), izlo #imo #len z najve # jop-vrednostjo in gremo na korak 2, sicer kon #amo.
! Lokalna optimalnost (ne globalna):! ustreznost modela je odvisna od za #etnega modela, saj glede na za #etni model
dodajamo ali odvzemamo #lene,! to pomeni, da je kon #na ustreznost modela odvisna od za #etnega modela in ni
nujno, da vedno dobimo globalno optimalno re "itev.
Primer grajenja regresijskega modela! Preu #evanje koncentracije ozona v odvisnosti od temperature, vetra in
son #nega sevanja:
data = importdata( 'datasets/ozone.data.txt' )
! Odzivna spr. je koncentracija ozona.! Opisne spr. so son #no sevanje, temperatura,
veter.! Na diagramu lahko vidimo porazdelitev
meritev za posamezno kombinacijo spr.! Zanima nas zadnja vrstica:
! kako se obna "a koncentracija ozona vodvisnosti od ostalih koli #in.
! Vidimo lahko:! negativno korelacijo med hitrostjo vetra
in koncentracijo ozona (ve # vetra,manj "a koncentracija)
! pozitivno korelacijo med temperaturo inkoncentr. ozona (vi " ja temperatura, ve # jakoncentracija)
! nejasno zvezo med son #nim sevanjem inkoncentracijo ozona.
! pri linearni regresiji ponavadi nimamo nekega znanja, da bi vedeli, kako se tvorijo odzivnemeritve, zato predvidevamo neko zvezo, ki jo potem ustrezno ovrednotimo in dodamo ! e ostale" lene, " e je potrebno.
! pri nelinearni regresiji pa obi " ajno poznamo zvezo med opisnimi in odzivno spremenljivko -poznamo (fizikalni) model, oceniti moramo parametre.
! #e ne poznamo jasne zveze med opisnimi in odzivno spremenljivko, potem nemoremo predpostaviti modela s parametri,
! ena re "itev: neparametri #ni modeli! Primer: regresijsko drevo
Regresijsko drevo! Pri parametri #nih regresijskih modelih poznamo oz. predpostavljamo
neko zvezo opisnimi in odzivnimi spremenljivkami:! definiramo model (linearen, polinomski, logisti #na regresija) in potem ocenjujemo
parametre tega modela ter ugotavljamo ustreznost modela! pri tem moramo zadostiti nekaterim predpostavkam, ki jih preverjamo ob gradnji
modela.
! V veliko primerih pa ne poznamo zveze med opisnimi in odzivnimispremenljivkami:! ena mo ' nost je regresijsko drevo, ki predstavlja neparametri #ni regresijski model! v primeru, ko imamo odzivne spremenljivke kategorijske, govorimo o
! naredimo regresijsko drevo, kjer na na podlagi te ' e avtomobila (Weight, zveznaspr.) in "tevila cilindrov (Cylinders, kategorijska spr.) napovedujemo porabo goriva(MPG, zvezna spr.).
load carsmall t = classregtree([Weight, Cylinders],MPG, ... 'cat' ,2, 'splitmin' ,20, ... 'names' ,{ 'W' , 'C' })>>t =Decision tree for regression 1 if W<3085.5 then node 2 elseif W>=3085.5 then node 3 else 23.7181 2 if W<2371 then node 4 elseif W>=2371 then node 5 else 28.7931 3 if C=8 then node 6 elseif C in {4 6} then node 7 else 15.5417 4 if W<2162 then node 8 elseif W>=2162 then node 9 else 32.0741
5 if C=6 then node 10 elseif C=4 then node 11 else 25.9355 6 if W<4381 then node 12 elseif W>=4381 then node 13 else 14.2963 7 fit = 19.2778 8 fit = 33.3056 9 fit = 29.611110 fit = 23.2511 if W<2827.5 then node 14 elseif W>=2827.5 then node 15 else 27.214312 if W<3533.5 then node 16 elseif W>=3533.5 then node 17 else 14.869613 fit = 1114 fit = 27.638915 fit = 24.666716 fit = 16.617 fit = 14.3889
var3 = cutvar(t,3) % Po kateri spr. se delijo podatki v vozliscu st. 3.>>var3 = 'C'
type3 = cuttype(t,3) % Kaksen tip delitve je?>>type3 = 'categorical' c = cutcategories(t,3) % Kateri razredi so v levem otroku in kateri v desnem?
>> c{1}ans = 8
>> c{2}ans = 4 6
Regresijsko drevo in navzkri " ni test! Z regresijskim drevesom lahko zelo dobro modeliramo u #ne podatke,
vendar imamo lahko zelo veliko te ' av s podatki, ki jih moramonapovedati, pa niso vklju #eni v u #enje parametrov:! regresijsko drevo je zelo ob #utljivo na odstopajo #e to #ke (outlier-je).
! Zato ponavadi u #imo drevo s t.i. postopkom navzkri ' nega testiranja
(ang. cross validation):! podatke razdelimo na n pribli ' no enakih delov (npr. 10)! potem pa za vsak del naredimo test tako, da nau #imo drevo na ostalih delih in
testiramo predikcijo na tem delu.! cena:
! povpre " na kvadratna napaka med napovedanimiin dejanskimi vrednostmi v posameznem vozli !" u.
Pri analizi variance se ukvarjamo z ugotavljanjem, ali vzorci izhajajo iz ene populacijeali iz več različnih populacij glede na ocenjene vrednosti variance. Opisne spremenljivkev tem primeru so kategorijske spremenljivke, ki jih imenujemo tudi faktorji. Gledena stopnje znotraj faktorjev in glede na število faktorjev poznamo različne postopkeanalize variance, ki jih podrobno predstavimo v tem poglavju.
V poglavju se ukvarjamo tudi z analizo kovariance, ki vključuje obravnavo odzivnihin opisnih spremenljivk, ki so lahko zvezne in/ali kategorijske spremenljivke. Analizamedsebojne odvisnosti zato vključuje postopke iz analize variance in regresijske analize.
Poglavje obravnava:
• Analiza variance - ANOVA:
– enosmerna ANOVA:∗ analiza vpliva posamičnih stopenj
– več-smerna ANOVA:∗ dvosmerna ANOVA,∗ splošni model analize variance vpliva več faktorjev.
ANOVA v MATLABu[p,table,stats] = anova1(ozon, vrt);
Analiza vpliva posami ! nih stopenj! Primer:
! meritve koli #ine bakterij v posameznih po "iljkah mleka
! vrstice predstavljajo koli #ino bakterij v posameznem litru mleka, ki smoga naklju #no izbrali iz po "iljke: imamo 6 po "iljk in 5 naklju #no izbranihmeritev v posamezni po "iljki.
! Zanima nas,! ali kak "na po "iljka statisti #no zna #ilno odstopa po "tevilu bakterij od
Analiza vpliva posami ! nih stopenj! 1. vpra "anje: Ali kak "na po "iljka statisti #no zna #ilno odstopa po "tevilu
bakterij od ostalih?! Eno-smerna ANOVA: [p,tbl,stats] = anova1(hogg);
Analiza vpliva posami ! nih stopenj! 2. vpra "anje: Katere po "iljke se med seboj statisti #no zna #ilno razlikujejo?! Primerjamo s t-testi povpre # ja paroma med posameznimi po "iljkami.
A je to v redu? NE:! %e s t-testom primerjamo povpre # ja dveh vzorcev, je v primeru, da sta povpre # ja enaka
verjetnost, da bo t-statistika presegla mejne vrednosti zelo mala (recimo 5%). V primeru, da stapovpre # ja razli #na pa je verjetnost, da bo t-statistika presegla mejno vrednost zelo velika.
! V na "em primeru imamo 5 po "iljk, torej bi naredili 10 primerjav med povpre # ji. V primeru, da
nimamo razlik med povpre # ji (povpre # ja so enaka) in da je alfa 5%, potem lahko pri vsakemtestu naredimo v 5% napako, da zavrnemo hipotezo, da sta povpre # ja enaka. To lahko storimov vsakem izmed 10-ih testov. To pa pomeni, da je mo $nost napake, da vsaj enkrat napa #nozavrnemo hipotezo o enakih povpre # jih mnogo ve # ja od zahtevanih 5% (torej ne moremogovoriti o statisti #ni zna #ilnosti).
! Zato obstajajo druga #ni na #ini testiranja:! postopki medsebojnih ve #kratnih primerjav ( ang. multiple comparison methods )
! Denimo, da imamo dva faktorja A in B:! v faktorju A imamo a stopenj, v faktorju B imamo b stopenj! imamo n ponovitev poskusa, pri vsakem poskusu pridobimo
meritve vseh kombinacij, torej ab meritev
yijk pomeni k-to meritev stopnje i faktorja A in stopnje j faktorja B
Statisti ! na analiza faktorskega poskusa z dvema faktorjema! Pri poskusu imamo tako abn meritev.! Meritve lahko modeliramo z linearnim modelom:
! kjer je µ dejansko globalno povpre # je, ' i je prispevek i-te stopnje faktorja A kpvopre # ju, ( j je prispevek j-te stopnje k povpre # ju ( '( )ij je prispevek interakcije medfaktorjem A in B, ) ijk pa je naklju #na napaka, ki je standardno normalno porazdeljena spovpre # jem 0 in varianco &2.
! Zanimajo nas vplivi posameznih faktorjev A in B ter njune interakcije nakon #ne rezultate (meritve) Y.! Ni! ta hipoteza: faktor A nima vpliva, faktor B nima vpliva,
interakcija A in B nima vpliva
! Ker imamo dva faktorja, imenujemo to analizo tudi dvosmerna ANOVA.
: a – 1! Prostostne stopnje faktorja SS B: b – 1! Prostostne stopnje interakcije SS AB: (a – 1)(b – 1)! Prostostne stopnje SS T: abn – 1! Prostostne stopnje napake SSE: ab(n – 1)
! znotraj vsake celice imamo n ponovitev meritev, torej je v vsakicelici "t. prostostnih stopenj n – 1. Skupaj imamo ab celic, torej je"t. vseh prostostnih stopenj za napako ab(n – 1)
! Velja zveza: abn-1 = (a-1) +(b-1)+(a-1)(b-1)+ab(n-1)
F – statistike pri 2-smerni ANOVI! Izra #unamo povpre # ja vsot kvadratov:
! Za preverjanje hipotez izra #unajmo "e matemati #na upanja:
Primer dvosmerne ANOVE! Primer: preu #ujemo vpliv prehrane na rast $ivali
! Imamo dva faktorja vpliva (najbolj enostaven primer):! vrsta prehrane : stopnje: je ! men (barley), oves (oats), p " enica (wheat)! dodatki k prehrani : stopnje (vrste dodatkov): agrimore, control, supergain,
supersupp! Odzivna spremenljivka : te # a # ivali po 6 tednih hranjenja.
Primer dvosmerne ANOVE! Preu #ujemo vpliv prehrane na rast $ivali
! Imamo dva faktorja vpliva (najbolj enostaven primer):! faktor A: vrsta prehrane : stopnje: je ! men (barley), oves (oats), p " enica
end% spremeniti moramo vrstni red za anovo v matlabuY = [X(1:4,:)'; X(5:8,:)'; X(9:12,:)' ][p, tbl, stats] = anova2(Y, 4) %4 ponovitve za vsako kombinacijo stopenj
glede na rezultate, bi lahko modeliraligain ~ diet + supplement brez interakcije
Matlab: ANOVAN! Funkcija v Matlabu za n-smerno ANOVO: anovan
! druga #na kot anova1 in anova2: nimamo podatkov v obliki tabele, ampak v oblikivektorja meritev odzivne spremenljivke in posebnega vektorja, kjer povemo, hkateremu faktorju pripadajo posamezne meritve.
Matlab: ANOVAN! Ve# ji primer: Analiza podatkov o 406 avtih iz zbirke carbig:
! Parametri ozna #eni z #: to pomeni, da nimamo pri vseh avtih podatka o porabi goriva.! Pri 4cyl pa se tudi ne more izra #unati p-vrednosti, kar pomeni, da verjetno nimamo
Neparametri ! ni testi ANOVE! Poleg parametri #nih testov ANOVE obstajajo tudi neparametri #ni
testi enosmerne in dvosmerne ANOVE:! neparametri #ni testi nimajo predpostavke o normalni porazdelitvi podatkov, zato so
primerni v primerih, ko nimamo tak "ne predpostavke,! so manj zanesljivi od klasi #nih metod (ker imajo manj predpostavk)
! Neparametri #ni test ANOVE:! enosmerna ANOVA: Kruskal-Wallisov test! dvosmerna ANOVA: Friedmanov test
Kruskall-Wallisov test! Pri enosmerni ANOVI smo imeli primer meritev koli #ine bakterij v
posameznih po "iljkah mleka:
! preu #evali smo, ali "tevilo bakterij varira med posameznimi po "iljkami mleka. Prienosmerni ANOVI smo predpostavili, da so meritve (po stolpcih) med sebojneodvisne in da so porazdeljene normalnoz enako varianco in ‘fiksnimi’ povpre # ji.
vrstice predstavljajo koli #ino bakterij vposameznem litru mleka, ki smo ganaklju #no izbrali iz po "iljke:imamo 6 po "iljkin 5 naklju #no izbranih meritevv posamezni po "iljki.
Kruskall-Wallisov test! Ponovimo enosmerno ANOVO s Kruskall-Wallisovim testom.
! Kruskall-Wallisov test je neparametri #na verzija enosmerne ANOVE.! Predpostavka je, da so meritve zvezno porazdeljene, ne pa nujno normalno.! Test se ne ra #una neposredno na meritvah, ampak na vrstnem redu (rangu)
meritev (podobno, kot pri neparametri #nih testih hipotez).
>> p = kruskalwallis(hogg)
Friedmanov test! Friedmanov test je neparametri #na oblika dvosmerne ANOVE.! V na "em primeru dvosmerne ANOVE smo preu #evali vpliv prehrane
in dodatkov na rast $ivali:! Imeli smo dva faktorja: vrsto prehrane (3 stopnje: oves, p "enica, je #men) in
dodatke (4 stopnje).! Preu #evali smo, pri katerem izmed faktorjev ali interakciji obeh znamo statisti #no
zna #ilne razlike pri rasti $ivali.! Izvedli smo dvosmerno ANOVO in ugotovili, da faktorja statisti #no zna #ilno vplivata
na rast $ivali, interakcija pa ne.
>> load datasets/growth.mat >> Y = [X(1:4,:)'; X(5:8,:)'; X(9:12,:)' ] >> [p, tbl, stats] = anova2(Y, 4) %4 ponovitve za vsako kombinacijo stopenj
Friedmanov test! Friedmanov test je neparametri #na oblika dvosmerne ANOVE.
! za razliko od anove2 Friedmanov test v Matlabu ne testira vrstic in stolpcevposebej, ampak testira razli #nost samo med stolpci, saj se testna statistikaizra #una za razli #nost med stolpci iz razlik vrstic, ki so urejene po vrstnem redu(zopet ne primerjamo neposredne meritve, ampak vrstni red meritev).
! S tem preu #ujemo vpliv faktorja, ki je zapisan po vrsticah (v na "em primeru vrsteprehrane).
! Interakcije obeh faktorjev ne moremo analizirati.
! Vrsta prehrane ima statisti #no zna #ilen razli #en vpliv na rast $ivali.! Za ugotavljanje vpliva dodatkov je potrebno matriko meritev ustrezno preoblikovati.
>> [p, tbl, stats] = friedman(Y, 4) %4 ponovitve za vsako kombinacijo stopenj
Analiza kovariance: ANCOVA
! Analiza kovariance vklju #uje analizo variance in regresijo.! Odzivna spr. je zvezna.! Opisne spr.:
! vsaj ena zvezna,! vsaj ena kategorijska (faktorska).
! Maksimalni model:! regresijski model za vsako stopnjo faktorja.
Analiza kovariance: primer! Denimo, da modeliramo te $o ljudi v
odvisnosti od spola in starosti:! spol je faktor (kategorija) z dvemastopnjama: mo "ki, $enske
! starost je zvezna opisna spr.! Maksimalni model je torej lahko:
! regresijska premica za mo "ke inregresijska premica za $enske:
! Minimizacija modela:!
imamo 6 mo $nih modelov:! razli #ni a in b za oba spola! enak naklon, razli #ni a! razli #ni nakloni, skupen a! brez naklona in razli #ni a! skupni a in b,! en skupen a (brez b), ki je povpre # je
Minimizacija modela! Odlo #itve o zmanj "evanju parametrov modela sprejemamo na
podlagi statisti #ne analize posameznih parametrov modela.
! Minimizacija:! %e opisuje poenostavljen model varianco odzivne spr. enako dobro
kot ne-poenostavljen model (razlika ni statisti #no zna #ilna), potem jepoenostavljeni model bolj "i.
! Preverjanje kvalitete modela izvedemo z analizo variance medenim in drugim modelom:! #e je p-vrednost manj "a od 0.05 je razlika statisti #no zna #ilna (p-
vrednost v tem primeru meri verjetnost, da se zgodi razlika priopisovanju variance odzivne spr. ob hipotezi, da sta modela enaka).
ANCOVA: primer! Preu #evanje vpliva pa "e $ivine na pora "#enost pa "nikov. Poskus vklju #uje
opazovanje koli #ine sade $ev, ki jih proizvedejo rastline – dvoletnice v odvisnosti odza #etne velikosti rastlin pred pa "o in glede na izpostavljenost pa "i ali pa ne.
! Odzivna spremenljivka:! skupna koli #ina sade $ev na rastlino: fruit
! Opisni spremenljivki:! za #etna velikost rastline pred pa "no sezono (zv. spr.): root! kategorijska spremenljivka – faktor z dvema stopnjama: pa "a, brez pa "e (grazed,
V dodatku predstavimo nekaj osnov programskega jezika, ki se uporablja v program-skemu paketu MATLAB. Matlab je izvrstno orodje za vse inženirje, ki potrebujejozmogljivo matematiko, predvsem numerično. Matlab je sestavljen iz več programskihpaketov, t.i. toolbox-ov, ki imajo različne funkcionalnosti, med njimi je tudi paketStatistics Toolbox , ki ga uporabljamo pri izvajanju primerov statistične analize in mo-deliranja v tej knjigi.
Osnove programskega jezika MATLAB! Imena spremenljivk so ob ! utljiva na male in velike ! rke.! Za ! eti se morajo s ! rko, lahko sledijo " tevilke, pod ! rtaji.
! Primer:
Osnove programskega jezika MATLAB! Posebne # e definirane spremenljivke:
! pi ... vrednost " tevila pi = 3.1416...! eps ... najmanj " a vrednost, kjer " e lo #ujemo decimalna " tevila! inf ... oznaka za neskon #no, npr. 1/0! NaN ... to ni " tevilo (NaN = not a number), npr. 0/0 ali manjkajo #a vrednost! i ali j ... koren " tevila (-1), imaginarna enota! realmin ... najmanj " e realno " tevilo (=2.2251e-308)! realmax... najve # je realno " tevilo (=1.7977e+308)
Osnove programskega jezika MATLAB! Relacije med " tevili:
! < manj " e kot! <= manj " e ali enako kot! > ve # je kot! >= ve # je ali enako kot! == enako kot! ~= razli #no kot ( ne tako kot pri C-ju != )
! Logi ! ne operacije:! ~ negacija! & logi#ni in! | logi #ni ali
Osnove programskega jezika MATLAB! Matrike in vektorji
! V Matlabu obravnavamo vse spremenljivke kot matrike ali ve # dimenzionalna polja:! Vektorji so posebna oblika matrike - stolpec ali vrstica.! Skalarji so matrike z eno vrstico in enim stolpcem.
Osnove programskega jezika MATLAB! Funkcije v Matlabu:
>> edit euclid_dist.m >> euclid_dist(ones(3,1), zeros(3,1))ans = 1.7321>> euclid_dist(ones(3,1), zeros(2,1))??? Error using ==> euclid_dist at 10euclid_dist: Vector dimensions have to be the same.
>> help euclid_dist Funkcija d = euclid_dist(x,y) izracuna Evklidovo razdaljo med vektorjema x in y. Vektorja morata biti enake dimenzije.
Osnove programskega jezika MATLAB! U#inkovito programiranje v MATLABu
! Izogibati se je potrebno zankam. %im manj gnezdenih zank.! V veliki ve #ini primerov se lahko izognemo uporabi zank z uporabo matri #nih
operacij.
! Ko izvajamo prirejanje, npr. y = x; se v bistvu izvaja kopiranje podatkov, zato rajeponovno uporabljamo $e alocirane spremenljivke. Zelo slabo je pove #evatimatrike (in druge podatkovne strukture) postopoma, ampak je bolje vnaprejpredpisati velikost matrike ( #e seveda poznamo velikost), npr. z uporabo A =zeros(N,M).
! Uporabljamo funkcije, ki so $e narejene v MATLABu, saj so v ve #ini primerovu#inkovito narejene.