Analiza variance in linearna regresija Aleˇ s ˇ Ziberna 28. november 2011 Kazalo 1 Uporabljeni podatki 2 2 Analiza variance (ANOVA) 2 2.1 Enofaktorska analiza variance za neodvisne vzorce ....... 3 2.2 Veˇ cfaktorska analiza variance za neodvisne vzorce ....... 12 2.3 Enofaktorska analiza variance za odvisne vzorce ........ 19 3 Linearna regresija 21 3.1 Dodatne spremenljivke ...................... 22 3.2 Bivariatna regresija ........................ 22 3.3 Nelinearna regresija ........................ 26 3.4 Multipla regresija ......................... 31 3.5 Vkljuˇ cevanje nominalnih/ordinalnih spremenljivk ....... 35 3.6 Interakcije med spremenljivkami ................. 39 3.7 Preverjanje predpostavk ..................... 41 3.7.1 Analiza rezidualov .................... 41 3.7.2 Multikulinearnost ..................... 44 3.7.3 Ocene oblike zveze .................... 50 3.8 Za razmislek ............................ 54 3.9 Izraˇ cun ”na roke” ......................... 57 1
64
Embed
Analiza variance in linearna regresija - adp.fdv.uni-lj.si · PDF fileAnaliza variance in linearna regresija Ale s Ziberna 28. november 2011 Kazalo 1 Uporabljeni podatki 2 2 Analiza
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Za prikaz predstavljenih metod bomo uporabili podatke iz Evropske druzbo-slovne raziskave (http://www.europeansocialsurvey.org/) za Slovenijo zaleto 2004.
Uporabili bomo predvsem sledece spremenljivke:
G91 Bruto placa v 1000 sit
F5 Kraj bivanja (5 kategorij)
gndr Spol
Preberemo podatke iz SPSS-ove datotke in ”popravimo”faktorje.
> #nalozimo podatke
> library(foreign)
> data<-read.spss(file="Ess2e03_SlovenijaNA.sav",
to.data.frame = TRUE, use.value.labels = FALSE,
use.missings=FALSE, reencode="cp1250")
> #nalozimo tudi dodatne funkcije
> source("MVA-funkcije.R")
2 Analiza variance (ANOVA)
Analiza variance (ANOVA) je splosno ime za metode, ki primerjajo poja-snjeno variabilnost (obicajno merjeno z vsoto kvadratov odklonov) z nepo-jasnjeno. Ce je pojasnjena variabilnost dovolj velika v primerjavi z nepoja-snjeno, potem lahko zakljucimo, da ima tisto, kar pojasnjuje nek vpliv naobravnavano odvisno spremenljivko1.
Tu se bomo omejili na probleme, ko preverjamo, ali se aritmeticne sredine raz-likujejo med ”vzorci”. V tem primeru je pojasnjena variabilnost variabilnostmed aritmeticnimi sredinami teh vzorcev (variabilnost med vzorci), nepoja-snjena pa variabilnost znotraj vzorcev. Pojasnjena variabilnost je obicajnopojasnjena z eno ali vec nominalnimi2 spremenljivkami.
1V splosnem je sicer odvisnih spremenljivk lahko tudi vec, a tega mi ne bomo obrav-navali.
2oz. spremenljivkami, ki jih obravnavamo kot nominalne
2.1 Enofaktorska analiza variance za neodvisne vzorce
Ta verzija analize variance je najbolj znana in najpogosteje uporabljena, takoda vecina ljudi ob izrazu ”analiza variance” pomisli ravno na njo.
Klasicna enofaktorska analiza variance za neodvisne vzorce ima slece pred-postavke:
Normalnost (angl. normality) Odvisna spremenljivka se znotraj vsakepopulacije porazdeljuje normalno.
Enakost varianc (angl. homogeneity of variance) Variabilnost posame-znih enot znotraj vsake populacije je enaka.
Ce je zadosceno tema dvema predpostavkama, lahko uporabimo F test (ana-lizo variance) za testiranje domnev o razliki aritmeticnih sredin.
Ce imamo velik vzorec (npr. vecji od 30 v vsakem vzorcu), lahko uporabimo Ftest, tudi ce predpostavki o normalnosti ni popolnoma zadosceno. Pomembnoje, da je porazdelitev v vseh populacijah priblizno enaka (npr. povsod enakoasimetricna v desno). Pri majhnih vzorcih pa ne moremo uporabiti F testa.
V primeru, da je krsena predpostavka o enakosti varianc pa lahko uporabimoWelch-ovo analizo variance.
Predpostavko o normalnosti obicajno preverjamo graficno (histogram po sku-pinah), predpostavko o enakosti varianc pa preko opisnih statistik in formal-nih testov. Nekaj moznih testov:
bartlett.test Primeren, ce je predpostavka o normalnosti izpolnjena
fligner.test Robusten na odstopanja od normalnosti. Temelji na rangih-
leveneTest Tudi ta je robusten na odstopanja od normalnosti. To je test,ki ga npr. izpise SPSS. Na voljo je v paketku car.
Enofaktorsko analizo variance in njeno neparametricno razlicico lahko izve-demo s sledecimi funkcijami:
oneway.test Izvede klasicno in Welch-ovo enofaktrsko analizo variance
aov Bolj splosna funkcija za analizo variance (tudi vecfaktorsko), ki pa neomogoca moznosti za razlicne variance (vsaj ne enostavno).
kruskal.test Kruskal-Wallis-ov test vsote rangov - Neparamtericna razlicicaanalize variance oz. razlicica Mann-Whitney-evega testa za vec kot 2vzorca.
3
Pozor: Funkcija aov tako kot veliko drugih statisticnih funkcij kot glavniargument sprejme formulo, ki pove, vpliv katerih neodvisnih spremenljivk nakatero odvisno spremenljivko preucujemo. Ce zelimo, da se neodvisne spre-menljivke obravnavajo kot nominalne spremenljivke (in ne kot intervalne),morajo obvezno biti tipa faktor (ali kvecjemu characer, ki ga funkcija avto-maticno premeni v faktor). Sicer je tisto, kar dobimo, bolj podobno linearniregresiji.
Za primerjave, katera povprecja so razlicna lahko uporabimo funkcijo pa-irwise.t.test. Parne primerjave namrec niso nic drugega kot t-testi, kjerdobljene p-vrednosti popravimo tako, da je skupno tveganje enako izbranistopnji α. Pri funkciji pairwise.t.test lahko izberemo tudi metodo popravkap-vrednosti. Priporocena je Holmova metoda, ki je tudi splosno veljavna 3 inje boljsa kot Bofferonijeva.
Najprej pripravimo in preglejmo podatke, ki jih bomo uporabljali pri v na-daljevanju (ne izkljucno le v tej tocki).
Slika 2: Porazdelitev bruto place po krajih bivanja
}
> par(mfrow=c(1,1))
> plot(G91~F5,data=data)
Opazimo lahko, da imamo razmeroma malo enot po posameznih kategorijah,vendar pa se vedno v vsaki nad 30. Morda bi bilo sicer smiselno narediti manjkategorij, a glede na opisne statistike se kaksna zelo smiselno rekodiranjeravno ne ponuja4.
Iz opisnih statistiki lahko opazimo, da so standardni odkloni (koreni varianc)po skupinah razmeroma podobni. Tako lahko tudi brez testa sklepamo, das predpostavko o enakosti varianc ne bi prevec zgresili. Bolj pa je proble-maticno, ker je asimetrija in se bolj konicavost bistveno visja v zadnjih dvehkategorijah (vas in kmetija). To je razvidno tudi iz slike 2. Kljub temu bomoza demonstracijo izvedli tudi vse teste.
> bartlett.test(G91~F5,data=data)
4Ce bi sicer kategorije zdruzevali na podlagi opisnih statistik (predvsem aritmeticnihsredin), bi bilo to narobe. Test, ki bi ga naredili na podlagi tako zdruzenih kategorij ne bibil veljaven.
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 4 1.789 0.1307
320
> #robusten na odstopanja od normalnosti
#tega uporablja SPSS
Barlettov in Levenov test pokazeta, da bi lahko domnevo o enakosti varianczavrnili sele pri malce vec kot 10% tveganju. Nasprotno pa Fligner-Killeen-jev test hipotezo zavrne ze pri 2.3% tveganju. Glede na to, da same razlikemed standardnimi odkloni niso tako velike bi jaz predpostavko o enakostivarianc obdrzal. Kljub temu pa bom izvedel (za demonstracijo) obe razli-cici analize variance (klasicno in Welch-ovo). Poelg tega bomo izvedli tudoneparametrici Kruskal-Walis-sov test.
> #predpostavljamo enake variance
> oneway.test(G91~F5,data=data,var.equal=TRUE)
One-way analysis of means
data: G91 and F5
F = 2.7695, num df = 4, denom df = 320, p-value =
0.02742
> #predpostavljamo razlicne variance
> #var.equal=FALSE bi lahko tudi izpustili, ker je to
Obe razlicici ANOVEnam vrneta zelo podoben rezultat. Glede na oba lahkos tveganjem manjsim kot 3% trdimo, da se povprecna bruto placa razlikujeglede na kraj bivanja. Glede na Kruskal-Walis-sov test pa lahko predpo-stavko o enakosti srednjih vrednosti zavrnemo ze pri 1.4% tveganju. Pozor:Spomnite se prejsnjih predavanj - domneva, ki jo preverjamo ni vec enaka.
Perglejmo se, katera povprecja so enaka.
> TukeyHSD(fit) #fit mora biti rezultat funkcije aov
Tukey multiple comparisons of means
95% family-wise confidence level
9
Fit: aov(formula = G91 ~ F5, data = data)
$F5
diff lwr upr
Predmestje-Veliko mesto -35.188889 -112.55949 42.181712
Majnse mesto-Veliko mesto -1.632468 -72.28018 69.015248
Vas-Veliko mesto -42.272662 -108.35533 23.810003
Kmetija-Veliko mesto -67.394118 -149.61878 14.830549
Pairwise comparisons using t tests with non-pooled SD
data: data$G91 and data$F5
Veliko mesto Predmestje Majnse mesto Vas
Predmestje 0.821 - - -
Majnse mesto 1.000 0.754 - -
Vas 0.754 1.000 0.233 -
Kmetija 0.233 0.754 0.041 0.821
P value adjustment method: holm
Ce predpostavljamo enake variance lahko najdemo znacilne razlike sele pri10% tveganju (oz. 6-8%) in se to le med Manjsim mestom in Kmetijo. Po-dobno je tudi, ce privzamemo, da so variance razlicne, le da lahko v temprimeru to trditev postavimo ze pri 4.1% tveganju.
Za konec povprecja se graficno predstavimo v Sliki 3.
11
●
●
●
●
●
150
200
250
300
F5
G91
●
●
●
●
●
Veliko mesto Majnše mesto Vas Kmetija
n=30 n=45 n=77 n=139 n=34
Slika 3: Porazdelitve uporabljenih spremenljivk
> library(gplots)
> plotmeans(G91~F5,data=data)
2.2 Vecfaktorska analiza variance za neodvisne vzorce
Vecfaktorska analiza variance je analiza variance, kjer so skupine dolocene zvec kot enim faktorjem. Z njo torej preverjamo domnevo o vplivu dveh alivec nominalnih (oz. vsaj tako jih obravnavamo) neodvisnih spremenljivk naodvisno spremenljivko.
Predpostavke vecfaktorske analize variance so podobne predpostavkam eno-faktorske ⇒ porazdelitev v vseh skupinah/celicah (dolocenih z kombinacijovseh faktorjev (neodvisnih spremenljivk) je normalna z enako varianco.
Analiza je bistveno bolj enostavna, ce so neodvisne spremenljivke med sebojneodvisne/nepovezane, kar pa se v druzboslovju (oz. kjerkoli, kjer podatkedobimo z opazovanje/anketiranjem in ne eksperimentom) redko zgodi. Vprimeru da neodvisne spremenljivke med seboj niso neodvisne, je pomem-ben vrstni red faktorjev. Model namrec najprej ”poskusa” pojasniti cim vecvariabilnosti odvisne spremenljivke s 1. faktorjem, nato z 2., 3., ...
Rezultati se torej spremenijo, ce zamenjamo vrstni red faktorjev. Od vr-
12
stnega reda je tudi odvisna, kaj nek test sploh preverja. Pri prvem faktorjutest preverja, ali leta pojasni vsaj nekaj variabilnosti odvisne spremenljivke(oz. ali vpliva nanjo). Pri vseh ostalih pa preverja, ali faktor pojasni kakdel variabilnosti odvisne spremenljivke, ki se ni pojasnjen s faktorji, ki sov modelu pred obravnavanim faktorjem. Vse to velja, ce uporabimo ”kla-sicno” vsoto kvadratov oz. vsoto kvadratov tipa ”I”. Obstajajo tudi drugevrste vsote kvadratov (glejte prosojnice). Pri nekaterih od njih vrstni redfaktorjev/ucinkov ni pomemben.
Preverjamo lahko tudi, ali obstaja interakcija med vplivi posameznih fak-torjev. Interakcija med vplivi faktorjev pomeni, da se vpliv nekega faktorjarazlikuje glede na vrednosti nekega drugega faktorja.
Na nasem primeru bomo preverjali, ali lahko trdimo, da kraj bivanja in spolvplivata na bruto placo. Poleg tega bomo preverili tudi, ali lahko trdimo, davpliva na bruto placo spol, ce predhodno kontroliramo za vpliv kraja bivanja.
Pred izracunom bomo pripravili podatke in sicer tako, da bomo samo po-trebne spremenljivke zdruzili v nov podatkovni okvir. Tu bomo potem od-stranili vse enote, ki imajo manjkajoco vrednost pri katerikoli spremenljivki.To bomo naredili, da bomo v nadaljevanju pri vseh analizah upostevali isteenote (kar nam bo omogocalo, da bomo modele primerjali med seboj.
Pripravimo torej najprej nov podatkovni okvir in odstranimo enote z manj-kajocimi vrednostmi. Nato podobno kot pri enofaktorski anovi preverimopredpostavke.
Opazimo lahko, da je sedaj v nekaterih skupinah ze zelo malo enot. Standar-dni odkloni med skupinami niso pretirano podobni, se pa precej razlikujejokoeficienti asimetrije in sploscenosti. Vsekakor rezultati kazejo na to, da po-razdelitev v vseh skupinah ni (niti priblizno) normalna in tudi ne podobnamed skupinami. Predpostavke metode torej niso izpolnjene in torej moramorezultate metode jemati z veliko rezervo.
Sedaj najprej ponovimo enofaktorsko ANOVO s funkcijo aov za vsak faktorposebej. Poleg tega preverimo tudi, ali sta neodvisni spremenljivki med sebojpovezani.
> fitG91_F5<-aov(G91~F5,data=dataAov)
> summary(fitG91_F5)
14
Moški, Veliko mesto
Bruto placa
Fre
quen
cy
0 100 200 300 400 500
01
23
45
Moški, Predmestje
Bruto placa
Fre
quen
cy
100 200 300 400 500
01
23
45
67
Moški, Majnše mesto
Bruto placa
Fre
quen
cy
100 300 500 700
05
1015
Moški, Vas
Bruto placa
Fre
quen
cy
0 200 400 600 800
05
1015
2025
3035
Moški, Kmetija
Bruto placa
Fre
quen
cy
0 100 300 500
05
1015
Ženski, Veliko mesto
Bruto placa
Fre
quen
cy
0 100 200 300 400 500
01
23
45
6
Ženski, Predmestje
Bruto placa
Fre
quen
cy
100 200 300 400
01
23
45
6
Ženski, Majnše mesto
Bruto placa
Fre
quen
cy
100 200 300 400 500
02
46
810
12Ženski, Vas
Bruto placa
Fre
quen
cy
0 200 400 600
05
1015
2025
30
Ženski, Kmetija
Bruto placa
Fre
quen
cy
100 150 200 250 300 350
01
23
4
Slika 4: Porazdelitev bruto place po krajih bivanja in spolu
Vidimo lahko, da lahko ob predpostavki, da so predpostavke klasicne analizevariance (normalnost, enake variance) izpolnjene pri 5.9% tveganju trdimo,da kraj bivanja vpliva na bruto placo, in pri 4.2% tveganju, da spol vplivana bruto placo.
Prav tako vidimo, da sta v nasih podatkih (tistih, ki jih bomo uporabili prianalizi variance) spremenljivki kraj bivanja in spol sibko povezani. Ocitnoje to posledica tega, da upostevamo samo enote z veljavnimi vrednostmiza bruto placo. Na vseh enotah namrec povezanosti ni oz. ni statisticnoznacilna.
Rekli smo, da bomo preverjali, ali lahko trdimo, da kraj bivanja in spol vpli-
16
vata na bruto placo. Test celotnega modela je malce zahtevnejsi. Standardnefunkcije ga ne izvedejo. Lahko pa ga izvedemo zelo enostavno tako, da modelprimerjamo z nicelnim modelom, to je modelom, kjer nimamo pojasnjevalnihspremenljivk. V tem modelu so napovedi enake povprecju.
Poleg tega bomo preverili tudi, ali lahko trdimo, da vpliva na bruto placospol, ce predhodno kontroliramo za vpliv kraja bivanja. Torej, bomo v modelkot 1. spremenljivko dali kraj bivanja, kot 2. pa spol.
� Pri 5.5% tveganju lahko trdimo, da kraj bivanja vpliva na bruto placo.Stopnja tveganaj je manjsa kot pri enofaktorski anovi (kjer je bila5.9%), ker je manjsa nepojasnjena varianca (del je sedaj pojasnjenes spolom).
� Pri 1.6% lahko trdimo, da spol vpliva na bruto placo, ce kontroliramoza kraj bivanja. Opazimo, da je ta stopnja tveganja bistveno manjsakot prej. Pravzaprav lahko opazimo tudi, da je pojasnjena vsota kva-dratov (pri spolu) vecja. To pomeni, da so razlike v bruto placi medspoloma vecje, ce jih gledamo loceno po krajih bivanja, kot ce jih gle-damo skupaj.
� S tveganjem 1% lahko trdimo, da spol ali kraj bivanja (vsaj ena izmedteh dveh spremenljivk) vplivata na bruto placo.
Preverimo se, ali obstaja tudi interakcija med vplivom spola in kraja bivanja.Ta ”ucinek” moramo v model vedno dati kot zadnji.
Vidimo, da interakcija med ucinkoma ni statisticno znacilna. Torej ne mo-remo trditi, da spol drugace vpliva na bruto placo v razlicnih krajih bivanja.Posledicno tudi opazimo, da se skupna znacilnost modela zaradi vkljucitveinterakcije zniza.
2.3 Enofaktorska analiza variance za odvisne vzorce
Pogledali si bomo le najenostavnejsi primer analize variance za odvisne vzorce.Analiza variance za odvisne vzorce je sorodna t-testu za odvisne vzorce, leda je vzorcev/spremenljivk, katerih povprecje preverjamo vec.
Analizo variance za odvisne vzorce lahko prav tako kot prejsnje tipe naredimopreko funkcije aov z ustreznimi argumenti, vendar pa moramo pred uporabopodatke prilagoditi. Podatke moramo preurediti v podobno obliko, kot joimamo pri neodvisnih vzorcih. Torej moramo imeti eno odvisno spremen-ljivko in spremenljivko, ki ”identificira”vzorce (oz. originalne spremenljivke).Poleg tega pa moramo za vsak podatek tudi vedeti, kateri enoti pripada. Zavsako enoto moramo imeti podatke za vse vzorce/spremenljivke.
Za to je uporabna tale funkcija:
> razsiriPodatke<-function(X,id=rownames(X),
varNames=colnames(X)){
# funkcija za pretvorbo podatkov v obliko,
# kot jo razumeta funkciji aov ali lm
n12<-dim(X)
n<-n12[1]
m<-n12[2]
if(is.null(varNames)) varNames<-1:m
if(is.null(id)) id<-1:n
res<-NULL
for(i in 1:m){
res<-rbind(res,data.frame(id=id,x=X[,i],
19
var=varNames[i]))
}
return(res)
}
Funkcijo aov uporabimo sicer kot obicajno, le da navedemo, katera spre-menljivka nam ”indetificira” enote oz. natancneje povemo, napake katerih”zapisov” so korelirane. Pozot: Klic funkcije je razmeroma casovno zahte-ven.
Preverjali bomo domnevo, ali Slovenci enako zaupajo/mo Drzavnemu zboru(spremenljivka B4), evropskem parlamentu (B9) in Zdruzenim narodom (B10).Preglejmo najprej opisne statistike in pripravimo podatke.
> dataB4910<-na.omit(data[c("B4","B9","B10")])
> #za uporabo funkcije razsiriPodatke pripravimo
> #nov podatkovni okvir z le uporabljenimi spremenljivkami
> describe(dataB4910)
var n mean sd median trimmed mad min max range
B4 1 1213 4.13 2.38 4 4.10 2.97 0 10 10
B9 2 1213 4.53 2.41 5 4.56 2.97 0 10 10
B10 3 1213 4.57 2.67 5 4.60 2.97 0 10 10
skew kurtosis se
B4 0.10 -0.57 0.07
B9 -0.08 -0.69 0.07
B10 -0.04 -0.82 0.08
> dataB4910raz<-razsiriPodatke(dataB4910)
> dataB4910raz[1:10,] #novi podatki izgledajo takole
id x var
1 1 3 B4
2 2 3 B4
3 3 3 B4
4 4 3 B4
5 5 0 B4
6 6 3 B4
7 7 5 B4
8 8 5 B4
9 9 0 B4
10 10 3 B4
Vidimo, da je zaupanje v Evropski parlament in Zdruzene narode bistveno
20
visje kot v Drzavni zbor. Preverimo, ali je razlika statisticno znacilna.
Pri zanemarljivi stopnji tveganja lahko trdimo, da Slovenci ne zaupamo vsemtrem institucijam enako.
3 Linearna regresija
Tukaj je prikazana le primer izvedbe linearne regresije. Za teorijo glejteprosojnice. S pomocjo linearne regresije bomo pogledali, kako kraj bivanja,spol, stevilo let solanja in tipicno stevilo delovnih ur na teden vplivajo nabruto placo.
21
3.1 Dodatne spremenljivke
Tudi tu najprej predstavimo uporabljene spremenljivke. Poleg tistih, ki smojih ze uporabili pri analizi variance bomo uporabili se spremenljivki F7 ”Ste-vilo let solanja” in F21 ”Tipicno stevilo delovnih ur (vkljucno z nadurami)na teden”. Graficni prikaz njunih porazdelitev je prikazan na Sliki 5. Pritem bomo upostevali samo enote, ki imajo veljavne vrednosti opri vseh spre-menljivkah, ki jih bomo uporabili v regresiji (v katerem-koli modelu - to so:G91, gndr, F5, F7 in F21). Na teh podatkih bomo opravili sicer tudi vselinearne regresije. V praksi je sicer (vsaj na koncu) bolje, ce upostevamovse razpolozljive podatke (torej tiste enote, ki imajo veljavne vrednosti naspremenljivkah, ki jih uporabimo v nekem modelu).
Ugotovimo lahko, da lahko na s variabilnostjo v stevilu let solanja pojasnimo26.4% variabilnosti v bruto placi. Ce se stevilo let solanja poveca za eno leto,se bo bruto placa v povprecju povecala za 19.3 tisoc sit. Vpliv stevila letsolanja na bruto placo je staticno znacilen pri zanemarljivi stopnji tveganja.
S pomocjo funkcije confint iz paketka car smo izracunali tudi 90% intervalezaupanja za regresijski koeficient in konstanto.
Na podlagi rezultata smo na Sliko 6 premico, ki prikazuje ocenjeni odnos medspremenljivkama. Ocitno je, da se premica pri velikih in majhnih vrednostihspremenljivke ”Stevilo let solanja” ne prilega.
To je morda se bolj ocitno, ce si pogledamo graf, kjer na y os nanasamoreziduale, na x os pa vrednosti neodvisne spremenljivke (1. graf na Sliki 7).Iz histograma na Sliki 7 pa se vidi, da je krsena tudi predpostavka o normalniporazdelitvi rezidualov/napak. Podobne zakljucke lahko izpeljemo tudi napodlagi grafikonov na Sliki 8, kjer so (za R ) standardni diagnosticni prikaziza linearno regresijo (tudi multiplo).
Graf levo zgoraj je podoben kot nas razsevni grafikon, le da so na y osinapovedane vrednosti in ne neodvisna spremenljivka. Pri bivarianti regresijigre pravzaprav le za linearno transformacijo skale (mnozenje in sestevanje),pri multipli pa sluzi to kot nek nadomestek za vse neodvisne spremenljivke(saj so napovedane vrednosti linearne kombinacije neodvisnih spremenljivk).
Graf desno zgoraj pa prikazuje podobno informacijo kot histogram. Imenujese Q-Q plot (Q je okrajsava za qunatile). Ce so reziduali normalno porazde-ljeni, lezijo vse tocke na crtkani premici.
25
●
●
●
●
● ●●
●
●●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●●●
●
● ●●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●●
●
●● ●
●
●● ●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●● ●
●
●
●
●
●●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●●
●●
● ●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●●●
●
●
●
●
●
● ●●
●
●
●
●
●●
●●
●●
●
●
●
●
●●
●
●
●
●
5 10 15 20
−20
00
200
400
Razsevi grafikon rezidualov glede na vrednosti neodvisne spremenljivke
Ugotovili smo, da morda linearna zveza med spremenljivkama na danih po-datkih ni najbolj optimalna. Odnos je videti dosti bolj linearen, ce brutoplaco logaritmiramo. Na takih podatkih lahko ocenimo tudi linearno regre-sijo. Rezultat lahko potem narisemo tudi na originalni lestvici. Oboje jeprikazano na Sliki 9)
26
0 100 200 300 400
−20
00
200
400
Fitted values
Res
idua
ls
●
●
●
●
● ●●
●
●●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●●●
●
● ●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●●
●
●
● ●
●
●● ●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●●●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
Residuals vs Fitted
516
334686
●
●
●
●
●●●
●
●●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
−3 −2 −1 0 1 2 3
−2
02
4Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
516
3341056
0 100 200 300 400
0.0
0.5
1.0
1.5
2.0
Fitted values
Sta
ndar
dize
d re
sidu
als
●
●
● ●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●● ●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●●
●
●●
●● ●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
Scale−Location516
3341056
0.00 0.01 0.02 0.03 0.04 0.05
−2
02
4
Leverage
Sta
ndar
dize
d re
sidu
als
●
●
●
●
●●●
●
●●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●●
●
●● ●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●●
●
●● ●
●
● ●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
Cook's distance
0.5
Residuals vs Leverage
1056334
516
Slika 8: Diagnosticni grafikoni za linearno regresijo
Vendar pa se moramo zavedati, da kadar koli transformiramo odvisno spre-menljivko, izracuni niso vec pravilni oz. optimalni. V tem primeru ne mi-nimiziramo namrec vec vsoto kvadratov originalne, ampak transformiranespremenljivke (linearna regresija za ocenjevanje uporablja metodo najmanj-sih kvadratov). Zaradi istega razloga tudi statistike R2 in podobne nisopravilne. Pravilen izracun za R2 bi bil:
> resLog<-dataLR$G91- exp(fitLnG91_F7$fitted)
> odkloniPov<-dataLR$G91- mean(dataLR$G91)
> R2log<-1-sum(resLog^2)/sum(odkloniPov^2)
> R2log
[1] 0.2553071
Dejanski R2 je torej se nizji. Sedaj smo sicer pravilno izracunali R2, a sevedno je ocenjevanje parametrov ne-optimalno. Idealno bi namrec moraliparametre ocenjevati tako, da bi minimizirali vsoto kvadratov odklonov ori-
28
●●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●● ●
●
●
●
●
●
●
●●
●
●
●
●●
●
●● ●
●●
●
●●
●●●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
5 10 15 20
4.0
4.5
5.0
5.5
6.0
6.5
Pollogaritemski grafikon
Število let šolanja
Loga
ritem
bru
to p
lace
v 1
000
sit
●●
●
●
●
●●
●
●●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
● ●
● ●●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●●
●
●
●
●●●
●
●
●●
●●
●
●●
●●
●
●
●● ●
●
●
●●●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●● ●
●
●
●
●
●
●●
●
●
●
●
●●●●● ●
●●
●●
●
●●●
●
●
●
●●
●●●●
●
●●
●
●
●
●
●
●
●
5 10 15 20
100
300
500
700
Originalna skala
Število let šolanjaB
ruto
pla
ca v
100
0 si
t G91 ′ = e(4.309+0.079F7)
Slika 9: Exponentna zveza - transformacija
ginalne spremenljivke.
To lahko naredimo takole:
> expZveza<-function(b,y,X){
X<-as.matrix(X)
ss<-sum((y - exp(cbind(1,X)%*%b))^2)
return(ss)
}
> optExp<-optim(par=coef(fitLnG91_F7),
fn=expZveza,y=dataLR$G91,X=dataLR[c("F7")])
> resOptim<-dataLR$G91 -
exp(optExp$par[1] + optExp$par[2]*dataLR$F7)
> odkloniPov<-dataLR$G91-mean(dataLR$G91)
> R2optim<-1-sum(resOptim^2)/sum(odkloniPov^2)
> R2optim
[1] 0.29543
> R2log
[1] 0.2553071
> summary(fitG91_F7)$r.sq
[1] 0.2639079
29
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●●●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
5 10 15 20
100
200
300
400
500
600
700
Število let šolanja
Bru
to p
laca
v 1
000
sit
G91 ′ = e(4.23+0.092F7)
linearna zvezaeksponentna zveza preko transformacijeeksponentna zveza preko optimizacije
Slika 10: Ocenjevanje nelinearne zveze
> plot(G91~F7,data=dataLR,ylab="Bruto placa v 1000 sit",
Rezultat ocenjevanja je prikazan na Sliki 10. Vidimo pa tudi lahko, da jesedaj R2 znatno vecji kot pri kateremkoli prejsnjem pristopu in znasa 0.3.
30
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●●
●●
●
●●
●●●
●
●
●
●●
● ●
●●
●
●●
●
●
●
●
●
●
●
0 20 40 60 80
100
200
300
400
500
600
700
Tipicno število delovnih ur (vkljucno z nadurami) na teden
Bru
to p
laca
v 1
000
sit
Slika 11: Odnos med bruto placo in tipicnim stevilom delovnih ur na teden
3.4 Multipla regresija
Sedaj razsirimo nas model tako, da vkljucimo se eno intervalno neodvisnospremenljivko in sicer F21 ”Tipicno stevilo delovnih ur (vkljucno z nadurami)na teden”.
Tudi za to spremenljivko je dobro pred vkljucitvijo preveriti obliko njenepovezanosti z odvisno spremenljivko. Leta je prikazana v Sliki 11
> par(mar=mar.def+c(0,0,-3,0))
> plot(G91~F21,data=dataLR,ylab="Bruto placa v 1000 sit",
xlab="Tipicno stevilo delovnih ur (vkljucno z nadurami) na teden")
Kaksne posebne povezanosti med spremenljivkama ne vidimo. Ker pa zelimoto tudi formalno preveriti, jo bomo vseeno vkljucili v linearno regresijo. Pritem bomo tudi ”kontrolirali” za vpliv izobrazbe, torej ”Stevila let solanja”.Opomba: Pri linearni regresiji vrstni red vkljucitve ni pomemben.
Kljub temu, da bi bila glede na nase podatke bolj primerna nelinearna re-gresija bomo (zaradi pedagoskih razlogov) nadaljevali z linearno. Enostavenpopravek bi bil, ce bi samo zamenjali G91 (bruto placo) z logaritmom te
31
spremenljivke, kar sicer (kot smo videli) ni optimalno.
> fitG91_F7F21<-update(fitG91_F7,.~.+F21)
> #prejsnjemu modelu dodamo dodatno neodvisno spremenljivko
F-statistic: 88.2 on 1 and 246 DF, p-value: < 2.2e-16
Za primerjavo smo izpisali se rezultat modela brez spremenljivke F21. Vi-dimo, lahko, da vpliv spremenljivke F21 (kot smo pricakovali glede na Sliko11) ni statisticno znacilen. Posledicno tudi njena vkljucitev ne vpliva bistvenorezultate (R2 se je sicer malce povecal, popravljeni R2 pa malce zmanjsal;vpliv F7 na G91 je ostal skoraj nespremenjen). Vseeno pa je interpretacija re-gresijskih koeficientov pri multipli regresiji malce drugacna. Npr. regresijskikoeficient za stevilo let solanja 19.3 pomeni, da se bruto placa poveca za 19.3tisoc sit tolarjev, ce se stevilo let solanja poveca za eno leto in ostane tipicnostevilo delovnih ur na teden nespremenjeno oz. ce ostanejo vrednosti vsehostalih neodvisnih spremenljivk (tu imamo pac samo eno) nespremenjene.
Pri multipli regresiji je pomemben rezultat tudi F statistika in pripadajociF -test. Leta nam v nasem primeru pove, da lahko pri zanemarljivi stopnjitveganja trdimo, da vsaj ena izmed neodvisnih spremenljivk vpliva na odvi-sno spremenljivko.
Tudi tu bi bilo dobro preveriti porazdelitev rezidualov. To storimo podobnokot pri biavariatni regresiji, le da, ker imamo dve neodvisni spremenljivki bimorali narisati razsevni grafikon 2x (vsakic drugo neodvisno spremenljivkona x osi. Taka grafa sta prikazana na Sliki 12. Tako kot pri bivariatni regresijilahko na 1. grafu jasno opazimo heteroskedasticnost, na drugem pa bi tezkoz gotovostjo prepoznali nek vzorec (na sredini osi x sicer izgleda variabilnostnajvecja, a je tam tudi najvec vrednosti).
Slika 12: Reziduali v odvisnosti od vrednosti neodvisnih spremenljivk
Ker pa je takih grafov lahko pri multipli regresiji veliko, je bolj prakticno,da narisemo samo en graf, kjer na y os nanasamo napovedane vrednosti inne neodvisne spremenljivke. Kot smo ze omenili, tako napovedane vrednostisluzijo kot nek nadomestek za vse neodvisne spremenljivke (saj so napove-dane vrednosti linearne kombinacije neodvisnih spremenljivk). Tak graf jeskupaj z histogramov rezidualov prikazan na Sliki 13.
R -ovi standardni diagnosticni prikazi za linearno regresijo so prikazani naSliki 14.
V linearno regresijo lahko kot kot neodvisne spremenljivke vkljucimo tudi no-minalne spremenljivke in sicer preko umetnih spremenljivk. Umetnih spre-menljivk nam ni potrebno kreirati, saj jih avtomaticno kreira funkcija lm.Kot referencno kategorijo izbere tisto, ki je pri faktorju navedena kot prvav levels (Opomba: Funkcija lm kot nominalne spremenljivke obravnava lespremenljivke tipa factor in character, ki pa jih pred uporabo spremeni v tipfactor).
Pozor: Funkcija lm obravnava spremenljivke tipa ordered oz. urejen factortako, da za njih na poseben nacin izracuna ”kontraste”. Ta nacin ne bomoobravnavali in je razmeroma zahteven za interpretacijo in razumevanje, zatoje priporocljivo, da tudi za ordinalne spremenljivke uporabljate neurejenfactor.
Poglejmo najprej najenostavnejsi primer, ko ima nominalna spremenljivkasamo 2 vrednosti. Torej v nas model vkljucimo se spol.
F-statistic: 33.79 on 3 and 244 DF, p-value: < 2.2e-16
Vidimo lahko, da imamo med rezultati dodatne regresijski koeficient ”gndr-Zenski”. Iz tega vidimo, da je bila kot referencna kategorija vzeta kategorija’Moski’, saj lete ni med koeficienti. Vrednost tega koeficienta -40.2 nam pove,da imajo zenske v povprecju pri enakih vrednostih ostalih spremenljivk (izo-brazba, st. del. ur na teden) za 40.2 tisoc sit tolarjev nizjo placo kot moski.Pri takem kodiranju je vrednost regresijskega koeficienta vedno primerjava iz-brane kategorije z referencno. Vpliv spola je statisticno znacilen pri tveganjumanj kot 0.2%.
Opomba: Klasicna interpretacija v smislu, da se odvisna spremenljivka spre-meni za b[x], ce se x poveca za eno enoto in ostale spremenljivke ostanejonespremenjene tu ni primerna, ker se spol pri neki osebi naceloma ne morespremeniti.
F-statistic: 14.68 on 7 and 240 DF, p-value: 6.859e-16
Ker je bila kot referencna kategorija izbrana ”Veliko mesto”, imamo v izpisuregresijske koeficiente za vse ostale kategorije. Vsak izmed teh regresijskihkoeficientov nam poda primerjavo med to neko kategorijo in velikim mestom.Tako nam vrednost koeficienta ”F5Vas”12 nam pove, da imajo osebe, ki zivijona vasi v povprecju pri enakih vrednostih ostalih spremenljivk (izobrazba, st.del. ur na teden, spol) za 12 tisoc sit tolarjev visjo bruto placo kot tisti, kizivijo v velikih mestih.
Opomba: Ce zelimo nastaviti kaksno drugo kategorijo kot referencno, to naj-lazje storimo tako, da zamenjamo vrstni red levels pri faktorju pred klicemfunkcije lm. Ce bi zeleli, da je na primer referencna kategorija ”Manjse me-sto”, lahko to najlazje dosezemo takole:
> #sedaj je kot referencna kategorija uporabljeno "Manjse mesto"
Opazimo lahko, da bi pri enakih vrednostih ostalih neodvisnih spremenljivk vvseh drugih krajih bivanja v povprecju pricakovali vecjo bruto placo tok v ve-likem mestu, vendar pa ni nobeden izmed regresijskih koeficientov statisticnoznacilen (niti pri 10% tveganju).
38
Vendar pa na podlagi tega izpisa ne moremo trditi, da kraj bivanja ne vplivana bruto placo (oz. niti tega, da tega ne moremo trditi pri npr. 10% tve-ganju). Ta preverjanje te domneve bi morali s pomocjo F -testa primerjatita model z modelom brez kraja bivanja (s prejsnjim). Med tem ko na po-samezne regresijske koeficiente in posledicno tudi na teste znacilnosti izborreferencne kategorije vpliva, leta nima vpliva na rezultate F -testa.
> anova(fitG91_F7F21gndr,fitG91_F7F21gndrF5)
Analysis of Variance Table
Model 1: G91 ~ F7 + F21 + gndr
Model 2: G91 ~ F7 + F21 + gndr + F5
Res.Df RSS Df Sum of Sq F Pr(>F)
1 244 2401459
2 240 2380297 4 21162 0.5334 0.7113
Sele ta primerjava nam pove, da bi morali tvegati vec kot 70%, ce bi zeleli tr-diti, da kraj bivanaj vpliva na bruto placo, potem ko kontroliramo za stopnjoizobrazbe, stevilo delovnih ur in spol.
3.6 Interakcije med spremenljivkami
Interakcije med (ucinki) spremenljivk vkljucimo tako, da kot dodatno ne-odvisno spremenljivko v model vkljucimo zmnozek spremenljivk (v primerunominalnih ustrezno kodiranih ⇒ npr. umetne spremenljivke) .
Pozor: Ko navajamo v R -ju ”formulo” (npr: y ˜x1 + x2), znak ”*” pomeni,da zelimo vkljuciti v model izbrane spremenljivke in vse mozne interakcijemed njimi in ne dejanskega mnozenja (npr. upostevajo ste tudi tipi spre-menljivk). Ce zelimo vkljuciti samo interakcijo, potem damo med spremen-ljivki(ke) znak ”:”. Tako je na primer y ˜x1*x2*x3 enako kot y ˜ x1 + x2+ x3 + x1:x2 + x1:x3 + x2:x3. Ce zelimo, da se neka operator (npr. *)interpretira dobesedno, damo izraz kot argument funkciji I (npr. I(x1*x2).
Ce zelimo torej vkljuciti interakcijo med spolom in izobrazbo (to sta edninispremenljivki, ki sta imeli statisticno znacilen vpliv), lahko to naredimo ta-kole.
F-statistic: 13.22 on 8 and 239 DF, p-value: 8.714e-16
Opazimo lahko, da vpliv interakcije ni statisticno znacilen. Prav tako pa nivec statisticno znacilen vpliv spola. To je posledica multikolinearnosti, kijo bomo omenili v naslednji tocki. Problem lahko zmanjsamo, ce intervalnespremenljivke pred racunanjem interakcije centriramo (od vsake vrednostiodstejemo povprecje). Zaradi lepsega izpisa je bolje, da to naredimo predklicem funkcije lm.
F-statistic: 13.22 on 8 and 239 DF, p-value: 8.714e-16
Opazimo lahko, da se je spremenil le koeficient za spol, vsi ostali rezultai(vkljucno z R2 in F -statistiko pa so ostali nespremenjeni.
3.7 Preverjanje predpostavk
3.7.1 Analiza rezidualov
Deloma smo preverjanje predpostavk ze obdelali, ko smo si ogledali diagno-sticne grafikone za porazdelitev rezidualov. Veliko predpostavk je namrecvezanih na porazdelitev rezidualov. Se na zadnjem modelu (z interakcijo 2)poglejmo standardne grafikone za diagnostiko. Grafi so prikazani na Sliki 15.
> par(mfrow=c(2,2))
> plot(fitG91_F7F21gndrF5int2)
> par(mfrow=c(1,1))
Kaj vse lahko razberemo iz teh grafikonov:
� Ze na 1. grafu (levo zgoraj) opazimo, da je variabilnost rezidualov ve-cja pri vecjih placah kot pri manjsih. To lahko se lepse opazimo na3. grafu (levo spodaj). Graf je podoben zgornjemu (1.), le da sedaj
41
0 100 200 300 400
−20
00
200
400
Fitted values
Res
idua
ls
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●●● ●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
● ●
●●●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
Residuals vs Fitted
516334
686
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
−3 −2 −1 0 1 2 3
−2
−1
01
23
45
Theoretical QuantilesS
tand
ardi
zed
resi
dual
s
Normal Q−Q
516334
686
0 100 200 300 400
0.0
0.5
1.0
1.5
2.0
Fitted values
Sta
ndar
dize
d re
sidu
als
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●● ●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
Scale−Location516
334
686
0.00 0.02 0.04 0.06 0.08 0.10 0.12
−2
02
4
Leverage
Sta
ndar
dize
d re
sidu
als
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
● ●
●
●●
●●
●
●●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
● ●●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●●●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●●
●
●
●
Cook's distance
Residuals vs Leverage
334
1056
516
Slika 15: Diagnosticni grafikoni za linearno regresijo - model z interakcijo
namesto ”surovih” rezidualov nanasamo na y os korenjene absolutnestandardizirane reziduale. Pri tem je bistveno predvsem to, da nana-samo absolutne vrednosti. Rdeca crta, ki prikazuje glajena povprecja bimorala biti v primeru homeoskedasticnosti (izpolnjene predpostavke)ravna, pri nas pa je ocitno, da od takrat, ko imamo neko vecje steviloenot vseskozi narasca. Torej je prisotna heteroskedasticnost.
� Na 2. grafu (desno zgoraj) lahko opazimo, da tocke ne lezijo na premici,ker pomeni, da se reziduali ne porazdeljujejo normalno. Predvsem vi-dimo, da imamo prevec zelo velikih vrednosti. Enako lahko razberemotudi iz histograma razidualov z vrisano normalno krivuljo na Sliki 16.
Za preverjanje heteroskedasticnosti obstaja v paketku car tudi formalni test(funkcija ncvTest - test nekostantne variance napak). Prav tako ta paketekponuja se dodatni grafikon, ki narise studentizirane residuale v odvisnostiod napovedanih vrednosti (funkcija spreadLevelPlot), ki poleg tega tudi pre-dlaga tudi transformacijo odvisne spremenljivke za odpravljanje problemaheteroskedasticnosti. Graf je prikazan na Sliki 17.
> ncvTest(fitG91_F7F21gndrF5int2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 18.13071 Df = 1 p = 2.062477e-05
> spreadLevelPlot(fitG91_F7F21gndrF5int2)
Suggested power transformation: 0.4406967
43
50 100 200 500
0.01
0.05
0.20
0.50
2.00
5.00
Spread−Level Plot for fitG91_F7F21gndrF5int2
Fitted Values
Abs
olut
e S
tude
ntiz
ed R
esid
uals
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
Slika 17: Grafikon za ocenjevanje heteroskedasticnosti
Test ugotovi, da lahko hipotezo o homoeskedasticnosti zavrnemo pri zane-marljivi stopnji tvegana. Iz grafa na Sliki 17 pa zopet vidimo, da variabilnostrezidualov z visanjem napovedanih vrednosti narasca. Na podlagi regresij-skega koeficienta premice v tem grafu predlaga tudi potenco, na katero najbi potencirali odvisno spremenljivko.
3.7.2 Multikulinearnost
Multikolinearnost lahko ocenjujemo z vec statistikami.
Poglejmo so najprej izracun faktorja povecanje variance (variance inflationfactor - vif) in toleranc. Vif lahko izracunamo s funkcijo vif iz paketka car,tolerance so pa kar 1/vif . Mere bomo izracunali za oba modela z interakcijo(ki se razlikujeta v parametrizacji interakcije). Opomnik: Drugo prame-terizacijo smo izbrali ravno zato, ker zmanjsuje multikolinearnsot. Te dvestatistike sta priporocljivi, ker sta razumljivi in pokazeta, pri katerih spre-menljivkah se problem pojavlja.
Opazimo lahko, da so tolerance pri spolu in interakciji med spolom in izo-brazbo veliko visje pri drugem modelu, faktorji povecanja variance pa nizji.
Dober pokazatelj multikolinearnosti je tudi korelacijska matrika med oce-nami regresijskih koeficientov. Ta kaze na problem, ce so korelacije po ab-solutni vrednosti blizu 1. S funkcijo vcov dobimo variancno/kovariancnomatriko, ki pa jo lahko s funkcijo cov2cor pretvorimo v korelacijsko.
Zopet je glavna razlika med obema modeloma povezana z spolo in interakcijomed spolom in izobrazbo. Tokrat je dejanska razlika prav v korelaciji med
48
ocenama teh dveh koeficientov. Med tem ko je ta pri prvem modelu poabsolutni vrednosti zelo blizu 1 (-0.97), je ta pri drugem modelu skoraj 0(-0.03). Razmeroma visoka je tudi korelacija med ocenama koeficientov zaizobrazbo in interakcijo med spolom in izobrazbo, ki je -0.75. Preostalerazmeroma visoke korelacije so le se med sklopom spremenljivk, ki merijo krajbivanja (ker merijo isto spremenljivko je to pricakovano) in med nekaterimispremenljivkami in konstanto (kar pa ni tako pomembno).
Multikolinearnost lahko tudi ocenimo s pomocjo indeksov pogojnosti in la-stnih vrednosti matrike neodvisnih spremenljivk (v kateri so namesto nomi-nalnih spremenljivk vkljucene umetne spremenljivke). Obstaja pa vec naci-nov, kako izracunati indekse pogojnosti. V nadaljevanju predstavljamo dva.
> fitG91_F7F21gndrF5int2<-lm(G91~F7+F21+gndr+F5 +
F7centGndrZenski,data=dataLR,x=TRUE)
> #ponovno smo ocenili model s prametrom x=TRUE
> #da dobimo kot rezultat tudi matriko neodvisnih spremenljivk
Ne glede na izracun so indeksi pogojnosti pri prvem modelu bistveno vecji,kar nakazuje, da je tam multikolinearnost vecji problem.
3.7.3 Ocene oblike zveze
Povedali smo ze, da je dobro za vsako neodvisno spremenljivko, vkljuceni vmodel, pogledati razsevni grafikon z odvisno spremenljivko. Vendar pa tagrafikon vcasih ne razkrije prave zveze, ker je prava zveza ”zakrita” z vpliviostalih neodvisnih spremenljivk. V tem primeru pride prav ”component +
50
residual plot” (oz. graf delnih ostankov - vprasljiv prevod), kjer na y osnanasamo vrednosti odvisne spremenljivke, od katere prej odstejemo vpliveostalih spremenljivk. Leti so na voljo preko funkcije crPlots iz paketka car.Omeniti je potrebno, da je pogoj za uporabo funkcije, da v modelu ni in-terakcij, zato jih bomo uporabili na zadnjem modelu, kjer se nismo imeliinterakcije. Rezultat je prikazan na Sliki 18
Nadgradnja teh grafikonov so CERES grafi, ki so na voljo v funkciji ceresPlotsiz istega paketka. Za razliko od prejsnje leta ne narise grafov za nominalnespremenljivke. Rezultat je na Sliki 19.
> # "component + residual plot"
> crPlots(fitG91_F7F21gndrF5)
> # "Ceres" graf - bolj napredna verzija zgornjega
> ceresPlots(fitG91_F7F21gndrF5)
Najbolj zanimiv zakljucek, ki pa se je videl ze na navadnih razsevnih grafiko-nih je, da izobrazba pravzaprav vpliva na placo sele, ko preseze 12 leta. Kotresitev tega problema lahko v model vkljucimo se eno spremenljivko in sicer”stevilo let solanja nad 12 let”, ki bo imela vrednost 0 za vse, ki imajo 12 letsolanja ali manj.
F-statistic: 14.68 on 7 and 240 DF, p-value: 6.859e-16
> par(mfrow=c(2,2))
> plot(fitG91_F7F21gndrF5F7nad12)
> par(mfrow=c(1,1))
Opazimo lahko, da vpliv spremenljivke F7 ni vec statisticno znacilen, karnam pove, da izobrazba do 12 let ne vpliva na bruto placo. Ker pa je koefi-cient spremenljivke F7nad12 mocno statisticno znacilen vidimo, da zacne resizobrazba vplivati na bruto placo sele, ko preseze 12 let oz. po srednji soli.Da je model sedaj bistveno boljsi prica tudi znatno vecji R2.
Diagnosticni grafikoni so prikazani na Sliki 20. Rezultati so sicer malce boljsi,a problem heteroskedasticnosti ostaja.
3.8 Za razmislek
Model bi se dalo ze bolj nadgrajevati. Ze samo vpliv izobrazbe na placoza razlicne skupine je zelo kompleksna stvar. Kaj ce v novi model dodamointerakcijo?
Slika 21: Odnos med izobrazbo in bruto placo po spolu
merge=FALSE,lwd=2)
3.9 Izracun ”na roke”
Za bolje razumevanje je pogosto dobro, da naredimo izracune brez vgrajenihfunkcij (oz. s cim bolj enostavnimi). Sedaj ponovimo nas primer (recimomodel z interakcijo) se takole.
Najprej pripravimo podatke. Pri tem je predvsem pomembno, da naredimoumetne spremenljivke za nominalne spremenljivke.
F-statistic: 13.22 on 8 and 239 DF, p-value: 8.714e-16
Izracunajmo se variancno-kovariancno matriko za ocene regresijskih koefici-entov in iz nje se standardne napake za ocene regresijskih koeficientov. Napodlagi variancno-kovariancne matrike lahko izracunamo se korelacijsko ma-triko ocen regresijskih koeficientov (za ocenjevanje multikolinearnosti):
Sb = s2e · X′X−1
se(bi) =√Sb[i, i]
w = diag
(1√
diag(Sb)
)Cb = w · Sb · w
Na podlagi ocen standardnih napak pa lahko izracunamo t-statistike kott = bi/se(bi)).