Monimuuttujamenetelmät: Yleinen lineaarinen malli

Monimuuttujamenetelmät Yleinen lineaarinen malli

TKK © Ilkka Mellin (2007) 1/67

Monimuuttujamenetelmät: Yleinen lineaarinen malli Ilkka Mellin

1. Yleisen lineaarisen mallin määritteleminen 1.1. Yleinen lineaarinen malli ja mallin oletukset 1.2. Yleisen lineaarisen mallin matriisiesitys 2. Yleisen lineaarisen mallin parametrien estimointi 2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista 3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa 3.1. Regressiokertoimia koskevat testit 3.2. Ennustaminen yleisellä lineaarisella mallilla 4. Edistyneempää lineaarista regressioanalyysia 4.1. PNS-estimaattorin hyvyys 4.2. Yleistetty pienimmän neliösumman menetelmä 4.3. Lineaariset rajoitukset 4.4. Stokastiset selittäjät



Monimuuttujamenetelmät:

Yleinen lineaarinen malli

1. Yleisen lineaarisen mallin määritteleminen

1.1. Yleinen lineaarinen malli ja mallin oletukset YLEINEN LINEAARINEN MALLI SELITTÄVÄT MUUTTUJAT JA NIIDEN ARVOJA KOSKEVAT OLETUKSET JÄÄNNÖSTERMI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN MALLIN PARAMETRIT YLEISEN LINEAARISTA MALLIN STANDARDIOLETUKSET

1.2. Yleisen lineaarisen mallin matriisiesitys MATRIISIESITYS YLEISELLE LINEAARISEN MALLILLE SELITTÄJIEN HAVAITTUJEN ARVOJEN MATRIISI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄN MUUTTUJAN HAVAITTUJEN ARVOJEN VEKTORI JA SEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN REGRESSIOMALLIN PARAMETRIT YLEISEN LINEAARISEN MALLIN STANDARDIOLETUKSET MATRIISIMUODOSSA

2. Yleisen lineaarisen mallin parametrien estimointi

2.1. Parametrien estimointi OLETUKSET REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT ESTIMOITU REGRESSIOTASO REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET SOVITTEET SOVITTEIDEN OMINAISUUDET RESIDUAALIT, RESIDUAALIEN OMINAISUUDET SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI



JÄÄNNÖSVARIANSSIN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORI REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN VARIANSSIEN ESTIMOINTI REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT VARIANSSIANALYYSIHAJOTELMA VARIANSSIANALYYSIHAJOTELMAN TULKINTA SELITYSASTE SELITYSASTEEN OMINAISUUDET

2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista OLETUKSET REGRESSIOKERTOIMIEN ESTIMOINTI KOVARIANSSEISTA REGRESSIOKERTOIMIEN ESTIMOINTI KORRELAATIOISTA

3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa

3.1. Regressiokertoimia koskevat testit OLETUKSET REGRESSIOKERTOIMIA KOSKEVAT TESTIT REGRESSION OLEMASSAOLON TESTAAMINEN YKSITTÄISTEN REGRESSIOKERTOIMIEN TESTAAMINEN TESTIT JA MALLIN VALINTA ASKELLUS ALASPÄIN

3.2. Ennustaminen yleisellä lineaarisella mallilla OLETUKSET ENNUSTAMISONGELMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN ENNUSTEVIRHE SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI

4. Edistyneempää lineaarista regressioanalyysia

4.1. PNS-estimaattorin hyvyys OLETUKSET PNS-ESTIMAATTORIN HYVYYS GAUSSIN JA MARKOVIN LAUSE

4.2. Yleistetty pienimmän neliösumman menetelmä OLETUKSET YLEISTETTY PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI YLEISTETYN PNS-ESTIMAATTORIN OMINAISUUDET YLEISTETYN PNS-ESTIMAATTORIN HYVYYS



4.3. Lineaariset rajoitukset OLETUKSET RAJOITETTU PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI RAJOITETUN PNS-ESTIMAATTORIN OMINAISUUDET RAJOITETUN PNS-ESTIMAATTORIN PAREMMUUS RAJOITUKSIEN TESTAAMINEN

4.4. Stokastiset selittäjät OLETUKSET KIINTEÄT JA SATUNNAISET SELITTÄJÄT EHDOLLISTAMINEN



1. Yleisen lineaarisen mallin määritteleminen

1.1. Yleinen lineaarinen malli ja mallin oletukset

Yleinen lineaarinen malli Usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa

(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1

on seuraavat osat:

yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t

xti = selittävän muuttujan xi , i = 1, 2, … , k, kiinteä (ei-satunnainen) ja havaittu arvo havainnossa t

β0 = vakioselittäjän regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio

βi = selittäjän xi , i = 1, 2, … , k, regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio

εt = jäännöstermin ε satunnainen ja ei-havaittu arvo havainnossa t

Malli (1) kuvaa selitettävän muuttujan y havaittujen arvojen yt lineaarista tilastollista riippuvuutta selittävien muuttujien eli selittäjien x1, x2, … , xk havaituista arvoista xt1, xt2, … , xtk . Mallin (1) tavoitteena on selittää muuttujan y havaittujen arvojen vaihtelu muuttujien x1, x2, … , xk havaittujen arvojen vaihtelun avulla.

Huomautus 1:

Mallin (1) lineaarisuudella tarkoitetaan sitä, että malli on lineaarinen regressiokertoimien β0, β1, β2, … , βk suhteen, mutta on syytä huomata, että malli on lineaarinen myös selittäjien x1, x2, … , xk arvojen suhteen.

Huomautus 2:

Selitettävä muuttuja y oletetaan mitta-asteikollisilta ominaisuuksiltaan jatkuvaksi.

Huomautus 3:

Vakio β0 on vakioselittäjän (selittäjän, jonka jokainen havaintoarvo = 1) regressiokerroin. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat x1, x2, … , xk .

Huomautus 4:

Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole vakioselittäjää.

Selittävät muuttujat ja niiden arvoja koskevat oletukset Yleisen lineaarisen mallin


selittävien muuttujien xi havaitut arvot xti oletetaan kiinteiksi eli ei-satunnaisiksi. Tiukasti ottaen tämä ehto voi toteutua vain sellaisissa tilanteissa, joissa selittäjien arvot valitaan.



Tietyin ehdoin selittävien muuttujien satunnaisuudella ei kuitenkaan ole vaikutusta tässä luvussa esitettäviin tuloksiin; ks. kappaletta 4.4.

Selittäjien xi havaituista arvoista xti tehdään tavallisesti lisäksi oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit.

Muodostetaan jokaisen selittäjän xi havaituista arvoista xti , t = 1, 2, … , n, n-vektori

x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k

ja olkoon

1 = (1, 1, … , 1)

ykkösten muodostama n-vektori.

Oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit on se, että vektorit

x·1, x·2, … , x·p ja 1

ovat lineaarisesti riippumattomia. Jos oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta ei päde, ainakin yksi vektoreista x·1, x·2, … , x·p ja 1 voidaan lausua muiden lineaarikombinaationa, jolloin vastaava selittäjä on redundantti ja se voidaan poistaa mallista.

Huomautus:

Oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja on oltava vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.

Jäännöstermit ja niitä koskevat oletukset Yleisen lineaarisen mallin


jäännöstermit εt ovat ei-havaittuja satunnaismuuttujia. Jäännöstermeistä εt oletetaan, että

(2) E(εt) = 0 , t = 1, 2, … , n

(3) D2(εt) = σ 2 , t = 1, 2, … , n

(4) Cov(εs, εt) = 0 , jos s ≠ t

Jos lisäksi oletetaan, että jäännöstermit εt noudattavat normaalijakaumaa, niin oletuksista (2) ja (3) seuraa, että

(5) εt ∼ N(0, σ 2) , t = 1, 2, … , n

Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:

E(εt) = 0, t = 1, 2, … , n

Jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.

Oletuksen (3) mukaan kaikilla jäännöstermeillä εt on sama varianssi:

D2(εt) = σ 2, t = 1, 2, … , n



Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos jäännöstermien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.

Oletuksen (4) mukaan jäännöstermit ovat korreloimattomia.

Selitettävä muuttuja ja sen arvojen stokastiset ominaisuudet Yleisen lineaarisen mallin


selitettävän muuttujan y havaitut arvot yt ovat satunnaisia. Jäännöstermeistä εt edellä tehdyistä oletuksista (2)-(4) ja siitä, että selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk on oletettu ei-satunnaisiksi seuraa, että selitettävän muuttujan y havaituilla arvoilla yt on seuraavat stokastiset ominaisuudet:

(2)´ E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n

(3)´ D2(yt) = σ 2 , t = 1, 2, … , n

(4)´ Cov(ys, yt) = 0 , jos s ≠ t

Jos jäännöstermit εt noudattavat normaalijakaumaa, niin myös selitettävän muuttujan y havaitut arvot yt noudattavat normaalijakaumaa:

(5)´ yt ∼ N(E(yt), σ 2) , t = 1, 2, … , n

Perustelu: (2)´ Koska selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk ja regressiokertoimet β0, β1, β2, … , βk on oletettu ei-satunnaisiksi ja

E(εt) = 0 , t = 1, 2, … , n

niin

0 1 1 2 2

0 1 1 2 2

0 1 1 2 2

E( ) E( )E( )

, 1, 2, ,

t t t k tk t

t t k tk t

t t k tk

y x x xx x xx x x t n

β β β β εβ β β β εβ β β β

= + + + + +

= + + + + += + + + + = …

(3)´ Kohdasta (2)´ ja siitä, että

D2(εt) = σ 2 , t = 1, 2, … , n

seuraa, että

2 2 2Var( ) E[( E( )) ] E[ ] Var( ) , 1, 2, ,t t t t ty y y t nε ε σ= − = = = = …

(4)´ Kohdasta (2)´ ja siitä, että

Cov(εs, εt) = 0 , jos s ≠ t

seuraa, että

Cov( , ) E[( E( ))( E( ))] E[ ] Cov( , ) 0s t s s t t s t s ty y y y y y ε ε ε ε= − − = = =

jos s ≠ t.



(5)´ Väite seuraa kohdista (2)´-(4)´ sekä siitä, että satunnaismuuttuja yt noudattaa normaalijakaumaa, koska yt on normaalijakaumaa noudattavan satunnaismuuttujan εt lineaarimuunnos.

■

Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermeistä εt tehdyistä oletuksista ja siitä, että selittäjät x1, x2, … , xk on oletettu ei-satunnaisiksi seuraa, että yleinen lineaarinen malli


voidaan kirjoittaa muotoon

yt = E(yt) + εt , t = 1, 2, … , n

jossa odotusarvo

E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n

on vakio, joka riippuu selittäjien x1, x2, … , xk saamista arvoista havainnossa t ja jäännöstermi

εt , t = 1, 2, … , n

on satunnaismuuttuja, joka ei riipu selittäjien x1, x2, … , xk saamista arvoista havainnossa t.

Siten yleisen lineaarisen mallin (1) selitettävän muuttujan y saamat arvot yt on esitetty mallissa kahden osatekijän summana, jossa osatekijää


kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää

εt , t = 1, 2, … , n

kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi.

Systemaattinen osa E(yt) on lineaarinen sekä regressiokertoimien β0, β1, β2, … , βk että selittäjien x1, x2, … , xk arvojen suhteen.

Regressiotaso Yleisen lineaarisen mallin


systemaattinen osa


määrittelee tason

y = β0 + β1x1 + β2xt2 + ⋅⋅⋅ + βkxk

avaruudessa 1k+ . Mallin systemaattisen osan määräämää tasoa kutsutaan regressiotasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason ympärillä.



Regressiokertoimet ja niitä koskevat oletukset Yleisen lineaarisen mallin


regressiokertoimet β0, β1, β2, … , βk ovat ei-satunnaisia tuntemattomia vakioita.

Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa


oletetaan implisiittisesti, että regressiokertoimet β0, β1, β2, … , βk ovat samat kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.

Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k. Tällöin yleisen lineaarisen mallin

yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1

selitettävän muuttujan y saaman arvon systemaattisella osalla


on vakioarvo

0 1 1 2 2E( ) k ky y x x xβ β β β= = + + + +

Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:

1i ix x→ +

ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:

iy y β→ +

Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.

Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimet

β0, β1, β2, … , βk

ja jäännösvarianssi σ 2.



Yleisen lineaarisen mallin standardioletukset Usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa


on seuraavat osat:

yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t

xti = selittäjän xi , i = 1, 2, … , k, ei-satunnainen ja havaittu arvo havainnossa t

β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin

βi = selittäjän xi , i = 1, 2, … , k, ei-satunnainen ja tuntematon regressiokerroin

εt = satunnainen ja ei-havaittu jäännöstermi havainnossa t

Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:

(i) Selittäjien xi arvot xti ovat ei-satunnaisia, t = 1, 2, … , n , i = 1, 2, … , k.

(ii) n-vektorit

x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k

ja n-vektori

1 = (1, 1, … , 1)

ovat lineaarisesti riippumattomia.

(iii) E(εt) = 0 , t = 1, 2, … , n

(iv) D2(εt) = σ 2 , t = 1, 2, … , n

(v) Cov(εs, εt) = 0 , jos s ≠ t

Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus:

(vi) εt ∼ N(0, σ 2) , t = 1, 2, … , n

1.2. Yleisen lineaarisen mallin matriisiesitys

Matriisiesitys yleiselle lineaariselle mallille Yleisen lineaarisen mallin

yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1

matriisiesitys saadaan seuraavalla tavalla:

(i) Muodostetaan selitettävän muuttujan y havaituista arvoista

y1, y2, … , yn

n-vektori

y = (y1, y2, … , yn)



(ii) Muodostetaan selittävien muuttujien x1, x2, … , xk havaituista arvoista

x11, x21, … , xn1 ; x12, x22, … , xn2 ; … ; x1k, x2k, … , xnk

n×(k + 1)-matriisi

11 12 1

21 22 2

1 2

11

1

k

k

n n nk

x x xx x x

x x x

=

X

(iii) Muodostetaan regressiokertoimista β0, β1, β2, … , βk (k+1)-vektori

β = (β0, β1, β2, … , βk)

(iv) Muodostetaan jäännöstermeistä ε1, ε2, … , εn n-vektori

ε = (ε1, ε2, … , εn)

Tällöin yleinen lineaarinen malli voidaan esittää matriisein seuraavassa muodossa:

(1) y = Xβ + ε

Mallissa (1) vektorit y ja ε ovat satunnaisvektoreita, kun taas matriisi X ja vektori β ovat ei-satunnaisia, vektori y ja matriisi X ovat havaittuja, kun taas vektorit ε ja β ovat ei-havaittuja tai tuntemattomia.

Ositetaan selittäjien x1, x2, … , xk havaituista arvoista muodostettu n×(k+1)-matriisi X seuraavalla tavalla:

X = [1 X1]

missä

1 = (1, 1, … , 1)

on ykkösten muodostama n-vektori ja

11 12 1

21 22 21

1 2

k

k

n n nk

x x xx x x

x x x

=

X

on selittäjien x1, x2, … , xk havaittujen arvojen

xti , t = 1, 2, … , n , i = 1, 2, … , k

muodostama n×k-matriisi.

Olkoon

zt = (1, xt·) , t = 1, 2, … , n

matriisin X t. rivin alkioiden 1, xt1, xt2, … , xtk muodostama (k+1)-vektori, missä

xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n

on selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t. Vektori xt· on n×k-matriisin X1 t. rivivektori.



Olkoon

x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k

matriisin X1 i. sarakkeen alkioiden x1i, x2i, … , xni muodostama n-vektori. Vektori x·i muodostuu selittäjän xi havaituista arvoista.

Matriisi X voidaan esittää sarakevektoreidensa 1, x·1, x·2, … , x·k avulla seuraavalla tavalla ositettuna:

X = [1 x·1 x·2 … x·k]

Ositetaan regressiokertoimien vektori β vastaavalla tavalla kuin vektori zt :

β = (β0, β1)

missä β0 on vakioselittäjän regressiokerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori.

Tällöin yleinen lineaarinen malli (1) voidaan esittää muodoissa

y = Xβ + ε = β01 + X1β1 + ε

ja

0 1 , 1,2, ,t t t t ty t nε β ε′ ′= + = + + =β z β x i …

Huomautus 1:

Malli (1) on lineaarinen regressiokertoimien vektorin β suhteen.

Huomautus 2:

Koska matriisin X ensimmäisenä sarakkeena on ykkösten muodostama n-vektori

1 = (1, 1, … , 1)

mallissa (1) on vakioselittäjä. Vakioselittäjää vastaa regressiokerroin β0. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat

x1, x2, … , xk

Huomautus 3:

Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole selittäjänä vakiota.

Selittäjien havaittujen arvojen matriisi ja sitä koskevat oletukset Yleisen lineaarisen mallin

(1) y = Xβ + ε

selittäjien havaittujen arvojen matriisi X oletetaan kiinteäksi eli ei-satunnaiseksi.

Matriisista X tehdään tavallisesti oletus, jonka takaa sen, että regressiokertoimien vektorilla β on yksikäsitteinen pienimmän neliösumman estimaattori. Matriisista X tehtävä oletus on se, että matriisin X sarakevektoreiden pitää olla lineaarisesti riippumattomia eli matriisin X pitää olla täysiasteinen:

r(X) = k+1



Huomautus:

Oletus matriisin X sarakevektoreiden lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja pitää olla vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.

Jäännöstermien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin

(1) y = Xβ + ε

jäännöstermi ε on ei-havaittu satunnaismuuttuja, jota koskevat oletukset voidaan esittää muodossa

(2) E(ε) = 0

(3)-(4) Cov(ε) = σ 2I

Jos lisäksi oletetaan, että jäännöstermi ε noudattaa multinormaalijakaumaa, niin oletuksista (2) ja (3)-(4) seuraa, että

(5) ε ∼ Nn(0, σ 2I)

Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:

E(εt) = 0 , t = 1, 2, … , n

Siten jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.

Oletuksen (3)-(4) mukaan jäännöstermit εt ovat korreloimattomia ja lisäksi kaikilla jäännöstermeillä on sama varianssi:

D2(εt) = σ 2 , t =1, 2, … , n

Oletusta D2(εt) = σ 2 , t =1, 2, … , n, kutsutaan homoskedastisuusoletukseksi. Jos jäännös-termien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.

Selitettävän muuttujan havaittujen arvojen vektori ja sen stokastiset ominaisuudet Yleisen lineaarisen mallin

(1) y = Xβ + ε

selitettävän muuttujan y havaittujen arvojen vektori y on satunnainen. Jäännöstermistä ε tehdyistä oletuksista (2) ja (3) ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että selitettävän muuttujan y havaittujen arvojen vektorilla y on seuraavat stokastiset ominaisuudet:

(2)´ E(y) = Xβ

(3)´-(4)´ Cov(y) = σ 2I

Jos jäännöstermi ε noudattaa multinormaalijakaumaa, niin myös selitettävän muuttujan y havaittujen arvojen vektori y noudattaa multinormaalijakaumaa:

(5)´ y ∼ Nn(Xβ, σ 2I)



Perustelu:

(2)´ Koska X ja β ovat ei-satunnaisia ja

E(ε) = 0

niin E( ) E( ) E( )= + = + =y Xβ ε Xβ ε Xβ

(3)´-(4)´

Kovarianssimatriisin määritelmästä, kohdasta (2)´ ja siitä, että

Cov(ε) = σ 2I

seuraa, että

2Cov( ) E[( E( ))( E( )) ] E[ ] Cov( ) σ′ ′= − − = = =y y y y y εε ε I

(5)´ Väite seuraa kohdista (2)´ ja (3)´-(4)´ sekä siitä, että satunnaismuuttuja y noudattaa multinormaalijakaumaa, koska y on multinormaalijakaumaa noudattavan satunnaismuuttujan ε lineaarimuunnos.

■

Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermistä ε tehdyistä oletuksista ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että yleinen lineaarinen malli

(1) y = Xβ + ε

voidaan kirjoittaa muotoon

y = E(y) + ε

jossa odotusarvo

E(y) = Xβ

on vakio, joka riippuu selittäjien x1, x2, … , xk saamien arvojen matriisista X ja jäännöstermi

ε

on satunnaismuuttuja, joka ei riipu selittäjien saamista arvoista.

Siten yleisen lineaarisen mallin (1) selitettävän muuttujan arvojen vektori y on esitetty kahden osatekijän summana, jossa osatekijää

E(y) = Xβ

kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää

ε

kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi. Systemaattinen osa E(y) on lineaarinen regressiokertoimien vektorin β suhteen.



Regressiotaso Yleisen lineaarisen mallin

(1) y = Xβ + ε

systemaattinen osa

E(y) = Xβ

määrittelee tason

(2) 0 1y β′ ′= = +β z β x

(k+1)-ulotteisessa avaruudessa 1k+ . Yhtälössä (2)

β = (β0, β1, β2, … , βk) = (β0, β1)

on regressiokertoimien muodostama (k+1)-vektori, missä β0 on vakioselittäjän regressio-kerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori ja

z = (1, x)

on (k+)-vektori, missä k-vektori x = (x1, x2, … , xk) k∈ . Tasoa (2) kutsutaan regressio-tasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason (2) ympärillä.

Regressiokertoimien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin

(1) y = Xβ + ε

regressiokertoimien vektori β on tuntemattomien ei-satunnaisten vakioiden muodostama (k+1)-vektori.

Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa

yt = β´zt + εt , t = 1, 2, … , n

oletetaan implisiittisesti, että regressiokertoimien vektori β on sama kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.

Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k.

Tällöin yleisen lineaarisen mallin

yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n

selitettävän muuttujan y saaman arvon systemaattisella osalla


on vakioarvo



0 1 1 2 2E( ) k ky y x x xβ β β β= = + + + +

Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:

1 , 1, 2, ,i ix x i k→ + = …

ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:

, 1, 2, ,iy y i kβ→ + = …

Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.

Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimien vektori β ja jäännös-varianssi σ 2.

Yleisen lineaarisen mallin standardioletukset matriisimuodossa Matriisimuotoisessa usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa

(1) y = Xβ + ε

on seuraavat osat:

y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n

X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1

β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet

ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n


(i) Matriisi X on ei-satunnainen.

(ii) r(X) = k+1

(iii) E(ε) = 0

(iv)-(v) Cov(ε) = σ 2I

Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:

(vi) ε ∼ Nn(0, σ 2I)



2. Yleisen lineaarisen mallin parametrien estimointi

2.1. Parametrien estimointi

Oletukset Olkoon

(1) y = Xβ + ε

usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa






(i) Matriisi X on ei-satunnainen.

(ii) r(X) = k+1

(iii) E(ε) = 0



(vi) ε ∼ Nn(0, σ 2I)

Regressiokertoimien PNS-estimaattorit Yleisen lineaarisen mallin

(1) y = Xβ + ε

regressiokertoimien vektori β estimoidaan tavallisesti pienimmän neliösumman menetelmällä eli PNS-menetelmällä.

Pienimmän neliösumman menetelmässä neliösumma

2

1

( ) ( )n

ii

ε=

′ ′= = − −∑ε ε y Xβ y Xβ

minimoidaan regressiokertoimien vektorin β suhteen. Minimi löydetään derivoimalla neliömuoto ε´ε vektorin β suhteen ja merkitsemällä derivaatta nollaksi.



Derivointi johtaa normaaliyhtälöön

X´Xβ = Xý

Tällä yhtälöllä on yksikäsitteinen ratkaisu vektorin β suhteen, jos matriisista X tehty oletus

r(X) = k+1

pätee. Ratkaisuksi saadaan regressiokertoimien vektorin β pienimmän neliö-summan (PNS-) estimaattori b = (X´X)–1Xý

Perustelu: Derivoidaan neliösumma

2

1( ) ( ) 2

n

iiε

=

′ ′ ′ ′ ′ ′= = − − = − +∑ε ε y Xβ y Xβ y y β Xy β X Xβ

vektorin β suhteen ja merkitään derivaatta nollaksi:

(2) 2 2 0∂ ′ ′= − + =∂

ε ε Xy X Xββ

Jos r(X) = k+1, niin r(X´X) = k+1 ja matriisi X´X on siten epäsingulaarinen. Tällöin yhtälöstä saatavalla normaaliyhtälöllä

X´Xβ = Xý

on ratkaisu

1( )−′ ′= =β b X X X y

Saatu ratkaisu antaa neliömuodon ε´ε minimin, koska

2

2∂ ′ ′=′∂ ∂ε ε X X

β β

ja matriisi X´X on positiivisesti definiitti eli

X´X > 0

■

Olkoon

zt = (1, xt·) , t = 1, 2, … , n

matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä

xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n

on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon yt on selitettävän muuttujan y havaittu arvo havainnossa t.

Regressiokertoimien vektorin β pienimmän neliösumman estimaattori b voidaan esittää näitä merkintöjä käyttäen muodossa

1

1 1

n n

t t t tt t

y−

= =

′= ∑ ∑b z z zi i i



Regressiokertoimien suurimman uskottavuuden estimaattorit Oletetaan, että yleisen lineaarisen mallin

(1) y = Xβ + ε

standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien vektorin β suurimman uskottavuuden estimaattori yhtyy vektorin β PNS-estimaattoriin

b = (X´X)–1Xý

Perustelu:

Koska olemme olettaneet, että

ε ∼ Nn(0, σ 2I)

niin

y ∼ Nn(Xβ, σ 2I)

Siten otoksen y uskottavuusfunktio on muotoa

2 / 22

1( , ) (2 ) exp ( ) ( )2

n nL σ π σσ

− − ′= − − −

β y Xβ y Xβ

ja vastaava logaritminen uskottavuusfunktio on muotoa

2 2 22

1( , ) log ( , ) log(2 ) log( ) ( ) ( )2 2 2n nl Lσ σ π σ

σ′= = − − − − −β β y Xβ y Xβ

Logaritmisen uskottavuusfunktion 2( , )l σβ lausekkeesta nähdään välittömästi, että funktion 2( , )l σβ maksimointi parametrin β suhteen on yhtäpitävää neliösumman

2

1( ) ( )

n

iiε

=

′ ′= = − −∑ε ε y Xβ y Xβ

minimoinnin kanssa.

■

Estimoitu regressiotaso Olkoon

b = (b0, b1, b2, … , bk) = (b0, b1)

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja

b1 = (b1, b2, … , bk)

on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.



Määritellään (k+1)-vektori

z = (1, x)

missä k-vektori x = (x1, x2, … , xk) k∈ .

Yhtälö

(2) 0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x

määrittelee tason (k + 1)-ulotteisessa avaruudessa 1k+ . Tasoa (2) kutsutaan estimoiduksi regressiotasoksi.

Olkoon

1

1 n

tt

y yn =

= ∑

selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo. Määritellään (k+1)-vektori

(1, )=z x

missä k-vektori

1 2( , , , )kx x x=x …

Vektorin x i. alkio

1

1 , 1,2, ,n

i tit

x x i kn =

= =∑ …

on selittäjän xi havaittujen arvojen xti aritmeettinen keskiarvo. Estimoitu regressiotaso (2) kulkee aina havaintoaineiston painopisteen ( , )yx kautta eli

0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x

Regressiokertoimien PNS-estimaattoreiden stokastiset ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattorin b keskeiset stokastiset ominaisuudet on esitetty seuraavassa esitettävissä kahdessa lauseessa.

Lause 2.1.1.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin

(i) E(b) = β

(ii) Cov(b) = σ 2(X´X)–1

ja siten erityisesti

(iii) 2 1( 1)( 1)Var( ) [( ) ] , 0,1, 2, ,i i ib i kσ −+ += =X´X …

Perustelu:

Todetaan ensin, että regressiokertoimien vektorin β PNS-estimaattorin b lauseke voidaan kirjoittaa seuraavaan muotoon:

1 1 1( ) ( ) ( ) ( )− − −′ ′ ′ ′ ′ ′= = + = +b X X X y X X X Xβ ε β X X X ε



(i) Koska regressiokertoimien vektori β ja matriisi X ovat ei-satunnaisia ja lisäksi E( ) =ε 0 , niin

1E( ) E( ) ( ) E( )−′ ′= + =b β X X X ε β

(ii) Kohdan (i) todistuksesta seuraa, että

1E( ) E( ) ( )−′ ′− = − =b b b β X X X ε

Koska matriisi X on ei-satunnainen ja lisäksi 2Cov( ) σ=ε I , niin

1 1

1 1

1 1

1 2 1

2 1 1

2 1

Cov( ) E[( E( ))( E( )) ]E[( ) ( ) ]( ) E( ) ( )( ) Cov( ) ( )( ) ( ) ( )

( ) ( )( )

σ

σ

σ

− −

− −

− −

− −

− −

−

′= − −

′ ′ ′ ′=

′ ′ ′ ′=

′ ′ ′=

′ ′ ′=

′ ′ ′=

′=

b b b b bX X X εε X X X

X X X εε X X XX X X ε X X XX X X I X X X

X X X X X XX X

(iii) Kohta (iii) on suora seuraus kohdasta (ii).

■

Huomautus:

Lauseen 2.1.1. kohdan (i) mukaan PNS-estimaattori b on regressiokertoimien vektorin β harhaton estimaattori.

Lause 2.1.2.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin

b ∼ Nk+1(β, σ 2(X´X)–1)

ja erityisesti

2 1( 1)( 1)N( , [( ) ] ) , 0,1, 2, ,i i i ib i kβ σ −+ + =X´X∼ …

Perustelu:

Lause 2.1.2. seuraa suoraan lauseesta 2.1.1., koska pienimmän neliösumman estimaattori

b = (X´X)–1Xý

on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.

■

Sovitteet Olkoon

b = (X´X)–1Xý

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori.



Määritellään estimoidun mallin sovitteiden muodostama n-vektori yhtälöllä:

ˆ =y Xb

Sovite y voidaan kirjoittaa seuraaviin muotoihin:

1ˆ ( )−′ ′= = =y Xb X X X X y Py

missä n×n-matriisi

P = X(X´X)–1X´

on symmetrinen ja idempotentti eli projektio. Matriisin P aste on

r(P) = tr(P) = k+1

Perustelu:

Matriisi P on symmetrinen, koska

P´ = [X(X´X)–1X´]´ = X(X´X)–1X´ = P

Matriisi P on idempotentti, koska

P2 = [X(X´X)–1X´][X(X´X)–1X´] = X(X´X)–1X´ = P

Koska matriisin P on projektio, niin sen aste on

r(P) = tr(P) = tr[X(X´X)–1X´] = tr[(X´X)–1X´X] = tr[Ik+1] = k+1

■

Koska

PX = X(X´X)–1XX = X

niin matriisi P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen (tasoon). Sovite y on vektorin y projektio tähän vektorialiavaruuteen.

Olkoon

zt = (1, xt·) , t = 1, 2, … , n

matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä

xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n

on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon

b = (b0, b1, b2, … , bk) = (b0, b1)

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja

b1 = (b1, b2, … , bk)

on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.

Sovitteiden muodostaman n-vektorin

1 2ˆ ˆ ˆ ˆ( , , , )ny y y=y …

t. alkio on



0 1 0 1 1 2 2ˆ , 1, 2, ,t t t t t k tky b b b x b x b x t n′ ′= = + = + + + + =b z b x i …

Sovitteiden ominaisuudet Lause 2.1.3.

Jos yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät, niin

(i) E( y ) = Xβ

(ii) Cov( y ) = σ 2P

Perustelu:

(i) Koska PNS-estimaattori b on harhaton parametrille β, niin

Ê( ) E( ) E( )= = =y Xb X b Xβ

(ii) Kohdasta (i) seuraa, että

2 1

2 1

2

ˆ ˆ ˆ ˆ ˆCov( ) E[( E( ))( E( )) ]E[( )( ) ]

E[( )( ) ]Cov( )[ ( ) ]

( )σ

σ

σ

−

−

′= − −′= − −

′ ′= − −′=

′ ′=

′ ′=

=

y y y y yXb Xβ Xb Xβ

X b β b β XX b XX X X X

X X X XP

■

Huomautus:

Lauseen 2.1.3. kohdan (i) mukaan sovite y estimoi harhattomasti yleisen lineaarisen mallin (1) systemaattista osaa E(y) = Xβ.

Lause 2.1.4.


y ∼ Nn(Xβ, σ 2P)

Perustelu:

Lause 2.1.4. seuraa suoraan lauseesta 2.1.3., koska sovite

1ˆ ( )−′ ′= = =y Xb X X X X y Py


■

Huomautus:

Lauseen 2.1.4. multinormaalijakauma on singulaarinen.



Residuaalit Olkoon

b = (X´X)–1Xý

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori ja olkoon

ˆ =y Xb

estimoidun mallin sovite.

Määritellään estimoidun mallin residuaalien muodostama n-vektori yhtälöllä

ˆ= −e y y

Residuaali e voidaan kirjoittaa seuraaviin muotoihin:

1

1

ˆ

( )( ( ) )( )

−

−

= −= −

′ ′= −

′ ′= −= −==

e y yy Xby X X X X yI X X X X yI P y

MyMε

missä n×n-matriisit

P = X(X´X)–1X´

M = I − P

ovat symmetrisiä ja idempotentteja eli projektioita. Matriisien P ja M asteet ovat

r(P) = tr(P) = k+1

r(M) = tr(M) = n−k−1

Lisäksi

PX = X

MX = 0

PM = MP = 0

Perustelu:

Matriisin P ominaisuudet on todistettu edellä.

Matriisi M on symmetrinen, koska matriisi P on symmetrinen:

M´ = (I – P)´ = I – P´ = I – P

Matriisi M on idempotentti, koska matriisi P on idempotentti:

M2 = (I – P)2 = I – 2P + P2 = I – 2P + P = I – P = M

Koska matriisi M on projektio, niin sen aste on

r(M) = tr(M) = tr( I – P) = tr(In) – tr(P) = n–(k+1) = n−k−1



Koska PX = X , niin

MX = (I – P)X = X – PX = X – X = 0

Lisäksi

PM = P(I – P) = P – P2 = P – P = 0

ja

MP = (I – P)P = P – P2 = P – P = 0

■

Koska P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen ja lisäksi

PM = MP = 0

ja

MX = 0

niin matriisi M projisoi avaruuden n vektorit matriisin X sarakkeiden virittämää vektori-aliavaruutta vastaan kohtisuorassa olevaan vektorialiavaruuteen. Residuaali e on vektorin y projektio tähän vektorialiavaruuteen.

Residuaalien muodostaman n-vektorin

e = (e1, e2, … , en)

t. alkio on

ˆ , 1, 2, ,t t te y y t n= − = …

missä

0 1 1 2 2ˆ , 1,2, ,t t t t k tky b b x b x b x t n′= = + + + + =b z …

on estimoidun mallin sovite havainnossa t.

Residuaalien ominaisuudet Lause 2.1.5.

Jos yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät, niin

(i) E(e) = 0

(ii) Cov(e) = σ 2M

Perustelu:

(i) Koska =e Mε , niin

E( ) E( )= =e M ε 0

(ii) Kohdasta (i) ja siitä, että =e Mε , jossa matriisi M on symmetrinen ja idempotentti eli projektio niin



2

2 2

2

Cov( ) E[( E( ))( E( )) ]E( )E( )

E( )Cov( )( )σ

σ

σ

′= − −′=′ ′=′=

=

=

=

=

e e e e eeeMεε M

M εε MM ε MM I M

MM

■

Huomautus 1: Lauseen 2.1.5. kohdan (i) mukaan residuaali e estimoi harhattomasti yleisen lineaarisen mallin (1) satunnaista osaa ε.

Huomautus 2:

Lauseen 2.1.5. kohdan (ii) mukaan residuaalit et ovat korreloituneita, vaikka jäännös- termit εt on oletettu korreloimattomiksi. Korrelaatio on kuitenkin lievää, jos havaintojen lukumäärä n on huomattavasti mallin selittäjien lukumäärää (k+1) suurempi.

Lause 2.1.6. Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin

e ∼ Nn(0, σ 2M)

Perustelu: Lause 2.1.6. seuraa suoraan lauseesta 2.1.5., koska residuaali

1ˆ ( ( ) ) ( )−′ ′= − = − = − = − =e y y y Xb I X X X X y I P y My


■

Huomautus:

Lauseen 2.1.6. multinormaalijakauma on singulaarinen.

Sovitteiden ja residuaalien ominaisuudet Olkoon

b = (X´X)–1Xý

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori ja olkoon

ˆ =y Xb

estimoidun mallin sovite ja ˆ= −e y y

vastaava residuaali.



Lause 2.1.7.

(i) ˆ′ ′=1 y 1 y

(ii) ′ =e X 0

(iii) ˆ 0′ =e y

(iv) ˆ ˆ′ ′ ′= +y y y y e e

Perustelu: (i) Edellä esitetyn mukaan sovitteiden ja vastaavien residuaalien muodostamat vektorit y ja e voidaan esittää projektiomatriisien P ja M avulla muodoissa

ˆ =y Py

=e My

Koska lisäksi PM = 0 , niin ˆ 0′ ′ ′= = =yé y P My y PMy

(ii) Edellä esitetyn mukaan matriisi M on projektio matriisin X sarakeavaruuden ortogonaaliseen komplementtiin. Siten residuaalien muodostama vektori =e My

on matriisin X sarakeavaruuden ortogonaalisessa komplementissa, joten vektori e on kohtisuorassa matriisin X sarakeavaruutta eli matriisin X sarakkeiden virittämää tasoa vastaan: ′ =X e 0

Sama tulos saadaan myös suoraan laskemalla:

1( ) ( )−′ ′ ′ ′ ′ ′ ′ ′ ′ ′= − = − = − = − =X e X y Xb X y X Xb X y X X X X X y X y X y 0

Koska mallissa on mukana vakio, matriisin X 1. sarakkeena on vektori

1 = (1, … , 1)

Siten edellä esitetystä seuraa, että 0′ =1 e

(iii) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että

ˆ= +y y e

Siten ˆ ˆ ˆ0′ ′ ′ ′ ′= + = + =1 y 1 y 1 e 1 y 1 y

koska (ii)-kohdan mukaan 0′ =1 e .

(iv) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että

ˆ= +y y e



Siten

ˆ ˆ 2ˆ ˆ ˆ′ ′ ′ ′ ′ ′= + + = +y y y y e e y e y y e e

koska kohdan (i) mukaan ˆ ′y e = 0.

■

Huomautus 1:

Lauseen 2.1.7. kohdan (ii) mukaan residuaalien vektori e on kohtisuorassa matriisin X sarakkeiden virittämää vektorialiavaruutta (tasoa) vastaan.

Huomautus 2: Koska oletuksien mukaan mallissa (1) on selittäjänä vakio (eli matriisissa X on ykkösten muodostama sarake), Lauseen 2.1.7. kohdasta (ii) seuraa, että residuaalien summa = 0: 0′ =1 e

Huomautus 3:

Lauseen 2.1.7. kohdan (iii) mukaan sovite y ja residuaali e ovat ortogonaalisia.

Huomautus 4:

Koska ˆ= +y y e

niin vektorit , ˆ ja y y e muodostavat suorakulmaisen kolmion, jonka kateetteina ovat vektorit ˆ ja y e ja hypotenuusana on vektori y.

Huomautus 5: Lauseen 2.1.7. kohta (iv) on Pythagoraan lause: Suorakulmaisessa kolmiossa hypotenuusalle piirretyn neliön pinta-ala on kateeteille piirrettyjen neliöiden pinta- alojen summa.

Jäännösvarianssin harhaton estimaattori Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.

Määritellään residuaalien e vaihtelua kuvaava jäännösneliösumma kaavalla:

2

1

n

tt

SSE e=

′= =∑e e

Huomaa, että

SSE = 0

jos ja vain jos

et = 0, t = 1, 2, … , n



Jäännösneliösumma SSE voidaan kirjoittaa seuraaviin muotoihin:

1

( ˆ ) ( ˆ )( ) ( )

( ( ) )( )

SSE

−

′=′= − −′= − −

′ ′ ′= −

′ ′ ′= −′= −′=′=

e ey y y yy Xb y Xb

y y b X Xby I X X X X yy I P yy Myε Mε


P = X´(X´X)−1X

M = I − P

ovat symmetrisiä ja idempotentteja eli projektioita.

Lause 2.1.8.

Tunnusluku

2 11

s SSEn k

=− −

on yleisen lineaarisen mallin (1) jäännösvarianssin σ 2 harhaton estimaattori eli

E(s2) = σ 2

Perustelu:

Todetaan ensin, että

2 2

1

( 1)n

tt

n k s e=

′− − = =∑ e e

jossa residuaalien muodostama n-vektorilla e on esitysmuodot

ˆ= − = − = =e y y y Xb My Mε

missä n×n-matriisi

1( )−′ ′= − = −M I P I X X X X

on symmetrinen ja idempotenti eli projektio:

2

′ =

=

M MM M

Koska

2Cov( ) σ=ε I

saamme suoraan laskemalla:



2

2

E( ) E( )E( )E(trace( ))trace( E( ))trace( Cov( ))trace( ( ))

trace( )σ

σ

′ ′ ′=′=

′=′=

=

=

=

e e ε M Mεε Mε

MεεM εεM εM I

M

Väite tulee todistetuksi toteamalla, että

1

1

1

1

trace( ) trace( ( ) )

trace( ) trace( ( ) )

trace(( ) )trace( )

1

n

n

k

nnn k

−

−

−

+

′ ′= −

′ ′= −

′ ′= −= −= − −

M I X X X X

I X X X X

X X X XI

■

Estimaattoria s2 kutsutaan residuaalivarianssiksi.

Huomautus:

Estimaattorin s2 kaava antaa todellakin residuaalien varianssin, koska mallissa on selittäjänä vakio. Tämä johtuu siitä, että tällöin

1

0n

tt

e ne=

′ = = =∑1 e

josta seuraa, että

2 2 2 2

1 1

( 1) ( ) ( 1)n n

e t it t

n k s e e e n k s= =

− − = − = = − −∑ ∑

Jäännösvarianssin suurimman uskottavuuden estimaattori Oletetaan, että yleisen lineaarisen mallin

y = Xβ + ε

standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin jäännösvarianssin σ 2 suurimman uskottavuuden estimaattori on

2 1ˆ SSEn

σ =

Perustelu:

Olemme todenneet edellä, että otoksen

y ∼ Nn(Xβ, σ 2I)

uskottavuusfunktio on muotoa



2 / 22

1( , ) (2 ) exp ( ) ( )2

n nL σ π σσ

− − ′= − − −

β y Xβ y Xβ

ja sitä vastaava logaritminen uskottavuusfunktio on muotoa

2 2 22

1( , ) log ( , ) log(2 ) log( ) ( ) ( )2 2 2n nl Lσ σ π σ

σ′= = − − − − −β β y Xβ y Xβ

Lisäksi parametrin β suurimman uskottavuuden estimaattori yhtyy sen pienimmän neliösumman estimaattoriin

1( )−′ ′=b X X X y

Siten

2 22

22

1( , ) log(2 ) log( ) ( ) ( )2 2 2

1log(2 ) log( )2 2 2

n nl

n n SSE

σ π σσ

π σσ

′= − − − − −

= − − −

b y Xb y Xb

jossa ( ) ( )SSE ′ ′= − − =y Xb y Xb e e

on estimoidun mallin jäännösneliösumma.

Derivoidaan funktio 2( , )l σb parametrin σ 2 suhteen ja merkitään derivaatta nollaksi:

22 2 4

1 1( , ) 02 2nl SSEσ

σ σ σ∂

= ⋅ − =∂

b

Saadulla normaaliyhtälöllä on ratkaisu

2 2 1ˆ SSEn

σ σ= =

Voidaan osoittaa, että saatu ratkaisu tuottaa funktion 2( , )l σb maksimin (ks. lukua Multinormaalijakauma).

■

Regressiokertoimien PNS-estimaattoreiden varianssien estimointi Edellä on todettu, että yleisen lineaarisen mallin

y = Xβ + ε

regressiokertoimien vektorin β PNS-estimaattorilla

b = (X´X)–1Xý

on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:

b ∼ Nk+1(β, σ 2(X´X)–1)

ja erityisesti

2 1( 1)( 1)N( , [( ) ] ) , 0,1, 2, ,i i i ib i kβ σ −+ + =X´X∼ …



Siten

E( ) , 0,1, 2, ,i ib i kβ= = …

2 2 1( 1)( 1)Var( ) D ( ) [( ) ] , 0,1, 2, ,i i i ib b i kσ −+ += = =X´X …

ja

E( ) N(0,1) , 0,1, 2, ,D( )

i ii

i

b bz i kb

−= =∼ …

Tämä regressiokertoimen βi PNS-estimaattorin bi otosjakaumaa koskeva tulos on epä-operationaalinen, koska jäännösvarianssi σ 2 on normaalisti tuntematon.

Korvataan σ 2 yo. kaavoissa harhattomalla estimaattorillaan

2 11

s SSEn k

=− −

ja merkitään

2 2 1( 1)( 1)D ( ) [( ) ] , 0,1,2, ,i i ib s i k−+ += =X´X …

Voidaan osoittaa, että 2D ( )ib on regressiokertoimen bi varianssin harhaton estimaattori ja lisäksi

E( ) ( 1) , 0,1, 2, ,D( )

i ii

i

b bt t n k i kb

−= − − =∼ …

Perustelu:

Se, että 2D ( )ib on regressiokertoimen bi varianssin 2D ( )ib harhaton estimaattori seuraa välittömästi siitä, että

2 2E( )s σ=

ja siitä, että X on ei-satunnainen.

Yo. jakaumatulos seuraa t-jakauman määritelmästä seuraavalla tavalla:

Edellä esitetyn mukaan

E( ) N(0,1) , 0,1, 2, ,D( )

i i

i

b b i kb

−=∼ …

jossa

2 2 1( 1)( 1)D ( ) [( ) ] , 0,1,2, ,i i ib i kσ −+ += =X´X …

Lisäksi voidaan osoittaa, että s2 on riippumaton estimaattoreista b0, b1, b2, … , bk ja

2

22 2

( 1) ( 1)n k s SSE n kχσ σ

− −= − −∼

ks. kappale 3.1.



Suoraan t-jakauman määritelmästä seuraa, että

2

2 1( 1)( 1)

2

2

2 1( 1)( 1)

E( )D( )1

1E( )

[( ) ]

E( )[( ) ]

E( ) ( 1) , 0,1, 2, ,D( )

i i

ii

i i

i i

i i

i i

i i

i

b bbt

SSEn k

b b

s

b bs

b b t n k i kb

σ

σ

σ

−+ +

−+ +

−

=⋅

− −−

=

−=

−= − − =

X´X

X´X

∼ …

■

Regressiokertoimien luottamusvälit ja yksittäisiä kertoimia koskevat testit voidaan konstruoida yo. jakaumatuloksen avulla samaan tapaan kuin normaalijakauman odotusarvolle konstruoidaan normaalisen otoksen tapauksessa luottamusväli ja ns. yhden otoksen t-testi.

Regressiokertoimien luottamusvälit Lause 2.1.9.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin regressiokertoimen βi , i = 0, 1, 2, … , k luottamusväli luottamustasolla (1−α) saadaan kaavasta

/ 2 , 0,1,2, ,ii bb t s i kα± = …

jossa bi on regressiokertoimen βi PNS-estimaattori, −tα/2 ja +tα/2 ovat luottamustasoon (1−α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−k−1) ja

2 2 1( 1)( 1)[( ) ] , 0,1, 2, ,

ib i is s i k−+ += =X´X …

missä s2 on jäännösvarianssin σ 2 harhaton estimaattori.

Varianssianalyysihajotelma Mitta-asteikoltaan jatkuvien muuttujan arvojen vaihtelua mitataan tavallisesti niiden varianssilla. Yleisen lineaarisen mallin (1) selitettävän muuttujan y arvojen varianssi on

2 1ˆ y SSTn

σ =

jossa

2

1

( )n

tt

SST y y=

= −∑



on selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma.

Selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo

1

1 n

tt

y yn =

= ∑

voidaan esittää matriisein muodossa

1yn

′= 1 y

missä 1 = (1, 1, … , 1) on ykkösten muodostama n-vektori ja y on selitettävän muuttujan y havaittujen arvojen yt muodostama n-vektori.

Määritellään n×n-matriisi = −C I J

missä

1 1( )n

−′ ′ ′= =J 1 1 1 1 11

On helppo nähdä, että matriisit C ja J ovat symmetrisiä ja idempotentteja eli projektioita, jolloin

r(J) = tr(J) = 1

r(C) = tr(C) = n−1

Kokonaisneliösumma SST voidaan em. määritelmiä hyväksikäyttäen esittää matriisein muodoissa ( ) ( ) ( )SST y y′ ′ ′= − − = − =y 1 y 1 y I J y y Cy

Olkoon ˆ= −e y y

estimoidun mallin residuaali, jossa

ˆ =y Xb

on estimoidun mallin sovite ja olkoon

SSE ′ ′= =e e y My

residuaalien vaihtelua kuvaava jäännösneliösumma, missä n×n-matriisi

M = I − X´(X´X)−1X

on symmetrinen ja idempotentti eli projektio.

Voidaan osoittaa, että jäännösneliösumma SSE on korkeintaan yhtä suuri kuin kokonais-neliösumma SST:

SSE ≤ SST

Erotusta

SSM = SST – SSE

kutsutaan regressio- tai mallineliösummaksi, koska voidaan osoittaa, että



2 2

1 1

( ˆ ˆ ) ( ˆ )n n

t tt t

SSM y y y y= =

= − = −∑ ∑

Mallineliösumma SSM voidaan esittää matriisein muodoissa ˆ ˆ( ) ( ) ( )SSM y y′ ′= − − = −y 1 y 1 y P J y


1

1

( )1( )n

−

−

′ ′=

′ ′ ′= =

P X X X X

J 1 1 1 1 11


Identiteettiä

SST = SSM + SSE

kutsutaan mallin (1) selitettävän muuttujan y arvojen vaihtelua kuvaavan kokonaisneliö-summan SST varianssianalyysihajotelmaksi.

Perustelu:

Todistetaan varianssianalyysihajotelma matriisilaskentaa käyttäen.

Todetaan ensin, että kokonaisneliösumma SST voidaan kirjoittaa muotoon

2 2 2 2

1 1( )

n n

t it t

SST y y y ny ny= =

′= − = − = −∑ ∑ y y

jossa

1 2( , , , )ny y y=y …

on selitettävän muuttujan y havaittujen arvojen yt muodostama n-vektori.

Aikaisemmin esitettyjen tulosten mukaan residuaalien et muodostama n-vektori

1 2( , , , )ne e e=e …

voidaan esittää muodossa

( )= = −e My I P y

missä matriisit

1( )−′ ′=P X X X X

ja

= −M I P ovat symmetrisiä ja idempotentteja.

Siten jäännösneliösumma SSE voidaan kirjoittaa muotoon

2

1

n

tt

SSE e=

′ ′ ′ ′= = = = −∑ e e y My y y y Py

Tarkastellaan nyt mallineliösummaa SSM.



Jos voimme osoittaa, että

2SSM ny′= −y Py

niin varianssianalyysihajotelma on todistettu.

Aikaisemmin esitettyjen tulosten mukaan selitettävän muuttujan havaituilla arvoilla ja sovitteilla on sama summa:

1 1

ˆ ˆn n

i it t

y y= =

′ ′= = =∑ ∑1 y 1 y

joten

1 1

1 1 ˆ ˆn n

i ii i

y y y yn n= =

= = =∑ ∑

Siten mallineliösumma SSM voidaan kirjoittaa muotoon

2 2 2 2

1 1 1

( ˆ ) ( ˆ ˆ ) ˆ ˆ ˆ ˆn n n

t t tt t t

SSM y y y y y ny ny= = =

′= − = − = − = −∑ ∑ ∑ y y

jossa

1 2ˆ ˆ ˆ ˆ( , , , )ny y y=y …

on sovitteiden ˆty muodostama n-vektori.

Aikaisemmin esitettyjen tulosten mukaan

ˆ =y Py

jossa matriisi P on symmetrinen ja idempotentti. Siten ˆ ˆ′ ′=y y y Py

ja

2 2ˆ ˆSSM ny ny′ ′= − = −y y y Py

kuten halusimme.

■

Varianssianalyysihajotelma voidaan esittää matriisein myös muodoissa

(i) ˆ ˆ( ) ( ) ( ) ( )y y y y′ ′ ′− − = − − +y 1 y 1 y 1 y 1 e e

(ii) ( ) ( )′ ′ ′− = − +y I J y y P J y y My

Huomautus 1:

n×n-matriisit

1 1( )n

−′ ′ ′= =J 1 1 1 1 11

1n

′− = −I J I 11

1( )−′ ′=P X X X X



1( )−′ ′= − = −M I P I X X X X

1 1( )n

−′ ′ ′− = − − = −P J I J M X X X X 11


Projektiomatriisien ominaisuuksien perusteella

( ) tr( ) 1

( ) tr( ) 1

( ) tr( ) 1

( ) tr( ) 1

( ) tr( )

r

r n

r k

r n k

r k

= =

− = − = −

= = +

= = − −

− = − =

J J

I J I J

P P

M M

P J P J

Lisäksi ( ) ( )− = − =I J J J I J 0

= =PM MP 0

Huomautus 2:

Vaikka mallissa (1) ei olisi selittäjänä vakiota, pätee hajotelma

ˆ ˆ′ ′ ′= +y y y y e e

jossa

1ˆ ˆ ( )−′ ′ ′ ′ ′ ′ ′= = =y y b X Xb y X X X X y y Py

ja SSE′ ′= =e e y My

n×n-matriisit

M = I − P

P = X(X´X)−1X´


Varianssianalyysihajotelman tulkinta Selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma

( ) ( ) ( )SST y y′ ′= − − = −y 1 y 1 y I J y

on hajotettu lineaarisen regressiomallin (1) avulla kahden osatekijän summaksi

SST = SSM + SSE

jossa mallineliösumma

ˆ ˆ( ) ( ) ( )SSM y y′ ′= − − = −y 1 y 1 y P J y

kuvaa mallin (1) selittämää osaa selitettävän muuttujan y arvojen kokonaisvaihtelusta ja jäännösneliösumma



SSE ′ ′= =e e y My

kuvaa sitä osaa kokonaisvaihtelusta, jota malli (1) ei ole pystynyt selittämään.

Malli (1) selittää selitettävän muuttujan y arvojen vaihtelun sitä paremmin mitä suurempi on mallineliösumman SSM osuus kokonaisneliösummasta tai, mikä on sama asia, mitä pienempi on jäännösneliösumman SSE osuus kokonaisneliösummasta.

Selitysaste Varianssianalyysihajotelma

SST = SSM + SSE

motivoi tunnusluvun

2 1SSM SSERSST SST

= = −

käytön lineaarisen regressiomallin (1) hyvyyden tai selitysvoiman mittaamisessa. Tunnus-lukua R2 kutsutaan estimoidun mallin selitysasteeksi.

Selitysasteen ominaisuudet Seuraavan lauseen kohdat (i)-(iii) ovat välittömiä seurauksia varianssianalyysihajotelmasta sekä residuaalien, varianssianalyysihajotelman osien ja selitysasteen määritelmistä. Kohdan (iv) todistaminen on suoraviivaista, mutta melko työlästä ja ei kovin mielenkiintoista ja jätetään siksi väliin.

Lause 2.1.10.

(i) 0 ≤ R2 ≤ 1

(ii) Jos kaikki residuaalit häviävät eli

e = 0

niin

SSE = eé = 0

ja

R2 = 1

Tällöin malli sopii havaintoihin täydellisesti.

(iii) Jos

b1 = b2 = ⋅⋅⋅ = bk = 0

niin residuaalien vektori on muotoa

y= −e y 1

jolloin

SSE = SST

ja

R2 = 0

Tällöin malli ei ollenkaan selitä selitettävän muuttujan y arvojen vaihtelua.



(iv) 2 2[Cor( , ˆ)]R y y=

jossa

1

2 2

1 1

( )( ˆ )Cor( , ˆ)

( ) ( ˆ )

n

t tt

n n

t tt t

y y y yy y

y y y y

=

= =

− −=

− −

∑

∑ ∑

selitettävän muuttujan y havaittujen arvojen yt ja niitä vastaavien sovitteiden ˆty välinen otoskorrelaatiokerroin.

Koska Lauseen 2.1.10. kohdan (i) mukaan 0 ≤ R2 ≤ 1, selitysaste ilmoitetaan tavallisesti prosentteina:

100×R2 %

Huomautus:

1 1 ˆ ˆy yn n

′ ′= = =1 y 1 y

2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Oletukset Olkoon

(1) y = Xβ + ε






Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.

Regressiokertoimien estimointi kovariansseista Keskistetään selitettävän muuttujan y havaituista arvoista

y1, y2, … , yn

muodostettu n-vektori y = (y1, y2, … , yn) ja selittäjien x1, x2, … , xk havaituista arvoista




muodostettu n×k-matriisi

11 12 1

21 22 21

1 2

k

k

n n nk

x x xx x x

x x x

=

X

Keskistämisellä tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. muuttujan havaintoarvojen aritmeettinen keskiarvo. Keskistettyjen havaintoarvojen aritmeettinen keskiarvo on aina nolla.

Olkoot matriisit y ja X1 keskistettyinä y= −y y 1

ja

1 1 ′= −X X 1x

jossa

1

1 n

tt

y yn =

= ∑

on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,

1 = (1, 1, … , 1)

on ykkösten muodostama n-vektori ja

1 2( , , , )kx x x=x …

on k-vektori, jonka i. alkio

1

1 , 1,2, ,n

i tit

x x i kn =

= =∑ …

on selittäjän xi havaittujen arvojen aritmeettinen keskiarvo.

Muodostetaan keskistetyistä havainnoista lineaarinen regressiomalli

(2) 1 1= +y X β ε

Tällöin

11 1 1 1( )−′ ′=b X X X y

on regressiokertoimien vektorin 1β PNS-estimaattori.

Huomautus:

Mallissa (2) ei ole vakioselittäjää.

Olkoon k×k-matriisi

1 1( ) ( )xx ′ ′ ′= − −M X 1x X 1x

selittäjien havaittujen arvojen muodostama momenttimatriisi ja k×1-matriisi



1( ) ( )xy y′ ′= − −M X 1x y 1

selitettävän muuttujan ja selittäjien havaittujen arvojen muodostama momenttimatriisi. Tällöin

11

11

xx xx

xy xy

n

n

=−

=−

S M

S M

ovat vastaavat otoskovarianssimatriisit.

Matriisin Mxx i. rivin ja j. sarakkeen alkio on muotoa

1

[ ] ( )( ) , , 1, 2, ,n

xx ij ti i tj jt

x x x x i j k=

= − − =∑M …

Matriisin (vektorin) Mxy i. rivin alkio on muotoa

1

[ ] ( )( ) , 1,2, ,n

xy i ti i tt

x x y y i k=

= − − =∑M …

Matriisin Sxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskovarianssi ja matriisin (vektorin) Sxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskovarianssi.

Koska

1 1xx ′=M X X

ja

1xy ′=M X y

niin

1 1 11 1 1 1( ) xx xy xx xy

− − −′ ′= = =b X X X y M M S S

ja sanomme, että estimaattori 1b on estimoitu kovariansseista.

Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:

Lause 2.2.1.

Ositetaan mallin (1) regressiokertoimien vektorin β PNS-estimaattori b seuraavalla tavalla:

0 1( , )b=b b

jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.

Tällöin

1 1=b b

ja



0 1 1 1 2 2 k kb y y b x b x b x′= − = − − − −b x

missä

1 1 2( , , , )kb b b=b …

Huomautus:

Lause 2.2.1. on lineaarisen riippuvuuden siirtoinvarianttiuden ilmaisu.

Regressiokertoimien estimointi korrelaatioista Standardoidaan selitettävän muuttujan y havaituista arvoista

y1, y2, … , yn

muodostettu n-vektori y = (y1, y2, … , yn) ja selittäjien x1, x2, … , xk havaituista arvoista


muodostettu n×k-matriisi

11 12 1

21 22 21

1 2

k

k

n n nk

x x xx x x

x x x

=

X

Standardoinnilla tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. havaintoarvojen aritmeettinen keskiarvo ja saadut erotukset jaetaan ko. havaintoarvojen keskihajonnalla. Standardoitujen havaintoarvojen aritmeettinen keskiarvo on aina nolla ja otoshajonta on yksi.

Olkoot matriisit y ja X1 standardoituina

1 ( )y

ys

= −y y 1

ja

1/ 21 1( ) −′= − SX X 1x D

jossa

1

1 n

tt

y yn =

= ∑

on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,

2 2

1

1 ( )1

n

y tt

s y yn =

= −− ∑

on selitettävän muuttujan y havaittujen arvojen keskihajonta,

1 = (1, 1, … , 1)

on ykkösten muodostama n-vektori,

1 2( , , , )kx x x=x …



on k-vektori, jonka i. alkio

1

1 , 1,2, ,n

i tit

x x i kn =

= =∑ …

on selittäjän xi havaittujen arvojen aritmeettinen keskiarvo k ja

1 2

2 2 2diag( ) diag( , , , )kxx x x xs s s= =SD S …

on diagonaalimatriisi, jossa

2 2

1

1 ( ) [ ] , 1,2, ,1i

n

x ti i xx iit

s x x i kn =

= − = =− ∑ S …

on selittäjän xi havaittujen arvojen otosvarianssi.

Huomaa, että

1 2

1/ 2 diag( , , , )kx x xs s s=SD …

jolloin

1 2

1/ 2 1 1 1diag , , ,kx x xs s s

−

=

SD …

Muodostetaan standardoiduista havainnoista lineaarinen regressiomalli

(3) 1 1= +y X β ε

Tällöin

11 1 1 1( )−′ ′=b X X X y

on regressiokertoimien vektorin 1β PNS-estimaattori.

Huomautus:

Mallissa (3) ei ole vakioselittäjää.

Olkoon k×k-matriisi

1/ 2 1/ 2xx xx

− −= S SR D S D

selittäjien havaittujen arvojen otoskorrelaatiomatriisi ja k×1-matriisi

1/ 21xy xy

ys−= SR D S

selitettävän muuttujan ja selittäjien havaittujen arvojen muodostama otoskorrelaatiomatriisi, jossa

1 11 ( ) ( )

1xx n′ ′ ′= − −

−S X 1x X 1x

on selittäjien on havaintoarvojen muodostama otoskovarianssimatriisi,

11 ( ) ( )

1xy yn

′ ′= − −−

S X 1x y 1



on selitettävän muuttujan ja selittäjien havaintoarvojen muodostama otoskovarianssimatriisi.

Matriisin Rxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskorrelaatio ja matriisin (vektorin) Rxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskorrelaatio.

Koska

1 1xx ′=R X X

ja

1xy ′=R X y

niin

1 11 1 1 1( ) xx xy

− −′ ′= =b X X X y R R

ja sanomme, että estimaattori 1b on estimoitu korrelaatioista. Estimaattorin 1b alkioita kutsutaan usein mallin (1) beta-kertoimien estimaattoreiksi.

Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:

Lause 2.2.2.

Ositetaan mallin (1) PNS-estimaattori b seuraavalla tavalla:

0 1( , )b=b b

jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori. Tällöin

1/ 21 1ys −= Sb D b

ja

0 1 1 1 2 2 k kb y y b x b x b x′= − = − − − −b x

missä

1 1 2( , , , )kb b b=b …

Huomautus:

1/ 21 1

1

ys= Sb D b

missä estimaattori 1b on estimoitu kovariansseista (ks. Lause 2.2.1.).



3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa

3.1. Regressiokertoimia koskevat testit

Oletukset Olkoon

(1) y = Xβ + ε







(i) Matriisi X on ei-satunnainen

(ii) r(X) = k+1

(iii) E(ε) = 0



(vi) ε ∼ Nn(0, σ 2I)

Regressiokertoimia koskevat testit Lineaarisen regressiomallin (1) parametrien estimoimisen jälkeen on tapana testata seuraavia mallin regressiokertoimia koskevia hypoteeseja:

(i) H0 : β1 = β2 = ⋅⋅⋅ = βk = 0

(ii) H0i : βi = 0 , i = 0, 1, 2, … , k

Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk .

Jos nollahypoteesi H00 pätee, mallissa (1) ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 0, 1, 2, … , k, pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .



Regression olemassaolon testaaminen Olkoon nollahypoteesina

H0 : β1 = β2 = ⋅⋅⋅ = βk = 0

Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk . Testi nollahypoteesille H0 on yleistesti selitettävän muuttujan y ja selittäjien x1, x2, … , xk välisen regression olemassaololle. Jos nollahypoteesi H0 ei päde, ainakin yksi regressiokertoimista β1, β2, … , βk poikkeaa nollasta.

Nollahypoteesia H0 voidaan testata testisuureella

2

2

1

1

11

n k SSMFk SSE

n k SST SSEk SSE

n k Rk R

− −= ⋅

− − −= ⋅

− −= ⋅

−

jossa

SST = selitettävän muuttujan vaihtelua kuvaava kokonaisneliösumma

SSM = estimoidun mallin mallineliösumma

SSE = estimoidun mallin jäännösneliösumma

ja

2 1SSM SSERSST SST

= = −

on estimoidun mallin selitysaste.

Lause 3.1.1.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein k ja (n–k–1), jos nollahypoteesi H0 pätee:

0H

( , 1)F F k n k− −∼

Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.

Perustelu:

Testisuuretta F koskeva jakaumatulos nähdään oikeaksi seuraavalla tavalla:

(i) Oletetaan, että lineaarinen regressiomalli

(1) y = Xβ + ε

toteuttaa standardioletuksien (i)-(v) lisäksi normaalisuusoletuksen (vi), jolloin

2N ( , )n σy Xβ I∼

(ii) Kokonaisneliösumma SST voidaan esittää muodossa

SST = y´(I – J)y

jossa n×n-matriisit



1n

′=J 11

ja

1n

′− = −I J I 11

ovat symmetrisiä ja idempotentteja eli projektioita, jolloin matriisien J ja I – J asteet ovat

r(J) = tr(J) = 1

ja

r(I – J) = tr(I – J) = n–1

(iii) Mallineliösumma SSM voidaan esittää muodossa

SSM = y´(P – J)y

jossa n×n-matriisit

1( )−′ ′=P X X X X

ja

1 1( )n

−′ ′ ′− = −P J X X X X 11

ovat symmetrisiä ja idempotentteja eli projektioita. Matriisin P aste on

r(P) = tr(P) = k–1

Koska matriisin J aste on

r(J) = tr(J) = 1

niin matriisin P – J aste on

r(P – J) = tr(P – J) = k

(iv) Jäännösneliösumma SSE voidaan esittää muodossa

SSE = y´My = ε´Mε

jossa n×n-matriisi

1( )−′ ′= − = −M I P I X X X X

on symmetrinen ja idempotentti eli projektio, jolloin

r(M) = tr(M) = n–k–1

(v) Matriisit P – J ja M ovat ortogonaalisia:

(P – J)M = M(P – J) = 0

Tämä voidaan perustella seuraavalla tavalla: Koska

M = I – P

niin

(P – J)M = –J + JP



Siten väite on todistettu, jos voidaan osoittaa, että

JP = PJ = J

mikä nähdään oikeaksi seuraavalla tavalla: Olkoon n∈a mielivaltainen n-vektori ja olkoon

t = Ja

Tällöin

t ∈ M(X)

missä M(X) on matriisin X = [1 X1] sarakeavaruus. Koska P = X(X´X)–1X´ on projektio matriisin X sarakeavaruuteen M(X), niin

PJa = Pt = t = Ja

Koska a on mielivaltainen n-vektori, niin

PJa = Ja

kaikille n∈a . Siten välttämättä

PJ = J

(vi) Multinormaalijakauman neliömuotojen jakaumia koskevista tuloksista (esim. Cochranin lauseesta) seuraa, että nollahypoteesin H0 pätiessä

2 ( )SSM kχ∼

ja

2 ( 1)SSE n kχ − −∼

Lisäksi SSM ja SSE ovat riippumattomia.

(vii) F-jakauman määritelmästä seuraa, että nollahypoteesin H0 pätiessä

1 ( , 1)n k SSMF F k n kk SSE

− −= ⋅ − −∼

■

Yksittäisten regressiokertoimien testaaminen Olkoon nollahypoteesina

H0i : βi = 0 , i = 0, 1, 2, … , k

Jos nollahypoteesi H00 pätee, mallissa ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 1, 2, … , k pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .

Nollahypoteesia H0i voidaan testata testisuureella

, 0,1, 2, ,i

ii

b

bt i ks

= = …

jossa bi on regressiokertoimen βi PNS-estimaattori ja

2 2 1( 1)( 1)[( ) ] , 0,1, 2, ,

ib i is s i k−+ += =X´X …



on estimaattorin bi varianssin estimaattori.

Oletetaan, että lineaarisen regressiomallin (1) oletukset (i)-(vi) pätevät. Tällöin testisuure ti on jakautunut t-jakauman mukaan vapausastein (n–k–1), jos nollahypoteesi H0i pätee:

0H

( 1) , 0,1, 2, ,i

it t n k i k− − =∼ …

Itseisarvoltaan suuret testisuureen ti arvot viittaavat siihen, että nollahypoteesi ei päde.

Jos nollahypoteesi H0i : βi = 0 hylätään, sanotaan, että kerroin βi ja sitä vastaava selittäjä xi ovat tilastollisesti merkitseviä.

Huomautus:

Jos jäännöstermiä ε koskeva normaalisuusoletus (vi) ei päde, yllä esitettyjen F- ja t- testisuureiden jakaumat eivät ole yllä esitettyä tavanomaista tyyppiä. F- ja t-jakaumien käyttöä F- ja t-testisuureiden jakaumina voidaan tällaisissa tilanteissa kuitenkin usein perustella asymptoottisella eli suurten otosten teorialla.

Testit ja mallin valinta Regressiomalleja sovelletaan usein sellaisissa tilanteissa, joissa selittäviksi muuttujiksi on tarjolla useita ehdokkaita ja mallinrakennuksen yksi osatehtävistä on valita selittäjä-ehdokkaiden joukosta parhaat tai sopivimmat.

Yksittäisiin regressiokertoimiin kohdistuvilla testeillä voidaan pyrkiä etsimään sellainen malli, jossa kaikki selittäjät ovat tilastollisia merkitseviä. On syytä huomata, että testien suoritusjärjestys saattaa vaikuttaa lopputulokseen eli siihen, mikä malli tulee valituksi. Siksi testien järjestämiseen on tarjolla useita erilaisia strategioita.

Huomautus:

Mallin valintaa ei saa koskaan tehdä pelkästään tilastollisin kriteerein. Mallia pitää aina arvioida myös asialoogisin kriteerein, jolloin kiinnitetään huomiota esimerkiksi estimoitujen regressiokertoimien merkkeihin ja suuruuteen.

Askellus alaspäin Ehkä yleisimmin sovellettu mallinvalintastrategia on askellus alaspäin:

(1) Estimoidaan malli, johon otetaan selittäjiksi kaikki selittäjäehdokkaat.

(2) Jos kaikki selittäjäehdokkaat ovat tilastollisesti merkitseviä, niin siirrytään suoraan vaiheeseen (6).

(3) Poistetaan mallista se selittäjä, jota vastaavan regressiokertoimen t-testisuureen itseisarvo on pienin.

(4) Estimoidaan malli uudelleen.

(5) Jos kaikki selittäjät ovat tilastollisesti merkitseviä, niin siirrytään vaiheeseen (6), muuten palataan vaiheeseen (3).

(6) Malli on valmis.

Huomautus:

Vaihe (4) on välttämätön, elleivät selittäjät ole ortogonaalisia.



3.2. Ennustaminen yleisellä lineaarisella mallilla

Oletukset Olkoon

(1) y = Xβ + ε






Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuus-oletus (vi) pätee.

Ennustamistehtävä Miten yleisen lineaarisen mallin (1) selitettävän muuttujan y käyttäytymistä voidaan ennustaa? Tällä ennustamistehtävällä tarkoitetaan kahta toisilleen läheistä sukua olevaa tehtävää:

(i) Mikä on paras arvio eli ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?

(ii) Mikä on paras arvio eli ennuste selitettävän muuttujan y arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?

Selitettävän muuttujan odotettavissa olevan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?

Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot

1 2, , , kx x x… . Merkitään

(1, )=z x

missä

1 2( , , , )kx x x=x …

on k-vektori. Tällöin



y ε′= +β z

ja

E( | )y ′=z β z

on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään odotusarvon E( | )y z ennusteena lauseketta

(2) ˆ |y ′=z b z

missä b on regressiokertoimien vektorin β PNS-estimaattori.

Huomautus:

Ehdollinen odotusarvo E( | )y z on vakio, kun taas ennuste ˆ |y z on satunnaismuuttuja.

Selitettävän muuttujan odotettavissa olevan arvon ennusteen jakauma Lause 3.2.1.


(i) Ê( | )y ′=z β z

(ii) 2 1ˆVar( | ) [ ( ) ]y σ −′ ′=z z X X z

Huomautus 1:

Lauseen 3.2.1. kohdan (i) mukaan

ˆ |y ′=z b z

on harhaton ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… eli

Ê( | ) E( | )y y′= =z β z z

Huomautus 2:

Voidaan osoittaa, että ˆ |y ′=z b z

on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.

Lause 3.2.2.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin

ˆ ˆ ˆ| N(E( | ) ,Var( | ))y y yz z z∼

missä

Ê( | )y ′=z β z

ja

2 1ˆVar( | ) [ ( ) ]y σ −′ ′=z z X X z



Selitettävän muuttujan odotettavissa olevan arvon luottamusväli Lause 3.2.3.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät ja olkoon E( | )y z selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… .

Tällöin odotusarvon E( | )y z luottamusväli luottamustasolla (1 − α) on

1 1 2/ 2 [ ( ) ]t sα

−′ ′ ′±b z z X X z

jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).

Selitettävän muuttujan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?

Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot

1 2, , , kx x x… . Merkitään

(1, )=z x

missä

1 2( , , , )kx x x=x …

on k-vektori. Tällöin

y ε′= +β z

ja

E( | )y ′=z β z

on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään selitettävän muuttujan y arvon y ennusteena lauseketta

(2) ˆ |y ′=z b z

missä b on regressiokertoimien vektorin β PNS-estimaattori.

Huomautus:

Sekä selitettävän muuttujan y arvo y että ennuste ˆ |y z ovat satunnaismuuttujia.

Ennustevirhe Selitettävän muuttujan y todellisen arvon y ja sen ennusteen ˆ |y z erotusta

ˆ | ( )e y y ε′= − = − +z β b z

kutsutaan ennustevirheeksi.



Selitettävän muuttujan arvon ennusteen jakauma Lause 3.2.4.


(i) Ê( | ) 0y y− =z

(ii) 2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z

Huomautus 1:

Lauseen 3.2.4. kohdan (i) mukaan

ˆ |y ′=z b z

on harhaton ennuste selitettävän muuttujan y arvon y ehdolliselle odotusarvolle E( | )y z , kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… siinä mielessä että

Ê( | ) 0y y− =z

Sen sijaan ˆ |y z ei ole harhaton ennuste selitettävän muuttujan y arvolle y , koska yleensä

Ê( | )y y′= ≠z β z

Huomautus 2:

Voidaan osoittaa, että

ˆ |y ′=z b z

on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.

Lause 3.2.5.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin ˆ ˆ| N(0,Var( | ))y y y y− −z z∼

missä

2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z

Selitettävän muuttujan arvon luottamusväli Lause 3.2.6.

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin selitettävän muuttujan y arvon y luottamusväli luottamustasolla (1 − α) on

1 1 2/ 2 [1 ( ) ]t sα

−′ ′ ′± +b z z X X z

jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).



Huomautus:

Lauseista 3.2.3. ja 3.2.6 nähdään, että selitettävän muuttujan y odotettavissa olevan arvon E( | )y z luottamusväli on kapeampi kuin selitettävän muuttujan y arvon y luottamusväli.

Tämä on ymmärrettävää, koska muuttujan keskimääräisen arvon ennustaminen on helpompaa kuin sen yksittäisen arvon ennustaminen.



4. Edistyneempää lineaarista regressioanalyysia

4.1. PNS-estimaattorin hyvyys

Oletukset Olkoon

(1) y = Xβ + ε







(i) Matriisi X on ei-satunnainen

(ii) r(X) = k+1

(iii) E(ε) = 0



(vi) ε ∼ Nn(0, σ 2I)

PNS-estimaattorin hyvyys Olkoon

b = (X´X)−1Xý

yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori.

Kuinka hyvä PNS-estimaattori b on estimaattorina? Gaussin ja Markovin lauseen mukaan PNS-estimaattoria b parempaa estimaattoria ei voida löytää regressiokertoimien vektorin β lineaaristen ja harhattomien estimaattoreiden joukosta.

Gaussin ja Markovin lause Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori b on vektorin β paras lineaarinen ja harhaton estimaattori seuraavan lauseen tarkoittamassa mielessä:



Lause 4.1.1. Gaussin ja Markovin lause

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät ja olkoon b regressiokertoimien vektorin β PNS-estimaattori ja b* mikä tahansa toinen lineaarinen ja harhaton estimaattori. Tällöin matriisi

Cov(b*) − Cov(b)

on ei-negatiivisesti definiitti.

Perustelu:

Olkoon

=* *b A y

mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori, jossa *A on ei-satunnainen (k+1)×n-matriisi.

Määritellään (k+1)×n-matriisi A kaavalla

1( )∗ −′ ′= −A A X X X y

Siten estimaattorin ∗b lauseke voidaan kirjoittaa muotoon

1

1

1

[ ( ) ][ ( ) ]( )( ) [ ( ) ]

∗ ∗

−

−

−

=

′ ′= +

′ ′= + +

′ ′= + + +

b A yA X X X yA X X X Xβ εAX I β A X X X ε

jolloin

1E( ) ( ) [ ( ) ]E( )∗ −′ ′= + + + = +b AX I β A X X X ε AXβ β

Siten estimaattori ∗b voi olla harhaton parametrille β vain, jos

=AX 0

jolloin siis

E( )∗ =b β

ja

1E( ) [ ( ) ]∗ ∗ ∗ −′ ′− = − = +b b b β A X X X ε

Siten

1 1

1 1

1 1

2 1 1

2 1

Cov( ) E[( E( ))( E( )) ]E[( )( ) ]E{[ ( ) ] [ ( ) ][ ( ) ]E( )[ ( ) ][ ( ) ]Cov( )[ ( ) ]

[ ( ) ][ ( ) ][ ( ) ( )

σ

σ

∗ ∗ ∗ ∗ ∗

∗ ∗

− −

− −

− −

− −

−

′= − −

′= − −

′ ′ ′ ′ ′ ′= + +

′ ′ ′ ′ ′= + +

′ ′ ′ ′= + +

′ ′ ′ ′= + +

′ ′ ′= + +

b b b b bb β b βA X X X εε A X X X

A X X X εε A X X XA X X X ε A X X X

A X X X A X X XAA AX X X X X 1 1( ) ]− −′ ′ ′+X A X X



Koska =AX 0

tämä lauseke sievenee muotoon

2 1Cov( ) [ ( ) ]σ∗ −′ ′= +b AA X X

Koska muotoa ′AA oleva matriisi on aina positiivisesti semidefiniitti matriisi eli 0′ ≥AA

niin olemme todistaneet, että

2 1 2 1Cov( ) [ ( ) ] ( ) Cov( )σ σ− −′ ′ ′= + ≥ =*b AA X X X X b

Siten olemme todistaneet Gaussin ja Markovin lauseen, koska ∗b oli mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori.

■

Huomautus 1:

Lauseessa 4.1.1. esitetty PNS-estimaattorin b ns. Gauss-Markov-ominaisuus ilmaistaan usein myös seuraavassa muodossa: PNS-estimaattori b on tehokkain lineaaristen ja harhattomien estimaattoreiden joukossa.

Huomautus 2:

Lauseesta 4.1.1. seuraa, että regressiokertoimien PNS-estimaattoreiden varianssit ovat pienimmät mahdolliset lineaaristen ja harhattomien estimaattoreiden joukossa.

Huomautus 3:

Epälineaaristen ja/tai harhaisten estimaattoreiden joukosta voidaan löytää PNS- estimaattoria parempia estimaattoreita.

4.2. Yleistetty pienimmän neliösumman menetelmä

Oletukset Olkoon

(1) y = Xβ + ε








Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) pätevät. Sen sijaan jäännöstermiä ε koskevat oletukset (iv)-(v) korvataan oletuksilla:

(iv)´-(v)´ Cov(ε) = σ 2V

jossa V on positiivisesti definiitti n×n-matriisi.

Usein oletuksiin (i)-(iii) ja (iv)´-(v)´ liitetään vielä jäännöstermiä ε koskeva normaalisuus-oletus:

(vi)´ ε ∼ Nn(0, σ 2V)

Yleistetty pienimmän neliösumman estimaattori Koska matriisi

Cov(ε) = σ 2V

on oletettu positiivisesti definiitiksi, matriisilla V on Cholesky-hajotelma

V = UU´

missä n×n-matriisi U on epäsingulaarinen yläkolmiomatriisi. Kerrotaan regressioyhtälö

(1) y = Xβ + ε

vasemmalta matriisilla U−1, jolloin saadaan regressioyhtälö

(2) U−1y = U−1Xβ + U−1ε

Regressioyhtälö (2) voidaan kirjoittaa muotoon

(3) z = Tβ + δ

jossa

z = U−1y

T = U−1X

δ = U−1ε

Regressioyhtälön (3) jäännöstermi δ on korreloimaton:

Cov(δ) = U−1Cov(ε)(U−1)´ = σ2 U−1V(U´)−1 = σ2 U−1UU´(U´)−1 = σ 2I

joten standardioletukset (i)-(v) pätevät regressiomallille (3).

Soveltamalla pienimmän neliösumman menetelmää regressioyhtälöön (3) vektorin β pienimmän neliösumman estimaattoriksi saadaan mallista (3)

bGLS = (T´T)−1T´z

= (X´(U´)−1U−1X)−1 X´(U´)−1U−1y

= (X´(UU´)−1X)−1 X´(UU´)−1y

= (X´V−1X)−1 X´V−1y

Estimaattoria bGLS kutsutaan mallin (1) regressiokertoimien vektorin β yleistetyksi pienimmän neliösumman (PNS-) estimaattoriksi.



Yleistetyn PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β yleistetyn PNS-estimaattorin bGLS keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:

Lause 4.2.1.

Oletetaan, että yleisen lineaarisen mallin (1) oletukset (i)-(iii) ja (iv)´-(v)´ pätevät. Tällöin

(i) E(bGLS) = β

(ii) Cov(bGLS) = σ 2(X´V−1X)–1

(iii) Erityisesti

2 1 11, 1Var( ) [( ) ] , 0,1, 2, ,G

i i ib i kσ − −+ +′= =X V X …

missä

0 1 2( , , , , )G G G GGLS kb b b b=b …

Perustelu:

(i) Suoraan laskemalla saadaan:

E(bGLS) = E[(X´V−1X)−1X´V−1y]

= (X´V−1X)−1X´V−1E(y)

= (X´V−1X)−1X´V−1Xβ

= β

(ii) Yleistetyn PNS-estimaattorin bGLS kaavaa johdettaessa malli

y = Xβ + ε

muunnettiin malliksi

z = Tβ + δ

jossa

z = U−1y

T = U−1X

δ = U−1ε

ja U on epäsingulaarinen yläkolmiomatriisi joka toteuttaa ehdon

V = UU´

Siten

Cov(bGLS) = σ2(TT)−1 = σ2(X´V−1X)−1

(iii) Kohta (iii) on suora seuraus kohdasta (ii).

■



Huomautus:

Lauseen 4.2.1. kohdan (i) mukaan yleistetty PNS-estimaattori bGLS on regressiokertoimien vektorin β harhaton estimaattori.

Lause 4.2.2.

Oletetaan, että yleisen lineaarisen mallin (1) oletuksien (i)-(iii) ja (iv)´-(v)´ lisäksi normaalisuusoletus (vi)´ pätee. Tällöin

bGLS ∼ Nk+1(β, σ2(X´V−1X)–1)

Erityisesti

2 1 11, 1N , [( ) ] , 0,1, 2, ,G

i i i ib i kβ σ − −+ +′ =X V X∼ …

missä

0 1 2( , , , , )G G G GGLS kb b b b=b …

Perustelu:

Lause 4.2.2. seuraa suoraan lauseesta 4.2.1., koska yleistetty PNS-estimaattori

bGLS = (X´V−1X)−1 X´V−1y


■

Yleistetyn PNS-estimaattorin hyvyys Koska malli (3) toteuttaa ns. standardioletukset (i)-(v), kerroinvektorin β yleistetty PNS-estimaattori

bGLS = (T´T)−1T´z = (X´V−1X)−1 X´V−1y

on Gaussin ja Markovin lauseen (ks. kappale 3.2.) mukaan paras lineaaristen ja harhattomien estimaattoreiden joukossa.

Jos siis yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) ja oletukset (iv)´-(v)´ pätevät, yleistetty PNS-estimaattori bGLS on myös parempi kuin tavallinen PNS-estimaattori

b = (X´X)−1Xý

mikä merkitsee sitä, että matriisi

Cov(b) − Cov(bGLS) = σ 2(X´X)−1 − σ 2(X´V−1X)−1

on ei-negatiivisesti defiiniitti kaikille positiivisesti definiiteille n×n-matriiseille V.

Yleistetty PNS-estimaattori nähdään parhaaksi lineaaristen ja harhattomien estimaattoreiden joukossa myös seuraavalla tavalla:

Olkoon

b* = Hy

jokin kerroinvektorin β lineaarinen ja harhaton estimaattori. Tällöin

E(b*) = HE(y) = HXβ = β

josta seuraa, että



HX = I

Määritellään matriisi C yhtälöllä

H = (X´V−1X)−1X´V−1 + C

Koska välttämättä CX = 0,

Cov(b*) = Cov(Hy) = Cov(bGLS) + CV−1C´

Koska matriisi

Cov(b*) − Cov(bGLS) = CV−1C´

on ei-negatiivisesti defiiniitti, niin yleistetty PNS-estimaattori bGLS on parempi kuin mikä tahansa muu lineaarinen ja harhaton estimaattori b*.

4.3. Lineaariset rajoitukset

Oletukset Olkoon

(1) y = Xβ + ε






Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät, mutta oletetaan lisäksi, että regressiokertoimia sitoo lineaarinen rajoitus eli side-ehto

(2) Rβ = r

jossa R täysiasteinen m×(k+1)-matriisi, m ≤ k+1.

Huomautus:

Lineaarisen mallin (1) regressiokertoimien vektori β voi periaatteessa varioida täysin vapaasti avaruudessa 1k+ . Jos lineaarinen rajoitus (2) pätee, vektori β varioi siinä m- ulotteisessa vektorialiavaruudessa, jonka lineaarinen rajoitus (2) määrittelee. Tämä aliavaruus on m-ulotteinen taso avaruudessa 1k+ .



Rajoitettu pienimmän neliösumman estimaattori Minimoidaan neliösumma

ε´ε = (y − Xβ)´(y − Xβ)

vektorin β suhteen, kun lineaarinen rajoitus

Rβ = r

pätee. Käytetään minimointiin funktioiden sidottujen ääriarvojen etsimiseen tarkoitettua Lagrangen kertojien menetelmää. Minimoitava funktio on muotoa

f(β) = (y − Xβ)´(y − Xβ) + λ´(Rβ − r)

jossa λ on Lagrangen kertoimien muodostama m-vektori. Minimi löydetään derivoimalla funktio f(β) muuttujan β ja kerroinvektorin λ suhteen ja merkitsemällä derivaatat nollaksi. Derivointi johtaa normaaliyhtälöihin

(i) ( ) 2 2f∂ ′ ′ ′= − + + =∂β X y X Xβ R λ 0β

(ii) ( )f∂= − =

∂β Rβ r 0λ

Kertomalla yhtälö (i) vasemmalta matriisilla R(X´X)−1 saadaan yhtälö

−2R(X´X)−1Xý + 2Rβ + R(X´X)−1R´λ = 0

Koska matriisi R(X´X)−1R´ on täysiasteinen m×m-matriisi, vektori λ voidaan ratkaista tästä yhtälöstä. Ottamalla samalla huomioon yhtälö (ii), saadaan

λ = 2(R(X´X)−1R´)−1(Rb − Rβ) = 2(R(X´X)−1R´)−1(Rb − r)

missä

b = (X´X)−1Xý

on tavanomainen PNS-estimaattori regressiokertoimien vektorille β. Sijoittamalla vektorin λ lauseke yhtälöön (i), saadaan yhtälö

1 12 2 2 ( ( ) ) ( )− −′ ′ ′ ′ ′− + + − =X y X Xβ R R X X R Rb r 0

Ratkaisemalla β tästä yhtälöstä saadaan regressiokertoimien vektorin β estimaattoriksi:

bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)

Estimaattoria bR kutsutaan mallin (1) regressiokertoimien vektorin β rajoitetuksi tai sidotuksi pienimmän neliösumman (PNS-) estimaattoriksi.

Rajoitetun PNS-estimaattorin ominaisuudet Lineaarisen regressiomallin (1) regressiokertoimien vektorin β rajoitetun PNS-estimaattorin bR keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:

Lause 4.3.1.


(i) E(bR) = β



(ii) Cov(bR) = σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]

jos lineaarinen rajoitus Rβ = r pätee.

Perustelu:

(i) Suoraan laskemalla saadaan:

E(bR) = E[b − (X´X)−1R´(R(X´X)−1R´)–1(Rb − r)]

= E(b) − (X´X)−1R´(R(X´X)−1R´)–1(RE(b) − r)

= β − (X´X)−1R´(R(X´X)−1R´)–1(Rβ − r)

= β

(ii) Oletetaan, että rajoitukset Rβ = r pätevät. Merkitsemällä

C = (X´X)−1R´

voidaan rajoitetun PNS-estimaattorin bR lauseke kirjoittaa muotoon

bR = b − C(C´X´XC)–1(Rb − r)

Koska

b = β + (X´X)−1X´ε

saadaan yhtälö

bR − β = [(X´X)−1 − C(C´X´XC)–1C´]X´ε

Koska oletimme, että Rβ = r, jolloin bR on harhaton parametrivektorille β, niin

Cov(bR) = E{[(bR − E(bR)][(bR − β)]´}

= E[(bR − β)(bR − β)´]

= [(X´X)−1 − C(C´X´XC)–1C´]XÉ(εε´)X

×[(X´X)−1 − C(C´X´XC)–1C´]

= σ2[(X´X)−1 − C(C´X´XC)–1C´]X´X

×[(X´X)−1 − C(C´X´XC)–1C´]

= σ2[(X´X)−1 − C(C´X´XC)–1C´]

= σ2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)–1 R(X´X)−1]

■

Huomautus:

Lauseen 4.3.1. kohdan (i) mukaan rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä regressiokertoimien vektorin β harhaton estimaattori.

Lause 4.3.2.


bR ∼ Nk+1(β,σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1])

jos lineaarinen rajoitus Rβ = r pätee.



Perustelu:

Lause 4.3.2. seuraa suoraan lauseesta 4.3.1., koska rajoitettu PNS-estimaattori

bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)


■

Rajoitetun PNS-estimaattorin hyvyys Olkoon

bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)

lineaarisen regressiomallin (1) regressiokertoimien vektorin β rajoitettu PNS-estimaattori, missä

b = (X´X)−1Xý

on vektorin β tavallinen PNS-estimaattori. Koska

b = β + (X´X)−1X´ε

saadaan yhtälö

bR − β = [(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]X´ε

jos lineaarinen rajoitus

Rβ = r

pätee. Tällöin

Cov(bR) = E[(bR − β)(bR − β)´]

= σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]

Tästä nähdään välittömästi, että rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä parempi kuin tavallinen PNS-estimaattori b, koska

Cov(b) = σ 2(X´X)−1

ja matriisi

Cov(b) − Cov(bR) = σ 2(X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1

on ei-negatiivisesti definiitti.

Rajoitusten testaaminen Asetetaan lineaarisen mallin (1) regressiokertoimien vektorille β nollahypoteesi

H0 : Rβ = r

jossa R täysiasteinen m×(k+1)-matriisi, m ≤ k+1. Nollahypoteesia H0 kutsutaan usein yleiseksi lineaariseksi hypoteesiksi.

Muodostetaan testisuure

1 1

2

1 ( ) ( ( ) ) ( )RSSE SSEn kFm SSE ms

− −′ ′ ′−− − − −= ⋅ =

r Rb R X X R r Rb



jossa

SSE = (y − Xb)´(y − Xb)

SSER = (y − XbR)´(y − XbR)

(n – k – 1)s2 = SSE

Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein m ja (n–k–1), jos nollahypoteesi H0 pätee:

0H

( , 1)F F m n k− −∼

Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.

Huomautus:

Yleiselle lineaariselle hypoteesille esitetty F-testi sisältää erikoistapauksinaan kappaleessa 3.1. esitetyt testit regression olemassaololle ja yksittäisille regressiokertoimille.

4.4. Lineaarinen regressiomalli ja stokastiset selittäjät

Oletukset Olkoon

(1) y = Xβ + ε



X = satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1



Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (ii)-(v) pätevät. Sen sijaan oletus (i) on korvataan nyt oletuksella

(i)´ Matriisi X on satunnainen

Huomautus:

Oletus (i)´ merkitsee sitä, että selittäjät x1, x2, … , xk oletetaan satunnaismuuttujiksi.



Kiinteät ja satunnaiset selittäjät Lineaarista regressiomallia (1) koskevissa standardioletuksissa selittäjien havaittujen arvojen muodostama matriisi X on oletettu kiinteäksi eli ei-satunnaiseksi. Tiukasti ottaen tämä oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjien arvot päästään valitsemaan. Selittäjien arvot päästään valitsemaan puhtaissa koeasetelmissa, mutta muulloin oletus on vaikeasti perusteltavissa.

Tarkastellaan seuraavassa tilannetta, jossa selittäjät ovat stokastisia muuttujia eli satunnais-muuttujia. Miten tämä vaikuttaa kappaleissa 2. ja 3. esitettyihin lineaarisen regressiomallin estimointia koskeviin tuloksiin? Täydellisen vastauksen antaminen tähän kysymykseen on monimutkainen tehtävä eikä siihen tässä edes pyritä.

Jos sekä selitettävä muuttuja y että selittäjät x1, x2, … , xk ovat satunnaismuuttujia, täydellisen kuvauksen niiden käyttäytymisestä antaa niiden yhteisjakauma. Muuttujan y riippuvuutta muuttujista x1, x2, … , xk voidaan tutkia yhteisjakauman muodostamassa kehikossa tarkastelemalla muuttujan y regressiofunktiota eli ehdollista odotusarvoa muuttujien x1, x2, … , xk suhteen.

Koska regressiofunktiot ovat yleensä epälineaarisia, joudutaan tällaisissa tilanteissa tavallisesti soveltamaan epälineaarista regressioanalyysia; epälineaarisen regressio-analyysin käsittely sivuutetaan tässä esityksessä.

Ehdollistaminen Voidaan osoittaa, että kaikki kappaleissa 2. ja 3. esitetyt lineaarisen regressiomallin estimointia ja testausta koskevat tulokset pätevät, jos seuraavat oletukset pätevät:

(i)´ E(ε | X) = 0

(ii)´ Cov(ε | X) = σ 2I

Näistä oletuksista seuraa:

(i)´´ E(y | X) = Xβ

(ii)´´ Cov(y | X) = σ 2I

Ehdon (i)´´ mukaan selitettävän muuttujan arvojen ehdollinen odotusarvo eli regressio-funktio on lineaarinen, kun ehdollistus tapahtuu selittävien muuttujien havaittujen arvojen suhteen.

Huomautus 1:

Koska moniulotteisten satunnaismuuttujien ehdolliset odotusarvot ovat yleisessä tapauksessa ehtomuuttujien epälineaarisia funktioita, oletus regressiofunktion lineaarisuudesta on stokastisten selittäjien tapauksessa hyvin voimakas oletus.

Huomautus 2:

Jos selitettävän muuttujan y ja selittäjien x1, x2, … , xk yhteisjakauma on multinormaalinen, niin satunnaismuuttujan y ehdollinen jakauma satunnaismuuttujien x1, x2, … , xk suhteen on normaalinen.

Lisäksi tällöin satunnaismuuttujan y ehdollinen odotusarvo satunnaismuuttujien x1, x2, … , xk suhteen on lineaarinen ja satunnaismuuttujan y ehdollinen varianssi satunnaismuuttujien x1, x2, … , xk suhteen on vakio.



Tällöin oletukset (i)´ ja (ii)´ pätevät ja voimme soveltaa kappaleissa 2. ja 3. esitettyä yleisen lineaarisen mallin tavanomaista estimointi- ja testiteoria. Tämä merkitsee sitä, että stokastisten selittäjien tapauksessa multinormaalijakauman regressiofunktiot ja lineaariset regressiomallit kytkeytyvät toisiinsa.

Lisätietoja multinormaalijakaumasta, sen ehdollisista jakaumista ja ehdollisista odotus- arvoista sekä ehdollisten odotusarvojen estimoinnista: ks. lukua Multinormaali- jakauma.

Huomautus 3:

Aikasarjojen analyysissa ja ekonometriassa joudutaan usein soveltamaan sellaisia regressiomalleja, joissa selittäjät ovat stokastisia ja oletukset (i)´ ja (ii)´ eivät päde.

Tällaisissa tilanteissa PNS-menetelmä ei välttämättä tuota harhattomia eikä edes tarkentuvia estimaattoreita regressiokertoimille. Jos näin on, niin PNS-menetelmä ei ole kelvollinen estimointimenetelmä.

Sen sijaan suurimman uskottavuuden menetelmä tuottaa tavallisesti myös niissä tilanteissa, joissa PNS-menetelmää ei saa soveltaa kelvolliset estimaattorit regressiokertoimille.

Monimuuttujamenetelmät: Yleinen lineaarinen malli

Documents