This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
1.1. Yleinen lineaarinen malli ja mallin oletukset YLEINEN LINEAARINEN MALLI SELITTÄVÄT MUUTTUJAT JA NIIDEN ARVOJA KOSKEVAT OLETUKSET JÄÄNNÖSTERMI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN MALLIN PARAMETRIT YLEISEN LINEAARISTA MALLIN STANDARDIOLETUKSET
1.2. Yleisen lineaarisen mallin matriisiesitys MATRIISIESITYS YLEISELLE LINEAARISEN MALLILLE SELITTÄJIEN HAVAITTUJEN ARVOJEN MATRIISI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄN MUUTTUJAN HAVAITTUJEN ARVOJEN VEKTORI JA SEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN REGRESSIOMALLIN PARAMETRIT YLEISEN LINEAARISEN MALLIN STANDARDIOLETUKSET MATRIISIMUODOSSA
2. Yleisen lineaarisen mallin parametrien estimointi
2.1. Parametrien estimointi OLETUKSET REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT ESTIMOITU REGRESSIOTASO REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET SOVITTEET SOVITTEIDEN OMINAISUUDET RESIDUAALIT, RESIDUAALIEN OMINAISUUDET SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI
3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa
3.1. Regressiokertoimia koskevat testit OLETUKSET REGRESSIOKERTOIMIA KOSKEVAT TESTIT REGRESSION OLEMASSAOLON TESTAAMINEN YKSITTÄISTEN REGRESSIOKERTOIMIEN TESTAAMINEN TESTIT JA MALLIN VALINTA ASKELLUS ALASPÄIN
3.2. Ennustaminen yleisellä lineaarisella mallilla OLETUKSET ENNUSTAMISONGELMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN ENNUSTEVIRHE SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI
4. Edistyneempää lineaarista regressioanalyysia
4.1. PNS-estimaattorin hyvyys OLETUKSET PNS-ESTIMAATTORIN HYVYYS GAUSSIN JA MARKOVIN LAUSE
1.1. Yleinen lineaarinen malli ja mallin oletukset
Yleinen lineaarinen malli Usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
on seuraavat osat:
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xti = selittävän muuttujan xi , i = 1, 2, … , k, kiinteä (ei-satunnainen) ja havaittu arvo havainnossa t
β0 = vakioselittäjän regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio
βi = selittäjän xi , i = 1, 2, … , k, regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio
εt = jäännöstermin ε satunnainen ja ei-havaittu arvo havainnossa t
Malli (1) kuvaa selitettävän muuttujan y havaittujen arvojen yt lineaarista tilastollista riippuvuutta selittävien muuttujien eli selittäjien x1, x2, … , xk havaituista arvoista xt1, xt2, … , xtk . Mallin (1) tavoitteena on selittää muuttujan y havaittujen arvojen vaihtelu muuttujien x1, x2, … , xk havaittujen arvojen vaihtelun avulla.
Huomautus 1:
Mallin (1) lineaarisuudella tarkoitetaan sitä, että malli on lineaarinen regressio- kertoimien β0, β1, β2, … , βk suhteen, mutta on syytä huomata, että malli on lineaarinen myös selittäjien x1, x2, … , xk arvojen suhteen.
Huomautus 2:
Selitettävä muuttuja y oletetaan mitta-asteikollisilta ominaisuuksiltaan jatkuvaksi.
Huomautus 3:
Vakio β0 on vakioselittäjän (selittäjän, jonka jokainen havaintoarvo = 1) regressio- kerroin. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat x1, x2, … , xk .
Huomautus 4:
Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole vakioselittäjää.
Selittävät muuttujat ja niiden arvoja koskevat oletukset Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selittävien muuttujien xi havaitut arvot xti oletetaan kiinteiksi eli ei-satunnaisiksi. Tiukasti ottaen tämä ehto voi toteutua vain sellaisissa tilanteissa, joissa selittäjien arvot valitaan.
Tietyin ehdoin selittävien muuttujien satunnaisuudella ei kuitenkaan ole vaikutusta tässä luvussa esitettäviin tuloksiin; ks. kappaletta 4.4.
Selittäjien xi havaituista arvoista xti tehdään tavallisesti lisäksi oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit.
Muodostetaan jokaisen selittäjän xi havaituista arvoista xti , t = 1, 2, … , n, n-vektori
x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k
ja olkoon
1 = (1, 1, … , 1)
ykkösten muodostama n-vektori.
Oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit on se, että vektorit
x·1, x·2, … , x·p ja 1
ovat lineaarisesti riippumattomia. Jos oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta ei päde, ainakin yksi vektoreista x·1, x·2, … , x·p ja 1 voidaan lausua muiden lineaarikombinaationa, jolloin vastaava selittäjä on redundantti ja se voidaan poistaa mallista.
Huomautus:
Oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja on oltava vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.
Jäännöstermit ja niitä koskevat oletukset Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
jäännöstermit εt ovat ei-havaittuja satunnaismuuttujia. Jäännöstermeistä εt oletetaan, että
(2) E(εt) = 0 , t = 1, 2, … , n
(3) D2(εt) = σ 2 , t = 1, 2, … , n
(4) Cov(εs, εt) = 0 , jos s ≠ t
Jos lisäksi oletetaan, että jäännöstermit εt noudattavat normaalijakaumaa, niin oletuksista (2) ja (3) seuraa, että
(5) εt ∼ N(0, σ 2) , t = 1, 2, … , n
Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:
E(εt) = 0, t = 1, 2, … , n
Jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.
Oletuksen (3) mukaan kaikilla jäännöstermeillä εt on sama varianssi:
Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos jäännöstermien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.
Oletuksen (4) mukaan jäännöstermit ovat korreloimattomia.
Selitettävä muuttuja ja sen arvojen stokastiset ominaisuudet Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selitettävän muuttujan y havaitut arvot yt ovat satunnaisia. Jäännöstermeistä εt edellä tehdyistä oletuksista (2)-(4) ja siitä, että selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk on oletettu ei-satunnaisiksi seuraa, että selitettävän muuttujan y havaituilla arvoilla yt on seuraavat stokastiset ominaisuudet:
(2)´ E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
(3)´ D2(yt) = σ 2 , t = 1, 2, … , n
(4)´ Cov(ys, yt) = 0 , jos s ≠ t
Jos jäännöstermit εt noudattavat normaalijakaumaa, niin myös selitettävän muuttujan y havaitut arvot yt noudattavat normaalijakaumaa:
(5)´ yt ∼ N(E(yt), σ 2) , t = 1, 2, … , n
Perustelu: (2)´ Koska selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk ja regressiokertoimet β0, β1, β2, … , βk on oletettu ei-satunnaisiksi ja
E(εt) = 0 , t = 1, 2, … , n
niin
0 1 1 2 2
0 1 1 2 2
0 1 1 2 2
E( ) E( )E( )
, 1, 2, ,
t t t k tk t
t t k tk t
t t k tk
y x x xx x xx x x t n
β β β β εβ β β β εβ β β β
= + + + + +
= + + + + += + + + + = …
(3)´ Kohdasta (2)´ ja siitä, että
D2(εt) = σ 2 , t = 1, 2, … , n
seuraa, että
2 2 2Var( ) E[( E( )) ] E[ ] Var( ) , 1, 2, ,t t t t ty y y t nε ε σ= − = = = = …
(4)´ Kohdasta (2)´ ja siitä, että
Cov(εs, εt) = 0 , jos s ≠ t
seuraa, että
Cov( , ) E[( E( ))( E( ))] E[ ] Cov( , ) 0s t s s t t s t s ty y y y y y ε ε ε ε= − − = = =
(5)´ Väite seuraa kohdista (2)´-(4)´ sekä siitä, että satunnaismuuttuja yt noudattaa normaalijakaumaa, koska yt on normaalijakaumaa noudattavan satunnais- muuttujan εt lineaarimuunnos.
■
Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermeistä εt tehdyistä oletuksista ja siitä, että selittäjät x1, x2, … , xk on oletettu ei-satunnaisiksi seuraa, että yleinen lineaarinen malli
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
voidaan kirjoittaa muotoon
yt = E(yt) + εt , t = 1, 2, … , n
jossa odotusarvo
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
on vakio, joka riippuu selittäjien x1, x2, … , xk saamista arvoista havainnossa t ja jäännöstermi
εt , t = 1, 2, … , n
on satunnaismuuttuja, joka ei riipu selittäjien x1, x2, … , xk saamista arvoista havainnossa t.
Siten yleisen lineaarisen mallin (1) selitettävän muuttujan y saamat arvot yt on esitetty mallissa kahden osatekijän summana, jossa osatekijää
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää
εt , t = 1, 2, … , n
kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi.
Systemaattinen osa E(yt) on lineaarinen sekä regressiokertoimien β0, β1, β2, … , βk että selittäjien x1, x2, … , xk arvojen suhteen.
Regressiotaso Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
systemaattinen osa
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
määrittelee tason
y = β0 + β1x1 + β2xt2 + ⋅⋅⋅ + βkxk
avaruudessa 1k+ . Mallin systemaattisen osan määräämää tasoa kutsutaan regressiotasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason ympärillä.
Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
oletetaan implisiittisesti, että regressiokertoimet β0, β1, β2, … , βk ovat samat kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.
Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k. Tällöin yleisen lineaarisen mallin
yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selitettävän muuttujan y saaman arvon systemaattisella osalla
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
on vakioarvo
0 1 1 2 2E( ) k ky y x x xβ β β β= = + + + +
Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:
1i ix x→ +
ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:
iy y β→ +
Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.
Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimet
Tällöin yleinen lineaarinen malli voidaan esittää matriisein seuraavassa muodossa:
(1) y = Xβ + ε
Mallissa (1) vektorit y ja ε ovat satunnaisvektoreita, kun taas matriisi X ja vektori β ovat ei-satunnaisia, vektori y ja matriisi X ovat havaittuja, kun taas vektorit ε ja β ovat ei-havaittuja tai tuntemattomia.
Ositetaan selittäjien x1, x2, … , xk havaituista arvoista muodostettu n×(k+1)-matriisi X seuraavalla tavalla:
X = [1 X1]
missä
1 = (1, 1, … , 1)
on ykkösten muodostama n-vektori ja
11 12 1
21 22 21
1 2
k
k
n n nk
x x xx x x
x x x
=
X
on selittäjien x1, x2, … , xk havaittujen arvojen
xti , t = 1, 2, … , n , i = 1, 2, … , k
muodostama n×k-matriisi.
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden 1, xt1, xt2, … , xtk muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t. Vektori xt· on n×k-matriisin X1 t. rivivektori.
matriisin X1 i. sarakkeen alkioiden x1i, x2i, … , xni muodostama n-vektori. Vektori x·i muodostuu selittäjän xi havaituista arvoista.
Matriisi X voidaan esittää sarakevektoreidensa 1, x·1, x·2, … , x·k avulla seuraavalla tavalla ositettuna:
X = [1 x·1 x·2 … x·k]
Ositetaan regressiokertoimien vektori β vastaavalla tavalla kuin vektori zt :
β = (β0, β1)
missä β0 on vakioselittäjän regressiokerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori.
Tällöin yleinen lineaarinen malli (1) voidaan esittää muodoissa
y = Xβ + ε = β01 + X1β1 + ε
ja
0 1 , 1,2, ,t t t t ty t nε β ε′ ′= + = + + =β z β x i …
Huomautus 1:
Malli (1) on lineaarinen regressiokertoimien vektorin β suhteen.
Huomautus 2:
Koska matriisin X ensimmäisenä sarakkeena on ykkösten muodostama n-vektori
1 = (1, 1, … , 1)
mallissa (1) on vakioselittäjä. Vakioselittäjää vastaa regressiokerroin β0. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat
x1, x2, … , xk
Huomautus 3:
Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole selittäjänä vakiota.
Selittäjien havaittujen arvojen matriisi ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
selittäjien havaittujen arvojen matriisi X oletetaan kiinteäksi eli ei-satunnaiseksi.
Matriisista X tehdään tavallisesti oletus, jonka takaa sen, että regressiokertoimien vektorilla β on yksikäsitteinen pienimmän neliösumman estimaattori. Matriisista X tehtävä oletus on se, että matriisin X sarakevektoreiden pitää olla lineaarisesti riippumattomia eli matriisin X pitää olla täysiasteinen:
Oletus matriisin X sarakevektoreiden lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja pitää olla vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.
Jäännöstermien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
jäännöstermi ε on ei-havaittu satunnaismuuttuja, jota koskevat oletukset voidaan esittää muodossa
(2) E(ε) = 0
(3)-(4) Cov(ε) = σ 2I
Jos lisäksi oletetaan, että jäännöstermi ε noudattaa multinormaalijakaumaa, niin oletuksista (2) ja (3)-(4) seuraa, että
(5) ε ∼ Nn(0, σ 2I)
Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:
E(εt) = 0 , t = 1, 2, … , n
Siten jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.
Oletuksen (3)-(4) mukaan jäännöstermit εt ovat korreloimattomia ja lisäksi kaikilla jäännöstermeillä on sama varianssi:
D2(εt) = σ 2 , t =1, 2, … , n
Oletusta D2(εt) = σ 2 , t =1, 2, … , n, kutsutaan homoskedastisuusoletukseksi. Jos jäännös-termien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.
Selitettävän muuttujan havaittujen arvojen vektori ja sen stokastiset ominaisuudet Yleisen lineaarisen mallin
(1) y = Xβ + ε
selitettävän muuttujan y havaittujen arvojen vektori y on satunnainen. Jäännöstermistä ε tehdyistä oletuksista (2) ja (3) ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että selitettävän muuttujan y havaittujen arvojen vektorilla y on seuraavat stokastiset ominaisuudet:
(2)´ E(y) = Xβ
(3)´-(4)´ Cov(y) = σ 2I
Jos jäännöstermi ε noudattaa multinormaalijakaumaa, niin myös selitettävän muuttujan y havaittujen arvojen vektori y noudattaa multinormaalijakaumaa:
Kovarianssimatriisin määritelmästä, kohdasta (2)´ ja siitä, että
Cov(ε) = σ 2I
seuraa, että
2Cov( ) E[( E( ))( E( )) ] E[ ] Cov( ) σ′ ′= − − = = =y y y y y εε ε I
(5)´ Väite seuraa kohdista (2)´ ja (3)´-(4)´ sekä siitä, että satunnaismuuttuja y noudattaa multinormaalijakaumaa, koska y on multinormaalijakaumaa noudattavan satunnaismuuttujan ε lineaarimuunnos.
■
Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermistä ε tehdyistä oletuksista ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että yleinen lineaarinen malli
(1) y = Xβ + ε
voidaan kirjoittaa muotoon
y = E(y) + ε
jossa odotusarvo
E(y) = Xβ
on vakio, joka riippuu selittäjien x1, x2, … , xk saamien arvojen matriisista X ja jäännöstermi
ε
on satunnaismuuttuja, joka ei riipu selittäjien saamista arvoista.
Siten yleisen lineaarisen mallin (1) selitettävän muuttujan arvojen vektori y on esitetty kahden osatekijän summana, jossa osatekijää
E(y) = Xβ
kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää
ε
kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi. Systemaattinen osa E(y) on lineaarinen regressiokertoimien vektorin β suhteen.
on regressiokertoimien muodostama (k+1)-vektori, missä β0 on vakioselittäjän regressio-kerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori ja
z = (1, x)
on (k+)-vektori, missä k-vektori x = (x1, x2, … , xk) k∈ . Tasoa (2) kutsutaan regressio-tasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason (2) ympärillä.
Regressiokertoimien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
regressiokertoimien vektori β on tuntemattomien ei-satunnaisten vakioiden muodostama (k+1)-vektori.
Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa
yt = β´zt + εt , t = 1, 2, … , n
oletetaan implisiittisesti, että regressiokertoimien vektori β on sama kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.
Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k.
Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:
1 , 1, 2, ,i ix x i k→ + = …
ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:
, 1, 2, ,iy y i kβ→ + = …
Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.
Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimien vektori β ja jäännös-varianssi σ 2.
Yleisen lineaarisen mallin standardioletukset matriisimuodossa Matriisimuotoisessa usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa
(1) y = Xβ + ε
on seuraavat osat:
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen.
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
2. Yleisen lineaarisen mallin parametrien estimointi
2.1. Parametrien estimointi
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen.
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
Regressiokertoimien PNS-estimaattorit Yleisen lineaarisen mallin
(1) y = Xβ + ε
regressiokertoimien vektori β estimoidaan tavallisesti pienimmän neliösumman menetelmällä eli PNS-menetelmällä.
Pienimmän neliösumman menetelmässä neliösumma
2
1
( ) ( )n
ii
ε=
′ ′= = − −∑ε ε y Xβ y Xβ
minimoidaan regressiokertoimien vektorin β suhteen. Minimi löydetään derivoimalla neliömuoto ε´ε vektorin β suhteen ja merkitsemällä derivaatta nollaksi.
Tällä yhtälöllä on yksikäsitteinen ratkaisu vektorin β suhteen, jos matriisista X tehty oletus
r(X) = k+1
pätee. Ratkaisuksi saadaan regressiokertoimien vektorin β pienimmän neliö-summan (PNS-) estimaattori b = (X´X)–1X´y
Perustelu: Derivoidaan neliösumma
2
1( ) ( ) 2
n
iiε
=
′ ′ ′ ′ ′ ′= = − − = − +∑ε ε y Xβ y Xβ y y β Xy β X Xβ
vektorin β suhteen ja merkitään derivaatta nollaksi:
(2) 2 2 0∂ ′ ′= − + =∂
ε ε Xy X Xββ
Jos r(X) = k+1, niin r(X´X) = k+1 ja matriisi X´X on siten epäsingulaarinen. Tällöin yhtälöstä saatavalla normaaliyhtälöllä
X´Xβ = X´y
on ratkaisu
1( )−′ ′= =β b X X X y
Saatu ratkaisu antaa neliömuodon ε´ε minimin, koska
2
2∂ ′ ′=′∂ ∂ε ε X X
β β
ja matriisi X´X on positiivisesti definiitti eli
X´X > 0
■
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon yt on selitettävän muuttujan y havaittu arvo havainnossa t.
Regressiokertoimien vektorin β pienimmän neliösumman estimaattori b voidaan esittää näitä merkintöjä käyttäen muodossa
Regressiokertoimien suurimman uskottavuuden estimaattorit Oletetaan, että yleisen lineaarisen mallin
(1) y = Xβ + ε
standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien vektorin β suurimman uskottavuuden estimaattori yhtyy vektorin β PNS-estimaattoriin
b = (X´X)–1X´y
Perustelu:
Koska olemme olettaneet, että
ε ∼ Nn(0, σ 2I)
niin
y ∼ Nn(Xβ, σ 2I)
Siten otoksen y uskottavuusfunktio on muotoa
2 / 22
1( , ) (2 ) exp ( ) ( )2
n nL σ π σσ
− − ′= − − −
β y Xβ y Xβ
ja vastaava logaritminen uskottavuusfunktio on muotoa
Logaritmisen uskottavuusfunktion 2( , )l σβ lausekkeesta nähdään välittömästi, että funktion 2( , )l σβ maksimointi parametrin β suhteen on yhtäpitävää neliösumman
2
1( ) ( )
n
iiε
=
′ ′= = − −∑ε ε y Xβ y Xβ
minimoinnin kanssa.
■
Estimoitu regressiotaso Olkoon
b = (b0, b1, b2, … , bk) = (b0, b1)
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja
b1 = (b1, b2, … , bk)
on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
(2) 0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x
määrittelee tason (k + 1)-ulotteisessa avaruudessa 1k+ . Tasoa (2) kutsutaan estimoiduksi regressiotasoksi.
Olkoon
1
1 n
tt
y yn =
= ∑
selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo. Määritellään (k+1)-vektori
(1, )=z x
missä k-vektori
1 2( , , , )kx x x=x …
Vektorin x i. alkio
1
1 , 1,2, ,n
i tit
x x i kn =
= =∑ …
on selittäjän xi havaittujen arvojen xti aritmeettinen keskiarvo. Estimoitu regressiotaso (2) kulkee aina havaintoaineiston painopisteen ( , )yx kautta eli
0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x
Regressiokertoimien PNS-estimaattoreiden stokastiset ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattorin b keskeiset stokastiset ominaisuudet on esitetty seuraavassa esitettävissä kahdessa lauseessa.
Lause 2.1.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
niin matriisi P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen (tasoon). Sovite y on vektorin y projektio tähän vektorialiavaruuteen.
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon
b = (b0, b1, b2, … , bk) = (b0, b1)
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja
b1 = (b1, b2, … , bk)
on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
Koska P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen ja lisäksi
PM = MP = 0
ja
MX = 0
niin matriisi M projisoi avaruuden n vektorit matriisin X sarakkeiden virittämää vektori-aliavaruutta vastaan kohtisuorassa olevaan vektorialiavaruuteen. Residuaali e on vektorin y projektio tähän vektorialiavaruuteen.
Residuaalien muodostaman n-vektorin
e = (e1, e2, … , en)
t. alkio on
ˆ , 1, 2, ,t t te y y t n= − = …
missä
0 1 1 2 2ˆ , 1,2, ,t t t t k tky b b x b x b x t n′= = + + + + =b z …
on estimoidun mallin sovite havainnossa t.
Residuaalien ominaisuudet Lause 2.1.5.
Jos yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät, niin
(i) E(e) = 0
(ii) Cov(e) = σ 2M
Perustelu:
(i) Koska =e Mε , niin
E( ) E( )= =e M ε 0
(ii) Kohdasta (i) ja siitä, että =e Mε , jossa matriisi M on symmetrinen ja idempotentti eli projektio niin
Huomautus 1: Lauseen 2.1.5. kohdan (i) mukaan residuaali e estimoi harhattomasti yleisen lineaarisen mallin (1) satunnaista osaa ε.
Huomautus 2:
Lauseen 2.1.5. kohdan (ii) mukaan residuaalit et ovat korreloituneita, vaikka jäännös- termit εt on oletettu korreloimattomiksi. Korrelaatio on kuitenkin lievää, jos havaintojen lukumäärä n on huomattavasti mallin selittäjien lukumäärää (k+1) suurempi.
Lause 2.1.6. Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
e ∼ Nn(0, σ 2M)
Perustelu: Lause 2.1.6. seuraa suoraan lauseesta 2.1.5., koska residuaali
1ˆ ( ( ) ) ( )−′ ′= − = − = − = − =e y y y Xb I X X X X y I P y My
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Huomautus:
Lauseen 2.1.6. multinormaalijakauma on singulaarinen.
Sovitteiden ja residuaalien ominaisuudet Olkoon
b = (X´X)–1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori ja olkoon
Perustelu: (i) Edellä esitetyn mukaan sovitteiden ja vastaavien residuaalien muodostamat vektorit y ja e voidaan esittää projektiomatriisien P ja M avulla muodoissa
ˆ =y Py
=e My
Koska lisäksi PM = 0 , niin ˆ 0′ ′ ′= = =y´e y P My y PMy
(ii) Edellä esitetyn mukaan matriisi M on projektio matriisin X sarakeavaruuden ortogonaaliseen komplementtiin. Siten residuaalien muodostama vektori =e My
on matriisin X sarakeavaruuden ortogonaalisessa komplementissa, joten vektori e on kohtisuorassa matriisin X sarakeavaruutta eli matriisin X sarakkeiden virittämää tasoa vastaan: ′ =X e 0
Sama tulos saadaan myös suoraan laskemalla:
1( ) ( )−′ ′ ′ ′ ′ ′ ′ ′ ′ ′= − = − = − = − =X e X y Xb X y X Xb X y X X X X X y X y X y 0
Koska mallissa on mukana vakio, matriisin X 1. sarakkeena on vektori
1 = (1, … , 1)
Siten edellä esitetystä seuraa, että 0′ =1 e
(iii) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että
ˆ= +y y e
Siten ˆ ˆ ˆ0′ ′ ′ ′ ′= + = + =1 y 1 y 1 e 1 y 1 y
koska (ii)-kohdan mukaan 0′ =1 e .
(iv) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että
ˆ ˆ 2ˆ ˆ ˆ′ ′ ′ ′ ′ ′= + + = +y y y y e e y e y y e e
koska kohdan (i) mukaan ˆ ′y e = 0.
■
Huomautus 1:
Lauseen 2.1.7. kohdan (ii) mukaan residuaalien vektori e on kohtisuorassa matriisin X sarakkeiden virittämää vektorialiavaruutta (tasoa) vastaan.
Huomautus 2: Koska oletuksien mukaan mallissa (1) on selittäjänä vakio (eli matriisissa X on ykkösten muodostama sarake), Lauseen 2.1.7. kohdasta (ii) seuraa, että residuaalien summa = 0: 0′ =1 e
Huomautus 3:
Lauseen 2.1.7. kohdan (iii) mukaan sovite y ja residuaali e ovat ortogonaalisia.
Huomautus 4:
Koska ˆ= +y y e
niin vektorit , ˆ ja y y e muodostavat suorakulmaisen kolmion, jonka kateetteina ovat vektorit ˆ ja y e ja hypotenuusana on vektori y.
Huomautus 5: Lauseen 2.1.7. kohta (iv) on Pythagoraan lause: Suorakulmaisessa kolmiossa hypotenuusalle piirretyn neliön pinta-ala on kateeteille piirrettyjen neliöiden pinta- alojen summa.
Jäännösvarianssin harhaton estimaattori Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.
Määritellään residuaalien e vaihtelua kuvaava jäännösneliösumma kaavalla:
Estimaattoria s2 kutsutaan residuaalivarianssiksi.
Huomautus:
Estimaattorin s2 kaava antaa todellakin residuaalien varianssin, koska mallissa on selittäjänä vakio. Tämä johtuu siitä, että tällöin
1
0n
tt
e ne=
′ = = =∑1 e
josta seuraa, että
2 2 2 2
1 1
( 1) ( ) ( 1)n n
e t it t
n k s e e e n k s= =
− − = − = = − −∑ ∑
Jäännösvarianssin suurimman uskottavuuden estimaattori Oletetaan, että yleisen lineaarisen mallin
y = Xβ + ε
standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin jäännösvarianssin σ 2 suurimman uskottavuuden estimaattori on
2 2 1( 1)( 1)Var( ) D ( ) [( ) ] , 0,1, 2, ,i i i ib b i kσ −+ += = =X´X …
ja
E( ) N(0,1) , 0,1, 2, ,D( )
i ii
i
b bz i kb
−= =∼ …
Tämä regressiokertoimen βi PNS-estimaattorin bi otosjakaumaa koskeva tulos on epä-operationaalinen, koska jäännösvarianssi σ 2 on normaalisti tuntematon.
Regressiokertoimien luottamusvälit ja yksittäisiä kertoimia koskevat testit voidaan konstruoida yo. jakaumatuloksen avulla samaan tapaan kuin normaalijakauman odotusarvolle konstruoidaan normaalisen otoksen tapauksessa luottamusväli ja ns. yhden otoksen t-testi.
Regressiokertoimien luottamusvälit Lause 2.1.9.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin regressiokertoimen βi , i = 0, 1, 2, … , k luottamusväli luottamustasolla (1−α) saadaan kaavasta
/ 2 , 0,1,2, ,ii bb t s i kα± = …
jossa bi on regressiokertoimen βi PNS-estimaattori, −tα/2 ja +tα/2 ovat luottamustasoon (1−α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−k−1) ja
2 2 1( 1)( 1)[( ) ] , 0,1, 2, ,
ib i is s i k−+ += =X´X …
missä s2 on jäännösvarianssin σ 2 harhaton estimaattori.
Varianssianalyysihajotelma Mitta-asteikoltaan jatkuvien muuttujan arvojen vaihtelua mitataan tavallisesti niiden varianssilla. Yleisen lineaarisen mallin (1) selitettävän muuttujan y arvojen varianssi on
kuvaa sitä osaa kokonaisvaihtelusta, jota malli (1) ei ole pystynyt selittämään.
Malli (1) selittää selitettävän muuttujan y arvojen vaihtelun sitä paremmin mitä suurempi on mallineliösumman SSM osuus kokonaisneliösummasta tai, mikä on sama asia, mitä pienempi on jäännösneliösumman SSE osuus kokonaisneliösummasta.
Selitysaste Varianssianalyysihajotelma
SST = SSM + SSE
motivoi tunnusluvun
2 1SSM SSERSST SST
= = −
käytön lineaarisen regressiomallin (1) hyvyyden tai selitysvoiman mittaamisessa. Tunnus-lukua R2 kutsutaan estimoidun mallin selitysasteeksi.
Selitysasteen ominaisuudet Seuraavan lauseen kohdat (i)-(iii) ovat välittömiä seurauksia varianssianalyysihajotelmasta sekä residuaalien, varianssianalyysihajotelman osien ja selitysasteen määritelmistä. Kohdan (iv) todistaminen on suoraviivaista, mutta melko työlästä ja ei kovin mielenkiintoista ja jätetään siksi väliin.
Lause 2.1.10.
(i) 0 ≤ R2 ≤ 1
(ii) Jos kaikki residuaalit häviävät eli
e = 0
niin
SSE = e´e = 0
ja
R2 = 1
Tällöin malli sopii havaintoihin täydellisesti.
(iii) Jos
b1 = b2 = ⋅⋅⋅ = bk = 0
niin residuaalien vektori on muotoa
y= −e y 1
jolloin
SSE = SST
ja
R2 = 0
Tällöin malli ei ollenkaan selitä selitettävän muuttujan y arvojen vaihtelua.
selitettävän muuttujan y havaittujen arvojen yt ja niitä vastaavien sovitteiden ˆty välinen otoskorrelaatiokerroin.
Koska Lauseen 2.1.10. kohdan (i) mukaan 0 ≤ R2 ≤ 1, selitysaste ilmoitetaan tavallisesti prosentteina:
100×R2 %
Huomautus:
1 1 ˆ ˆy yn n
′ ′= = =1 y 1 y
2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.
Regressiokertoimien estimointi kovariansseista Keskistetään selitettävän muuttujan y havaituista arvoista
y1, y2, … , yn
muodostettu n-vektori y = (y1, y2, … , yn) ja selittäjien x1, x2, … , xk havaituista arvoista
Keskistämisellä tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. muuttujan havaintoarvojen aritmeettinen keskiarvo. Keskistettyjen havaintoarvojen aritmeettinen keskiarvo on aina nolla.
Olkoot matriisit y ja X1 keskistettyinä y= −y y 1
ja
1 1 ′= −X X 1x
jossa
1
1 n
tt
y yn =
= ∑
on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,
1 = (1, 1, … , 1)
on ykkösten muodostama n-vektori ja
1 2( , , , )kx x x=x …
on k-vektori, jonka i. alkio
1
1 , 1,2, ,n
i tit
x x i kn =
= =∑ …
on selittäjän xi havaittujen arvojen aritmeettinen keskiarvo.
selitettävän muuttujan ja selittäjien havaittujen arvojen muodostama momenttimatriisi. Tällöin
11
11
xx xx
xy xy
n
n
=−
=−
S M
S M
ovat vastaavat otoskovarianssimatriisit.
Matriisin Mxx i. rivin ja j. sarakkeen alkio on muotoa
1
[ ] ( )( ) , , 1, 2, ,n
xx ij ti i tj jt
x x x x i j k=
= − − =∑M …
Matriisin (vektorin) Mxy i. rivin alkio on muotoa
1
[ ] ( )( ) , 1,2, ,n
xy i ti i tt
x x y y i k=
= − − =∑M …
Matriisin Sxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskovarianssi ja matriisin (vektorin) Sxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskovarianssi.
Koska
1 1xx ′=M X X
ja
1xy ′=M X y
niin
1 1 11 1 1 1( ) xx xy xx xy
− − −′ ′= = =b X X X y M M S S
ja sanomme, että estimaattori 1b on estimoitu kovariansseista.
Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:
Lause 2.2.1.
Ositetaan mallin (1) regressiokertoimien vektorin β PNS-estimaattori b seuraavalla tavalla:
0 1( , )b=b b
jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
Standardoinnilla tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. havaintoarvojen aritmeettinen keskiarvo ja saadut erotukset jaetaan ko. havaintoarvojen keskihajonnalla. Standardoitujen havaintoarvojen aritmeettinen keskiarvo on aina nolla ja otoshajonta on yksi.
Olkoot matriisit y ja X1 standardoituina
1 ( )y
ys
= −y y 1
ja
1/ 21 1( ) −′= − SX X 1x D
jossa
1
1 n
tt
y yn =
= ∑
on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,
2 2
1
1 ( )1
n
y tt
s y yn =
= −− ∑
on selitettävän muuttujan y havaittujen arvojen keskihajonta,
on selitettävän muuttujan ja selittäjien havaintoarvojen muodostama otoskovarianssimatriisi.
Matriisin Rxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskorrelaatio ja matriisin (vektorin) Rxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskorrelaatio.
Koska
1 1xx ′=R X X
ja
1xy ′=R X y
niin
1 11 1 1 1( ) xx xy
− −′ ′= =b X X X y R R
ja sanomme, että estimaattori 1b on estimoitu korrelaatioista. Estimaattorin 1b alkioita kutsutaan usein mallin (1) beta-kertoimien estimaattoreiksi.
Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:
Lause 2.2.2.
Ositetaan mallin (1) PNS-estimaattori b seuraavalla tavalla:
0 1( , )b=b b
jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori. Tällöin
1/ 21 1ys −= Sb D b
ja
0 1 1 1 2 2 k kb y y b x b x b x′= − = − − − −b x
missä
1 1 2( , , , )kb b b=b …
Huomautus:
1/ 21 1
1
ys= Sb D b
missä estimaattori 1b on estimoitu kovariansseista (ks. Lause 2.2.1.).
3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa
3.1. Regressiokertoimia koskevat testit
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
Regressiokertoimia koskevat testit Lineaarisen regressiomallin (1) parametrien estimoimisen jälkeen on tapana testata seuraavia mallin regressiokertoimia koskevia hypoteeseja:
(i) H0 : β1 = β2 = ⋅⋅⋅ = βk = 0
(ii) H0i : βi = 0 , i = 0, 1, 2, … , k
Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk .
Jos nollahypoteesi H00 pätee, mallissa (1) ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 0, 1, 2, … , k, pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .
Regression olemassaolon testaaminen Olkoon nollahypoteesina
H0 : β1 = β2 = ⋅⋅⋅ = βk = 0
Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk . Testi nollahypoteesille H0 on yleistesti selitettävän muuttujan y ja selittäjien x1, x2, … , xk välisen regression olemassaololle. Jos nollahypoteesi H0 ei päde, ainakin yksi regressiokertoimista β1, β2, … , βk poikkeaa nollasta.
Nollahypoteesia H0 voidaan testata testisuureella
2
2
1
1
11
n k SSMFk SSE
n k SST SSEk SSE
n k Rk R
− −= ⋅
− − −= ⋅
− −= ⋅
−
jossa
SST = selitettävän muuttujan vaihtelua kuvaava kokonaisneliösumma
SSM = estimoidun mallin mallineliösumma
SSE = estimoidun mallin jäännösneliösumma
ja
2 1SSM SSERSST SST
= = −
on estimoidun mallin selitysaste.
Lause 3.1.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein k ja (n–k–1), jos nollahypoteesi H0 pätee:
0H
( , 1)F F k n k− −∼
Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.
Perustelu:
Testisuuretta F koskeva jakaumatulos nähdään oikeaksi seuraavalla tavalla:
(i) Oletetaan, että lineaarinen regressiomalli
(1) y = Xβ + ε
toteuttaa standardioletuksien (i)-(v) lisäksi normaalisuusoletuksen (vi), jolloin
2N ( , )n σy Xβ I∼
(ii) Kokonaisneliösumma SST voidaan esittää muodossa
Jos nollahypoteesi H00 pätee, mallissa ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 1, 2, … , k pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .
Nollahypoteesia H0i voidaan testata testisuureella
, 0,1, 2, ,i
ii
b
bt i ks
= = …
jossa bi on regressiokertoimen βi PNS-estimaattori ja
Oletetaan, että lineaarisen regressiomallin (1) oletukset (i)-(vi) pätevät. Tällöin testisuure ti on jakautunut t-jakauman mukaan vapausastein (n–k–1), jos nollahypoteesi H0i pätee:
0H
( 1) , 0,1, 2, ,i
it t n k i k− − =∼ …
Itseisarvoltaan suuret testisuureen ti arvot viittaavat siihen, että nollahypoteesi ei päde.
Jos nollahypoteesi H0i : βi = 0 hylätään, sanotaan, että kerroin βi ja sitä vastaava selittäjä xi ovat tilastollisesti merkitseviä.
Huomautus:
Jos jäännöstermiä ε koskeva normaalisuusoletus (vi) ei päde, yllä esitettyjen F- ja t- testisuureiden jakaumat eivät ole yllä esitettyä tavanomaista tyyppiä. F- ja t-jakaumien käyttöä F- ja t-testisuureiden jakaumina voidaan tällaisissa tilanteissa kuitenkin usein perustella asymptoottisella eli suurten otosten teorialla.
Testit ja mallin valinta Regressiomalleja sovelletaan usein sellaisissa tilanteissa, joissa selittäviksi muuttujiksi on tarjolla useita ehdokkaita ja mallinrakennuksen yksi osatehtävistä on valita selittäjä-ehdokkaiden joukosta parhaat tai sopivimmat.
Yksittäisiin regressiokertoimiin kohdistuvilla testeillä voidaan pyrkiä etsimään sellainen malli, jossa kaikki selittäjät ovat tilastollisia merkitseviä. On syytä huomata, että testien suoritusjärjestys saattaa vaikuttaa lopputulokseen eli siihen, mikä malli tulee valituksi. Siksi testien järjestämiseen on tarjolla useita erilaisia strategioita.
Huomautus:
Mallin valintaa ei saa koskaan tehdä pelkästään tilastollisin kriteerein. Mallia pitää aina arvioida myös asialoogisin kriteerein, jolloin kiinnitetään huomiota esimerkiksi estimoitujen regressiokertoimien merkkeihin ja suuruuteen.
Askellus alaspäin Ehkä yleisimmin sovellettu mallinvalintastrategia on askellus alaspäin:
(1) Estimoidaan malli, johon otetaan selittäjiksi kaikki selittäjäehdokkaat.
(2) Jos kaikki selittäjäehdokkaat ovat tilastollisesti merkitseviä, niin siirrytään suoraan vaiheeseen (6).
(3) Poistetaan mallista se selittäjä, jota vastaavan regressiokertoimen t-testisuureen itseisarvo on pienin.
(4) Estimoidaan malli uudelleen.
(5) Jos kaikki selittäjät ovat tilastollisesti merkitseviä, niin siirrytään vaiheeseen (6), muuten palataan vaiheeseen (3).
(6) Malli on valmis.
Huomautus:
Vaihe (4) on välttämätön, elleivät selittäjät ole ortogonaalisia.
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuus-oletus (vi) pätee.
Ennustamistehtävä Miten yleisen lineaarisen mallin (1) selitettävän muuttujan y käyttäytymistä voidaan ennustaa? Tällä ennustamistehtävällä tarkoitetaan kahta toisilleen läheistä sukua olevaa tehtävää:
(i) Mikä on paras arvio eli ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?
(ii) Mikä on paras arvio eli ennuste selitettävän muuttujan y arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?
Selitettävän muuttujan odotettavissa olevan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään odotusarvon E( | )y z ennusteena lauseketta
(2) ˆ |y ′=z b z
missä b on regressiokertoimien vektorin β PNS-estimaattori.
Huomautus:
Ehdollinen odotusarvo E( | )y z on vakio, kun taas ennuste ˆ |y z on satunnaismuuttuja.
Selitettävän muuttujan odotettavissa olevan arvon ennusteen jakauma Lause 3.2.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) ˆE( | )y ′=z β z
(ii) 2 1ˆVar( | ) [ ( ) ]y σ −′ ′=z z X X z
Huomautus 1:
Lauseen 3.2.1. kohdan (i) mukaan
ˆ |y ′=z b z
on harhaton ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… eli
ˆE( | ) E( | )y y′= =z β z z
Huomautus 2:
Voidaan osoittaa, että ˆ |y ′=z b z
on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.
Lause 3.2.2.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin
Selitettävän muuttujan odotettavissa olevan arvon luottamusväli Lause 3.2.3.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät ja olkoon E( | )y z selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… .
Tällöin odotusarvon E( | )y z luottamusväli luottamustasolla (1 − α) on
1 1 2/ 2 [ ( ) ]t sα
−′ ′ ′±b z z X X z
jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamus- tasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).
Selitettävän muuttujan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot
1 2, , , kx x x… . Merkitään
(1, )=z x
missä
1 2( , , , )kx x x=x …
on k-vektori. Tällöin
y ε′= +β z
ja
E( | )y ′=z β z
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään selitettävän muuttujan y arvon y ennusteena lauseketta
(2) ˆ |y ′=z b z
missä b on regressiokertoimien vektorin β PNS-estimaattori.
Huomautus:
Sekä selitettävän muuttujan y arvo y että ennuste ˆ |y z ovat satunnaismuuttujia.
Ennustevirhe Selitettävän muuttujan y todellisen arvon y ja sen ennusteen ˆ |y z erotusta
Selitettävän muuttujan arvon ennusteen jakauma Lause 3.2.4.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) ˆE( | ) 0y y− =z
(ii) 2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z
Huomautus 1:
Lauseen 3.2.4. kohdan (i) mukaan
ˆ |y ′=z b z
on harhaton ennuste selitettävän muuttujan y arvon y ehdolliselle odotusarvolle E( | )y z , kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… siinä mielessä että
ˆE( | ) 0y y− =z
Sen sijaan ˆ |y z ei ole harhaton ennuste selitettävän muuttujan y arvolle y , koska yleensä
ˆE( | )y y′= ≠z β z
Huomautus 2:
Voidaan osoittaa, että
ˆ |y ′=z b z
on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.
Lause 3.2.5.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin ˆ ˆ| N(0,Var( | ))y y y y− −z z∼
missä
2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z
Selitettävän muuttujan arvon luottamusväli Lause 3.2.6.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin selitettävän muuttujan y arvon y luottamusväli luottamustasolla (1 − α) on
1 1 2/ 2 [1 ( ) ]t sα
−′ ′ ′± +b z z X X z
jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamus- tasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).
Lauseista 3.2.3. ja 3.2.6 nähdään, että selitettävän muuttujan y odotettavissa olevan arvon E( | )y z luottamusväli on kapeampi kuin selitettävän muuttujan y arvon y luottamusväli.
Tämä on ymmärrettävää, koska muuttujan keskimääräisen arvon ennustaminen on helpompaa kuin sen yksittäisen arvon ennustaminen.
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
PNS-estimaattorin hyvyys Olkoon
b = (X´X)−1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori.
Kuinka hyvä PNS-estimaattori b on estimaattorina? Gaussin ja Markovin lauseen mukaan PNS-estimaattoria b parempaa estimaattoria ei voida löytää regressiokertoimien vektorin β lineaaristen ja harhattomien estimaattoreiden joukosta.
Gaussin ja Markovin lause Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori b on vektorin β paras lineaarinen ja harhaton estimaattori seuraavan lauseen tarkoittamassa mielessä:
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät ja olkoon b regressiokertoimien vektorin β PNS-estimaattori ja b* mikä tahansa toinen lineaarinen ja harhaton estimaattori. Tällöin matriisi
Cov(b*) − Cov(b)
on ei-negatiivisesti definiitti.
Perustelu:
Olkoon
=* *b A y
mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori, jossa *A on ei-satunnainen (k+1)×n-matriisi.
Määritellään (k+1)×n-matriisi A kaavalla
1( )∗ −′ ′= −A A X X X y
Siten estimaattorin ∗b lauseke voidaan kirjoittaa muotoon
1
1
1
[ ( ) ][ ( ) ]( )( ) [ ( ) ]
∗ ∗
−
−
−
=
′ ′= +
′ ′= + +
′ ′= + + +
b A yA X X X yA X X X Xβ εAX I β A X X X ε
jolloin
1E( ) ( ) [ ( ) ]E( )∗ −′ ′= + + + = +b AX I β A X X X ε AXβ β
Siten estimaattori ∗b voi olla harhaton parametrille β vain, jos
Koska muotoa ′AA oleva matriisi on aina positiivisesti semidefiniitti matriisi eli 0′ ≥AA
niin olemme todistaneet, että
2 1 2 1Cov( ) [ ( ) ] ( ) Cov( )σ σ− −′ ′ ′= + ≥ =*b AA X X X X b
Siten olemme todistaneet Gaussin ja Markovin lauseen, koska ∗b oli mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori.
■
Huomautus 1:
Lauseessa 4.1.1. esitetty PNS-estimaattorin b ns. Gauss-Markov-ominaisuus ilmaistaan usein myös seuraavassa muodossa: PNS-estimaattori b on tehokkain lineaaristen ja harhattomien estimaattoreiden joukossa.
Huomautus 2:
Lauseesta 4.1.1. seuraa, että regressiokertoimien PNS-estimaattoreiden varianssit ovat pienimmät mahdolliset lineaaristen ja harhattomien estimaattoreiden joukossa.
Huomautus 3:
Epälineaaristen ja/tai harhaisten estimaattoreiden joukosta voidaan löytää PNS- estimaattoria parempia estimaattoreita.
4.2. Yleistetty pienimmän neliösumman menetelmä
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) pätevät. Sen sijaan jäännöstermiä ε koskevat oletukset (iv)-(v) korvataan oletuksilla:
(iv)´-(v)´ Cov(ε) = σ 2V
jossa V on positiivisesti definiitti n×n-matriisi.
Usein oletuksiin (i)-(iii) ja (iv)´-(v)´ liitetään vielä jäännöstermiä ε koskeva normaalisuus-oletus:
(vi)´ ε ∼ Nn(0, σ 2V)
Yleistetty pienimmän neliösumman estimaattori Koska matriisi
Cov(ε) = σ 2V
on oletettu positiivisesti definiitiksi, matriisilla V on Cholesky-hajotelma
V = UU´
missä n×n-matriisi U on epäsingulaarinen yläkolmiomatriisi. Kerrotaan regressioyhtälö
(1) y = Xβ + ε
vasemmalta matriisilla U−1, jolloin saadaan regressioyhtälö
(2) U−1y = U−1Xβ + U−1ε
Regressioyhtälö (2) voidaan kirjoittaa muotoon
(3) z = Tβ + δ
jossa
z = U−1y
T = U−1X
δ = U−1ε
Regressioyhtälön (3) jäännöstermi δ on korreloimaton:
Yleistetyn PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β yleistetyn PNS-estimaattorin bGLS keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:
Lause 4.2.1.
Oletetaan, että yleisen lineaarisen mallin (1) oletukset (i)-(iii) ja (iv)´-(v)´ pätevät. Tällöin
(i) E(bGLS) = β
(ii) Cov(bGLS) = σ 2(X´V−1X)–1
(iii) Erityisesti
2 1 11, 1Var( ) [( ) ] , 0,1, 2, ,G
i i ib i kσ − −+ +′= =X V X …
missä
0 1 2( , , , , )G G G GGLS kb b b b=b …
Perustelu:
(i) Suoraan laskemalla saadaan:
E(bGLS) = E[(X´V−1X)−1X´V−1y]
= (X´V−1X)−1X´V−1E(y)
= (X´V−1X)−1X´V−1Xβ
= β
(ii) Yleistetyn PNS-estimaattorin bGLS kaavaa johdettaessa malli
y = Xβ + ε
muunnettiin malliksi
z = Tβ + δ
jossa
z = U−1y
T = U−1X
δ = U−1ε
ja U on epäsingulaarinen yläkolmiomatriisi joka toteuttaa ehdon
Lauseen 4.2.1. kohdan (i) mukaan yleistetty PNS-estimaattori bGLS on regressio- kertoimien vektorin β harhaton estimaattori.
Lause 4.2.2.
Oletetaan, että yleisen lineaarisen mallin (1) oletuksien (i)-(iii) ja (iv)´-(v)´ lisäksi normaalisuusoletus (vi)´ pätee. Tällöin
bGLS ∼ Nk+1(β, σ2(X´V−1X)–1)
Erityisesti
2 1 11, 1N , [( ) ] , 0,1, 2, ,G
i i i ib i kβ σ − −+ +′ =X V X∼ …
missä
0 1 2( , , , , )G G G GGLS kb b b b=b …
Perustelu:
Lause 4.2.2. seuraa suoraan lauseesta 4.2.1., koska yleistetty PNS-estimaattori
bGLS = (X´V−1X)−1 X´V−1y
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Yleistetyn PNS-estimaattorin hyvyys Koska malli (3) toteuttaa ns. standardioletukset (i)-(v), kerroinvektorin β yleistetty PNS-estimaattori
bGLS = (T´T)−1T´z = (X´V−1X)−1 X´V−1y
on Gaussin ja Markovin lauseen (ks. kappale 3.2.) mukaan paras lineaaristen ja harhattomien estimaattoreiden joukossa.
Jos siis yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) ja oletukset (iv)´-(v)´ pätevät, yleistetty PNS-estimaattori bGLS on myös parempi kuin tavallinen PNS-estimaattori
b = (X´X)−1X´y
mikä merkitsee sitä, että matriisi
Cov(b) − Cov(bGLS) = σ 2(X´X)−1 − σ 2(X´V−1X)−1
on ei-negatiivisesti defiiniitti kaikille positiivisesti definiiteille n×n-matriiseille V.
Yleistetty PNS-estimaattori nähdään parhaaksi lineaaristen ja harhattomien estimaattoreiden joukossa myös seuraavalla tavalla:
Olkoon
b* = Hy
jokin kerroinvektorin β lineaarinen ja harhaton estimaattori. Tällöin
on ei-negatiivisesti defiiniitti, niin yleistetty PNS-estimaattori bGLS on parempi kuin mikä tahansa muu lineaarinen ja harhaton estimaattori b*.
4.3. Lineaariset rajoitukset
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät, mutta oletetaan lisäksi, että regressiokertoimia sitoo lineaarinen rajoitus eli side-ehto
(2) Rβ = r
jossa R täysiasteinen m×(k+1)-matriisi, m ≤ k+1.
Huomautus:
Lineaarisen mallin (1) regressiokertoimien vektori β voi periaatteessa varioida täysin vapaasti avaruudessa 1k+ . Jos lineaarinen rajoitus (2) pätee, vektori β varioi siinä m- ulotteisessa vektorialiavaruudessa, jonka lineaarinen rajoitus (2) määrittelee. Tämä aliavaruus on m-ulotteinen taso avaruudessa 1k+ .
Rajoitettu pienimmän neliösumman estimaattori Minimoidaan neliösumma
ε´ε = (y − Xβ)´(y − Xβ)
vektorin β suhteen, kun lineaarinen rajoitus
Rβ = r
pätee. Käytetään minimointiin funktioiden sidottujen ääriarvojen etsimiseen tarkoitettua Lagrangen kertojien menetelmää. Minimoitava funktio on muotoa
f(β) = (y − Xβ)´(y − Xβ) + λ´(Rβ − r)
jossa λ on Lagrangen kertoimien muodostama m-vektori. Minimi löydetään derivoimalla funktio f(β) muuttujan β ja kerroinvektorin λ suhteen ja merkitsemällä derivaatat nollaksi. Derivointi johtaa normaaliyhtälöihin
(i) ( ) 2 2f∂ ′ ′ ′= − + + =∂β X y X Xβ R λ 0β
(ii) ( )f∂= − =
∂β Rβ r 0λ
Kertomalla yhtälö (i) vasemmalta matriisilla R(X´X)−1 saadaan yhtälö
−2R(X´X)−1X´y + 2Rβ + R(X´X)−1R´λ = 0
Koska matriisi R(X´X)−1R´ on täysiasteinen m×m-matriisi, vektori λ voidaan ratkaista tästä yhtälöstä. Ottamalla samalla huomioon yhtälö (ii), saadaan
on tavanomainen PNS-estimaattori regressiokertoimien vektorille β. Sijoittamalla vektorin λ lauseke yhtälöön (i), saadaan yhtälö
1 12 2 2 ( ( ) ) ( )− −′ ′ ′ ′ ′− + + − =X y X Xβ R R X X R Rb r 0
Ratkaisemalla β tästä yhtälöstä saadaan regressiokertoimien vektorin β estimaattoriksi:
bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)
Estimaattoria bR kutsutaan mallin (1) regressiokertoimien vektorin β rajoitetuksi tai sidotuksi pienimmän neliösumman (PNS-) estimaattoriksi.
Rajoitetun PNS-estimaattorin ominaisuudet Lineaarisen regressiomallin (1) regressiokertoimien vektorin β rajoitetun PNS-estimaattorin bR keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:
Lause 4.3.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(ii) Cov(bR) = σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]
jos lineaarinen rajoitus Rβ = r pätee.
Perustelu:
(i) Suoraan laskemalla saadaan:
E(bR) = E[b − (X´X)−1R´(R(X´X)−1R´)–1(Rb − r)]
= E(b) − (X´X)−1R´(R(X´X)−1R´)–1(RE(b) − r)
= β − (X´X)−1R´(R(X´X)−1R´)–1(Rβ − r)
= β
(ii) Oletetaan, että rajoitukset Rβ = r pätevät. Merkitsemällä
C = (X´X)−1R´
voidaan rajoitetun PNS-estimaattorin bR lauseke kirjoittaa muotoon
bR = b − C(C´X´XC)–1(Rb − r)
Koska
b = β + (X´X)−1X´ε
saadaan yhtälö
bR − β = [(X´X)−1 − C(C´X´XC)–1C´]X´ε
Koska oletimme, että Rβ = r, jolloin bR on harhaton parametrivektorille β, niin
Cov(bR) = E{[(bR − E(bR)][(bR − β)]´}
= E[(bR − β)(bR − β)´]
= [(X´X)−1 − C(C´X´XC)–1C´]X´E(εε´)X
×[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − C(C´X´XC)–1C´]X´X
×[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)–1 R(X´X)−1]
■
Huomautus:
Lauseen 4.3.1. kohdan (i) mukaan rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä regressiokertoimien vektorin β harhaton estimaattori.
Lause 4.3.2.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
Tästä nähdään välittömästi, että rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä parempi kuin tavallinen PNS-estimaattori b, koska
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein m ja (n–k–1), jos nollahypoteesi H0 pätee:
0H
( , 1)F F m n k− −∼
Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.
Huomautus:
Yleiselle lineaariselle hypoteesille esitetty F-testi sisältää erikoistapauksinaan kappaleessa 3.1. esitetyt testit regression olemassaololle ja yksittäisille regressio- kertoimille.
4.4. Lineaarinen regressiomalli ja stokastiset selittäjät
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (ii)-(v) pätevät. Sen sijaan oletus (i) on korvataan nyt oletuksella
(i)´ Matriisi X on satunnainen
Huomautus:
Oletus (i)´ merkitsee sitä, että selittäjät x1, x2, … , xk oletetaan satunnaismuuttujiksi.
Kiinteät ja satunnaiset selittäjät Lineaarista regressiomallia (1) koskevissa standardioletuksissa selittäjien havaittujen arvojen muodostama matriisi X on oletettu kiinteäksi eli ei-satunnaiseksi. Tiukasti ottaen tämä oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjien arvot päästään valitsemaan. Selittäjien arvot päästään valitsemaan puhtaissa koeasetelmissa, mutta muulloin oletus on vaikeasti perusteltavissa.
Tarkastellaan seuraavassa tilannetta, jossa selittäjät ovat stokastisia muuttujia eli satunnais-muuttujia. Miten tämä vaikuttaa kappaleissa 2. ja 3. esitettyihin lineaarisen regressiomallin estimointia koskeviin tuloksiin? Täydellisen vastauksen antaminen tähän kysymykseen on monimutkainen tehtävä eikä siihen tässä edes pyritä.
Jos sekä selitettävä muuttuja y että selittäjät x1, x2, … , xk ovat satunnaismuuttujia, täydellisen kuvauksen niiden käyttäytymisestä antaa niiden yhteisjakauma. Muuttujan y riippuvuutta muuttujista x1, x2, … , xk voidaan tutkia yhteisjakauman muodostamassa kehikossa tarkastelemalla muuttujan y regressiofunktiota eli ehdollista odotusarvoa muuttujien x1, x2, … , xk suhteen.
Koska regressiofunktiot ovat yleensä epälineaarisia, joudutaan tällaisissa tilanteissa tavallisesti soveltamaan epälineaarista regressioanalyysia; epälineaarisen regressio-analyysin käsittely sivuutetaan tässä esityksessä.
Ehdollistaminen Voidaan osoittaa, että kaikki kappaleissa 2. ja 3. esitetyt lineaarisen regressiomallin estimointia ja testausta koskevat tulokset pätevät, jos seuraavat oletukset pätevät:
(i)´ E(ε | X) = 0
(ii)´ Cov(ε | X) = σ 2I
Näistä oletuksista seuraa:
(i)´´ E(y | X) = Xβ
(ii)´´ Cov(y | X) = σ 2I
Ehdon (i)´´ mukaan selitettävän muuttujan arvojen ehdollinen odotusarvo eli regressio-funktio on lineaarinen, kun ehdollistus tapahtuu selittävien muuttujien havaittujen arvojen suhteen.
Huomautus 1:
Koska moniulotteisten satunnaismuuttujien ehdolliset odotusarvot ovat yleisessä tapauksessa ehtomuuttujien epälineaarisia funktioita, oletus regressiofunktion lineaarisuudesta on stokastisten selittäjien tapauksessa hyvin voimakas oletus.
Huomautus 2:
Jos selitettävän muuttujan y ja selittäjien x1, x2, … , xk yhteisjakauma on multi- normaalinen, niin satunnaismuuttujan y ehdollinen jakauma satunnaismuuttujien x1, x2, … , xk suhteen on normaalinen.
Lisäksi tällöin satunnaismuuttujan y ehdollinen odotusarvo satunnaismuuttujien x1, x2, … , xk suhteen on lineaarinen ja satunnaismuuttujan y ehdollinen varianssi satunnais- muuttujien x1, x2, … , xk suhteen on vakio.
Tällöin oletukset (i)´ ja (ii)´ pätevät ja voimme soveltaa kappaleissa 2. ja 3. esitettyä yleisen lineaarisen mallin tavanomaista estimointi- ja testiteoria. Tämä merkitsee sitä, että stokastisten selittäjien tapauksessa multinormaalijakauman regressiofunktiot ja lineaariset regressiomallit kytkeytyvät toisiinsa.
Lisätietoja multinormaalijakaumasta, sen ehdollisista jakaumista ja ehdollisista odotus- arvoista sekä ehdollisten odotusarvojen estimoinnista: ks. lukua Multinormaali- jakauma.
Huomautus 3:
Aikasarjojen analyysissa ja ekonometriassa joudutaan usein soveltamaan sellaisia regressiomalleja, joissa selittäjät ovat stokastisia ja oletukset (i)´ ja (ii)´ eivät päde.
Tällaisissa tilanteissa PNS-menetelmä ei välttämättä tuota harhattomia eikä edes tarkentuvia estimaattoreita regressiokertoimille. Jos näin on, niin PNS-menetelmä ei ole kelvollinen estimointimenetelmä.
Sen sijaan suurimman uskottavuuden menetelmä tuottaa tavallisesti myös niissä tilanteissa, joissa PNS-menetelmää ei saa soveltaa kelvolliset estimaattorit regressio- kertoimille.