Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007. __________________________________________________________________________ _____________________________________________________________________1 6.2. Inferencijalno statistička analiza regresijskog modela Sadržaj poglavlja: 6.2. Inferencijalno statistička analiza regresijskog modela 6.2.1. Procjena parametara 6.2.2. Testiranje hipoteza 6.2.2.1. Skupni test o značajnosti regresorskih varijabli u linearnom regresijskom modelu k varijabli 6.2.2.2. Testiranja hipoteza o značajnosti pojedinačnih regresijskih koeficijenata u linearnom regresijskom modelu k varijabli 6.2.2.3. Testiranja hipoteza o značajnosti skupa regresijskih koeficijenata u linearnom regresijskom modelu k varijabli
16
Embed
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija ... · 6.2. Inferencijalno statistička analiza regresijskog modela 6.2. Inferencijalno statistička analiza regresijskog
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________2 6.2. Inferencijalno statistička analiza regresijskog modela
6.2. Inferencijalno statistička analiza regresijskog modela Inferencijalno statistička analiza polazi od pretpostavke o statističkoj prirodi procesa koji generira podatke i koji se mogu smatrati uzorkom procesa. Uzorak predstavljaju stvarne vrijednosti zavisne varijable za dane vrijednosti nezavisnih varijabli. Statistički procesi ravnaju se po zakonima vjerojatnosti i nisu predvidivi u determinističkom smislu.1 Metodama inferencijalne statistike na temelju uzorka donose se sudovi koji imaju obilježja probabilističkih sudova, procjenjuju se parametri, vrijednosti zavisne varijable, testiraju hipoteze i provode drugi postupci.
6.2.1. Procjena parametara Najčešće korištena metoda procjene za regresijski model k varijabli je metoda najmanjih kvadrata. Princip metode najmanjih kvadrata podrazumijeva procjenu
parametara 0,1,…,k takvu da rezidualna suma kvadrata odstupanja bude minimalna. Slijedi postupak procjene parametara tom metodom. Da bi se mogli procijeniti parametri regresijskog modela, potrebno je napisati regresijski model uzorka2 k-varijabli:
Y X X X ei i i k ik i 0 1 1 2 2 (3.1.1)
Isto to se može zapisati u matričnoj notaciji:
y X e (3.1.2)
i s pomoću matrica:
Y
Y
Y
X X X
X X X
X X X
e
e
eN
k
k
N N Nk k N
1
2
11 12 1
21 22 2
1 2
0
1
1
2
1
1
1
(3.1.3)
y = X + e
N 1 N k k 1 N 1 = vektor stupac procjenjenih3 regresijskih koeficijenata
e = N 1 vektor stupac N rezidualnih odstupanja
1 Šošiæ, I., Serdar, V., Uvod u statistiku, Školska knjiga, Zagreb, 1992, str. 10
2 Sample Regression Function
3 metodom najmanjih kvadrata
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________3 6.2. Inferencijalno statistička analiza regresijskog modela
y = N 1 vektor stupac zavisne varijable Y
X = N k matrica podataka, N slučajeva za k varijabli gdje prva kolona (gdje su jedinice) predstavlja konstantan član Rezidualnih odstupanja ima koliko i parova vrijednosti te se stoga izbor funkcije, prema metodi najmanjih kvadrata, temelji na zbroju kvadrata odstupanja stvarnih vrijednosti zavisne varijable od regresijskih vrijednosti. Rezidualna ili neprotumačena suma kvadrata odtupanja (SR) jednaka je razlici između ukupne sume kvadrata odstupanja (ST) i sume kvadrata odstupanja protumačenih modelom (SP):
( ) ( ) ( )Y Y Y Y Y Yi i i ii
N
i
N
i
N
2 2 2
111
(3.1.4)
ST = SP + SR Ukoliko se uporabi matrični zapis, rezidualna suma kvadrata odstupanja može se napisati na slijedeći način:
e Y X X Xi i i i k ik
2
0 1 1 2 2
2 ( ) (3.1.5)
ei2 = rezidualna suma kvadrata odstupanja (SR)
e e'
e e e
e
e
e
e e e eN
N
N i1 2
1
2
1
2
2
2 2 2
(3.1.6)
y X e e y X (3.1.7)
Nadalje,
e e y X y X
e e y y X y X X
' ( )' ( )
' ' ' ' ' '
2 (3.1.8)
Posljednji izraz je matrični prikaz rezidualne sume kvadrata odstupanja. Kao što je već rečeno, metoda najmanjih kvadrata podrazumijeva procjenu parametara
0,1,…,k takvu da rezidualna suma kvadrata odstupanja bude minimalna. Da bi se to postiglo potrebno je parcijalno derivirati izraz (3.1.5) s odgovarajućim
koeficijentima 0,1,…,k.
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________5 6.2. Inferencijalno statistička analiza regresijskog modela
( ' ) ( ' ) ( ' ) 'X X X X X X X y 1 1 (3.1.13)
Pošto je ( ' ) ( ' )X X X X 1I , jedinična matrica reda k k, slijedi:
I ( ' ) '
( ' ) '
X X X y
X X X y
1
1 (3.1.14)
Jednadžba (3.1.14) je fundamentalni rezultat metode najmanjih kvadrata za izračunavanje konstantnog člana i regresijskih koeficijenata regresije dan u matričnoj formulaciji4. Ako se izraz (3.1.7) uvrsti kao zamjena za y u jednadžbu (3.1.12) dobije se:
X X X X X e' ' ' (3.1.15) Dakle,
X e
x e
x e
x e
0'
'
'
'
1
2
0
0
0
k
(3.1.16)
Izraz (3.1.16)5 je također fundamentalni izraz metode najmanjih kvadrata. Prvi element u toj jednadžbi daje e 0 što znači da rezidualna odstupanja regresije definirane pod (3.1.1 odnosno 3.1.2) uvijek imaju aritmetičku sredinu jednaku nuli ako jednadžba sadrži konstantan izraz. Preostali elementi iz (3.1.16) govore da reziduali imaju korelaciju jednaku nuli sa svakom X varijablom. Kako bismo utemelji tvrdnju da se zaista radi o minimalnoj sumi kvadrata, potrebno je još jednom napraviti deriviranje:
2
22
( ' )
( ' )e e
X X
(3.1.17)
Sada je potrebno definirati d kao vektor k elemenata koji nije nul vektor te vektor c od N elemenata kao:
c Xd
c c d X Xd
' ' ' 0 (3.1.18)
X’X je pozitivno definiran.
4 Draper, N.R., Smith, H., Applied Regression Analysis, John Wiley & Sons, Inc., New York, 1966, str. 47
5 Johnson,J., Econometrics Methods, McGraw-Hill Book Company, New York, 1972, str. 171
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________6 6.2. Inferencijalno statistička analiza regresijskog modela
Ako se u izraz ( ' ) ' X X X y1 umjesto y uvsti izraz y X u , dobije se sljedeće:
( ' ) ' X X X u1 (3.1.19)
Budući da prema pretpostavkama 1 i 3 vrijedi:
E E( ' ) ' ( ' ) ' ( )X X X u X X X u 0 1 1 (3.1.20)
uzimajući očekivanja, dobije se:
E( ) (3.1.21)
Dakle, procjenitelj metodom najmanjih kvadrata je linearno nepristrani procjenitelj. Svojstvo linearnosti odnosi se na linearnost u y (ili u) kao što se vidi u (3.1.14) ili u
(3.1.19), gdje je svaki element u linearna kombinacija elemenata y (ili u).
Nepristranost je pokazana u (3.1.21).6 Nadalje, iz (3.1.19) i (3.1.21), sljedi:
( ) ( ' ) ' E X X X u1 (3.1.22)
Prema tome, varijanca sampling distribucije regresijskih koeficijenata je:
( ' ) ' ' ( ' )
( ' ) ' ( ' )
( ' )
2 1 1
2 1 2 1
2 2 1
E X X X uu X X X
X X X X X X
X X
I (3.1.23)
Elementi glavne dijagonale izraza (3.1.23) predstavljaju sampling varijance, a elementi van glavne dijagonale sampling kovarijance. Najvažniji rezultat metode najmanjih kvadrata je u tome što niti jedna druga nepristrana procjena nema manje sampling varijance. Zbog toga se procjenitelji s pomoću metode najmanjih kvadrata nazivaju najbolji linearni nepristrani procjenitelji7 što znači da imaju minimalnu varijancu unutar grupe linearnih nepristranih procjenitelja. Takav je rezultat poznat pod nazivom Gauss-Markov teorem.8 Osnova za mjerenje reprezentativnosti regresije su rezidualna odstupanja koja predstavljaju razliku između empirijskih vrijednosti zavisne varijable i regresijskih vrijednosti. Što su ta odstupanja manja, to je u pravilu, reprezentativnost regresije bolja. Rezidualnih odstupanja ima onoliko koliko i vrijednosti varijabli. Pošto je aritmetička sredina rezidualnih odstupanja jednaka 0, odnosno E( )u 0 , pri mjerenju
stupnja disperzije oko regresije polazi se od kvadrata rezidualnih odstupanja.
6 Johnson,J., Econometrics Methods, McGraw-Hill Book Company, New York, 1972, str. 171-172
_____________________________________________________________________7 6.2. Inferencijalno statistička analiza regresijskog modela
Procjena varijance regresije u linearnom regresijskom modelu k-varijabli, računa se na slijedeći način:
'
2
e e
N k (3.1.24)
Kao što je već prethodno rečeno, rezidualna ili neprotumačena suma kvadrata odstupanja (SR) jednaka je razlici između ukupne sume kvadrata odstupanja (ST) i sume kvadrata odstupanja protumačenih modelom (SP), te se stoga, za linearni regresijski model k-varijabli, može pisati:
ST Y Y y NY
SP Y Y y x y x NY
SR Y Y
i i
i i i k i ik
i i
: ( ) '
: ( ) ' '
: ( ) ' ' ' '
2 2 2
2
1 1
2
2
y y
X y
e e y y X y
(3.1.25)
Koeficijent determinacije, R2, je omjer sume kvadrata odstupanja protumačenih modelom i ukupne sume kvadrata odstupanja. Drugim riječima, R2 kazuje koliko je odstupanja protumačeno regresijskim modelom. To zapravo znači da je model reprezentativniji što je koeficijent determinaciji bliži 1. Izračunavanje koeficijenta determinacije:
RSP
ST
y x y x y x
y
i i i i k i ik
i
2 1 1 2 2
2
(3.1.26)
odnosno:
RNY
NY
2
2
2
' '
'
X y
y y (3.1.27)
Analiza varijance temelji se na rasčlanjivanju ukupne sume kvadrata odstupanja na sumu kvadrata odstupanja protumačenih modelom i rezidualnu sumu kvadrata odstupanja, odnosno neprotumačenu sumu kvadrata odstupanja, odnosno
(Yii=1
N
Y Y Y Y Yi i ii
NN
i
) ( ) ( )2 2 2
11
. Matrični zapis tog izraza dan je u formulama
pod (3.1.25).
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________11 6.2. Inferencijalno statistička analiza regresijskog modela
To je ekvivalentno spoju hipoteza:
1
2
0
0
0
k
što znači da skup nezavisnih varijabli X1, X2, …, Xk nema utjecaja na određivanje zavisne varijable Y. To je vrlo važna hipoteza. Testiranje ove hipoteze naziva se sveukupnim testom relacija odnosno sveukupnim testom značajnosti regresorskih varijabli u linearnom modelu k varijabli. Valja primijetiti da hipoteza ne uključuje
0=0 budući da to uključuje dodatnu implikaciju da je prosječna vrijednost Y jednaka nuli. Kod ove hipoteze promatra se da li hipotetske nezavisne varijable doprinose objašnjavanju varijacije zavisne varijable Y oko njene aritmetičke sredine, dok stvarni stupanj aritmetičke sredine nema posebnu važnost.
5. R 0 Is i r=0
0 je nul matrica reda s x (k-s), a r je vektor stupac s elemenata. To dovodi do
hipoteze da je zadnjih s elemenata u jednako nuli:
k s k s k 1 2 0
Zbog postojanja mnogo različitih specifikacija za R i r, vrlo je korisno otkriti proceduru za testiranje generalne hipoteze R r . Kako bi se razvila takva procedura, prvo je
potrebno zamijeniti nepoznati vektor s njegovim procjeniteljem te se dobije vektor
R . Problem se sastoji u određivanju sampling distribucije R i izvođenju praktične
test procedure.
E( )R R (3.2.10)
var( ) ( )( )' '
var( ) ( ' ) '
R R R
R R R
E
2 1X X (3.2.11)
je multivarijantno normalan, dakle:
R R R R ~ ( , ( ' ) ' ) N 2 1X X (3.2.12)
ili
R R R( ) ~ ( , ( ' ) ' ) N 0 X X 2 1 (3.2.13)
Ako je hipoteza R r istinita, možemo zamijeniti R iz (3.2.13) sa r:
( ) ~ ( , ( ' ) ' )R R R r 0 X XN 2 1 (3.2.14)
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.
_____________________________________________________________________14 6.2. Inferencijalno statistička analiza regresijskog modela
A može se izraziti i preko koeficijenta determinacije:
FR k
R N k
2
2
1
1
/ ( )
/ ( ) (3.2.1.9)
Udružena signifikantnost kompletnog seta nezavisnih varijabli testira se izračunavanjem F omjera uporabljujući bilo koju od gornje tri formule i uspoređujući je li izračunata vrijednost premašuje prethodno odabranu kritičnu vrijednost.
6.2.2.2. Testiranja hipoteza o značajnosti pojedinačnih regresijskih koeficijenata u linearnom regresijskom modelu k varijabli
R 0 0 1 0 0 i r=0
Hipoteza glasi: i=0 (3.2.2.1) Iz toga sljedi:
R r i i (3.2.2.2)
R R( ' )X X 1 1 (3.2.2.3)
odabirući samo i-ti element, odnosno aii na glavnoj dijagonali (X’X)-1. Dakle, test hipoteze je:
Fa
F N ki
ii
~ ( , )
2
2 1 (3.2.2.4)
Ako se umjesto testiranja hipoteze i=0, želi testirati hipoteza i=i0 , tada je r=i0 , a test postaje:
Fa
i i
ii
( )
0
2
2 (3.2.2.5)
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.