statistica Braila

Compartimentul 3Atenuarea multicoliniarităţii

Spre deosebire de modelul unifactorial în cazul modelului multifactorial, ipoteza 11

presupune independenţa variabilelor explicative. Nerespectarea ei produce fenomenul de

multicoliniaritate cazul, în care o variabilă endogenă este explicată de mai multe variabile

explicative.

Frecvenţa relativ ridicată a coliniarităţii dintre variabilele explicative se datorează

gradului ridicat de interdependenţă din economie.

Existenţa multicoliniarităţii este semnalată de

1) analogiile în evoluţia a variabilelor explicative;

2) apropierea de zero a determinantului XTX;

3) mărimea coeficientului de determinaţie multiplă (R2) care aproape coincide cu

mărimea lui în cazul în care una dintre variabilele cauzale este omisă;

4) contrazicere în verificarea testelor şi anume testul F aplicat valorilor teoretice este

semnificabil, iar testul t, aplicat parametrilor de regresie semnalează ne semnificaţii în rândul

parametrilor.

Atenuarea multicoliniarităţii.

1) Dacă seriile de date sunt formate dintr-un număr redus de termeni (n<10), atunci se

recomandă includerea de termeni suplimentari (n>15), astfel încât întâmplătoarele analogii să

fie, pe cât posibil, eliminate.

2) În cazul corelării intense a 2 variabile exogene, se renunţe la una din ele,

considerându-se că variabila omisă este exprimată de către cea reţinută în model.

3) Dacă datele sunt prezentate sub formă de serii cronologice, se poate proceda la

calculul diferenţelor de ordinul 1 (yi -yi+1) sau la logaritmarea valorilor yi, x1i, x2i, ..., în

scopul atenuării coliniarităţii, prilejuite de prezenţe trendului în date.

Procedee de selecţie a variabilelor exogene în cazul unui model multifactorial.

Eliminarea fenomenului de coliniaritate implică calcularea coeficienţilor de corelaţie

liniară din trei variabilele exogene şi ry/x, coeficienţii de corelaţie liniară dintre variabila

explicată y şi variabilele sale explicative xi. Dacă va trebui ca una din cele două

variabile să fie eliminate din rândul variabilelor exogene.

45

Criteriul de excludere / includere a 2 variabile exogene care-s corelate liniar:

Dacă - se exclude Xj şi se reţine Xi; în caz contrar se exclude Xi şi se reţine Xj.

Astfel în prima etapă reţinând k variabile exogene liniar independente - fiind posibilă

estimarea celor (k+1) parametri se poate trece la etapa în care se continuă operaţia de selecţie a

variabilelor exogene xi.

În acest scop sunt mai multe procedee.

Primul procedeu

în model se introduc cele k variabile exogene, ordinea de includere fiind dată de

mărimea coeficienţilor de corelaţie a variabilei Y în raport de factorii săi:

În aşa fel se obţin k modele:

După cum ştim:Variaţie totala a variabilei Y = Variaţia explicată de modelul M(j) +Variaţie reziduală

Analiza acestor modele pe baza ANOVA prezentăm în tabelulTabelul 3.1

Măsura variaţieiSurse de variaţie Explicată de

modelNumărul de

grade de libertate

Reziduală Numărul de grade de libertate

x1

x1, …., xj

x1, …, xj, …, xk

xj+1, …, xk

Totală

1jk

k-jn-1

-

n-2n-(j+1)n-(k+1)

-

Din ultima relaţie uşor se obţine coeficientul de determinaţie:

care măsoară ponderea din variaţia totală a variabilei dependente z explicată de modelul M(j);

Coeficientul de determinaţie şi exprimă ponderea din variaţia

totală a variabilei y neexplicată de modelul M(j).

46

Pe baza acestor relaţii se pot formula criteriile de alegere a modelului optim M(r) din

grupul de modele M(j), şi anume sau sau

, gradul de semnificaţie a acestor mărimi fiind în prealabil verificat

cu ajutorul testului F.

Al doilea procedeu porneşte de la premiza că cei (k+1) factori de influenţă ai variabilei

explicate y sunt liniari independenţi. În aceste condiţii matricea (XT X)-1se calculează şi

cu ajutorul ei se estimează parametrii şi dispersiile acestora obţinându-se modelul

Apoi se testează semnificaţie estimatorilor cu ajutorul testului t cu pragul de

semnificaţie şi (n-(k+1)) grade de libertate.

Dacă atunci este semnificativ diferit de zero, în caz contrar

este nesemnificativ diferit de zero.

Presupunând că diferă de zero pentru j=0,1,...,r şi nu diferă semnificativ de

zero pentru j=r+1,...,k înseamnă că (xj)jr nu influenţează semnificativ variabila y şi pot fi

excluşi, astfel modelul va fi construit pe baza variabilelor exogene (xj), (Vjn). Al treilea

procedeu:

Teste de determinare a multicoliniarităţii.

l) Testul Klein

Acest test este fondat pe compararea coeficientului de determinaţie R2y calculat pentru

modelul cu k variabile exogene: şi coeficienţii de corelaţie simplă

între variabile explicative pentru ij.

Dacă există prezumtia multicoliniarităţii.

2) Testul Farrar et Glauber

Etapa 1. Calculăm determinantul matricei coeficienţilor de corelaţie între variabilele

explicative:

Dacă valoarea determinantului D tinde spre zero, riscul

47

multicolinarităţii e mare.

De exemplu, pentru in model de 2 variabile explicative, dacă ambele serii sunt perfect

corelate, atunci determinantul , iar în cazul când seriile sunt

ortogonale determinantul devine .

Etapa 2 .Efectuăm un test 2, verificând ipotezele următoare:

I0: D=1 (seriile sunt ortogonale).

I1: D<1 (seriile sunt dependente).

Valoarea empirică 2calculată

pentru un eşantion de n observaţii şi K numere de variabile

explicative (K=k+1 dacă termenul constant se include) este 2calc =-[n-1—1/6

(2k+5)LnD. Dacă tabelar cu 1/2 k(k-1) grade de libertate şi un prag de semnificaţie

, atunci ipoteza I0 este respinsă, are loc prezumţie multicoliniarităţii.

Dacă 2calc 2

tab se acceptă ipoteza de ortogonalitate.

Deasemenea pentru eliminarea multicoliniarităţii se aplică: METODA REGRESIEI

CONSECUTIVE.

Studiul de caz 3 (rezolvat)

În tabelul 3.2, ce urmează, sunt prezentate datele ce se referă la volumul producţiei

lansate şi a resurselor utilizate (capitalul fix şi munca) în industria unei ţări pe o perioadă de

10 ani (ritmurile de creştere a factorilor). În scopul simplificării analizei, datele au fost

logaritmate. Rezultatele obţinute formează conţinutul tabelului 3.2.

În acest tabel sunt folosite următoarele notaţii: X1=lgZ; X2=lgK; Y=(lgP-1), unde Z, K, P

reprezintă respectiv munca, capitalul fix şi volumul producţiei:

48

Tabelul 3.2.Anii 1 2 3 4 5 6 7 8 9 10 TotalY 83,2 86.3 90,8 90,8 98,7 101,

7104,5

109,3

111,4

115,5

992,2

X1 42,3 44,7 47,1 50,3 53,5 56,4 59,3 63,1 66,9 70,2 553,8X2 24,2 30,0 34,5 38,7 44,3 49,1 56,8 62,8 66,9 71,3 478,6

Se cere de analizat dependenţa liniară

REZOLVARE:

1. Pentru datele tabelului calculăm matricea:

464,2370432,1382432,1382396,811

2121

2121

xxxxxx

XX T

Matricea inversă:

De unde

;

523870215,0270409331,0ˆ

Prin urmare, modelul dependenţei obţine forma:

Tastăm coeficienţii 1 şi 2.

,

368,1368348,1310

2

Q

S - eroarea standard.

6015,019324267,0368348275,111ˆ1

aSS

3519,0066145839,0368348275,122ˆ2

aSS

Valoarea tabelară a statisticii Student este: 21,365,2)7;05,0()3,( tttnt .

49

Deci, coeficienţii 1 si 2 sunt nesemnificativi.

Calculăm statistica Fisher:

158,29427

106639,13549361,1101

F .

Din tabelă F(0,05;2;7) = 4,74 < F = 294,158.

Rezultă, că dependenţa variabilei Y de ansamblul variabilelor X1 şi X2 este semnificativă.

Contradicţia obţinută este explicată de prezenţa multicolinearităţii. Pentru a ne convinge

de această ipoteză utilizăm, simptoamele specifice fenomenului multicolinearităţii.

1. Modificări ale datelor iniţiale (inclusiv şi ne esenţiale) conduc la modificări

esenţiale a estimaţiilor coeficienţilor modelului.

Pentru verificarea acestei premise, să estimăm modelul (1), utilizând mai întâi datele

primelor cinci observări .

;892,239784,136784,136848,78

5

1

22

5

121

5

121

5

1

21

xxx

xxxXX T

=205,14176; ;848,78784,136

784,136892,2391)( 1

XX T

1)(ˆ XX T

6770,67ˆˆˆ22110 XXY , sau

.)3016,1(

7878,0)2704,2(

1003,06770,67 21 e

XXY

Calculăm erorile estimaţiilor coeficienţilor 1 si 2:

0995,22

2 Q

S

4552,214176,205

892,2390995,211ˆ1

aSS

50

Evident, că şi de această dată estimaţiile coeficienţilor nu sunt semnificative. Mai mult ca

atât, estimaţia 1003,0ˆ1 , a coeficientului variabilei X1, este lipsită de sens (sporirea forţei

de muncă cu o unitate, conduce la mişcorarea volumului de producţie ceea ce este absurd).

Pentru datele ultimelor 5 observări (anii 6-10) rezultatele estimării sunt

.

ceea ce înseamnă, că coeficientul 1̂ este nesemnificativ, iar 2̂ este semnificativ.

Comparăm estimaţiile:

Deci, instabilitatea estimaţiilor (în dependenţă de numărul observărilor) se confirmă.

2. Estimaţiile sunt însoţite de erori standard relativ mari, şi deci având o

semnificaţie joasă, totodată modelul în întregime este semnificativ.

Confirmarea acestor afirmaţii este prezentată mai sus şi anume:

, iar F = 294,158.

3. Următoarea premisă este numită în legătură cu testul Farrar şi Glauber. În

conformitate cu acest test se calculează mai întâi coeficientul de determinaţie multipli 2iR

între variabila exogenă Xi şi celelalte m-1 variabile exogene rămase. Semnificaţia

coeficienţilor 2iR se verifică utilizând F-statistica (testul Fisher) sau t-statistica (testul Student).

Testul F este .,...,2,1,)(:)1(

)1(:2

2

mimnR

mRF

i

ii

Testul Farrar-Glauber evidenţiază care din variabilele X sunt expuse în mai mare măsură

multicolinearităţii.

În cazul exemplului analizat avem 2 variabile explicative X1 şi X2. Calculăm coeficientul

de corelaţie:

9936,0

464,2370396,811)432,1382( 2

22

21

22122

1 21

xxxx

rr xx

0,12428:)9936,01(

1:9936,0)210(:)1(

)12(:2

1

21

1

rr

F .

51

Valoarea critică (tabelară): F(0,05;1;8)=4,26, (F1=1242,0>4,26).

Deci, valoarea coeficientului de determinaţie r12 este semnificativă.

Testul t ne conduce la acelaşi rezultat:

242,351

212

1

1

F

r

nrt

t(0,05;n-2) = t(0,05;8) = 2,306, (t = 35,242 > 2,306).

4. Valoarea determinantului matricei XTX este foarte mică.

Într-adevăr, dacă ţinem cont de transformarea datelor iniţiale(înmulţirea lor cu o sută)

valoarea determinantului. Calculată pentru aceste date iniţiale 0 este:

8840 1077312,12266

101

)100(1 , adică foarte mică, ceea ce înseamnă, că

matricea XTX este aproape de o matrice degenerată). În problema analizată fenomenul

multicolinearităţii este cauzat de dependenţa între coeficienţii de regresie ß1+β2=1 , tipică

pentru funcţiile de producţie de tip Cobb-Douglas.

În cazul general fenomenul multicolinearităţii este cauzat de nivelul înalt al corelaţiei

între variabilele independente (indicatorii economici, în cazul dezvoltării echilibrate şi stabile

de lungă durată a economiei naţionale, sporesc în timp cu ritmuri aproximativ proporţionale).

Ţinând cont de ipoteza ß1+β2=1 (ea poate fi verificată, utilizându-se testul T), obţinem

modelul

uxxY 22110

sau

uXXXY )( 21120

sau

uXXXY )( 21102 (2).

Modelul (2) reprezintă o dependenţă liniară de 2 variabile: Z=Y-X2 si X=X1-X2 (tabelul

3.3).

Tabelul 3.3

Anii 1 2 3 4 5 6 7 8 9 10Z=Y-X2 59 56,3 56,3 52,1 54,4 52,6 47,7 46,5 44,5 44,2

X=X1-X2 18,1 14,7 12,6 11,6 9,2 7,3 2,5 0,3 0 -1,1

Calculăm estimaţiile coeficienţilor modelului Z=ß0+β1X+u (2).

Estimatorul coeficientului β1 este

52

757844199,0996,416018,316

)())((ˆ

221

XXZZXX

xxz

sau 7578,0ˆ1 .

Estimatorul coeficientului β0 este

.6610116,452,7757844,036,5110 XZ

Deci, modelul (2) obţine forma

,)0656,0(

758,0)6501,0(

6610,45e

XZ

respectiv, modelul iniţial =45,6610+0,758X1+0,242X2.

Pentru testarea modelului, calculăm:

,4924084,239)(ˆ

,844,253)(

2

2

11

22

xxz

xzQ

ZZzQ

;3516,1412

2 QQeQ

;6501,0996,416105,9823394,1

;0656,01

;3394,18

2

2

ˆ

2ˆ

2

0

1

xnx

SS

xSS

QS

Valoarea critică (tabelară) pentru pragul de semnificaţie =0,01, şi 8 grade de libertate

este t(0,01;8)=3,355; deoarece 355,3554,111

ˆ

t si 355,32328,700

ˆ

t , urmează că

ambii coeficient ß0 şi β1 sunt semnificativi.

Testul F=133,496.

Valoarea tabelară este F(0,01; 1; 8)=11,3; F=133,496>11,3. Deci modelul (2) în

întregime este semnificativ coeficientul de determinaţie R2=0,9435; R=0,9713.

În încheiere, a rămas de verificat ipoteza relaţiei 1+2=1. Pentru aceasta, revenim la

mărimele:

53

Ipoteza verificată poate fi scrisă astfel:

H0:”1+2-1=0” iar H1:”1+2-10

Mai departe avem:

=0,0339939; unde C

11

.

Obţinem statistica t:

tS C X X CT T

1 21

1 0 205720451 368348 0 03399395

0 8154 ( )

,, ,

, .

Evident, că (t)=(-0,8154) este valoare de un nivel mai jos de orice prag de semnificaţie

cu 8 grade de libertate, ceea ce nu ne permite de a respinge ipoteza H0:”1+2-1=0” (sau

1+2=1).

Ţinând cont de transformările efectuate a informaţiei iniţiale, uşor se poate demonstra

echivalenţa modelului testat:

Y=45,6610+0,758X1+0,242X2 cu modelul clasic de tip Cobb-Douglas:

Y=28,62X10,758X2

0,242

sau Y=28,62K0,758L0,242,

unde L - munca, iar K - capitalul fix utilizat în procesul de producţie.

Studiul de caz 4 (rezolvat)

În tabelul 3.4 ce urmează prezentăm datele obţinute privind 13 observări, în scopul

analizei dependenţei dintre efectul Y (unităţi de producţie) şi resursele de producţie (materie

primă de 4 tipuri): X1,X2,X3 si X4 (procente) consumate.

Tabelul 3.4

Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13X1 1.0 1.0 1.0 2.0 3.0 7.0 7.0 10.0 11.0 11.0 11.0 11.0 21.0

X2 29.0 31.0 40.0 54.0 71.0 26.0 52.0 68.0 56.0 31.0 55.0 66.0 47.0

X3 15.0 22.0 23.0 18.0 17.0 6.0 6.0 8.0 8.0 8.0 9.0 9.0 4.0

X4 52.0 44.0 34.0 22.0 6.0 60.0 33.0 12.0 20.0 47.0 22.0 12.0 26.0

Y 74.3 72.5 83.8 93.1 102.7 78.5 95.9 109.4 104.3 87.6 109.2 113.3 115.9

54

*Sursă: Н.Дрейпер, Смит. Прикладной регрессионный анализ. Книга 2.М.: 1987,

с.284.

REZOLVARE. În studiul de caz propus prezenţa multicolinearităţii este cauzată de

dependenţa aproape funcţională a variabilelor cauzale: X1+X2+X3+X497,0 (deoarece

X1+X2+X3+X4 - reprezintă un amestec egal aproximativ cu 97% (de la 96 la 98%)). Din

această cauză det (XTX), adică matricea XTX este aproape de o matrice degenerată.

Pentru soluţionarea problemei vom utiliza metoda excluderii consecutive. Etapele

principale ale acestei metode sunt:

1. Se estimează modelul dependenţei în întregime (se includ toate

variabilele cauzale )

2. Se calculează t-statistica fiecărui coeficient de regresie tbi, respectiv

valoarea criteriului Fi=t2bi (criteriul parţial Fi).

3. Cea mai mică valoare Fi egală de exemplu cu FL este comparată cu

valoarea tabelară (critică) F(1; n-m-1; ) ( n-numărul observărilor; m-numărul

coeficienţilor de regresie; - pragul de semnificaţie). Sunt posibile cazurile: a)

FL<F0. Variabila respectivă explicativă, ce a asigurat atingerea numai a nivelului atât

de mic FL de explicaţie, este exclusă din procesul de analiză a dependenţei. Se

produce estimarea modelului dependenţei Y de variabilele care au mai rămas.

b) FL>F0. În acest caz, modelul obţinut este cel căutat (final).

Revenim la problemă:

Estimăm modelul în întregime. Obţinem

,)709,0(

X144,0)755,0(

X102,0)724,0(

X510,0)745,0(

X551,1405,62Y 4321 Testele Student ale

coeficienţilor de regresie sunt:

,203,0709,0144,0t;1351,0

755,0102,0t

;704,0724,0510,0t;082,2

745,0551,1t

43

21

iar statisticile Fcalc. sunt:

F1=t12=4,335; F2=t2

2=0,496; F3=t32=0,018; F4=t4

2=0,041.

De aici FL=min .018,0FF,F,F,F 34321

Pentru pragul de semnificaţie =0,05 şi gradele de libertate respectiv egale cu 1 ţi 8,

valoarea F0 =F(1;8;0,05)=5,32 (pentru =0,10, respectiv F0=3,46).

Întrucât valoarea calculată F0=5,32 (sau 3,46) este mai mare decât FL=0,018, variabila X3

55

se exclude. Trecem la următoarea iteraţie.

Calculăm estimaţiile MCMMP a ecuaţiei de regresie ce include variabilele cauzale X1, X2

şi X4. Obţinem (det (XTX)=0,2716)

Y=203,642+)173,0(

X236,0)186,0(

X416,0)117,0(

X452,1 421

Deci: t1=12,410, respectiv F1=t12=154,014;

t2=2,236 iar F2=5,002;

t4=-1,364 iar F4=1,861;

şi FL=F4=1,861<F0=F(1;9;0,10)=3,36.

De data aceasta eliminăm variabila X4. Modelul final se obţine la iteraţia următoare,

deoarece

Y=52,577+)046,0(

X662,0)121,0(

X468,1 21

şi F1=146,52; F2=208,58 iar F0=F(1;10;0,10)=3,285<FL=F1=146,52.

Vom aplica mai departe metoda regresiei eşalonate.

Metoda regresiei consecutive

Metoda excluderii consecutive se începe cu estimarea dependenţei ce include toate

variabilele explicative identificate. La fiecare iteraţie se exclud o variabilă. Procesul se termină

cu ecuaţia finală testată, adecvată dependenţei analizate.

Metoda includerii consecutive reprezintă o încercare de a ajunge la acelaşi rezultat , dar

procedând în direcţie inversă. Ordinea de includere consecutivă a necunoscutelor poate fi

stabilită cu ajutorul coeficientului parţial de corelaţie - măsura cantitativă a gradului (ponderii)

în care factorul (variabila explicativă) determină evoluţia variabilei efect (variabilei explicate)

Metoda regresiei consecutive (eşalonate) reprezintă o variantă intermediară între

metodele de excludere se includere. Se fixează, mai întâi două valori tabelare a criteriului F

(repartiţia Fisher): FT1 - pragul de includere a variabilei şi FT2 - de respingere (excludere) a

variabilei explicative.

În continuare, se analizează matricea coeficienţilor de corelaţie obişnuiţi. Se alege cel

mai mare coeficient de corelaţie .)X,Y(rmaxr)XY(r kkii1 Variabila respectivă Xi se

include. Se estimează modelul dependenţei Y şi Xi. Se calculează criteriul Fi=ti2 . Daca Fi>FT1,

variabila Xi se acceptă. În caz contrar se respinge. După fiecare includere se verifică, dacă n-au

apărut variabile ce au coeficienţi nesemnificativi (pentru care Fi<FT2, unde Fi - cea mai mică

valoare). Acesta se poate întâmpla din cauza corelaţiei semnificative între variabilele

explicative (cauzale), (prezentei multicolinearităţii).56

Procedura de includere (excludere) consecutivă se termină atunci când dispare

posibilitatea de a realiza includerea sau excluderea variabilei cauzale Xi.

Pentru valorile tabelare FT1 şi FT2 ca de obicei se aleg aceleaşi praguri de semnificaţie .

Mai frecvent se ia =0,05 (5%), dar uneori şi alte valori de la 0,01 până la 0,1. Uneori, se

preferă de a fixa un nivel de semnificaţie mai înalt pentru excludere decât pentru includere, în

scopul păstrării unui număr mai mare de variabile explicative identificate.

Revenim la problemă.

1. Prezentăm matricea coeficienţilor de corelaţie

Tabelul 3.5Y X1 X2 X3 X4

Y 1,0 0,73071745 0,81625268 -0,53467065 -0,82130513X1 0,73071745 1,0 0,22857948 -0,82413372 -0,24544512X2 0,81625268 0,22857948 1,0 -0,13924238 -0,97295516X3 -0,53467065 -0,82413372 -0,13924238 1,0 0,02953700X4 -0,82130513 -0,24544512 -0,97295516 0,02953700 1,0

Din tabel constatăm, că cel mai mare coeficient de corelaţie r(Y1X4)=-0,82130513. Prin

urmare, X4 este prima variabilă ce va fi inclusă în ecuaţia de regresie.

2. Prezentăm dependenţa lineară respectivă

Calculăm F4=t42= 2

2

)774780072,4(1545960,07381619,0

.

sau F4=22,7985247422,7985.

Fie =0,05; FT1=FT2=F(0,05;1;11)=4,8443 (pentru =0,01, F(0,01;1;11)=9,6460).

Întrucât F4=22,7985>FT1=4,84, variabila X4 se păstrează.

3. Calculăm coeficienţii parţiali de corelaţie între variabilele neidentificate în

model (X1, X2 si X3) cu X4. Utilizăm formulele:

.3,2,1,),(1),(1

),(),(),()/,(

42

42

444

i

XXrXYr

XXrXYrXYrXXYr

i

iii

Obţinem:

Predomină 91541,0)/,( 412 XXYr . Deci, următoarea variabilă care va fi

inclusă esteX1.

57

4. Estimăm regresia respectivă:

Deci rămâne de acceptat ambele variabile. Remarcăm, că pentru modelul precedent

coeficientul de determinaţie – R2=67,45%, iar pentru modelul dependenţei Y de X1 si X4

coeficientul R2=0,9725 (97,25%). Erorile standard sunt respectiv egale cu 8,9639 şi 2,7343.

Ceea ce înseamnă că modelul al doilea este mai bun.

5. Pentru includerea următoarei variabile, calculăm coeficienţii de corelaţie

parţiali pentru variabilele X2 şi X3 cu condiţia eliminării influenţei variabilelor X1 şi X4.

D - matricea coeficienţilor de corelaţie.

Obţinem: 35833,0)),/(,( 4122 XXXYr şi 32003,0)),/(,( 413

2 XXXYr

Întrucât )),/(,( 4122 XXXYr > )),/(,( 411

2 XXXYr ,rezultă, că următoarea variabilă ce

trebuie inclusă este X2. Obţinem modelul:

36,3)9;1;10,0(8632,1,,min

8632,1)365011,1(1732876,02365395,0

0259,5)2418513,2(1856103,04161107,0

008,154)41000,12(1169974,04519380,1

)1732876,0(2365395,0

)1856103,0(4161107,0

)1169974,0(4519380,1

6482,71ˆ

2421

22

4

22

2

22

1

421

FFFFF

F

F

F

unde

XXXY

T

Deci, variabila X4 trebuie respinsă. Obţinem modelul:

TFFFFFF

XXY

5229,146,min5823,208;5229,146

)0458,0(66225,0

)12130,0(468306,1

57734,52ˆ

121

21

21

Modelul se acceptă.

58

7. A rămas de examinat ultima variantă a modelului

.8321,1;548,250;7166,68

,)18471,0(

25002,0)04423,0(

656915,0)20458,0(

69584,11936,48ˆ

321

321

FFF

XXXY

Variabila X3 se respinge. Procedura regresiei consecutive s-a terminat. Cea mai bună

variantă reprezintă modelul:

)046,0(662,0

)121,0(468,1

577,52ˆ 21 XXY

Remarcă. Majoritatea pachetelor de analiză econometrică nu calculează coeficienţii

parţiali de corelaţie. Se propune de utilizat t - statistica sau F=t2 statistica, în calitate de

instrument de ordonare a procesului de includere (excludere) a variabilelor.

Putem proceda astfel. Analizăm regresiile dependenţelor Y de variabilele X1, X2, X3, şi

X4. Obţinem statisticile:

F1=12,6025; F2=21,9606; F3=4,4034 si F4=22,7985. .,,max 3214 FFFF

Deci X4 este prima variabilă ce trebuie inclusă.

Pentru variantele dependenţelor Y de variabilele X4, X1; X4, X2 şi X4, X3 obţinem

F1=159,295; F2=0,43108; F3=40,2945. .,,max 3211 FFFF

Deci următoarea variabilă este X1, ce se include.

Variantele dependenţei Y de X4, X1, X2 şi X4, X1, X3 ne conduc respectiv la valorile

F2=1,8632 si F3=4,2358. Se analizează modelul doi. Întrucât, valoarea F4=t24 pentru modelul

)1733,0(2365,0

)1856,0(4161,0

)1170,0(4519,1

6482,71ˆ 421 XXXY

este nesemnificativă.

Mai departe, ultima variantă posibilă a regresiei Y de variabilele X1, X2, X3, analizată

mai sus arată, că influenţa variabilei X3(statistica F3=1,8321<FT2) este nesemnificativă.

Respingând variabila X3, obţinem aceeaşi variantă finală a modelului adecvat procesului

studiat:

)046,0(662,0

)121,0(468,1

577,52ˆ 21 XXY

Studiul de caz 5 (propus)

În tabelul 3.6. ce urmează sunt prezentate ritmurile de creştere a unei grupe de indicatori

macroeconomici (%), observate pe parcursul a 14 ani. Acestea sunt: produsul intern brut (Y);

amortizarea (X1); numărul personalului ocupat în economia naţională (X2); mărimea

importului (X3); volumul cheltuielilor în ştiinţă şi elaborări ştiinţifice (X4) şi timpul (anii t). Se

59

cere de analizat dependenţa variabilei Y de factorii indicaţi.

Între variabilele X1, X2, X3, X4 şi t există o dependenţă de un înalt grad ceea ce

condiţionează prezenta multicolinearităţii. Din această cauză se propune de utilizat metodele

respective: a) metoda excluderii consecutive; b) metoda regresiei (includerii-excluderii)

consecutive. Fiecare student formează varianta proprie în felul următor.

Pentru anul de bază t=1, valorile indicatorilor de fixat astfel: Y1=(620,0+10N) mil. unit.

monetare; X11=(23,2+N) mil. unit. monetare; X21=(71,8+N) mil. unit. monetare;

X31=(24,30+N) mil. unit. monetare; X41=(1,50+N) mil. unit. monetare, unde N este numărul

variantei studentului.

Tabelul 3.6.Anul (t) Y X1 X2 X3 X4

1. 100 100 100 100 1002. 119,0 119,0 101,8 127,1 158,93. 131,1 124,6 103,6 161,6 231,84. 143,8 133,2 108,2 180,3 358,35. 156,8 144,3 108,1 202,6 419,26. 165,5 156,5 4107,5 230,6 466,97. 177,8 171,1 108,7 279,1 491,48. 201,1 181,9 108,4 290,2 541,09. 225,2 195,7 108,9 344,2 617,210. 241,1 213,9 107,8 374,8 727,211. 250,4 228,8 108,4 383,2 915,912. 259,0 245,6 108,4 410,3 940,413. 270,3 265,1 106,5 397,0 966,214. 307,1 283,1 106,6 450,5 1116,5Anul (t) Y X1 X2 X3 X4

Studiul de caz propus poate fi îndeplinit prin pragurile de includere şi excludere a

criteriului F sunt respectiv egale FT1=3 şi FT2=2 iar în caz de necesitate, utilizatorul are

posibilitate să intervină numind aceste mărimi de sinestătător.

60

statistica Braila

Documents