Econometrie MRK 1 Regresia liniară simplă Problemă rezolvată: O firmă de asigurări vrea să găsească o legătură între valoarea prejudici ului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri: Nr. crt. Distanța față de stația de pompieri (zeci km) Valoarea prejudiciului (mii Euro) 1 3,4 26,2 2 1,8 17,8 3 4,6 31,3 4 2,3 23,1 5 3,1 27,5 6 5,5 36,0 7 0,7 14,1 8 3,0 22,3 9 2,6 19,6 10 4,3 31,3 11 2,1 24,0 12 1,1 17,3 13 6,1 43,2 14 4,8 36,4 15 3,8 26,1 Cerintele sunt: 1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este variabila explicativă şi care este variabila explicată; 2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute ; 3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%; 4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson; 5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de 5% şi interpretaţi rezultatul obţinut; 6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut; 7. Testati ipotezele referitoare la semnificaţ ia parametrilor modelului de regresie, la un nivel de semnificaţie de 5%; 8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului; 9. Rezolvaţi problema în Excel; 10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri ( previziunea punctuală şi prin interval de încredere).
15
Embed
Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Econometrie MRK
1
Regresia liniară simplă
Problemă rezolvată: O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului
provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de
pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai
recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu
şi cea mai apropiată staţie de pompieri:
Nr. crt. Distanța față de stația de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson;
5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de
5% şi interpretaţi rezultatul obţinut;
6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de
semnificaţie de 5%;
8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;
9. Rezolvaţi problema în Excel;
10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul
incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (previziunea punctuală şi prin interval
de încredere).
Econometrie MRK
2
REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Valo
rile
vari
ab
ilei
dep
en
den
te Y
(valo
are
a p
reju
dic
iulu
i, i
n m
ii E
ur)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, XfY , o funcţie
liniară xxf .
Modelul liniar de regresie este XY .
2. Coeficienţii modelului de regresie liniră simplă
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-
se astfel seria de date nn yxyxyx ,,...,,,, 2211 sau niyx ii ,1,, . Pe baza acestui eşantion vom
determina estimatorii a şi b ai parametrilor şi ai modelului de regresie. Estimatorii a şi b reprezintă
soluţia sistemului ecuaţiilor normale:
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxxbxa
yxbna
11
2
1
11
Econometrie MRK
3
Rezolvarea sistemului folosind metoda determinanţilor:
aa si
bb ,
unde
n
i
i
n
i
i
n
i
i
xx
xn
1
2
1
1 este determinantul matricei sistemului de ecuaţii,
iar
n
i
i
n
i
ii
n
i
i
n
i
i
a
xyx
xy
1
2
1
11 ,
n
i
ii
n
i
i
n
i
i
b
yxx
yn
11
1 sunt minorii corespunzători celor două necunoscute.
2
11
2
111
2
11
2
111
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
b
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i
a
xxn
yxyxn
b
xxn
yxxxy
a
Calculele intermediare sunt prezentate în tabelul de mai jos:
Valorile xi ale
variabilei X
Valorile yi ale
variabilei Y 2
ix 2
iy ii yx
x1=3,4 y1=26,2 (x1)2=11,56 (y1)
2=686,44 x1·y1=89,08
x2=1,8 y2=17,8 (x2)2=3,24 (y2)
2=316,84 x2·y2=32,04
x3=4,6 y3=31,3 (x3)2=21,16 (y3)
2=979,69 x3·y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)2=14,44 (y15)
2=681,21 x15·y15=99,18
2,4915
1
i
ix
15
1
2,396i
iy
15
1
2 16,196i
ix
15
1
2 48,11376i
iy 65,147015
1
i
ii yx
Se obţine: 2779,102,4916,19615
65,14702,4916,1962,3962
aa
Econometrie MRK
4
9193,42,4916,19615
16,3962,4965,1470152
bb ,
prin urmare dreapta de regresie este de ecuaţie xxbay 9193,42779,10ˆ ,
ecuaţia de regresie liniară în eşantion este 15,1,9193,42779,10 iexexbay iiiii ,
iar valorile ajustate ale observaţiilor 15,1, iyi prin regresie sunt
15,1,9193,42779,10ˆ ixxbay iii .
Interpretarea valorilor coeficienţilor
b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de
pompieri creşte cu o unitate, adică 10 km
a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri.
3. Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: modelul de regresie nu este valid statistic,
cu alternativa
H1: modelul de regresie este valid statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:
1,~
1
knkFisher
kn
SSEk
SSR
MSE
MSRF sau 1,2
2/
2
2/
~
1
knk
e
xy
e
xyFisher
kn
k
s
sF ,
unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem
un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul
sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului. Dacă nu se specifică,
vom considera în general că α’=0,05 (sau α’·100=5%), iar 1-α’=0,95 (sau (1-α’)·100=95%). Pentru
calculul statisticii calcF folosim tabelul ANOVA:
Econometrie MRK
5
Sursa
variaţiei
Suma pătratelor
(SS-Sum of Squares)
Grade de
libertate
(df -
degrees of
freedom)
Media pătratelor
(MS- Mean of
Squares)
Dispersiile
corectate
Valoarea
statisticii F Fcritic
Datorată
regresiei
(Regression)
n
ii
xy
yy
SSR
1
2
2/
ˆ k
k
SSRMSR
sau
ks
xy
xy
2/2
/
MSE
MSRF
sau
2
2
/
e
xy
calcs
sF
1,;' knkF
Reziduală
(Residual)
n
iii
e
yy
SSE
1
2
2
ˆ n – k – 1
1
kn
SSEMSE
sau
1
22
kns e
e
Totală
n
ii
y
yy
SST
1
2
2
n – 1
De asemenea, se poate calcula si dispersia de selectie a lui Y, adica 11
2
2
nn
SSTs
y
y .
Regula de decizie este:
dacă 1,;' knkcriticcalc FFF , adică Fcalc se găseşte în regiunea critică,
atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate în tabelul următor:
Econometrie MRK
6
Nr.
crt. ix iy ii xy 9193,42779,10ˆ iii yye ˆ yyi 2yyi 22 ˆiii yye 2ˆ yyi