Regresia linear: aplicaii cu MS Excel
Universitatea Titu Maiorescu Facultatea de StiinteEconomice
Regresia Linear Simpl
Unul din principalele capitole ale statisticii are n vedere
posibilitatea de a face predicii. Dei nu se gasesc relaii perfecte
n lumea real, prin intermediul regresiei se pot face predicii ale
unei variabile, n funcie de valoarea altora. n continuare, ne vom
referi doar la situatia regresiei simple (o variabila dependenta si
una independenta) si lineare (relatia dintre cele doua variabile
poate fi descrisa printr-o dreapta n cadrul norului de
puncte).Regresia se leaga foarte mult de conceptul de corelatie.
Analiza corelaiei este o tehnic statistic care msoar i descrie
gradul de asociere dintre dou variabile. Teoria ne spune c o
asociere puternica ntre doua elemente conduce la cresterea
preciziei predictiei unei variabile pe seama alteia.Corelaia poate
fi studiat cu ajutorul mai multor msurtori, n funcie de tipul
variabilelor, mai precis dac acestea sunt calitative, sau numerice
discrete, ori cantitative. Spre exemplu, valorile maxime pe care
coeficientul de corelaie Pearson le poate lua variaz ntre -1 i 1. O
corelaie ridicat, apropiat de +1 sau 1, crete ansele unei estimri
ct mai precise a unui model de regresie.n explicitarea unui model
de regresie, studiul corelaiei ne ajut s identificm mai nti
existena relaiei dintre variabile, pentru ca apoi s studiem i
cauzalitatea, adic influena unei sau unor variabile asupra
alteia.Procesul de regresie presupune doi principali pasi. Primul
se refera la determinarea ecuatiei de regresie, iar cel de-al
doilea consta n utilizarea acestei ecuatii n predictie.Forma
general i arhicunoscut prin care se exprima o ecuatie de regresie
linear simpl este:
(1)unde: este rezultatul estimat al variabilei explicate;
este interceptul (locul pe ordonata unde dreapta de regresie se
intersecteaza cu OY, valoarea lui )
este panta dreptei de regresie (ne arata cu ct se modifica
atunci cnd X creste sau scade cu o unitate; X este variabila
explicativ (cunoscuta).Existena unei legturi funcionale de form
linear dintre Y i X se bazeaz pe supoziia existenei unei variabile
reziduale u care nglobeaz toate celelalte variabile care nu au
putut fi observate ntr-o relaie de forma:
(2)
Trebuie observat c, n relaia de mai sus, variabila estimat a
fost nlocuit cu variabila observat , deoarece n (1) valorile
variabilei estimate sunt chiar pe linia de regresie, fr s fie
afectate de valorile reziduale u.Daca alti factori din u sunt
mentinuti ficsi, astfel incat modificarile u sunt zero (u=0),
atunci intr-un model linear x are un efect constant asupra y:
Atunci, este estimaia parametrului de principal interes in
economia aplicat. Estimaia a termenului constant este rareori de
interes pentru analiza.Exista mai multe posibilitati echivalente de
calculare a lor, pe baza metodei celor mai mici ptrate (CMMP). Una
dintre ele este redat n continuare.Daca se cunoate valoarea
coeficientului de corelatie dintre cele doua variabile X si Y,
media si abaterea standard ale celor doua variabile, putem aplica
urmatoarele formule:
(3)i
(4)unde: r este valoarea coeficientului de corelatie dintre X si
Y; sy este abaterea standard a variabilei Y; sx este abaterea
standard a variabilei X; este valoarea medie a variabilei Y; este
valoarea medie a variabilei X.Pentru a stabili linia de regresie se
apeleaz la proprietile matematice ale unei drepte, deoarece orice
dreapt poate fi determinat prin urmtoarea ecuaia (1)Panta de
regresie ia o valoare pozitiv, dac exist o corelaie pozitiv ntre x
i y i o valoare negativ, dac exist o corelaie negativ ntre cele dou
variabile.
Regresia Linear MultiplForma general a modelului liniar multiplu
este dat prin relaia:
(5)unde: Y - variabila dependent; X1, X2,,Xi,,Xp - variabile
independente (predictori); u - variabil reziduu de modelare
(variabila aleatoare); i - parametrii modelului de regresie k -
numrul de parametri din model, k=p+1. 0 valoarea medie a variabilei
dependente Y, n condiiile n care influena variabilelor independente
ar fi nul; Cei k parametri ai modelului liniar multiplu au
urmtoarea semnificaie:
reprezint variaia absolut a variabilei dependente la o variaie
absolut cu o unitate a variabilei independente Xi, n condiiile n
care influena celorlalte variabile independente este meninut
constant. Arat influena parial a fiecrei variabile independente
asupra variabilei dependente. Regresia multipla este mult mai
potrivita pentru analiza cauzala conform principiului ceteris
paribus, adic n condiiile n care toi ceilali factori sunt
considerai constani. Motivul este dat de faptul c putem explicita
controlul pentru ceilalti factori care afecteaza variabila
dependent y.O etap important n evaluarea calitii modelului de
regresie o reprezint testarea parametrilor modelului multiplu
liniar, care const n trei pai:1. Formularea ipotezelor:
2. Alegerea pragului de semnificaie De regul, se asum un risc =
0,05.3. Alegerea statisticii test:t =
4. Valoarea teoretic a statisticii testPentru pragul de
semnificaie ales i v=n-k grade de libertate, se citete valoarea
teoretic din tabela Student: t/2;n-k 5. Valoarea calculat a
statisticii test
La nivelul eantionului se determin valoarea calculat a testului:
6. Regula de decizie
Dac se respinge H0 Dac | se accept H0, pentru risc asumat de 5%n
Excel, decizia se ia pe baza semnificaiei testului (Sig.):- dac ,
se respinge H0 -dac , se accept H0, pentru un nivel de ncredere de
95%.7. Compararea celor dou valori ale statisticii test i luarea
deciziei8. Interpretarea rezultatului testrii Studiu de cazEXCEL
2010: regresie multipl Aceast fi de ajutor ianuarie 2009 ofer
informaii cu privire la: regresie multipl folosind Analiza datelor
Add-in. Interpretarea statistica de regresie. Interpretarea tabelul
ANOVA (de multe ori acest lucru este omis). Interpretarea tabelului
coeficienilor de regresie. Intervale de ncredere pentru parametrii
de panta. Testarea pentru semnificaia statistic a coeficienilor
Ipoteza de testare pe un parametru de pant. Testarea semnificaiei
globale a regresorilor. Prezicerea y a unor valori date ale
regresorilor. Limitri Excel. Exist ceva n plus de stiut dincolo de
regresie cu o variabil explicativ. Regresie multipl folosind
analiza DATELOR Add-In Acest lucru necesit analiza datelor Add-in:
vezi Excel 2010: Accesul i activarea analizei datelor Add-in
Apoi vom crea o nou variabil n celulele C2: C6, mrimea radacinei
patrate ca un regresor. Apoi n celula C1 dam titlul dimensiune
patrata HH. (Se pare c datele HH SIZE au un coeficient de exact
0,0; cubul este utilizat). Celulele de calcul tabelar A1: C6 ar
trebui s arate:
Avem regresie cu o interceptare i de regresori HH SIZE i cuburi
HH SIZE Modelul de regresie a populaiei este: y = 1 + 2 x2 +3 x3 +
u Se presupune c eroarea u este independent cu variaie continu -
vezi LIMITAREA EXCEL n partea de jos. Ne dorim sa estimam linia de
regresie: y = b1 + b2 x2 + b3 x3Facem acest lucru folosind analiza
de date Add-in i cea de regresie.
Singura schimbare pe o variabil de regresie este acea de a
include mai mult de o coloan n Banda de intrare X.
Reinei, totui, c regresorii trebuie s fie n coloane nvecinate
(aici coloanele B i C). Dac nu este cazul ca n datele originale,
apoi coloanele trebuie s fie copiate pentru a obine regresorii din
coloanele adiacente.Apasand OK obtinem:
Ieirea (a rezultatelor)de regresie are trei componente: tabel de
statistici de regresie tabelul ANOVA tabelul Coeficienilor de
regresie. TABELUL DE INTERPRETARE STATISTICA A REGRESIEI Aceasta
este urmtoarea ieire. De cel mai mare interes este etalonul
R.Explicatie
Multiple R0.895828R = radacina patrata a lui R2
R Square0.802508R2
Adjusted R Square0.605016R2 ajustat , este folosit daca exista
mai mult de o variabila x
Standard Error0.444401Aceasta este o estimare exemplu a
deviatiei standard a erorii u
Observations5Numarul de observatii folosite in regresie (n)
Cele de mai sus ofer valorile generale: R2 = 0.8025 Corelaia
ntre y i y- este 0.8958 (atunci cnd ridicata la ptrat d 0.8025). R2
corectat = R2 - (1-R2) * (k-1) / (n-k) = 0.8025 la 0.1975 * 2/2 =
0.6050. Eroarea standard de aici se refer la deviaia standard
estimat a termenului de eroare u. Aceasta este denumita uneori
eroarea standard a regresiei. Acesta este egal cu radical din (SSE
/ (n-k)). Acesta nu trebuie s fie confundat cu eroarea standard a
lui y n sine (de la statistici descriptive), sau cu erori standard
de coeficienii de regresie de mai jos. R2 = 0.8025 nseamn c 80,25%
din variaia yi in jurul ybar(mediu) (media acestuia), se explic
prin regresorii x2i i x3i. INTERPRETAREA TABELULUI ANOVA Un tabel
ANOVA este dat. Acest lucru este adesea omis.Tabelul ANOVA (
analiza varianei ) mpartesuma ptratelor ntre componentele sale
.Sume totale de ptrate= Restant ( sau eroare ) suma de patrate +
Regresie( sau explicate) suma de ptrate .Astfel, i ( yi - ybar )2 =
i ( yi yhati )2 + i ( yhati - ybar )2unde yhati este valoarea yi
prezisa de regresie i ybar este eantionul mediu de y .De exemplu
:R2 = 1 restant SS / Total SS ( formul general pentru R2 )= 1 -
0.3950 / 1.6050 ( de la datele din tabelul ANOVA )= 0.8025 ( care
este egal cu R2 ce apare n tabelul de Statistic de regresie
).Coloana denumit F dtestul F general al H0 : 2 = 0 i 3 = 0 versus
Ha : cel puin unul dintre 2 i 3 nu este egal cu zero.Ca rezerva :
Excel calculeaza F ca :F = [ regresie SS / ( k - 1 ) ] / [ restant
SS / ( n-k ) ] = [ 1.6050 / 2 ] / [ 0.39498 / 2 ] = 4.0635.Coloana
denumit semnificaie F are ca valoarea asociat P.Deoarece 0.1975
> 0,05 , nu respingem H0 la nivel de semnificatie 0.05 .Not :
Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este
numrul de regresori inclusiv segmentul hte.Aici FINV (4.0635,2,2) =
0,1975 .INTERPRETAREA TABELULUI COEFICIENILOR DE REGRESIEIeirea de
regresie de cel mai mare interes este urmtorul tabel de coeficieni
i de ieirea asociata : j denota coeficientul populaiei a
regresorului jth (segment , HH SIZE i CUBED HH SIZE ) .Apoi Coloana
" Coeficient " ofer cel putin ptrate estimate ale j. Coloana "
eroare Standard" ofer erorile standard ( e.g deviaia standard
estimat ) de cel puin ptratele estimate ale bj de j. Coloana " t
Stat " d calculat statistica t pentru H0 : j = 0 mpotriva Ha : j 0
.Aceasta este coeficientul mprit de eroarea standard . Acesta este
comparat cu t; ( n-k ) grade de libertate n care aici n = 5 i k = 3
. Coloana " valoarea P " d valoarea p pentru testul H0 : j = 0
mpotriva Ha : j 0 ..Aceasta echivaleaz cu Pr { | t | > t -Stat }
unde t este o variabila t - distribuita aleator cu grade de
libertate n-k i t -Stat este valoarea statistica calculat t ce
apare n coloana precedent .Reinei c aceast valoare p este pentru un
test cu dou fee. Pentru un test unilateral mparte aceast valoare p
la 2 ( verificarea semnului de t -Stat ) . Coloane de valori "
Inferior 95 % " i " Superior de 95 % " definesc un interval de
ncredere de 95 % pentru j .Un simplu rezumat afiat mai sus este
faptul c linia este reprezentata astfel:y = 0.8966 + 0.3365 * x +
0,0021 * zIntervalele de ncredere pentru coeficienii SLOPE 95%
interval de ncredere pentru coeficientul de pant 2 este ieirea
Excel (-1.4823, 2.1552). Excel calculeaz aceasta ca b2 t_.025 (3)
SE (b2) = 0.33647 TINV (0,05, 2) 0.42270 = 0.33647 4.303 0.42270 =
0.33647 1.8189 = (-1.4823, 2.1552). Alte intervale de ncredere pot
fi obinute. De exemplu, pentru a gsi intervale de ncredere de 99%:
n caseta de dialog de regresie (n analiza datelor Add-in), bifai
caseta nivel de ncredere i setai nivelul de 99%.
TESTUL DE IPOTEZA ZERO A COEFICIENTUL DE PANTA (" TEST de
semnificaie statistic ")Coeficientul HH SIZE a estimat eroare
standard de 0.4227, statistica t de 0.7960 i valoarea p de 0.5095
.Prin urmare, este nesemnificativ statistic la nivelul de
semnificaie = .05 ca p > 0,05 .Coeficientul CUBED HH SIZE a
estimat eroare standard de 0.0131 , statistica t de 0.1594 i
valoarea p de 0.8880 .Prin urmare, este nesemnificativ statistic la
nivelul de semnificaie = .05 ca p > 0,05 .Exist 5 observaii i 3
regresori (segmentul i x ), deci vom folosi t ( 5-3 ) = t ( 2 ) .De
exemplu , pentru HH SIZE p == TDIST ( 0.796,2,2 ) = 0.5095 .
TESTUL DE IPOTEZA PE UN PARAMENTRU DE REGRESIEAici vom testa
daca HH SIZE are coefficient 2 = 1,0 .Exemplu : H0 : 2 = 1.0
mpotriva Ha : 2 1.0 la nivel de semnificaie = .05 .Apoit = ( b2 -
valoarea H0 a 2 ) / ( eroare standard de b2 )= ( 0.33647-1.0 ) /
0.42270= -1.569 .Utiliznd abordarea valoarii p valoarea p = TDIST (
1.569 , 2 , 2 ) = 0,257 . [ n = 5 i k = 3 , astfel n - k = 2 ] . A
nu se respinge ipoteza nul la nivel de 0.05 , deoarece valoarea p
este > 0,05 .Utiliznd abordarea de valoare critic Am calculat t
= -1.569 Valoarea critic este t_.025 ( 2 ) = TINV ( 0.05,2 ) =
4.303 . [ n = 5 i k = 3 , astfel n - k = 2 ] . Deci, a nu se
respinge ipoteza nul la nivel de 0.05 de la t = | -1.569 | <
4.303 .
TEST GENERAL AL DE SEMNIFICATIE A PARAMETRILOR DE REGRESIEAm
testat H0 : 2 = 0 i 2 = 0 versus Ha : cel puin unul dintre 2 i 2 nu
este egal cu zero.Din tabelul ANOVA statistica de test F este
4.0635 cu valorea p de 0.1975.Deoarece valoarea - p nu este mai mic
de 0,05 nu respingem ipoteza nul c parametrii de regresie sunt zero
la nivel de semnificaie 0,05 .Concluzia este c parametrii sunt
mpreun statistic nesemnificativi la nivel de semnificaie 0,05 .Not
: Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este
numrul de regresori inclusiv segmentul hte .Aici FINV (4.0635,2,2)
= 0,1975 .VALOAREA PREZISA A LUI Y SI REGRESORII DATILuai n
considerare cazul n care x = 4 , n cazul n care puterea a treia HH
SIZE = x ^ 3 = 4 ^ 3 = 64.yhat = b1 + b2 x2 + b3 X3= 0.88966 +
0.3365 4 + 0,0021 64 = 2.37006LIMITARI EXCELExcel limiteaz numrul
de regresori ( numai pn la 16 regresori ? ? ) .Excel cere ca toate
variabilele regresor sa fie n coloane adiacente .Trebuie sa mutati
coloane pentru a asigura acest lucru .De exemplu, dac regresorii
sunt n coloanele B i D trebuie s copiai cel puin una din coloanele
B i D , astfel nct acestea sa fie adiacente una fata de
celelalte.Erorile standard Excel, statisticile t i valorile p se
bazeaz pe presupunerea c eroarea este independenta cu variaie
continu ( homoskedastic ) .Excel nu furnizeaz alternative , cum ar
asheteroskedastic - robust sau autocorelaie robust, erori standard
i statistici t i valori p.Este nevoie de mai multe software-uri de
specializate , cum ar fi STATA , EVIEWS , SAS , LIMDEP , PC - TSP ,
... .
Bibliografie:1. Linest Function -
http://office.microsoft.com/en-001/excel-help/linest-function-HP010342653.aspx2.
Essential of Statistics, David Brink, Ventus Publishing ApS, 2010
(bookboon.com)
18