Introduction a STATA : un exemple dØtude Introduction a STATA : un exemple dØtude Ahmed Tritah, UniversitØ du Maine Novembre 2014
Introduction a STATA : un exemple d’étude
Introduction a STATA : un exemple d’étude
Ahmed Tritah, Université du Maine
Novembre 2014
Introduction a STATA : un exemple d’étude
Le prix des logements pour les familles monoparentales
Introduction
Les étapes d’un projetI lien http ://perso.univ-lemans.fr/~atritah/L3econometrieS1/I Etablir un cadre théorique (modèle) qui spécifie le sujetd’étude et défini la façon dont les résultats pourrons êtreinterprétés.
I Trouver les données qui correspondent à la contrepartieempirique du modèle.
I Mener une analyse exploratoire pour se familiariser avec lesdonnées et identifier les points abérants : votre échantillonest-il représentatif de la population ?
I Ajuster le modèle à l’aide d’une regression et mener uneanalyse de spécification pour déterminer l’adéquation desfacteurs explicatives avec la forme fonctionelle estimée.
I Procéder à l’inférence statistique sur les questions et lesimplications dérivées du modèle
I Analyser les résultats des tests d’hypothèses et le pouvoirprédictif du modèle.
Introduction a STATA : un exemple d’étude
Interprétation des résultats
La question
I On s’intéresse aux déterminants externes du prix deslogements, i.e. les éléments d’environnement du logement.
I La variable dépendante, dénotée lprice, est le prix médian (enlog) des logements dans une localité. Une observationcorrespon à une localité.
I Variables explicatives externes : caractéristiques de la localitéI lnox : mesure de la population (en log)I ldist : distance au bassin d’emploi (en log)I stratio : ratio d’étudiants par enseignant
Introduction a STATA : un exemple d’étude
Interprétation des résultats
Statistiques descriptives
stratio 506 18.45929 2.16582 12.6 22 ldist 506 1.188233 .539501 .1222176 2.495682 lnox 506 1.693091 .2014102 1.348073 2.164472 lprice 506 9.941057 .409255 8.517193 10.8198 price 506 22511.51 9208.856 5000 50001
Variable Obs Mean Std. Dev. Min Max
. summarize price lprice lnox ldist stratio
Introduction a STATA : un exemple d’étude
Interprétation des résultats
Regression par MCO
Introduction a STATA : un exemple d’étude
Interprétation des résultats
Analyse de la variance F statistique et R2I F statistique : teste H0 : β1 = β2 = ... = βk = 0
I Fcal=MSModelMSresidiual
= 175, 86I Probabilité de rejeter H0 alors que H0 vrai :Prob(F > Fcal ) = 0, 0000
I Ici on rejette H0 à "tous les niveaux conventionels designification"
I Ecartype des erreurs du modèle (Root MSE) : trés faible auregard de la moyenne lprice.
I Variation de y autour de y expliquée par x :R2 = 1− SSresidual/SSTotal :
I On s’interesse à la variation par rapport à la moyenne :SSTotal = ∑i (yi − y)2.
I L’idée est de comparer notre modèle au modèle yi = y + uiI Peut-on faire mieux que la moyenne pour prédire yi ?I Ce qui revient à se demander si E (y |x) 6= E (y )
Introduction a STATA : un exemple d’étude
Interprétation des résultats
Le R2 ajustéI Rappel : le R2 ne dimininue jamais lorsque une variableexplicative est ajoutée au modèle ; ceci quelque soit lasignificativité de la variable.
I Le R2 ajusté corrige cela en prenant en compte le nombre dedegré de liberté en calculant un ratio de variance plutôt quede variation entre les résidus et y :
R2 = 1− SSR/(n− k)SST/n− 1 = 1− (1− R2) n− 1
n− k < R2
I R2 augmente si le gain à rajouter une variable explicative(variation plus faible des résidus) excède son coût (perte d’undegré de liberté).
I On peut utiliser le R2 pour comparer des modèles avec lamême variable dépendante mais des spécifications différentes.
I On peut aussi comparer l’erreur type de chaque modèle.
Introduction a STATA : un exemple d’étude
Interprétation des résultats
Retrouver les résultats d’estimationI Les commandes stata tels que regress crée des variablessystèmes qui enregistrent les résultats.
I Le vecteur des paramètres estimés est contenu dans e(b), etla matrice de variance covariance dans e(V). Un élément dee(b) est référencé _b[varname] et son écartype estimé_se[varname] (par ex. _b[rooms] et _se[rooms]).
I Le contenu de ces matrices se réfère à la dernière estimationet sont remis à jour à chaque nouvelle estimation.
I On peut retrouver leur contenu avec la commande ereturn
e(N) = 506e(df_m) = 4e(df_r) = 501
e(F) = 175.8550695227946e(r2) = .5840322442976398
e(rmse) = .2650029089298266e(mss) = 49.39877352102587e(rss) = 35.18349741237627
e(r2_a) = .5807111444517128e(ll) = 43.4951392092929
e(ll_0) = 265.4134648194153 e(rank) = 5scalars:
e(sample)functions:
e(V) : 5 x 5 e(b) : 1 x 5matrices:
e(estat_cmd) : "regress_estat" e(model) : "ols" e(predict) : "regres_p" e(properties) : "b V" e(cmd) : "regress" e(depvar) : "lprice" e(vce) : "ols" e(marginsok) : "XB default" e(title) : "Linear regression" e(cmdline) : "regress lprice lnox ldist rooms stratio"macros:
Introduction a STATA : un exemple d’étude
Interprétation des résultats
I e(sample) crée une variable binaire qui prend la valeur 1 sil’observation est inclu dans l’estimation et 0 sinon.
I Pour obtenir des stat des. sur l’échantillon exact utilisé dansl’échantillon on tape :
summarise regresseurs if e(sample)
ou plus directement :
stratio 18.45929 2.16582 12.6 22 rooms 6.284051 .7025938 3.56 8.78 ldist 1.188233 .539501 .122218 2.49568 lnox 1.693091 .2014102 1.34807 2.16447 lprice 9.941057 .409255 8.51719 10.8198
Variable Mean Std. Dev. Min Max
Estimation sample regress Number of obs = 506
. estat summarize
I Stata possède un language matriciel. Toutes les commandessur les matrice commencent par matrix.
Introduction a STATA : un exemple d’étude
Interprétation des résultats
I Pour imprimer la matrice des coeffi cients estimés :
y1 .95354002 .13434015 .25452706 .05245119 11.083865 lnox ldist rooms stratio _conse(b)[1,5]
. matrix list e(b)
I Pour imprimer la matrice de variance covariance descoeffi cients estimés :
_cons .03037429 .01001835 .00341397 .00088151 .10119496 stratio 9.740e07 .00002182 .00003374 .00003478 rooms .00035279 .00003043 .00034337 ldist .00426247 .00185789 lnox .01362865
e(V) lnox ldist rooms stratio _cons
Covariance matrix of coefficients of regress model
. estat vce
Les éléments de la diagonale correspondent aux carrés des écartypesestimés(_se[])
Introduction a STATA : un exemple d’étude
Détecter la collinéarité dans la régression
I Stat détecte automatiquement la collinéarité parfaiteI La multicolinéarité (colinéarité forte) modifie l’intéprétationdes résultats.
I Rapel de cours, la kième diagonale de la matrice de variancecovariance (VCE) est :
σ
SSTj (1− R2j )(cf. Eq. (41) chapitre 3)
I La variance estimée sera d’autant plus élevé que (1) lacorrélation de j avec les autres variables explicatives (R2j ) estélevée, (2) la variation de xj à sa moyenne (SSTj ) est faibleet (3) la qualité de l’ajustement est faible (σ élevé).
I Le terme (1− R2j )−1 est le facteur d’inflation de la variance(VIF). Il peut être calculé aprés chaque régression avec lacommande estat vif. L’usage admet une suspission decolinéarité à partir d’un VIF moyen supérieur à 1, ou d’un VIFmaximum supérieur à 10.
Introduction a STATA : un exemple d’étude
Détecter la collinéarité dans la régression
Mean VIF 2.56
stratio 1.17 0.852488 rooms 1.22 0.820417 ldist 3.89 0.257162 lnox 3.98 0.251533
Variable VIF 1/VIF
. estat vif
_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886 stratio .0524512 .0058971 8.89 0.000 .0640373 .0408651 rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338 ldist .1343401 .0431032 3.12 0.002 .2190255 .0496548 lnox .95354 .1167418 8.17 0.000 1.182904 .7241762
lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 84.5822709 505 .167489645 Root MSE = .265 Adj Rsquared = 0.5807
Residual 35.1834974 501 .070226542 Rsquared = 0.5840 Model 49.3987735 4 12.3496934 Prob > F = 0.0000
F( 4, 501) = 175.86Source SS df MS Number of obs = 506
. reg lprice lnox ldist rooms stratio
Introduction a STATA : un exemple d’étude
Présentation des résultats
Présentation des résultatsI estimates permet de stocker les résultats d’estimations
I estimates store : enregistre les résultatsI estimates table : crée une table d’équations avec lesp-value (p), t-stat (t), erreurs-types (se). Les optionspermettent de spécifier le format (voir help estimates), derajouter des résultats contenus dans e() (option stat) ; etc.
. estimates store model4 //enregistrent les estimations du model4
. quietly regress lprice lnox ldist rooms stratio //Model 4
. estimates store model3 //enregistrent les estimations du model3
. quietly regress lprice ldist stratio lnox //Model 3
. estimates store model2 //enregistrent les estimations du model2
. quietly regress lprice rooms rooms2 ldist/*Model 2*/
. estimates store model1 //enregistrent les estimations du model1> les résultats*/. /*quietly lance la regression sans afficher///
. quietly regress lprice rooms /*Model 1*/
. generate rooms2=rooms^2
(Housing price data for Bostonarea communities). use tp_hprice2a, clear
Introduction a STATA : un exemple d’étude
Présentation des résultats
legend: b/se/p
rmse .317 .289 .311 .265 r2_a .399 .5 .424 .581
0.000 0.000 0.000 0.000 .127 .584 .304 .318
_cons 7.62 11.3 13.6 11.1 0.000 0.000 .135 .117
lnox 1.22 .954 0.000 0.000 .0066 .0059
stratio .0775 .0525 0.000 0.002 0.002 .0255 .0505 .0431
ldist .237 .157 .134 0.000 .014
rooms2 .0889 0.000 0.000 0.000 .0201 .183 .0185
rooms .369 .821 .255
Variable model1 model2 model3 model4
> ) p(%4.3f). estimates table model1 model2 model3 model4, stat(r2_a rmse) b(%7.3g) se(%6.3g
Introduction a STATA : un exemple d’étude
Présentation des résultats
I On peut aussi présenter la significativité sous forme d’étoile
legend: * p<0.05; ** p<0.01; *** p<0.001
ll 43.5 136 124 88.6 rmse .265 .317 .311 .289 r2_a .581 .399 .424 .5
_cons 11.1*** 7.62*** 13.6*** 11.3*** rooms2 .0889*** stratio .0525*** .0775*** rooms .255*** .369*** .821*** ldist .134** .157** .237*** lnox .954*** 1.22***
Variable model4 model1 model3 model2
Models of median housing price
> */ star title("Models of median housing price"). estimates table model4 model1 model3 model2, stat(r2_a rmse ll) b(%7.3g) /*
I Il existe deux autres commandes importantes pour créer destable de type articles :
I estoutI outreg2
Introduction a STATA : un exemple d’étude
Présentation des résultats
Présenter des statistiques descriptives et des corrélationsI statsmat stocke les résultats de stat des dans une matriceI Exemple : prix moyen des logements en fonction des niveaux decriminalité (5 niveaux)
v,high 102 14957 13350 high 101 22222 19900Medium 101 23374 21600 low 101 24806 22800 v,Low 101 27273 24499 n mean p50price_crime[5,3]: Housing price by quintile of crime
> me")> */ matrix(price_crime) format(%9.4g) title("Housing price by quintile of cri. statsmat price, stat(n mean p50) by(crimelevel) /*
. label values crimelevel crlev
. egen crimelevel=cut(crime), group(5)
. label define crlev 0 "v.Low" 1 "low" 2 "Medium" 3 "high" 4 "v.high"
I autre possibilité tabout (voir :http ://www.ianwatson.com.au/stata/tabout_tutorial.pdf)
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
I On suppose que le modèle est proprement spécifié et que leserreurs sont identiquements et indépendements distribuées.
I Rappel : les estimateurs sont des variables aléatoires dont ladistribution dépend de la distribution des erreurs.
I Trois types de tests : Test de student (Wald teste), tests LM(teste de Lagrange) et test LR (teste du ratio devraissemblance).
I On présente ici les testes de Wald (vue en cours).I Avec q restrictions sur les paramètres le modèle restreintcomporte (k − q) coeffi cients à estimer.
I Stata présente les p − values des testes : significativitémaximale d’un teste qui ne rejette pas H0. Par exemple sip = 0.013 on peut rejeter H0 à 10% et à 5%, mais pas 1% (à1% le tcritique > tcalcul e ). Par défaut les tests sont bilatéraux.
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
I Stata dispose de trois commandes de tests trés utiles :I test coeflist : où coeflist contient le nom d’une ou plusieursvariable du modèles
I test exp = exp : exp est une fonction algébrique des variablesI testparm varlist : qui permet des tests de types testparmpop∗ ou testparm ind1− ind9, i.e. tester si ces variables sontconjointement égales à zéro (utiles pour des variablesdiscrètes).
I lincom exp : permet d’effectuer des testes sur descombinaisons linéaires des coeffi cients
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
test de Wald avec la commande testI On souhaite tester une hypothèse de type : H0 : βj = 0I Sous H0 on connait la distribution du ratio du coeffi cientestimé à son écartype (distribution t).
I regress imprime ce ratio dans la colonne t
Prob > F = 0.0000 F( 1, 501) = 188.67
( 1) rooms = 0
. test rooms
_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886 stratio .0524512 .0058971 8.89 0.000 .0640373 .0408651 rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338 ldist .1343401 .0431032 3.12 0.002 .2190255 .0496548 lnox .95354 .1167418 8.17 0.000 1.182904 .7241762
lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 84.5822709 505 .167489645 Root MSE = .265 Adj Rsquared = 0.5807
Residual 35.1834974 501 .070226542 Rsquared = 0.5840 Model 49.3987735 4 12.3496934 Prob > F = 0.0000
F( 4, 501) = 175.86Source SS df MS Number of obs = 506
. regress lprice lnox ldist rooms stratio
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
I Plus générallement on teste l’égalité d’un coeffi cient à unparamètre
Prob > F = 0.0001 F( 1, 501) = 16.59
( 1) rooms = .33
. test rooms=0.33
. quietly regress lprice lnox ldist rooms stratio
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
test de Wald avec combinaison linéaire sur les paramètresI On souhaite tester une hypothèse de type
H0 : βrooms + βdist + βstratio = 0
Prob > F = 0.0001 F( 1, 501) = 16.59
( 1) rooms = .33
. test rooms=0.33
. quietly regress lprice lnox ldist rooms stratio
I test permet de tester l’égalité de 2 coeffi cients ou que leurratio est égal à une certaine valeur
Prob > F = 0.0011 F( 1, 501) = 10.77
( 1) lnox 10*stratio = 0
. test lnox=10*stratio
Prob > F = 0.0574 F( 1, 501) = 3.63
( 1) ldist stratio = 0
. test ldist=stratio
. quietly regress lprice lnox ldist rooms stratio
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Regression contraintes
I On a montré que l’hypothèse βrooms + βdist + βstratio = 0 nepouvait pas être rejetée.
I On doit donc réestimer le modèle en imposant cettecontrainte.
I La commande constraint permet de définir la contrainte :
constraint [define] # [exp = exp|coeflist]
I Ensuite, on estime le modèle contraint à l’aide de cnsreg :
cnsreg depvar indepvars [if ] [in] [weight], constraints(numlist)
numlist fait référence au numéro de la contraintes spécifiédans constraint par #
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Regression contraintes
I On a montré que l’hypothèse βrooms + βdist + βstratio = 0 nepouvait pas être rejetée.
I On doit donc réestimer le modèle en imposant cettecontrainte.
I La commande constraint permet de définir la contrainte :
constraint [define] # [exp = exp|coeflist]
I Ensuite, on estime le modèle contraint à l’aide de cnsreg :
cnsreg depvar indepvars [if ] [in] [weight], constraints(numlist)
numlist fait référence au numéro de la contraintes spécifiédans constraint par #
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
_cons 11.48651 .1270377 90.42 0.000 11.23691 11.7361 stratio .0549922 .0056075 9.81 0.000 .0660092 .0439752 rooms .2430633 .01658 14.66 0.000 .2104886 .2756381 ldist .1880712 .0185284 10.15 0.000 .2244739 .1516684 lnox 1.083392 .0691935 15.66 0.000 1.219337 .9474478
lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
( 1) ldist + rooms + stratio = 0
Root MSE = 0.2652 Prob > F = 0.0000 F( 3, 502) = 233.42Constrained linear regression Number of obs = 506
. cnsreg lprice lnox ldist rooms stratio, constraint(1)
. constraint def 1 ldist+rooms+stratio=0
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Les testes d’hypothèse jointes
I Chacune des hypothèse doit être satisfaite simultanément(H0 : β2 = 0 et β3 = 0), ce qui est différent deH′0 : β2 + β3 = 0
Prob > F = 0.0000 F( 2, 501) = 58.95
( 2) ldist = 0( 1) lnox = 0
. test lnox ldist
. quietly regress lprice lnox ldist rooms stratio
Prob > F = 0.0028 F( 2, 501) = 5.94
( 2) ldist stratio = 0( 1) lnox 10*stratio = 0
. test (lnox=10*stratio) (ldist=stratio)
. quietly regress lprice lnox ldist rooms stratio
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Tester des restrictions non linéaires et des combinaisonsnon linéaires
I Tous les testes précédent reviennent à minimiser la somme descarrés des résidus en imposant des contraintes linéaires sur lesparamètres
I Mais les contraintes peuvent être non linéaires (tester l’égalitédu produit de deux paramètres à une valeur)
I tensnl permet de spécifier des hypothèses non linéaires. Pourcette commande on doit utiliser la syntaxe _b[varname] pourle coeffcients de la variable varname
I nlcom permet de tester des combinaisons non linéaires desparamètres (par interval de confiance ou estimationponctuelle).
I Ces testes sont sensibles à l’échelle de mesure des variables Xet y (pas vrai pour les testes linéaires).
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Prob > F = 0.2306 F(1, 501) = 1.44
(1) _b[lnox]*_b[stratio] = 0.06
. testnl _b[lnox]*_b[stratio]=0.06
. quietly regress lprice lnox ldist rooms stratio Ici on ne peut pasrejeter l'hypothèse H₀que lnox*stratio=0.06
I Tester des hypothèses non linéaires jointes :
Prob > F = 0.0062 F(2, 501) = 5.13
(2) _b[rooms]/_b[ldist] = 3*_b[lnox](1) _b[lnox]*_b[stratio] = 0.06
> (_b[rooms]/_b[ldist]=3*_b[lnox]). testnl (_b[lnox]*_b[stratio]=0.06) ///
. quietly reg lprice lnox ldist rooms stratio
On peut rejeterl’hypothèse H0 à 1%
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
Tester des modèles concurents (non-emboîtés)I Si les variables explicatives d’un modèle forment un sousensemble d’un autre (modèle emboités) on peut utiliser lesprocédures de testes classiques (test)
I Supposons qu’on souhaite évaluer les modèles suivants :
H0 : yi = xi β+ ε0i , i = 1, ..., n : Modèle 1
H1 : yi = zi β+ ε1i , i = 1, ..., n : Modèle 2
I On suppose que chaque vecteur de variable explicative, xi etzi contient des variables qui lui sont spécifiques.
I Un examen de la qualité de l’ajustement (R2 ou Root MSE)sous chaque hypothèse n’est pas satisfaisant et n’a pas dejustification statistique.
I Les économétres Davidson et MacKinon (1981) on proposéune solution.
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints
I Intuition : On génère les valeurs prédites de y , y1 et y2 souschaque hypothèse. On inclut y2 dans le modèle 1 (hyp. H0), siy2 significative on rejette H0. On introduit ensuite y1 dans lemodèle 2 (hyp. H1), si y1 significative on rejette H1. Quatresrésultat possibles :1. On préfère H0 à H12. On préfère H1 à H03. Les deux modèles sont rejetès4. Aucun des modèles n’est rejetés
lnox compris dans M1 mais pas M2 et crime,proptax compris dans M2 et non M1 (modèlesnon emboités).Ici on rejette H0 et H1 par rapport au modèleou tous les variables (lnox, crime, proptax)seraient incluses.
H1 : M1 pval 0.00000H0 : M2 N(0,1) 17.63186
H1 : M2 pval 0.00000H0 : M1 N(0,1) 20.07277
CoxPesaran test for nonnested models
H1 : M1 pval 0.00000H0 : M2 t(499) 7.19138
H1 : M2 pval 0.00000H0 : M1 t(500) 10.10728
J test for nonnested models
M2 : Y = a + Zg with Z = [crime proptax ldist rooms stratio]M1 : Y = a + Xb with X = [lnox ldist rooms stratio]
. nnest lprice lnox ldist rooms stratio (crime proptax ldist rooms stratio)
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
Résidus et valeurs préditesI Aprés l’ajutement d’un modèle avec regress on peut calculerles résidus de la régression et les valeurs prédites pourl’échantillon de la régression ou un autre échantillon. Unmodèle bien spécifié doit générer de bonnes prédictionsquelque soit l’échantillon de la population. Pour générer cesvaleurs, aprés regress on invoque la commande :
predict [type] newvar [if] [in], [, choice]
choice : quantité à calculer pour chaque observationI predict calcule par défaut les valeurs prédites :
. predict double lpriceeps, residual
(option xb assumed; fitted values). predict double lpricehat
. quietly reg lprice lnox ldist rooms stratio Pour restreindre le calcul des résiduset des prédictions à l’échantillon utilisépour l’estimation imposez la restrictionif e(sample)
I La qualité de l’ajustement peut être visualisé à l’aide d’ungraphique.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
Résidus et valeurs prédites8.
59
9.5
1010
.511
Pre
dict
ed lo
g m
edia
n ho
usin
g pr
ice
8.5 9 9.5 10 10.5 11Actual log median housing price
> */ xtitle("Actual log median housing price") aspectratio(1) legend(off)> */ ytitle("Predicted log median housing price")/*> */ (line lprice lprice if lprice<., clwidth(thin)),/*. twoway (scatter lpricehat lprice, msize(small) mcolor(black) msize(tiny))/*
. label var lpricehat "predicted log price"
. predict double lpricehat, xb
. quietly reg lprice lnox ldist rooms stratio
Le modèle surévalueles logements lesmoins chères et sousévalue les logementsles plus chères. Lemodèle n’a donc pasde bonnesprédictions pour cesvaleurs extrêmes
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
Calcul des intervals de prédictionsI Voir [R] regression postestimation pour l’ensemble descapacités de predict aprés regress.
I En plus de la prédictions ponctuelle on peut obtenir l’intervalde confiance des prédictions : "ensemble des valeurs probablesde yi étant donné xi à x%".
I Stata calcule deux types de prédiction :I predicted value : valeur espére de la variable dépendante pourdes valeurs données des variables explivatives.
I forcast (prévisions) : valeur de la variable dépendante pour unesemble donnée de variable explicatives.
Regle : variance prévision > variance prédiction
I Un interval de prédiction est une borne supérieur et inférieurqui contient la véritable valeur du paramètre de populationavec une certaine probabilité.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
Calcul des intervals de prédictionsI Les bornes de l’interval pour la prévision est :
y0 ± t1−α/2 ∗ VfVf est l’estimation de la variance des erreurs de prédictionsOn calcule cette interval de confiance avec l’option stdf depredict
I Les bornes de l’interval pour la prédiction est :
y0 ± t1−α/2 ∗ VpVf est l’estimation de la variance des erreurs de prédictionsLa variance de la valeur prédite augmente avec la distance à x .On calcule cette interval de confiance avec l’option stdp depredict
I On peut visualiser graphiquement la prédiction ponctuelle etson interval de confiance en générant les bornes de l’interval.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
I On invoque deux fois predict pour générer la prédiction (pardéfaut) et l’érreur type de la prédiction (option stdp)
(407 missing values generated)> dans la variables stpred*/. predict double stpred if e(sample), stdp /*genere l'erreur type pour l'échantillon ///
(407 missing values generated)(option xb assumed; fitted values)> de la régression dans la variable xb*/. predict double xb if e(sample) /*genere les valeurs prédites pour l'échantillon ///
. quietly reg lprice lnox if _n<100 /* on se retreint au 100 1ere observations*/
(Housing price data for Bostonarea communities). use tp_hprice2a, clear
I Pour calculer l’interval de confiance, il nous faut générert1−α/2 avec la fonction tval qui est l’inverse de la fonction dedensité de probabilité de student.
(407 missing values generated). gen double lowlim=xbtval*stpred
(407 missing values generated). gen double uplim=xb+tval*stpred
. scalar tval=invttail(e(df_r),0.975) /*t de student tel P(x<t)=0.975)*/
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
I Graph des résultats avec indication de la moyenne de lavariable explicative
> */ ytitle(Actual and predicted log price) legend(cols(3))> */(rline uplim lowlim lnox if e(sample), sort), /*graph des limites supérieurs et inférieurs> */ (connected xb lnox if e(sample), sort msize(small)) /*droite de regression x et y prédit> à la valeur moyenne de lnox ///> roite verticale. twoway (scatter lprice lnox if e(sample), sort ms(Oh) xline(`lnoxbar')) /*nuage de points avec d. **graph des résultats.
. label var lowlim "95% prediction interval"
. label var uplim "95% prediction interval"
. label var xb "Pred"
. local lnoxbar=r(mean) /*l'enregistrer dans une variable local lnoxbar*/
. summarize lnox if e(sample), meanonly /*créer en mémoire la moyenne de lnow*/
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites
9.5
1010
.511
Act
ual a
nd p
redi
cted
log
pric
e
1.4 1.5 1.6 1.7log(nox)
log(price) Pred 95% prediction interval
Introduction a STATA : un exemple d’étude
Calcul d’élasticité et des effets marginaux
9.5
1010
.511
Act
ual a
nd p
redi
cted
log
pric
e
1.4 1.5 1.6 1.7log(nox)
log(price) Pred 95% prediction interval