2006/2007 1 Plan du cours Plan du cours 1. Introduction 2. Statistique descriptive 3. Echantillonnage 4. Calcul des probabilités et variables aléatoires 5. Inférence statistique 6. Estimation 7. Tests d’hypothèses 8. Régression linéaire
2006/2007 1
Plan du coursPlan du cours
1. Introduction2. Statistique descriptive3. Echantillonnage4. Calcul des probabilités et variables
aléatoires5. Inférence statistique6. Estimation7. Tests d’hypothèses8. Régression linéaire
2006/2007 2
IntroductionIntroduction
• Objectifs– Expliquer : Mettre en relation une
variable dépendante et plusieurs variables explicatives.
– Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives.
• Modèle linéaire– Généralisation de la régression simple
(une seule variable explicative).
2006/2007 3
ModèleModèle
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un
échantillon de n observations :
1 1 2 2 p py x x x
1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x x
1,2, ,i n
2006/2007 4
Exemple 1 – MBAExemple 1 – MBA
2006/2007 5
Exemple 2 – La QuintaExemple 2 – La Quinta
2006/2007 6
Exemple 2 Exemple 2 (suite)(suite)
2006/2007 7
ModèleModèle
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un
échantillon de n observations :
1 1 2 2 p py x x x
1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x x
1,2, ,i n
2006/2007 8
Ecriture matricielleEcriture matricielle1 1 2 2
1, ,i i i p ip i
y x x x i n
y X
1 11 1
1
1 1
p
n n p
n n np
p n
p n
y x x
y X
y x x
Avec :
2006/2007 9
HypothèsesHypothèses
• H1:
• H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur .
• H3: Homoscédasticité :
0 1,2, ,i
E i n
2 , 0 , 1,2, ,i i j
Var Cov i j n
2006/2007 10
ExemplesExemples
1. MBA
2. La Quinta
1 2 3 41MBA GPA GMAT Work
0.47 0.06 0.01 0.09
MBA
GPA GMAT Work
2006/2007 11
ExemplesExemples
• Régression simple
• Régression polynomiale
1 2
1 2
2
1
py x
x x x
2 1
1 2 1
p
p py x x x
2006/2007 12
Variables indicatrices Variables indicatrices (0-1)(0-1)
1
2
3
4
note moyenne en 2ème candi
sexe 0 ,1
note moyenne en 1ère candi
ˆ1 si age 20, 0 sinon
ˆ1 si age 22, 0 sinon
y
x
x
x
x
€
1 1 2 2 3 3 4 4 5y x x x x
2006/2007 13
Estimation des Estimation des paramètresparamètres
• Principe des moindres carrés (MC) :
• Sous forme matricielle :
2
1 1 2 21
min n
i i i p ipbi
Q b y b x b x b x
2
Q b y Xb y Xb
y y Xb y b X Xb
1 2, , ,
pb b b b
2006/2007 14
Estimation des Estimation des paramètresparamètres
2 2 0dQ b
X y X X bdb
X X b X y
2
2
1
2 définie positive
ˆ
d Q bX X
db
X X X y
2006/2007 15
DéfinitionsDéfinitions
• Résidus
• Estimateur de 2
1 1 2 2
ˆ
ˆ ˆ ˆ
ˆ
i i i
i i i p ip
i i
r y x
y x x x
y y
2 2
1
1ˆ
n
ii
rn p
Valeur observée Valeur ajustée
2006/2007 16
• Comparaison de 2 modèles :
• Qualité du modèle M1 par rapport à M2 ?
Coefficient de Coefficient de déterminationdétermination
1 1 2 2
1
1:
2 :i i i p i
i i
M y x x
M y
2006/2007 17
• Ecart-type du terme d’erreur :
Coefficient de Coefficient de déterminationdétermination
22
1 1 11
2
1
222
2 11 1
1 ˆ ˆˆ1:
1
1 1ˆˆ2 :1 1
n
i i pi
n
ii
n n
i ii i
M y xn p
rn p
M y y yn n
2006/2007 18
• Mesure de qualité de M1 par rapport à M2 :
• Coefficient de détermination corrigé(« adjusted R-square »)
Coefficient de Coefficient de déterminationdétermination
2
21 21
22
2
1
1ˆ
1 11ˆ ( )
1
n
ii
n
ii
rn p
Ry y
n
2006/2007 19
• Interprétation :–
qualité M1 qualité M2
–
qualité M1 >> qualité M2
Coefficient de Coefficient de déterminationdétermination
2 2 2
1 2ˆ ˆ0R
2 2 2
1 2ˆ ˆ1R
2006/2007 20
• Autre mesure :
• Interprétation plus intuitive :
Coefficient de Coefficient de déterminationdétermination
2
2 1
2
1
1( )
n
ii
n
ii
rR
y y
2 2 2
1 1 1
ˆ ˆ ˆ( ) ( ) ( )n n n
i i i ii i i
y y y y y y
2
2 1
2
1
ˆ ˆ( ) ˆ
( )
n
iii
n
ii
i
y y Var yR
Var yy y
2006/2007 21
• Problème :– R2 augmente lorsque l’on ajoute une
variable, même non pertinente, dans le modèle.
• Tableau d’analyse de variance (ANOVA) :
Coefficient de Coefficient de déterminationdétermination
Source Somme des carrés
Degrés de liberté
Carrés moyens
Variables ex.
Résidus
Total
1p
n p
1n
2
1
n
ii
r 2
1
n
ii
r n p
2
1
( )n
ii
y y
2
1
( ) 1n
ii
y y n
2
1
ˆ ˆ( )n
ii
y y
2
1
ˆ ˆ( ) 1n
ii
y y p
2006/2007 22
PrévisionPrévision
• Prévision de la variable endogène y pour un jeu de valeurs x0 :
• Modèle linéaire :
• Erreur de prévision :
0 01 02 0, , ,
px x x x
0 1 01 2 02 0 0ˆ ˆ ˆ ˆˆ
p py x x x x
2
0 0 0 0avec 0,y x N
0 0y y
2006/2007 23
Erreur de prévisionErreur de prévision
• Moyenne :
• Variance :
0 0 0 0 0
0 0
ˆˆ
0 0
E y y E x x
x x
0 0 0 0
0 0
2
0 0
12 2
0 0
ˆˆ
ˆ
ˆ
Var y y Var x
Var x Var
x Cov x
x X X x
2006/2007 24
Intervalle de prévisionIntervalle de prévision
• A 95%, approximativement :
• Pour la moyenne de y0, à 95% :
12
0 0 0ˆ ˆ2 1x x X X x
12
0 0 0ˆ ˆ2x x X X x
0 0 0 0E y E x x
2006/2007 25
Exemple – La QuintaExemple – La Quinta
Number 3815Nearest 0,9Office space 476Enrollment 24,5Income 35Distance 11,2
Prévision 37,1
Intervalle de prévision25,448,8
Intervalle pour la moyenne33,041,2
Pas rentable !
2006/2007 26
Tests et intervalles de Tests et intervalles de confianceconfiance
• Hypothèse supplémentaire :
• Pour un paramètre :
iid
2
1, , 0,
nN
1
ˆ
ˆj j
j n p
jj
T tX X
2006/2007 27
Tests et intervalles de Tests et intervalles de confianceconfiance
• Test de nullité de j :
• Intervalle de confiance pour j :
0 1: 0 : 0
j jH H
0 ;1 2 si ou si P-value
j n pRH T t
1
;1 2ˆ ˆ
j n p jjt X X
2006/2007 28
Tests et intervalles de Tests et intervalles de confianceconfiance
• P-value :
2006/2007 29
Tests et intervalles de Tests et intervalles de confianceconfiance
• Test de l’ensemble du modèle :
• Test en F (ANOVA) :
0 1 2 1
1
: 0
: au moins un 0p
j
H
H
2
2
1
1
R pF
R n p
0 1; ;1 si ou si P-value
p n pRH F F
1p
x
2006/2007 30
ModélisationModélisation
• Vérification des hypothèses de base– Analyse des résidus– Analyse des valeurs extrêmes
• Sélection des variables explicatives– Comparaison de modèles– Méthodes de sélection
2006/2007 31
Analyse des résidusAnalyse des résidus
• Idée : les résidus devraient ne présenter aucune structure particulière.
• Graphiques :– Normalité des résidus,– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables
explicatives,– Résidus en fonction du temps (séries
chronologiques).
2006/2007 32
Analyse des résidusAnalyse des résidus
• Normalité du terme d’erreur ?– Représentation graphique de la
distribution des résidus :
2006/2007 33
Analyse des résidusAnalyse des résidus• Linéarité de la relation entre y et les
variables explicatives ?– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables explicatives.
2006/2007 34
Analyse des résidusAnalyse des résidus
• Homoscédasticité ?– Résidus en fonction des valeurs prédites.
– Remèdes :• Changement de variable (log y, …),• Moindres carrés pondérés…
Pas Ok : hétéroscédasticité Ok : homoscédasticité
2006/2007 35
Analyse des résidusAnalyse des résidus
• Corrélation entre erreurs ?– Pour une série chronologique,
autocorrélation d’ordre 1 :
– Statistique de Durbin-Watson :
1 1,
t tCorr
10
10
1ˆ2 1DW
2006/2007 36
Analyse des résidusAnalyse des résidus
• En cas d’autocorrélation :– Introduire yt-1 comme variable explicative
(autorégression),– Prendre les différences :
– Modéliser le terme d’erreur :
1t t t t ty y y x
1t t t
2,
iid
t tN O
2006/2007 37
Valeurs extrêmesValeurs extrêmes
• Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite…– Erreur d’encodage ?– Observation à ne pas inclure dans
l’échantillon ?– Cas extrême mais normal ?
• Identification :– Graphiquement,– A l’aide des résidus.
2006/2007 38
Valeurs extrêmes vs Valeurs extrêmes vs influentesinfluentes
• Valeurs influentes : ont une grande influence sur l’estimation des paramètres.
• Exemples :
outlier Avec et sans valeur influente
2006/2007 39
Exemples d’AscombeExemples d’Ascombe
4
5
6
7
8
9
10
11yA
2 4 6 8 10 12 14 16xA
Y = 3 + ,5 * X; R^2 = ,667
Graphe de régression
2
3
4
5
6
7
8
9
10
yB
2 4 6 8 10 12 14 16xB
Y = 3,001 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yC
2 4 6 8 10 12 14 16xC
Y = 3,002 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yD
6 8 10 12 14 16 18 20xD
Y = 3,002 + ,5 * X; R^2 = ,667
Graphe de régression
2006/2007 40
Sélection des variablesSélection des variables
• Variables explicatives doivent être pertinentes.
• Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.
2006/2007 41
Exemple 3 – MaisonsExemple 3 – Maisons
• Un agent immobilier veut essayer de prédire le prix de vente d’une maison.
• Variables explicatives potentielles :– Surface habitable,– Nombre de chambres,– Superficie du terrain.
• Données historiques sur 100 maisons vendues.
2006/2007 42
Sélection de variablesSélection de variables
• Variables explicatives pertinentes :– Tests individuels sur les paramètres .– Attention à la multicolinéarité.
• Principe de parcimonie :– Réduire le nombre de variables
explicatives le plus possible (interprétation du modèle).
• Méthodes de sélection.
2006/2007 43
Méthodes de sélectionMéthodes de sélection• « Backward elimination »
– Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0.
• « Forward selection »– Introduire progressivement les variables
explicatives les plus corrélées (corrélation partielle significative) avec y.
• « Stepwise selection »– Méthode « pas à pas » : combine « forward » et
« backward ».
• Exemple : La Quinta