. . Corr´ elation - R´ egression lin´ eaire Micha¨ el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]
.
......Correlation - Regression lineaire
Michael Genin
Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins
Plan
...1 Introduction a l’etude de deux variables quantitatives
...2 Coefficient de correlation
...3 Regression lineaire simple
...4 Regression lineaire multiple
...5 References
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 1 / 123
Introduction a l’etude de deux variables quantitatives
Introduction
Correlation - Regression lineaire simple
Croisement de deux variables quantitatives
age et frequence cardiaqueConsommation et poids d’un vehiculeCapacite d’epargne et revenus...
Etude du lien entre ces deux variables
Representation graphiqueIndicateur statistiqueModele de prediction
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 3 / 123
Introduction a l’etude de deux variables quantitatives
Correlation - Regression lineaire simple
Notations
On considere n individus sur lesquels on mesure X et Y deux variablesquantitatives.
Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )qui represente les valeurs prises par X et Y pour l’individu i .
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 4 / 123
Introduction a l’etude de deux variables quantitatives
Correlation - Regression lineaire simple
Representation graphique
Graphique pour representer deux variables quantitatives ⇒ nuage de points
1ere etape de toute analyse de liaison : apprecier la forme de la relation entre lesdeux variables
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
−60 −40 −20 0 20 40 60
−50
050
X
Y
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−60 −40 −20 0 20 40 60
−30
00−
2500
−20
00−
1500
−10
00−
500
0
X
Y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−40 −20 0 20 40
−3
−2
−1
01
2
X
Y
liaison lineaire liaison polynomiale pas de liaison
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 5 / 123
Coefficient de correlation Rappel sur la covariance
Rappel sur la covariance
Covariance
Mesure de la variation simultanee de deux variables aleatoires. La covariancepermet d’evaluer l’importance et le sens de cette variation.
.
...... σXY = cov[X ,Y ] = E [XY ]− E [X ]E [Y ]
si les variables sont liees, la covariance est importante.
une covariance peut etre positive, negative ou nulle.
Si les variables sont independantes → σXY = 0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 8 / 123
Coefficient de correlation Rappel sur la covariance
Rappel sur la covariance
Estimation de la covariance
.
......sxy =
1
n
∑(xi − x)(yi − y) =
1
n
∑xiyi − x y
Remarque : SXY est un estimateur biaise de σXY .
→ On lui applique la correction nn−1SXY
Remarques :
cov(X ,Y ) = cov(Y ,X )
cov(aX ,Y ) = acov(X ,Y ) = acov(Y ,X )
cov(X ,X ) = Var(X )
Var(X + Y ) = Var(X ) + Var(Y ) + 2cov(X ,Y )
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 9 / 123
Coefficient de correlation Definition
Coefficient de correlation lineaire
Coefficient de correlation theorique
.
......ρXY =
σXY
σXσY
ρXY =σXY
σXσY=
E [XY ]− E [X ]E [Y ]
σXσY∈ [−1; 1]
Si X et Y sont independantes alors E [XY ] = E [X ]E [Y ]︸ ︷︷ ︸covariance nulle
donc ρ = 0
Si ρ = 0 et X et Y sont distribuees normalement alors X et Y sont independantes.
Si |ρ| = 1 → il existe une relation lineaire parfaite entre X et Y du type
Y = β1X + β0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 11 / 123
Coefficient de correlation Definition
Coefficient de correlation lineaire
Coefficient de correlation de Bravais-Pearson
ρ est estime par
.
......
r =sxysxsy
=
∑ni=1(xi − x)(yi − y)√∑n
i=1(xi − x)2∑n
i=1(yi − y)2
r =
∑ni=1 xiyi − nx y√
(∑n
i=1 x2i − nx2)(
∑ni=1 y
2i − ny2)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 12 / 123
Coefficient de correlation Definition
Interpretation du coefficient de correlation lineaire
ρ mesure la relation lineaire entre deux variables quantitatives X et Y , ρ esttoujours compris entre -1 et 1.
si ρ = 0, les variations des variables X et Y sont independantes (si X et Ydistribuees normalement).
si ρ > 0, les valeurs prises par Y ont tendance a croıtre quand les valeurs deX augmentent.
si ρ < 0, les valeurs prises par Y ont tendance a decroıtre quand les valeursde X augmentent.
La liaison lineaire est d’autant plus forte que |ρ| est proche de 1.
Le coefficient de correlation mesure de facon symetrique la relation entre les deuxvariables, sans notion de controle sur l’une des deux variables :
ρXY = ρYX
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 13 / 123
Coefficient de correlation Definition
Remarques
r est tres sensible aux valeurs extremes.
Interet representation graphiqueStatistiques descriptives univariees
On peut avoir une liaison meme si r = 0 ;r mesure seulement le caractere lineaire d’une liaison.
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−60 −40 −20 0 20 40 60
−30
00−
2500
−20
00−
1500
−10
00−
500
0
X
Y
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
−60 −40 −20 0 20 40 60
−50
050
X
Y
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
−60 −40 −20 0 20 40 60
−50
050
X
Y
r = 0 r > 0 r < 0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 14 / 123
Coefficient de correlation Definition
Exemple : Frequence cardiaque maximale (FCM)
On souhaite etudier une relation eventuelle entre l’age d’un individu, notee X etsa FCM, variable notee Y
Individu i Age xi FCM yi
1 40 1872 36 1953 51 1804 49 1905 47 1856 51 1837 32 1958 55 1859 55 18910 23 20111 49 18912 52 18513 35 195
Questions :...1 Calculer x et y...2 Calculer sxy , s
2x et s2y
...3 Calculer r
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 15 / 123
Coefficient de correlation Definition
Exemple : Frequence cardiaque maximale (FCM)
25 30 35 40 45 50 55
180
185
190
195
200
FCM en fonction de l'âge
Age
FCM
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 16 / 123
Coefficient de correlation Definition
Exemple : Frequence cardiaque maximale (FCM)
x = 44.23, y = 189.15
sxy =1
n
n∑i=1
(xi − x)(yi − y) =1
n
n∑i=1
xiyi − x y
sxy =1
13∗ 108157− 44.23× 189.15
sxy = −46.65
On applique la correction n/(n − 1), sxy = −50.54
s2x = 100.69, s2y = 35.14
r =−50.54√
100.69× 35.14= −0.85
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 17 / 123
Coefficient de correlation Test du coefficient de correlation
Test de la significativite de ρ
Principe du test : Test de la nullite du coefficient de correlation.
Si ρ = 0 alors il n’y a pas de liaison lineaire entre X et Y
Si ρ = 0 alors il existe une relation lineaire entre X et Y
Condition d’application : X ∼ N (µ1, σ1) et Y ∼ N (µ2, σ2)
En pratique : Verification de X et Y ”a peu pres normales” (symetrique) car testrobuste (n grand)
Hypotheses du test {H0 : ρ = 0
H1 : ρ = 0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 19 / 123
Coefficient de correlation Test du coefficient de correlation
Test de la significativite de ρ
Statistique de test
Sous H0,.
......T =
R√n − 2√
1− R2∼ Tn−2 ddl
Region critique
W =]−∞;−tn−2 ddl,α/2] ∪ [tn−2 ddl,α/2; +∞[
Decision
Si t ∈ W alors on rejette H0 au risque de premiere espece α. Il existe une relationlineaire entre X et Y.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 20 / 123
Coefficient de correlation Test du coefficient de correlation
Exemple
Exemple : Frequence cardiaque maximale (FCM)
t =r√n − 2√1− r2
=−0.85
√13− 2√
1− (−0.85)2= −5.35
Region critique W : ]−∞;−2.201] ∪ [2.201;+∞[
t ∈ W donc on rejette H0 au risque de premiere espece α = 5%. Il existe uneliaison lineaire statistiquement significative entre X et Y
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 21 / 123
Coefficient de correlation Test du coefficient de correlation
Remarques
La loi de R est aussi tabulee et permet de calculer des seuils de significativitepour une taille echantillon et un risque α donne
Exemple α = 0.05 et n = 30, une liaison est significative si |r | > 0.36.
Le test est robuste mais si les conditions d’application ne sont pas clairementverifiees, on utilisera un test non parametrique
→ Test sur le coefficient de correlation de Spearman
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 22 / 123
Coefficient de correlation Coefficient de correlation de Spearman
Coefficient de correlation de Spearman
Etude de la relation entre les rangs des variables X et Y
Permet la detection de relations monotones (croissantes ou decroissantes)
La relation n’est pas forcement lineaire (exponentiel, puissance,)
Adapte aux formes curvilignes
Utile lorsque la distribution des variables est asymetrique
Soient X = (x1, . . . , xn),Y = (y1, . . . , yn)et R = (r1, . . . , rn), S = (s1, . . . , sn) leurs rangs respectifs.
Le coefficient de correlation de Spearman calcule entre X et Y est egal aucoefficient de correlation de Pearson calcule entre R et S .
En l’absence d’ex-aequo :
.
......rs = 1−
6−∑n
i=1 [ri − si )]2
n3 − n
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 24 / 123
Coefficient de correlation Coefficient de correlation de Spearman
Test du coefficient de correlation de Spearman
Test non parametrique : ne necessite pas d’hypotheses a priori sur les distributionsde X et YSouvent utilise lorsque n < 30
Hypotheses du test {H0 : ρ = 0
H1 : ρ = 0
Petits effectifs (4 ≤ n ≤ 10) : Les valeurs limites de rs sont tabulees de maniereexacte en fonction du risque α.
Grands effectifs (n > 10) sous H0 :
T =RS
√n − 1√
1− R2s
∼ Tn−2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 25 / 123
Coefficient de correlation Correlations partielles
Correlations partielles
En pratique, il arrive frequemment que la liaison observee entre 2 variables soit enfait due aux variations d’une troisieme variable appelee facteur de confusion.
Epargne
Revenu
Age
Moyenne d’une V.A. continueX ∼ L(µ,σ2)
On peut definir, connaissant les 3 correlations, une correlation partielle (ouconditionnelle) entre 2 variables, conditionnellement a la 3eme :
.
......
rxy/z =rxy − rxz ryz√
1− r2xz +√1− r2yz
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 27 / 123
Coefficient de correlation Conclusions
Conclusions
Le coefficient de correlation permet de mesurer le lien lineaire entre deuxvariables quantitatives X et Y .
On peut egalement cherche a modeliser le lien entre X et Y afin de realiserdes predictions :
Exprimer Y en fonction de XEx : Predire la FCM d’un patient en ne connaissant que son age
Le coefficient de correlation n’est pas suffisant
Recours a la regression lineaire :
Y = β1X + β0 + ϵ
Ou Y est la variable a expliquer et X la variable explicative
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 29 / 123
Regression lineaire simple
Cadre d’etude
Y est un caractere non controle (caractere explique)
X est un caractere controle (caractere explicatif)
Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i
xi est la valeur fixee pour l’individu i
Objectif : Exprimer le lien entre Y et X .
Y = f (X ) + ϵ
Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire
Regression lineaire simple...1 Modele de regression...2 Droite de regression au sens des moindres carres
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 31 / 123
Regression lineaire simple Modele de regression lineaire simple
Modele de regression lineaire
∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que
.
...... Yi = β1xi + β0 + ϵi
Avec
ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)
β0, β1 : coefficients du modele, constantes (valeurs fixes dans la population).
Hypotheses du modele
E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)
L’erreur est independante de X → Cov(xi , ϵi ) = 0
Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .
ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 33 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Droite de regression au sens des moindres carres
Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.
Trouver b0 et b1 qui minimisent l’erreur.
X
Y
y = b1x+ b0
ei
Figure : Erreur importante
X
Y
y = b1x+ b0
ei
Figure : Erreur minimisee
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 35 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Droite de regression au sens des moindres carres
Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.
Trouver b0 et b1 qui minimisent un critere d’ajustement.
⇒ Methode des moindres carres ordinaires.
......
S(β0, β1) =n∑
i=1
(ei )2 =
n∑i=1
(yi − (β1xi + β0))2
→ minS(β0, β1)
Derivees partielles → Systemes aux equations normales
.
......Solutions : b1 =
sxys2x
et b0 = y − b1x
.. Details
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 36 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Droite de regression au sens des moindres carres
La droite de regression au sens des moindres carres a pour expression :
.
...... yi = b1xi + b0
C’est une estimation du modele de regression par la methode des moindres carres.
Les erreurs observees sur l’echantillon sont appeles residus.
.
...... ei = (yi − yi ) = yi − b1xi − b0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 37 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Remarques
b1 peut etre estime via le coefficient de correlation de Pearson :
b1 = ryxsysx
b0 et b1 sont des estimations de β0 et β1.
b0 et b1 sont des realisations des v.a.r. B0 et B1
→ Estimateurs des MCO de β0 et β1
B0 = Y − B1x
B1 =SxYs2x
β0 et β1 peuvent etre egalement estimes par la methode de maximum devraisemblance. On montre que les estimateurs de maximum de vraisemblancede β0 et β1 sont egaux aux estimateurs des MCO.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 38 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Proprietes des estimateurs - Moments (1)
.
...... E[B0] = β0 E[B1] = β1
→ B0 et B1 sont des estimateurs sans biais.
......
V[B0] = σ2B0
= σ2
(1
n+
x2∑ni=1(xi − x)2
)V[B1] = σ2
B1=
σ2∑ni=1(xi − x)2
=σ2
n× 1
s2x
B0 et B1 sont des estimateurs convergents
V[B0] −→n→∞
0
V[B1] −→n→∞
0
B0 et B1 sont de variance minimale (Theoreme de Gauss-Markov)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 39 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Proprietes des estimateurs - Moments (2)
Les variances σ2B0
et σ2B1
font intervenir la variance de l’erreur σ2
Cette variance est inconnue
Nous devons l’estimer. Naturellement, on peut utiliser les ecarts entre Yi etYi :
S2 =1
n
n∑i=1
(Yi − Yi
)2
Or, cet estimateur est biaise (E[S2] = (n − 2)σ2).
On montre que
.
......
S2n−2 =
1
n − 2
n∑i=1
(Yi − Yi
)2
,
est un estimateur non biaise de σ2.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 40 / 123
Regression lineaire simple Methode des moindres carres ordinaires
Proprietes des estimateurs - Distributions d’echantillonnage
De par les hypotheses du modele et l’estimation de σ2, on montre que
.
......
B0 − β0
σB0
∼ Tn−2 d.d.l.
B1 − β1
σB1
∼ Tn−2 d.d.l.
avec
σ2B0
=S2n−2
(1
n+
x2∑ni=1(xi − x)2
)σ2B1
=S2n−2∑n
i=1(xi − x)2
Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 41 / 123
Regression lineaire simple Qualite de l’ajustement
Qualite de l’ajustement
Equation d’analyse de la variance
yi − y = (yi − y) + (yi − yi )
(yi − y)2 = (yi − y)2 + (yi − yi )2
n∑i=1
(yi − y)2 =n∑
i=1
(yi − y)2 +n∑
i=1
(yi − yi )2
.
......
n∑i=1
(yi − y)2︸ ︷︷ ︸Somme des carres
totaleSCT
=n∑
i=1
(yi − y)2︸ ︷︷ ︸Somme des carres
expliqueeSCE
+n∑
i=1
(yi − yi )2
︸ ︷︷ ︸Somme des carres
residuelleSCR
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 43 / 123
Regression lineaire simple Qualite de l’ajustement
Qualite de l’ajustement
Evaluation de la qualite d’ajustement du modele
⇒ Coefficient de determination.
......R2 =
SCE
SCT∈ [0, 1]
Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire.
Remarque importante : le carre du coefficient de correlation lineaire est egal aucoefficient de determination :
r2 = R2
Consequence : deux tests statistiques equivalents pour evaluer la liaison lineaireentre X et Y .
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 44 / 123
Regression lineaire simple Validite du modele
Etude de la validite du modele
Etude des residus : Verification des hypotheses du modele faites sur les erreurs
Verifier la normalite des residus observes
Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)
Les residus ne dependent pas de X
Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)
→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.
Observations aberrantes / influentes
Valeur aberrante de x
Observation i mal reconstituee par la regression → (ei eleve)
Observation i presentant un poids exagere dans la regression (prediction /coefficients)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 46 / 123
Regression lineaire simple Validite du modele
Etude des residus
Verification de la normalite des residus
histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.
Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)
Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 47 / 123
Regression lineaire simple Validite du modele
Etude des residus
Verification de l’homoscedasticite des residus
Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative (et donc pas non plus des valeurspredites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :
Introduction Correlation Regression lineaire simple Conclusion
Etude des residus
Verification de l’homoscedasticite des residus
Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
−40 −20 0 20 40
−4−2
02
4
Residus non correles
X
Residus
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
−40 −20 0 20 40
−2−1
01
2
Residus correles
X
Residus
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 48 / 123
Regression lineaire simple Validite du modele
Etude des residus
On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−2 et d2 = −2sn−2
on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−2). Methode plus robuste
si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 49 / 123
Regression lineaire simple Validite du modele
Etude des residus
●
●
●
●
● ●
●
●
●
●
●
●
●
25 30 35 40 45 50 55
−6
−4
−2
02
46
graphe des residus
age
resi
dus
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 50 / 123
Regression lineaire simple Validite du modele
Etude des residus
Verification de l’independance entre les residus
Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1
H1 : il y a de correlation entre ϵi et ϵi−1
.
......d =
∑ni=2(ei − ei−1)
2∑ni=1 e
2i
La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.
0 4 4-DU DU DL 2 4-DL
AC Positive Rejet H0
AC Négative Rejet H0
Pas d’AC Non Rejet de
H0
? ?
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 51 / 123
Regression lineaire simple Validite du modele
Observations aberrantes / influentes
Valeur aberrante de x
●
●
●
●
●●
●
●
●
●
●
●
●
0 20 40 60
160
180
200
220
Age
FC
M
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
0 20 40 60
160
180
200
220
AgeF
CM
Effet important sur l’estimation de la droite de regression
Mauvais ajustement aux donnees
Solution : descriptif univarie → boxplot
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 52 / 123
Regression lineaire simple Validite du modele
Observations aberrantes / influentes
Residus studentises internes
Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :
.
......ti =
ei
sn−2
√1− hi
avec hi =1n + (xi−x)∑n
j=1(xi−x)2 (levier de l’observation i). On montre que
Ti ∼ T(n−2).
D’ou :RC : |ti | > t
1−α/2n−2
Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 53 / 123
Regression lineaire simple Validite du modele
Observations aberrantes / influentes
Residus studentises externes
Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :
.
......t∗i =
yi − yi (−i)
sn−2(−i)√1− hi (−i)
On montre queT ∗i ∼ T(n−3).
D’ou :RC : |t∗i | > t
1−α/2n−3
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 54 / 123
Regression lineaire simple Validite du modele
Observations aberrantes / influentes
Distance de Cook
Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par
.
......Di =
∑nj=1(yi − yi (−i))2
2s2n−2
Regle de decision (cas regression simple) :
RC : Di > 1
Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 55 / 123
Regression lineaire simple Validite du modele
Conclusion sur l’etude de la validite du modele
Etape tres importante !!
...1 Descriptif univarie
...2 Estimation des coefficients du modele
...3 Verification des hypotheses sur les erreurs
...4 Detection d’observations influentes
Si OUI : Correction ou suppressionNouvelle estimation des coefficients
Apres ces etapes : Inference statistique
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 56 / 123
Regression lineaire simple Inference statistique
Evaluation globale de la regression
Tableau d’analyse de variance - Test de significativite globale
R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par X traduit-elle une relation qui existe vraiment dans lapopulation ?
Table : Tableau ANOVA
Source de variation Somme des carres DDL Carres moyens
Expliquee SCE =∑
i (yi − y)2 1 CME = SCE1
Residuelle SCR =∑
i (yi − yi )2 n − 2 CMR = SCR
n−2
Totale SCT =∑
i (yi − y)2 n − 1 -
Degres de liberte :
SCT necessite l’estimation y → n − 1 ddl
SCR necessite l’estimation de β0 et β1 pour yi → n − 2 ddl
SCE par deduction : (n − 1)− (n − 2) = 1 ddl
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 58 / 123
Regression lineaire simple Inference statistique
Evaluation globale de la regression
Tableau d’analyse de variance - Test de significativite globale
Le test F permet d’evaluer la significativite globale de la regression.{H0 : La variabilite expliquee est identique a la variabilite residuelle
H1 : La variabilite expliquee est superieure a la variabilite residuelle
Sous H0
.
......F =
CME
CMR∼ F1,n−2 ddl
Interpretation : {H0 : ”Le modele est non explicatif”
H1 : ”Le modele est explicatif”
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 59 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β1
Test de significativite de β1
Idee : tester la nullite de β1.{H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y”
H1 : β1 = 0 ”X a un pouvoir explicatif sur Y”
Nous savons que B1−β1
σB1∼ Tn−2, par consequent sous H0
.
......
B1
σB1
∼ Tn−2
Intervalle de confiance de β1
.
......
IC1−α
β1=
b1 ± t(1−α/2;n−2)sn−2√∑n
i=1(xi − x)2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 60 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β1
Equivalence avec le test de significativite globale
Uniquement dans le cas de la regression lineaire simple, observons que
F =SCE/1
SCR/(n − 2)=
∑ni=1(Yi − Y )2
S2n−2
=
∑ni=1(B1xi + B0 − Y )2
S2n−2
F =
∑ni=1(B1xi + (Y − B1x)− Y )2
s2n−2
=B21
∑ni=1(xi − x)2
s2n−2
=B21
S2n−2∑n
i=1(xi−x)2
F =B21
σ2B1
=
(B1
σB1
)2
.
Note : Equivalence entre la loi de Student et la loi de Fisher.(T(n−2)
)2 ≡ F(1,n−2)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 61 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β1
Equivalence avec le test de significativite de ρ
Observons que
F =SCE/1
SCR/(n − 2)=
(n − 2)SCE
SCR=
(n − 2)SCE
SCT − SCR=
(n − 2)R2
1− R2
T =r√n − 2√1− r2
or R2 = r2 doncF = (T )2
Et comme F =(
B1
σB1
)2
, on conclue que
F = (T )2 =
(B1
σB1
)2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 62 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β1
Dans le cas d’une regression lineaire simple de type :
Y = β1X + β0 + ϵ
.
......
Tester la significativite globale du modele
≡
Tester la significativite de β1
≡
Tester la significativite de ρ
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 63 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β1
Lien entre test et intervalle de confiance
IC1−α
θ = {θ0/H0 = {θ = θ0} est accepte au niveau de confiance 1− α}
Consequences : pour tester H0 : β1 = 0 au risque α, on peut simplement verifiersi 0 appartient ou non a l’intervalle de confiance :
Si 0 ∈ IC alors on conserve H0
Si 0 /∈ IC alors on rejette H0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 64 / 123
Regression lineaire simple Inference statistique
Evaluation des coefficients - β0
Test de significativite de β0
Idee : tester la nullite de β0.{H0 : β0 = 0 ”L’ordonnee a l’origine n’est pas significative”
H1 : β0 = 0 ”L’ordonnee a l’origine est significative”
Nous savons que B0−β0
σB0∼ Tn−2, par consequent sous H0
.
......
B0
σB0
∼ Tn−2
Intervalle de confiance de β0
.
......
IC1−α
β0=
[b0 ± t(1−α/2;n−2)sn−2
√1
n+
x2∑ni=1(xi − x)2
]
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 65 / 123
Regression lineaire simple Prediction
Intervalle de prediction d’une observation
Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation xn+1 n’appartenant pas a l’echantillon :
yn+1 = b1xn+1 + b0
Or yn+1 n’est qu’une estimation de la ”vraie droite de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.
......
IC1−α
yn+1=
[yn+1 ± t(1−α/2;n−2)sn−2
√1 +
1
n+
(xn+1 − x)2∑ni=1(xi − x)2
]
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 67 / 123
Regression lineaire simple Prediction
Intervalle de prediction d’une observation
.
......
IC1−α
yn+1=
[yn+1 ± t(1−α/2;n−2)sn−2
√1 +
1
n+
(xn+1 − x)2∑ni=1(xi − x)2
]
Quelques remarques
La taille du rayon de l’intervalle de confiance sera d’autant plus faible que
s2n−2 est faible → la regression est de bonne qualiten est elevexn+1 est proche de x ↔ (xn+1 − x)2 est faible∑n
i=1(xi − x)2 est eleve → les xi sont bien disperses
Attention : utiliser des valeurs de x qui sont dans le cadre d’etude(relativement proches de x pour obtenir de bonnes predictions.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 68 / 123
Regression lineaire simple Mise en evidence d’un probleme
Mise en evidence d’un probleme
Vente de CD et cas de grippe H1N1 en 2009
Region Nb cas de grippe H1N1 Nb ventes CD M.J.
Region 1 . .Region 2 . .
. . .
. . .Region n . .
Il existe une liaison lineaire significative . . .
Test de ρ : p < 1.10−4, Test de β1 : p < 1.10−4
. . . mais pas de relation de cause a effet !
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 70 / 123
Regression lineaire simple Mise en evidence d’un probleme
Mise en evidence d’un probleme
Existence de Facteurs de confusion (ici : la periode de temps)Exemple : vente de CD de MJ les plus fortes en automne alors
Pour la meme periode :
{↗ ventes
↗ cas de grippes
Grippe
Temps
Ventes
Moyenne d’une V.A. continueX ! L(µ,!2)
Figure : Diagramme de correlation
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 71 / 123
Regression lineaire simple Mise en evidence d’un probleme
Mise en evidence d’un probleme
Necessite de pouvoir ajuster sur des facteurs de confusion
Dans de nombreuses situations, plusieurs facteurs peuvent expliquer uncaractere
Y = f (X1,X2, . . . ,Xp)
Regression lineaire multiple
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 72 / 123
Regression lineaire multiple
Cadre d’etude
Y est un caractere non controle (caractere explique)
X1,X2, . . .Xp sont des caracteres controles (caracteres explicatifs)
Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i
xij est la valeur fixee pour l’individu i et la variable j , j ∈ {1, 2, . . . , p}
Objectif : Exprimer le lien entre Y et les Xj .
Y = f (X1,X2, . . . ,Xp) + ϵ
Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire
Regression lineaire multiple...1 Modele de regression...2 Hyperplan de regression au sens des moindres carres
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 74 / 123
Regression lineaire multiple Modele de regression lineaire multiple
Modele de regression lineaire multiple
∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que.
......
Yi = β0 + β1xi1 + β2xi2 + . . . βpxip + ϵi = β0 +
p∑j=1
βjxij + ϵi
Avec
ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)
β0, β1, . . . , βp : coefficients du modele, constantes (valeurs fixes dans lapopulation).
Hypotheses du modele
E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)
L’erreur est independantes des Xj → COV(xij , ϵi ) = 0
ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele
Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 76 / 123
Regression lineaire multiple Modele de regression lineaire multiple
Ecriture du modeleSur un echantillon de n observations i.i.d. :
Y1 = β0 + β1x11 + β2x12 + . . .+ βpx1p + ϵ1
Y2 = β0 + β1x21 + β2x22 + . . .+ βpx2p + ϵ2...
Yn = β0 + β1xn1 + β2xn2 + . . .+ βpxnp + ϵn
Ecriture matricielle
Y =
Y1
...Yn
β =
β0
...βp
X =
1 x11 x12 · · · x1p...
......
. . ....
1 xn1 xn2 · · · xnp
ϵ =
ϵ1...ϵn
Y = X. β + ϵn × 1 n × (p + 1) (p + 1)× 1 n × 1
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 77 / 123
Regression lineaire multiple Methode des moindres carres ordinaires
Hyperplan de regression au sens des moindres carres
Objectif : estimer β0, β1, . . . , βp grace a leur estimateurs B0,B1,B2, . . . ,Bp etleur realisations b0, b1, b2, . . . , bp sur un echantillon d’observations i.i.d. de taillen.
β =
β0
...βp
B =
B0
...Bp
b =
b0...bp
Trouver b qui minimisent l’erreur :
.
......
S(β0, . . . , βp) =n∑
i=1
(ϵi )2 =
n∑i=1
yi − β0 −p∑
j=1
βjxij
2
= ||ϵ||2
.
...... Solution : b =(XTX
)−1XTY
Remarque : B est appele estimateur des moindres carres de β. .. Details
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 79 / 123
Regression lineaire multiple Methode des moindres carres ordinaires
Hyperplan de regression au sens des moindres carres
L’ hyperplan de regression au sens des moindres carres a pour expression :
.
......
yi = b0 +
p∑j=1
bjxij
C’est une estimation du modele de regression multiple par la methode desmoindres carres.
Les erreurs observees sur l’echantillon sont appeles residus.
.
......
ei = (yi − yi ) = yi − b0 −p∑
j=1
bjxij
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 80 / 123
Regression lineaire multiple Methode des moindres carres ordinaires
Proprietes des estimateurs - Moments (1)
.
...... E[B] = β estimateur sans biais
.
...... V[B] = σ2(XTX
)−1
.. Details
V[B](p+1)×(p+1) est appelee matrice de variances - covariances des coefficients :σ2B0
COV (B0,B1) . . . COV (B0,Bp)· σ2
B1. . . COV (B1,Bp)
... · . . . ·· · . . . σ2
Bp
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 81 / 123
Regression lineaire multiple Methode des moindres carres ordinaires
Proprietes des estimateurs - Moments (2)
La matrice de variances - covariances V[B] fait intervenir la variance de l’erreurσ2.
Cette variance est inconnue
Elle est estimee par S2n−p−1 au moyen du tableau d’ANOVA.
On montre que
.
......S2n−p−1 =
SCR
n − p − 1=
∑ni=1 (Ei )
2
n − p − 1
est un estimateur non biaise de σ2.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 82 / 123
Regression lineaire multiple Methode des moindres carres ordinaires
Proprietes des estimateurs - Distributions d’echantillonnage
De par les hypotheses du modele et l’estimation de σ2, on montre que∀j ∈ {0, 1, . . . , p}.
......
Bj − βj
σBj
∼ Tn−p−1 d.d.l.
avec σBj tire de la matrice de variances-covariances.
Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 83 / 123
Regression lineaire multiple Qualite de l’ajustement
Qualite de l’ajustement
Equation d’analyse de la variance
yi − y = (yi − y) + (yi − yi )
(yi − y)2 = (yi − y)2 + (yi − yi )2
n∑i=1
(yi − y)2 =n∑
i=1
(yi − y)2 +n∑
i=1
(yi − yi )2
.
......
n∑i=1
(yi − y)2︸ ︷︷ ︸Somme des carres
totaleSCT
=n∑
i=1
(yi − y)2︸ ︷︷ ︸Somme des carres
expliqueeSCE
+n∑
i=1
(yi − yi )2
︸ ︷︷ ︸Somme des carres
residuelleSCR
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 85 / 123
Regression lineaire multiple Qualite de l’ajustement
Qualite de l’ajustement
Evaluation de la qualite d’ajustement du modele
⇒ Coefficient de determination.
......R2 =
SCE
SCT∈ [0, 1]
Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire multiple.
Remarque importante : R2 est fonction du nombre variables explicatives dans lemodele (meme non pertinentes)
p ↗ → R2 ↗
Aussi : tests de significativite des coefficients, selection de variables (modeleparcimonieux)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 86 / 123
Regression lineaire multiple Validite du modele
Etude de la validite du modele
Etude des residus : Verification des hypotheses du modele faites sur les erreurs
Verifier la normalite des residus observes
Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)
Les residus ne dependent pas des Xj
Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)
→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.
Observations aberrantes / influentes
Valeur aberrante d’une observation (diagnostic univarie, multivarie)
Observation i mal reconstituee par la regression → (ei eleve)
Observation i presentant un poids exagere dans la regression (prediction /coefficients)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 88 / 123
Regression lineaire multiple Validite du modele
Etude des residus
Verification de la normalite des residus
histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.
Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)
Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 89 / 123
Regression lineaire multiple Validite du modele
Etude des residus
Verification de l’homoscedasticite des residus
Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative xj (et donc pas non plus desvaleurs predites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :
Introduction Correlation Regression lineaire simple Conclusion
Etude des residus
Verification de l’homoscedasticite des residus
Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
−40 −20 0 20 40
−4−2
02
4
Residus non correles
X
Residus
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
−40 −20 0 20 40
−2−1
01
2
Residus correles
X
Residus
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 90 / 123
Regression lineaire multiple Validite du modele
Etude des residus
On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1
on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−p−1). Methode plus robuste
si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 91 / 123
Regression lineaire multiple Validite du modele
Etude des residus
●
●
●
●
● ●
●
●
●
●
●
●
●
25 30 35 40 45 50 55
−6
−4
−2
02
46
graphe des residus
age
resi
dus
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 92 / 123
Regression lineaire multiple Validite du modele
Etude des residus
Verification de l’independance entre les residus
Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1
H1 : il y a une correlation entre ϵi et ϵi−1
.
......d =
∑ni=2(ei − ei−1)
2∑ni=1 e
2i
La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.
0 4 4-DU DU DL 2 4-DL
AC Positive Rejet H0
AC Négative Rejet H0
Pas d’AC Non Rejet de
H0
? ?
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 93 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Valeur aberrante de xj (Univarie) → Boxplot
Effet important sur l’estimation de l’hyperplan de regression
Mauvais ajustement aux donnees
Solution : descriptif univarie → boxplot
●
1020
3040
50
Probleme : Ne prend pas en compte les interactions possibles entre les Xj .
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 94 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Valeur aberrante (Multivarie) → Levier
Principe : Pour une observation i , mesure la distance avec le centre de gravite dunuage defini par les Xj , j ∈ {1, , . . . , p}Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :
H = X(XTX
)−1XT
En pratique
.
...... hii = hi = xi(XTX
)−1xTi
avec xi la ieme ligne de la matrice X.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 95 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Valeur aberrante (Multivarie) → Levier
Regle de decision
.
......R.C . : hi > 2× p + 1
n
Permet de detecter des observations aberrantes / influentes d’un point de vuemultivarie
Effet nefaste sur l’estimation des βj par les MCO
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 96 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Residus studentises internes
Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :
.
......ti =
ei
sn−p−1
√1− hi
avec hi levier de l’observation i . On montre que
Ti ∼ T(n−p−1).
D’ou :RC : |ti | > t
1−α/2n−p−1
Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 97 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Residus studentises externes
Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :
.
......t∗i =
yi − yi (−i)
sn−p−1(−i)√1− hi (−i)
On montre queT ∗i ∼ T(n−p−1).
D’ou :RC : |t∗i | > t
1−α/2n−p−1
Remarque :
t∗i =
√n − p − 2
n − p − 1− t2i
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 98 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
Distance de Cook
Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par
.
......Di =
∑nj=1(yj − yj(−i))2
(p + 1)s2n−p−1
Regle de decisionRC : Di > 1
RC : Di >4
n − p − 1(Ajustement sur le nombre de variables)
Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 99 / 123
Regression lineaire multiple Validite du modele
Observations aberrantes / influentes
DFBETAS
Idee : Si la distance de COOK a identifie une observation ayant une influence surl’estimation des coefficients, on peut aller plus loin pour determiner quelcoefficient est affecte.Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, leDFBETAS est defini par :
.
......
DFBETASi,j =bj − bj(−i)
sn−p−1(−i)√(XTX)
−1j
Regle de decision
RC : |DFBETASi,j | >2√n
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 100 / 123
Regression lineaire multiple Inference statistique
Evaluation globale de la regression
Tableau d’analyse de variance - Test de significativite globale
R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par les Xj traduit-elle une relation qui existe vraiment dans lapopulation ?
Table : Tableau ANOVA
Source de variation Somme des carres DDL Carres moyens
Expliquee SCE =∑
i (yi − y)2 p CME = CMEp
Residuelle SCR =∑
i (yi − yi )2 n − p − 1 CMR = CMR
n−p−1
Totale SCT =∑
i (yi − y)2 n − 1 -
Degres de liberte :
SCT necessite l’estimation y → n − 1 ddl
SCR necessite l’estimation des βj pour yi → n − (p + 1) ddl
SCE par deduction : (n − 1)− (n − p − 1) = 1 ddl
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 102 / 123
Regression lineaire multiple Inference statistique
Evaluation globale de la regression
Tableau d’analyse de variance - Test de significativite globale
Le test F permet d’evaluer la significativite globale de la regression.{H0 : β1 = β2 = . . . = βp = 0
H1 : ∃j/βj = 0
Sous H0
.
......F =
CME
CMR∼ Fp,n−p−1 ddl
Interpretation : {H0 : ”Le modele est non explicatif”
H1 : ”Le modele est explicatif”
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 103 / 123
Regression lineaire multiple Inference statistique
Evaluation des coefficients - βj
Test de significativite de βj
Idee : tester la nullite de βj .{H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y”
H1 : βj = 0 ”Xj a un pouvoir explicatif sur Y”
Nous savons queBj−βj
σBj∼ Tn−p−1, par consequent :
Sous H0
.
......
Bj
σBj
∼ Tn−p−2
Intervalle de confiance de βj
.
...... IC1−α
βj=
[bj ± t(1−α/2;n−p−1)σBj
]Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 104 / 123
Regression lineaire multiple Prediction
Intervalle de prediction d’une observation
Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation Xn+1 n’appartenant pas a l’echantillon :
Xn+1 = (xn+1,1, xn+1,2, . . . , xn+1,p)
yn+1 = b0 +
p∑j=1
bjxn+1,j
yn+1 = Xn+1.b
Or yn+1 n’est qu’une estimation du ”vrai hyperplan de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.
......IC
1−α
yn+1=
[yn+1 ± t(1−αr ;n−p−1)sn−p−1
√1 + Xn+1 (XTX)
−1XT
n+1
]
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 106 / 123
Regression lineaire multiple Detection et traitement de la colinearite
Definition et consequences de la colinearite
Definition
Une variable explicative Xj est colineaire a une autre variable Xk lorsquerXj ,Xk
> 0.8.Une variable explicative Xj est multicolineaire aux autres variables lorsque
Xj = β′
0 + β′
1X1 + . . .+ β′
j−1Xj−1 + β′
j+1Xj+1 + . . .+ β′
pXp,
elle peut s’ecrire comme une combinaison lineaire des autres variables explicatives.
Consequences
Valeurs/Signes des coefficients contraires a l’intuition
Variances estimees des coefficients trop importantes
Coefficients non significatifs (inference statistique)
Instabilite du modele
Risque de passer a cote d’une variable importante (redondance)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 108 / 123
Regression lineaire multiple Detection et traitement de la colinearite
Detection de la colinearite
Variance Inflation Factor - VIF
Principe : Pour chaque Xj , realisation de la regression de Xj avec les autresvariables explicatives. On note R2
j le coefficient de determination associe a cetteregression.Pour une variable Xj , le VIF est defini par
.
......VIFj =
1
1− R2j
La valeur du VIF sera d’autant plus forte que Xj est une combinaison lineaire desautres variables.
Regle de decisionVIFj ≥ 4
Rq : Determination des variables incriminees dans la combinaison lineaire →Cercle des correlations (ACP)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 109 / 123
Regression lineaire multiple Detection et traitement de la colinearite
Detection de la colinearite
Variance Inflation Factor - VIF
Remarque :
σ2Bj
=σ2
nVIFj
Donc :
Plus la valeur de VIFj est importante plus σ2Bj
sera importante
Estimation instable
Probleme de significativite du coefficient
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 110 / 123
Regression lineaire multiple Detection et traitement de la colinearite
Traitement de la colinearite
Approche ”metier”
Mise en evidence de plusieurs variables explicatives colineaires (VIF + ACP)
Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pourl’analyse
Approche statistique
Methode de selection de variables (Forward, Backward, Stepwise)
Mais si toutes les variables sont pertinentes ?
Regression sur les composantes principales de l’ACP
Regression ridge
Regression PLS
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 111 / 123
Regression lineaire multiple Selection de variables
Motivations - Critere de selection de variables
Motivations
Selection d’un sous-ensemble de Xj pertinentes et non redondantes quiexpliquent au mieux Y
Principe du rasoir d’Occam → Modeles parcimonieux
Modele plus simple, lisible, robuste, stableNombre restreint de variables explicatives (collecte des donnees)
Traitement de la multicolinearite
Critere de selection de variables
Retrait ou ajout d’une variable Xj dans le modele en fonction de sa valeur du Fj
partiel de Fisher :
.
......Fj =
(Bj
σBJ
)2
∼ F1,n−p−1
.. Details
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 113 / 123
Regression lineaire multiple Selection de variables
Motivations - Critere de selection de variables
Autres criteres de selection de variables
R2 ajuste
R2 = 1− SCR/(n − p − 1)
SCT/(n − 1)
AIC (a minimiser)
AIC = n ln
(SCR
n
)+ 2(p + 1)
BIC de Schwartz (a maximiser)
BIC = n ln
(SCR
n
)+ ln(n)(p + 1)
etc. . .
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 114 / 123
Regression lineaire multiple Selection de variables
Methodes de selection de variables
Methode ascendante (Forward)
Principe : On part du modele sans Xj . On ajoute successivement les Xj qui sontsignificatifs au sens du F partiel de Fisher et on s’arrete lorsqu’on ne peut plusajouter de Xj (NS dans le modele)
TANT QUE Condition d’arret = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗
j tel que F ∗j = max{F1, . . . ,Fp}
SI P(F ∗j > f ∗j
)< αsle ALORS
Ajout de Xj au modele
SINON Arret
Fin TANT QUE
Remarques :
Plus αsle est eleve plus le nombre de variables dans le modele sera important
En pratique : αsle = 0.2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 115 / 123
Regression lineaire multiple Selection de variables
Methodes de selection de variables
Methode ascendante (Forward) - Exemple
Soient Y et X1,X2,X3 sur un echantillon de n = 50 observations
Etape Modele ddl F (p-value)
1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8)X2 → 150 (2, 22.10−16)X3 → 12 (1, 11.10−3)
2 Y = β0 + β2X2 1 ;50-2-1 X1 → 9 (4, 31.10−3)X3 → 2 (0.1639)
3 Y = β0 + β2X2 + β1X1 1 ;50-3-1 X3 → 0.7 (0.4071)
X3 n’est plus significative dans le modele. Modele final :
Y = β0 + β2X2 + β1X1
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 116 / 123
Regression lineaire multiple Selection de variables
Methodes de selection de variables
Methode descendante (Backward)
Principe : On part du modele sature (toutes les Xj). On retire successivement lesXj qui sont non significatifves au sens du F partiel de Fisher et on s’arretelorsqu’on toutes les Xj sont significatives.
TANT QUE Condition d’arret = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗
j tel que F ∗j = min{F1, . . . ,Fp}
SI P(F ∗j > f ∗j
)> αsls ALORS
Retrait de Xj du modele
SINON Arret
Fin TANT QUE
Remarques :
Plus αsls est faible plus le nombre de variables dans le modele sera faible
En pratique : αsls = 0.2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 117 / 123
Regression lineaire multiple Selection de variables
Methodes de selection de variables
Methode Stepwise
Principe : ”Mix” entre les methodes ascendante et descendante. On debut par lemodele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher(αsle). Dans les etapes suivantes, on verifie que l’ajout d’une variable de conduitpas a la non significativite (αsls) des autres deja presentes dans le modele (phasedescendante).Le processus se termine quand aucune Xj n’est significative lors de la phaseascendante.
Avantage : Contrairement la methode ascendante, une Xj introduite dans lemodele peut etre remise en cause lors des etapes suivantes.
En pratique :αsle = αsls = 0.2
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 118 / 123
Regression lineaire multiple Selection de variables
Methodes de selection de variables
Methode Stepwise
On part du modele : Y = β0
TANT QUE Condition d’arret = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗
j tel que F ∗j = max{F1, . . . ,Fp}
SI P(F ∗j > f ∗j
)< αsle ALORS
Ajout de Xj du modelePOUR Chaque Xj inclue dans le modele FAIRE
Calcul de Fj pour chaque Xj
Choix de F ∗j tel que F ∗
j = min{F1, . . . ,Fp}SI P
(F ∗j > f ∗j
)> αsls ALORS
Retrait de Xj du modele
FIN POUR
SINON Arret
Fin TANT QUE
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 119 / 123
Regression lineaire multiple Conclusions
Processus de modelisation...1 Estimation des coefficients (MCO)...2 Mesure de la qualite d’ajustement (R2)...3 Etude la validite du modele
Si hypotheses sur les erreurs non verifiees → STOPSi observations aberrantes/influentes →
Correction/SuppressionRetour a l’Etape 1
...4 Inference statistique
Test de significativite globaleTests de significativite des coefficients
...5 Evaluation de la multicolinearite
...6 Selection de variables (Modele parcimonieux)
Modele restreintReiteration des Etapes 1, 2, 3, 4
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 121 / 123
References
References
Livres
Probabilites Analyses des donnees et Statistique, G. Saporta, TECHNIP
Dodge, Y, Rousson, V., Analyse de regression appliquee, Dunod, 2eme edition,2004.
Supports en ligne
Econometrie - Regression lineaire simple et multiple, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
Pratique de la regression lineaire multiple - Diagnostic et Selection devariables, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
Regression lineaire, A. Guyaderhttp:
//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 123 / 123
Annexe 1 - Systeme aux equations normales
min S(β0, β1) = minn∑
i=1
(yi − (β1xi + β0))2
= minn∑
i=1
[y2i − 2xiyiβ1 − 2yiβ0 + β2
1x2i + 2β0β1xi + β2
0
]S(β0, β1) est strictement convexe donc elle admet un minimum au point unique(b0, b1) determine en annulant les derivees partielles de S :
∂S(β0, β1)
∂β0= 0 ⇒
n∑i=1
−2yi + 2b1xi + 2b0 = 0 (1)
∂S(β0, β1)
∂β1= 0 ⇒
n∑i=1
−2xiyi + 2b1x2i + 2b0xi = 0 (2)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 1 / 11
Annexe 1 - Systeme aux equations normales
De (1) on deduit que
b0 =
∑ni=1 yi − b1
∑ni=1 xi
n= y − b1x (3)
De (2) on deduit que
b1
n∑i=1
x2i + b0
n∑i=1
xi =n∑
i=1
xiyi (4)
En utilisant (3) nous obtenons
b1
n∑i=1
x2i + (y − b1x)n∑
i=1
xi =n∑
i=1
xiyi (5)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 2 / 11
Annexe 1 - Systeme aux equations normales
En divisant par n les deux termes :
b11
n
n∑i=1
x2i + (y − b1x)x =1
n
n∑i=1
xiyi (6)
b1
[1
n
n∑i=1
x2i − x2
]=
1
n
n∑i=1
xiyi − x y (7)
b1 =sxys2x
(8)
.. Retour
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 3 / 11
Annexe 2 - RLM : MCO
Observons que ||ϵ||2 = ||Y − Xβ||2. Aussi
||ϵ||2 = (Y − Xβ)T (Y − Xβ) = YTY − YTXβ − βTXTY + βTXTXβ.
Or comme la transposee d’un scalaire est egale a lui-meme :(YTXβ
)T= βTXTY,
nous avons donc
S(β0, . . . , βp) = ||ϵ||2 = YTY − 2βTXTY + βTXTXβ
Minimiser la fonction S revient a annuler les derivees differentielles par rapport aβ. L’annulation de la derivation matricielle nous donne
∂S
∂β= −2
(XTY
)+ 2
(XTX
)b = 0
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 4 / 11
Annexe 2 - RLM : MCO
Aussi (XTX
)b =
(XTY
).
Or rg(X) = p et p ≤ n donc(XTX
)est inversible. Aussi
b =(XTX
)−1 (XTY
).. Retour
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 5 / 11
Annexe 3 - RLM : moments des estimateurs
Esperance
E[B] = E[(XTX
)−1XTY
]=
(XTX
)−1XTE[Y]
E[B] =(XTX
)−1XTE[X.β + ϵ] = β
Variance
V[B] = V[(XTX
)−1XTY
]= X
(XTX
)−1 V[Y](XTX
)−1XT
V[B] = X(XTX
)−1 V[ϵ](XTX
)−1XT = σ2
(XTX
)−1
.. Retour
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 6 / 11
Annexe 4 - F partiel de Fisher
L’egalite
F =
(Bj
σBJ
)2
∼ F1,n−p−1
se base sur un cas particulier du test de nullite d’un bloc de q coefficients.{H0 : Y = β0 + β1X1 + . . .+ βjXj + βj+q+1Xj+q+1 + . . .+ βpXp + ϵ
H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans les q variables (modele restreint)
H1 : Modele complet
Posons
R2(0) : Coefficient de determination du modele restreint (H0)
R2(1) : Coefficient de determination du modele complet (H1)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 7 / 11
Annexe 4 - F partiel de Fisher
Notons F la statistique de test associee. On montre que sous H0,
F =
(R2(1) − R2
(0)
)/q(
1− R2(1)
)/(n − p − 1)
∼ Fq,n−p−1
Autre interpretation : si l’accroissement(R2(1) − R2
(0)
)>
q
n − p − 1fq,n−p−1
alors la place des q variables dans le modele est justifiee.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 8 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
On veut tester la nullite d’un coefficient βj{H0 : Y = β0 + β1X1 + . . .+ βj−1Xj−1 + βj+1Xj+1 + . . .+ βpXp + ϵ
H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans Xj (modele restreint)
H1 : Modele complet
Posons
R2(0) : Coefficient de determination du modele restreint (H0)
R2(1) : Coefficient de determination du modele complet (H1)
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 9 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
Notons F la statistique de test associee. On montre que sous H0,
F =
(R2(1) − R2
(0)
)/1(
1− R2(1)
)/(n − p − 1)
∼ F1,n−p−1
Or
T =Bj
σBJ
∼ Tn−p−1
Donc
F = T 2 =
(Bj
σBJ
)2
Remarque : test de la significativite du coefficient et son apport au R2.
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 10 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
Autre interpretation : si l’accroissement(R2(1) − R2
(0)
)>
1
n − p − 1f1,n−p−1
alors la place de Xj dans le modele est justifiee.
Note : Tests de type III sous SAS.
.. Retour
Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 11 / 11