Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

.

......Correlation - Regression lineaire

Michael Genin

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Plan

...1 Introduction a l’etude de deux variables quantitatives

...2 Coefficient de correlation

...3 Regression lineaire simple

...4 Regression lineaire multiple

...5 References

Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 1 / 123

Introduction a l’etude de deux variables quantitatives

Introduction

Correlation - Regression lineaire simple

Croisement de deux variables quantitatives

age et frequence cardiaqueConsommation et poids d’un vehiculeCapacite d’epargne et revenus...

Etude du lien entre ces deux variables

Representation graphiqueIndicateur statistiqueModele de prediction




Notations

On considere n individus sur lesquels on mesure X et Y deux variablesquantitatives.

Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )qui represente les valeurs prises par X et Y pour l’individu i .




Representation graphique

Graphique pour representer deux variables quantitatives ⇒ nuage de points

1ere etape de toute analyse de liaison : apprecier la forme de la relation entre lesdeux variables

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●●

●

●

● ●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

−60 −40 −20 0 20 40 60

−50

050

X

Y

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−60 −40 −20 0 20 40 60

−30

00−

2500

−20

00−

1500

−10

00−

500

0

X

Y

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−40 −20 0 20 40

−3

−2

−1

01

2

X

Y

liaison lineaire liaison polynomiale pas de liaison


Coefficient de correlation Rappel sur la covariance

Rappel sur la covariance

Covariance

Mesure de la variation simultanee de deux variables aleatoires. La covariancepermet d’evaluer l’importance et le sens de cette variation.

.

...... σXY = cov[X ,Y ] = E [XY ]− E [X ]E [Y ]

si les variables sont liees, la covariance est importante.

une covariance peut etre positive, negative ou nulle.

Si les variables sont independantes → σXY = 0


Coefficient de correlation Rappel sur la covariance

Rappel sur la covariance

Estimation de la covariance

.

......sxy =

1

n

∑(xi − x)(yi − y) =

1

n

∑xiyi − x y

Remarque : SXY est un estimateur biaise de σXY .

→ On lui applique la correction nn−1SXY

Remarques :

cov(X ,Y ) = cov(Y ,X )

cov(aX ,Y ) = acov(X ,Y ) = acov(Y ,X )

cov(X ,X ) = Var(X )

Var(X + Y ) = Var(X ) + Var(Y ) + 2cov(X ,Y )


Coefficient de correlation Definition

Coefficient de correlation lineaire

Coefficient de correlation theorique

.

......ρXY =

σXY

σXσY

ρXY =σXY

σXσY=

E [XY ]− E [X ]E [Y ]

σXσY∈ [−1; 1]

Si X et Y sont independantes alors E [XY ] = E [X ]E [Y ]︸︷︷︸covariance nulle

donc ρ = 0

Si ρ = 0 et X et Y sont distribuees normalement alors X et Y sont independantes.

Si |ρ| = 1 → il existe une relation lineaire parfaite entre X et Y du type

Y = β1X + β0



Coefficient de correlation lineaire

Coefficient de correlation de Bravais-Pearson

ρ est estime par

.

......

r =sxysxsy

=

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑n

i=1(yi − y)2

r =

∑ni=1 xiyi − nx y√

(∑n

i=1 x2i − nx2)(

∑ni=1 y

2i − ny2)



Interpretation du coefficient de correlation lineaire

ρ mesure la relation lineaire entre deux variables quantitatives X et Y , ρ esttoujours compris entre -1 et 1.

si ρ = 0, les variations des variables X et Y sont independantes (si X et Ydistribuees normalement).

si ρ > 0, les valeurs prises par Y ont tendance a croıtre quand les valeurs deX augmentent.

si ρ < 0, les valeurs prises par Y ont tendance a decroıtre quand les valeursde X augmentent.

La liaison lineaire est d’autant plus forte que |ρ| est proche de 1.

Le coefficient de correlation mesure de facon symetrique la relation entre les deuxvariables, sans notion de controle sur l’une des deux variables :

ρXY = ρYX



Remarques

r est tres sensible aux valeurs extremes.

Interet representation graphiqueStatistiques descriptives univariees

On peut avoir une liaison meme si r = 0 ;r mesure seulement le caractere lineaire d’une liaison.

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−60 −40 −20 0 20 40 60

−30

00−

2500

−20

00−

1500

−10

00−

500

0

X

Y

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●●

●

●

● ●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

−60 −40 −20 0 20 40 60

−50

050

X

Y

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

● ●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

−60 −40 −20 0 20 40 60

−50

050

X

Y

r = 0 r > 0 r < 0



Exemple : Frequence cardiaque maximale (FCM)

On souhaite etudier une relation eventuelle entre l’age d’un individu, notee X etsa FCM, variable notee Y

Individu i Age xi FCM yi

1 40 1872 36 1953 51 1804 49 1905 47 1856 51 1837 32 1958 55 1859 55 18910 23 20111 49 18912 52 18513 35 195

Questions :...1 Calculer x et y...2 Calculer sxy , s

2x et s2y

...3 Calculer r




25 30 35 40 45 50 55

180

185

190

195

200

FCM en fonction de l'âge

Age

FCM




x = 44.23, y = 189.15

sxy =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

xiyi − x y

sxy =1

13∗ 108157− 44.23× 189.15

sxy = −46.65

On applique la correction n/(n − 1), sxy = −50.54

s2x = 100.69, s2y = 35.14

r =−50.54√

100.69× 35.14= −0.85


Coefficient de correlation Test du coefficient de correlation

Test de la significativite de ρ

Principe du test : Test de la nullite du coefficient de correlation.

Si ρ = 0 alors il n’y a pas de liaison lineaire entre X et Y

Si ρ = 0 alors il existe une relation lineaire entre X et Y

Condition d’application : X ∼ N (µ1, σ1) et Y ∼ N (µ2, σ2)

En pratique : Verification de X et Y ”a peu pres normales” (symetrique) car testrobuste (n grand)

Hypotheses du test {H0 : ρ = 0

H1 : ρ = 0



Test de la significativite de ρ

Statistique de test

Sous H0,.

......T =

R√n − 2√

1− R2∼ Tn−2 ddl

Region critique

W =]−∞;−tn−2 ddl,α/2] ∪ [tn−2 ddl,α/2; +∞[

Decision

Si t ∈ W alors on rejette H0 au risque de premiere espece α. Il existe une relationlineaire entre X et Y.



Exemple


t =r√n − 2√1− r2

=−0.85

√13− 2√

1− (−0.85)2= −5.35

Region critique W : ]−∞;−2.201] ∪ [2.201;+∞[

t ∈ W donc on rejette H0 au risque de premiere espece α = 5%. Il existe uneliaison lineaire statistiquement significative entre X et Y



Remarques

La loi de R est aussi tabulee et permet de calculer des seuils de significativitepour une taille echantillon et un risque α donne

Exemple α = 0.05 et n = 30, une liaison est significative si |r | > 0.36.

Le test est robuste mais si les conditions d’application ne sont pas clairementverifiees, on utilisera un test non parametrique

→ Test sur le coefficient de correlation de Spearman


Coefficient de correlation Coefficient de correlation de Spearman

Coefficient de correlation de Spearman

Etude de la relation entre les rangs des variables X et Y

Permet la detection de relations monotones (croissantes ou decroissantes)

La relation n’est pas forcement lineaire (exponentiel, puissance,)

Adapte aux formes curvilignes

Utile lorsque la distribution des variables est asymetrique

Soient X = (x1, . . . , xn),Y = (y1, . . . , yn)et R = (r1, . . . , rn), S = (s1, . . . , sn) leurs rangs respectifs.

Le coefficient de correlation de Spearman calcule entre X et Y est egal aucoefficient de correlation de Pearson calcule entre R et S .

En l’absence d’ex-aequo :

.

......rs = 1−

6−∑n

i=1 [ri − si )]2

n3 − n


Coefficient de correlation Coefficient de correlation de Spearman

Test du coefficient de correlation de Spearman

Test non parametrique : ne necessite pas d’hypotheses a priori sur les distributionsde X et YSouvent utilise lorsque n < 30

Hypotheses du test {H0 : ρ = 0

H1 : ρ = 0

Petits effectifs (4 ≤ n ≤ 10) : Les valeurs limites de rs sont tabulees de maniereexacte en fonction du risque α.

Grands effectifs (n > 10) sous H0 :

T =RS

√n − 1√

1− R2s

∼ Tn−2


Coefficient de correlation Correlations partielles

Correlations partielles

En pratique, il arrive frequemment que la liaison observee entre 2 variables soit enfait due aux variations d’une troisieme variable appelee facteur de confusion.

Epargne

Revenu

Age

Moyenne d’une V.A. continueX ∼ L(µ,σ2)

On peut definir, connaissant les 3 correlations, une correlation partielle (ouconditionnelle) entre 2 variables, conditionnellement a la 3eme :

.

......

rxy/z =rxy − rxz ryz√

1− r2xz +√1− r2yz


Coefficient de correlation Conclusions

Conclusions

Le coefficient de correlation permet de mesurer le lien lineaire entre deuxvariables quantitatives X et Y .

On peut egalement cherche a modeliser le lien entre X et Y afin de realiserdes predictions :

Exprimer Y en fonction de XEx : Predire la FCM d’un patient en ne connaissant que son age

Le coefficient de correlation n’est pas suffisant

Recours a la regression lineaire :

Y = β1X + β0 + ϵ

Ou Y est la variable a expliquer et X la variable explicative


Regression lineaire simple

Cadre d’etude

Y est un caractere non controle (caractere explique)

X est un caractere controle (caractere explicatif)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xi est la valeur fixee pour l’individu i

Objectif : Exprimer le lien entre Y et X .

Y = f (X ) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire simple...1 Modele de regression...2 Droite de regression au sens des moindres carres


Regression lineaire simple Modele de regression lineaire simple

Modele de regression lineaire

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que

.

...... Yi = β1xi + β0 + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1 : coefficients du modele, constantes (valeurs fixes dans la population).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independante de X → Cov(xi , ϵi ) = 0

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele


Regression lineaire simple Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent l’erreur.

X

Y

y = b1x+ b0

ei

Figure : Erreur importante

X

Y

y = b1x+ b0

ei

Figure : Erreur minimisee




Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent un critere d’ajustement.

⇒ Methode des moindres carres ordinaires.

......

S(β0, β1) =n∑

i=1

(ei )2 =

n∑i=1

(yi − (β1xi + β0))2

→ minS(β0, β1)

Derivees partielles → Systemes aux equations normales

.

......Solutions : b1 =

sxys2x

et b0 = y − b1x

.. Details




La droite de regression au sens des moindres carres a pour expression :

.

...... yi = b1xi + b0

C’est une estimation du modele de regression par la methode des moindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

...... ei = (yi − yi ) = yi − b1xi − b0



Remarques

b1 peut etre estime via le coefficient de correlation de Pearson :

b1 = ryxsysx

b0 et b1 sont des estimations de β0 et β1.

b0 et b1 sont des realisations des v.a.r. B0 et B1

→ Estimateurs des MCO de β0 et β1

B0 = Y − B1x

B1 =SxYs2x

β0 et β1 peuvent etre egalement estimes par la methode de maximum devraisemblance. On montre que les estimateurs de maximum de vraisemblancede β0 et β1 sont egaux aux estimateurs des MCO.



Proprietes des estimateurs - Moments (1)

.

...... E[B0] = β0 E[B1] = β1

→ B0 et B1 sont des estimateurs sans biais.

......

V[B0] = σ2B0

= σ2

(1

n+

x2∑ni=1(xi − x)2

)V[B1] = σ2

B1=

σ2∑ni=1(xi − x)2

=σ2

n× 1

s2x

B0 et B1 sont des estimateurs convergents

V[B0] −→n→∞

0

V[B1] −→n→∞

0

B0 et B1 sont de variance minimale (Theoreme de Gauss-Markov)




Les variances σ2B0

et σ2B1

font intervenir la variance de l’erreur σ2

Cette variance est inconnue

Nous devons l’estimer. Naturellement, on peut utiliser les ecarts entre Yi etYi :

S2 =1

n

n∑i=1

(Yi − Yi

)2

Or, cet estimateur est biaise (E[S2] = (n − 2)σ2).

On montre que

.

......

S2n−2 =

1

n − 2

n∑i=1

(Yi − Yi

)2

,

est un estimateur non biaise de σ2.



Proprietes des estimateurs - Distributions d’echantillonnage

De par les hypotheses du modele et l’estimation de σ2, on montre que

.

......

B0 − β0

σB0

∼ Tn−2 d.d.l.

B1 − β1

σB1

∼ Tn−2 d.d.l.

avec

σ2B0

=S2n−2

(1

n+

x2∑ni=1(xi − x)2

)σ2B1

=S2n−2∑n

i=1(xi − x)2

Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).


Regression lineaire simple Qualite de l’ajustement

Qualite de l’ajustement

Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1

(yi − y)2︸︷︷︸Somme des carres

totaleSCT

=n∑

i=1


expliqueeSCE

+n∑

i=1

(yi − yi )2

︸︷︷︸Somme des carres

residuelleSCR


Regression lineaire simple Qualite de l’ajustement


Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire.

Remarque importante : le carre du coefficient de correlation lineaire est egal aucoefficient de determination :

r2 = R2

Consequence : deux tests statistiques equivalents pour evaluer la liaison lineaireentre X et Y .


Regression lineaire simple Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas de X

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.

Observations aberrantes / influentes

Valeur aberrante de x

Observation i mal reconstituee par la regression → (ei eleve)

Observation i presentant un poids exagere dans la regression (prediction /coefficients)



Etude des residus

Verification de la normalite des residus

histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.

Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)

Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees



Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative (et donc pas non plus des valeurspredites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :

Introduction Correlation Regression lineaire simple Conclusion

Etude des residus


Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

−40 −20 0 20 40

−4−2

02

4

Residus non correles

X

Residus

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

−40 −20 0 20 40

−2−1

01

2

Residus correles

X

Residus



Etude des residus

On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−2 et d2 = −2sn−2

on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.

on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−2). Methode plus robuste

si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.



Etude des residus

●

●

●

●

● ●

●

●

●

●

●

●

●

25 30 35 40 45 50 55

−6

−4

−2

02

46

graphe des residus

age

resi

dus



Etude des residus

Verification de l’independance entre les residus

Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1

H1 : il y a de correlation entre ϵi et ϵi−1

.

......d =

∑ni=2(ei − ei−1)

2∑ni=1 e

2i

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.

0 4 4-DU DU DL 2 4-DL

AC Positive Rejet H0

AC Négative Rejet H0

Pas d’AC Non Rejet de

H0

? ?




Valeur aberrante de x

●

●

●

●

●●

●

●

●

●

●

●

●

0 20 40 60

160

180

200

220

Age

FC

M

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

0 20 40 60

160

180

200

220

AgeF

CM

Effet important sur l’estimation de la droite de regression

Mauvais ajustement aux donnees

Solution : descriptif univarie → boxplot




Residus studentises internes

Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :

.

......ti =

ei

sn−2

√1− hi

avec hi =1n + (xi−x)∑n

j=1(xi−x)2 (levier de l’observation i). On montre que

Ti ∼ T(n−2).

D’ou :RC : |ti | > t

1−α/2n−2

Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).




Residus studentises externes

Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :

.

......t∗i =

yi − yi (−i)

sn−2(−i)√1− hi (−i)

On montre queT ∗i ∼ T(n−3).

D’ou :RC : |t∗i | > t

1−α/2n−3




Distance de Cook

Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par

.

......Di =

∑nj=1(yi − yi (−i))2

2s2n−2

Regle de decision (cas regression simple) :

RC : Di > 1

Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.



Conclusion sur l’etude de la validite du modele

Etape tres importante !!

...1 Descriptif univarie

...2 Estimation des coefficients du modele

...3 Verification des hypotheses sur les erreurs

...4 Detection d’observations influentes

Si OUI : Correction ou suppressionNouvelle estimation des coefficients

Apres ces etapes : Inference statistique


Regression lineaire simple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par X traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 1 CME = SCE1

Residuelle SCR =∑

i (yi − yi )2 n − 2 CMR = SCR

n−2

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation de β0 et β1 pour yi → n − 2 ddl

SCE par deduction : (n − 1)− (n − 2) = 1 ddl





Le test F permet d’evaluer la significativite globale de la regression.{H0 : La variabilite expliquee est identique a la variabilite residuelle

H1 : La variabilite expliquee est superieure a la variabilite residuelle

Sous H0

.

......F =

CME

CMR∼ F1,n−2 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”



Evaluation des coefficients - β1

Test de significativite de β1

Idee : tester la nullite de β1.{H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y”

H1 : β1 = 0 ”X a un pouvoir explicatif sur Y”

Nous savons que B1−β1

σB1∼ Tn−2, par consequent sous H0

.

......

B1

σB1

∼ Tn−2

Intervalle de confiance de β1

.

......

IC1−α

β1=

b1 ± t(1−α/2;n−2)sn−2√∑n

i=1(xi − x)2




Equivalence avec le test de significativite globale

Uniquement dans le cas de la regression lineaire simple, observons que

F =SCE/1

SCR/(n − 2)=

∑ni=1(Yi − Y )2

S2n−2

=

∑ni=1(B1xi + B0 − Y )2

S2n−2

F =

∑ni=1(B1xi + (Y − B1x)− Y )2

s2n−2

=B21

∑ni=1(xi − x)2

s2n−2

=B21

S2n−2∑n

i=1(xi−x)2

F =B21

σ2B1

=

(B1

σB1

)2

.

Note : Equivalence entre la loi de Student et la loi de Fisher.(T(n−2)

)2 ≡ F(1,n−2)




Equivalence avec le test de significativite de ρ

Observons que

F =SCE/1

SCR/(n − 2)=

(n − 2)SCE

SCR=

(n − 2)SCE

SCT − SCR=

(n − 2)R2

1− R2

T =r√n − 2√1− r2

or R2 = r2 doncF = (T )2

Et comme F =(

B1

σB1

)2

, on conclue que

F = (T )2 =

(B1

σB1

)2




Dans le cas d’une regression lineaire simple de type :

Y = β1X + β0 + ϵ

.

......

Tester la significativite globale du modele

≡

Tester la significativite de β1

≡

Tester la significativite de ρ




Lien entre test et intervalle de confiance

IC1−α

θ = {θ0/H0 = {θ = θ0} est accepte au niveau de confiance 1− α}

Consequences : pour tester H0 : β1 = 0 au risque α, on peut simplement verifiersi 0 appartient ou non a l’intervalle de confiance :

Si 0 ∈ IC alors on conserve H0

Si 0 /∈ IC alors on rejette H0




Test de significativite de β0

Idee : tester la nullite de β0.{H0 : β0 = 0 ”L’ordonnee a l’origine n’est pas significative”

H1 : β0 = 0 ”L’ordonnee a l’origine est significative”

Nous savons que B0−β0

σB0∼ Tn−2, par consequent sous H0

.

......

B0

σB0

∼ Tn−2

Intervalle de confiance de β0

.

......

IC1−α

β0=

[b0 ± t(1−α/2;n−2)sn−2

√1

n+

x2∑ni=1(xi − x)2

]


Regression lineaire simple Prediction

Intervalle de prediction d’une observation

Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation xn+1 n’appartenant pas a l’echantillon :

yn+1 = b1xn+1 + b0

Or yn+1 n’est qu’une estimation de la ”vraie droite de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]


Regression lineaire simple Prediction


.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

Quelques remarques

La taille du rayon de l’intervalle de confiance sera d’autant plus faible que

s2n−2 est faible → la regression est de bonne qualiten est elevexn+1 est proche de x ↔ (xn+1 − x)2 est faible∑n

i=1(xi − x)2 est eleve → les xi sont bien disperses

Attention : utiliser des valeurs de x qui sont dans le cadre d’etude(relativement proches de x pour obtenir de bonnes predictions.


Regression lineaire simple Mise en evidence d’un probleme

Mise en evidence d’un probleme

Vente de CD et cas de grippe H1N1 en 2009

Region Nb cas de grippe H1N1 Nb ventes CD M.J.

Region 1 . .Region 2 . .

. . .

. . .Region n . .

Il existe une liaison lineaire significative . . .

Test de ρ : p < 1.10−4, Test de β1 : p < 1.10−4

. . . mais pas de relation de cause a effet !




Existence de Facteurs de confusion (ici : la periode de temps)Exemple : vente de CD de MJ les plus fortes en automne alors

Pour la meme periode :

{↗ ventes

↗ cas de grippes

Grippe

Temps

Ventes

Moyenne d’une V.A. continueX ! L(µ,!2)

Figure : Diagramme de correlation




Necessite de pouvoir ajuster sur des facteurs de confusion

Dans de nombreuses situations, plusieurs facteurs peuvent expliquer uncaractere

Y = f (X1,X2, . . . ,Xp)

Regression lineaire multiple


Regression lineaire multiple

Cadre d’etude

Y est un caractere non controle (caractere explique)

X1,X2, . . .Xp sont des caracteres controles (caracteres explicatifs)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xij est la valeur fixee pour l’individu i et la variable j , j ∈ {1, 2, . . . , p}

Objectif : Exprimer le lien entre Y et les Xj .

Y = f (X1,X2, . . . ,Xp) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire multiple...1 Modele de regression...2 Hyperplan de regression au sens des moindres carres


Regression lineaire multiple Modele de regression lineaire multiple

Modele de regression lineaire multiple

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que.

......

Yi = β0 + β1xi1 + β2xi2 + . . . βpxip + ϵi = β0 +

p∑j=1

βjxij + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1, . . . , βp : coefficients du modele, constantes (valeurs fixes dans lapopulation).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independantes des Xj → COV(xij , ϵi ) = 0

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .


Regression lineaire multiple Modele de regression lineaire multiple

Ecriture du modeleSur un echantillon de n observations i.i.d. :

Y1 = β0 + β1x11 + β2x12 + . . .+ βpx1p + ϵ1

Y2 = β0 + β1x21 + β2x22 + . . .+ βpx2p + ϵ2...

Yn = β0 + β1xn1 + β2xn2 + . . .+ βpxnp + ϵn

Ecriture matricielle

Y =

Y1

...Yn

β =

β0

...βp

X =

1 x11 x12 · · · x1p...

......

. . ....

1 xn1 xn2 · · · xnp

ϵ =

ϵ1...ϵn

Y = X. β + ϵn × 1 n × (p + 1) (p + 1)× 1 n × 1


Regression lineaire multiple Methode des moindres carres ordinaires

Hyperplan de regression au sens des moindres carres

Objectif : estimer β0, β1, . . . , βp grace a leur estimateurs B0,B1,B2, . . . ,Bp etleur realisations b0, b1, b2, . . . , bp sur un echantillon d’observations i.i.d. de taillen.

β =

β0

...βp

B =

B0

...Bp

b =

b0...bp

Trouver b qui minimisent l’erreur :

.

......

S(β0, . . . , βp) =n∑

i=1

(ϵi )2 =

n∑i=1

yi − β0 −p∑

j=1

βjxij

2

= ||ϵ||2

.

...... Solution : b =(XTX

)−1XTY

Remarque : B est appele estimateur des moindres carres de β. .. Details



Hyperplan de regression au sens des moindres carres

L’ hyperplan de regression au sens des moindres carres a pour expression :

.

......

yi = b0 +

p∑j=1

bjxij

C’est une estimation du modele de regression multiple par la methode desmoindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

......

ei = (yi − yi ) = yi − b0 −p∑

j=1

bjxij




.

...... E[B] = β estimateur sans biais

.

...... V[B] = σ2(XTX

)−1

.. Details

V[B](p+1)×(p+1) est appelee matrice de variances - covariances des coefficients :σ2B0

COV (B0,B1) . . . COV (B0,Bp)· σ2

B1. . . COV (B1,Bp)

... · . . . ·· · . . . σ2

Bp




La matrice de variances - covariances V[B] fait intervenir la variance de l’erreurσ2.

Cette variance est inconnue

Elle est estimee par S2n−p−1 au moyen du tableau d’ANOVA.

On montre que

.

......S2n−p−1 =

SCR

n − p − 1=

∑ni=1 (Ei )

2

n − p − 1

est un estimateur non biaise de σ2.



Proprietes des estimateurs - Distributions d’echantillonnage

De par les hypotheses du modele et l’estimation de σ2, on montre que∀j ∈ {0, 1, . . . , p}.

......

Bj − βj

σBj

∼ Tn−p−1 d.d.l.

avec σBj tire de la matrice de variances-covariances.

Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).


Regression lineaire multiple Qualite de l’ajustement


Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1


totaleSCT

=n∑

i=1


expliqueeSCE

+n∑

i=1

(yi − yi )2

︸︷︷︸Somme des carres

residuelleSCR


Regression lineaire multiple Qualite de l’ajustement


Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire multiple.

Remarque importante : R2 est fonction du nombre variables explicatives dans lemodele (meme non pertinentes)

p ↗ → R2 ↗

Aussi : tests de significativite des coefficients, selection de variables (modeleparcimonieux)


Regression lineaire multiple Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas des Xj

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.


Valeur aberrante d’une observation (diagnostic univarie, multivarie)

Observation i mal reconstituee par la regression → (ei eleve)

Observation i presentant un poids exagere dans la regression (prediction /coefficients)



Etude des residus

Verification de la normalite des residus

histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.

Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)

Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees



Etude des residus


Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative xj (et donc pas non plus desvaleurs predites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :

Introduction Correlation Regression lineaire simple Conclusion

Etude des residus


Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

−40 −20 0 20 40

−4−2

02

4

Residus non correles

X

Residus

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

−40 −20 0 20 40

−2−1

01

2

Residus correles

X

Residus



Etude des residus

On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1

on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.

on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−p−1). Methode plus robuste

si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.



Etude des residus

●

●

●

●

● ●

●

●

●

●

●

●

●

25 30 35 40 45 50 55

−6

−4

−2

02

46

graphe des residus

age

resi

dus



Etude des residus

Verification de l’independance entre les residus

Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1

H1 : il y a une correlation entre ϵi et ϵi−1

.

......d =

∑ni=2(ei − ei−1)

2∑ni=1 e

2i

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.

0 4 4-DU DU DL 2 4-DL

AC Positive Rejet H0

AC Négative Rejet H0

Pas d’AC Non Rejet de

H0

? ?




Valeur aberrante de xj (Univarie) → Boxplot

Effet important sur l’estimation de l’hyperplan de regression

Mauvais ajustement aux donnees

Solution : descriptif univarie → boxplot

●

1020

3040

50

Probleme : Ne prend pas en compte les interactions possibles entre les Xj .




Valeur aberrante (Multivarie) → Levier

Principe : Pour une observation i , mesure la distance avec le centre de gravite dunuage defini par les Xj , j ∈ {1, , . . . , p}Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :

H = X(XTX

)−1XT

En pratique

.

...... hii = hi = xi(XTX

)−1xTi

avec xi la ieme ligne de la matrice X.




Valeur aberrante (Multivarie) → Levier

Regle de decision

.

......R.C . : hi > 2× p + 1

n

Permet de detecter des observations aberrantes / influentes d’un point de vuemultivarie

Effet nefaste sur l’estimation des βj par les MCO




Residus studentises internes

Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :

.

......ti =

ei

sn−p−1

√1− hi

avec hi levier de l’observation i . On montre que

Ti ∼ T(n−p−1).

D’ou :RC : |ti | > t

1−α/2n−p−1

Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).




Residus studentises externes

Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :

.

......t∗i =

yi − yi (−i)

sn−p−1(−i)√1− hi (−i)

On montre queT ∗i ∼ T(n−p−1).

D’ou :RC : |t∗i | > t

1−α/2n−p−1

Remarque :

t∗i =

√n − p − 2

n − p − 1− t2i




Distance de Cook

Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par

.

......Di =

∑nj=1(yj − yj(−i))2

(p + 1)s2n−p−1

Regle de decisionRC : Di > 1

RC : Di >4

n − p − 1(Ajustement sur le nombre de variables)

Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.




DFBETAS

Idee : Si la distance de COOK a identifie une observation ayant une influence surl’estimation des coefficients, on peut aller plus loin pour determiner quelcoefficient est affecte.Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, leDFBETAS est defini par :

.

......

DFBETASi,j =bj − bj(−i)

sn−p−1(−i)√(XTX)

−1j

Regle de decision

RC : |DFBETASi,j | >2√n


Regression lineaire multiple Inference statistique



R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par les Xj traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 p CME = CMEp

Residuelle SCR =∑

i (yi − yi )2 n − p − 1 CMR = CMR

n−p−1

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation des βj pour yi → n − (p + 1) ddl

SCE par deduction : (n − 1)− (n − p − 1) = 1 ddl





Le test F permet d’evaluer la significativite globale de la regression.{H0 : β1 = β2 = . . . = βp = 0

H1 : ∃j/βj = 0

Sous H0

.

......F =

CME

CMR∼ Fp,n−p−1 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”



Evaluation des coefficients - βj

Test de significativite de βj

Idee : tester la nullite de βj .{H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y”

H1 : βj = 0 ”Xj a un pouvoir explicatif sur Y”

Nous savons queBj−βj

σBj∼ Tn−p−1, par consequent :

Sous H0

.

......

Bj

σBj

∼ Tn−p−2

Intervalle de confiance de βj

.

...... IC1−α

βj=

[bj ± t(1−α/2;n−p−1)σBj

]Michael Genin (Universite de Lille 2) Correlation - Regression lineaire Version - 19 fevrier 2015 104 / 123

Regression lineaire multiple Prediction


Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation Xn+1 n’appartenant pas a l’echantillon :

Xn+1 = (xn+1,1, xn+1,2, . . . , xn+1,p)

yn+1 = b0 +

p∑j=1

bjxn+1,j

yn+1 = Xn+1.b

Or yn+1 n’est qu’une estimation du ”vrai hyperplan de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......IC

1−α

yn+1=

[yn+1 ± t(1−αr ;n−p−1)sn−p−1

√1 + Xn+1 (XTX)

−1XT

n+1

]


Regression lineaire multiple Detection et traitement de la colinearite

Definition et consequences de la colinearite

Definition

Une variable explicative Xj est colineaire a une autre variable Xk lorsquerXj ,Xk

> 0.8.Une variable explicative Xj est multicolineaire aux autres variables lorsque

Xj = β′

0 + β′

1X1 + . . .+ β′

j−1Xj−1 + β′

j+1Xj+1 + . . .+ β′

pXp,

elle peut s’ecrire comme une combinaison lineaire des autres variables explicatives.

Consequences

Valeurs/Signes des coefficients contraires a l’intuition

Variances estimees des coefficients trop importantes

Coefficients non significatifs (inference statistique)

Instabilite du modele

Risque de passer a cote d’une variable importante (redondance)



Detection de la colinearite

Variance Inflation Factor - VIF

Principe : Pour chaque Xj , realisation de la regression de Xj avec les autresvariables explicatives. On note R2

j le coefficient de determination associe a cetteregression.Pour une variable Xj , le VIF est defini par

.

......VIFj =

1

1− R2j

La valeur du VIF sera d’autant plus forte que Xj est une combinaison lineaire desautres variables.

Regle de decisionVIFj ≥ 4

Rq : Determination des variables incriminees dans la combinaison lineaire →Cercle des correlations (ACP)



Detection de la colinearite

Variance Inflation Factor - VIF

Remarque :

σ2Bj

=σ2

nVIFj

Donc :

Plus la valeur de VIFj est importante plus σ2Bj

sera importante

Estimation instable

Probleme de significativite du coefficient



Traitement de la colinearite

Approche ”metier”

Mise en evidence de plusieurs variables explicatives colineaires (VIF + ACP)

Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pourl’analyse

Approche statistique

Methode de selection de variables (Forward, Backward, Stepwise)

Mais si toutes les variables sont pertinentes ?

Regression sur les composantes principales de l’ACP

Regression ridge

Regression PLS


Regression lineaire multiple Selection de variables

Motivations - Critere de selection de variables

Motivations

Selection d’un sous-ensemble de Xj pertinentes et non redondantes quiexpliquent au mieux Y

Principe du rasoir d’Occam → Modeles parcimonieux

Modele plus simple, lisible, robuste, stableNombre restreint de variables explicatives (collecte des donnees)

Traitement de la multicolinearite

Critere de selection de variables

Retrait ou ajout d’une variable Xj dans le modele en fonction de sa valeur du Fj

partiel de Fisher :

.

......Fj =

(Bj

σBJ

)2

∼ F1,n−p−1

.. Details



Motivations - Critere de selection de variables

Autres criteres de selection de variables

R2 ajuste

R2 = 1− SCR/(n − p − 1)

SCT/(n − 1)

AIC (a minimiser)

AIC = n ln

(SCR

n

)+ 2(p + 1)

BIC de Schwartz (a maximiser)

BIC = n ln

(SCR

n

)+ ln(n)(p + 1)

etc. . .



Methodes de selection de variables

Methode ascendante (Forward)

Principe : On part du modele sans Xj . On ajoute successivement les Xj qui sontsignificatifs au sens du F partiel de Fisher et on s’arrete lorsqu’on ne peut plusajouter de Xj (NS dans le modele)

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = max{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)< αsle ALORS

Ajout de Xj au modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsle est eleve plus le nombre de variables dans le modele sera important

En pratique : αsle = 0.2




Methode ascendante (Forward) - Exemple

Soient Y et X1,X2,X3 sur un echantillon de n = 50 observations

Etape Modele ddl F (p-value)

1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8)X2 → 150 (2, 22.10−16)X3 → 12 (1, 11.10−3)

2 Y = β0 + β2X2 1 ;50-2-1 X1 → 9 (4, 31.10−3)X3 → 2 (0.1639)

3 Y = β0 + β2X2 + β1X1 1 ;50-3-1 X3 → 0.7 (0.4071)

X3 n’est plus significative dans le modele. Modele final :

Y = β0 + β2X2 + β1X1




Methode descendante (Backward)

Principe : On part du modele sature (toutes les Xj). On retire successivement lesXj qui sont non significatifves au sens du F partiel de Fisher et on s’arretelorsqu’on toutes les Xj sont significatives.



j tel que F ∗j = min{F1, . . . ,Fp}


)> αsls ALORS

Retrait de Xj du modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsls est faible plus le nombre de variables dans le modele sera faible

En pratique : αsls = 0.2




Methode Stepwise

Principe : ”Mix” entre les methodes ascendante et descendante. On debut par lemodele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher(αsle). Dans les etapes suivantes, on verifie que l’ajout d’une variable de conduitpas a la non significativite (αsls) des autres deja presentes dans le modele (phasedescendante).Le processus se termine quand aucune Xj n’est significative lors de la phaseascendante.

Avantage : Contrairement la methode ascendante, une Xj introduite dans lemodele peut etre remise en cause lors des etapes suivantes.

En pratique :αsle = αsls = 0.2




Methode Stepwise

On part du modele : Y = β0



j tel que F ∗j = max{F1, . . . ,Fp}


)< αsle ALORS

Ajout de Xj du modelePOUR Chaque Xj inclue dans le modele FAIRE

Calcul de Fj pour chaque Xj

Choix de F ∗j tel que F ∗

j = min{F1, . . . ,Fp}SI P

(F ∗j > f ∗j

)> αsls ALORS

Retrait de Xj du modele

FIN POUR

SINON Arret

Fin TANT QUE


Regression lineaire multiple Conclusions

Processus de modelisation...1 Estimation des coefficients (MCO)...2 Mesure de la qualite d’ajustement (R2)...3 Etude la validite du modele

Si hypotheses sur les erreurs non verifiees → STOPSi observations aberrantes/influentes →

Correction/SuppressionRetour a l’Etape 1

...4 Inference statistique

Test de significativite globaleTests de significativite des coefficients

...5 Evaluation de la multicolinearite

...6 Selection de variables (Modele parcimonieux)

Modele restreintReiteration des Etapes 1, 2, 3, 4


References

References

Livres

Probabilites Analyses des donnees et Statistique, G. Saporta, TECHNIP

Dodge, Y, Rousson, V., Analyse de regression appliquee, Dunod, 2eme edition,2004.

Supports en ligne

Econometrie - Regression lineaire simple et multiple, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

Pratique de la regression lineaire multiple - Diagnostic et Selection devariables, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

Regression lineaire, A. Guyaderhttp:

//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf


http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

http://www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

http://www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

Annexe 1 - Systeme aux equations normales

min S(β0, β1) = minn∑

i=1

(yi − (β1xi + β0))2

= minn∑

i=1

[y2i − 2xiyiβ1 − 2yiβ0 + β2

1x2i + 2β0β1xi + β2

0

]S(β0, β1) est strictement convexe donc elle admet un minimum au point unique(b0, b1) determine en annulant les derivees partielles de S :

∂S(β0, β1)

∂β0= 0 ⇒

n∑i=1

−2yi + 2b1xi + 2b0 = 0 (1)

∂S(β0, β1)

∂β1= 0 ⇒

n∑i=1

−2xiyi + 2b1x2i + 2b0xi = 0 (2)



De (1) on deduit que

b0 =

∑ni=1 yi − b1

∑ni=1 xi

n= y − b1x (3)

De (2) on deduit que

b1

n∑i=1

x2i + b0

n∑i=1

xi =n∑

i=1

xiyi (4)

En utilisant (3) nous obtenons

b1

n∑i=1

x2i + (y − b1x)n∑

i=1

xi =n∑

i=1

xiyi (5)



En divisant par n les deux termes :

b11

n

n∑i=1

x2i + (y − b1x)x =1

n

n∑i=1

xiyi (6)

b1

[1

n

n∑i=1

x2i − x2

]=

1

n

n∑i=1

xiyi − x y (7)

b1 =sxys2x

(8)

.. Retour


Annexe 2 - RLM : MCO

Observons que ||ϵ||2 = ||Y − Xβ||2. Aussi

||ϵ||2 = (Y − Xβ)T (Y − Xβ) = YTY − YTXβ − βTXTY + βTXTXβ.

Or comme la transposee d’un scalaire est egale a lui-meme :(YTXβ

)T= βTXTY,

nous avons donc

S(β0, . . . , βp) = ||ϵ||2 = YTY − 2βTXTY + βTXTXβ

Minimiser la fonction S revient a annuler les derivees differentielles par rapport aβ. L’annulation de la derivation matricielle nous donne

∂S

∂β= −2

(XTY

)+ 2

(XTX

)b = 0


Annexe 2 - RLM : MCO

Aussi (XTX

)b =

(XTY

).

Or rg(X) = p et p ≤ n donc(XTX

)est inversible. Aussi

b =(XTX

)−1 (XTY

).. Retour


Annexe 3 - RLM : moments des estimateurs

Esperance

E[B] = E[(XTX

)−1XTY

]=

(XTX

)−1XTE[Y]

E[B] =(XTX

)−1XTE[X.β + ϵ] = β

Variance

V[B] = V[(XTX

)−1XTY

]= X

(XTX

)−1 V[Y](XTX

)−1XT

V[B] = X(XTX

)−1 V[ϵ](XTX

)−1XT = σ2

(XTX

)−1

.. Retour


Annexe 4 - F partiel de Fisher

L’egalite

F =

(Bj

σBJ

)2

∼ F1,n−p−1

se base sur un cas particulier du test de nullite d’un bloc de q coefficients.{H0 : Y = β0 + β1X1 + . . .+ βjXj + βj+q+1Xj+q+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans les q variables (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)



Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/q(

1− R2(1)

)/(n − p − 1)

∼ Fq,n−p−1

Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

q

n − p − 1fq,n−p−1

alors la place des q variables dans le modele est justifiee.



Cas particulier quand q = 1

On veut tester la nullite d’un coefficient βj{H0 : Y = β0 + β1X1 + . . .+ βj−1Xj−1 + βj+1Xj+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans Xj (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)




Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/1(

1− R2(1)

)/(n − p − 1)

∼ F1,n−p−1

Or

T =Bj

σBJ

∼ Tn−p−1

Donc

F = T 2 =

(Bj

σBJ

)2

Remarque : test de la significativite du coefficient et son apport au R2.




Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

1

n − p − 1f1,n−p−1

alors la place de Xj dans le modele est justifiee.

Note : Tests de type III sous SAS.

.. Retour


Corr elation - R egression lin eairecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-02-19 · La liaison lin eaire est d’autant plus forte que jˆj est proche

Documents