2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique.

2006/2007 1

Plan du coursPlan du cours

1. Introduction2. Statistique descriptive3. Echantillonnage4. Calcul des probabilités et variables

aléatoires5. Inférence statistique6. Estimation7. Tests d’hypothèses8. Régression linéaire

2006/2007 2

IntroductionIntroduction

• Objectifs– Expliquer : Mettre en relation une

variable dépendante et plusieurs variables explicatives.

– Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives.

• Modèle linéaire– Généralisation de la régression simple

(une seule variable explicative).

2006/2007 3

ModèleModèle

• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,

exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un

échantillon de n observations :

1 1 2 2 p py x x x

1 1 1 2 2, , ,

i i ip i i i p ip iy x x y x x x

1,2, ,i n

2006/2007 4

Exemple 1 – MBAExemple 1 – MBA

2006/2007 5

Exemple 2 – La QuintaExemple 2 – La Quinta

2006/2007 6

Exemple 2 Exemple 2 (suite)(suite)

2006/2007 7

ModèleModèle

• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,

exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un

échantillon de n observations :

1 1 2 2 p py x x x

1 1 1 2 2, , ,

i i ip i i i p ip iy x x y x x x

1,2, ,i n

2006/2007 8

Ecriture matricielleEcriture matricielle1 1 2 2

1, ,i i i p ip i

y x x x i n

y X

1 11 1

1

1 1

p

n n p

n n np

p n

p n

y x x

y X

y x x

Avec :

2006/2007 9

HypothèsesHypothèses

• H1:

• H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur .

• H3: Homoscédasticité :

0 1,2, ,i

E i n

2 , 0 , 1,2, ,i i j

Var Cov i j n

2006/2007 10

ExemplesExemples

1. MBA

2. La Quinta

1 2 3 41MBA GPA GMAT Work

0.47 0.06 0.01 0.09

MBA

GPA GMAT Work

2006/2007 11

ExemplesExemples

• Régression simple

• Régression polynomiale

1 2

1 2

2

1

py x

x x x

2 1

1 2 1

p

p py x x x

2006/2007 12

Variables indicatrices Variables indicatrices (0-1)(0-1)

1

2

3

4

note moyenne en 2ème candi

sexe 0 ,1

note moyenne en 1ère candi

ˆ1 si age 20, 0 sinon

ˆ1 si age 22, 0 sinon

y

x

x

x

x

€

1 1 2 2 3 3 4 4 5y x x x x

2006/2007 13

Estimation des Estimation des paramètresparamètres

• Principe des moindres carrés (MC) :

• Sous forme matricielle :

2

1 1 2 21

min n

i i i p ipbi

Q b y b x b x b x

2

Q b y Xb y Xb

y y Xb y b X Xb

1 2, , ,

pb b b b

2006/2007 14

Estimation des Estimation des paramètresparamètres

2 2 0dQ b

X y X X bdb

X X b X y

2

2

1

2 définie positive

ˆ

d Q bX X

db

X X X y

2006/2007 15

DéfinitionsDéfinitions

• Résidus

• Estimateur de 2

1 1 2 2

ˆ

ˆ ˆ ˆ

ˆ

i i i

i i i p ip

i i

r y x

y x x x

y y

2 2

1

1ˆ

n

ii

rn p

Valeur observée Valeur ajustée

2006/2007 16

• Comparaison de 2 modèles :

• Qualité du modèle M1 par rapport à M2 ?

Coefficient de Coefficient de déterminationdétermination

1 1 2 2

1

1:

2 :i i i p i

i i

M y x x

M y

2006/2007 17

• Ecart-type du terme d’erreur :


22

1 1 11

2

1

222

2 11 1

1 ˆ ˆˆ1:

1

1 1ˆˆ2 :1 1

n

i i pi

n

ii

n n

i ii i

M y xn p

rn p

M y y yn n

2006/2007 18

• Mesure de qualité de M1 par rapport à M2 :

• Coefficient de détermination corrigé(« adjusted R-square »)


2

21 21

22

2

1

1ˆ

1 11ˆ ( )

1

n

ii

n

ii

rn p

Ry y

n

2006/2007 19

• Interprétation :–

qualité M1 qualité M2

–

qualité M1 >> qualité M2


2 2 2

1 2ˆ ˆ0R

2 2 2

1 2ˆ ˆ1R

2006/2007 20

• Autre mesure :

• Interprétation plus intuitive :


2

2 1

2

1

1( )

n

ii

n

ii

rR

y y

2 2 2

1 1 1

ˆ ˆ ˆ( ) ( ) ( )n n n

i i i ii i i

y y y y y y

2

2 1

2

1

ˆ ˆ( ) ˆ

( )

n

iii

n

ii

i

y y Var yR

Var yy y

2006/2007 21

• Problème :– R2 augmente lorsque l’on ajoute une

variable, même non pertinente, dans le modèle.

• Tableau d’analyse de variance (ANOVA) :


Source Somme des carrés

Degrés de liberté

Carrés moyens

Variables ex.

Résidus

Total

1p

n p

1n

2

1

n

ii

r 2

1

n

ii

r n p

2

1

( )n

ii

y y

2

1

( ) 1n

ii

y y n

2

1

ˆ ˆ( )n

ii

y y

2

1

ˆ ˆ( ) 1n

ii

y y p

2006/2007 22

PrévisionPrévision

• Prévision de la variable endogène y pour un jeu de valeurs x0 :

• Modèle linéaire :

• Erreur de prévision :

0 01 02 0, , ,

px x x x

0 1 01 2 02 0 0ˆ ˆ ˆ ˆˆ

p py x x x x

2

0 0 0 0avec 0,y x N

0 0y y

2006/2007 23

Erreur de prévisionErreur de prévision

• Moyenne :

• Variance :

0 0 0 0 0

0 0

ˆˆ

0 0

E y y E x x

x x

0 0 0 0

0 0

2

0 0

12 2

0 0

ˆˆ

ˆ

ˆ

Var y y Var x

Var x Var

x Cov x

x X X x

2006/2007 24

Intervalle de prévisionIntervalle de prévision

• A 95%, approximativement :

• Pour la moyenne de y0, à 95% :

12

0 0 0ˆ ˆ2 1x x X X x

12

0 0 0ˆ ˆ2x x X X x

0 0 0 0E y E x x

2006/2007 25

Exemple – La QuintaExemple – La Quinta

Number 3815Nearest 0,9Office space 476Enrollment 24,5Income 35Distance 11,2

Prévision 37,1

Intervalle de prévision25,448,8

Intervalle pour la moyenne33,041,2

Pas rentable !

2006/2007 26

Tests et intervalles de Tests et intervalles de confianceconfiance

• Hypothèse supplémentaire :

• Pour un paramètre :

iid

2

1, , 0,

nN

1

ˆ

ˆj j

j n p

jj

T tX X

2006/2007 27


• Test de nullité de j :

• Intervalle de confiance pour j :

0 1: 0 : 0

j jH H

0 ;1 2 si ou si P-value

j n pRH T t

1

;1 2ˆ ˆ

j n p jjt X X

2006/2007 28


• P-value :

2006/2007 29


• Test de l’ensemble du modèle :

• Test en F (ANOVA) :

0 1 2 1

1

: 0

: au moins un 0p

j

H

H

2

2

1

1

R pF

R n p

0 1; ;1 si ou si P-value

p n pRH F F

1p

x

2006/2007 30

ModélisationModélisation

• Vérification des hypothèses de base– Analyse des résidus– Analyse des valeurs extrêmes

• Sélection des variables explicatives– Comparaison de modèles– Méthodes de sélection

2006/2007 31

Analyse des résidusAnalyse des résidus

• Idée : les résidus devraient ne présenter aucune structure particulière.

• Graphiques :– Normalité des résidus,– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables

explicatives,– Résidus en fonction du temps (séries

chronologiques).

2006/2007 32


• Normalité du terme d’erreur ?– Représentation graphique de la

distribution des résidus :

2006/2007 33

Analyse des résidusAnalyse des résidus• Linéarité de la relation entre y et les

variables explicatives ?– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables explicatives.

2006/2007 34


• Homoscédasticité ?– Résidus en fonction des valeurs prédites.

– Remèdes :• Changement de variable (log y, …),• Moindres carrés pondérés…

Pas Ok : hétéroscédasticité Ok : homoscédasticité

2006/2007 35


• Corrélation entre erreurs ?– Pour une série chronologique,

autocorrélation d’ordre 1 :

– Statistique de Durbin-Watson :

1 1,

t tCorr

10

10

1ˆ2 1DW

2006/2007 36


• En cas d’autocorrélation :– Introduire yt-1 comme variable explicative

(autorégression),– Prendre les différences :

– Modéliser le terme d’erreur :

1t t t t ty y y x

1t t t

2,

iid

t tN O

2006/2007 37

Valeurs extrêmesValeurs extrêmes

• Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite…– Erreur d’encodage ?– Observation à ne pas inclure dans

l’échantillon ?– Cas extrême mais normal ?

• Identification :– Graphiquement,– A l’aide des résidus.

2006/2007 38

Valeurs extrêmes vs Valeurs extrêmes vs influentesinfluentes

• Valeurs influentes : ont une grande influence sur l’estimation des paramètres.

• Exemples :

outlier Avec et sans valeur influente

2006/2007 39

Exemples d’AscombeExemples d’Ascombe

4

5

6

7

8

9

10

11yA

2 4 6 8 10 12 14 16xA

Y = 3 + ,5 * X; R^2 = ,667

Graphe de régression

2

3

4

5

6

7

8

9

10

yB

2 4 6 8 10 12 14 16xB

Y = 3,001 + ,5 * X; R^2 = ,666


5

6

7

8

9

10

11

12

13

yC

2 4 6 8 10 12 14 16xC

Y = 3,002 + ,5 * X; R^2 = ,666


5

6

7

8

9

10

11

12

13

yD

6 8 10 12 14 16 18 20xD

Y = 3,002 + ,5 * X; R^2 = ,667


2006/2007 40

Sélection des variablesSélection des variables

• Variables explicatives doivent être pertinentes.

• Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.

2006/2007 41

Exemple 3 – MaisonsExemple 3 – Maisons

• Un agent immobilier veut essayer de prédire le prix de vente d’une maison.

• Variables explicatives potentielles :– Surface habitable,– Nombre de chambres,– Superficie du terrain.

• Données historiques sur 100 maisons vendues.

2006/2007 42

Sélection de variablesSélection de variables

• Variables explicatives pertinentes :– Tests individuels sur les paramètres .– Attention à la multicolinéarité.

• Principe de parcimonie :– Réduire le nombre de variables

explicatives le plus possible (interprétation du modèle).

• Méthodes de sélection.

2006/2007 43

Méthodes de sélectionMéthodes de sélection• « Backward elimination »

– Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0.

• « Forward selection »– Introduire progressivement les variables

explicatives les plus corrélées (corrélation partielle significative) avec y.

• « Stepwise selection »– Méthode « pas à pas » : combine « forward » et

« backward ».

• Exemple : La Quinta

2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique.

Documents