Traitement de la multicolinéarité en régressioncedric.cnam.fr/~saporta/multicolinearite.pdf · novembre 2011 1 Traitement de la multicolinéarité en régression Gilbert Saporta

novembre 2011 1

Traitement de la multicolinéarité en régression

Gilbert SaportaChaire de Statistique Appliquée & CEDRIC CNAM292 rue Saint Martin, F-75003 Paris

[email protected]://cedric.cnam.fr/~saporta

mailto:[email protected]

http://cedric.cnam.fr/~saporta

novembre 2011 2

Plan

1. Rappels sur la régression multiple2. La multicolinéarité exacte3. Multicolinéarité approchée4. Sélection de variables, choix de modèles5. Régression sur composantes principales6. Régression PLS7. Régression ridge8. Lasso9. Elastic net

novembre 2011 3

1. Régression linéaire multiple (rappels)

1.1 Le modèle

Un peu de géometrie

01

p

j jj

Y xβ β ε=

= + +∑

novembre 2011 4

Moindres carrés

ˆ 0

Equations normales

projecteur

W⊥ = ∀

-1

-1

y = Xb = Ayy - Xb (y - Xb)'Xu uX'y = X'Xb b = (X'X) X'y

A = X(X'X) X'

• b estimateur de variance minimale de β parmi les estimateurslinéaires sans biais• estimateur du maximum de vraisemblance si résidus gaussiens iid• Estimations non uniques de β si X’X non inversiblemais projection uniquey

novembre 2011 5

Variance des estimations

Estimations imprécises si multicolinéarité

Estimation de σ2

2 1( ) (V σ −=b X'X)

2

2 1

ˆ( )ˆ

1

n

i ii

y y

n pσ =

−=

− −

∑

novembre 2011 6

1.2 Qualité de l’ajustement

Le R2: cosinus carré de l’angle entre et W

Analyse de variance= test de nullité de R2: absence totale de liaison

y - y

novembre 2011 7

1.2 Qualité de l’ajustement (suite)

Le R2 est biaisé: surestimation

R2 ajusté :

Peut être négatif…

2 2 22

1( ) R (1 R ) ( )1

pE R On n

= + − +−

2

22

2 2 2 2 2 *

( 1)ˆ1

ˆˆ(1 ) (1 )y y

n R pRn p

R s R sσ σ

− −=

− −

= − = −

novembre 2011 8

2. Multicolinéarité exacte

2.1 Régression sur données compositionnelles

xj proportions de somme =1

Régression sans constante

0 1 21

0 1 2 1 1 2 2

0 1 1 0 2 2 0

1 1 2 2

... 1

ˆ ( ... ) ... ˆ ( ) ( ) ....( )ˆ ...

p

j j pj

p p p

p p

p p

Y x x x x

Y x x x x x x

Y x x x

Y x x x

β β ε

β β β β

β β β β β β

α α α

=

= + + + + =

= + + + + + +

= + + + + +

= + + +

∑

novembre 2011 9

2.2 Régression sur variables qualitatives : le modèle linéaire général

Un prédicteur qualitatif Obs NOM PUIS POIDS FINITION PRIX

1 ALFASUD-TI-1350 79 870 B 305702 AUDI-100-L 85 1110 TB 399903 SIMCA-1307-GLS 68 1050 M 296004 CITROEN-GS-CLUB 59 930 M 282505 FIAT-132-1600GLS 98 1105 B 349006 LANCIA-BETA-1300 82 1080 TB 354807 PEUGEOT-504 79 1160 B 323008 RENAULT-16-TL 55 1010 B 320009 RENAULT-30-TS 128 1320 TB 4770010 TOYOTA-COROLLA 55 815 M 2654011 ALFETTA-1.66 109 1060 TB 4239512 PRINCESS-1800-HL 82 1160 B 3399013 DATSUN-200L 115 1370 TB 4398014 TAUNUS-2000-GL 98 1080 B 3501015 RANCHO 80 1129 TB 3945016 MAZDA-9295 83 1095 M 2790017 OPEL-REKORD-L 100 1120 B 3270018 LADA-1300 68 955 M 22100

novembre 2011 10

Recodage des modalités en indicatrices

La somme des indicatrices vaut 1

Obs NOM PUIS POIDS F1 F2 F3 PRIX

1 ALFASUD-TI-1350 79 870 1 0 0 305702 AUDI-100-L 85 1110 0 0 1 399903 SIMCA-1307-GLS 68 1050 0 1 0 296004 CITROEN-GS-CLUB 59 930 0 1 0 282505 FIAT-132-1600GLS 98 1105 1 0 0 349006 LANCIA-BETA-1300 82 1080 0 0 1 354807 PEUGEOT-504 79 1160 1 0 0 323008 RENAULT-16-TL 55 1010 1 0 0 320009 RENAULT-30-TS 128 1320 0 0 1 4770010 TOYOTA-COROLLA 55 815 0 1 0 2654011 ALFETTA-1.66 109 1060 0 0 1 4239512 PRINCESS-1800-HL 82 1160 1 0 0 3399013 DATSUN-200L 115 1370 0 0 1 4398014 TAUNUS-2000-GL 98 1080 1 0 0 3501015 RANCHO 80 1129 0 0 1 3945016 MAZDA-9295 83 1095 0 1 0 2790017 OPEL-REKORD-L 100 1120 1 0 0 3270018 LADA-1300 68 955 0 1 0 22100

novembre 2011 11

Estimation des paramètres indéterminée car colinéarité avec le terme constantNécessité de contraintes:

Élimination d’une modalité (coefficient nul)

R-Square Coeff Var Root MSE PRIX Mean

0.904689 6.791932 2320.030 34158.61

ErreurParameter Estimation standard t Value Pr > |t|

Intercept 23382.59786 B 6200.788037 3.77 0.0023PUIS 86.96368 46.069500 1.89 0.0816POIDS 8.00795 6.568084 1.22 0.2444FINITION B -6243.33612 B 1432.072306 -4.36 0.0008FINITION M -10056.07842 B 1906.652796 -5.27 0.0002FINITION TB 0.00000 B . . .

NOTE: The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations.Terms whose estimates are followed by the letter 'B' are not uniquely estimable.

novembre 2011 12

Autres contraintes : Coefficients à somme nulle (préférée en trade-off)Solutions équivalentes car mêmes prévisionsPassage simple

1 1 2 2 3 1 1 2 2 3 3

1 2 3 3 1 2

1 2 21 1 1

12 2

1 23

00 ( )

2 3 3 3

23 3

3

F F F F F Fβ β α α αα α α α α α

β β βα β β

βα β

β βα

+ + = + ++ + = = − +

+= − = −

= −

+= −

Les écarts ne changent pas :

1 2 1 2α α β β− = −

novembre 2011 13

Création d’interactions

Croisement de variables à m1 et m2 modalités:

Variable à m1m2 modalités

novembre 2011 14

novembre 2011 15

novembre 2011 16

data;length age $ 12 ft $ 12 diplome $ 12 fonction $ 12 ;title ' modele avec interaction fonction taille complete';infile 'c:\GILBERT\BVA\agrod.dat';input numero $ 10-13 fonct 16 type $ 25 pvente 26-28

salb 36-38 salcod 39 age1 74 dipl1 75;if pvente = 1 then taille = 1;if 2<=pvente <=19 then taille = 2;if pvente >=20 then taille = 3;sal = 25 + 50*(salcod - 1);if sal >= 25 then salaire = sal;else salaire = salb;if age1<=2 then age='<34';if 3<= age1 <=4 then age='35-44';if age1=5 then age='45-49';if age1>=6 then age='>50' ;if dipl1=1 then diplome='Primaire';if dipl1=2 then diplome='Bepc';if dipl1=3 or 5<= dipl1<=6 then diplome='Bac ou BTS';if dipl1=4 then diplome='CAP';if dipl1=7 then diplome='Ingenieur';if fonct=1 then fonction ='Directeur';if 2<=fonct<=3 then fonction='Autre';if fonct>=2 then ft= 'autre';if fonct=1 and taille=1 then ft='dir1';if fonct=1 and taille=2 then ft ='dir2';if fonct=1 and taille=3 then ft ='dir3';

proc glm;class fonct taille age diplome;model salaire = fonct*taille age diplome /solution p cli;lsmeans fonct*taille age diplome /p;run;

novembre 2011 17

modele avec interaction fonction taille complete 223:45 Wednesday, September 29, 2004

The GLM Procedure

Dependent Variable: salaire

Somme des ValeurSource DDL carrés Carré moyen F Pr > F

Model 15 1100307.201 73353.813 15.71 <.0001

Error 262 1222952.616 4667.758

Corrected Total 277 2323259.817

R-Square Coeff Var Root MSE salaire Mean

0.473605 44.83449 68.32099 152.3849

ValeurSource DDL Type I SS Carré moyen F Pr > F

fonct*taille 8 871474.6291 108934.3286 23.34 <.0001age 3 98959.5435 32986.5145 7.07 0.0001diplome 4 129873.0280 32468.2570 6.96 <.0001

ValeurSource DDL Type III SS Carré moyen F Pr > F

fonct*taille 8 325123.6376 40640.4547 8.71 <.0001age 3 139366.8734 46455.6245 9.95 <.0001diplome 4 129873.0280 32468.2570 6.96 <.0001

novembre 2011 18

Parameter Estimation standard t Value Pr > |t|

Intercept 115.8767770 B 18.47798316 6.27 <.0001fonct*taille 1 1 19.2621518 B 17.11380134 1.13 0.2614fonct*taille 1 2 92.8556242 B 18.00924814 5.16 <.0001fonct*taille 1 3 150.7352311 B 27.60425699 5.46 <.0001fonct*taille 2 1 -19.8378255 B 22.17433682 -0.89 0.3718fonct*taille 2 2 -8.5372771 B 16.10439175 -0.53 0.5965fonct*taille 2 3 17.4229154 B 16.81984076 1.04 0.3012fonct*taille 3 1 11.4642504 B 20.12480471 0.57 0.5694fonct*taille 3 2 0.3273331 B 16.08346634 0.02 0.9838fonct*taille 3 3 0.0000000 B . . .age 35-44 -31.4722782 B 14.19292624 -2.22 0.0274age 45-49 20.2791785 B 16.66074286 1.22 0.2246age <34 -51.7826584 B 14.98593828 -3.46 0.0006age >50 0.0000000 B . . .diplome Bac ou BTS 46.5772677 B 16.01503767 2.91 0.0039diplome Bepc 24.4751634 B 17.70833447 1.38 0.1681diplome CAP 39.0939164 B 19.57272489 2.00 0.0468diplome Ingenieur 107.2743816 B 20.86902338 5.14 <.0001diplome Primaire 0.0000000 B . . .

novembre 2011 19

The GLM ProcedureLeast Squares Means

salaire LSMEANfonct taille LSMEAN Number

1 1 162.879135 11 2 236.472608 21 3 294.352214 32 1 123.779158 42 2 135.079706 52 3 161.039899 63 1 155.081234 73 2 143.944316 83 3 143.616983 9

Least Squares Means for effect fonct*taillePr > |t| for H0: LSMean(i)=LSMean(j)


i/j 1 2 3 4 5 6 7 8 9

1 <.0001 <.0001 0.0659 0.0720 0.9078 0.6947 0.2321 0.26142 <.0001 0.0238 <.0001 <.0001 <.0001 0.0001 <.0001 <.00013 <.0001 0.0238 <.0001 <.0001 <.0001 <.0001 <.0001 <.00014 0.0659 <.0001 <.0001 0.5883 0.0804 0.1937 0.3428 0.37185 0.0720 <.0001 <.0001 0.5883 0.0940 0.2935 0.5477 0.59656 0.9078 <.0001 <.0001 0.0804 0.0940 0.7604 0.2712 0.30127 0.6947 0.0001 <.0001 0.1937 0.2935 0.7604 0.5559 0.56948 0.2321 <.0001 <.0001 0.3428 0.5477 0.2712 0.5559 0.98389 0.2614 <.0001 <.0001 0.3718 0.5965 0.3012 0.5694 0.9838

novembre 2011 20

age LSMEAN Number

35-44 157.187801 145-49 208.939257 2<34 136.877420 3>50 188.660079 4

Least Squares Means for effect agePr > |t| for H0: LSMean(i)=LSMean(j)


i/j 1 2 3 4

1 0.0003 0.0540 0.02742 0.0003 <.0001 0.22463 0.0540 <.0001 0.00064 0.0274 0.2246 0.0006

novembre 2011 21

diplome LSMEAN Number

Bac ou BTS 176.009261 1Bepc 153.907157 2CAP 168.525910 3Ingenieur 236.706375 4Primaire 129.431993 5

Least Squares Means for effect diplomePr > |t| for H0: LSMean(i)=LSMean(j)


i/j 1 2 3 4 5

1 0.1174 0.6103 0.0002 0.00392 0.1174 0.4286 <.0001 0.16813 0.6103 0.4286 0.0011 0.04684 0.0002 <.0001 0.0011 <.00015 0.0039 0.1681 0.0468 <.0001

novembre 2011 22

Deuxieme modèle

if fonct=3 and taille=1 then ft='1';if fonct=2 and taille=3 then ft='1';if fonct=1 and taille=1 then ft='1';if fonct=1 and taille=2 then ft ='2';if fonct=1 and taille=3 then ft ='3';if fonct=2 and taille=1 then ft='4';if fonct=2 and taille=2 then ft='4';if fonct=3 and taille=2 then ft='4';if fonct=3 and taille=3 then ft='4';

proc glm;class ft age diplome;model salaire = ft age diplome /solution p clm;lsmeans ft age diplome /p;run;

novembre 2011 23

Somme des ValeurSource DDL carrés Carré moyen F Pr > F

Model 9 1091494.221 121277.136 26.39 <.0001

Error 268 1231765.596 4596.140

Corrected Total 277 2323259.817

R-Square Coeff Var Root MSE salaire Mean

0.469812 44.48921 67.79484 152.3849

ErreurParameter Estimation standard t Value Pr > |t|

Intercept 108.1801431 B 13.79447986 7.84 <.0001ft 1 20.9719018 B 9.20765648 2.28 0.0235ft 2 96.7800140 B 14.04629291 6.89 <.0001ft 3 155.3020627 B 24.88831243 6.24 <.0001ft 4 0.0000000 B . . .age 35-44 -29.9167734 B 13.87680050 -2.16 0.0320age 45-49 21.3891613 B 16.35408144 1.31 0.1920age <34 -50.8856349 B 14.40849511 -3.53 0.0005age >50 0.0000000 B . . .diplome Bac ou BTS 49.5558603 B 15.32114064 3.23 0.0014diplome Bepc ou CAP 32.8345809 B 15.77742828 2.08 0.0384diplome Ingenieur 109.2620741 B 20.42227391 5.35 <.0001diplome Primaire 0.0000000 B . . .

novembre 2011 24

The GLM Procedure

95% Confidence Limits forObservation Observed Predicted Residual Mean Predicted Value

1 75.0000000 127.8222703 -52.8222703 109.1875210 146.45701952 125.0000000 129.1520449 -4.1520449 102.1480528 156.15603693 75.0000000 129.1520449 -54.1520449 102.1480528 156.15603694 75.0000000 148.7911318 -73.7911318 128.3923441 169.18991955 125.0000000 254.5160174 -129.5160174 221.9562145 287.07582036 120.0000000 127.8222703 -7.8222703 109.1875210 146.45701957 120.0000000 262.1524312 -142.1524312 211.9482235 312.35663908 75.0000000 200.0970665 -125.0970665 172.4353924 227.75874069 225.0000000 237.7947380 -12.7947380 202.0904884 273.498987610 225.0000000 150.5412062 74.4587938 116.1014683 184.980944211 175.0000000 175.0433837 -0.0433837 135.8599746 214.226792812 350.0000000 314.2222312 35.7777688 275.7462426 352.698219813 125.0000000 148.7911318 -23.7911318 128.3923441 169.189919514 216.0000000 204.9601571 11.0398429 170.0434036 239.876910615 75.0000000 148.7911318 -73.7911318 128.3923441 169.189919516 225.0000000 208.4973456 16.5026544 174.8432211 242.151470017 125.0000000 148.7911318 -23.7911318 128.3923441 169.189919518 125.0000000 129.1520449 -4.1520449 102.1480528 156.156036919 * . 161.9866258 . 133.4713076 190.501944020 170.0000000 224.5992440 -54.5992440 198.3268148 250.871673221 400.0000000 372.7442799 27.2557201 325.2811190 420.207440822 75.0000000 111.1009909 -36.1009909 88.0153232 134.186658623 150.0000000 284.3054578 -134.3054578 250.9978248 317.613090724 325.0000000 275.9051787 49.0948213 243.6405200 308.169837525 120.0000000 148.7911318 -28.7911318 128.3923441 169.1899195

novembre 2011 25

Obs NOM CYL PUIS LON LAR POIDS VITESSE NAT FINITION PRIX

1 ALFASUD-TI-1350 1350 79 393 161 870 165 I B 305702 AUDI-100-L 1588 85 468 177 1110 160 D TB 399903 SIMCA-1307-GLS 1294 68 424 168 1050 152 F M 296004 CITROEN-GS-CLUB 1222 59 412 161 930 151 F M 282505 FIAT-132-1600GLS 1585 98 439 164 1105 165 I B 349006 LANCIA-BETA-1300 1297 82 429 169 1080 160 I TB 354807 PEUGEOT-504 1796 79 449 169 1160 154 F B 323008 RENAULT-16-TL 1565 55 424 163 1010 140 F B 320009 RENAULT-30-TS 2664 128 452 173 1320 180 F TB 4770010 TOYOTA-COROLLA 1166 55 399 157 815 140 J M 2654011 ALFETTA-1.66 1570 109 428 162 1060 175 I TB 4239512 PRINCESS-1800-HL 1798 82 445 172 1160 158 GB B 3399013 DATSUN-200L 1998 115 469 169 1370 160 J TB 4398014 TAUNUS-2000-GL 1993 98 438 170 1080 167 D B 3501015 RANCHO 1442 80 431 166 1129 144 F TB 3945016 MAZDA-9295 1769 83 440 165 1095 165 J M 2790017 OPEL-REKORD-L 1979 100 459 173 1120 173 D B 3270018 LADA-1300 1294 68 404 161 955 140 U M 22100

3 La multicolinéarité approchée

3.1 Un exemple

novembre 2011 26

Analysis of Variance

Sum of Mean Valeur Source DDL Squares Square F Pr > F

Model 6 520591932 86765322 4.47 0.0156 Error 11 213563858 19414896 Corrected Total 17 734155790

Root MSE 4406.23379 R-Square 0.7091 Dependent Mean 34159 Adj R-Sq 0.5504 Coeff Var 12.89934

Parameter Estimates

Parameter Standard Variance Variable DDL Estimate Error t Value Pr > |t| Inflation

Intercept 1 -8239.36268 42718 -0.19 0.8506 0 CYL 1 -3.50518 5.55060 -0.63 0.5406 3.77201 PUIS 1 282.16880 174.88297 1.61 0.1349 11.11882 LON 1 -15.03766 129.74749 -0.12 0.9098 7.20420 LAR 1 208.69377 412.04788 0.51 0.6225 4.19760 POIDS 1 12.57468 24.62219 0.51 0.6197 9.95728 VITESSE 1 -111.11355 222.25657 -0.50 0.6270 6.37511

Résultats

novembre 2011 27

Dans l’exemple aucun coefficient significatif! Le test de Student d’un coefficient n’est pas un test de non corrélation, mais un test de non apport d’une variable conditionnellement aux p-1 autresExplication: la multicolinéaritéDe fortes corrélations entre prédicteurs conduisent à de mauvaises estimations des bjcar det(X’X)≈0

3.2 estimation et test des coefficients

novembre 2011 28

3.3 Détection

Etude de la matrice de corrélation

ACP (voir plus loin)Analyse des facteurs d’inflation de la variance

2 2 21, 2

1 2

1( )1 ( ; , ,..., )j j j

j p

V b VIFn n R x x x x nσ σ σ−= = =

−R

Matrice de corrélations

CYL PUIS LON LAR POIDS VITESSECYL 1.00000 0.79663 0.70146 0.62976 0.78895 0.66493PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593LAR 0.62976 0.52083 0.84927 1.00000 0.71687 0.47295POIDS 0.78895 0.76529 0.86809 0.71687 1.00000 0.47760VITESSE 0.66493 0.84438 0.47593 0.47295 0.47760 1.00000

novembre 2011 29

4. Sélection de variables, choix de modèles

Choix de k variables parmi pElimination de variables non pertinentesObtention de formules plus stables

Critères:A k fixé: R2

Comparaison de modèles de tailles différentesCapacité prédictive, complexité

novembre 2011 30

la recherche de la parsimonie: le rasoir d’Ockham

Guillaume d’Occam (1285? – 1349?), dit le « docteur invincible »franciscain philosophe logicien et théologien scolastique.Etudes à Oxford, puis Paris. Enseigne quelques années à Oxford. Accusé d'hérésie, convoqué pour s’expliquer à Avignon, excommunié pour avoir fui à Munich à la cour de Louis IV de Bavière. Meurt vraisemblablement de l'épidémie de peste noire.

Principe de raisonnement attribué à Occam : « Les multiples ne doivent pas être utilisés sans nécessité » (pluralitas non est ponenda sine necessitate).

A inspiré le personnage du moine franciscain Guillaume de Baskerville dans le « Nom de la rose » d'Umberto Eco. Premier jour, vêpres : « il ne faut pas multiplier les explications et les causes sans qu'on en ait une stricte nécessité. »

novembre 2011 31

4.1 Quelques critères pour comparer des modèles de tailles différentes

R2 ajusté et sont équivalents

AIC (Akaiké) et BIC (Schwartz)

On cherche à minimiser AIC ou BIC

SSE= somme des carrés des résidus du modèle à k variables

σ

2ln( ) 2( 1) ln( ) 2( 1) (ln 1)

2 ln( ) ln( )( 1) ln( ) ln( )( 1) (ln 1)

SSEAIC L k n k nn

SSEBIC L n k n n k nn

π

π

= − + + = + + + +

= − + + = + + + +

novembre 2011 32

Le Cp de Mallows

On cherche à estimer l’erreur quadratique de prédiction (MSPE) :

En sélectionnant P prédicteurs parmi K :

Si le modèle est le bon E(Cp)=p

The general procedure to find an adequate model by means of the Cp statistic is to calculate Cpfor all possible combinations of variables and the Cp values against p. The model with the lowest Cp value approximately equal to p is the most "adequate" model.

http://www.statistics4u.com/fundstat_eng/cc_varsel_mallowscp.html

novembre 2011 33

4.2 algorithmes de sélection

Dénombrement exhaustif: 2p-1 modèlesMeilleurs sous-ensembles (algorithme de Furnival et Wilson jusqu’à quelques dizaines de variables)

Méthodes pas à pas (stepwise selection)Ascendant (forward)Descendant (backward)Ascendant avec élimination possible (stepwise)…

novembre 2011 34

Summary of Forward Selection

Variable Number Partial Model ValeurStep Entered Vars In R-Square R-Square C(p) F Pr > F

1 PUIS 1 0.6379 0.6379 -0.3084 28.19 <.00012 POIDS 2 0.0487 0.6866 -0.1501 2.33 0.1476

Summary of Backward Elimination

Variable Number Partial Model ValeurStep Removed Vars In R-Square R-Square C(p) F Pr > F

1 LON 5 0.0004 0.7087 5.0134 0.01 0.90982 VITESSE 4 0.0069 0.7018 3.2760 0.29 0.60253 LAR 3 0.0030 0.6988 1.3900 0.13 0.72284 CYL 2 0.0122 0.6866 -0.1501 0.57 0.4646

Les logiciels classiques utilisent des tests d’arret :F pour entrer, pour rester

novembre 2011 35

Les méthodes basées sur des tests F devraient être abandonnées:

utilisation incorrecte de tests multipleserreurs standard ne tenant pas compte du processus de sélection

R2 augmente avec le nombre de variables mais pas R2 ajusté

novembre 2011 36

Adjusted R-Square Selection MethodNombre dans R carréle modèle ajusté R-carré AIC BIC Variables du modèle

2 0.6366 0.6820 285.0800 289.8602 PUIS POIDS3 0.6241 0.6946 286.3954 292.6816 CYL PUIS POIDS3 0.6196 0.6909 286.5979 292.7777 PUIS LAR VITESSE3 0.6169 0.6888 286.7168 292.8340 PUIS POIDS VITESSE3 0.6156 0.6877 286.7743 292.8612 PUIS LON VITESSE1 0.6137 0.6379 285.2916 288.5249 PUIS2 0.6136 0.6619 286.1222 290.5380 PUIS VITESSE2 0.6128 0.6612 286.1601 290.5624 PUIS LON3 0.6098 0.6829 287.0320 292.9829 PUIS LAR POIDS3 0.6089 0.6823 287.0683 293.0000 PUIS LON POIDS2 0.6077 0.6567 286.3822 290.7054 PUIS LAR4 0.5968 0.6976 288.2281 295.9091 CYL PUIS POIDS VITESSE4 0.5967 0.6975 288.2312 295.9099 CYL PUIS LAR POIDS4 0.5952 0.6964 288.2918 295.9270 CYL PUIS LAR VITESSE4 0.5940 0.6955 288.3449 295.9420 PUIS LAR POIDS VITESSE4 0.5938 0.6953 288.3533 295.9443 CYL PUIS LON POIDS4 0.5902 0.6926 288.5046 295.9871 PUIS LON LAR VITESSE3 0.5897 0.6666 287.8850 293.3848 CYL PUIS LON4 0.5894 0.6920 288.5366 295.9962 CYL PUIS LON VITESSE4 0.5894 0.6920 288.5377 295.9965 PUIS LON POIDS VITESSE2 0.5864 0.6381 287.2815 291.2802 CYL PUIS3 0.5839 0.6620 288.1210 293.4958 CYL PUIS VITESSE3 0.5839 0.6619 288.1216 293.4961 CYL PUIS LAR3 0.5839 0.6619 288.1230 293.4968 PUIS LON LAR4 0.5773 0.6830 289.0285 296.1362 PUIS LON LAR POIDS2 0.5761 0.6291 287.6967 291.5440 POIDS VITESSE5 0.5721 0.7058 289.7570 299.1768 CYL PUIS LAR POIDS VITESSE5 0.5648 0.7008 290.0464 299.2005 CYL PUIS LON POIDS VITESSE5 0.5619 0.6988 290.1594 299.2101 CYL PUIS LON LAR VITESSE5 0.5603 0.6977 290.2213 299.2155 CYL PUIS LON LAR POIDS

proc reg;title Regression OLS;id nom;model prix=cyl puis lon lar poids vitesse/AIC BIC ADJRSQ selection=ADJRSQUARE ;run;

novembre 2011 37

Nombre dans R carréle modèle ajusté R-carré AIC BIC Variables du modèle

1 0.5586 0.5862 287.5579 290.3050 POIDS4 0.5577 0.6683 289.8011 296.3600 CYL PUIS LON LAR5 0.5572 0.6956 290.3398 299.2259 PUIS LON LAR POIDS VITESSE3 0.5502 0.6346 289.4448 294.1209 CYL POIDS VITESSE3 0.5455 0.6307 289.6222 294.2052 LAR POIDS VITESSE3 0.5450 0.6303 289.6429 294.2151 LON POIDS VITESSE6 0.5293 0.7058 291.7567 302.5767 CYL PUIS LON LAR POIDS VITESSE2 0.5290 0.5879 289.4883 292.6779 CYL POIDS2 0.5278 0.5869 289.5308 292.7048 LON POIDS2 0.5272 0.5863 289.5553 292.7203 LAR POIDS4 0.5146 0.6360 291.3804 296.8377 CYL LAR POIDS VITESSE4 0.5146 0.6359 291.3821 296.8382 CYL LON POIDS VITESSE4 0.5078 0.6308 291.6176 296.9123 LON LAR POIDS VITESSE3 0.4933 0.5883 291.4700 295.0959 CYL LON POIDS3 0.4928 0.5879 291.4882 295.1048 CYL LAR POIDS3 0.4917 0.5870 291.5235 295.1221 LON LAR POIDS 5 0.4709 0.6362 293.3685 299.5832 CYL LON LAR POIDS VITESSE4 0.4515 0.5886 293.4578 297.5212 CYL LON LAR POIDS2 0.4341 0.5048 292.6099 294.6691 LON VITESSE2 0.4166 0.4896 293.1266 295.0038 CYL LON3 0.4074 0.5185 294.1329 296.4390 CYL LON VITESSE1 0.3979 0.4355 292.8372 294.3548 LON3 0.3947 0.5082 294.4956 296.6288 LON LAR VITESSE3 0.3758 0.4928 295.0167 296.9045 CYL LON LAR2 0.3732 0.4516 294.3463 295.8018 CYL VITESSE4 0.3629 0.5222 296.0034 298.4649 CYL LON LAR VITESSE2 0.3576 0.4379 294.7664 296.0795 LON LAR1 0.3566 0.3969 293.9634 295.2214 CYL2 0.3543 0.4350 294.8529 296.1369 LAR VITESSE3 0.3523 0.4737 295.6452 297.2421 CYL LAR VITESSE2 0.3511 0.4322 294.9357 296.1919 CYL LAR1 0.3330 0.3747 294.5769 295.6955 VITESSE1 0.2380 0.2856 296.8401 297.4603 LAR

novembre 2011 38

4.3 Sur les critères de choix de modèles

AIC et BIC ne sont semblables qu’en apparence

Théories différentesAIC : approximation de la divergence de Kullback-Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée

Asymptotiquement:

( )( ; ) ( )ln (ln( ( )) (ln( ( ))( ) f f

f tI f g f t dt E f t E g tg t

= = −∫

ˆˆ ˆ(ln( ( ; )) ln( ( ))fE E g t L k

θθ θ −∼

novembre 2011 39

BIC : choix bayesien de modèlesm modèles Mi paramétrés par θi de probabilités a priori P(Mi) égales.

Distribution a priori de θi pour chaque modèle P(θi / Mi).Distribution a posteriori du modèle sachant les données P(x/Mi) ou

vraisemblance intégréeChoix du modèle le plus probable a posteriori revient à maximiser

ˆln( ( / ) ln( ( / , ) ln( )2i i ikP M P M nθ −x x∼

0.5

0.5

1

( / )i

j

BIC

i mBIC

j

eP Me

−

−

=

=

∑x

novembre 2011 40

Comparaison AIC BIC

Si n tend vers l’infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l’AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biais-varianceL’AIC est un critère prédictif tandis que le BIC est un

critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation Illogisme à utiliser les deux simultanément

novembre 2011 41

4.4 Ajuster ou prédire?

Les critères précédents utilisent deux fois les données: une fois pour estimer, une autre pour mesurer la qualitéPrédire les données futures et non le passé!Minimiser l’espérance de l’erreur quadratique de prédiction 2ˆ( )E y y−

novembre 2011 42

Solution pratique: la validation croisée« Leave one out »: chaque observation est estimée à l’aide des n-1 autres

résidu prédit:

PRESS predicted error sum of squares

( ) ( )

-1

ˆˆ ˆ( )1

terme diagonal du projecteur

i i i ii i i i

i

i

y yy f x y yh

h

− − −− = − =

−

X(X'X) X'

( )2

( )

1

ˆn

ii i

iy y −

=

−∑

novembre 2011 43

quelques press

modéle complet: 732726946

puissance poids 308496438cylindree puissance poids 369112558puissance 327142373

novembre 2011 44

4.5 Sélectionner ou non?

Contestable si on a un modèle: difficile de proposer à l’utilisateur une formule qui ne tient pas compte de variables pourtant influentes et ne permet pas de quantifier l’effet de leurs variations sur la réponse Y.

Coefficients de corrélation de Pearson, N = 18

CYL PUIS LON LAR POIDS VITESSE

PRIX 0.63858 0.79870 0.64376 0.54665 0.75329 0.58176

novembre 2011 45

Comment garder toutes les variables?

Régression sur composantes principalesRégression PLSRégression ridgeLasso

Utile pour le cas maudit: p>nMais: perte de certaines propriétés: estimateurs biaisés, non-invariance par changement d’échelle Nécessité de centrer réduire au préalable

novembre 2011 46

5. Régression sur composantes principales

ACP sur les XChaque composante est une combinaison linéaire de tous les prédicteursRégression ascendante sur la première composante, puis sur les deux premieres etc.Composantes principales non corrélées entre ellesOn garde tous les prédicteurs

novembre 2011 47

+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 4.4209 | 73.68 | 73.68 | ******************************************************************************** || 2 | 0.8561 | 14.27 | 87.95 | **************** || 3 | 0.3731 | 6.22 | 94.17 | ******* || 4 | 0.2139 | 3.57 | 97.73 | **** || 5 | 0.0928 | 1.55 | 99.28 | ** || 6 | 0.0433 | 0.72 | 100.00 | * |

+--------+------------+----------+----------+----------------------------------------------------------------------------------+

----------------------------+------------------------------------+ VARIABLES | CORRELATIONS VARIABLE-FACTEUR | ----------------------------+------------------------------------+ IDEN - LIBELLE COURT | 1 2 3 4 5 | ----------------------------+------------------------------------+ Cyli - cylindree | 0.89 -0.11 0.22 -0.37 -0.05 | Puis - puissance | 0.89 -0.38 0.11 0.17 0.09 | Long - longueur | 0.89 0.38 -0.04 0.13 -0.22 | Larg - largeur | 0.81 0.41 -0.37 -0.10 0.15 | Poid - poids | 0.91 0.22 0.30 0.14 0.09 | Vite - vitesse | 0.75 -0.57 -0.30 0.03 -0.06 | ----------------------------+------------------------------------+

novembre 2011 48

novembre 2011 49

novembre 2011 50

Changement de base

Formule de reconstitution X=CU’Estimation

coefficients de régression de y sur les composantes principales

( )

( )

11

1 1 1

1 1ˆ ' ' ' ' ' '

1 1 1 ˆ' ' ' ' '

UC CU UC y U C CU UC yn n

U U UC y U U U C y U C y Un n n

β

α

−−

− − −

⎛ ⎞= = ⎜ ⎟⎝ ⎠

= Λ = Λ = Λ =

α

2 1

22 1 2

ˆ ˆˆ ˆ ˆ' ( )

ˆ ˆ( ) ' (

) p

jkj

U U Vu

V U U V

β α α β α σ

β σ β σ1k kλ

−

−

= = = Λ

= Λ = ∑=

novembre 2011 51

prédiction

Combinaison linéaire des composantes principales

Prédicteur approché en éliminant les petites valeurs propres

1 1ˆ ˆ ˆˆ ... p py X XU Cβ α α α α= = = = + +c c

novembre 2011 52

• résultats ordonnés selon le nombre de composantes principales conservées :

dim RMSE Intercept CYL PUIS LON LAR POIDS VITESSE

1 4301.68 -43286.46 2.74369 49.978 46.0278 175.804 7.5893 71.3832 4401.15 -34893.04 2.94823 62.544 34.5556 124.103 6.4980 102.8273 4451.25 -5360.02 4.31052 75.618 30.1484 -39.880 11.5931 45.2224 4296.24 -5829.58 -2.62099 131.959 70.7514 -167.635 18.6615 64.6675 4294.23 -9856.87 -4.01533 181.544 -42.9173 141.908 26.3105 11.2166 4406.23 -8239.36 -3.50518 282.169 -15.0377 208.694 12.5747 -111.114

• coefficients de corrélation entre la variable prix et les 6 composantes principales :----------------------------+--------------------------------------------+

| CORRELATIONS VARIABLE-FACTEUR |----------------------------+--------------------------------------------+

| 1 2 3 4 5 6 |----------------------------+--------------------------------------------+PRIX | -0.77 0.09 -0.13 -0.23 -0.16 -0.10 |----------------------------+--------------------------------------------+

L’ordre des corrélations n’est pas celui des valeurs propres

novembre 2011 53

6 Régression PLS

Proposée par H.et S.Wold, (cf.M.Tenenhaus 1998) proche de la régression sur composantes principalesprojection sur des combinaisons linéaires des prédicteurs non corrélées entre ellesdifférence essentielle: composantes PLS optimisées pour être prédictives de Y, alors que les composantes principales ne font qu’extraire le maximum de variance des prédicteurs sans tenir compte de Y.

novembre 2011 54

Régression PLS (2)

t=Xwcritère de Tucker

max cov2(y ;Xw)compromis entre maximiser la corrélation entre t1 et y (régression ordinaire) et maximiser la variance de t1 (ACP des prédicteurs) :

cov2(y ;Xw)= r2(y ;Xw) V(Xw) V(y)

novembre 2011 55

Régression PLS (3)

solution : w1j proportionnels aux covariances cov(y ; xj) : coefficients du même signe que les corrélations simples entre y et les xj ; pas de signes surprenants.régression PLS avec une composante y=c1t1+ y1

deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les résidus des régressions des xj avec t1 puis y=c1t1+ c2t2 +y2 etc.

novembre 2011 56

Régression PLS (4)

nombre de composantes PLS choisi par validation croisée.la première composante PLS est toujours plus corrélée avec Y que la première composante principale :

1 1 1 1 1 1

1 1 1 1

cov( ; ) ( ; ) ( ) ( ) cov( ; ) ( ; ) ( ) ( )donc ( ; ) ( ) ( ; ) ( )

y t r y t t y y c r y c c yr y t t r y c c

σ σ σ σσ σ

= ≥ =≥

1 1 1 1( ) ( ) d'où ( ; ) ( ; )c t r y t r y cσ σ≥ ≥

novembre 2011 57

Régression PLS (5)

Avantage de la régression PLS : simplicité de son algorithme. Ni inversion, ni diagonalisation de matrices, mais seulement une succession de régressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter de très grands ensembles de données.la régression PLS donne en pratique d’excellentes prévisions, même dans le cas d’un petit nombre d’observations et d’un grand nombre de variables.

novembre 2011 58

The PLS Procedure

Percent Variation Accounted forby Partial Least Squares Factors

Number ofExtracted Model Effects Dependent VariablesFactors Current Total Current Total

1 73.6230 73.6230 60.8374 60.8374

Parameter Estimates for Centered and Scaled Data

PRIX

Intercept 0.0000000000CYL 0.1457852413PUIS 0.1823397520LON 0.1469668392LAR 0.1247976334POIDS 0.1719738622VITESSE 0.1328131564

Parameter Estimates

PRIX

Intercept -39940.36629CYL 2.56208PUIS 58.80660LON 43.68699LAR 154.34048POIDS 8.25174VITESSE 71.89164

novembre 2011 59

Root MSE 4239.06107

Regression PLS 23:21 Wednesday, September 22, 2004

Obs NOM CYL PUIS LON LAR POIDS VITESSE NAT FINITION PRIX py

1 ALFASUD-TI-1350 1350 79 393 161 870 165 I B 30570 29223.102 AUDI-100-L 1588 85 468 177 1110 160 D TB 39990 37552.653 SIMCA-1307-GLS 1294 68 424 168 1050 152 F M 29600 31418.154 CITROEN-GS-CLUB 1222 59 412 161 930 151 F M 28250 28037.705 FIAT-132-1600GLS 1585 98 439 164 1105 165 I B 34900 35354.306 LANCIA-BETA-1300 1297 82 429 169 1080 160 I TB 35480 33444.597 PEUGEOT-504 1796 79 449 169 1160 154 F B 32300 35649.188 RENAULT-16-TL 1565 55 424 163 1010 140 F B 32000 29383.529 RENAULT-30-TS 2664 128 452 173 1320 180 F TB 47700 44692.4810 TOYOTA-COROLLA 1166 55 399 157 815 140 J M 26540 24733.9411 ALFETTA-1.66 1570 109 428 162 1060 175 I TB 42395 35521.0912 PRINCESS-1800-HL 1798 82 445 172 1160 158 GB B 33990 36406.5713 DATSUN-200L 1998 115 469 169 1370 160 J TB 43980 41321.7114 TAUNUS-2000-GL 1993 98 438 170 1080 167 D B 35010 37219.4715 RANCHO 1442 80 431 166 1129 144 F TB 39450 32576.9016 MAZDA-9295 1769 83 440 165 1095 165 J M 27900 35059.1317 OPEL-REKORD-L 1979 100 459 173 1120 173 D B 32700 39443.0918 LADA-1300 1294 68 404 161 955 140 U M 22100 27817.42

novembre 2011 60

7 La régression ridge

Hoerl et Kennard (1970)

Trois interprétationsEstimateur rétréci d’erreur minimaleCoefficients bornésApproche bayesienne

( ) 1' 'Rb X X kI X y−= +

novembre 2011 61

7.1 Diminution de l’erreur quadratique

En régression simple sur données centrées y=α+βx +e

Estimateur rétréci

Minimum pour

2ˆˆ et i i

i

x yy

xα β= = ∑

∑

ˆ ˆR cβ β=

( ) ( ) ( )( ) ( ) ( ) ( )222 2 22 2 2 2

2ˆ ˆ ˆ ˆ 1 1

i

E c V c E c c V c c cx

σβ β β β β β β β⎛ ⎞− = + − = + − = + −⎜ ⎟⎝ ⎠ ∑

2

22

2i

c

x

βσβ

=+∑

novembre 2011 62

Ridge avec 22

2

ˆ i iR

i

x y

xβ

σβ

=+

∑∑

2

2k σβ

=

novembre 2011 63

7.2 Régression à coefficients bornés

Minimisation de

régularise la solution pour éviter des coefficients instables

2 2 2 sous y Xb b c− ≤

novembre 2011 64

7.3 Régression bayesienne

distribution a priori gaussienne sur βY/β est une gaussienneloi a posteriori de β/Y gaussienne valeur la plus probable a posteriori, espérance a posteriori :

2(0; )N Iψ2( ; )N X Iβ σ

12

2ˆ ' 'X X I X yσβ

ψ

−⎛ ⎞

= +⎜ ⎟⎝ ⎠

novembre 2011 65

Evolution des coefficients de régression en fonction du paramètre k .Regression Coefficients-----------------------------------------------------------------------------------------------------Ridge Parameter cylindree puissance longueur largeur poids vitesse -----------------------------------------------------------------------------------------------------0.0 -3.50518 282.169 -15.0377 208.694 12.5747 -111.114 0.05 -2.18019 197.405 2.76652 108.987 15.2924 -26.2437 0.1 -1.30002 163.095 12.6414 78.4137 14.811 3.09658 0.15 -0.693863 142.962 18.2783 67.2553 14.0478 18.3139 0.2 -0.255884 129.251 21.7857 63.497 13.3264 27.6233 0.25 0.0724271 119.112 24.1123 62.9383 12.6918 33.84810.3 0.325527 111.21 25.727 63.8295 12.1402 38.2416 0.35 0.524946 104.817 26.8832 65.3631 11.6592 41.4531 0.4 0.684805 99.501 27.7286 67.1422 11.2366 43.8555 0.45 0.814737 94.9847 28.3541 68.9656 10.8621 45.6797 0.5 0.921532 91.0816 28.819 70.7303 10.5273 47.0767 -----------------------------------------------------------------------------------------------------

Choix de k:• graphique • validation croisée

SAS fournit les erreurs standard pour RIDGE et RCP

novembre 2011 66

7.4 nombre équivalent de parametres ou ddl effectif

de façon générale pour un estimateur linéaire

(Hastie et al., 2009)

( )( )1

1

( ) ' '

P

j

j j

df k Trace k

nn k

λλ

−

=

= +

=+∑

X X X I X

ˆ( ) si df Trace= S y = Sy

novembre 2011 67

8 Le LASSO

The Lasso is a shrinkage and selection method for linear regression. It minimizes the usual sum of squared errors, with a bound on the sum of the absolute values of the coefficients.

http://www-stat.stanford.edu/~tibs/lasso.html

novembre 2011 68

Critère voisin de la ridge:

Pénalité L1 au lieu de L2. Pas de solution analytiqueSi c est petit, certains coefficients seront nuls

sélectionSi on retrouve la régression multiple usuelle

2

1 sous

p

jj

y Xb b c=

− <∑

1

p

jolsj

c b=

> ∑

novembre 2011 69

novembre 2011 70

ods graphics on;proc glmselect data=bagnole plots=all;model prix=cyl puis lon lar poids vitesse / selection=lasso (stop=7 choose=BIC);run;

Lasso et PROC GLMSELECT

Données pour regressionThe GLMSELECT Procedure

LASSO Selection Summary

Effect Effect NumberStep Entered Removed Effects In BIC

0 Intercept 1 317.8324-------------------------------------------------------------

1 PUIS 2 314.09912 POIDS 3 305.3416*3 LAR 4 308.16794 CYL 5 311.03175 VITESSE 6 314.03646 LON 7 317.3025

* Optimal Value Of Criterion

Selection stopped because all effects are in the final model.

novembre 2011 71

novembre 2011 72

novembre 2011 73

novembre 2011 74

The GLMSELECT ProcedureSelected Model

The selected model, based on BIC, is the model at Step 2.

Effects: Intercept PUIS POIDS


Sum of MeanSource DF Squares Square F Value

Model 2 499772877 249886439 15.99Error 15 234382913 15625528Corrected Total 17 734155790

Root MSE 3952.91380Dependent Mean 34159R-Square 0.6807Adj R-Sq 0.6382AIC 320.87771AICC 323.95463BIC 305.34160C(p) 0.07232SBC 303.54882

Parameter Estimates

Parameter DF Estimate

Intercept 1 5002.288413PUIS 1 159.803389POIDS 1 14.492675

novembre 2011 75

novembre 2011 76

Interprétation bayesienne:loi a priori de Laplace ou double exponentielle sur chaque βj

Estimateur non linéaire

1( ) exp2

jjf

ββ

τ τ

⎛ ⎞⎜ ⎟= −⎜ ⎟⎝ ⎠

novembre 2011 77

Avantages et inconvénientsPour

Le Lasso rétrécit les coefficients vers zéro de façon continue. Produit un modèle parcimonieux.Est une méthode de sélection.

Contrele nombre de variables sélectionnées est limité par nInadapté au cas des puces à ADN n(arrays)<<p(genes)Choisit une seule variable dans un groupe de variables très corrélée

novembre 2011 78

Une variante « lasso hybrid selection »pour obliger SAS à faire de la validation croisée avec le critère PRESS

LSCOEFFS requests a hybrid version of the LAR and LASSO methods, where the sequence of models is determined by the LAR or LASSOalgorithm but the coefficients of the parameters for the model

at any step are determined by using ordinary least squares.

proc glmselect data=bagnole plots=all;model prix=cyl puis lon lar poids vitesse /selection=lasso (stop=7 lscoeffs choose=Press);

run;

novembre 2011 79

The GLMSELECT ProcedureSelected Model

The selected model, based on PRESS, is the model at Step 2.

Effects: Intercept PUIS POIDS


Sum of MeanSource DF Squares Square F Value

Model 2 504091154 252045577 16.43Error 15 230064636 15337642Corrected Total 17 734155790

Root MSE 3916.33023Dependent Mean 34159R-Square 0.6866Adj R-Sq 0.6448AIC 320.54298AICC 323.61991PRESS 308496438SBC 303.21410

Parameter Estimates

Parameter DF Estimate

Intercept 1 1775.601201PUIS 1 172.967225POIDS 1 16.451161

novembre 2011 80

novembre 2011 81

novembre 2011 82

novembre 2011 83

9. Elastic net

Combine les pénalités de la ridge et du lasso

autre formulation:

( )2 2

1

2

1 2

min (1 )

p

j jj

y Xb b b

avec

λ α α

λαλ λ

=

− + + −

=+

∑

( )2 22 1 1

min y Xb b bλ λ− + +

novembre 2011 84

La partie L1 conduit à un modèle «sparse»La partie L2 enlève la limitation sur le nombre de variables retenues et favorise le choix de groupes

Zou et Hastie

novembre 2011 85

novembre 2011 86

Références

Birkes D. , Dodge Y. (2003) Alternative methods of regression, WileyHastie T., Tibshirani R., Friedman J. (2009) The elements of statistical learning, 2nd edition, Springer, 2009Tenenhaus M. (1998) La régression PLS, TechnipTibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288). Weisberg S. (1980) Applied linear regression, Wiley

Traitement de la multicolinéarité en régressioncedric.cnam.fr/~saporta/multicolinearite.pdf · novembre 2011 1 Traitement de la multicolinéarité en régression Gilbert Saporta

Documents