novembre 2011 1 Traitement de la multicolinéarité en régression Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC CNAM 292 rue Saint Martin, F-75003 Paris [email protected] http://cedric.cnam.fr/~saporta
novembre 2011 1
Traitement de la multicolinéarité en régression
Gilbert SaportaChaire de Statistique Appliquée & CEDRIC CNAM292 rue Saint Martin, F-75003 Paris
[email protected]://cedric.cnam.fr/~saporta
novembre 2011 2
Plan
1. Rappels sur la régression multiple2. La multicolinéarité exacte3. Multicolinéarité approchée4. Sélection de variables, choix de modèles5. Régression sur composantes principales6. Régression PLS7. Régression ridge8. Lasso9. Elastic net
novembre 2011 3
1. Régression linéaire multiple (rappels)
1.1 Le modèle
Un peu de géometrie
01
p
j jj
Y xβ β ε=
= + +∑
novembre 2011 4
Moindres carrés
ˆ 0
Equations normales
projecteur
W⊥ = ∀
-1
-1
y = Xb = Ayy - Xb (y - Xb)'Xu uX'y = X'Xb b = (X'X) X'y
A = X(X'X) X'
• b estimateur de variance minimale de β parmi les estimateurslinéaires sans biais• estimateur du maximum de vraisemblance si résidus gaussiens iid• Estimations non uniques de β si X’X non inversiblemais projection uniquey
novembre 2011 5
Variance des estimations
Estimations imprécises si multicolinéarité
Estimation de σ2
2 1( ) (V σ −=b X'X)
2
2 1
ˆ( )ˆ
1
n
i ii
y y
n pσ =
−=
− −
∑
novembre 2011 6
1.2 Qualité de l’ajustement
Le R2: cosinus carré de l’angle entre et W
Analyse de variance= test de nullité de R2: absence totale de liaison
y - y
novembre 2011 7
1.2 Qualité de l’ajustement (suite)
Le R2 est biaisé: surestimation
R2 ajusté :
Peut être négatif…
2 2 22
1( ) R (1 R ) ( )1
pE R On n
= + − +−
2
22
2 2 2 2 2 *
( 1)ˆ1
ˆˆ(1 ) (1 )y y
n R pRn p
R s R sσ σ
− −=
− −
= − = −
novembre 2011 8
2. Multicolinéarité exacte
2.1 Régression sur données compositionnelles
xj proportions de somme =1
Régression sans constante
0 1 21
0 1 2 1 1 2 2
0 1 1 0 2 2 0
1 1 2 2
... 1
ˆ ( ... ) ... ˆ ( ) ( ) ....( )ˆ ...
p
j j pj
p p p
p p
p p
Y x x x x
Y x x x x x x
Y x x x
Y x x x
β β ε
β β β β
β β β β β β
α α α
=
= + + + + =
= + + + + + +
= + + + + +
= + + +
∑
novembre 2011 9
2.2 Régression sur variables qualitatives : le modèle linéaire général
Un prédicteur qualitatif Obs NOM PUIS POIDS FINITION PRIX
1 ALFASUD-TI-1350 79 870 B 305702 AUDI-100-L 85 1110 TB 399903 SIMCA-1307-GLS 68 1050 M 296004 CITROEN-GS-CLUB 59 930 M 282505 FIAT-132-1600GLS 98 1105 B 349006 LANCIA-BETA-1300 82 1080 TB 354807 PEUGEOT-504 79 1160 B 323008 RENAULT-16-TL 55 1010 B 320009 RENAULT-30-TS 128 1320 TB 4770010 TOYOTA-COROLLA 55 815 M 2654011 ALFETTA-1.66 109 1060 TB 4239512 PRINCESS-1800-HL 82 1160 B 3399013 DATSUN-200L 115 1370 TB 4398014 TAUNUS-2000-GL 98 1080 B 3501015 RANCHO 80 1129 TB 3945016 MAZDA-9295 83 1095 M 2790017 OPEL-REKORD-L 100 1120 B 3270018 LADA-1300 68 955 M 22100
novembre 2011 10
Recodage des modalités en indicatrices
La somme des indicatrices vaut 1
Obs NOM PUIS POIDS F1 F2 F3 PRIX
1 ALFASUD-TI-1350 79 870 1 0 0 305702 AUDI-100-L 85 1110 0 0 1 399903 SIMCA-1307-GLS 68 1050 0 1 0 296004 CITROEN-GS-CLUB 59 930 0 1 0 282505 FIAT-132-1600GLS 98 1105 1 0 0 349006 LANCIA-BETA-1300 82 1080 0 0 1 354807 PEUGEOT-504 79 1160 1 0 0 323008 RENAULT-16-TL 55 1010 1 0 0 320009 RENAULT-30-TS 128 1320 0 0 1 4770010 TOYOTA-COROLLA 55 815 0 1 0 2654011 ALFETTA-1.66 109 1060 0 0 1 4239512 PRINCESS-1800-HL 82 1160 1 0 0 3399013 DATSUN-200L 115 1370 0 0 1 4398014 TAUNUS-2000-GL 98 1080 1 0 0 3501015 RANCHO 80 1129 0 0 1 3945016 MAZDA-9295 83 1095 0 1 0 2790017 OPEL-REKORD-L 100 1120 1 0 0 3270018 LADA-1300 68 955 0 1 0 22100
novembre 2011 11
Estimation des paramètres indéterminée car colinéarité avec le terme constantNécessité de contraintes:
Élimination d’une modalité (coefficient nul)
R-Square Coeff Var Root MSE PRIX Mean
0.904689 6.791932 2320.030 34158.61
ErreurParameter Estimation standard t Value Pr > |t|
Intercept 23382.59786 B 6200.788037 3.77 0.0023PUIS 86.96368 46.069500 1.89 0.0816POIDS 8.00795 6.568084 1.22 0.2444FINITION B -6243.33612 B 1432.072306 -4.36 0.0008FINITION M -10056.07842 B 1906.652796 -5.27 0.0002FINITION TB 0.00000 B . . .
NOTE: The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations.Terms whose estimates are followed by the letter 'B' are not uniquely estimable.
novembre 2011 12
Autres contraintes : Coefficients à somme nulle (préférée en trade-off)Solutions équivalentes car mêmes prévisionsPassage simple
1 1 2 2 3 1 1 2 2 3 3
1 2 3 3 1 2
1 2 21 1 1
12 2
1 23
00 ( )
2 3 3 3
23 3
3
F F F F F Fβ β α α αα α α α α α
β β βα β β
βα β
β βα
+ + = + ++ + = = − +
+= − = −
= −
+= −
Les écarts ne changent pas :
1 2 1 2α α β β− = −
novembre 2011 13
Création d’interactions
Croisement de variables à m1 et m2 modalités:
Variable à m1m2 modalités
novembre 2011 14
novembre 2011 15
novembre 2011 16
data;length age $ 12 ft $ 12 diplome $ 12 fonction $ 12 ;title ' modele avec interaction fonction taille complete';infile 'c:\GILBERT\BVA\agrod.dat';input numero $ 10-13 fonct 16 type $ 25 pvente 26-28
salb 36-38 salcod 39 age1 74 dipl1 75;if pvente = 1 then taille = 1;if 2<=pvente <=19 then taille = 2;if pvente >=20 then taille = 3;sal = 25 + 50*(salcod - 1);if sal >= 25 then salaire = sal;else salaire = salb;if age1<=2 then age='<34';if 3<= age1 <=4 then age='35-44';if age1=5 then age='45-49';if age1>=6 then age='>50' ;if dipl1=1 then diplome='Primaire';if dipl1=2 then diplome='Bepc';if dipl1=3 or 5<= dipl1<=6 then diplome='Bac ou BTS';if dipl1=4 then diplome='CAP';if dipl1=7 then diplome='Ingenieur';if fonct=1 then fonction ='Directeur';if 2<=fonct<=3 then fonction='Autre';if fonct>=2 then ft= 'autre';if fonct=1 and taille=1 then ft='dir1';if fonct=1 and taille=2 then ft ='dir2';if fonct=1 and taille=3 then ft ='dir3';
proc glm;class fonct taille age diplome;model salaire = fonct*taille age diplome /solution p cli;lsmeans fonct*taille age diplome /p;run;
novembre 2011 17
modele avec interaction fonction taille complete 223:45 Wednesday, September 29, 2004
The GLM Procedure
Dependent Variable: salaire
Somme des ValeurSource DDL carrés Carré moyen F Pr > F
Model 15 1100307.201 73353.813 15.71 <.0001
Error 262 1222952.616 4667.758
Corrected Total 277 2323259.817
R-Square Coeff Var Root MSE salaire Mean
0.473605 44.83449 68.32099 152.3849
ValeurSource DDL Type I SS Carré moyen F Pr > F
fonct*taille 8 871474.6291 108934.3286 23.34 <.0001age 3 98959.5435 32986.5145 7.07 0.0001diplome 4 129873.0280 32468.2570 6.96 <.0001
ValeurSource DDL Type III SS Carré moyen F Pr > F
fonct*taille 8 325123.6376 40640.4547 8.71 <.0001age 3 139366.8734 46455.6245 9.95 <.0001diplome 4 129873.0280 32468.2570 6.96 <.0001
novembre 2011 18
Parameter Estimation standard t Value Pr > |t|
Intercept 115.8767770 B 18.47798316 6.27 <.0001fonct*taille 1 1 19.2621518 B 17.11380134 1.13 0.2614fonct*taille 1 2 92.8556242 B 18.00924814 5.16 <.0001fonct*taille 1 3 150.7352311 B 27.60425699 5.46 <.0001fonct*taille 2 1 -19.8378255 B 22.17433682 -0.89 0.3718fonct*taille 2 2 -8.5372771 B 16.10439175 -0.53 0.5965fonct*taille 2 3 17.4229154 B 16.81984076 1.04 0.3012fonct*taille 3 1 11.4642504 B 20.12480471 0.57 0.5694fonct*taille 3 2 0.3273331 B 16.08346634 0.02 0.9838fonct*taille 3 3 0.0000000 B . . .age 35-44 -31.4722782 B 14.19292624 -2.22 0.0274age 45-49 20.2791785 B 16.66074286 1.22 0.2246age <34 -51.7826584 B 14.98593828 -3.46 0.0006age >50 0.0000000 B . . .diplome Bac ou BTS 46.5772677 B 16.01503767 2.91 0.0039diplome Bepc 24.4751634 B 17.70833447 1.38 0.1681diplome CAP 39.0939164 B 19.57272489 2.00 0.0468diplome Ingenieur 107.2743816 B 20.86902338 5.14 <.0001diplome Primaire 0.0000000 B . . .
novembre 2011 19
The GLM ProcedureLeast Squares Means
salaire LSMEANfonct taille LSMEAN Number
1 1 162.879135 11 2 236.472608 21 3 294.352214 32 1 123.779158 42 2 135.079706 52 3 161.039899 63 1 155.081234 73 2 143.944316 83 3 143.616983 9
Least Squares Means for effect fonct*taillePr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: salaire
i/j 1 2 3 4 5 6 7 8 9
1 <.0001 <.0001 0.0659 0.0720 0.9078 0.6947 0.2321 0.26142 <.0001 0.0238 <.0001 <.0001 <.0001 0.0001 <.0001 <.00013 <.0001 0.0238 <.0001 <.0001 <.0001 <.0001 <.0001 <.00014 0.0659 <.0001 <.0001 0.5883 0.0804 0.1937 0.3428 0.37185 0.0720 <.0001 <.0001 0.5883 0.0940 0.2935 0.5477 0.59656 0.9078 <.0001 <.0001 0.0804 0.0940 0.7604 0.2712 0.30127 0.6947 0.0001 <.0001 0.1937 0.2935 0.7604 0.5559 0.56948 0.2321 <.0001 <.0001 0.3428 0.5477 0.2712 0.5559 0.98389 0.2614 <.0001 <.0001 0.3718 0.5965 0.3012 0.5694 0.9838
novembre 2011 20
age LSMEAN Number
35-44 157.187801 145-49 208.939257 2<34 136.877420 3>50 188.660079 4
Least Squares Means for effect agePr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: salaire
i/j 1 2 3 4
1 0.0003 0.0540 0.02742 0.0003 <.0001 0.22463 0.0540 <.0001 0.00064 0.0274 0.2246 0.0006
novembre 2011 21
diplome LSMEAN Number
Bac ou BTS 176.009261 1Bepc 153.907157 2CAP 168.525910 3Ingenieur 236.706375 4Primaire 129.431993 5
Least Squares Means for effect diplomePr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: salaire
i/j 1 2 3 4 5
1 0.1174 0.6103 0.0002 0.00392 0.1174 0.4286 <.0001 0.16813 0.6103 0.4286 0.0011 0.04684 0.0002 <.0001 0.0011 <.00015 0.0039 0.1681 0.0468 <.0001
novembre 2011 22
Deuxieme modèle
if fonct=3 and taille=1 then ft='1';if fonct=2 and taille=3 then ft='1';if fonct=1 and taille=1 then ft='1';if fonct=1 and taille=2 then ft ='2';if fonct=1 and taille=3 then ft ='3';if fonct=2 and taille=1 then ft='4';if fonct=2 and taille=2 then ft='4';if fonct=3 and taille=2 then ft='4';if fonct=3 and taille=3 then ft='4';
proc glm;class ft age diplome;model salaire = ft age diplome /solution p clm;lsmeans ft age diplome /p;run;
novembre 2011 23
Somme des ValeurSource DDL carrés Carré moyen F Pr > F
Model 9 1091494.221 121277.136 26.39 <.0001
Error 268 1231765.596 4596.140
Corrected Total 277 2323259.817
R-Square Coeff Var Root MSE salaire Mean
0.469812 44.48921 67.79484 152.3849
ErreurParameter Estimation standard t Value Pr > |t|
Intercept 108.1801431 B 13.79447986 7.84 <.0001ft 1 20.9719018 B 9.20765648 2.28 0.0235ft 2 96.7800140 B 14.04629291 6.89 <.0001ft 3 155.3020627 B 24.88831243 6.24 <.0001ft 4 0.0000000 B . . .age 35-44 -29.9167734 B 13.87680050 -2.16 0.0320age 45-49 21.3891613 B 16.35408144 1.31 0.1920age <34 -50.8856349 B 14.40849511 -3.53 0.0005age >50 0.0000000 B . . .diplome Bac ou BTS 49.5558603 B 15.32114064 3.23 0.0014diplome Bepc ou CAP 32.8345809 B 15.77742828 2.08 0.0384diplome Ingenieur 109.2620741 B 20.42227391 5.35 <.0001diplome Primaire 0.0000000 B . . .
novembre 2011 24
The GLM Procedure
95% Confidence Limits forObservation Observed Predicted Residual Mean Predicted Value
1 75.0000000 127.8222703 -52.8222703 109.1875210 146.45701952 125.0000000 129.1520449 -4.1520449 102.1480528 156.15603693 75.0000000 129.1520449 -54.1520449 102.1480528 156.15603694 75.0000000 148.7911318 -73.7911318 128.3923441 169.18991955 125.0000000 254.5160174 -129.5160174 221.9562145 287.07582036 120.0000000 127.8222703 -7.8222703 109.1875210 146.45701957 120.0000000 262.1524312 -142.1524312 211.9482235 312.35663908 75.0000000 200.0970665 -125.0970665 172.4353924 227.75874069 225.0000000 237.7947380 -12.7947380 202.0904884 273.498987610 225.0000000 150.5412062 74.4587938 116.1014683 184.980944211 175.0000000 175.0433837 -0.0433837 135.8599746 214.226792812 350.0000000 314.2222312 35.7777688 275.7462426 352.698219813 125.0000000 148.7911318 -23.7911318 128.3923441 169.189919514 216.0000000 204.9601571 11.0398429 170.0434036 239.876910615 75.0000000 148.7911318 -73.7911318 128.3923441 169.189919516 225.0000000 208.4973456 16.5026544 174.8432211 242.151470017 125.0000000 148.7911318 -23.7911318 128.3923441 169.189919518 125.0000000 129.1520449 -4.1520449 102.1480528 156.156036919 * . 161.9866258 . 133.4713076 190.501944020 170.0000000 224.5992440 -54.5992440 198.3268148 250.871673221 400.0000000 372.7442799 27.2557201 325.2811190 420.207440822 75.0000000 111.1009909 -36.1009909 88.0153232 134.186658623 150.0000000 284.3054578 -134.3054578 250.9978248 317.613090724 325.0000000 275.9051787 49.0948213 243.6405200 308.169837525 120.0000000 148.7911318 -28.7911318 128.3923441 169.1899195
novembre 2011 25
Obs NOM CYL PUIS LON LAR POIDS VITESSE NAT FINITION PRIX
1 ALFASUD-TI-1350 1350 79 393 161 870 165 I B 305702 AUDI-100-L 1588 85 468 177 1110 160 D TB 399903 SIMCA-1307-GLS 1294 68 424 168 1050 152 F M 296004 CITROEN-GS-CLUB 1222 59 412 161 930 151 F M 282505 FIAT-132-1600GLS 1585 98 439 164 1105 165 I B 349006 LANCIA-BETA-1300 1297 82 429 169 1080 160 I TB 354807 PEUGEOT-504 1796 79 449 169 1160 154 F B 323008 RENAULT-16-TL 1565 55 424 163 1010 140 F B 320009 RENAULT-30-TS 2664 128 452 173 1320 180 F TB 4770010 TOYOTA-COROLLA 1166 55 399 157 815 140 J M 2654011 ALFETTA-1.66 1570 109 428 162 1060 175 I TB 4239512 PRINCESS-1800-HL 1798 82 445 172 1160 158 GB B 3399013 DATSUN-200L 1998 115 469 169 1370 160 J TB 4398014 TAUNUS-2000-GL 1993 98 438 170 1080 167 D B 3501015 RANCHO 1442 80 431 166 1129 144 F TB 3945016 MAZDA-9295 1769 83 440 165 1095 165 J M 2790017 OPEL-REKORD-L 1979 100 459 173 1120 173 D B 3270018 LADA-1300 1294 68 404 161 955 140 U M 22100
3 La multicolinéarité approchée
3.1 Un exemple
novembre 2011 26
Analysis of Variance
Sum of Mean Valeur Source DDL Squares Square F Pr > F
Model 6 520591932 86765322 4.47 0.0156 Error 11 213563858 19414896 Corrected Total 17 734155790
Root MSE 4406.23379 R-Square 0.7091 Dependent Mean 34159 Adj R-Sq 0.5504 Coeff Var 12.89934
Parameter Estimates
Parameter Standard Variance Variable DDL Estimate Error t Value Pr > |t| Inflation
Intercept 1 -8239.36268 42718 -0.19 0.8506 0 CYL 1 -3.50518 5.55060 -0.63 0.5406 3.77201 PUIS 1 282.16880 174.88297 1.61 0.1349 11.11882 LON 1 -15.03766 129.74749 -0.12 0.9098 7.20420 LAR 1 208.69377 412.04788 0.51 0.6225 4.19760 POIDS 1 12.57468 24.62219 0.51 0.6197 9.95728 VITESSE 1 -111.11355 222.25657 -0.50 0.6270 6.37511
Résultats
novembre 2011 27
Dans l’exemple aucun coefficient significatif! Le test de Student d’un coefficient n’est pas un test de non corrélation, mais un test de non apport d’une variable conditionnellement aux p-1 autresExplication: la multicolinéaritéDe fortes corrélations entre prédicteurs conduisent à de mauvaises estimations des bjcar det(X’X)≈0
3.2 estimation et test des coefficients
novembre 2011 28
3.3 Détection
Etude de la matrice de corrélation
ACP (voir plus loin)Analyse des facteurs d’inflation de la variance
2 2 21, 2
1 2
1( )1 ( ; , ,..., )j j j
j p
V b VIFn n R x x x x nσ σ σ−= = =
−R
Matrice de corrélations
CYL PUIS LON LAR POIDS VITESSECYL 1.00000 0.79663 0.70146 0.62976 0.78895 0.66493PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593LAR 0.62976 0.52083 0.84927 1.00000 0.71687 0.47295POIDS 0.78895 0.76529 0.86809 0.71687 1.00000 0.47760VITESSE 0.66493 0.84438 0.47593 0.47295 0.47760 1.00000
novembre 2011 29
4. Sélection de variables, choix de modèles
Choix de k variables parmi pElimination de variables non pertinentesObtention de formules plus stables
Critères:A k fixé: R2
Comparaison de modèles de tailles différentesCapacité prédictive, complexité
novembre 2011 30
la recherche de la parsimonie: le rasoir d’Ockham
Guillaume d’Occam (1285? – 1349?), dit le « docteur invincible »franciscain philosophe logicien et théologien scolastique.Etudes à Oxford, puis Paris. Enseigne quelques années à Oxford. Accusé d'hérésie, convoqué pour s’expliquer à Avignon, excommunié pour avoir fui à Munich à la cour de Louis IV de Bavière. Meurt vraisemblablement de l'épidémie de peste noire.
Principe de raisonnement attribué à Occam : « Les multiples ne doivent pas être utilisés sans nécessité » (pluralitas non est ponenda sine necessitate).
A inspiré le personnage du moine franciscain Guillaume de Baskerville dans le « Nom de la rose » d'Umberto Eco. Premier jour, vêpres : « il ne faut pas multiplier les explications et les causes sans qu'on en ait une stricte nécessité. »
novembre 2011 31
4.1 Quelques critères pour comparer des modèles de tailles différentes
R2 ajusté et sont équivalents
AIC (Akaiké) et BIC (Schwartz)
On cherche à minimiser AIC ou BIC
SSE= somme des carrés des résidus du modèle à k variables
σ
2ln( ) 2( 1) ln( ) 2( 1) (ln 1)
2 ln( ) ln( )( 1) ln( ) ln( )( 1) (ln 1)
SSEAIC L k n k nn
SSEBIC L n k n n k nn
π
π
= − + + = + + + +
= − + + = + + + +
novembre 2011 32
Le Cp de Mallows
On cherche à estimer l’erreur quadratique de prédiction (MSPE) :
En sélectionnant P prédicteurs parmi K :
Si le modèle est le bon E(Cp)=p
The general procedure to find an adequate model by means of the Cp statistic is to calculate Cpfor all possible combinations of variables and the Cp values against p. The model with the lowest Cp value approximately equal to p is the most "adequate" model.
http://www.statistics4u.com/fundstat_eng/cc_varsel_mallowscp.html
novembre 2011 33
4.2 algorithmes de sélection
Dénombrement exhaustif: 2p-1 modèlesMeilleurs sous-ensembles (algorithme de Furnival et Wilson jusqu’à quelques dizaines de variables)
Méthodes pas à pas (stepwise selection)Ascendant (forward)Descendant (backward)Ascendant avec élimination possible (stepwise)…
novembre 2011 34
Summary of Forward Selection
Variable Number Partial Model ValeurStep Entered Vars In R-Square R-Square C(p) F Pr > F
1 PUIS 1 0.6379 0.6379 -0.3084 28.19 <.00012 POIDS 2 0.0487 0.6866 -0.1501 2.33 0.1476
Summary of Backward Elimination
Variable Number Partial Model ValeurStep Removed Vars In R-Square R-Square C(p) F Pr > F
1 LON 5 0.0004 0.7087 5.0134 0.01 0.90982 VITESSE 4 0.0069 0.7018 3.2760 0.29 0.60253 LAR 3 0.0030 0.6988 1.3900 0.13 0.72284 CYL 2 0.0122 0.6866 -0.1501 0.57 0.4646
Les logiciels classiques utilisent des tests d’arret :F pour entrer, pour rester
novembre 2011 35
Les méthodes basées sur des tests F devraient être abandonnées:
utilisation incorrecte de tests multipleserreurs standard ne tenant pas compte du processus de sélection
R2 augmente avec le nombre de variables mais pas R2 ajusté
novembre 2011 36
Adjusted R-Square Selection MethodNombre dans R carréle modèle ajusté R-carré AIC BIC Variables du modèle
2 0.6366 0.6820 285.0800 289.8602 PUIS POIDS3 0.6241 0.6946 286.3954 292.6816 CYL PUIS POIDS3 0.6196 0.6909 286.5979 292.7777 PUIS LAR VITESSE3 0.6169 0.6888 286.7168 292.8340 PUIS POIDS VITESSE3 0.6156 0.6877 286.7743 292.8612 PUIS LON VITESSE1 0.6137 0.6379 285.2916 288.5249 PUIS2 0.6136 0.6619 286.1222 290.5380 PUIS VITESSE2 0.6128 0.6612 286.1601 290.5624 PUIS LON3 0.6098 0.6829 287.0320 292.9829 PUIS LAR POIDS3 0.6089 0.6823 287.0683 293.0000 PUIS LON POIDS2 0.6077 0.6567 286.3822 290.7054 PUIS LAR4 0.5968 0.6976 288.2281 295.9091 CYL PUIS POIDS VITESSE4 0.5967 0.6975 288.2312 295.9099 CYL PUIS LAR POIDS4 0.5952 0.6964 288.2918 295.9270 CYL PUIS LAR VITESSE4 0.5940 0.6955 288.3449 295.9420 PUIS LAR POIDS VITESSE4 0.5938 0.6953 288.3533 295.9443 CYL PUIS LON POIDS4 0.5902 0.6926 288.5046 295.9871 PUIS LON LAR VITESSE3 0.5897 0.6666 287.8850 293.3848 CYL PUIS LON4 0.5894 0.6920 288.5366 295.9962 CYL PUIS LON VITESSE4 0.5894 0.6920 288.5377 295.9965 PUIS LON POIDS VITESSE2 0.5864 0.6381 287.2815 291.2802 CYL PUIS3 0.5839 0.6620 288.1210 293.4958 CYL PUIS VITESSE3 0.5839 0.6619 288.1216 293.4961 CYL PUIS LAR3 0.5839 0.6619 288.1230 293.4968 PUIS LON LAR4 0.5773 0.6830 289.0285 296.1362 PUIS LON LAR POIDS2 0.5761 0.6291 287.6967 291.5440 POIDS VITESSE5 0.5721 0.7058 289.7570 299.1768 CYL PUIS LAR POIDS VITESSE5 0.5648 0.7008 290.0464 299.2005 CYL PUIS LON POIDS VITESSE5 0.5619 0.6988 290.1594 299.2101 CYL PUIS LON LAR VITESSE5 0.5603 0.6977 290.2213 299.2155 CYL PUIS LON LAR POIDS
proc reg;title Regression OLS;id nom;model prix=cyl puis lon lar poids vitesse/AIC BIC ADJRSQ selection=ADJRSQUARE ;run;
novembre 2011 37
Nombre dans R carréle modèle ajusté R-carré AIC BIC Variables du modèle
1 0.5586 0.5862 287.5579 290.3050 POIDS4 0.5577 0.6683 289.8011 296.3600 CYL PUIS LON LAR5 0.5572 0.6956 290.3398 299.2259 PUIS LON LAR POIDS VITESSE3 0.5502 0.6346 289.4448 294.1209 CYL POIDS VITESSE3 0.5455 0.6307 289.6222 294.2052 LAR POIDS VITESSE3 0.5450 0.6303 289.6429 294.2151 LON POIDS VITESSE6 0.5293 0.7058 291.7567 302.5767 CYL PUIS LON LAR POIDS VITESSE2 0.5290 0.5879 289.4883 292.6779 CYL POIDS2 0.5278 0.5869 289.5308 292.7048 LON POIDS2 0.5272 0.5863 289.5553 292.7203 LAR POIDS4 0.5146 0.6360 291.3804 296.8377 CYL LAR POIDS VITESSE4 0.5146 0.6359 291.3821 296.8382 CYL LON POIDS VITESSE4 0.5078 0.6308 291.6176 296.9123 LON LAR POIDS VITESSE3 0.4933 0.5883 291.4700 295.0959 CYL LON POIDS3 0.4928 0.5879 291.4882 295.1048 CYL LAR POIDS3 0.4917 0.5870 291.5235 295.1221 LON LAR POIDS 5 0.4709 0.6362 293.3685 299.5832 CYL LON LAR POIDS VITESSE4 0.4515 0.5886 293.4578 297.5212 CYL LON LAR POIDS2 0.4341 0.5048 292.6099 294.6691 LON VITESSE2 0.4166 0.4896 293.1266 295.0038 CYL LON3 0.4074 0.5185 294.1329 296.4390 CYL LON VITESSE1 0.3979 0.4355 292.8372 294.3548 LON3 0.3947 0.5082 294.4956 296.6288 LON LAR VITESSE3 0.3758 0.4928 295.0167 296.9045 CYL LON LAR2 0.3732 0.4516 294.3463 295.8018 CYL VITESSE4 0.3629 0.5222 296.0034 298.4649 CYL LON LAR VITESSE2 0.3576 0.4379 294.7664 296.0795 LON LAR1 0.3566 0.3969 293.9634 295.2214 CYL2 0.3543 0.4350 294.8529 296.1369 LAR VITESSE3 0.3523 0.4737 295.6452 297.2421 CYL LAR VITESSE2 0.3511 0.4322 294.9357 296.1919 CYL LAR1 0.3330 0.3747 294.5769 295.6955 VITESSE1 0.2380 0.2856 296.8401 297.4603 LAR
novembre 2011 38
4.3 Sur les critères de choix de modèles
AIC et BIC ne sont semblables qu’en apparence
Théories différentesAIC : approximation de la divergence de Kullback-Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée
Asymptotiquement:
( )( ; ) ( )ln (ln( ( )) (ln( ( ))( ) f f
f tI f g f t dt E f t E g tg t
= = −∫
ˆˆ ˆ(ln( ( ; )) ln( ( ))fE E g t L k
θθ θ −∼
novembre 2011 39
BIC : choix bayesien de modèlesm modèles Mi paramétrés par θi de probabilités a priori P(Mi) égales.
Distribution a priori de θi pour chaque modèle P(θi / Mi).Distribution a posteriori du modèle sachant les données P(x/Mi) ou
vraisemblance intégréeChoix du modèle le plus probable a posteriori revient à maximiser
ˆln( ( / ) ln( ( / , ) ln( )2i i ikP M P M nθ −x x∼
0.5
0.5
1
( / )i
j
BIC
i mBIC
j
eP Me
−
−
=
=
∑x
novembre 2011 40
Comparaison AIC BIC
Si n tend vers l’infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l’AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biais-varianceL’AIC est un critère prédictif tandis que le BIC est un
critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation Illogisme à utiliser les deux simultanément
novembre 2011 41
4.4 Ajuster ou prédire?
Les critères précédents utilisent deux fois les données: une fois pour estimer, une autre pour mesurer la qualitéPrédire les données futures et non le passé!Minimiser l’espérance de l’erreur quadratique de prédiction 2ˆ( )E y y−
novembre 2011 42
Solution pratique: la validation croisée« Leave one out »: chaque observation est estimée à l’aide des n-1 autres
résidu prédit:
PRESS predicted error sum of squares
( ) ( )
-1
ˆˆ ˆ( )1
terme diagonal du projecteur
i i i ii i i i
i
i
y yy f x y yh
h
− − −− = − =
−
X(X'X) X'
( )2
( )
1
ˆn
ii i
iy y −
=
−∑
novembre 2011 43
quelques press
modéle complet: 732726946
puissance poids 308496438cylindree puissance poids 369112558puissance 327142373
novembre 2011 44
4.5 Sélectionner ou non?
Contestable si on a un modèle: difficile de proposer à l’utilisateur une formule qui ne tient pas compte de variables pourtant influentes et ne permet pas de quantifier l’effet de leurs variations sur la réponse Y.
Coefficients de corrélation de Pearson, N = 18
CYL PUIS LON LAR POIDS VITESSE
PRIX 0.63858 0.79870 0.64376 0.54665 0.75329 0.58176
novembre 2011 45
Comment garder toutes les variables?
Régression sur composantes principalesRégression PLSRégression ridgeLasso
Utile pour le cas maudit: p>nMais: perte de certaines propriétés: estimateurs biaisés, non-invariance par changement d’échelle Nécessité de centrer réduire au préalable
novembre 2011 46
5. Régression sur composantes principales
ACP sur les XChaque composante est une combinaison linéaire de tous les prédicteursRégression ascendante sur la première composante, puis sur les deux premieres etc.Composantes principales non corrélées entre ellesOn garde tous les prédicteurs
novembre 2011 47
+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 4.4209 | 73.68 | 73.68 | ******************************************************************************** || 2 | 0.8561 | 14.27 | 87.95 | **************** || 3 | 0.3731 | 6.22 | 94.17 | ******* || 4 | 0.2139 | 3.57 | 97.73 | **** || 5 | 0.0928 | 1.55 | 99.28 | ** || 6 | 0.0433 | 0.72 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
----------------------------+------------------------------------+ VARIABLES | CORRELATIONS VARIABLE-FACTEUR | ----------------------------+------------------------------------+ IDEN - LIBELLE COURT | 1 2 3 4 5 | ----------------------------+------------------------------------+ Cyli - cylindree | 0.89 -0.11 0.22 -0.37 -0.05 | Puis - puissance | 0.89 -0.38 0.11 0.17 0.09 | Long - longueur | 0.89 0.38 -0.04 0.13 -0.22 | Larg - largeur | 0.81 0.41 -0.37 -0.10 0.15 | Poid - poids | 0.91 0.22 0.30 0.14 0.09 | Vite - vitesse | 0.75 -0.57 -0.30 0.03 -0.06 | ----------------------------+------------------------------------+
novembre 2011 48
novembre 2011 49
novembre 2011 50
Changement de base
Formule de reconstitution X=CU’Estimation
coefficients de régression de y sur les composantes principales
( )
( )
11
1 1 1
1 1ˆ ' ' ' ' ' '
1 1 1 ˆ' ' ' ' '
UC CU UC y U C CU UC yn n
U U UC y U U U C y U C y Un n n
β
α
−−
− − −
⎛ ⎞= = ⎜ ⎟⎝ ⎠
= Λ = Λ = Λ =
α
2 1
22 1 2
ˆ ˆˆ ˆ ˆ' ( )
ˆ ˆ( ) ' (
) p
jkj
U U Vu
V U U V
β α α β α σ
β σ β σ1k kλ
−
−
= = = Λ
= Λ = ∑=
novembre 2011 51
prédiction
Combinaison linéaire des composantes principales
Prédicteur approché en éliminant les petites valeurs propres
1 1ˆ ˆ ˆˆ ... p py X XU Cβ α α α α= = = = + +c c
novembre 2011 52
• résultats ordonnés selon le nombre de composantes principales conservées :
dim RMSE Intercept CYL PUIS LON LAR POIDS VITESSE
1 4301.68 -43286.46 2.74369 49.978 46.0278 175.804 7.5893 71.3832 4401.15 -34893.04 2.94823 62.544 34.5556 124.103 6.4980 102.8273 4451.25 -5360.02 4.31052 75.618 30.1484 -39.880 11.5931 45.2224 4296.24 -5829.58 -2.62099 131.959 70.7514 -167.635 18.6615 64.6675 4294.23 -9856.87 -4.01533 181.544 -42.9173 141.908 26.3105 11.2166 4406.23 -8239.36 -3.50518 282.169 -15.0377 208.694 12.5747 -111.114
• coefficients de corrélation entre la variable prix et les 6 composantes principales :----------------------------+--------------------------------------------+
| CORRELATIONS VARIABLE-FACTEUR |----------------------------+--------------------------------------------+
| 1 2 3 4 5 6 |----------------------------+--------------------------------------------+PRIX | -0.77 0.09 -0.13 -0.23 -0.16 -0.10 |----------------------------+--------------------------------------------+
L’ordre des corrélations n’est pas celui des valeurs propres
novembre 2011 53
6 Régression PLS
Proposée par H.et S.Wold, (cf.M.Tenenhaus 1998) proche de la régression sur composantes principalesprojection sur des combinaisons linéaires des prédicteurs non corrélées entre ellesdifférence essentielle: composantes PLS optimisées pour être prédictives de Y, alors que les composantes principales ne font qu’extraire le maximum de variance des prédicteurs sans tenir compte de Y.
novembre 2011 54
Régression PLS (2)
t=Xwcritère de Tucker
max cov2(y ;Xw)compromis entre maximiser la corrélation entre t1 et y (régression ordinaire) et maximiser la variance de t1 (ACP des prédicteurs) :
cov2(y ;Xw)= r2(y ;Xw) V(Xw) V(y)
novembre 2011 55
Régression PLS (3)
solution : w1j proportionnels aux covariances cov(y ; xj) : coefficients du même signe que les corrélations simples entre y et les xj ; pas de signes surprenants.régression PLS avec une composante y=c1t1+ y1
deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les résidus des régressions des xj avec t1 puis y=c1t1+ c2t2 +y2 etc.
novembre 2011 56
Régression PLS (4)
nombre de composantes PLS choisi par validation croisée.la première composante PLS est toujours plus corrélée avec Y que la première composante principale :
1 1 1 1 1 1
1 1 1 1
cov( ; ) ( ; ) ( ) ( ) cov( ; ) ( ; ) ( ) ( )donc ( ; ) ( ) ( ; ) ( )
y t r y t t y y c r y c c yr y t t r y c c
σ σ σ σσ σ
= ≥ =≥
1 1 1 1( ) ( ) d'où ( ; ) ( ; )c t r y t r y cσ σ≥ ≥
novembre 2011 57
Régression PLS (5)
Avantage de la régression PLS : simplicité de son algorithme. Ni inversion, ni diagonalisation de matrices, mais seulement une succession de régressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter de très grands ensembles de données.la régression PLS donne en pratique d’excellentes prévisions, même dans le cas d’un petit nombre d’observations et d’un grand nombre de variables.
novembre 2011 58
The PLS Procedure
Percent Variation Accounted forby Partial Least Squares Factors
Number ofExtracted Model Effects Dependent VariablesFactors Current Total Current Total
1 73.6230 73.6230 60.8374 60.8374
Parameter Estimates for Centered and Scaled Data
PRIX
Intercept 0.0000000000CYL 0.1457852413PUIS 0.1823397520LON 0.1469668392LAR 0.1247976334POIDS 0.1719738622VITESSE 0.1328131564
Parameter Estimates
PRIX
Intercept -39940.36629CYL 2.56208PUIS 58.80660LON 43.68699LAR 154.34048POIDS 8.25174VITESSE 71.89164
novembre 2011 59
Root MSE 4239.06107
Regression PLS 23:21 Wednesday, September 22, 2004
Obs NOM CYL PUIS LON LAR POIDS VITESSE NAT FINITION PRIX py
1 ALFASUD-TI-1350 1350 79 393 161 870 165 I B 30570 29223.102 AUDI-100-L 1588 85 468 177 1110 160 D TB 39990 37552.653 SIMCA-1307-GLS 1294 68 424 168 1050 152 F M 29600 31418.154 CITROEN-GS-CLUB 1222 59 412 161 930 151 F M 28250 28037.705 FIAT-132-1600GLS 1585 98 439 164 1105 165 I B 34900 35354.306 LANCIA-BETA-1300 1297 82 429 169 1080 160 I TB 35480 33444.597 PEUGEOT-504 1796 79 449 169 1160 154 F B 32300 35649.188 RENAULT-16-TL 1565 55 424 163 1010 140 F B 32000 29383.529 RENAULT-30-TS 2664 128 452 173 1320 180 F TB 47700 44692.4810 TOYOTA-COROLLA 1166 55 399 157 815 140 J M 26540 24733.9411 ALFETTA-1.66 1570 109 428 162 1060 175 I TB 42395 35521.0912 PRINCESS-1800-HL 1798 82 445 172 1160 158 GB B 33990 36406.5713 DATSUN-200L 1998 115 469 169 1370 160 J TB 43980 41321.7114 TAUNUS-2000-GL 1993 98 438 170 1080 167 D B 35010 37219.4715 RANCHO 1442 80 431 166 1129 144 F TB 39450 32576.9016 MAZDA-9295 1769 83 440 165 1095 165 J M 27900 35059.1317 OPEL-REKORD-L 1979 100 459 173 1120 173 D B 32700 39443.0918 LADA-1300 1294 68 404 161 955 140 U M 22100 27817.42
novembre 2011 60
7 La régression ridge
Hoerl et Kennard (1970)
Trois interprétationsEstimateur rétréci d’erreur minimaleCoefficients bornésApproche bayesienne
( ) 1' 'Rb X X kI X y−= +
novembre 2011 61
7.1 Diminution de l’erreur quadratique
En régression simple sur données centrées y=α+βx +e
Estimateur rétréci
Minimum pour
2ˆˆ et i i
i
x yy
xα β= = ∑
∑
ˆ ˆR cβ β=
( ) ( ) ( )( ) ( ) ( ) ( )222 2 22 2 2 2
2ˆ ˆ ˆ ˆ 1 1
i
E c V c E c c V c c cx
σβ β β β β β β β⎛ ⎞− = + − = + − = + −⎜ ⎟⎝ ⎠ ∑
2
22
2i
c
x
βσβ
=+∑
novembre 2011 62
Ridge avec 22
2
ˆ i iR
i
x y
xβ
σβ
=+
∑∑
2
2k σβ
=
novembre 2011 63
7.2 Régression à coefficients bornés
Minimisation de
régularise la solution pour éviter des coefficients instables
2 2 2 sous y Xb b c− ≤
novembre 2011 64
7.3 Régression bayesienne
distribution a priori gaussienne sur βY/β est une gaussienneloi a posteriori de β/Y gaussienne valeur la plus probable a posteriori, espérance a posteriori :
2(0; )N Iψ2( ; )N X Iβ σ
12
2ˆ ' 'X X I X yσβ
ψ
−⎛ ⎞
= +⎜ ⎟⎝ ⎠
novembre 2011 65
Evolution des coefficients de régression en fonction du paramètre k .Regression Coefficients-----------------------------------------------------------------------------------------------------Ridge Parameter cylindree puissance longueur largeur poids vitesse -----------------------------------------------------------------------------------------------------0.0 -3.50518 282.169 -15.0377 208.694 12.5747 -111.114 0.05 -2.18019 197.405 2.76652 108.987 15.2924 -26.2437 0.1 -1.30002 163.095 12.6414 78.4137 14.811 3.09658 0.15 -0.693863 142.962 18.2783 67.2553 14.0478 18.3139 0.2 -0.255884 129.251 21.7857 63.497 13.3264 27.6233 0.25 0.0724271 119.112 24.1123 62.9383 12.6918 33.84810.3 0.325527 111.21 25.727 63.8295 12.1402 38.2416 0.35 0.524946 104.817 26.8832 65.3631 11.6592 41.4531 0.4 0.684805 99.501 27.7286 67.1422 11.2366 43.8555 0.45 0.814737 94.9847 28.3541 68.9656 10.8621 45.6797 0.5 0.921532 91.0816 28.819 70.7303 10.5273 47.0767 -----------------------------------------------------------------------------------------------------
Choix de k:• graphique • validation croisée
SAS fournit les erreurs standard pour RIDGE et RCP
novembre 2011 66
7.4 nombre équivalent de parametres ou ddl effectif
de façon générale pour un estimateur linéaire
(Hastie et al., 2009)
( )( )1
1
( ) ' '
P
j
j j
df k Trace k
nn k
λλ
−
=
= +
=+∑
X X X I X
ˆ( ) si df Trace= S y = Sy
novembre 2011 67
8 Le LASSO
The Lasso is a shrinkage and selection method for linear regression. It minimizes the usual sum of squared errors, with a bound on the sum of the absolute values of the coefficients.
http://www-stat.stanford.edu/~tibs/lasso.html
novembre 2011 68
Critère voisin de la ridge:
Pénalité L1 au lieu de L2. Pas de solution analytiqueSi c est petit, certains coefficients seront nuls
sélectionSi on retrouve la régression multiple usuelle
2
1 sous
p
jj
y Xb b c=
− <∑
1
p
jolsj
c b=
> ∑
novembre 2011 69
novembre 2011 70
ods graphics on;proc glmselect data=bagnole plots=all;model prix=cyl puis lon lar poids vitesse / selection=lasso (stop=7 choose=BIC);run;
Lasso et PROC GLMSELECT
Données pour regressionThe GLMSELECT Procedure
LASSO Selection Summary
Effect Effect NumberStep Entered Removed Effects In BIC
0 Intercept 1 317.8324-------------------------------------------------------------
1 PUIS 2 314.09912 POIDS 3 305.3416*3 LAR 4 308.16794 CYL 5 311.03175 VITESSE 6 314.03646 LON 7 317.3025
* Optimal Value Of Criterion
Selection stopped because all effects are in the final model.
novembre 2011 71
novembre 2011 72
novembre 2011 73
novembre 2011 74
The GLMSELECT ProcedureSelected Model
The selected model, based on BIC, is the model at Step 2.
Effects: Intercept PUIS POIDS
Analysis of Variance
Sum of MeanSource DF Squares Square F Value
Model 2 499772877 249886439 15.99Error 15 234382913 15625528Corrected Total 17 734155790
Root MSE 3952.91380Dependent Mean 34159R-Square 0.6807Adj R-Sq 0.6382AIC 320.87771AICC 323.95463BIC 305.34160C(p) 0.07232SBC 303.54882
Parameter Estimates
Parameter DF Estimate
Intercept 1 5002.288413PUIS 1 159.803389POIDS 1 14.492675
novembre 2011 75
novembre 2011 76
Interprétation bayesienne:loi a priori de Laplace ou double exponentielle sur chaque βj
Estimateur non linéaire
1( ) exp2
jjf
ββ
τ τ
⎛ ⎞⎜ ⎟= −⎜ ⎟⎝ ⎠
novembre 2011 77
Avantages et inconvénientsPour
Le Lasso rétrécit les coefficients vers zéro de façon continue. Produit un modèle parcimonieux.Est une méthode de sélection.
Contrele nombre de variables sélectionnées est limité par nInadapté au cas des puces à ADN n(arrays)<<p(genes)Choisit une seule variable dans un groupe de variables très corrélée
novembre 2011 78
Une variante « lasso hybrid selection »pour obliger SAS à faire de la validation croisée avec le critère PRESS
LSCOEFFS requests a hybrid version of the LAR and LASSO methods, where the sequence of models is determined by the LAR or LASSOalgorithm but the coefficients of the parameters for the model
at any step are determined by using ordinary least squares.
proc glmselect data=bagnole plots=all;model prix=cyl puis lon lar poids vitesse /selection=lasso (stop=7 lscoeffs choose=Press);
run;
novembre 2011 79
The GLMSELECT ProcedureSelected Model
The selected model, based on PRESS, is the model at Step 2.
Effects: Intercept PUIS POIDS
Analysis of Variance
Sum of MeanSource DF Squares Square F Value
Model 2 504091154 252045577 16.43Error 15 230064636 15337642Corrected Total 17 734155790
Root MSE 3916.33023Dependent Mean 34159R-Square 0.6866Adj R-Sq 0.6448AIC 320.54298AICC 323.61991PRESS 308496438SBC 303.21410
Parameter Estimates
Parameter DF Estimate
Intercept 1 1775.601201PUIS 1 172.967225POIDS 1 16.451161
novembre 2011 80
novembre 2011 81
novembre 2011 82
novembre 2011 83
9. Elastic net
Combine les pénalités de la ridge et du lasso
autre formulation:
( )2 2
1
2
1 2
min (1 )
p
j jj
y Xb b b
avec
λ α α
λαλ λ
=
− + + −
=+
∑
( )2 22 1 1
min y Xb b bλ λ− + +
novembre 2011 84
La partie L1 conduit à un modèle «sparse»La partie L2 enlève la limitation sur le nombre de variables retenues et favorise le choix de groupes
Zou et Hastie
novembre 2011 85
novembre 2011 86
Références
Birkes D. , Dodge Y. (2003) Alternative methods of regression, WileyHastie T., Tibshirani R., Friedman J. (2009) The elements of statistical learning, 2nd edition, Springer, 2009Tenenhaus M. (1998) La régression PLS, TechnipTibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288). Weisberg S. (1980) Applied linear regression, Wiley