CoursdanalysededonneesJean-Marc
[email protected]`ere de Finance de
Paris 1, 2`e
anneehttp://www-roc.inria.fr/~lasgoutt/ana-donnees/CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.Introductionquest-cequelanalysededonnees
?CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
1Exemple:latemperatureenFrancejanv fev mars avri mai juin juil aout
sept oct nov decajac 7.7 8.7 10.5 12.6 15.9 19.8 22.0 22.2 20.3
16.3 11.8 8.7ange 4.2 4.9 7.9 10.4 13.6 17.0 18.7 18.4 16.1 11.7
7.6 4.9ango 4.6 5.4 8.9 11.3 14.5 17.2 19.5 19.4 16.9 12.5 8.1
5.3besa 1.1 2.2 6.4 9.7 13.6 16.9 18.7 18.3 15.5 10.4 5.7 2.0biar
7.6 8.0 10.8 12.0 14.7 17.8 19.7 19.9 18.5 14.8 10.9 8.2bord 5.6
6.6 10.3 12.8 15.8 19.3 20.9 21.0 18.6 13.8 9.1 6.2bres 6.1 5.8 7.8
9.2 11.6 14.4 15.6 16.0 14.7 12.0 9.0 7.0cler 2.6 3.7 7.5 10.3 13.8
17.3 19.4 19.1 16.2 11.2 6.6 3.6dijo 1.3 2.6 6.9 10.4 14.3 17.7
19.6 19.0 15.9 10.5 5.7 2.1embr 0.5 1.6 5.7 9.0 13.0 16.4 18.9 18.3
15.3 10.1 4.6 0.5gren 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7
11.4 6.5 2.3lill 2.4 2.9 6.0 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1
3.5limo 3.1 3.9 7.4 9.9 13.3 16.8 18.4 17.8 15.3 10.7 6.7 3.8lyon
2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1mars 5.5 6.6
10.0 13.0 16.8 20.8 23.3 22.8 19.9 15.0 10.2 6.9mont 5.6 6.7 9.9
12.8 16.2 20.1 22.7 22.3 19.3 14.6 10.0 6.5janv fev mars avri mai
juin juil aout sept oct nov decnanc 0.8 1.6 5.5 9.2 13.3 16.5 18.3
17.7 14.7 9.4 5.2 1.8nant 5.0 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4
12.2 8.2 5.5nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16.0
11.5 8.2nime 5.7 6.8 10.1 13.0 16.6 20.8 23.6 22.9 19.7 14.6 9.8
6.5orle 2.7 3.6 6.9 9.8 13.4 16.6 18.4 18.2 15.6 10.9 6.6 3.6pari
3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16.0 11.4 7.1 4.3perp 7.5 8.4
11.3 13.9 17.1 21.1 23.8 23.3 20.5 15.9 11.5 8.6reim 1.9 2.8 6.2
9.4 13.3 16.4 18.3 17.9 15.1 10.3 6.1 3.0renn 4.8 5.3 7.9 10.1 13.1
16.2 17.9 17.8 15.7 11.6 7.8 5.4roue 3.4 3.9 6.8 9.5 12.9 15.7 17.6
17.2 15.0 11.0 6.8 4.3stqu 2.0 2.9 6.3 9.2 12.7 15.6 17.4 17.4 15.0
10.5 6.1 3.1stra 0.4 1.5 5.6 9.8 14.0 17.2 19.0 18.3 15.1 9.5 4.9
1.3toul 8.6 9.1 11.2 13.4 16.6 20.2 22.6 22.4 20.5 16.5 12.6
9.7tlse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5tour
3.5 4.4 7.7 10.6 13.9 17.4 19.1 18.7 16.2 11.7 7.2 4.3vich 2.4 3.4
7.1 9.9 13.6 17.1 19.3 18.8 16.0 11.0 6.6
3.4CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
2LatemperatureenFrance(2) d = 2 ajac ange ango besa biar bord bres
cler dijo embr gren lill limo lyon mars mont nanc nant nice nime
orle pari perp reim renn roue stqu stra toul tlse tour vich ange
ango besa biar bord bres cler dijo embr gren lill limo lyon mars
mont nanc nant nice nime orle pari perp reim renn roue stqu stra
toul tlse tour vich
CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
3IndividusetvariablesPopulation groupe ou ensemble dindividusque
lon analyse.Recensement etude de tous les individus dune population
donnee.Sondage etude dune partie seulement dune population appelee
echantillon.Variables ensemble de caracteristiques dune population.
quantitatives: nombres sur lesquels les operations usuelles (somme,
moyenne,...)ontunsens ; ellespeuventetrediscr`etes (ex:
nombredelementsdansunen-semble) ou continues(ex : prix, taille) ;
qualitatives: appartenance `a une categorie donnee ; elles peuvent
etre nominales(ex : sexe, CSP) ouordinales quandles categories sont
ordonnees (ex : tr`esresistant, assez resistant, peu
resistant).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
4LanalysededonneesBut synthetiser,structurer linformation contenue
dans des donnees multidimension-nelles (n individus,p
variables).Deuxgroupesdemethodes methodes de classication : reduire
la taille de lensemble des individus en formantdes groupes
homog`enes ; methodes factorielles: reduire le nombre de variables
en les resumant par un petitnombre de composantes
synthetiques.Deuxtypesdemethodesfactorielles analyse en composantes
principales: variables numeriques ; analyse des correspondances:
variables
qualitatives.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
5ButducoursMethodescouvertesparlecours analyse en composantes
principales (ACP) ; analyse (factorielle) des correspondances (AFC)
; analyse des correspondances multiples
(ACM).Competencesrecherchees comprendre les fondements
mathematiques des methodes ; savoir interpreter les tables et
graphiques issus de ces methodes ;etre capable de mener soi-meme
une telle
etude.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
6CequececoursnestpasUncoursdemathematiquesnanci`eres il ny a pas de
mod`eles probabilistes deprocessus nanciers (cours de
bourse...).Uncoursdestatistiqueinferentielle il ne sera presque pas
question ici de tests,destimateurs, de prevision statistique.Un
cours oriente utilisateur on cherche `a la fois `a savoir utiliser
les methodesdanalyse de donnees, et `a comprendre les fondements
mathematiques de ces methodes.Uncoursappliqueauxdonneesnanci`eres
ce cours est avant tout un cours demethode ; la plupart des
exemples abordes ne seront pas issus de cette application.Uncours
pratique Lescontraintesdeectifetdematerielnepermettentpasdeectuer
des travaux
pratiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
7OutilsutilisesAlg`ebrelineaire
lesdonneessontvuesdemani`ereabstraite commeunnuagedepoints dans un
espace vectoriel ; les notions suivantes doivent etre bien
comprises vecteurs: produits scalaires, decomposition selon une
base matrices: addition, multiplication, transposee, trace
valeurset vecteurs propres: denition, proprietes metriques:
denitions des distances dans un espace vectoriel par une norme,
lienavec le produit
scalaireAttention:lesetudiantssontsupposesmatriserlecalcul
matriciel etlanotiondevaleurpropre
;lesTDetexamenscomporterontducalculmatriciel
!Theoriedesprobabilites on utilisera quand meme quelques tests
statistiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
8StatistiquesetprobabilitesUneapprochedierente
Lesprobabilitesreposentsurunmod`elededonneesetfontengeneral
deshypoth`esessimplicatrices.Ici,onutiliseraplusdesconsiderationsgeometriques.3lienspossibles
les donnees statistiques sont empruntes dune forme de variabilite
liee aux erreursde mesures ; on peut modeliser cette erreur par une
variable aleatoire ; onconstate souvent que larepartitiondune
variable est proche dune loi deprobabilites connue ; surtout,
quanddesdonneessontissuedunsondage, onpeutconsidererquecesont des
tirages dune variable aleatoire. Quand les echantillons sont assez
grands,on connat des lois
limites.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
9ReferencesCesreferencessont donnees`atitreindicatif ;
aucunlivrenest demandepour cecours.Base du cours Gilbert Saporta,
Probabilites, analyse des donnees et statistique, 2ndeedition,
Technip, 2006.Version plus simple Jean-Marie Bouroche et Gilbert
Saporta, Lanalyse des donnees,Que Sais-je ?, Presses Universitaires
de France, 2002.Logiciel detraitement dedonnees Lestableset
graphiquespresentesdanslecoursetlesTDsontproduitsparlelogiciel
R(`alaidedupaquetageade4).Restunlogiciel libre (et donc gratuit)
disponible pour Windows, Mac OS X et Linux `a
ladressehttp://www.r-project.org.Archivesdececours cours, TD avec
corrige, donnees sont disponibles
`ahttp://www-roc.inria.fr/~lasgoutt/ana-donnees/CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
10PartieIvariablesquantitatives:analyseencomposantesprincipalesCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
11DescriptiondedonneesquantitativesDenition Onappelle variable
unvecteur xdetaillen.Chaquecoordonneexicorrespond `a un individu.
On sinteresse ici `a des valeurs numeriques.Poids Chaque individu
peut avoir un poids pi, tel que p1+ +pn = 1, notammentquandles
individus nont pas la meme importance (echantillons redresses,
donneesregroupees,...). On a souventp = 1/n.Representation
histogramme en decoupant les valeurs de la variable en classes ;
oualors bote `a moustache .Resumes
ondisposeduneseriedindicateursqui
nedonnequunevuepartielledesdonnees:eectif,moyenne,mediane,variance,
ecarttype,minimum,maximum,
eten-due,1erquartile,3`emequartile,...Cesindicateurs mesurent
principalementla tendancecentrale et la dispersion.On utilisera
principalement la moyenne, la variance et lecart
type.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
12MoyennearithmetiqueDenition On note x =1nn
i=1xi,ou pour des donnees ponderes x =n
i=1pixi.Proprietes la moyenne arithmetique est une mesure de
tendance centralequi
dependdetouteslesobservationsetestsensibleauxvaleursextremes.
Elleesttr`esutilisee`acause de ses bonnes proprietes
mathematiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
13Varianceetecart-typeDenition la variancede x est denie pars2x
=1nn
i=1(xi x)2ous2x =n
i=1pi(xi x)2Lecart-typesxest la racine carree de la
variance.Proprietes La variance satisfait la formule suivantes2x
=n
i=1pix2i ( x)2La variance est la moyenne des carres moins le
carre de la moyenne . Lecart-type,qui a la meme unite que x, est
une mesure de
dispersion.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
14MesuredeliaisonentredeuxvariablesDenitions la covariance observee
entre deux variables x et yestsxy =n
i=1pi(xi x)(yi y) =n
i=1pixiyi x y.et le coecient derde Bravais-Pearsonou coecient de
correlation est donne parrxy =sxysxsy=
ni=1pi(xi x)(yi y)_ni=1pi(xi x)2_ni=1pi(yi
y)2.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
15ProprietesducoecientdecorrelationBorne On a toujours (inegalite
de Cauchy-Schwarz)1 rxy 1.Variablesliees |rxy| = 1 si et seulement
si x et ysont lineairement liees :axi + byi = c, pour tout 1 i n.En
particulier,rxx = 1.Variablesdecorrelees si rxy = 0, on dit que les
variables sont decorrelees. Cela neveut pas dire quelles sont
independantes
!CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
16Lecoecientdecorrelationparlexemplex10.0 0.2 0.4 0.6 0.8
1.00.130.990.0 0.2 0.4 0.6 0.8 1.00.00.40.80.100.00.40.8x2
0.150.89x31.51.00.50.00.100.0 0.2 0.4 0.6 0.8 1.00.00.40.81.5 1.0
0.5 0.0x4Interpretation ona 4variablesnumeriquesavec 30individus.
Lesvariables 1et 2sontindependantes ; lesvariables 1et
3ontunerelationlineaire ; lesvariables 2et 4ont une relation
non-lineaire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
17Quesignieunecorrelationlineaire ?Quest ce qui est signicatif ? si
on a assez de donnees, on peut considerer quunecorrelation
superieure `a 0, 5 est forte, et une correlation entre 0, 3 et 0, 5
est moyenne.Une correlation egale `a un indique que les deux
variables sont equivalentes.Quest-cequecelaveut dire ?
unecorrelationsignicativeindiqueuneliaisonentre deux variables,
mais pas necessairement un lien de causalite. Exemple
:Lenombredepompierspresentspourcombattreunincendieestcorreleauxdegats
de lincendie.Mais ce ne sont pas les pompiers qui causent les
degats.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
18Quesignieunedecorrelation ?qqqqq qqqqq4 2 0 2 412345xyPour ces
deux variables, on ar =
0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
19Rappels:notationmatricielleMatrice tableaude donnees carre
ourectangulaire, note par unlettre majusculegrasse (ex : X).Vecteur
matrice `a une seule colonne, note par une lettre minuscule grasse
(ex : x).Cas particuliers matrice identite `a n lignes et n
colonnes et vecteur unite de dimen-sionn :In =__1 0...0 1__, 1n
=__1...1__.Transpositiondematrice
echangedeslignesetdescolonnesdunematrice ; onnote M
la transposee de
M.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
20TableaudedonneesOnnotexjilavaleurdelai-`emevariablepourlej-`emeindividu.Pournindividusetp
variables, on a le tableauX = (x1, . . . , xp) =__x11x21
xp1x12x22... xji......x1nxpn__.X est une matrice rectangulaire `an
lignes etp
colonnes.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
21VecteursvariableetindividuVariable Une colonne du
tableauxj=__xj1...xji...xjn__Individu Une ligne du tableaue
i = (x1i, . . . , xji, . . . ,
xpi)CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
22LamatricedespoidsDenition on associe aux individus un poidspitel
quep1 + + pn = 1et on represente ces poids dans la matrice
diagonale de taillenD =__p10p2...0 pn__.Casuniforme tous les
individus ont le meme poidspi = 1/n et D
=1nIn.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
23PointmoyenettableaucentrePointmoyen cest le vecteur gdes moyennes
arithmetiques de chaque variable :g
= ( x1, . . . , xp),o` u xj=n
i=1pixji.On peut aussi ecrire g = X
D1n.Tableaucentre il est obtenu en centrant les variables autour
de leur moyenneyji= xji xjou, en notation matricielle,Y = X1ng
= (I 1n1
nD)XCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
24Matricedevariance-covarianceDenition cest une matrice carreede
dimensionpV =__s21s12 s1ps21......sp1s2p__,o` usklest la covariance
des variables xket x
ets2jest la variance de la variable xjFormulematricielleV =
X
DXgg
= Y
DY.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
25MatricedecorrelationDenition Si lon noterk = sk/sks
, cest la matricep pR =__1 r12
r1pr211......rp11__,Formulematricielle R = D1/sVD1/s, o` uD1/s
=__1s10...01sp__CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
26Lanalysedecomposantesprincipales(ACP)Contexte chaque individu est
considere comme un point dun espace vectoriel Fdedimensionp.
Lensembledes individus est unnuage depoints dans Fetgest soncentre
de gravite.Principe
oncherche`areduirelenombrepdevariablestoutenpreservantaumaxi-mum la
structure du
probl`eme.Pourcelaonprojettelenuagedepointssurunsous-espacededimensioninferieure.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
27Exempleendimension2On veut passer de 2 variables `a 1
seule.x2x1CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
28Exempleendimension2(suite)On cherche la direction qui dierencie
le plus les points entre
eux.x2x1CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
29DistanceentreindividusMotivation andepouvoir considerer
lastructuredunuagedesindividus, il fautdenir une distance, qui
induira une geometrie.Distanceeuclidienneclassique la distance la
plus simple entre deux points de Rpest denie pard2(u, v) =p
j=1(uj vj)2= u v2Generalisationsimple on donne un poidsmj> 0
`a la variablejd2(u, v) =p
j=1mj(uj vj)2Utiliser ce poids est equivalent `a multiplier la
coordonneejpar
mjCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
30MetriqueDenition soit M =diag(mj),o` um1, . . . ,
mpsontdesreelsstrictementpositifs.On poseu2M = u
Mu =p
j=1mju2j,d2M(u, v) = u v2M.Espacemetrique il est deni par le
produit scalaireu, vM = u
Mv =p
j=1mjujvj.On notera que u2M = u, uM.Orthogonalite on dit que u
et vsont M-orthogonaux si u, vM =
0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
31ProprietesduproduitscalaireLeproduitscalaireestcommutatifu, vM =
v, uMLeproduitscalaireestlineaireu, v +wM = u, vM +u, wM,u, vM = u,
vMpour tout R.Identiteremarquableu +v2M = u2M +v2M + 2u,
vMCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
32Lecasdelametrique D1/s2Pourquoicettemetrique ? pour que les
distances soient independantes des unitesde mesure et quelles ne
privilegient pas les variables
dispersees.Equivalenceaveclesdonneesreduites on a D1/s2 =
D1/sD1/set doncu, vD1/s2 = D1/su, D1/sv.Travailler avec la metrique
D1/s2est equivalent `a diviser chaque variable par son ecart-type
et `a utiliser la metrique I.Donneescentreesreduites cest le
tableau Z contenant les donneeszji=xji xjsj,qui se calcule
matriciellement comme Z =
YD1/s.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
33InertieDenition linertie en un point a du nuage de points estIa
=n
i=1pieia2M =n
i=1pi(eia)
M(eia).Autresrelations
linertietotaleIgestlamoitiedelamoyennedescarresdesdis-tances entre
les individus2Ig =n
i=1n
j=1pipjeiej
2M.Linertie totale est aussi donnee par la trace de la matrice
MVIg = Tr(MV),la trace dune matrice etant la somme de ses elements
diagonaux.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
34Metriquesparticuli`eresMetriqueusuelle M =
Ipcorrespondauproduitscalaireusuel etIg =Tr(V) =
pj=1s2i.Probl`emes la distance entre individus depend de lunite
de mesure. la distance privilegie les variables les plus
dispersees.Metriquereduite Ig = Tr(D1/s2V) = Tr(D1/sVD1/s) = Tr(R)
= p.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
35UtilisationdesmetriquesUtiliser une metrique est donc equivalent
`a tordre les donnees, par exemple pourles rendre
comparablesx2x1x2x1Exemple utiliser la metrique reduite est
equivalent `a travailler sur les donnees centreesreduites Z =
YD1/s.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
36Lanalysedecomposantesprincipales(version2)Principe
oncherche`aprojeter lenuagedepointssur unespaceFkdedimensionk <
p.Crit`ere on veut que la moyenne des carres des distances entre
les points projetes soitmaximale (elle est toujours plus petite que
pour le nuage original).PourcelaonchercheFk,sous
espacededimensionkdeFp,tel
quelinertiedunuageprojetesurFksoitmaximale.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
37Rappels:valeurspropresetvecteurspropresDenition unvecteur v =
0detaillepestunvecteurpropredunematrice Adetaillep p sil existe C
telle queAv = v. est une valeur proprede A associee `a v.Domaine
Engeneral, lesvecteurspropresetvaleurspropressontcomplexes ;
danstous les cas qui nous interessent, ils seront
reels.Interpretationdesvecteurspropres
cesontlesdirectionsdanslesquelleslama-trice agit.Interpretation des
valeurs propres cest le facteur multiplicatif associe
`aunedirection
donnee.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
38Valeursetvecteurspropres:unexempleconcretLa matrice __5 1 12 4 21
1 3__a pour vecteurs propresv1 =__011__, v2 =__101__, v3
=__110__.On verie facilement que les valeurs propres associees
sont1 = 2, 2 = 4, 3 =
6.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
39Valeursetvecteurspropres:casparticuliersMatricenulle sa seule
valeur propre est 0, et tout vecteur est vecteur
propre.Matriceidentite tout vecteur est vecteur propre de I avec
valeur propre 1, puisqueIv = v.Matrice diagonale si D est une
matrice diagonale avec les coecients 1, . . . ,
p,alorslei-`emevecteurcoordonneeestvecteurproprede
Dassocie`alavaleurproprei.Lactiondunematricediagonaleestdemultiplier
chacunedescoordonneesdunvecteur par la valeur propre
correspondante.Matricediagonalisable cest unematricedont les
vecteurs propres forment unebasede lespace vectoriel : tout vecteur
peut etre represente de mani`ere unique
commecombinaisonlineairedesvecteurspropres.Unematricedetaillep pqui
apvaleurspropres reelles distinctes est diagonalisable dans
R.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
40QuelquesmatricesdiagonalisablesMatricesymetrique une matrice
symetrique reelle (A
= A) poss`ede une base devecteurs propres orthogonaux et ses
valeurs propres sont reellesvi, vj = 0 sii = j, eti R.Matrice
M-symetrique une matrice M-symetrique reelle (A
M = MA) poss`edeune base de vecteurs propres M-orthogonaux et
ses valeurs propres sont reellesvi, vj
M = 0 sii = j, eti R.Matrice denie positive cest une matrice
symetrique dont les valeurs propres sontstrictement positivesvi, vj
= 0 sii = j, eti >
0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
41Analysede VMValeurspropres la matrice VM est M-symetrique : elle
est donc diagonalisable etses valeurs propres1, . . . , psont
reelles.Axesprincipauxdinertie ce sont lesp vecteurs a1, . . . ,
aptels queVMak = kak, avec ak, a
M = 1 sik = , 0 sinon.Ils sont
M-orthonormaux.Signedesvaleurspropres les valeurs propres de VM
sont positives et on peut lesclasser par ordre decroissant1 2 3 p
0.Ideedulienaveclinertie on sait que Tr(VM) = 1 + +p. Si on ne
gardequelesdonneesrelatives`a a1, . . . , aq, ongarderalinertie1 +
+ q, etcestlemieux quon puisse
faire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
42ResultatprincipalTheor`emeprincipal (Admis)1. SiFkest le
sous-espace de dimensionkportant linertie principale, alorsFk+1 =
Fkfk+1,o` ufk+1est lesous espacededimension1M-orthogonal
`aFkportant linertiemaximale : les solutions sont embotees ;2.
Fkest engendrepar les kvecteurs propres deVMassocies auxkplus
grandesvaleurs propres.Interpretationdutheor`eme lACP sur k +1
variables est obtenue par ajout dunevariable dinertie maximale `a
lACP sur k variables. Il nest pas necessaire de refaire toutle
calcul.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
43LescomposantesprincipalesCoordonneesdesindividus supposons que
eig =
p=1cia
, alorseig, ak
M =p
=1cia
, ak
M = cikLa coordonnee de lindividu centre eig sur laxe principal
akest donc donne parla projection M-orthogonalecik = eig, ak
M = (eig)
Mak.Composantesprincipales ce sont les variables ckde taillen
denies parck = YMak.Chaque ckcontientlescoordonneesdesprojections
M-orthogonalesdesindividuscentres sur laxe deni par les
ak.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
44RepresentationdesindividusdansunplanprincipalQuest-cequecest ?
pourdeuxcomposantesprincipales c1et c2, onrepresentechaque
individui par un point dabscisseci1et
dordonneeci2.e2e5e4e8e7e6e1e3Axe 2Axe 1Quand ? Elle est utile quand
les individus sont
discernables.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
45ProprietesdescomposantesprincipalesMoyennearithmetique les
composantes principales sont centrees : ck = c
kD1n = a
kMY
D1n = 0car Y
D1n = 0 (les colonnes de Ysont centrees).Variance la variance de
ckestkcarV (ck) = c
kDck = a
kMY
DYMak= a
kMVMak = ka
kMak = k.Covariance de meme, pourk = ,cov(ck, c
) = c
kDc
= =
a
kMa
= 0.Les composantes principales ne sont pas correlees entre
elles.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
46FacteursprincipauxDenition onassocie `aunaxeprincipal
aklefacteurprincipal uk = Makdetaillep. Cest un vecteur propre de
MVcarMVuk = MVMak = kMak = kukCalcul en pratique, on calcule les
ukpar diagonalisation de MV, puis on obtient lesck = Yuk. Les akne
sont pas interessants.La valeur dune variable ckpour lindividu
eiest donccik = (eig)
uk =p
j=1yjiukjo` u u
j = (ui1, . . . ,
uip).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
47FormulesdereconstructionIlestpossibledereconstruireletableaucentre
Y`apartirdescomposantesprinci-pales et des facteurs principauxY
=p
k=1cka
k =p
k=1cku
kM1.Preuve il sut de calculer_p
k=1cka
k_Ma
=p
k=1cka
kMa
= c
= YMa
.Comme M est inversible et que les akforment une base, on
obtient Y.Approximation si on prend les kpremiers termes seulement,
on obtient la meilleureapproximation de Ypar une matrice de rang
kau sens des moindres carres (theor`emede
Eckart-Young).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
48LACPsurlesdonneescentreesreduitesMatricedevariance-covariance
cest la matrice de correlation carZ
DZ = D1/sY
DYD1/s = D1/sVD1/s = R.Metrique on prend la metrique M =
Ip.Facteursprincipaux ce sont lesp vecteurs propres orthonormes de
R,Ruk = kuk, avec uk, u
= 1 sik = , 0 sinon.dont les valeurs propres sont classes par
valeur propre decroissante1 2 3 p 0Composantesprincipales elles
sont donnees par ck =
Zuk.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
49Nombredaxes`aretenirDimensionde lespace des individus LACPvisant
`areduireladimensiondelespace des individus, on veut conserver
aussi peu daxes que possible. Il faut pour celaque les variables
dorigine soient raisonnablement correlees entre elles.Les seuls
crit`eres utilisables sont empiriques.Interpretationdesaxes
onseorcedeneretenirquedesaxes`aproposdesquelsuneformedinterpretationestpossible(soitdirectement,
soitentermedesvariablesaveclesquelsilssonttr`escorreles).Ondonneradesoutils`aceteetplusloindanslecours.Crit`eredeKaiser(variablescentrees-reduites)
on ne retient que les axes asso-cies `a des valeurs propres
superieures `a 1, cest-`a-dire dont la variance est superieure
`acelle des variables dorigine.Une autre interpretation est que la
moyenne des valeurs propres etant 1, on ne gardeque celles qui sont
superieures `a cette
moyenne.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
50Nombredaxes`aretenir(suite)Eboulisdesvaleurspropres onchercheun
coude danslegraphedesvaleurspropres2 4 6 8
100.00.51.01.52.02.53.03.5CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
51LespacedesvariablesMetriqueD il faut munir lespace des variables
dune metrique raisonnable. Onchoisit toujours la metrique D des
poids :x, yD = x
Dy, x2D = x
Dx.Interpretation pour deux variables centreesx et y, on acov(x,
y) = x, yD, V (x) = x2D,cor(x, y) =x, yDxDyD= cos( xy).Exemple les
vecteurs ck/kforment une base D-orthonormale_ckk,c
_D= cor(ck, c
) =_1, sik = ,0,
sinon.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
52CorrelationentrecomposantesetvariablesinitialesQuandontravaille
surles variables centrees-reduites, la correlation entre une
com-posante principale cket une variable zjestr(zj, ck) = cov(zj,
ck)_V (ck)= (zj)
Dckket donc le vecteur des correlations de ckavec Z estr(Z, ck)
= (r(z1, ck), . . . , r(zp, ck))
= Z
Dckk.Comme Z
Dck = Z
DZuk = Ruk = kuk, on a nalementr(Z, ck)
=_kuk.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
53LecercledescorrelationsQuest-cequecest ? cestunerepresentationo`
u,pourdeuxcomposantesprinci-pales,parexemple c1et
c2,onrepresentechaquevariable zjparunpointdabscisser(zj, c1) et
dordonneer(zj, c2).Eettaille celaarrivequandtoutes les variables
sont correlees positivementavec la premi`ere composante principale.
Cette composante est alors appelee facteur de taille , la seconde
facteur de forme
.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
54Lecercledescorrelations(suite)Pourquoi uncercle ? comme les
ck/kforment une base D-orthonormale,zj=p
k=1_ckk, zj_Dckk=p
i=1r(ck, zj)ckket donczj
2D = 1 =p
k=1r2(ck, zj).Les points sont bien `a linterieur dun cercle de
rayon 1.Interpretation les points sont la projection orthogonale
dans D des variables dans le plan denipar les composantes
principales c1et c2. Il ne faut interpreter la proximite des points
que sils sont proches de la
circonfe-rence.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
55Contributiondunindividu`aunecomposanteDenition OnsaitqueV (ck) =k
= ni=1pic2ik.Lacontributiondelindividui`a la composantekest
doncpic2ikkInterpretation la contribution dun individu est
importante si elle exc`ede dun facteurle poidspide lindividu
concerne, cest-`a-direpic2ikk pi,ou de mani`ere equivalente|cik|
_kChoixde selonlesdonnees,onsexeengeneral unevaleurdelordrede 2`a
4,que lon garde pour tousles
axesCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
56Individussur-representesQuest-cequecest ? cest un individu qui
joue un role trop fort dans la denitiondun axe, par
exemplepic2ikk> 0, 25Eet il tire `a lui laxe k et risque de
perturber les representations des autres pointssurlesaxesderang
k.Il estdoncsurtoutproblematiquesurlespremiersaxes.Untel individu
peut etre le signe de donnees erronees.Solution on peut le retirer
de lanalyse et le mettre en individu supplementaire
.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
57QualiteglobaledelarepresentationCalcul de linertie on se souvient
que Ig = Tr(VM) ; comme la trace dune matriceest la somme de ses
valeurs propres, on aIg = 1 + 2 + + p.Denition
laqualitedelarepresentationobtenueparkvaleurspropresestlapro-portion
de linertie expliquee1 + 2 + + k1 + 2 + + pSi parexemple1 +
2estegal 90%deIg,onendeduitquelenuagedepointsest aplati autour du
premier plan principal.Utilisation cettevaleursertseulement`a
evaluerlaprojectionretenue,pas`achoisirle nombre daxes `a
garder.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
58QualitelocaledelarepresentationBut on cherche `a determiner si le
nuage de points est tr`es aplati par la projection
surlessous-espacesprincipaux.Danscecas,deuxindividus
eloignespourraientarticielle-ment sembler proches les uns des
autres.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
59AngleentreunindividuetunaxeprincipalIl estdeni
parsoncosinuscarre.Lecosinusdelangleentrelindividucentreietlaxe
principalkestcos(ei, ak) = eig, ak
MeigM.car les akforment une base orthonormale. Comme eig, ak
M = cik,cos2(ei, ak) =c2ik
pk=1c2ik.Cette grandeur mesure la qualite de la representation
de lindividu i sur laxe
principalaj.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
60Angleentreunindividuetunsous-espaceprincipalCest
langleentrelindividuet saprojectionorthogonalesur le sous-espace.
Laprojection de eigsur le sous-espaceFq,q p, est
qk=1cikak, et donccos2(
ei, Fq) =
qk=1c2ik
pk=1c2ik.La qualite de la representation de lindividu i sur le
plan Fqest donc la somme
desqualitesderepresentationsurlesaxesformantFq.Il
estsignicatifquandlepoint einest pas trop pr`es de g.Crit`eres
Uncos2egal `a0, 9correspond`aunanglede18degres. Parcontre,
unevaleur de 0, 5 correspond `a un angle de 45 degres ! On peut
considerer par exemple lesvaleurs superieures `a 0, 80 comme
correctes.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
61VariablessupplementairesquantitativesMotivation
lescomposantesprincipalesetantdeniespourmaximiserlescontribu-tions,
le fait que les correlations obtenues soient proches de 1 peut ne
pas etre signicatif.Par contre, une correlation forte entre une
composante principale et une variable nayantpas participe `a
lanalyse est tr`es signicative.Methode on met decote certaines
variables pour quelles nesoient pas
utili-seesdanslanalyse(ondiminuedoncladimensionde
Renenlevantdeslignesetdescolonnes). On cherche ensuite `a savoir si
elles sont liees `a un axe donne.Correlation on calcule la
correlation de la variable avec les composantes principales eton la
place dans le cercle des correlations. Si z est le vecteur
centre-reduit correspondant`a cette variable, on calculecor( z, ck)
= cov( z, ck)_V (ck)= z, ck
Dk=1kn
i=1pi
zicik.Onpeuteventuellementutiliserunteststatistiquepourdeterminersi
unecorrelationest
signicative.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
62VariablessupplementairesqualitativesRepresentation onpeut
representer par des symboles dierents les individus dechaque
categorie sur les axes principaux.Valeur-test on consid`ere les n
individus ayant une certaine caracteristique
(homme,femme...)etlacoordonnee
ckdeleurbarycentresurlaki`emecomposanteprincipale.La valeur-test
est ck_ nk_n 1n n.Quand n est assez grand, elle est signicative si
sa valeur absolue est superieure `a 2 ou3.Idee du calcul Si les n
individus etaient pris au hasard, ck serait une variable
aleatoirecentree (les z sont de moyenne nulle) et de variancek nn
nn1car le tirage est sans
remise.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
63IndividussupplementairesMethode on met de cote certains individus
pour quils ne soient pas utilisees
danslanalyse(ilsnesontpasprisencomptedanslecalcul descovariances).
Onchercheensuite `a savoir si ils sont lies `a un axe
donne.Casdesindividussur-representes
onpeutdeciderdutilisercespointsenindi-vidussupplementaires,enparticulierquandlespointsconstituentun
echantillonetnepresentent pas dinteret en eux-memes.Representation
onlesajoute `alarepresentationsurlesplansprincipaux.Pourcal-culer
leur coordonnee sur un axe xe, on ecrit ck = z, uk =p
j=1 zjukj,o` u les zjsont les coordonnees centrees-reduites dun
individu supplementaire z.Cesindividus peuvent
servirdechantillon-testpour verierleshypoth`eses tireesdelACP sur
les individus
actifs.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
64LACPentroistransparents(1)Donnees les donnees representent les
valeurs de p variables mesurees sur n individus
;lesindividuspeuventavoirunpoids. Engeneral
ontravaillesurdesdonneescentreesreduites Z (on retranche la moyenne
et on divise par lecart type).Matrice de correlation cest
lamatriceRde variance-covariance des variablescentrees reduites.
Elle poss`edep valeurs propres1 p 0.Inertie totale cest la moitie
de la moyenne des distances au carre entre les individus
;ellemesureletenduedunuagedepoints. Cest lagrandeur
quoncherche`agardermaximale et elle peut secrireIg = 1 + 2 + + p =
p.FacteursprincipauxukcesontdesvecteurspropresorthonormesdeRassociesaux
k: Ruk = kuk. Leur j-i`eme composante (sur p) ukjest le poids de la
variablejdans la composantek.Composantes principalesckcesont
lesvecteursZukdedimensionn. Leur
i-i`emecoordonneecikestlavaleurdelacomposantekpourlindividui.
Lescksontdecorrelees et leur variance estV (ck) =
k.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
65LACPentroistransparents(2)Nombre daxes on se contente en general
de garder les axes interpretablesde valeurpropre superieure `a
1.Cercledescorrelations il permet de visualiser comment les
variables sont correlees(positivement
ounegativement)aveclescomposantesprincipales.`Apartir del`a, onpeut
soit trouver une signication physique `a chaque composante, soit
montrer que lescomposantes separent les variables en
paquets.Representationdesindividus
pourunplanprincipaldonne,larepresentationdesprojections des
individus permet deconrmer linterpretationdes variables.
Onpeutaussi visualiser les individus aberrants (erreur de donnee ou
individu atypique).Contribution dun individu `a une composante cest
la part de la variance dunecomposanteprincipalequi
provientdunindividudonne. Si cettecontributionestsu-perieurde 2`a
4foisau`asonpoids, lindividudenitlacomposante. Si
elleesttr`essuperieureauxautres, onditquil
estsurrepresenteetonpeutavoirinteret`amettrelindividu en donnee
supplementaire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
66LACPentroistransparents(3)Qualiteglobaledelarepresentation
cestlapartdelinertietotaleIgqui estexpliquee par les axes
principaux qui ont ete retenus. Elle permet de mesurer la
precisionet la pertinence de
lACP.Qualitedelarepresentationdunindividu
ellepermetdeverierquetouslesindividus sont bien representes par le
sous-espace principal choisi ; elle sexprime commele carre du
cosinus de langle entre lindividu et sa projection
orthogonale.Individussuplementaires
quandunindividuestsurrepresentesurundespremiersaxes, on peut le
supprimer de lanalyse et le reintroduire dans la representation
commeindividu supplementaire.Variablessupplementairesquantitatives
certainesvariablespeuventetremisesde cote lors de lACP et reportees
separement sur le cercle des correlation.Variables supplementaires
qualitatives elles peuvent etre representees sur la pro-jection des
individus, et leur liaison aux axes est donnee par les
valeurs-test.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.
67