-
Universit Toulouse 1 Capitole
cole Doctorale Mathmatiques, Informatique et
Tlcommunications de Toulouse
CONTRIBUTIONS LANALYSE DEDONNES NON VECTORIELLES
Nathalie Vialaneix
Manuscrit en vue de lobtention de
lHabilitation Diriger des Recherches
prsent et soutenu publiquement le 13 novembre 2014 devant :
Philippe Besse Professeur, INSA, ToulouseDianne Cook Professeur,
Iowa State UniversityMarie-Laure Martin-Magniette Directrice de
Recherche, AgroParisTechJean-Michel Poggi Professeur, Universit
Paris DescartesAnne Ruiz-Gazen Professeur, Toulouse School of
EconomicsJean-Philippe Vert Chercheur, Mines ParisTech &
Institut Curie
sur la base des rapports rdigs par Mme Dianne Cook, M.
Jean-Michel
Poggi et M. Jean-Philippe Vert.
-
1
RemerciementsEn premier lieu, je tiens exprimer ma gratitude
Anne Ruiz-Gazen de m'avoir
paule dans les diverses tapes cette habilitation, depuis la
rdaction de ce manuscritjusqu' la soutenance. Son soutien, sa
bienveillance, son dynamisme et son optimismeont t une aide
prcieuse.
Je veux aussi remercier chaleureusement Dianne Cook, Jean-Michel
Poggi et Jean-Philippe Vert d'avoir pris le temps d'valuer ce
document de synthse. Je leur suisreconnaissante de m'avoir appuye
dans cette tape professionnelle qui me tenait cur.Je veux aussi
remercier Philippe Besse, Marie-Laure Martin-Magniette et Josiane
Mothepour avoir accept de faire partie du jury de soutenance car
c'est toujours un plaisird'changer avec eux.
La recherche est videmment un travail collectif et je n'aurais
pu avancer dans cettevoie sans l'aide des nombreuses personnes avec
lesquelles j'ai collabor depuis le dbut dema thse. Il est toujours
dlicat de citer nommment certains collaborateurs - et que tousles
autres sachent que j'ai conscience de leur devoir beaucoup - mais
je tenais remercier,en particulier, Fabrice Rossi tant notre
collaboration a t durable et fructueuse ets'est prolonge bien
au-del de relations professionnelles. Il a indniablement
beaucoupcompt dans ma formation scientique ; son amiti et son
humour m'ont accompagnedans les moments les plus diciles.
Je dois galement beaucoup aux quipes de recherche qui m'ont
accueillie ces der-nires annes : l'quipe SAMM de l'universit Paris
1 m'a oert un cadre scientiquepanouissant et a tout fait pour
faciliter mon intgration malgr la distance. Merci donc l'intgralit
de l'quipe, et en particulier son ancienne directrice, Marie
Cottrell, sondirecteur actuel, Jean-Marc Bardet, et aux membres de
l'axe dit du mal qui ontorganis pour moi des sances de travail en
visio-confrences dans des conditions tech-niques oses : les eorts
consentis m'ont beaucoup aide ne pas me sentir isole. Je
suisgalement trs reconnaissante aux membres de l'unit MIA-T de
l'INRA de Toulousepour la qualit de leur accueil lors de ma
dlgation au sein du laboratoire durant l'anne2012/2013 et, tout
particulirement, Christine Cierco-Ayrolles qui m'a encourage faire
cette demande : cette anne a t une anne d'panouissement scientique
pour moi.Le soutien du laboratoire ainsi que celui de mes
collaboratrices de l'quipe GenPhySE,Magali San Cristobal et
Laurence Liaubet, m'ont permis de nalement intgrer l'uniten fvrier
2014 et de participer l'encadrement des thses de Jrme Mariette et
ValrieSautron avec lesquels travailler est un plaisir. l'INRA, j'ai
trouv un environnementscientique stimulant et un environnement
professionnel chaleureux, en particulier enoccupant le bureau de
Cline, avec laquelle je partage le got des activits
fmininesdlicates.
J'ai eu galement la chance de pouvoir apporter ma petite pierre
l'animation dela SFdS, grce Jean-Michel Poggi, son prsident de
l'poque, et cette exprience a tune source de rencontres
stimulantes.
Plusieurs pages seraient probablement ncessaires pour remercier
les personnes quim'ont encourage ces dernires annes mais il faut
savoir conclure et la conclusion decette page de remerciements est
naturellement tourne vers Jean, mon compagnon depuisplus de vingt
ans, dont le soutien inconditionnel ne s'est jamais dmenti. Il est
indniableque je lui dois bien plus que la conclusion de ce modeste
travail.
-
Table des matires
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 5
1 Analyse et infrence de graphes . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 91.1 Introduction 9
1.2 Classification non supervise & visualisation 101.2.1
Motivation et contribution personnelle . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 101.2.2 Approches noyau . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 131.2.3 Approches bases sur la modularit . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 271.2.4 Application pour
la fouille de donnes dun graphe rel . . . . . . . . . . . . . . .
351.2.5 Conclusions et perspectives . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 371.2.6 Rfrences . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 41
1.3 Infrence 481.3.1 Introduction . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 481.3.2 Motivation et contribution personnelle . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 501.3.3 Consensus LASSO . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 541.3.4 Conclusions et perspectives . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
561.3.5 Rfrences . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 58
2 Analyse de donnes fonctionnelles . . . . . . . . . . . . . . .
. . . . . . . . . . . 612.1 Introduction 61
2.2 Contribution personnelle 61
2.3 Approches dites inverses 642.3.1 Rgression inverse et
perceptron multi-couches . . . . . . . . . . . . . . . . . . . . .
. 642.3.2 Rgression inverse par estimation de densit (DBIR) . . . .
. . . . . . . . . . . . . . . 66
2.4 Mthodes noyau pour la discrimination 682.4.1 SVM pour la
discrimination fonctionnelle . . . . . . . . . . . . . . . . . . .
. . . . . . . . 682.4.2 Utiliser les drives . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
-
2.5 Conclusion et perspectives 71
2.6 Rfrences 73
Conclusion et perspectives . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 77
A Bref Curriculum Vitae . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 79A.1 Formation et parcours
professionnel 79
A.2 Encadrements 79A.2.1 Encadrements de stages . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79A.2.2 Encadrements de thses . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 80A.2.3 Participations
des comits et des jurys de thse . . . . . . . . . . . . . . . . . .
. . 81
A.3 Contrats de recherche institutionnels et industriels 81
A.4 Activits danimation scientifique 82
A.5 Activits denseignement 82
B Liste des publications . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 85B.1 Publications dans des
revues internationales comit de lecture 85
B.2 Publications dans des revues nationales comit de lecture
86
B.3 ditoriaux 87
B.4 Chapitres douvrages collectifs 88
B.5 Communications dans des confrences internationales avec
comit delecture et publication des actes 88
B.6 Confrences invites 90
B.7 Autres confrences 90
B.8 Articles soumis ou en rvision 92
B.9 Logiciels 92
Note technique : Ce manuscrit a t crit l'aide du logiciel libre
LATEX partir du modle The
Legrand Orange Book mis la disposition de tous par Mathias
Legrand. La bibliographie a t ralise
avec le programmes libres biblatex et biber. La plupart des
graphiques ont t raliss avec le logiciel libre
R et en particulier avec les packages igraph, ggplot2 et
SOMbrero. La mise disposition, de manire
libre, de ces outils facilite quotidiennement notre vie
scientique et cette note technique a pour but de
remercier collectivement les personnes qui participent leur
dveloppement.
-
Introduction
Dans de nombreux problmes rels d'analyse de donnes, les
observations collectesne sont pas des donnes numriques et
vectorielles classiques. Une premire stratgiepour aborder ce type
de questions est de simplier celles-ci en les rsumant par
unereprsentation vectorielle puis d'utiliser des mthodes d'analyse
statistique classiques(apprentissage supervis, fouille non
supervise de donnes). Une alternative souvent pr-fre cette approche
simplicatrice est d'adapter les mthodes d'analyse la
structureparticulire des donnes, que celles-ci soient des donnes
reprsentes par des courbes(donnes fonctionnelles), des arbres ou
des graphes (donnes relationnelles ou donneshirarchiques) ou bien
d'autres types de donnes non vectorielles.
Ce mmoire rsume mes activits de recherche dans cette dernire
direction. Demanire plus prcise, je me suis intresse, au cours de
ma thse, l'analyse de don-nes fonctionnelles, c'est--dire l'analyse
de donnes qui peuvent tre dcrites par descourbes et qui sont
frquemment modlises sous la forme d'observations d'une
variablealatoire valeur dans un espace de Hilbert. J'ai tudi
l'adaptation de mthodes neuro-nales et noyau ce type de donnes.
Tout en maintenant une activit dans ce domaine,je me suis peu peu
intresse d'autres types de donnes non vectorielles, savoir
desdonnes relationnelles, modlises sous la forme de graphes. J'ai
investi mes comptenceset connaissances sur les mthodes neuronales
et les mthodes noyau pour tudier cetype de donnes.
Mes activits de recherche actuelles se situent l'interface entre
statistique et in-formatique, sur les thmatiques de la fouille de
donnes et de l'apprentissage pour desdonnes complexes et non
vectorielles. Au del des aspects de dveloppement mthodo-logique,
une part non ngligeable de mes activits est consacre l'application
de ces m-thodes sur des problmatiques concrtes issues de divers
domaines d'application : scienceshumaines, sociales et
environnementales, suite aux collaborations noues avec des
cher-cheurs de l'Universit Toulouse 2 (Jean Jaurs) durant ma thse
et, plus rcemment,gnomique et biologie des systmes. Mon intgration
rcente l'INRA (comme chargede recherche, depuis fvrier 2014) promet
une intensication de ce dernier type d'ap-plications. Les
thmatiques abordes dans ce manuscrit ainsi que les liens qui
existententre elles, sont schmatises dans la gure 2 que je
reprendrai plusieurs reprises dansce mmoire.
-
6
L'ensemble des travaux prsents ici a donn lieu 25 publications
dans des revuesnationales ou internationales comit de lecture ainsi
qu' des publications dans desactes de confrences. La liste de mes
publications est donne dans le chapitre B en annexe.Les
publications dans des revues sont dcoupes en 4 grands ensembles
thmatiques selonqu'elles sont des publications mthodologiques sur
l'analyse de graphes, des publicationsmthodologiques sur l'analyse
de donnes fonctionnelles, des applications en scienceshumaines,
sociales et sciences de l'environnement ou bien des applications en
biologie dessystmes et gnomique. La rpartition des publications
selon ces 4 grandes thmatiquesest donne dans la gure 1 1.
Figure 1 Rpartition des thmatiques des publications dans des
revues comit delecture.
De manire similaire, ce mmoire est organis de manire thmatique :
dans le cha-pitre 1, je prsente mes contributions l'analyse de
donnes relationnelles qui constituema thmatique de recherche la
plus active actuellement. Ce chapitre est dcoup en deuxgrandes
parties qui correspondent, respectivement, des contributions pour
la fouille dedonnes relationnelles et pour l'infrence de rseau.
Dans le chapitre 2, je prsente mescontributions l'analyse de donnes
fonctionnelles ; pour simplier le propos, j'ai rsumles rsultats
thoriques obtenus dans cette partie et n'ai inclus aucune
dmonstration.Les dveloppements complets sont inclus dans les
articles cits. la n de chacune destrois grandes parties de ce
manuscrit (classication non supervise & visualisation
degraphes, infrence de rseau, analyse de donnes fonctionnelles),
j'ai inclus une prsen-tation des perspectives de mes travaux de
recherche dans le domaine. La conclusion dece manuscrit (page 77)
fait la synthse de mon projet de recherche. Une annexe contient
1. Bien sr, cette rpartition est relativement subjective car il
est parfois assez dicile de direncierce qui est de l'ordre du
mthodologique de ce qui est de l'ordre de l' application , l'un et
l'autretant troitement mls dans plusieurs travaux.
-
7
un court CV qui synthtise l'volution de ma carrire, mes activits
d'encadrement etd'animation ainsi que mes participations des
contrats de recherche.
-
8
Mthodes
GGM
Mthodesnoyau
Mthodesneuronales
SVM
K-SOM
modularit
organise
MLP
Rseaux/Graphes
Donnesfonctionnelles
Donnesmultiples
Donnes
Applicationsen
biologie
(rseaux
biologiques,donn
es
mtabolom
iques)
Applicationsen
histoire
(rseaux
sociaux)
Figure2Thmatiquesde
recherchede
cemanuscrit,organisesen
mthodes(enhaut)et
donn
es&applications
(enbas),etleursrelations.
Les
approchessupervises
sont
entouresd'un
rectanglerouge,lesapprochesnonsupervises
d'un
rectanglebleu.SV
M:Su
pportVectorMachine.
K-SOM
:KernelSelf-O
rganizingMaps.MLP:Multi-Layer
perceptrons.GGM
:ModleGraph
ique
Gaussien.
Par
Donnes
multiples,
jefaisrfrencedesdonn
es
comportant
plusieursgroupes
devariables,ventuellementde
types
dirents,ou
desdonn
esprovenantde
plusieursgroupes
d'individu
s.
-
IntroductionClassification non supervise &
visualisa-tion
Motivation et contribution personnelleApproches noyauApproches
bases sur la modularitApplication pour la fouille de donnesdun
graphe relConclusions et perspectivesRfrences
InfrenceIntroductionMotivation et contribution
personnelleConsensus LASSOConclusions et perspectivesRfrences
1 Analyse et infrence de graphes
1.1 Introduction
Dans de nombreuses applications, les donnes ne sont pas dcrites
par des variablesnumriques ou qualitatives mais par leurs relations
les unes aux autres. Ce type de don-nes, dites relationnelles et
communment appeles rseaux, est frquemment modlispar des graphes,
c'est--dire par la donne d'un ensemble de n sommets V = {x1, . . .
,xn},modlisant des entits, et d'un ensemble d'artes E qui modlisent
les relations entreces entits. Cet expos se restreint au cas de
graphes non orients, simples (sans boucleet arte multiple) et
ventuellement pondrs. Dans ce dernier cas, les poids peuventtre
reprsents par une matrice W , de taille n n, symtrique, diagonale
nulle et coecients positifs. Ces donnes se retrouvent naturellement
dans de nombreuses appli-cations (M.E.J. Newman 2003; Dorogovtsev
and Mendes 2003), les plus connues tantprobablement les rseaux de
l'internet (WWW : Wasserman and Faust 1994; Albert etal. 1999;
Huberman and Adamic 1999; Scott 2000), les rseaux sociaux (Freeman
2004;Borgatti et al. 2009), comme les rseaux de collaborations
(M.E.J. Newman 2001) oules rseaux sociaux de l'internet (Wellman et
al. 1996; Adamic and Glance 2005; Traudet al. 2011) et les rseaux
biologiques (rseau d'interactions protine-protine,
rseauxmtaboliques, rseaux de rgulation gnique... voir Barabsi et
al. 2011).
Mes travaux de recherche ont trait l'analyse statistique sur les
rseaux et abordentles deux principaux aspects de celle-ci : en
premier lieu, la fouille de donnes, destine extraire de
l'information pertinente d'un rseau donn et plus rcemment,
l'infrence,qui consiste reconstruire, partir de donnes observes, le
graphe de dpendance entreles variables. La section 1.2 se situe au
cur de la premire thmatique, en prsentantdes travaux relatifs la
classication non supervise de sommets dans les graphes
etl'utilisation de la classication pour la visualisation de
graphes. Ces mthodes s'avrentutiles pour guider l'utilisateur dans
son exploration d'un grand rseau (certaines appli-cations pouvant
conduire la manipulation de graphes de plusieurs centaines,
plusieursmilliers, voire plusieurs dizaines de milliers de sommets)
: la classication permet de d-couper le graphe en grands ensembles
et d'aider mettre en lumire sa structure globale,par l'analyse des
relations existant entre ces grands ensembles. Les revues de
rfrences(Fortunato 2010; Schaeer 2007) donnent un panorama complet
des mthodes de classi-cation de sommets d'un graphe. La section 1.3
prsente la problmatique de l'infrence
-
10 Analyse et infrence de graphes
de rseau, spcique au cadre biologique, o un graphe de dpendances
entre variablesest reconstruit partir d'observations de ces
variables. Mes travaux se restreignent aucas du modle graphique
gaussien (D. Edwards 1995) et abordent la question de l'in-tgration
de donnes de natures ou d'chantillons multiples dans l'infrence.
Dans lesdeux sections de ce chapitre, les problmatiques et mthodes
sont illustres sur des casd'tudes rels, en histoire (la section
1.2.4 prsente l'tudes de donnes historiques, issuesd'un grand
corpus de documents du Moyen-ge) ou en biologie.
1.2 Classification non supervise & visualisation
1.2.1 Motivation et contribution personnelle
La notion de communaut dans les rseaux est une notion qui a t
tudie en premierdans le domaine des sciences sociales : en eet, il
est gnralement admis de manireassez naturelle (Freeman 2004) que
les groupes humains sont structurs en sous-groupessociaux cohsifs.
Du point de vue de l'objet mathmatique graphe , la dnitionde ces
communauts n'est pas compltement uniforme et peut varier selon le
domained'application. Cependant, de manire assez consensuelle, la
notion de communautsfait rfrence des groupes de sommets denses (ie
avec un grand nombre d'artes l'intrieur du groupe) et connects
entre eux par un nombre faible (comparativement)d'artes. De
nombreuses tudes sur des rseaux sociaux (M.E.J. Newman 2003;
Porter,Onnela, et al. 2009; Traud et al. 2011) ont montr les
relations entre ces groupes et descaractristiques dcrivant les
individus, validant la pertinence des mthodes de recherchede
communauts dans des cas rels. Certaines tudes font aussi tat d'une
structuremodulaire hirarchique complexe (Porter, Mucha, et al.
2007). L'exemple clbre duclub de karat de Zachary (Zachary 1977)
montra que la recherche de communautsdans un rseau social simple
pouvait eectivement mettre en valeur des phnomnessociaux important
au sein du groupe de personnes tudi (et dans le cas de cette
tude,anticiper ou expliquer la scission du club de karat en deux
groupes). Ces questionsont progressivement gagn de l'attention dans
d'autres domaines d'application que celuides sciences sociales,
notamment en biologie o certains travaux ont mis en valeur
unerelation entre communauts dans les graphes (plutt appels modules
dans ce contexted'application) et groupes fonctionnels (voir
(Guimer and Amaral 2005) pour un exempled'application un rseau
mtabolique).
Aussi, les propositions de mthodes de classication non supervise
des sommets d'ungraphe, destines retrouver une partition de sommets
en groupes densment connec-ts, ont connu un dveloppement trs
important dans la littrature rcente o elles sontsouvent appeles
mthodes de dtection de communauts . Les revues (Schaeer
2007;Porter, Onnela, et al. 2009; Fortunato 2010) proposent trois
tats de l'art des mthodesde classication non supervises dans les
graphes ainsi que des applications de ces m-thodes sur des donnes
issues de domaines d'application varis. galement, (Danon et
al.2005; Lancichinetti and Fortunato 2009) comparent les
performances de direntes m-thodes de classication non supervise en
terme de qualit de la classication obtenue etde complexit de
l'algorithme. Parmi les mthodes les plus utilises, on trouve
l'optimi-sation d'un critre de qualit spcique aux graphes, appel
modularit et introduit dans(M.E.J. Newman and Girvan 2004). Cette
optimisation est un problme NP complet etde nombreuses mthodes
d'approximation de la rsolution de ce problme ont t propo-ses
(M.E.J. Newman 2006; Reichardt and Bornholdt 2006; Blondel et al.
2008; Noackand Rotta 2009), pour n'en citer que quelques-unes.
Parmi les approches courammentutilises pour la classication non
supervise de sommets dans un graphe, on rencontre
-
1.2 Classification non supervise & visualisation 11
aussi le spectral clustering (classication spectrale, (Ng et al.
2002; Luxburg 2007)),qui est base sur la dcomposition spectrale du
laplacien du graphe, une matrice dontles proprits algbriques sont
fortement relies la structure du graphe.
Mes travaux en classication non supervise se positionnent sur le
dveloppementde mthodologies combinant classication avec
visualisation : l'objectif de la visualisa-tion de graphes (Di
Battista et al. 1999) est de fournir l'utilisateur une
reprsentationd'ensemble du graphe qui soit la fois esthtique et une
aide l'interprtation. La plu-part des algorithmes de reprsentation
de graphes sont bass sur des modles de forces(Fruchterman and
Reingold 1991) et se concentrent sur un rendu esthtique qui
favorisedes artes courtes et de tailles uniformes. (Noack 2007)
fait remarquer que ce type d'ap-proches a pour consquence de
concentrer les sommets de forts degrs au centre de lagure et, de ce
fait, ne correspond pas la manire intuitive qu'un utilisateur a de
com-prendre les relations existant dans un grand rseau. En eet,
l'analyste recherchera aucontraire extraire les grands ensembles et
avoir une vue macroscopique des relationsexistant entre eux, puis
se focalisera sur les dtails de tel ou tel ensemble d'intrt.
Cettedmarche est proche de ce qui est fait en classication non
supervise de sommets et ilest donc naturel de combiner les deux
approches (classication et visualisation) commeoutil d'exploration
d'un graphe. Pour ce faire, plusieurs approches sont possibles
:
1. eectuer une classication non supervise des sommets dans un
premier temps etreprsenter le graphe des classes dans un deuxime
temps. Le graphe des classes estun graphe simpli dans lequel chaque
sommet reprsente une classe (Herman et al.2000). Ces mthodes
peuvent tre utilises en combinaison avec une
classicationhirarchique des sommets pour permettre une exploration
de plus en plus nedu graphe (Auber et al. 2003; Archambault et al.
2010; Sei et al. 2010), quiest implmente de manire interactive dans
certains logiciels de visualisation degraphes (voir par exemple,
Tulip 1 (Auber 2003) ou Gephi 2 (Bastian et al. 2009)) ;
2. eectuer une classication non supervise des sommets dans un
premier tempset reprsenter le graphe dans son ensemble, en
utilisant la donne des graphescomme contrainte sur la
reprsentation, dans un second temps. Cette approche
aparticulirement t tudie dans le milieu des annes 1990 sous le nom
de clusteredgraph visualization (Bourqui et al. 2007; Eades and
Feng 1996; Eades and Huang2000) ;
3. eectuer classication et visualisation en mme temps en
introduisant dans larecherche de communauts des contraintes lies la
reprsentation du graphe desclasses qui en rsultera. (Noack 2007)
propose galement une approche alternativequi est proche de celle-ci
en optimisant un modle d'nergie conu pour reprsenter proximit les
sommets de zones denses du graphe.
Mes contributions dans ce champ se situent principalement sur la
troisime approcheavec le dveloppement d'une extension des cartes
auto-organisatrices pour des donnesdcrites par des noyaux (voir la
section 1.2.2) . En particulier, cette approche est utilepour
analyser des graphes mais elle peut tre aussi utilise pour
l'analyse de donnes nonvectorielles (ou vectorielles) dans un cadre
assez gnral. Une approche similaire, maisspcique aux graphes, est
dcrite dans la section 1.2.3 o une extension de la modularitest
propose pour reprsenter un graphe simpli sur une grille. Cette
section prsentegalement une application de la classication base sur
le critre de modularit lavisualisation hirarchique d'un grand
graphe.
1. http://tulip.labri.fr2. http://gephi.org
http://tulip.labri.frhttp://gephi.org
-
12 Analyse et infrence de graphes
Mthodes
Mthodesnoyau
Mthodesneuronales
K-SOM
Rseaux/Graphes
Donnesmultiples
SVM
MLP
Donnesfonctionnelles
GGM
Donnes
Applicationsen
biologie
(rseaux
biologiques,donn
es
mtabolom
iques)
Applicationsen
histoire
(rseaux
sociaux)
modularit
organise
Figure1.1Contributions
prsentes
dans
lasection1.2.2App
roches
noyau.
-
1.2 Classification non supervise & visualisation 13
1.2.2 Approches noyauCette premire partie prsente principalement
les travaux des articles (Boulet, Jouve,
et al. 2008; Massoni et al. 2013; Olteanu, Villa-Vialaneix, and
Cierco-Ayrolles 2013; Ol-teanu and Villa-Vialaneix 2015; Mariette
et al. 2014; Boelaert et al. 2014). Les thma-tiques abordes dans
cette partie sont rsumes dans la gure 1.1 qui est une simpli-cation
de la gure 2 dans laquelle les thmatiques non abordes ont t grises.
Mesprincipaux collaborateurs sur ces sujets ont t, depuis 2007,
Fabrice Rossi (professeurdans l'quipe SAMM, Universit Paris 1) et,
depuis 2012, Madalina Olteanu (matressede confrences dans l'quipe
SAMM, Universit Paris 1). Actuellement, la thse de J-rme Mariette
(Unit MIA-T, INRA de Toulouse), que je co-encadre, s'inscrit dans
lapoursuite du dveloppement de cette thmatique.
Dfinir une dissimilarit ou un noyau pour les graphes
Lorsque les objets d'tude ne sont pas des donnes numriques
standard, commedans le cas des graphes o les objets d'tude sont des
entits (les sommets) dcritespar leurs relations, il est commun de
les dcrire par une mesure de similarit ou dedissimilarit. Dans le
cas des graphes, une dissimilarit classique est la longueur duplus
court chemin dans le graphe, reliant deux sommets du graphe. Ces
mesures dedissimilarit sont gnralement symtriques et valeurs
positives mais peuvent ne pastre euclidiennes. Une autre approche
consiste utiliser un noyau qui est une mesure desimilarit possdant
quelques proprits additionnelles qui en font son intrt. Le noyauest
une application K : V V R (V dsigne l'ensemble des sommets du
graphe ou,par extension, n'importe quel espace abstrait) tel
que
x,x V, K(x,x) = K(x,x),
et
N N et (i)i=1,...,N R et (xi)i=1,...,N V,N
i,j=1
ijK(xi,xj) 0.
L'intrt des noyaux est qu'ils dnissent, de manire implicite, un
cadre euclidien pourl'espace V sur lequel il sont dnis. En eet,
(Aronszajn 1950) montre que pour toutnoyau K, il existe un espace
de Hilbert (H,.,.H) et une application : V H tels quele noyau
correspond exactement au produit scalaire de H pour les donnes
transformespar :
x,x V, K(x,x) = (x),(x)H. (1.1)
Cette proprit de reproduction de l'espace de Hilbert H, a servi
de justication tho-rique pour adapter beaucoup de mthodes d'analyse
de donnes classiques au cadre desdonnes dcrites par des noyaux. En
eet, utilisant la proprit (1.1), toute mthoded'analyse de donnes
(classication supervise ou non supervise, rgression) peut treadapte
au cadre non vectoriel de manire naturelle, partir du moment o elle
n'estbase que sur des calculs de normes et de produits scalaires :
il sut, en eet, de rem-placer ceux-ci par leur quivalent dans
l'espace image H en faisant rfrence celui-cide manire implicite,
simplement au travers du noyau K. C'est notamment le principesur
lequel sont bases les machines vecteurs de support (SVM (Vapnik
1995), voirsection 2.4 pour mes travaux sur le sujet dans le cadre
de l'analyse de donnes fonc-tionnelles). Ces approches, dites
mthodes noyau ont t utilises avec succs dansde nombreux domaines
d'application dont la biologie computationnelle (Schlkopf et
al.2004).
-
14 Analyse et infrence de graphes
Pour les graphes, plusieurs noyaux ont t proposs dans la
littrature, la plupartbass sur le laplacien du graphe qui est la
matrice L, de dimension n n, telle que :
i,j = 1, . . . ,n, Lij ={Wij si i 6= jdi sinon
,
o di est le degr du sommet xi (ie, le nombre d'artes arentes au
sommet xi oudi =
j 6=iWij dans le cadre d'un graphe pondr). Cette matrice est
fortement connec-
te la structure du graphe : par exemple, (Luxburg 2007) montre
que les vecteurspropres associs la valeur propre 0 de la matrice
permettent de retrouver les compo-santes connexes du graphe.
(Heuvel and Pejic 2001; Boulet, Jouve, et al. 2008)
montrentd'autres proprits structurelles du graphe lis la
dcomposition spectrale du laplacien.Dans un cadre trs gnral, ces
proprits structurelles ont t utilises pour justier uneapproche de
classication non supervise base sur le laplacien et appele
classicationspectrale ( spectral clustering ).
Plusieurs noyaux ont t dnis partir de versions rgularises du
laplacien d'ungraphe, parmi lesquels : le noyau de la chaleur (R.I.
Kondor and Laerty 2002) : K(xi,xj) = [K]ij avecK = e
L dont on peut dmontrer qu'il correspond un processus de
diusionde la chaleur le long des artes du graphe (le paramtre
dnissant l'intensitde la diusion). Ce noyau a t utilis de
nombreuses fois avec succs en biologiecomputationnelle (voir, par
exemple, (Yamanishi, J.P. Vert, Nakaya, et al. 2003)pour une
application la classication non supervise dans un rseau
gnomique,(Yamanishi, J.P. Vert, and Kanehisa 2005) pour une
application l'infrence derseaux enzymatiques) ; le noyau du temps
moyen de parcours (Fouss et al. 2006) : K = L+ o L+ estl'inverse
gnralise du laplacien. L aussi, ce noyau a une interprtation
concrtesimple : il permet de calculer le temps moyen ncessaire avec
une marche alatoirele long des artes pour relier deux sommets du
graphe. (Pons and Latapy 2006)utilisent une ide similaire pour
calculer une mesure de dissimilarit entre sommetsd'un graphe de
manire rapide.
Un cadre gnral pour ce type de noyaux, drivs du laplacien, est
dcrit dans (Smolaand R. Kondor 2003).
Parfois, les donnes ne sont pas dcrites pas un noyau mais par
une mesure de dis-similarit. De manire similaire au cadre du noyau,
cette dissimilarit peut tre plongedans un espace euclidien si elle
ralise la condition suivante (Schoenberg 1935; Youngand Householder
1938; Krislock and Wolkowicz 2012) : la matrice d'lments
sij =((xi,xn)
2 + (xj ,xn)2 (xi,xj)2
)/2
est positive. Dans ce cas, s peut-tre utilis directement comme
noyau, ainsi que lamatrice d'lments
s(i,j) = 12
2(xi,xj) 1n
nk=1
2(xi,xk)1
n
nk=1
2(xk,xj) +1
n2
nk,k=1
2(xk,xk)
comme suggr dans (Lee and Verleysen 2007). Lorsque cela n'est
pas le cas, (Y. Chenet al. 2009) propose de faire subir la matrice
de similarits utilise, un pr-traitementconsistant supprimer du
spectre les vecteurs propres associs aux valeurs propres n-gatives
du spectre de la matrice ou bien utiliser une reconstruction base
sur l'op-pose des valeurs propres ngatives. Les similarits obtenues
ne sont alors plus iden-tiques aux similarits de dpart et une
approche alternative s'appuie sur le concept
-
1.2 Classification non supervise & visualisation 15
d'espace pseudo-euclidien dcrit dans (Pkalska and Duin 2005) qui
montrent que si = ((xi,xj))i,j=1,...,n est une matrice de
dissimilarit symtrique entre lments xi etxj de V alors il existe
deux espaces euclidiens (E ,.,.E) et (F ,.,.F ) et une
applicationde plongement : x G (|E(x),|F (x)) E F tels que
(xi,xj) = |E(xi) |E(xj)2E |F (xi) |F (xj)2F . (1.2)
De manire similaire l'quation (1.1), l'quation prcdente donne un
cadre gnralpour tendre les mthodes d'analyse de donnes bases sur
des calculs de normes et deproduits scalaires aux donnes dcrites
par des mesures de dissimilarit.
Carte auto-organisatrice pour donnes dcrites par un noyau ou une
mesure de dissi-milarit
L'algorithme de cartes auto-organisatrices (parfois appeles
cartes de Kohonen ouSOM ) a t propos par T. Kohonen (Kohonen 1995).
C'est une mthode d'analyse dedonnes non supervise qui allie
classication non supervise et projection des donnessur un espace de
faible dimension. De manire plus prcise, les donnes sont
projetessur une carte qui est une grille, souvent rgulire et
rectangulaire, gnralement dedimension 2 ou 1, compose de neurones
ou units. La grille est munie d'une topologiequi dnie une distance
entre units. Les donnes sont alors classes dans les units(qui
constituent donc chacune une classe) de manire ce que la topologie
de celles-cidans l'espace initial soit prserve : deux observations
voisines dans l'espace des donnessont classes dans la mme unit
(comme pour tout algorithme de classication nonsupervise) ou dans
des units voisines sur la carte. Chaque unit est reprsente
dansl'espace d'origine par un prototype qui est un centre de gravit
gnralis des observationsde cette unit et des units voisines (les
observations sont prises en compte avec unepondration dpendant de
la distance, sur la grille, avec l'unit dans laquelle elles
sontclasses). Dans le cadre numrique, l'algorithme alterne de
manire itrative : une tape d'aectation qui consiste aecter une ou
des observations l'unitdont le prototype est le plus proche ; une
tape de reprsentation qui consiste remettre jour les prototypes
partir des modications eectues dans l'tape prcdente.
L'apprentissage est gnralement eectu de deux manires possibles
(qui sont dclinesen de trs nombreuses variantes) : en version
dterministe (appel aussi batch : dansce cas, l'tape d'aectation
concerne toutes les observations du jeu de donnes) ou enversion
stochastique (appel aussi on-line : dans ce cas, chaque itration,
une seuleobservation, tire au hasard, est traite et l'tape de
reprsentation correspond unepseudo-descente de gradient
stochastique ; des rsultats thoriques de convergence, surdes cartes
de dimension 1, sont donnes dans (Cottrell, Fort, and Pags 1998)
pour cetteversion de l'algorithme). (Fort et al. 2002) discutent
les avantages et inconvnients desdeux approches : la version
dterministe de l'apprentissage est gnralement plus rapidemais au
dtriment de la qualit de l'organisation des donnes sur la
carte.
Lorsque les donnes ne sont pas vectorielles, la question de la
dnition des proto-types dans l'espace initial ne peut tre ralise de
manire classique. Plusieurs exten-sions de l'algorithme de carte
auto-organisatrice ont t proposes dans ce cadre. Unepremire
approche utilise une mthode proche de l'analyse des correspondances
mul-tiples (AFCM) pour tendre les cartes auto-organisatrices des
donnes catgorielles(Cottrell and Letrmy 2005). D'autres approches,
utilisables dans le cadre de l'analysede graphe, ncessitent
uniquement la connaissance d'une mesure de dissimilarit entreles
donnes. Elles sont bases sur le principe de la mdiane (Kohohen and
Somervuo1998) qui remplace le calcul traditionnel des prototypes
par une optimisation eectue
-
16 Analyse et infrence de graphes
sur le jeu de donnes initial (un prototype correspond alors une
observation du jeude donnes et la distance entre prototypes et
observations dcoule alors directementde la connaissance de la
mesure de dissimilarit entre paires d'observations). Un
desprincipaux dsavantages de cette approche est qu'elle est
particulirement restrictive etdpend fortement de la qualit de
reprsentation des donnes traites avec des eets desous-optimisation
importants sur l'tape de reprsentation. Pour augmenter la
exibilitde cette mthode, (Conan-Guez et al. 2006) proposent de
reprsenter chaque unit parplusieurs prototypes, tous choisis parmi
les donnes initiales mais cette approche peutconsidrablement
augmenter les temps de calcul alors que les prototypes sont
toujourscontraints tre choisis parmi les donnes initiales.
Une alternative aux algorithmes bass sur le principe de la
mdiane se rapproche ducadre euclidien standard. Deux approches
assez similaires ont t dveloppes : lorsque les donnes sont dcrites
par un noyau K, l'algorithme de cartes auto-organisatrices noyau a
t propos, pour sa version stochastique, dans (MacDonald and Fyfe
2000; Andras 2002) et pour sa version dterministe dans (Villaand
Rossi 2007; Boulet, Jouve, et al. 2008) ; lorsque les donnes sont
dcrites par une mesure de dissimilarit , non ncessai-rement
euclidienne, l'algorithme de cartes auto-organisatrices dit
relationnel a t propos, pour sa version stochastique dans (Olteanu,
Villa-Vialaneix, andCottrell 2012; Olteanu and Villa-Vialaneix
2015), et pour sa version dterministedans (Hammer, Hasenfuss, et
al. 2007; Rossi, Hasenfuss, et al. 2007; Hammer andHasenfuss
2010).
Le rcent article (Rossi 2014) fait une revue des direntes
versions de l'algorithmede cartes auto-organisatrices pour donnes
non vectorielles, tablit les liens entre cesdirentes versions et en
discute les limites et les perspectives. Ici, nous nous
restrein-drons la prsentation des algorithmes proposs dans (Villa
and Rossi 2007; Boulet,Jouve, et al. 2008; Olteanu and
Villa-Vialaneix 2015) et montrerons ensuite commentces approches
peuvent tre utilises pour reprsenter de manire simplie des
grapheset tre ainsi une aide pour la comprhension de leur
structure. Pour ce faire, nous d-nissons pralablement quelques
notations relatives aux cartes auto-organisatrices. Dansla suite,
la grille sera suppose tre compose de U units dont les prototypes
serontnots (pu)u=1,...,U . La grille est galement munie d'une
relation topologique entre units,classiquement appele distance que
nous noterons d (d est donc une application de{1, . . . ,U}{1, . .
. ,U} R+). Une distance naturelle d(u,u) sur une grille peut tre
lalongueur du plus court chemin entre les units u et u sur la
grille ou bien la distanceeuclidienne entre leurs positions sur la
grille. Enn, pour une observation xi, f(xi) d-signera l'unit (ie,
la classe, pour reprendre le vocabulaire utilise en classication
nonsupervise) dans laquelle xi est aect.
La version dterministe de l'algorithme de carte
auto-organisatrice noyau consiste proposer une reprsentation des
prototypes dans l'espace image(H,.,.H). En eet, contrairement
l'espace initial dans lequel voluent les donnes(les sommets du
graphe, par exemple), l'espace image est un espace vectoriel
standardmuni des oprations usuelles. Les prototypes s'expriment
alors comme des combinaisonsconvexes des images par des donnes
initiales :
pu =
ni=1
ui(xi) o ui 0 eti
ui = 1.
La phase d'aectation d'une donne xi consiste donc rechercher le
prototype le plusproche, au sens de la distance dans l'espace image
H, en utilisant un calcul des distances
-
1.2 Classification non supervise & visualisation 17
bas sur la seule connaissance du noyau K :
(xi) pu2H = (xi)j
uj(xj)2H
= K(xi,xi) 2j
ujK(xi,xj) +jj
ujujK(xj ,xj).
La phase de reprsentation des prototypes consiste ensuite
remettre jour tous lesprototypes en calculant le centre de gravit
gnralis des donnes :
u = 1, . . . ,U, pu = arg minp=
i i(xi)
ni=1
H(d(f(xi),u))(xi) p2H (1.3)
oH est une fonction de voisinage telle queH : R+ R+,H(0) = 1 et
limx+H(x) =0, qui gnralement, dcrot au cours de l'apprentissage.
L'quation (1.3) a une solutiontrs simple qui ne ncessite pas non
plus par la connaissance de l'espace image ni del'application de
plongement :
u = 1, . . . ,U et i = 1, . . . ,n, ui
=H(d(f(xi),u))nj=1H(d(f(xj),u))
.
La mthode complte est dcrite dans l'algorithme 1. (Villa and
Rossi 2007) discutent
Algorithme 1 SOM noyau, version dterministe
1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser 0ui
alatoirement dans [0,1] tel queni=1
0ui = 1 Rsultat : p
0u =
i
0ui(xi)
2: Pour l = 1 L Faire3: aectation i = 1, . . . ,n, aecter xi
:
f l(xi) = arg minu(xi) pl1u 2H
4: reprsentation u = 1, . . . ,U , mettre jour pu :
plu =i
lui(xi) o lui =
H l(d(f l(xi),u))nj=1H
l(d(f l(xj),u))
5: Fin Pour6: Rsultat : (pLu )u et (f
L(xi))i
les relations entre cet algorithme et l'algorithme standard dans
le cadre euclidien ainsique ces relations avec l'algorithme bas sur
le principe de la mdiane.
Lorsque les donnes ne sont pas dcrites par un noyau mais par une
mesure dedissimilarit, non ncessairement euclidienne, (Hammer and
Hasenfuss 2010) suggrentd'utiliser un principe similaire et
d'exprimer galement les prototypes par une combi-naison convexe de
leurs images dans l'espace pseudo-euclidien sous-jacent :
pu =i
ui(xi) o ui 0 eti
ui = 1.
La phase d'aectation d'une donne xi, choisie au hasard, qui
consiste rechercher leprototype le plus proche au sens de la
dissimilarit , se rduit donc
f(xi) = arg minu=1,...,U
iu 1
2Tu u
-
18 Analyse et infrence de graphes
o i est la ime ligne de la matrice = (ij)i,j=1,...,n. En version
stochastique, la phasede reprsentation consiste ensuite mettre jour
les prototypes par une pseudo-descentede gradient :
pnewu = pold
u + H (d (f(xi),u))((xi) poldu
), (1.4)
o est un paramtre qui en gnral dcrot au cours du temps t
(classiquement lavitesse 1/t). La calcul de l'quation (1.4) ne
ncessite pas la connaissance de l'espaceimage et de la fonction de
plongement mais se rduit une remise jour des coecientsu :
newu = old
u + H (d (f(xi),u))(1i oldu
),
o u = (u1, . . . ,un)T et 1i est le vecteur de dimension n dont
le seul coecientnon nul est le ime. La mthode complte est dcrite
dans l'algorithme 2. De manire
Algorithme 2 SOM relationel, version stochastique
1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser alatoirement
0ui dans [0,1] tel queni=1
0ui = 1 Rsultat : p
0u =
i
0ui(xi)
2: Pour l = 1 L Faire3: Choisir au hasard une observation xi
parmi (xj)j4: aectation aecter xi :
f l(xi) = arg minu=1,...,U
(i
l1u
1
2(l1u )
Tl1u
)5: reprsentation u = 1, . . . ,U ,
plu =i
lui(xi) o lu =
l1u + (l)H
l(d(f l(xi),u))(1i l1u
)6: Fin Pour7: Rsultat : (pLu )u et (f
L(xi))i
rigoureuse, la phase de reprsentation n'est pas une vraie phase
de descente de gradient,car l'algorithme de carte
auto-organisatrice ne possde pas de vritable fonction de
cot.Toutefois, (Heskes 1999) prouve que, dans le cadre d'une taille
de voisinage xe, et avecune tape d'aectation modie, l'algorithme de
carte auto-organisatrice minimise unenergie obtenue partir de la
formule de la mdiane gnralise.
(Olteanu and Villa-Vialaneix 2015) soulignent que les complexits
des deux versions(dterministe et stochastique) des algorithmes
relationels et noyau, sont comparables,de l'ordre de O(Un2)) mais
que le nombre d'itrations ncessaires pour stabiliser l'al-gorithme
dterministe est gnralement infrieur celui ncessaire pour stabiliser
sonquivalent stochastique. Toutefois, la meilleure organisation des
donnes sur la cartecompense ce dsavantage. Formellement parlant, la
convergence de l'algorithme de cartesauto-organisatrices n'a t
prouve que dans des cas trs restreints (Cottrell and Fort1987;
Cottrell, Fort, and Pags 1998) et qui ne sont pas gnralisables au
cadre pseudo-euclidien (lorsque la dissimilarit n'est pas
euclidienne) comme soulign dans (Hammer,Gisbrecht, et al. 2011)
pour l'algorithme Neural Gaz. Des preuves de la convergence dela
version modie propose par (Heskes 1999) existent toutefois mais l
encore, ne sontpas extensibles au cadre pseudo-euclidien.
-
1.2 Classification non supervise & visualisation 19
Mise en uvre et exemple dapplication en visualisation de
graphesUne partie des mthodes dcrites dans la section prcdente ont
t implmentes
et rendues publiques dans un package R 3 appel SOMbrero 4.
L'implmentation dupackage a dbut dans le cadre du stage de Laura
Bendhaba, (Bendhaba et al. 2013;Boelaert et al. 2014) ; SOMbrero
propose une implmentation de la version stochastiquede l'algorithme
de carte auto-organisatrice, qui est prvue pour traiter trois types
dedonnes : des donnes numriques standard, multi-dimensionnelles ;
des donnes dcrites par une table de contingence qui sont traites
l'aide del'algorithme Korresp (Cottrell, Letrmy, and Roy 1993) ;
l'algorithme relationel comme dcrit dans (Olteanu and
Villa-Vialaneix 2015).Le package incorpore de nombreuses
fonctionnalits, notamment : de nombreux graphiques pour analyser la
carte obtenue (eectifs des classes, r-sums des individus et des
prototypes par classe, ajout de variables extrieures,reprsentation
des distances entre prototypes) ; une fonctionnalit pour obtenir
une classication non supervise a posteriori desprototypes, appele
super-classes et pour reprsenter cette classication ; des critres
de qualit (erreur de quantication, qui est le calcul de la
varianceintra-classe gnralise des observations, erreur
topographique (Polzlbauer 2004)qui dtermine la qualit de
l'organisation de la carte en calculant la frquenced'observations
pour laquelle la seconde meilleure unit n'est pas dans le
voisinagedirect de l'unit laquelle l'observation a t aecte).
Les deux premiers algorithmes (pour donnes numriques et tables
de contin-gence) ont t implmentes en s'inspirant d'une partie des
heuristiques des pro-grammes originaux de Patrick Letremy (SAS/IML,
voir http://samm.univ-paris1.fr/Programmes-SAS-de-cartes-auto).
L'implmentation a t pense de manire ce que l'utilisation soit
simplie pourl'utilisateur, avec la possibilit d'appeler chacune de
ces fonctionnalits en seulementune ligne de commande (et des
valeurs par dfaut choisies de manire pertinente). Desexemples
reprenant des jeux de donnes standard ou originaux ont galement t
in-corpors au package, sous forme de vignettes dcrivant les
commandes et analysant lesrsultats. En particulier, l'exemple
fourni pour illustrer l'algorithme relationnel est bassur l'tude
d'un graphe et montre comment l'algorithme de carte
auto-organisatrice peuttre utilis pour fournir l'utilisateur une
vision simplie du graphe et l'aider en em-brasser d'un coup d'il sa
structure macroscopique avant une analyse plus dtaille.
En guise d'exemple, un graphe simple est tudi qui est dcrit dans
(Knuth 1993).Les sommets de ce graphe sont les 77 personnages du
roman Les misrables de VictorHugo. Les 254 artes du graphe
modlisent la co-apparition de deux personnages donnsdans le mme
chapitre du roman 5. Le graphe de co-apparitions est reprsent dans
lagure 1.2. En calculant une matrice de dissimilarits qui
correspond la longueur duplus court chemin entre paires de sommets
du graphe (non pondr), l'algorithme decarte auto-organisatrice
relationnel permet de traiter les donnes : chaque sommet dugraphe
est alors aect une unit d'une grille que nous avons choisie
rectangulaire etde dimension 5 5. Une fois cette classication
obtenue, il est possible d'en tirer unereprsentation simplie du
graphe en reprsentant le graphe des classes comme suit :
3. R est un logiciel libre de programmation statistique ; voir
http://www.r-project.org.4. disponible sur R-Forge :
http://sombrero.r-forge.r-project.org. Dernire version :
0.1-2-beta,
Fvrier 2014.5. Le graphe est tlchargeable
http://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.
dat.
http://samm.univ-paris1.fr/Programmes-SAS-de-cartes-autohttp://samm.univ-paris1.fr/Programmes-SAS-de-cartes-autohttp://www.r-project.orghttp://sombrero.r-forge.r-project.orghttp://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.dathttp://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.dat
-
20 Analyse et infrence de graphes
Figure 1.2 Graphe de co-apparitions des personnages du roman Les
Misrables
chaque unit de la grille est reprsente par un disque dont l'aire
est proportionnelleau nombre de sommets classs dans cette unit ;
les units sont jointes par des artes dont l'paisseur est
proportionnelle au nombretotal d'artes joignant deux sommets de
chacune des deux classes.
Les rsultats sont donns dans les gures 1.3 (reprsentation
simplie) et 1.4 (classi-cation des 77 personnages sur la grille).
Ils ont t obtenus partir des commandessuivantes :
data(lesmis)
mis.som
-
1.2 Classification non supervise & visualisation 21
Figure 1.3 Reprsentation simplie (graphe des classes) de la
carte obtenue pourle graphe Les Misrables par l'algorithme de carte
auto-organisatrice stochastiquerelationel tel qu'implment dans le
package SOMbrero
On y retrouve les sous-histoires relatives au roman et plusieurs
classes sont organisesautour d'un personnage principal. Les
relations sur la carte permettent donc d'appr-hender les liens
entre les divers personnages. Si on numrote les classes de 1 25, de
basen haut puis de gauche droite, en haut gauche, la classe 5 est
organise autour del'vque monseigneur Myriel, qui constitue la
premire partie du roman et inuencerale destin futur de Valjean.
Valjean est situ dans la classe 2 (sur la gauche), avec
desconnexions vers toutes les autres parties de la carte. Parmi les
personnages qui lui sontles plus proches se trouve Javert (classe
7, deuxime classe en bas et gauche), le policierqui le poursuit, et
Fantine (classe 11, en bas, au centre) qui il vient en aide.
Cosette, lapupille de Valjean, et Marius, son amoureux, sont dans
les classes 14 et 15 (en haut aucentre). L'approche de simplication
de la reprsentation d'un graphe, illustre ici surun exemple jouet
simple qui peut tre compris directement par visualisation directe
dugraphe, prend tout son sens pour l'analyse de graphes plus
complexes (car plus grand),comme discut dans la section 1.2.4.
noter que SOMbrero dispose aussi d'une interface graphique
(interface web dve-loppe l'aide du package shiny) accessible en
ligne http://shiny.nathalievilla.org/sombrero ou bien directement
en local, en chargeant le package SOMbrero dans Ret en excutant la
ligne de commande :
sombreroGUI ()
Une copie d'cran de l'interface graphique est fournie dans la
gure 1.5
http://shiny.nathalievilla.org/sombrerohttp://shiny.nathalievilla.org/sombrero
-
22 Analyse et infrence de graphes
Figure 1.4 Classication des divers personnages du graphe Les
Misrables parl'algorithme de carte auto-organisatrice stochastique
relationel tel qu'implment dansle package SOMbrero
Intgrer des informations extrieures
Les applications relles fournissent des donnes de plus en plus
complexes et notam-ment, pour le cas de l'analyse de rseaux, il
n'est pas rare de disposer d'informationssupplmentaires, sur les
sommets ou les artes du graphe. Dans cette partie, nous
sup-poserons connues un certain nombre de variables, appeles
tiquettes, qui dcrivent lessommets du graphe. Ces variables peuvent
tre ventuellement regroupes en groupes thmatiques . De manire plus
prcise, on notera (x(1)i )i=1,...,n, ..., (x
(D)i )i=1,...,n, D
groupes de variables dcrivant les sommets x1, . . . ,xn du
graphe, ces variables pouvanttre de nature quelconque (ou bien
elles mmes des sommets d'un autre graphe).
En sciences sociales, croiser les informations additionnelles
sur les sommets du grapheavec la classication est une pratique
courante : cette opration est habituellement me-ne sous l'angle de
l'assortativit : il s'agit de comprendre si des sommets d'un
groupedonn partagent des caractristiques communes aprs avoir eectu
une classicationnon supervise des sommets (voir (Traud et al. 2011)
pour le calcul de la signicativitd'un coecient d'assortativit qui
met en relation classes du rseau facebook c de plu-sieurs
universits amricaines) et divers types de caractristiques dcrivant
les tudiantsimpliqus dans ce rseau ou bien (Laurent and
Villa-Vialaneix 2011) pour l'utilisationd'indices issus de la
statistique spatiale pour tudier la signicativit du lien entre
struc-
-
1.2 Classification non supervise & visualisation 23
Figure 1.5 Interface web du package SOMbrero.
ture d'un rseau et valeur des variables dcrivant les
sommets.Dans (Olteanu, Villa-Vialaneix, and Cierco-Ayrolles 2013;
Olteanu and Villa-
Vialaneix 2015), nous abordons cette question sous l'angle de
l'intgration des infor-mations supplmentaires pour construire une
carte auto-organisatrice. En classicationnon supervise, cette
question a dj t aborde par d'autres auteurs de diverses ma-nires :
(Steinhaeuser and Chawla 2008) eectue une classication
principalement basesur les tiquettes des sommets qui est ensuite
corrige par un principe de seuillage bassur les poids des artes
entre sommets. (Ester et al. 2006; Moser et al. 2007; Ge et
al.2008) formalisent cette question sous la forme d'un problme
d'optimisation bas sur desdistances entre tiquettes proches de
l'algorithme des k-moyennes. l'inverse, d'autresauteurs favorisent
la structure du graphe dans leur classication, comme (Cruz et
al.2011; H. Li et al. 2008). Enn, d'autres auteurs cherchent, comme
nous, quilibrerles contributions des dirents types de donnes :
(Combe et al. 2012; Combe et al.2013) combinent deux critres (un
critre de modularit et un critre d'entropie) pourobtenir un critre
global optimiser tenant compte des dirents objectifs. (Hanischet
al. 2002; Zhou et al. 2009) combinent diverses dissimilarits en une
dissimilarit glo-bale qui est utilise pour la classication. Dans le
cadre des cartes auto-organisatrices,diverses mthodologies ont
galement t proposes pour combiner des informations :(Lebbah et al.
2005) combinent informations numriques et binaires en se basant
surdeux nergies de quantication qui sont optimises en parallle.
(Ghassany et al. 2012)introduisent un critre de collaboration, aprs
la phase d'apprentissage des direntescartes qui correspondent
chacune un groupe de variables.
Nous abordons cette question de manire dirente en supposant
connu unnoyau pour chaque groupe d'tiquettes, K(d) (d = 1, . . .
,D), qui dcrit la similarit
K(d)(x(d)i ,x
(d)i
)entre les tiquettes du groupe d des sommets xi et xi du graphe
ou
bien une dissimilarit qui dcrit la dissimilarit entre ces mmes
tiquettes. Pour desquestions de clart du propos, nous nous
restreignons dans cet expos au cas o unnoyau est connu mais
l'approche est gnralisable au cadre de dissimilarits comme d-crit
dans (Olteanu and Villa-Vialaneix 2015). L'ide principale consiste
combiner lesdiverses informations par le biais de la dnition d'un
noyau unique qui est la combinai-son convexe des divers noyaux
:
i = 1, . . . ,n, K (xi,xi) =Dd=0
dK(d)(x(d)i ,x
(d)i
), d 0 et
d
d = 1, (1.5)
-
24 Analyse et infrence de graphes
o x(0)i := xi, K(0) := K est un noyau sur les sommets du graphe
initial G, comme dcrit
dans les sections prcdentes et xi = (xi, x(1)i , . . . ,x
(D)i ). (Yamanishi, J. Vert, et al. 2004;
Yamanishi, J.P. Vert, and Kanehisa 2005) ont utilis une approche
similaire pour del'infrence de rseaux (classication supervise) qui
intgre de l'information provenantde plusieurs sources de donnes
recueillies divers niveaux de l'chelle du vivant. Le choixdes poids
relatifs chacun des noyaux y est bas sur une mesure de performance
de laclassication supervise. De manire similaire, (Lanckriet et al.
2004; Rakotomamonjy etal. 2008) proposent de rsoudre directement un
problme d'optimisation dans lequel lespoids (d)d sont optimiss
simultanment avec la rsolution du problme d'optimisationclassique
de SVM supervis. Dans le cadre non supervis, une approche similaire
estpropose par (Zhao et al. 2009) qui optimisent la combinaison
linaire sur un critre dequalit de la classication (voir aussi (Gnen
and Alpaydin 2011) pour une revue desdiverses approches permettant
de combiner plusieurs noyaux).
Algorithme 3 Carte auto-organisatrice multi-noyaux
1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser alatoirement
0ui dans [0,1] tel queni=1
0ui = 1
2: d = 0, . . . ,D, initialialiser 0d =1
D+1 Rsultat : p,0u =n
i=1 0ui
Dd=0
0d
(d)(x(d)i )
3: Pour l = 1 L Faire4: Choisir au hasard une observation xi
parmi (xj)j5: aectation aecter xi
f l(xi) arg minu=1,...,U
l1(xi) p,l1u Hl16: reprsentation u = 1, . . . ,U ,
lu l1u + (l)H l(d(f t(xi),u)
) (1i l1u
)7: optimisation des poids
d = 0, . . . ,D, ld l1d + (t)Dld
Rsultat : p,lu =n
i=1 lui
Dd=0
ld
(d)(x(d)i )
8: Fin Pour9: Rsultat : L, (p,Lu )u et (fL(xi))i
De manire similaire (Rakotomamonjy et al. 2008), nous proposons
d'optimiser lacombinaison convexe des noyaux en intgrant une tape
de pseudo-descente de gradientstochastique l'algorithme. Cette ide
est aussi similaire celle de (Villmann et al.2012) pour optimiser
le paramtre d'un noyau dans les algorithmes LVQ. De manireplus
prcise, on dtermine la drive, par rapport aux (d)d de la fonction
de cot
E((ui)ui,(d)d) =Uu=1
ni=1
H(d(f(xi),u))(xi) pu2H
o(H,.,.H
)dsigne l'espace de Hilbert associ au noyau dni dans l'quation
(1.5),
-
1.2 Classification non supervise & visualisation 25
dsigne la fonction de plongement sous jacente et
pu =ni=1
ui
Dd=0
d(d)(x
(d)i ) =
ni=1
ui(xi)
avec (d) la fonction de plongement associ au noyau K(d). Dans la
version stochastiquede l'algorithme de carte auto-organisatrice
noyau, classication (f(xi))i xe, lacontribution de l'observation
choisie xi cette drive est : d = 0, . . . ,D,
Dd :=E|xid
=Uu=1
H (d(f(xi),u))
K(d)(x(d)i ,x(d)i ) 2 nj=1
ujK(d)(x
(d)i ,x
(d)j )+
nj,j=1
ujujK(d)(x
(d)j ,x
(d)j )
.Utilisant cette drive, une tape de pseudo-descente de gradient
est intgre dans l'al-gorithme pour l'optimisation en ligne des
poids (d)d comme dcrit dans l'algorihme 3.
Pour assurer que l'tape d'optimisation des poids respecte la
contrainte de convexitdes (d)d, une stratgie similaire celle dcrite
dans (Luenberger 1984; Bonnans 2006;Rakotomamonjy et al. 2008) est
utilise : le gradient (Dld)d est rduit et projet de cettemanire
:
Dd =
0 if d = 0 et Dd Dd0 > 0Dd +Dd0 if d > 0 et d 6= d0
d6=d0, d>0 (Dd Dd0) sinon
D'un point de vue pratique, on fait dcrotre le pas (t) la
vitesse habituelle 0/t avecune valeur initiale 0 susamment petite
pour assurer la positivit des (d)d.
-
26 Analyse et infrence de graphes
Mthodes
Mthodesneuronales
Rseaux/Graphes
modularit
organise
SVM
MLP
Donnesfonctionnelles
Donnes
Applicationsen
biologie
(rseaux
biologiques,donn
es
mtabolom
iques)
Donnesmultiples
GGM
Mthodesnoyau
K-SOM
Applicationsen
histoire
(rseaux
sociaux)
Figure1.6Contributions
prsentes
dans
lasection1.2.3App
roches
bases
surla
modularit
-
1.2 Classification non supervise & visualisation 27
1.2.3 Approches bases sur la modularitCette seconde partie
prsente principalement les travaux des articles (Rossi and
Villa
2009; Rossi and Villa-Vialaneix 2010; Rossi and Villa-Vialaneix
2011b). Les thmatiquesabordes dans cette partie sont rsumes dans la
gure 1.6 qui est une simplication dela gure 2 dans laquelle les
thmatiques non abordes ont t grises. Mon principal col-laborateur
sur ce sujet est Fabrice Rossi (actuellement professeur dans
l'quipe SAMM,Universit Paris 1).
La modularit comme critre de classification de sommets dun
grapheLes travaux prsents dans la section prcdente sont bass sur
l'utilisation d'une
approche gnrique pour des donnes non vectorielles dcrites par un
noyau ou unemesure de dissimilarit. Elles construisent une
classication, organise sur une carte, quiest base sur le plongement
du graphe dans un espace euclidien ou pseudo-euclidien.Dans la
section actuelle, nous utilisons un autre type d'approches, bases
sur un critrede qualit propre aux graphes, la modularit (M.E.J.
Newman and Girvan 2004). Nousdveloppons des mthodes qui permettent
la visualisation du graphe en nous appuyantsur une classication
obtenue par optimisation de la modularit ou d'un critre drivde
celle-ci. Rappelons que, pour une partition donne des sommets du
graphe, C1, . . . ,CC , la modularit a pour expression
Q(C1, . . . ,CC) =1
2m
k=1,...,C
xi, xjCk
(Wij
didj2m
)(1.6)
o m est le nombre d'artes (ou la somme des poids des artes
1/2n
i,j=1Wij dans legraphe et les autres notations sont celles
introduites prcdemment (Wij est le poidsde l'arte entre les sommets
xi et xj et di est le degr du sommet xi, di =
j 6=iWij).
L'ide de ce critre de qualit d'une classication est qu'il mesure
la pertinence de classerensemble deux sommets du graphe en
comparant le poids de l'arte qui les joint (ce poidstant gal 0 si
aucune arte ne relie les sommets considrs) un modle nul danslequel
les poids des artes ne dpendent que du degr des sommets considrs et
non dela partition des sommets. Dans le modle nul, les poids
thoriques des artes, Pij =
didj2m
sont proportionnels aux degrs des sommets arents l'arte et sont
normaliss de tellemanire que la somme des poids (Wij)ij est gale la
somme des poids thoriques (Pij)ij .Ainsi, si le poids de l'arte
(xi,xj), Wij , est beaucoup plus grand que le poids thoriquedu
modle nul, Pij , cette arte est considre comme particulirement
importante et la partition C1, . . . , CC maximisant le critre Q
aura tendance classer xi et xjdans la mme classe. Le fait de ne pas
minimiser directement le nombre d'artes entreles sommets de classes
direntes mais de tenir compte des degrs des sommets desgraphes
permet de mieux sparer les sommets de fort degrs (une arte arente
un telsommet ayant une importance moindre dans le critre de qualit)
que pour des approchessimilaires au critre de coupe optimale comme
la classication spectrale (Luxburg 2007).L'ide est de dire que les
artes des sommets les plus populaires n'ont pas unesignication
aussi forte que les artes de sommets de plus faible degr.
Dans (Fortunato and Barthlmy 2007), les auteurs montrent que
l'optimisation dela modularit peut induire des problmes de
rsolution (certaines petites communautssignicatives peuvent ne pas
tre dtectes par optimisation de la modularit). Toutefois,malgr ce
problme, la modularit reste une des mesures les plus utilises pour
l'obten-tion de communauts et elle a montr sa pertinence pour
mettre en valeur la structured'un rseau. Dans (Villa-Vialaneix,
Liaubet, Laurent, Cherel, et al. 2013), lors d'un tra-vail dbut
dans le cadre du stage de Adrien Gamot, nous montrons notamment que
les
-
28 Analyse et infrence de graphes
groupes de gnes obtenus par optimisation de la modularit ont une
cohrence forte enterme de groupe fonctionnel (c'est--dire de
groupes de gnes partageant une fonctionbiologique commune). La
maximisation de Q est un problme NP-complet et ncessitedonc un
algorithme de rsolution heuristique. Pour ce faire, de nombreuses
approchesont t proposes : l'approche initiale, dcrite dans (M.
Newman 2004), s'appuie sur unedmarche de classication hirarchique
simple, elle est rapide mais en pratique conduit des solutions sous
ecaces (en terme de modularit de la classication trouve).
Uneapproche plus performante, mais aussi plus coteuse en temps de
calcul, est d'utiliserune optimisation par recuit simul (Guimer,
Sales-Pardo, et al. 2004; Villa-Vialaneix,Liaubet, Laurent, Cherel,
et al. 2013) ou par recuit dterministe (Lehmann and Han-sen 2007).
Utilisant une matrice de modularit, (M.E.J. Newman 2006) a propos
unemthode approche base sur une approche spectrale. Toutefois, le
meilleur compromisentre temps de calcul (qui permet de traiter de
trs gros rseaux) et qualit de l'optimi-sation semble avoir t
atteint par les algorithmes gloutons ranement hirarchiquedcrits
dans (Noack and Rotta 2009).
Dans la suite, je prsenterai tout d'abord une approche base sur
une carte auto-organisatrice qui s'appuie sur une adaptation du
critre de modularit prsent plus haut.L'optimisation du nouveau
critre est eectue par une approche par recuit dterministe.Dans un
second travail, je prsenterai comment, par une approche en deux
temps, il estpossible d'utiliser la modularit pour obtenir des
reprsentations synthtiques du graphe.Dans ce travail, un algorithme
similaire celui de (Noack and Rotta 2009) est utilis demanire
hirarchique pour explorer le graphe et un test de signicativit
d'une partitionde sommets est propos.
Un critre de modularit organiseDans cette partie, nous adaptons
l'ide de carte topographique un contexte qui est
spcique au graphe. Ce travail est dcrit dans (Rossi and Villa
2009; Rossi and Villa-Vialaneix 2010). De la mme manire que dans la
section 1.2.2, nous supposerons doncque nous disposons d'une carte
compose de U units, {1, . . . ,U} munie d'une structurede
voisinage. Cette structure de voisinage est ici modlise par une
mesure de similarita priori, fournie sous la forme d'une matrice S,
de dimensions UU et telle que Suu = 1et Suu = Suu. Pour faire le
lien avec les notations introduites dans la section 1.2.2,
cettematrice peut tre S(u,u) = H(d(u,u)), soit par exemple, Suu =
exp (d(u,u)) 6 (pourun > 0), la dirence tant que cette similarit
est xe et n'volue pas au cours del'algorithme contrairement
l'approche classique de cartes auto-organisatrices o H
estgnralement dcroissante au cours de l'apprentissage. Nous
introduisons alors le critrede modularit organise (sur la carte) de
la partition de sommets C1, . . . , CC comme
O(f) = 12m
ni,j=1
Sf(xi),f(xj) (Wij Pij) (1.7)
o f(xi) est l'unit (ou classe) dans laquelle le sommet xi est
aect sur la carte. Leprincipe de ce critre devient clair lorsque
l'on r-crit l'expression de la modularitdonne dans l'quation (1.6)
sous la forme
Q(C1, . . . ,CC) =1
2m
ni,j=1
1{f(xi)=f(xj)} (Wij Pij)
6. Dans (Rossi and Villa-Vialaneix 2010), nous utilisons une
carte dont les units sont localises parun point dans R2 et pour
distance entre ces units, d(u,u), la distance euclidienne.
-
1.2 Classification non supervise & visualisation 29
o 1{f(xi)=f(xj)} = 1 si et seulement si f(xi) = f(xj) (xi et xj
sont classs dans la mmeclasse) et 0 sinon. La version organise du
critre de modularit de l'quation (1.7)favorise donc, de manire
similaire la modularit mais de faon plus souple, la clas-sication
des sommets connects 7 du graphe dans des units voisines sur la
carte. Demanire similaire ce qui est propos dans la section
prcdente (et illustr sur le graphedes Misrables), la classication
des sommets sur la carte peut tre utilise pour pro-poser une
reprsentation statique et simplie du graphe, la position des units
sur lagrille fournissant une position naturelle pour la
reprsentation des classes de sommetscorrespondantes.
Tout comme l'optimisation de la modularit, l'optimisation de O
est un problmeNP-complet. Dans (Rossi and Villa-Vialaneix 2010),
nous proposons une approximationde cette optimisation par un
algorithme de recuit dterministe. Pour cela, O est rcritesous la
forme :
O(f) = F(M) =n
i,j=1
Uu,u=1
MiuSuuMjuBij
oMiu ={
1 si f(xi) = u0 sinon
et Bij ={
0 si i = j12m(Wij Pij) sinon
. La distribution de
Gibbs de notre problme s'crit alors
P(M) =1
ZPexp(F(M)/T ),
o ZP est la constante de normalisation
M exp(F(M)) et T > 0 est la tempraturedu systme. Cette
distribution est approche par l'introduction d'un champ
moyen,(Eiu)i=1,...,n, u=1,...,U qui pondre la matrice d'aectationsM
de telle sorte que la fonctionde cot
G(M,E) =ni=1
Uu=1
MiuEiu
approche au mieux F(M). De manire plus prcise, la matrice E est
choisie de tellesorte minimiser la divergence de Kullback-Leibler
entre P(M,E) = 1Z
Pexp(G(M,E))
(ZP
=
M exp(G(M,E)/T )) et P(M). La consquence de l'utilisation de la
distributionP(M,E) au lieu de P(M) est que, sous cette
distribution,Miu etMju sont indpendantsds lors que i 6= j. Le
calcul de Z
Pdevient donc numriquement facilement ralisable,
contrairement celui de ZP dont la complexit combinatoire est
trop lev. Une approchede type EM est utilise : celle-ci alterne une
phase d'optimization (pour la recherchede E) et une phase de calcul
d'esprance (pour le calcul de l'esprance de M sous ladistribution
P). La mthode est dcrite dans l'algorithme 4.
Une analyse dtaille des performances de l'algorithme sur un
exemple jouet (le r-seau social du club de karat de Zachary
(Zachary 1977)) ainsi que des comparaisonsavec d'autres mthodes
sont dcrites dans (Rossi and Villa-Vialaneix 2010). En
parti-culier, une des classications obtenues pour le graphe Les
Misrables prcdemmentdcrit dans la section 1.2.2 est donne dans la
gure 1.7 ( gauche). Les comparai-sons montrent que la mthode
d'optimisation de recuit organise donne gnralement demeilleurs
rsultats en terme de qualit de la classication (du point de vue de
la valeurde la modularit) et en terme de qualit du rendu graphique
(par rapport la mini-misation du nombre de paires de sommets qui se
croisent sur le rendu graphique), queles approches de cartes
auto-organisatrices noyau. Par ailleurs, dans (Rossi and Villa-
7. ou plutt signicativement connects comparativement au modle
nul.
-
30 Analyse et infrence de graphes
Algorithme 4 Optimisation de la modularit organise par recuit
dterministe
1: Initialiser i = 1, . . . ,n et u = 1, . . . ,U
Eiu =2
U
j 6=i
Bij
Uu=1
Suu
Rsultat : E.2: Initialiser T 0 2BSU o B et S sont les rayons
spectraux des matrices B etS et > 1 Rsultat : T 0
3: Pour l = 1 L Faire boucle de recuit4: injection de bruit E E
+ avec iu U [0,1]5: Rpter tape de type EM
6: tape E : calculer EP(Miu) =exp(Eiu/T
l)u exp(Eiu/T
l)
7: tape M : calculer E par optimisation de la divergence de
Kullback-Leibler :
Eiu = 2j 6=i
u
ER(Mju)SuuBij
8: Jusqu' Convergence de E9: T l T l1 avec ' 0,1T
0
10: Fin Pour11: Rsultat : i = 1, . . . ,n, f(xi) = maxu=1,...,U
Eiu
Vialaneix 2010), nous proposons l'utilisation directe des
sorties (Eiu)i=1,...,n, u=1,...,U del'algorithme de recuit
dterministe pour produire une reprsentation dite oue dugraphe sur
la carte : supposons que les coordonnes de l'unit u dans le plan R2
soientdonnes par zu = (zu1 ,z
u2 ). Pour chaque sommet xi du graphe, l'esprance de sa
position
zxi dans R2 est alors dtermine par :
EP(zxi) =
u
EP(Miu)zu.
Une classication ascendante hirarchique est alors applique
l'ensemble des positions(zxi)i qui est coupe une hauteur donne, ce
qui fournit la fois une classicationplus ne que celle qui est
obtenue directement sur la grille et des positions pour lesclasses
dans le plan R2. Une application limite de quelques itrations d'un
algorithmede forces (de type Fruchterman & Reingold
(Fruchterman and Reingold 1991)) est enneectue pour ajuster les
positions ainsi obtenues et viter la superposition des classeset
des artes. La visualisation nale, sur l'exemple Les Misrables , est
donne dansla gure 1.7 ( droite).
Utiliser la classification pour reprsenterLes approches dcrites
prcdemment, bases sur des cartes topologiques, sont pra-
tiques en une seule tape qui combine classication et
visualisation. Cependant, ellespeuvent s'avrer trop lourdes d'un
point de vue numrique pour des graphes de grandestailles. galement,
il est frquent que pour des graphes de plusieurs milliers de
sommets,l'utilisateur souhaite procder l'exploration de la
structure de manire hirarchique :par zooms successifs l'intrieur
des classes, il accde des dtails de plus en plus nssur des zones
d'intrt. Comme dans ce qui prcde, chaque niveau de la hirarchie,
la
-
1.2 Classification non supervise & visualisation 31
3
8
1
16
7
10
13
Figure 1.7 Reprsentation simplie du graphe Les Misrables obtenue
par op-timisation de la modularit ( gauche) et reprsentation oue
correspondante obtenue partir des rsultats de l'algorithme de
recuit dterministe ( droite). La reprsentationde droite est plus
prcise (plus de classes, la granularit de la reprsentation est plus
ne), mais au
dtriment d'une petite perte de lisibilit (plus d'artes qui se
croisent, par exemple).
reprsentation du graphe est souvent simplie : les classes seules
sont reprsentes ainsique les liens qui existent entre elles, et non
l'intgralit des sommets (Auber et al. 2003;Sei et al. 2010;
Archambault et al. 2010). L'approche que nous proposons dans
(Rossiand Villa-Vialaneix 2011b) est proche de ces approches-ci.
Comme les articles (Auberet al. 2003; Sei et al. 2010; Archambault
et al. 2010), notre contribution se base eneet sur une classication
hirarchique des sommets qui, dans notre cas, est eectuepar une
mthode rapide d'optimisation de la modularit. Nos apports, dans ces
travaux,touchent plusieurs points mthodologiques :
pour un graphe (ou un sous-graphe donn), nous optimisons la
modularitgrce un algorithme glouton ranement hirarchique comme
dcrit dans(Noack and Rotta 2009). Par rapport l'algorithme initial,
nous proposons unesimple modication qui est une tape de vrication
de la connexit des classesobtenues. Comme soulign dans (Archambault
et al. 2010), la connexit des classesest cruciale pour une
reprsentation du graphe (simpli) des classes qui n'induisepas
l'utilisateur en erreur lors de l'interprtation de son organisation
macrosco-pique ; partant du graphe initial, la modularit est tout
d'abord optimise pour obtenirune partition initiale du graphe puis
le processus est itr pour chacune desclasses : pour une partition
donne du graphe ou d'un sous-graphe, la modularitest maximise pour
obtenir une partition plus ne de chacune des classes du grapheou du
sous-graphe. Ceci permet, notamment, de limiter le dfaut de
rsolution dela modularit en forant l'obtention de classes plus nes.
Cette mthodologie estschmatise dans la gure 1.8. Le problme d'une
telle approche est que chacunedes tapes d'optimisation de la
modularit fournit une partition des sommets dusous-graphe considr,
celle-ci pouvant tre ventuellement dpourvue de sens v-ritable si le
graphe n'a pas une structure modulaire claire. Pour aborder
cettequestion, nous proposons une approche base sur un test de
permutations : lasignicativit d'une partition d'un sous-graphe est
estime en comparant
-
32 Analyse et infrence de graphes
Figure 1.8 Schmatisation du processus de classication
hirarchique : partant d'ungraphe (en haut gauche), une premire
partition des sommets est obtenue par opti-misation de la modularit
(en haut droite ; les sommets non entours correspondent une classe
part entire) puis chacune des classes de cette partition est
nouveaupartitionne (en bas gauche) et le processus est itr sur les
classes de la partition ainsiobtenue (en bas droite).
la modularit de cette partition avec la modularit maximale
obtenue pour 100graphes alatoires de structures similaires et en ne
conservant que les partitionsdont la modularit est suprieure toutes
les modularits obtenues sur les 100graphes alatoires (modularit
dite alors signicativement leve ). Pour gn-rer les graphes
alatoires de comparaison, nous nous appuyons sur un modle ditde
conguration (M.E.J. Newman 2003) qui est une distribution uniforme
sur l'en-semble des graphes simples de mme distribution des sommets
que le graphe (oule sous-graphe) partitionn. Pour ce faire, nous
utilisons l'approche MCMC dcritedans (Roberts Jr. 2000) qui permet
d'obtenir un graphe alatoire de mme distri-bution de degrs qu'un
graphe cible, par permutations alatoires de ses artes :les rsultats
de (Rao et al. 1996) montrent, en eet, que cette approche est
uneapproximation asymptotique du tirage uniforme dans l'ensemble
des graphes ayantune distribution de degrs xe ; des reprsentations
successives des dirents niveaux de la hirarchie departitions sont
alors construites, en partant de la classication la plus
grossirepour aller vers la classication la plus ne. Pour respecter
un principe gnral de
-
1.2 Classification non supervise & visualisation 33
cohrence, l'clatement d'une classe en sous-classes ne modie pas
le rendu dureste du graphe. Cette contrainte requiert donc
d'estimer pour la partition laplus grossire, l'espace ncessaire
pour la reprsentation de toutes lessous-classes au niveau le plus
n. Ceci est eectu en procdant de manirercursive : une visualisation
de toutes les sous-classes est calcule de manire in-dpendante par
un algorithme de forces adapt et l'espace ncessaire pour une
super-classe regroupant plusieurs classes est approch par un cercle
englobanttoutes les sous-classes comme dans la gure 1.9.
0
1
2 3
4
5
6
0
1
2 3
4
5
6
Figure 1.9 Exemple d'estimation de l'occupation des classes :
les sommets du graphed'origine (en haut) sont partitionns en deux
classes dont les visualisations sont calculesindpendamment pour
fournir une estimation d'occupation par des cercles englobants(en
bas).
Les direntes visualisations sont eectues en utilisant des
algorithmes de forcesdu type de (Fruchterman and Reingold 1991)
mais dans lesquels les forces ont tmodies pour prendre en compte
des tailles de sommets direntes (qui corres-pondent aux surfaces
des classes, proportionnelles leurs eectifs ou aux
disquesenglobants). De manire plus prcise, nous utilisons
l'approche propose dans (Tun-kelang 1999) dans laquelle les forces
attirant les sommets (analogie aux ressorts)ont une longueur au
repos qui est non nulle mais assure le non chevauchement decercles
de rayons donns qui peuvent tre de longueurs direntes.Enn, les
visualisations sont eectues de manire rcursive : la visualisation
laplus grossire est tout d'abord calcule en tenant compte de
l'estimation de l'espace
-
34 Analyse et infrence de graphes
ncessaire au dveloppement des sous-classes. Puis, les
sous-classes sont peu peu dveloppes et leur visualisation est
calcule en ajoutant une force attractivecentre, pour contraindre
les sous-classes d'une mme classe rester autour del'emplacement
prvu pour la classe mre de la visualisation de niveau suprieur,et
en ajoutant galement des sommets virtuels, comme dans (Eades and
Huang2000), reprsentant les classes extrieures connectes aux
sous-classes de la classequi est dvelopper (ces sommets virtuels
sont immobiles lors du calcul de lavisualisation de la classe).
La mthode propose est ainsi compltement automatise et ne
ncessite aucun ajuste-ment de paramtre. L'utilisateur doit
uniquement choisir le niveau maximal de rane-ment envisag dans la
visualisation, mais ce paramtre n'a pas d'inuence sur le calculde
la hirarchie et plusieurs visualisations peuvent tre compares en
faisant varier ceparamtre, sans devoir recalculer la classication
hirarchique.
Applique au graphe Les misrables dcrit dans la section 1.2.2, la
mthodefournit une classication deux niveaux : au premier niveau, le
plus grossier, la classication comprend 6 classes ; au second
niveau, le plus n, deux classes de la classication initiale sont
parti-tionnes, respectivement en 3 et 2 sous-classes, soit un total
de 9 classes.
La hirarchie de visualisation peut alors tre explore en trois
temps comme prsentdans la gure 1.10. La classication organise ici
encore l'histoire du roman Les Mis-
niveau initial (le plus grossier)
niveau 1 niveau 2(le plus n)
Figure 1.10 Mise en uvre de la reprsentation par classication
hirarchique pourle graphe Les Misrables .
rables en sous-histoires avec des classes organises
respectivement autour de Valjean(partage en trois sous-classes au
niveau 2), de Gavroche (partage en deux sous-classesau niveau 1),
des Thnardiers, de Cosette et Marius, de Fantine et de Myriel. Une
deslimites de l'approche apparat dans cette reprsentation : la
classe de Valjean, person-nage central du roman, en marron sur la
gure 1.10, a une position lgrement excentredue une sur-estimation
de la place ncessaire pour reprsenter son dveloppement auniveau 2
(cette limite a t souleve sur un exemple de plus grande taille dans
(Rossi andVilla-Vialaneix 2011b)). Toutefois, l'approche prend tout
son sens pour l'exploration de
-
1.2 Classification non supervise & visualisation 35
graphes de grande taille pour lesquels la gnration de
reprsentations de plus en plusnes est trs rapide et permet une
bonne exploration du graphe comme prsent dansla section 1.2.4.
1.2.4 Application pour la fouille de donnes dun graphe rel
Les mthodes dcrites dans les sections prcdentes ont t appliques
des donnesrelles et, en particulier, elles sont t utilises pour un
projet men en collaborationavec des historiens, en partie ralis
dans le cadre du projet Graphes-Comp nancpar l'ANR 8. Dans ce
programme, un corpus de documents mdivaux, provenant desarchives
dpartementales du Lot (France) 9 a t tudi. Ce corpus est donc
constitud'un nombre important de documents dont les actes originaux
ont t perdus mais quiont pu nous parvenir grce au travail de
retranscription d'un feudiste 10. Les documentsdu corpus sont tous
des actes notaris, chacun dcrivant une ou plusieurs transactionset
prsentant un certain nombre de caractristiques communes : tout
d'abord, les tran-sactions concernent des lieux situs sur la
seigneurie de Castelnau Montratier, localiseprs de l'actuel village
du mme nom (Lot, France). Par ailleurs, toutes les transac-tions
releves par le feudiste dcrivent des accords qui, bien que de
natures direntes(vente, location, donation, bail ef...), portent
pour la plupart sur des terres et im-pliquent des rentes. Ces
transactions ont t ralises entre 1238 et 1768, avec unedensit de
transactions assez variable tout au long de la priode. Les
transactions ontt modlises dans une base de donnes consultable en
ligne sur le site web du projet :http://graphcomp.univ-tlse2.fr (la
manire dont les sources ont t modlises dansla base de donnes est
brivement dcrite dans (Rossi et al. 2013)). De ces donnes,
deuxgraphes peuvent tre dduits : un graphe biparti modlisant les
relations entre transactions et individus active-ment impliqus dans
celles-ci (voir (Rossi et al. 2013)) ; un graphe des individus qui
est la projection du graphe biparti prcdent (pondrou non) : deux
individus sont relis par une arte si ils ont t simultanmentimpliqus
dans la mme transaction (voir (Boulet, Jouve, et al. 2008; Rossi
andVilla-Vialaneix 2011b; Villa-Vialaneix, Jouve, et al.
2012)).
Dans (Boulet, Jouve, et al. 2008), une approche par carte
auto-organisatrice noyauxa t compare des approches algbriques
permettant d'extraire de l'information dugraphe des individus
partir du spectre de son Laplacien. La carte ainsi produite a
fourniune reprsentation simplie du graphe, montrant sa division en
trois grandes priodestemporelles (ce qui est consistant avec la
connaissance historique puisque les sources etles familles
impliques dans les transactions connaissent un changement abrupt
durantla guerre de Cent ans). Le travail a aussi mis en valeur
l'imparfaite retranscription dessources dans la base de donnes.
Dans (Rossi and Villa-Vialaneix 2011b), nous reprenonsle graphe des
individus pour aner sa reprsentation avec l'approche hiarchique
dcritedans la section 1.2.3 qui est galement mise en relation avec
la date des transactionsdans lesquelles les individus sont
impliqus. Enn, dans (Villa-Vialaneix, Jouve, et al.2012), nous
combinons l'information relationnelle fournie par le graphe des
individusavec l'information spatiale connue sur les transactions
pour montrer que ces deux typesde donnes sont signicativement
dpendantes.
8. Programme Non Thmatique, 2005/2009, Graphes-Comp,
ANR-05-BLAN-0229.9. Archives dpartementales du Lot, ed. by Grard
Miquel and Willy Luis http://www.lot.fr/cg_
archives.php.10. Les feudistes sont, au Moyen-ge, des juristes
spcialiss dans le droit fodal et les droits seigneu-
riaux.
http://graphcomp.univ-tlse2.frhttp://www.lot.fr/cg_archives.phphttp://www.lot.fr/cg_archives.php
-
36 Analyse et infrence de graphes
Enn, dans (Rossi et al. 2013), dans une perspective plus
historique, nous mon-trons comment des tudes structurelles du
graphe biparti peuvent aider automatiserla recherche des erreurs de
transcription et notamment aider la dsambiguisation deshomonymes.
galement, nous proposons la visualisation du graphe de la gure 1.11
danslaquelle visualisation (par l'algorithme dcrit dans
(Fruchterman and Reingold 1991))et classication (par optimisation
de la modularit) sont combins. Chaque classe repr-
Figure 1.11 Reprsentation du graphe biparti
transactions/individus issu du corpusde documents mdivaux tudi dans
le projet Graphes-Comp .
sente sur la gure est tiquete avec l'individu de plus fort degr
qu'elle contient, ce quipermet de visualiser de manire trs simple
les relations entre les plus gros seigneurs dela rgion.
Ces travaux ont donn lieu des articles dans quelques journaux
destins au grandpublic : sur le blog de Nature, Nature News 11,
dans Le Figaro 12, dans le Journal du
11.
http://www.nature.com/news/2008/080519/full/news.2008.839.html12.
par Yves Miserey, publi le 24/05/2008, http://bit.ly/1lb63sK
http://www.nature.com/news/2008/080519/full/news.2008.839.htmlhttp://bit.ly/1lb63sK
-
1.2 Classification non supervise & visualisation 37
CNRS et sur le Blog de l'Opration 2013, Mathmatiques pour la
plante terre, 2013 13.
1.2.5 Conclusions et perspectivesCette section a prsent
plusieurs approches permettant de fouiller la structure d'un
graphe. Ces approches sont bases sur des combinaisons de
classication non supervisedes sommets de mthodes de visualisation
d'un graphe simpli, dit graphe des classes.Elles utilisent des
structures de cartes topologiques, qui dnissent des positions a
priorides classes sur une grille, ou bien des mthodes de
reprsentations hirarchiques. Lesapproches en une tape prsentent
l'avantage de construire une classication et une vi-sualisation en
mme temps, fournissant une classication construite spciquement
pourpermettre une meilleure visualisation. Toutefois, elles peuvent
s'avrer trop lourdes entemps de calcul. L'approche hirarchique, au
contraire, dcouple classication et repr-sentation et fournit une
solution automatise trs rapide mais elle est exclusivementlimite au
cadre de graphes simples, contrairement aux approches bases sur des
dissi-milarits ou des noyaux qui peuvent tre utilises pour analyser
des graphes tiquetsmais aussi des donnes trs gnrales, non
vectorielles.
Les perspectives de ce pan de mon travail de recherche sont
l'extension de ces ap-proches pour aborder un certain nombre de
verrous d'importance pour la fouille degraphe : la premire
thmatique d'importance est la prise en compte
d'informationsadditionnelles la structure du graphe : ces
informations peuvent tre desdescripteurs des sommets (des
tiquettes) ou bien des descripteurs des artes (au-del du poids, des
descripteurs qualitatifs qui permettent de construire des
multi-graphes, c'est--dire des graphes contenant plusieurs
ensembles d'artes). J'ai com-menc aborder cette thmatique dans
quelques travaux : comme dcrit dans lasection 1.2.2, (Massoni et
al. 2013; Olteanu, Villa-Vialaneix, and Cierco-Ayrolles2013;
Olteanu and Villa-Vialaneix 2015) proposent l'utilisation de
multi-noyauxet de multi-dissimilarits pour dnir des classes et des
cartes auto-organisatrices.Ces approches permettent de traiter de
manire naturelle des graphes tiquetsmais pourraient aussi tre
utilises pour analyser des multi-graphes de la mmemanire. Le choix
de dissimilarits ou de noyaux appropris des types de donnesdivers
(numriques, qualitatives, graphes ou donnes structures en gnral)
resteencore largement un problme ouvert que je souhaite aborder
dans les prochainesannes.Dans (Laurent and Villa-Vialaneix 2011;
Villa-Vialaneix, Liaubet, Laurent, Cherel,et al. 2013), nous avons
galement propos l'utilisation de tests pour dterminersi des
tiquettes dcrivant les sommets avaient une distribution
signicativementcorrles la structure du graphe. Dans
(Villa-Vialaneix, Liaubet, Laurent, Che-rel, et al. 2013) ce type
de mthodes est notamment utilis pour dterminer si unphnotype
d'intrt est signicativement corrl la structure de co-expressiond'un
ensemble de gnes rguls par des eQTL. Dans (Laurent and
Villa-Vialaneix2012), nous avons galement propos une mthode de
reprsentation globale desgra