1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 79
Domaine couvert par SO-Pharm SO-Pharm (pour Suggested Ontology for Pharmacogenomics) estune proposition de repreacutesentation formelle des connaissances pharmacogeacutenomiques SO-Pharm articuleplusieurs ontologies des sous-domaines compleacutementaires de la pharmacogeacutenomique ie relatives auxgeacutenotype pheacutenotype meacutedicaments et essais cliniques Elle permet de repreacutesenter des relations phar-macogeacutenomiques entre un meacutedicament une variation geacutenomique et un trait du pheacutenotype SO-Pharmpermet de repreacutesenter eacutegalement des patients et plus geacuteneacuteralement des panels impliqueacutes dans des essaiscliniques et des populations SO-Pharm permet de repreacutesenter les variables mesureacutees chez ces patientscomme lrsquoobservation drsquoun pheacutenotype ou le geacutenotypage de variations geacutenomiques Elle inclut des con-naissances relatives aux eacutetudes de cas agrave lrsquoinvestigation clinique et au test de nouvelles hypothegraveses enpharmacogeacutenomique
Objectifs de SO-Pharm SO-Pharm comme SNP-Ontology est conccedilue pour faciliter lrsquointeacutegration de
donneacutees et lrsquoextraction de connaissances en pharmacogeacutenomique SO-Pharm est notamment deacuteveloppeacuteepour pallier lrsquoabsence drsquoontologie elle regroupe dans une repreacutesentation coheacuterente les ontologies dessous-domaines de la pharmacogeacutenomique
Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SO-Pharmdoit reacutepondre sont
ndash Un patient qui prend un traitement de codeacuteine par voie orale avec une posologie de 50 mg troisfois par jours preacutesente-t-il un risque de faire une reacuteaction adverse
ndash Des troubles neurologiques peuvent-ils ecirctre une conseacutequence drsquoun traitement agrave la codeacuteine ndash Existe-t-il des variations geacutenomiques du gegravene CYP2D6 qui sont associeacutees agrave lrsquoabsence drsquoeffet anal-
geacutesique en reacuteponse agrave la codeacuteine ndash La reacuteponse agrave un traitement de statines est il soumis agrave lrsquoinfluence de facteurs geacuteneacutetiques SO-Pharm doit permettre de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre
extraites de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine parexemple les reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03]
Liste de sources de donneacutees et de connaissances relatives Dans le cas de SO-Pharm les experts dudomaine ont deacutefini quatre listes de termes relative chacune agrave la description drsquoun sous-domaine diffeacuterent geacutenotype pheacutenotype meacutedicament et essai clinique La liste des sources de donneacutees et de connaissancesrepreacutesenteacutee Tableau 34 est eacutetablie pour enrichir les quatre listes de termes Certaines sources ont eacuteteacuteajouteacutees au cours des diffeacuterentes iteacuterations du processus de construction de SO-Pharm Lrsquoajout drsquounesource peut amegravener agrave lrsquoajout de nouveaux termes de nouveaux concepts et agrave lrsquoarticulation avec denouvelles ontologies Le Tableau 35 repreacutesente les sources de connaissances seacutelectionneacutees pour ecirctrearticuleacutees avec SO-Pharm
Les trois Figures 37 38 et 39 sont trois diagrammes de classes construits pour la conceptualisationde SO-Parm Ils preacutesentent respectivement la conceptualisation adopteacutee pour la notion drsquoitem clinique
(ie une donneacutee enregistreacutee relative agrave un patient) celle drsquoessai clinique et celle de protocole La FigureD1 en Annexe D propose une vue plus geacuteneacuterale du modegravele conceptuel et permet notamment de situerles uns par rapport aux autres les trois diagrammes de classes preacutesenteacutes La Figure 37 repreacutesente entre
80 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
Nom de la source Type de source Domaine URL
dbSNP Scheacutema XML modegravele de donneacutees geacutenotype http wwwncbinlmnihgovprojectsSNP
HapMap Scheacutema XML geacutenotype http wwwhapmaporg
HGVBase DTD modegravele de donneacutees geacutenotype http hgvbasecgbkise
OMIM Source de donneacutees geacutenotypepheacutenotype
http wwwncbinlmnihgovomim
OMG SNP modegravele de donneacutees geacutenotype http wwwomgorgtechnologydocumentsformalsnphtm
MECV Controlled vocabulary geacutenotype http wwwebiacukmutations
SNP-Ontology Ontologie OWL geacutenotype
AA Ontology Ontologie OWL geacutenotype http wwwco-odeorgontologiesamino-acid
PharmGKB Scheacutema XML modegravele de donneacutees geacutenotypemeacutedicamentpheacutenotype
http wwwpharmgkborg
PharmacogeneticsOntology
Vocabulaire controcircleacute genotypepheacutenotype
http wwwpharmgkborghomeprojectsproject-pojsp
Sequence Ontology Vocabulaire controcircleacute geacutenotype http songsourceforgenet
Gene Ontology Vocabulaire controcircleacute geacutenotype http wwwgeneontologyorg
PubChem Source de donneacutees meacutedicament http pubchemncbinlmnihgov
RX-Norm Vocabulaire controcircleacute meacutedicament http wwwnlmnihgovresearchumlsrxnormindexhtml
ChEBI Vocabulaire controcircleacute meacutedicament http wwwebiacukchebi
CDISC Scheacutema XML pheacutenotype http wwwcdiscorg
ICD-10 Vocabulaire controcircleacute pheacutenotype http wwwwhointclassificationsicd
Disease Ontology Vocabulaire controcircleacute pheacutenotype http diseaseontologysourceforgenet
Mammalian Phenotype Vocabulaire controcircleacute pheacutenotype http wwwinformaticsjaxorgsearchesMP_formshtml
PATO Vocabulaire controcircleacute pheacutenotype http obosourceforgenet
Unit Ontology Vocabulaire controcircleacute pheacutenotype http obosourceforgenet
Pathway Ontology Vocabulaire controcircleacute geacutenotypepheacutenotype
http rgdmcwedutoolsontology
SNOMED-Clinical Vocabulaire controcircleacute pheacutenotype http wwwsnomedorgsnomedctglossaryhtml
Family Bond Ontology Ontologie OWL essaiclinique
http wwwloriafrsimcouletontologyfamilybondversion01f-amilybondowl
Clinical Trial Ontology Ontologie OWL essaiclinique
http wwwbioontologyorgwikiindexphpCTO Main_Page
Ontology of BiomedicalInvestigations
Ontologie OWL essaiclinique
http obisourceforgenet
OBO relationship types Vocabulaire controcircleacute meacuteta-ontologie
http wwwobofoundryorgro
Basic Formal Ontology Ontologie OWL meacuteta-ontologie
http wwwifomisorgbfo
T 34 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domaines de lapharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la source concerne Les vocab-ulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO
autres les deux types principaux drsquoitem cliniques les items relatifs au geacutenotype (Genotype item) et lesitems relatifs au pheacutenotype (Phenotype item) Les premiers peuvent ecirctre des variants comme deacutefinis pourSNP-Ontology Les seconds peuvent ecirctre composeacutes agrave lrsquoaide des concepts deacutecrits pour lrsquoontologie PATOLa Figure 38 preacutesente notamment qursquoun item clinique (Clinical item) est mesureacute durant un eacutevenement(Clinical trial event) deacutefini dans le cadre drsquoun essai clinique est mesureacute chez un individu (Individual)
1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 81
Nom Description Pre f ixe Namespace
SNP-Ontology Variations geacutenomiques SNPO ~ontologysnpontologyversion15snpontology_fullowl
Mutation Event Ont Classification des variations MEO ~ontologymeoversion10meoowl
AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011a-mino-acidowl
Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO
Pharmacogenetics Ont Meacutethodes de geacutenotypage etde mesures
PGO ~ontologysopharmversion20pharmacogeneticsontologyowl
Disease Ontology Classification des maladies DOID ~ontologysopharmversion20diseaseontologyowl
Mammalian Phenotype Critegraveres relatifs au pheacutenotype MP http purlorgoboowlMP
PATO Attributes et valeurs pour lepheacutenotype
PATO ~ontologypatoversion133qualityowl
Unit Ontology Uniteacutes de mesures UO ~ontologyunitversion19unitowl
ChEBI Composeacute moleacuteculaires CHEBI ~ontologysopharmversion20chebiowl
Family Bond Ont Liens de parenteacute FB ~ontologyfamilybondversion01familybondowl
Clinical Trial Ontology Protocole CTO http wwwowl-ontologiescomOntology1178899652owl
Ontology of BiomedicalInvestigation
Protocole OBI http obisourceforgenetontologyOBIowl
Relationship Ontology Types de relation OBO_REL http wwwobofoundryorgroroowl
Biomedical FunctionOntology
Meacuteta-ontologie BFO http wwwifomisorgbfo10
T 35 ndash Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~ correspondagrave lrsquoURL http wwwloriafr~coulet
et est mesureacute selon une meacutethode (Measurement method) deacutefinie dans le cadre drsquoun protocole (Clinicaltrial protocole)La Figure 39 repreacutesente notamment qursquoun protocole peut ecirctre composeacute drsquoun traitementmeacutedicamenteux (Drug treatment) composeacute drsquoun meacutedicament (Drug) et drsquoune posologie (Posology) preacute-cise
133 Formalisation
La formalisation des relations avec les concepts des ontologies seacutelectionneacutees est rapporteacutee dans leTableau 36
134 Impleacutementation
SO-Pharm est disponible en OWL sur le Web agrave lrsquoadresse suivante httpwwwloriafr~couletsopharm20_descriptionphp
La version 20 alpha contient 70 concepts dont 37 concepts deacutefinis et 56 rocircles En incluant les on-tologies articuleacutees avec SO-Pharm le nombre de concepts srsquoeacutelegraveve agrave 84786 et celui des rocircles agrave 189 Cenombre important de concepts est en grande partie ducirc au nombre eacuteleveacute de concepts deacuteriveacutes des vocabu-laires speacutecialiseacutes comme ChEBI ou Disease Ontology dont le nombre de termes atteint par exemple 15192 pour la version 46 de ChEBI
Concernant la conversion en OWL des ontologies articuleacutees elle deacutepend du format drsquoorigine dechaque ontologie Par exemple sont disponibles en OWL et ne neacutecessitent donc aucune conversionSNP-Ontology AA Ontology CTO OBI BFO Les ontologies disponibles dans le format OBO sontconverties agrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutees manuellement Les ontologies
82 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
F 37 ndash Diagramme de classes UML centreacute sur la conceptualisation des items cliniques
F 38 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques
F 39 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique
1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 83
SOPHARM phenotype_item ⊒MP phenotype_ontology (MP 0000001)SOPHARM disease_diagnostic ⊒ DOID disease_and_injuries (DOID 952)SOPHARM surgical_operation ⊒ DOID procedures (DOID 1008)SOPHARM drug ⊒ CHEBI drug (CHEBI 23888)SOPHARM chemical_compound ⊒ CHEBI molecular_entities (CHEBI 23367)SOPHARM chemical_compound ⊒ CHEBI unclassified (CHEBI 27189)SOPHARM chemical_compound ⊒ OBI ChEBI_objects (OBI 263)SOPHARM chromosome_variation ⊒ SO chromosome_variation (SO 0000240)SOPHARM genomic_variation ⊑ SNPO variantSOPHARM genomic_variation ⊒MEO genomic_variation (MEO 001)SOPHARM observed_allele equiv SNPO sequence ⊓ forall isPartOfSOPHARM genomic_genotypeSOPHARM population ⊒ SNPO populationSOPHARM genotype_measurement_method ⊒ PGO genotyping_methodsSOPHARM phenotype_measurement_method ⊒ PGO phenotyping_methodsSOPHARM phenotype_measurement_method ⊒ CTO observationsSOPHARM phenotype_item ⊑(forall PATO is_magnitude_ofPATO quality ⊓ =1 PATO is_magnitude
_of) ⊔ (forall PATO is_measurement_ofPATO quantitative ⊓ =1 PATO is_measurement_of)SOPHARM phenotype_item ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM drug_dose ⊑ PATO physical_quality ⊓ BFO qualitySOPHARM drug_dose ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM administration_frequency ⊑ PATO frequency ⊓ BFO qualitySOPHARM administration_frequency ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM person ⊑ FB family_member
T 36 ndash Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Les identifiants desconcepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent La liste complegravete inclut eacutegalementdes axiomes qui formalisent des relations entre rocircles
disponibles sous drsquoautres formats sont converties manuellement Crsquoest le cas de lrsquoontologie Pharmaco-
genetics Ontology disponible en HTML ou de lrsquoontologie Mutation Event Ontology construite agrave partirdu vocabulaire controcircleacute Mutation Event Controlled Vocabulary et drsquoune partie de Sequence Ontology
135 Eacutevaluation
Le grand nombre de concepts articuleacutes limite lrsquoutilisation des meacutecanismes de raisonnement qui per-mettent la validation de la consistance et la classification des concepts Les impleacutementations actuelles deces meacutecanismes sont sensibles agrave la complexiteacute de la utiliseacutee (ici SHOIN(D)) mais aussi au nombrede concepts de lrsquoontologie Aussi pour valider la consistance et permettre la classification des conceptssur une station de travail (CPU Intel Pentium M 18GHz RAM 2 Go) nous avons utiliseacute les meacutecan-ismes de raisonnement sur lrsquoensemble des paires drsquoontologies possibles (SO-Pharm ndash Disease Ontologypuis SO-Pharm ndash ChEBI puis etc)
Associeacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement SO-Pharm permet de reacutepondre auxquestions de compeacutetences speacutecifieacutees Lrsquoutilisation de SO-Pharm dans le cadre drsquoextraction de connais-sances en pharmacogeacutenomique (voir section 24 du chapitre 4) permet notamment de mieux reacutepondre agraveces questions
SO-Pharm permet de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre extraites
84 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine par exempleles reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03] SO-Pharm permet eacutegalement derepreacutesenter de nouvelles hypothegraveses de connaissances pharmacogeacutenomiques comme lrsquoassociation entreune variation geacutenomique un traitement et un ensemble de signes relevant drsquoun pheacutenotype Lrsquoutilisationde SO-Pharm dans lrsquoobjectif drsquoextraire des connaissances deacutecrite chapitre 4 a permi lrsquoeacutevaluation puislrsquoameacutelioration de lrsquoontologie
136 Discussion
Au final la construction manuelle de lrsquoontologie SO-Pharm propose une mise en correspondancecoheacuterente de quinze ontologies seacutelectionneacutees Lrsquoavantage est la maicirctrise de la coexistence de conceptsdont lrsquointerpreacutetation est eacutequivalente ou se recouvre de maniegravere plus ou moins partielle et surtout demaniegravere plus ou moins ambigueuml La construction et la mise en correspondance manuelles demandentun effort important qui est justifieacute par la possibiliteacute reacutesultante de repreacutesenter des connaissances phar-macogeacutenomiques en instanciant des relations existant entre plusieurs ontologies de sous-domaines etde raisonner sur ces connaissances de faccedilon coheacuterente par les meacutecanismes de raisonnement classiquesDe faccedilon similaire agrave SNP-Ontology SO-Pharm preacutesente lrsquoavantage de proposer agrave la communauteacute unepremiegravere repreacutesentation formelle de son domaine avec lrsquoobjectif de faciliter sa reacuteutilisation et son eacutevo-lution Pour aller dans ce sens les derniegraveres versions de SO-Pharm satisfont aux exigences de qualiteacuteproposeacutees par lrsquoOBO Foundry Ces deacuteveloppements permettent agrave SO-Pharm de faire partie de lrsquoOBOFoundry55 Des indications sur la faccedilon dont SO-Pharm reacutepond aux critegraveres de cette forge particuliegraveresont disponibles en ligne httpwwwloriafr~couletontologysopharmversion20foundry_requirementsphpIl est inteacuteressant de noter que certains de ces critegraveres font deacutebat et notamment le principe drsquoorthogona-
liteacute selon lequel le domaine recouvert par une nouvelle ontologie ne doit pas chevaucher celui des on-tologies existantes dans la forge Ce principe cherche agrave favoriser lrsquoameacutelioration des ontologies existantesde faccedilon communautaire plutocirct qursquoau deacuteveloppement drsquoontologies concurrentes pour un mecircme domaineCe point est discutable drsquoune part parce que la notion drsquoorthogonaliteacute nrsquoest pas deacutefinie de faccedilon preacuteciseet drsquoautre part parce qursquoune ontologie est une repreacutesentation drsquoun domaine selon un point de vue parti-culier Par conseacutequent deux ontologies peuvent repreacutesenter selon deux points de vues diffeacuterents un seulet mecircme domaine Pour cette raison les critegraveres drsquoinclusion drsquoOBO-Foundry sont discuteacutes au sein de lacommunauteacute et sont ameneacutes agrave eacutevoluer
55httpobofoundryorgcgi-bindetailcgiid=pharmacogenomics
2 Inteacutegration de donneacutees guideacutee par une ontologie 85
2 Inteacutegration de donneacutees guideacutee par une ontologie
21 Description geacuteneacuterale de lrsquoapproche proposeacutee
F 310 ndash Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par lemeacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances
Malgreacute lrsquoexistence drsquoarchitectures de reacutefeacuterence ([CGL+98] par exemple) il nrsquoexiste pas drsquoarchi-tecture standard pour les systegravemes drsquointeacutegration de donneacutees fondeacutes sur une ontologie Lrsquoarchitecturerepreacutesenteacutee Figure 310 que nous avons choisie peut ecirctre compareacutee agrave celle drsquoune approche meacutediateurcomme deacutecrit dans le chapitre 2 les diffeacuterentes sources sont mises en correspondance avec un vocabu-laire global dont la particulariteacute ici est drsquoecirctre une ontologie lrsquoextraction des donneacutees est prise en chargepar des wrappers et centraliseacutee sous forme drsquoune reacuteponse unique par le meacutediateur Des mappings deacutefinisentre chaque source de donneacutees et lrsquoontologie permettent la traduction de requecirctes pour lrsquointerrogationdes sources puis en sens inverse la traduction des reacuteponses aux requecirctes Crsquoest dans cette derniegravere phaseque reacuteside la distinction et lrsquoapport majeur de notre approche En effet le meacutediateur eacutelabore agrave lrsquoaide deswrappers en reacuteponse agrave une requecircte utilisateur une liste drsquoassertions qui sert agrave instancier (ou peupler) la associeacutee agrave lrsquoontologie
Le deacuteclanchement de lrsquointeacutegration consiste en la soumission drsquoune requecircte par lrsquoutilisateur La re-quecircte initiale est deacutecrite dans les termes de lrsquoontologies et le meacutediateur la traduit en requecirctes sur lesscheacutemas locaux des sources de donneacutees la traduction de la requecircte de lrsquoutilisateur dans les termes desscheacutemas locaux suit des approches deacutejagrave deacutecrites [CGLV01 Len02] nous ne deacutetaillons pas cette pre-miegravere phase En revanche les sections suivantes preacutesentent plus amplement la faccedilon dont sont deacutefinisles mappings entre les sources de donneacutees et lrsquoontologie puis deacutecrit lrsquointeraction entre les wrappers et lemeacutediateur
Dans la suite de cette section nous consideacuterons chacune des sources comme une base de donneacutees
posseacutedants un scheacutema propre sur lequel il est possible drsquoexeacutecuter des requecirctes
R Nous nous limitons ici agrave lrsquoutilisation des bases de donneacutees mais il pourrait ecirctre envis-ageable de deacutevelopper des wrappers mettant en oeuvre des meacutethodes de Traitement Automatique de laLangue (TAL) pour peupler la
86 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
22 Deacutefinition des mappings donneacuteesndashassertions
Pour chaque base de donneacutees consideacutereacutee la deacutefinition drsquoune requecircte dans les termes de son scheacutemaet la transformation de la reacuteponse agrave cette requecircte en une liste drsquoassertions srsquoappuient sur un mappingdonneacutees-assertions [PLC+08] Ces mappings sont deacutefinis au preacutealable manuellement et en consideacuterationdes connaissances drsquoexperts du domaine
Deacutefinition 31 (Mapping donneacutees ndash assertions) Soit un quadruplet (SMdminusa FO) ougrave
ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2
An) et de domainenprod
i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di
ndash O est une ontologie ie les concepts drsquoun domaine et les rocircles qui deacutecrivent les relations entre ces
concepts
ndash Mdminusa est un ensemble drsquoassociations entre des donneacutees et des assertions dont chacune est de la
forme
Φ Ψ
ougrave Φ est une requecircte arbitraire sur la base de donneacutees de scheacutema S et Ψ est un ensemble drsquoasser-
tions de concepts et drsquoassertions de rocircles de lrsquoontologie O
ndash Enfin F un ensemble de fonctions de la forme fi(v) applicables aux diffeacuterentes valeurs reacutesultant
des requecirctes Φ pour les transformer en noms drsquoindividus dans Ψ
Les fonctions de F appliqueacutees sur les valeurs des attributs sont deacutefinies de telle sorte que ndash deux valeurs drsquoattribut distinctes dans une ou plusieurs bases de donneacutees donnent lieu agrave deux noms
drsquoindividus distincts dans la ndash deux valeurs drsquoattributs potentiellement distinctes mais qui font reacutefeacuterence agrave la mecircme entiteacute dans
des bases de donneacutees diffeacuterentes donnent lieu agrave la creacuteation drsquoun seul et mecircme nom drsquoindividundash pour chaque mapping impliquant fi isin F il est possible de deacutefinir une fonction inverse noteacutee f minus1
i
qui permet agrave partir drsquoun identifiant drsquoindividu de la de retrouver la valeur correspondante dansune base de donneacutees
Les fonctions peuvent ecirctre deacutefinie soit manuellement soit par des heuristiques Comme lrsquoillustre lasuite de la thegravese (chapitre 3 section 31 et chapitre 4 section 1) une fonction peut notamment ecirctre unecomposition drsquoautres fonctions ou prendre en compte les valeurs prises par drsquoautres attributs
Lrsquoeacutetape de peuplement de la associeacutee agrave lrsquoontologie O revient agrave ajouter agrave la pour lrsquoensembledes n-uplets reacuteponses aux requecirctes Φ lrsquoensemble des assertions de concepts et des assertions de rocircles Ψdu mappingMdminusa deacutefini entre le scheacutema S et lrsquoontologie O Les individus impliqueacutes dans les assertionsdu mapping qui nrsquoexistent pas encore dans la associeacutee agrave O sont creacuteeacutes De cette faccedilon les fonctionsappliqueacutees aux valeurs drsquoattributs peuvent ecirctre utiliseacutees pour nettoyer transformer homogeacuteneacuteiser le con-tenu des bases de donneacutees lors de lrsquoinstanciation
Exemple Soit BD1 et BD2 deux bases de donneacutees dont les scheacutemas S1 et S2 contiennent respective-ment les deux relations suivantes R1 et R2
R1 (A1 A2 A3)R2 (A1 B2 B3)
Dans cet exemple nous consideacuterons que les attributs A1 de R1 et de R2 sont identiques ils ont le mecircmenom font reacutefeacuterence au mecircme concept et leurs valeurs sont repreacutesenteacutees en suivant la mecircme syntaxeLes attributs A2 et B2 font reacutefeacuterence agrave un mecircme concept mais leurs valeurs sont repreacutesenteacutees suivant dessyntaxes diffeacuterentes ce qui rend neacutecessaire lrsquoutilisation de fonctions diffeacuterentes ( f2 et f4) pour qursquoelles
2 Inteacutegration de donneacutees guideacutee par une ontologie 87
soient transformeacutees en identifiants drsquoindividus qui suivent une syntaxe homogegravene Les attributs A3 et B3
font reacutefeacuterence agrave des concepts diffeacuterentsDeux exemples de deacutefinition de mapping possibles Mdminusa A entre la base de donneacutees BD1 et lrsquoon-
tologie O et Mdminusa B entre BD2 et la mecircme ontologie O sont preacutesenteacutes ci-apregraves sous la forme de lrsquoas-sociation entre une requecircte SQL et une liste drsquoassertions en Les notations sont inspireacutees de Poggi et
al [PLC+08] En particulier on utilise la notation f1(A1) pour repreacutesenter de faccedilon geacuteneacuterique le nom dechaque individu ce qui correspond agrave lrsquoimage de la fonction f1 associeacutee agrave chaque valeur prise par lrsquoattributA1 dans la requecircte SQL
Mdminusa 1 ConceptUn( f1(A1))ConceptDeux( f2(A2))
SELECT A1 A2 A3 RoleUnVersDeux( f1(A1) f2(A2))FROM R1 RoleUnVersDeuxminus( f2(A2) f1(A1))
ConceptTrois( f3(A3))RoleUnVersTrois( f1(A1) f3(A3))RoleUnVersTroisminus( f3(A3) f1(A1))
Mdminusa 2 ConceptUnS peci f ique( f1(A1))ConceptDeux( f4(B2))
SELECT A1 B2 B3 RoleUnVersDeux( f1(A1) f4(B2))FROM R2 RoleUnVersDeuxminus( f4(B2) f1(A1))WHERE B3 =ldquoaSpecificValuerdquo ConceptQuatre( f5(B3))
RoleUnVersQuatre( f1(A1) f5(B3))RoleUnVersQuatreminus( f5(B3) f1(A1))
Suivant notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctes deMdminusa 1 etMdminusa 2 sur BD1 et BD2 et les listes drsquoassertions qui leurs sont associeacutees suivant les mappings
ConceptUn(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)
(a1a2a3) RoleUnVersDeuxminus(a_2 a_1)ConceptTrois(a_3)RoleUnVersTrois(a_1 a_3)RoleUnVersTroisminus(a_3 a_1)
ConceptUnS peci f ique(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)
(a1b2b3) RoleUnVersDeuxminus(a_2 a_1)ConceptQuatre(b_3)RoleUnVersQuatre(a_1 b_3)RoleUnVersQuatreminus(b_3 a_1)
Ainsi les deux valeurs respectives a2 et b2 des deux attributs A2 et B2 sont transformeacutes par lesfonctions f2 et f4 en un mecircme nom drsquoindividu a_2 ce qui permet la creacuteation drsquoun seul individu identifieacutepar a_2 et instance du concept ConceptDeux dans la
ConceptDeux(a_2)
88 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
Aussi si
ConceptUnS peci f ique ⊑ ConceptUn
le deuxiegraveme mapping apporte une nouvelle connaissance de par le fait que a_1 instancie non seulementConceptUn mais eacutegalement ConceptUnS peci f ique Les assertions du rocircle RoleUnVersDeux et de soninverse proposeacutees par le deuxiegraveme mapping (Mdminusa 2) sont redondantes avec les assertions proposeacutees parle premier mapping (Mdminusa 1) En conseacutequence elles ne seront pas ajouteacutees agrave la En revanche le deux-iegraveme mapping apporte une nouvelle connaissance en instanciant avec a_1 le rocircle RoleUnVersQuatre etson inverse Un exemple concret de mapping est donneacute dans ce chapitre en section 312
Il est important de remarquer que la deacutefinition drsquoun mapping en collaboration avec lrsquoexpert neacutecessitelrsquoexistence dans lrsquoontologie O des concepts et des rocircles approprieacutes qui pourront ecirctre instancieacutes dans la Si les concepts et le rocircles adeacutequats nrsquoexistent pas la deacutefinition du mapping constitue une motivationpour la mise agrave jour et lrsquoameacutelioration de lrsquoontologie
Compareacute au triplet (GSM) (associant un scheacutema global les scheacutemas des sources et les mappingsentre G et S voir section 312 du chapitre 2 et [Len02]) qui suffit agrave deacutecrire les eacuteleacutements de base drsquoun sys-tegraveme drsquointeacutegration notre approche inclut de faccedilon suppleacutementaire un ensemble de fonctions qui garantitla transformation des valeurs en identifiants drsquoindividus Le fait que chaque ensemble de fonctions soitpropre agrave une base de donneacutees et deacutefini sans ambiguiteacute permet que chaque fonction soit capable inverse-ment de transformer un identifiant drsquoindividu en une valeur de la base
23 Description de lrsquointeraction wrapperndashmeacutediateur
La premiegravere interaction entre meacutediateur et wrapper intervient lorsqursquoun utilisateur eacutemet une requecirctePar exemple ldquoQuelles sont les variations geacutenomiques et les meacutedicaments associeacutes agrave la maladie appeleacutee
Hypercholesteroleacutemie Familialerdquo Suivant le fonctionnement classique le meacutediateur prend en charge larequecircte et lrsquoadapte au scheacutema de chaque base de donneacutees Les wrappers exeacutecutent les requecirctes adapteacuteesaux diffeacuterents scheacutemas et reacutecupegraverent les donneacutees en reacuteponse
Ensuite le meacutediateur permet gracircce aux mappingsMdminusa (deacutetailleacutes dans la deacutefinition 31) drsquoinstancierla associeacutee agrave lrsquoontologie en transformant de faccedilon indeacutependante la reacuteponse transmise par un wrapper enune liste drsquoassertions de concepts et drsquoassertions de rocircles ajouteacutee agrave la Les wrappers ne communiquentpas entre eux mais le meacutediateur interagit avec la et adapte ainsi lrsquoinstanciation au contenu de la qui se peuple progressivement Si lrsquoon reprend lrsquoexemple de la requecircte relative agrave lrsquoHypercholesteacuteroleacutemieFamiliale lorsque le wrapper 2 extrait des donneacutees relatives agrave une variation geacutenomique il est possibleque le meacutediateur ait deacutejagrave creacuteeacute des individus relatifs agrave la mecircme variation en conseacutequence des donneacuteestransmises par le wrapper 1 Dans ce cas le meacutediateur nrsquoeacutecrase pas les connaissances deacutejagrave disponiblesdans la mais les complegravete si possible Au final le meacutediateur enchaicircne une seacuterie drsquoinstanciations co-heacuterentes entre elles et avec lrsquoontologie pour inteacutegrer les reacuteponses successives des diffeacuterentes bases dedonneacutees
24 Bilan
Lrsquoapproche drsquointeacutegration de donneacutees proposeacutee dans cette section srsquoinspire amplement (1) des archi-tectures classiques des systegravemes drsquointeacutegration de donneacutees [Hal01 CG05] et (2) de reacutesultats theacuteoriquesdeacutecrit reacutecemment sur la formalisation des mappings donneacuteesndashontologies [PLC+08] La principale orig-inaliteacute proposeacutee ici est drsquoutiliser et drsquoadapter ces reacutesultats theacuteoriques au cadre drsquoune architecture opeacutera-
2 Inteacutegration de donneacutees guideacutee par une ontologie 89
tionnelle qui peut ainsi articuler ainsi agrave la fois base de donneacutees et Base de Connaissances
Lrsquoapproche proposeacutee a comme principal inconveacutenient qursquoelle neacutecessite pour chaque source dedeacutefinir un mapping donneacuteesndashassertions adapteacute et de deacutevelopper le wrapper associeacute En contre-partiecette meacutethode beacuteneacuteficie des avantages de lrsquoapproche meacutediateur en terme drsquoindeacutependance vis agrave vis dessources de nouvelles sources peuvent ecirctre inteacutegreacutees sans que lrsquoontologie ne soit transformeacutee Cepen-dant si une source contient des donneacutees encore non consideacutereacutees qursquoil se reacutevegravele inteacuteressant drsquointeacutegrerlrsquoontologie peut neacutecessiter drsquoecirctre enrichie par lrsquoaddition de concepts rocircles axiomes de telle sorte que lesnouvelles donneacutees puissent correspondre agrave des assertions de la
Une autre limite provient des technologies actuelles de gestion de Les opeacuterations de raisonnementet notamment drsquointerrogation sur une sont probleacutematiques lorsque la TBox ou la ABox deviennent tropvolumineuses Cette limite est accentueacutee lorsque le langage de repreacutesentation des connaissances est drsquouneexpressiviteacute plus importante et les meacutecanismes de raisonnement plus complexes Notre approche eacutevite lepeuplement drsquoune trop volumineuse comme cela pourrait ecirctre le cas par une approche entrepocirct Ainsiune requecircte tregraves speacutecifique dont la reacuteponse contient un nombre de tuples restreint entraicircne la constitutiondrsquoune tout aussi speacutecifique et peu volumineuse Une requecircte plus geacuteneacuterale donnera une reacuteponse doteacuteede plus de tuples et constituera une eacutegalement plus geacuteneacuterale et plus volumineuse En revanche notreapproche permet drsquointeacutegrer successivement les reacuteponses de diffeacuterentes requecirctes dans la mecircme dont lecontenu srsquoeacutelargira au fur et agrave mesure De ce point de vue notre approche preacutesente certains des avantagesdes approches drsquointeacutegration type entrepocirct puisque la peupleacutee par une ou plusieurs requecirctes beacuteneacuteficiedrsquoune part de lrsquointeacutegration de donneacutees et drsquoautre part de la seacutemantique associeacutee aux donneacutees
Le fait de disposer des donneacutees inteacutegreacutees sous forme drsquoassertions dans une nous inteacuteresse partic-uliegraverement puisque cela permet tout drsquoabord de repreacutesenter des relations qui ne peuvent pas lrsquoecirctre dansle cadre drsquoune base de donneacutees relationnelle classique comme par exemple repreacutesenter le fait que deuxrepreacutesentations distinctes (par exemple de deux variations geacutenomiques) font reacutefeacuterence agrave une seule etmecircme entiteacute Cela permet eacutegalement agrave lrsquoaide des meacutecanismes de raisonnement de valider la consistancedu modegravele de classifier les individus de lrsquoontologie Enfin comme nous lrsquoexposons dans le chapitre 4la seacutemantique associeacutee agrave la peut ecirctre utiliseacutee pour guider lrsquoextraction de connaissances implicites ounouvelles et potentiellement utiles par exemple en utilisant des meacutethodes de fouille de donneacutees sur lesassertions de la
Les deux sections suivantes (31 et 32) illustrent lrsquoutilisation pour lrsquointeacutegration de donneacutees des deuxontologies dont la construction est deacutecrite en section 1
90 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
3 Expeacuterimentation
Cette section preacutesente les reacutesultats drsquoimpleacutementation et de mise en œuvre de lrsquoapproche proposeacuteesection 2 pour lrsquointeacutegration de donneacutees guideacutee par une ontologie Les reacutesultats rapporteacutes ont eacuteteacute obtenusdans le cadre drsquoexpeacuterimentation sur des donneacutees relatives aux variations geacutenomiques tout drsquoabord puisagrave la pharmacogeacutenomique
31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter
La section 23 du chapitre 1 et notamment sa Figure 12 illustre les nombreuses faccedilons de deacutesignerde faccedilon unique une variation geacutenomique dans les bases de donneacutees publiques et priveacutees Il est importantde noter que certaines notations non-conventionnelles (regroupeacutees sous la section c dans la Figure 12)sont ambigueumls la premiegravere description ne mentionne pas le nucleacuteotide de reacutefeacuterence la troisiegraveme et laquatriegraveme font reacutefeacuterence agrave deux versions diffeacuterentes de la mecircme proteacuteine sans preacuteciser de quelle versionil srsquoagit
Lrsquoeacutevaluation preacutecise du recouvrement entre les bases de donneacutees de variations geacutenomiques est cru-ciale dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie
lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate agrave cause du nombre important de repreacutesentations diffeacuterentes et pourtant eacutequivalentesAussi un systegraveme capable drsquoeacutetablir cette eacutequivalence est neacutecessaire pour des investigations impliquant lrsquoanalyse de variations geacutenomiques et de cette faccedilon est neacutecessaire comme base agrave une exploration avanceacuteede la pharmacogeacutenomique qui prend en consideacuteration les nombreuses donneacutees recueillies dans le do-maine [AK02]
311 Les solutions drsquointeacutegration existantes
Une premiegravere solution au problegraveme de la repreacutesentation heacuteteacuterogegravene des variations consiste en laconstruction drsquoune base de donneacutees unique qui permette un accegraves agrave lrsquoensemble des variants contenus ini-tialement dans diffeacuterentes sources Crsquoest lrsquoobjectif de la base de donneacutees dbSNP du NCBI qui est la plusgrande source de variations disponible sur le Web (voir la section 22 du chapitre 1) En plus de contenirles variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres grandesbases de donneacutees de variations geacutenomiques comme la base NCI CGAP-GAI HGVBase HapMap Perl-gen Un avantage strateacutegique de dbSNP est de faire partie des bases de donneacutees du NCBI (entre autresGenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par le systegravemefeacutedeacutereacute Entrez [Bax06] Un inconveacutenient de dbSNP est de ne pas permettre la coexistence de donneacuteespubliques et de donneacutees priveacutees relatives agrave des variations que les biologistes ne souhaitent pas diffuser(par exemple une nouvelle variation ou une nouvelle annotation)
TAMAL (Time and Money are Limiting) [HSS06] et LS-SNP (Large-Scale annotation of coding non-
synonymous SNPs) [KDK+05] sont des systegravemes drsquointeacutegration de donneacutees alternatifs principalementbaseacutes sur le contenu de dbSNP mais dont lrsquoavantage est de proposer des annotations suppleacutementaireset des faciliteacutes de seacutelection de SNP drsquointeacuterecirct pour la conception drsquoeacutetudes cliniques Ces SNP drsquointeacuterecirctpeuvent ecirctre les SNP susceptibles drsquoecirctre associeacutes agrave une maladie et donc inteacuteressants agrave geacutenotyper chezles patients enrocircleacutes Ces deux systegravemes partagent lrsquoinconveacutenient de dbSNP qui est de ne pas permettrelrsquointeacutegration de donneacutees tierces
312 SNP-Converter un systegraveme de conversion et drsquointeacutegration de variations geacutenomiques
SNP-Converter est un outil original deacuteveloppeacute pour lrsquointeacutegration de donneacutees relatives aux variationsgeacutenomique en suivant lrsquoapproche deacutecrite section 2 (voir Figure 311) SNP-Converter utilise lrsquoontologie
3 Expeacuterimentation 91
F 311 ndash Architecture de SNP-Converter suivant celle proposeacutee Figure 310
SNP-Ontology pour repreacutesenter par un ensemble drsquoassertions de concepts et de rocircles nrsquoimporte quelvariant quelle que soit sa description initiale Gracircce agrave cette capaciteacute des donneacutees contenues dans dessources heacuteteacuterogegravenes peuvent ecirctre mises correspondance avec les concepts et rocircles de SNP-Ontologypar lrsquointermeacutediaire de mappings donneacuteesndashassertions Suivant ces mappings SNP-Converter permet lepeuplement drsquoune associeacutee agrave SNP-Ontology et appeleacutee SNP-KB
Tels qursquoils sont deacutecrits dans la deacutefinition 31 les mappings donneacutees-assertions sont associeacutes agrave un en-semble de fonction F qui assure la transformation des valeurs des bases de donneacutees en noms drsquoindividusqui viennent peupler la De part lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques cetensemble de fonction est particuliegraverement important dans SNP-Converter puisqursquoelles sont utiliseacutees pourreacutealiser la conversion de la description drsquoune variation geacutenomique en une autre Ensuite lrsquointeacutegration
proprement dite est effectueacutee par SNP-Converter qui est capable drsquoestimer lrsquoeacutequivalence entre deux de-scriptions converties en un format pivot ie un jeu de quatre attributs (deacutecrit ci-apregraves) qui identifie defaccedilon unique une variation geacutenomique
Reacutealiser la conversion de la description drsquoune variation geacutenomique en une autre ou eacutetablir lrsquoeacutequiv-alence entre deux descriptions sont des opeacuterations qui font intervenir des connaissances explicites dudomaine des connaissances relatives agrave la structure du gegravene la deacutefinition drsquoun transcrit ou encore aucode geacuteneacutetique Lrsquoune des raisons qui a motiveacute la construction de SNP-Ontology eacutetait justement defournir une repreacutesentation de ces connaissances sur laquelle srsquoappuyer afin de permettre la conversionla comparaison et au final lrsquointeacutegration de ce type de donneacutees
Un variant est une variation observeacutee localiseacutee sur une position preacutecise le long drsquoune seacutequence Lavariation observeacutee peut ecirctre une variation de nucleacuteotides ou drsquoacides amineacutes selon que la seacutequence quisert de reacutefeacuterence agrave sa localisation est un acide nucleacuteique (ie ADN ou ARN) ou une proteacuteine Cettedeacutefinition reflegravete agrave la fois le standard proposeacute par la nomenclature HGVS et la conceptualisation deSNP-Ontology Elle implique qursquoune variation soit deacutecrite au minimum par un jeu de quatre attributs
(i) lrsquoidentifiant drsquoune seacutequence de reacutefeacuterence (ie son numeacutero drsquoaccession dans une base de donneacuteespublique)
(ii) le type de la seacutequence en question geacutenomique codanteADNc ARNm ou proteacuteine respective-ment abreacutegeacute par les lettres g c r p suivant le standard de lrsquoHGVS
(iii) la position du variant sur la seacutequence de reacutefeacuterence (iv) la variation observeacutee (GT G- -T GTAG gu GlyVal par exemple)
92 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
La conjonction de ces quatre attributs permet une description univoque du variantComme mentionneacute dans la section 23 un mecircme variant peut ecirctre deacutecrit par diffeacuterentes compositions
de ce jeu de quatre attributs selon la seacutequence de reacutefeacuterence choisie Le principe geacuteneacuteral du SNP-Converterest de prendre en entreacutee un jeu drsquoattributs et de le convertir en un jeu drsquoattributs alternatif qui repreacutesentele mecircme variant
SNP-Converter pour la conversion de formatLe processus mis en œuvre par SNP-Converter lors de la conversion de la description drsquoune variationpeut ecirctre deacutecomposeacute en quatre eacutetapes deacutetailleacutees dans la suite de cette section et illustreacutees par les Figures312 et 313
ENDONNEacuteES
ENTREacuteE
JEU DrsquoATTRIBUTS
INITIAL
JEU DrsquoATTRIBUTS
PIVOT
JEU DrsquoATTRIBUTS
FINALEN
SORTIE
DONNEacuteES(2) (4)
(4)
(1) (3)
Descriptiondu format drsquoentreacutee
Seacutelection drsquoune seacutequence de reacutefeacuterence particuliegravere
Seacutelection duformat de sortie
F 312 ndash Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomiquepris en charge par SNP-Converter
NT_011295
248976
GgtT
g
11087877
GgtT
NC_000019
g
(3)
CCDS12254
c
1694
GgtT
(4)NT_011295 g 2489769 GgtT
(1a) (2)CCDS12254c1694GgtT
Descriptiondu format HGVS du format HGVS
Seacutelection de la seacutequencede reacutefeacuterence codante
CCDS12254
Seacutelection
F 313 ndash Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-Converter
(1) Lrsquoeacutetape de preacuteparationCertaines descriptions ne deacutecrivant pas explicitement les quatre attributs il est neacutecessaire drsquoin-clure dans lrsquoapplication une eacutetape de preacuteparation Cette eacutetape consiste en lrsquoextraction des quatreattributs initiaux et en conseacutequence est speacutecifique agrave chaque format de source de donneacutees Lrsquoeacutetapede preacuteparation est diffeacuterente selon que la description du variant est explicite (comme la syntaxeHGVS ou la syntaxe similaire agrave celle du genome-browser) ou implicite (un identifiant de basede donneacutees) Quand la description est explicite (1a) les quatre attributs peuvent ecirctre directementobtenus en parcourant la description et en en extrayant chacun des attributs Quand la description
3 Expeacuterimentation 93
est implicite (1b) les attributs initiaux sont obtenus par une requecircte sur la base de donneacutees con-cerneacutee Par exemple si la description de deacutepart est un identifiant dbSNP il est utiliseacute durant lrsquoeacutetapede preacuteparation pour interroger dbSNP et extraire le jeu drsquoattributs initial Lrsquoeacutetape de preacuteparationpermet eacutegalement de compleacuteter une description ambigueuml (1c) soit en compleacutetant automatique-ment les donneacutees manquantes drsquoune base de donneacutees lorsque crsquoest possible soit en compleacutetantmanuellement la description
Lrsquoimpleacutementation actuelle de cette eacutetape de preacuteparation permet lrsquoextraction des quatre attributs agravepartir des entreacutees de dbSNP HGVBase HapMap PharmGKB et de fichiers plats de deux basesde donneacutees priveacutees qui suivent des repreacutesentations non-conventionnelles correspondant aux deuxpremiers exemples de la section c de la Figure 12
(2) La conversion du jeu drsquoattributs initial en un jeu pivotLe jeu drsquoattributs pivot consiste en une version particuliegravere des quatre attributs pour laquelle lrsquoi-dentifiant de la seacutequence de reacutefeacuterence est celui de la seacutequence complegravete du chromosome (ie unnumeacutero drsquoaccession RefSeq de la forme NC_0000198) qui contient la variation En conseacutequencele type de seacutequence dans le jeu pivot est geacutenomique Les deux attributs restant doivent quant agrave euxecirctre calculeacutes La position relative de la seacutequence de reacutefeacuterence initiale sur la seacutequence complegravetedu chromosome est rechercheacutee dans la base de donneacutees adapteacutee Par exemple la position relativedrsquoun gegravene peut ecirctre trouveacutee agrave partir du symbole du gegravene dans lrsquoentreacutee RefSeq du chromosomecomplet (dans la section ldquoFEATURESgenerdquo) La position geacutenomique des exons peut eacutegalementy ecirctre retrouveacutee dans la section ldquoFEATURESmRNArdquo Si la position du variant est donneacutee parrapport au deacutebut de la seacutequence traduite ie du codon start ATG les coordonneacutees des morceauxde seacutequences codantes peuvent ecirctre trouveacutees dans la base de donneacutees CCDS56 du NCBI La posi-tion exacte de la variation sur la seacutequence complegravete du chromosome peut ecirctre calculeacutee agrave partir deces donneacutees et de la position de la variation sur la seacutequence de reacutefeacuterence initiale Enfin lrsquoattributcorrespondant agrave la variation observeacutee doit ecirctre converti en une variation de seacutequence geacutenomiqueSi la variation observeacutee est initialement deacutecrite sur une seacutequence drsquoADN elle reste identique saufdans le cas exceptionnel ougrave elle est observeacutee sur le brin anti-sens auquel cas elle est convertieAutrement si la variation observeacutee lrsquoest sur une seacutequence drsquoARN les uraciles (U) doivent ecirctreconvertis en thymines (T) Une variation observeacutee au niveau drsquoune proteacuteine est convertie suiv-ant le code geacuteneacutetique En raison de la deacutegeacuteneacuterescence du code geacuteneacutetique plusieurs codons codentpour le mecircme acide amineacute ainsi la conversion acide amineacute rarr nucleacuteotide peut geacuteneacuterer plusieurspropositions de variations SNP-Converter geacutenegravere toutes les possibiliteacutes
(3) La conversion optionnelle en un jeu drsquoattributs finalCette conversion est optionnelle puisque dans le cas ougrave la description deacutesireacutee correspond au jeupivot elle est inutile Cela est notamment le cas dans le processus drsquointeacutegration de donneacutees quenous deacutetaillons par la suite qui se base sur le jeu pivot Si ce nrsquoest pas le cas lrsquoutilisateur doitseacutelectionner une seacutequence de reacutefeacuterence drsquoADN ARNc ARNm ou proteacuteique sur laquelle doit ecirctrepositionneacutee la variation Le processus de conversion suit alors exactement le mecircme raisonnementque pour la conversion preacuteceacutedente afin de deacuteterminer la nouvelle position relative et la variationobserveacutee en fonction de la seacutequence de reacutefeacuterence choisie
(4) Le formatage des donneacutees de sortieDans le cas de lrsquointeacutegration de donneacutees illustreacutee dans la section suivante cette derniegravere eacutetapeconsiste en la transformation du jeu drsquoattributs en un ensemble drsquoassertions en qui viendrontinstancier une Cependant SNP-Converter peut ecirctre utiliseacute comme simple convertiseur de for-mat indeacutependemment de tout systegraveme drsquointeacutegration Dans ce cas les donneacutees de sorties peuvent
56httpwwwncbinlmnihgovCCDS
94 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
ecirctre formateacutees selon lrsquousage qursquoil est preacutevu drsquoen faire Un premier choix peut ecirctre lrsquoeacutedition simpledu jeu drsquoattributs final suivant la syntaxe HGVS Un second choix est la creacuteation drsquoun fichier con-tenant la description de la variation dans le format speacutecifique de soumission agrave une base de donneacuteescomme par exemple le format XML de soumission agrave dbSNP
SNP-Converter a donneacute lieu au deacuteveloppement drsquoun prototype en java dont plusieurs copies drsquoeacutecransont preacutesenteacutees en Annexe E A lrsquoaide de cette impleacutementation SNP-Converter a eacuteteacute expeacuterimenteacute surles variations du gegravene LDLR contenues dans dbSNP (au format XML) et de variations du mecircme gegravenedeacutecrites de faccedilon non-conventionnelle dans des sources priveacutees sous forme de fichiers textes Lrsquoobjectifeacutetait alors de mesurer le taux de recouvrement entre les trois bases de donneacutees et plus speacutecifiquementdrsquoidentifier les variations des bases de donneacutees priveacutees qui ne sont pas enregistreacutees dans dbSNP afindrsquoenvisager leur soumission
Pour reacutealiser cette expeacuterimentation SNP-Converter a drsquoabord eacuteteacute utiliseacute pour convertir les variationscontenues dans les trois sources en leur description par le jeu pivot pour ensuite comparer les reacutesultatset eacutevaluer leur eacutequivalence potentielle La fonction du SNP-Converter permettant drsquoinstancier une aeacuteteacute utiliseacutee pour inteacutegrer les diffeacuterentes descriptions de variations et leurs eacutequivalences Lrsquoinstanciationde la et les reacutesultats obtenus sont preacutesenteacutes dans la section suivante
SNP-Converter pour lrsquointeacutegration de donneacutees
Lrsquoutilisation du SNP-Converter pour lrsquointeacutegration peut ecirctre consideacutereacutee comme un mapping indirectentre le scheacutema des sources de donneacutees initiales et lrsquoontologie Dans ce sens le mapping indirect srsquoap-puie alors sur un ensemble de fonctions de convertion des descriptions heacuteteacuterogegravenes Dans lrsquooptique drsquoin-teacutegrer un maximum de donneacutees relatives aux variations nous utilisons SNP-Converter de telle sorte quelorsqursquoil instancie un nouveau variant dans la il lui associe non seulement les attributs du jeu initialmais eacutegalement les attributs pivots calculeacutes par SNP-Converter Dans la mecircme optique de lrsquointeacutegrationdrsquoun maximum de donneacutees il est eacutegalement inteacuteressant pour chaque variation drsquointeacutegrer dans la SNP-KBdrsquoune part le jeu des quatre attributs et drsquoautre part des attributs suppleacutementaires associeacutes agrave la variation enquestion (par exemple lrsquoorganisme eacutetudieacute ou sa freacutequence drsquoobservation dans une population) Dans cecas les attributs suppleacutementaires sont extraits au mecircme titre que ceux du jeu drsquoattributs consideacutereacute maisne sont soumis agrave aucune conversion En revanche pour qursquoils puissent donner lieu agrave lrsquoinstanciation de la il faut qursquoils soient inclus dans la description du mapping donneacutees-assertions (voir section 22)
Si lrsquoon considegravere les deux bases de donneacutees PharmGKB et dbSNP dont les scheacutemas contiennentrespectivement les deux relations suivantes RPharmGKB et RdbS NP
RPharmGKB (Submission_Id GP_Position assembly Strand Variant Feature Nb_Of_Chr Frequencygene_symbole)
RdbS NP (dbSNP_Id organism genome_build alleles contig_accession contig_position functiongene_symbole)
Deux exemples de mappingMdminusa (voir deacutefinition 31) possibles entre ces bases de donneacutees et lrsquoontologieSNP-OntologyMdminusa 1 etMdminusa 2 sont deacutefinis ici par lrsquoassociation entre une requecircte SQL et des assertionsen
3 Expeacuterimentation 95
Mdminusa 1 Variant( f1(Submission_Id))Position( f2(GP_Position))
SELECT Submission_Id GP_Position Variant hasPosition( f1(Submission_Id) f2(GP_Position))FROM RPharmGKB hasPositionminus( f2(GP_Position) f1(Submission_Id))
Variation( f3(Variant))hasVariation( f1(Submission_Id) f3(Variant))hasVariationminus( f3(Variant) f1(Submission_Id))
Mdminusa 2 NonS ynonymousVariant( f4(dbSNP_Id))Position( f5(contig_position))
SELECT dbSNP_Id contig_position alleles hasPosition( f4(dbSNP_Id) f5(contig_position))FROM RdbS NP hasPositionminus( f5(contig_position) f5(dbSNP_Id))WHERE function =ldquonon-synonymousrdquo Variation( f6(alleles))
hasVariation( f4(dbSNP_Id) f6(alleles))hasVariationminus( f6(alleles) f4(dbSNP_Id))
Chaque variant reacuteponse agrave lrsquoune des deux requecirctes preacuteceacutedentes est converti par SNP-Converter (S C)en quatre valeurs correspondant au jeu drsquoattributs pivot Il est alors possible drsquoappliquer agrave ce jeu drsquoat-tributs particulier le mapping appeleacuteMdminusa S C dont un exemple est preacutesenteacute ci-apregraves Les fonctions de laforme sci repreacutesentent alors les opeacuterations de conversion reacutealiseacutees sur les valeurs des attributs du jeu ini-tial Le reacutesultat de ces fonctions constitue le jeu drsquoattributs pivot Respectivement sc1 extrait lrsquoidentifiantde la seacutequence de reacutefeacuterence sc2 la position sur cette seacutequence sc3 le type de la seacutequence de reacutefeacuterenceet sc4 la variation observeacutee Lrsquoexemple proposeacute deMdminusa S C preacutesente la particulariteacute que reacutefeacuterence po-sition et type de seacutequence soient extraits agrave partir du mecircme attribut GP_Position Les fonctions fi sont lesfonctions classiquement deacutefinies dans le cadre des mappings La fonction f7 preacutesente la particulariteacute deprendre 4 attributs en paramegravetre car elle construit un identifiant unique de variant sur la base des valeursdes quatre attributs du jeu pivot Dans un souci de clarteacute nous remplacerons dans le mapping la notation
f7(sc1(GP_Position) sc2(GP_Position) sc3(GP_Position) sc4(Variant)) = f7(jeu_pivot)
Mdminusa S C Variant( f7(jeu_pivot))S equence( f8(sc1(GP_Position)))
SELECT Submission_Id S C sc1(GP_Position) isLocatedOn( f7(jeu_pivot) f8(sc1(GP_Position))GP_Position rarr sc2(GP_Position) isLocatedOnminus( f8(sc1(GP_Position) f7(jeu_pivot))Variant sc3(GP_Position) Position( f9(sc2(GP_Position)))
FROM RPharmGKB sc4(Variant) hasPosition( f7(jeu_pivot) f9(sc2(GP_Position))hasPositionminus( f9(sc2(GP_Position) f7(jeu_pivot))Variation( f10(sc4(Variant)))hasVariation( f7(jeu_pivot))) f10(sc4(Variant))hasVariationminus( f10(sc4(Variant) f7(jeu_pivot)))
Dans le cas du second mappingMdminusa 2 les attributs de RdbS NP pris en paramegravetre par les fonctionssci sont diffeacuterents mais le mapping vers les assertions est identique
Lrsquoeacutetape drsquoinstanciation de la SNP-KB revient agravendash (1) ajouter pour lrsquoensemble des n-uplets reacuteponses aux requecirctes lrsquoensemble des assertions de con-
cepts et des assertions de rocircles du mappingMdminusa deacutefini entre SNP-Ontology et le scheacutema S de labases de donneacutees consideacutereacutee
96 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
ndash (2) agrave partir des n-uplets reacuteponses aux requecirctes extraire et convertir les valeurs en celles correspon-dant au jeu drsquoattributs pivot
ndash (3) ajouter pour lrsquoensemble des quadruplets reacutesultant lrsquoensemble des assertions du mappingMdminusa S C ndash (4) enfin deacutefinir dans la lrsquoeacutequivalence entre le variant deacutecrit par ses attributs initiaux et le
variant deacutecrit par les attributs pivot
Le fait que SNP-Converter instancie dans la eacutegalement le jeu pivot permet de tester lrsquoeacutequivalencede deux variants dont les descriptions initiales eacutetaient diffeacuterentes mais dont la description pivot est iden-tique Le test drsquoeacutequivalence peut ecirctre consideacutereacute comme une extension proceacutedurale des meacutecanismes deraisonnement classiques Le reacutesultat de ce test aboutit agrave lrsquoenrichissement de la
Pour terminer notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctesdeMdminusa 1 etMdminusa 2 sur dbSNP et PharmGKB et les assertions associeacutees
Variant(135411387_01)Position(Chr6_18247207)hasPosition(135411387 Chr6_18247207)
(135411387Chr6 18247207AG) hasPositionminus(Chr6_18247207 135411387)Variation(A_G)hasVariation(135411387_01 A_G)hasVariationminus(A_G 135411387_01)
NonS ynonymousVariant(rs1800460_01)Position(8997479)hasPosition(rs1800460_01 8997479)
(rs18004608997479GgtA) hasPositionminus(8997479 rs1800460_01)Variation(A_G)hasVariation(rs1800460_01 A_G)hasVariationminus(A_G rs1800460_01)
Ainsi les deux attributs rsquoAGrsquo et rsquoGgtArsquo sont transformeacutes par les fonctions f3 et f6 en un mecircme nomdrsquoindividu rsquoA_Grsquo et permettent ainsi la creacuteation drsquoun seul individu identifieacute par lsquoA_Grsquo qui est instancedu concept Variation dans la
3 Expeacuterimentation 97
Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)
(135411387 S C sc1(Chr6 18247207) isLocatedOn(NC_000006 ch6_18247207_c_A_G)Chr6 18247207 rarr sc2(Chr6 18247207) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)AG) sc3(Chr6 18247207) Position(18247207)
sc4(AG) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)
Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)
(rs1800460 S C sc1(NT_007592) isLocatedOn(NC_000006 ch6_18247207_c_A_G)8997479 rarr sc2(8997479) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)GgtA) sc3(NT_007592) Position(18247207)
sc4(GgtA) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)
Les deux variants exemples sont convertis (S C) puis sont mis en correspondance par le mapping (Mdminusa S C)agrave des assertions qui font reacutefeacuterence agrave un mecircme variant En pratique le variant ch6_18247207_c_A_G estinstancieacute dans la une premiegravere fois Puis la connaissance sur lrsquoeacutequivalence entre le variant initial135411387_01 et le variant ldquopivotrdquo ch6_18247207_c_A_G est ajouteacute agrave la
135411387_01 ch6_18247207_c_A_G
(ou en OWL 135411387_01 owl sameAs ch6_18247207_c_A_G)
Ensuite lors du traitement de variant rs1800460_01 celui-ci est converti (SC) et mis en correspon-dance (Mdminusa S C) agrave la liste drsquoassertion relatives mais SNP-Converter veacuterifie dans la si le variant ldquopiv-otrdquo ch6_18247207_c_A_G lui correspondant est deacutejagrave repreacutesenteacute Si crsquoest le cas il nrsquoy est pas instancieacuteagrave nouveau et seule la connaissance sur leur eacutequivalence est ajouteacutee
rs1800460_01 ch6_18247207_c_A_G
Ceci permet drsquoinduire par un raisonnement baseacute sur la transitiviteacute de lrsquoopeacuterateur la connaissancesuivante
135411387_01 rs1800460_01
SNP-Converter a eacuteteacute utiliseacute dans le cadre drsquoune expeacuterimentation drsquointeacutegration meneacutee sur les varia-tions geacutenomiques speacutecifique au gegravene LDLR Les Figures 314 et 315 illustrent les reacutesultats obtenus Troisjeux de donneacutees ont eacuteteacute soumis au SNP-Converter Ceux-ci sont constitueacutes tout drsquoabord de deux basesde donneacutees priveacutees fournies par lrsquouniteacute UMRS 538 de lrsquoINSERM contenant 274 et 55 variants deacutecrits
98 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
suivant deux formes non-conventionnelles Ensuite le troisiegraveme jeu de donneacutees est constitueacute des vari-ants situeacutes sur le gegravene LDLR contenu dans dbSNP en format XML (377) Parmi les 706 (274+55+377)variants diffeacuterents utiliseacutes pour peupler la 634 sont consideacutereacutes comme des individus uniques ie
repreacutesenteacutes une seule fois dans la ) et 35 autres sont repreacutesenteacutes 2 ou 3 fois selon des repreacutesentationsdiffeacuterentes au sein de la reacutesultante Ces derniers variants sont donc originellement contenus dans 2 ou3 des jeux de donneacutees de deacutepart
55 377
SNPminusConverter
assertions
706 assertions =
274 variants du gegravene LDLR
existencedu variant
SNPminusKB634 individus originaux +
Base deBase dedbSNP
35 individus agrave eacutequivalents
umrs538donneacutees 1
umrs538donneacutees 2
F 314 ndash Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune basede connaissances relative aux variations geacuteneacutetiques du gegravene LDLR
244
224 5
4
346
44
dbSNP (377)
Base de donneacutees 1umrs538 (274) umrs538 (55)
Base de donneacutees 2
F 315 ndash Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees pourpeupler la base de connaissances SNP-KB
3 Expeacuterimentation 99
32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm
La pharmacogeacutenomique est un domaine drsquoeacutetude qui manipule des donneacutees complexes La consideacutera-tion de sous-domaines (la pharmacologie la biologie moleacuteculaire la meacutedecine clinique la geacuteneacutetique despopulations lrsquoeacutepigeacutenomique entre autres) aux outils objectifs et sources de donneacutees distincts constitueun premier facteur de complexiteacute Les multiples niveaux de granulariteacute entre ces sous-domaines voire ausein drsquoun sous-domaine sont eacutegalement facteurs de complexiteacute Nous pouvons ajouter que ces donneacuteessont freacutequemment interconnecteacutees
Ces diffeacuterents facteurs de complexiteacute justifient la construction drsquoun systegraveme drsquointeacutegration de donneacuteesrelatives agrave la pharmacogeacutenomique Une motivation suppleacutementaire vient du fosseacute existant entre drsquoun cocircteacuteles donneacutees sur les connaissances pharmacogeacutenomiques geacuteneacuterales et de lrsquoautre les observations cliniquesqui ont permis de connaicirctre ces relations Un tel manque de relations peut ecirctre observeacute dans la base dedonneacutees PharmGKB ougrave coexistent sans relation des associations gegravenendashmeacutedicamentndashmaladie et des jeuxde donneacutees patients contenant des donneacutees relatives aux geacutenotype pheacutentoype et traitement de patientsLe mecircme genre de lacune existe dans la base OMIM dont les entreacutees relatives aux maladies (survenantparfois dans le cadre drsquoun traitement) preacutesentent une section ldquoClinical Synopsisrdquo dont les donneacutees nesont pas relieacutees aux variations geacutenomiques associeacutees par exemple reacutefeacuterenceacutees dans dbSNP voire mecircmedans OMIM
iSO-Pharm (pour instanciate SO-Pharm en anglais) est un systegraveme qui integravegre selon la meacutethodeproposeacutee section 2 et dans le contexte drsquoune base de connaissances des sources de donneacutees pharma-cogeacutenomiques relatives drsquoune part aux relations connues entre geacutenotypendashmeacutedicamentndashpheacutenotype etdrsquoautre part agrave des donneacutees cliniques observeacutees chez des patients La Figure 316 repreacutesente lrsquoarchitecturede ce systegraveme Elle preacutecise les sources de donneacutees inteacutegreacutees le rocircle central de lrsquoontologie SO-Pharm etde mappings deacutefinis entre donneacutees (des sources) et assertions (associeacutees agrave SO-Pharm) Il faut noter quechaque jeu de donneacutees de PharmGKB inteacutegreacute neacutecessite la deacutefinition drsquoun mapping particulier de par lefait que chaque jeu est structureacute suivant un scheacutema particulier
F 316 ndash Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310
Lrsquoobjectif drsquoun tel systegraveme est drsquointeacutegrer agrave la fois des donneacutees cliniques (ie des donneacutees relativesau pheacutenotype et au geacutenotype de patients) et des donneacutees biologiques (ie enregistreacutees dans les bases dedonneacutees biologiques et souvent issues drsquoexpeacuterience en biologie moleacuteculaire) dans le cadre drsquoune detelle sorte qursquoil soit possible drsquoutiliser la seacutemantique associeacutee aux donneacutees pour lrsquoextraction de connais-sances en pharmacogeacutenomique Cet objectif est expeacuterimenteacute dans la section 24 du chapitre 4 La base de
100 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
lrsquoexpeacuterimentation deacutecrite dans cette section est justement le peuplement drsquoune pharmacogeacutenomique agravepartir
ndash de donneacutees cliniques de PharmGKB consigneacutees dans le cadre de lrsquoinvestigation clinique desreacuteponses de 61 patients asthmatiques agrave un meacutedicament appeleacute le montelukast et
ndash de donneacutees biologiques de PharmGKB dbSNP OMIM Gene57 et KEGG Pathway58Le peuplement de la associeacutee agrave cette expeacuterimentation megravene notamment agrave la creacuteation de 61 assertionsdu concept ldquopatientrdquo (deacutefini dans SO-Pharm) de 127 assertions du concept ldquoclinical_itemrdquo ou de sesdescendants et des nombreuses assertions du rocircle ldquopresents_clinical_itemrdquo qui permet drsquoassocier lesinstances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacutement aux reacutesultats de lrsquoinvestigation clin-ique Les donneacutees biologiques permettent de creacuteer des assertions de concepts et de rocircles relatives auxvariations geacutenomiques aux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques
57httpwwwncbinlmnihgovsitesentrezdb=gene58httpwwwgenomejpkeggpathwayhtml
4 Discussion 101
4 Discussion
Il est possible de confronter deux faccedilons de conceptualiser des connaissances la premiegravere part desdonneacutees pour deacutefinir des concepts crsquoest en un sens le cas des meacutethodes semi-automatiques de construc-tion drsquoontologie la seconde quant agrave elle part des concepts eux-mecircmes auxquels des donneacutees peuvent ecirctreassocieacutees par la suite Cette derniegravere est plus proche drsquoune construction manuelle dirigeacutee par les connais-sances drsquoun expert Une mise en perspective proposeacutee et illustreacutee dans lrsquointroduction de la thegravese de SRudolph fait le lien entre ces deux faccedilons de conceptualiser le monde et les doctrines philosophiquesinspireacutees des penseacutees drsquoAristote et Platon lrsquoempirisme et le rationalisme [Rud06]
Un premier choix fort fait dans cette thegravese est celui drsquoopter pour une construction manuelle des on-tologies Nous justifions celui-ci par deux arguments Premiegraverement les constructions drsquoontologies quenous avons meneacutees sont orienteacutees vers deux objectifs preacutecis qui sont lrsquointeacutegration de donneacutees et la deacutecou-verte de connaissances Nous pensons que lrsquoutilisation de meacutethodes de construction semi-automatiquesagrave partir de donneacutees ou de textes introduisent un biais dans la repreacutesentation des connaissances trop con-traignant vis agrave vis de nos objectifs Notons que les bio-ontologies partageacutees sur les portails OBO-Foundryet BioPortal sont construites manuellement Un second argument allant contre une construction semi-automatique est que les sources de donneacutees disponibles en pharmacogeacutenomique ne recouvrent chacuneque partiellement ce domaine en rapide eacutevolution
En revanche nous consideacuterons lrsquoutilisation des donneacutees et des textes comme le mode principal drsquoeacute-valuation de la construction En effet le fait que les concepts et rocircles drsquoune ontologie permettent larepreacutesentation des connaissances informelles contenues dans les bases de donneacutees et les textes est in-dispensable agrave lrsquoaccomplissement de nos deux objectifs (inteacutegration de donneacutees et deacutecouverte de con-naissances) Crsquoest principalement par le test de cette capaciteacute agrave repreacutesenter les connaissances que sonteacutevalueacutees SNP-Ontology et SO-Pharm
En ce qui concerne lrsquoarticulation des ontologies existantes avec les ontologies construites nous avonsaussi preacutefeacutereacute deacutefinir manuellement la liste drsquoaxiomes qui deacutecrivent les relations entre concepts de dif-feacuterentes ontologies Les raisons de ce choix sont similaires agrave celles qui motivent le choix drsquoune construc-tion manuelle Il est possible de consideacuterer cette liste drsquoaxiomes comme une TBox agrave part entiegravere (ie uneontologie indeacutependante) Sur le plan theacuteorique crsquoest notamment ce qui semble le plus pertinent car celaeacutevite drsquoavoir agrave incorporer des concepts externes dans lrsquoontologie garantissant ainsi son inteacutegriteacute (aussibien que celle des ontologies articuleacutees) Ceci eacutevite eacutegalement drsquoimporter une ontologie volumineuselorsque seules certaines branches de sa hieacuterarchie sont utiles Cependant cela impose une modularisa-
tion des ontologies qui nrsquoest pas geacutereacutee actuellement par les outils standards utiliseacutes pour la constructiondrsquoontologies tels que OWL ou Proteacutegeacute La solution que nous avons adopteacutee est ainsi lrsquoimportation des on-tologies articuleacutees dans leur globaliteacute comme lrsquoautorisent ces outils Associeacutes agrave cette probleacutematique lestravaux reacutecents de Konev et al proposent de deacutefinir des modules drsquoontologies en qui pourraient ecirctreextraits et utiliseacutes indeacutependemment [KLWW08] Ceci permettrait drsquoutiliser les meacutecanismes de raison-nement sur SO-Pharm de faccedilon moins contraignante
Les propositions reacutecentes concernant la repreacutesentation du temps en sont des progregraves eacutegalementprofitables agrave la formalisation de domaines comme la pharmacogeacutenomique et par conseacutequent profitablesaux futures versions de SO-Pharm [BGL08 LWZ08]
Lrsquoutilisation drsquoontologies pour lrsquointeacutegration de donneacutees est freacutequemment discuteacutee dans la litteacuterature[CG05] Notre motivation pour ce choix est ici renforceacutee par le fait que le second objectif de notretravail qui fait suite agrave lrsquointeacutegration de donneacutees est lrsquoeacutetude de lrsquoutilisation de connaissances formaliseacuteespour guider la deacutecouverte de connaissances (preacutesenteacutee chapitre 4)
La meacutethode drsquointeacutegration que nous proposons peut ecirctre consideacutereacutee comme un intermeacutediaire entre uneapproche meacutediateur et une approche entrepocirct En effet elle est comparable agrave une approche entrepocirct dans
102 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique
le sens ougrave les reacutesultats de lrsquointeacutegration sont mateacuterialiseacutes puis reacuteutiliseacutes notamment pour ecirctre analyseacutes(voir chapitre 4) Neacuteanmoins nous la comparons eacutegalement agrave lrsquoapproche meacutediateur pour souligner (1) lefait que les donneacutees manipuleacutees restent dans les sources drsquoorigine ce qui est mateacuterialiseacute est un ensembledrsquoassertions et (2) lrsquoaspect dynamique de lrsquoinstanciation de lrsquoontologie qui srsquoeffectue en reacuteponse agrave unerequecircte et permet de cette faccedilon de creacuteer des diffeacuterentes en reacuteponse agrave diffeacuterentes requecirctes
Dans sa thegravese soutenue en 2007 F Saiumls deacutecrit une approche drsquointeacutegration seacutemantique fondeacutee surun enrichissement seacutemantique des donneacutees [Saiuml07] Cet enrichissement consiste en lrsquoajout de termesdeacutecrivant les concepts et rocircles drsquoune ontologie pour annoter les donneacutees Lrsquoassociation donneacuteendashterme estalors reacutealiseacutee au travers drsquoun scheacutema XML speacutecifique Le systegraveme drsquointeacutegration prend ensuite comptedes annotations pour inteacutegrer les donneacutees entre elles Pour utiliser un vocabulaire comparable agrave celui deF Saiumls nous pouvons dire non pas que notre approche enrichit les donneacutees agrave lrsquoaide de connaissancesmais qursquoinversement nous enrichissons des connaissances agrave lrsquoaide de donneacutees Dans ce sens lrsquoajout dansune drsquoassertions de concepts et de rocircles preacutealablement associeacutees agrave des donneacutees dans des mappingspeut ecirctre consideacutereacute comme un enrichissement de la
Les contributions preacutesenteacutees dans ce chapitre ont donneacute lieu agrave deux publications La premiegravere preacutesenteSNP-Converter et la seconde expose les meacutethodes associeacutees agrave la construction et agrave la validation de lrsquoon-tologie SO-Pharm [CSTB+06 CSTND06]
Ce chapitre preacutesente une approche drsquointeacutegration de donneacutees centreacutee sur une base de connaissances() dont le reacutesultat consiste en le peuplement de cette Lrsquoobjectif de cette inteacutegration est non seulementdrsquointeacutegrer des donneacutees issues de sources heacuteteacuterogegravenes mais eacutegalement de leur associer une seacutemantiquedeacutefinie dans le cadre de la repreacutesentation des connaissances relatives agrave leur domaine De fait cette seacute-mantique est utile pour inteacutegrer les donneacutees mais nous inteacuteresse plus particuliegraverement pour ameacuteliorerles reacutesultats drsquoun processus drsquoextraction de connaissances agrave partir des donneacutees inteacutegreacutees Nous abordonsdans le chapitre suivant (chapitre 4) la faccedilon dont une peut ecirctre associeacutee agrave un processus drsquo pouren faciliter chacune des eacutetapes mais aussi comment elle peut ecirctre utiliseacutee comme eacuteleacutement central drsquountel processus en appliquant les meacutethodes de fouille sur son contenu afin de beacuteneacuteficier des connaissancesaussi bien que des donneacutees disponibles
Chapitre 4
Extraction de connaissances dans lecontexte drsquoune Base de Connaissances
Nous avons deacutefini et illustreacute la notion drsquoExtraction de Connaissances guideacutee par les Connaissances
du Domaine () dans le chapitre 2 section 4 Dans ce chapitre nous proposons et expeacuterimentons unemeacutethode drsquo dans laquelle les connaissances du domaine sont utiliseacutees pour guider lrsquoeacutetape de seacutelec-
tion de donneacutees du processus (section 1) Ensuite nous introduisons la notion nouvelle drsquoExtraction deConnaissances agrave partir drsquoune Base de Connaissances () que nous proposons comme une approcheparticuliegravere drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine (section 2) Nouspreacutesentons une meacutethode particuliegravere drsquo appeleacutee Analyse des Assertions de Rocircles () qui explore lesreacutegulariteacutes existant dans les instanciations des rocircles drsquoune en pour en extraire de nouvelles connais-sances (23) Nous illustrons cette meacutethode par une expeacuterimentation pour la deacutecouverte de connaissancesen pharmacogeacutenomique 24 Enfin la section 3 est une discussion de lrsquoutilisation des connaissances pourla deacutecouverte de connaissances
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine
Dans cette section 1 nous proposons une meacutethode de seacutelection de donneacutees guideacutee par les connais-sances Celle-ci repose sur la deacutefinition de diffeacuterents ensembles de mappings entre des sources de don-neacutees et une Lrsquoapport principal de cette meacutethode est de guider lrsquoanalyste dans la seacutelection de donneacuteesagrave lrsquoaide
ndash de donneacutees disponibles dans un ensemble de sources de donneacutees heacuteteacuterogegravenes connexes au domaineeacutetudieacute
ndash de lrsquoexpressiviteacute des langages de et des meacutecanismes de raisonnement qui leur sont associeacutes
11 Motivation
Les meacutethodes de fouille de donneacutees et plus particuliegraverement les meacutethodes symboliques geacutenegraverentdes reacutesultats volumineux redondants et complexes Il en reacutesulte une phase drsquointerpreacutetation longue etfastidieuse qui limite le succegraves de lrsquoapproche
Ce problegraveme met en avant lrsquoimportance de la premiegravere eacutetape de lrsquo qursquoest la preacuteparation desdonneacutees De cette eacutetape deacutepend la suite du processus depuis le parameacutetrage et le temps de calcul ausuccegraves mecircme de lrsquoextraction de connaissance utiles Dans le cadre de la deacutecouverte de connaissances
103
104 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
en pharmacogeacutenomique Altman et Klein [AK02] soulignent lrsquoimportance du choix de sous-ensemblesde donneacutees parmi la montagne de donneacutees post-geacutenomiques disponibles La reacuteduction des donneacutees agraveprendre en compte pour la fouille a une influence directe sur le volume et la pertinence des reacutesultatsCette reacuteduction est drsquoautant plus cruciale en biologie que les sources de donneacutees sont de plus en plusnombreuses et volumineuses [Bat08]
Reacuteduire la quantiteacute de donneacutees agrave fouiller par une opeacuteration de seacutelection permet de prendre en compteles connaissances (subjectives) des experts avant drsquoeffectuer la fouille (voir chapitre 2 section 123)Lrsquoobjectif drsquoune telle seacutelection est de reacuteduire le temps de calcul et le volume des reacutesultats produits sansen eacuteliminer les eacuteleacutements inteacuteressants ce qui facilite indirectement lrsquointerpreacutetation Il srsquoagit donc drsquoeacutelim-iner progressivement et en accord avec les objectifs de la fouille les eacuteleacutements redondants triviaux etdeacutenueacutes drsquointeacuterecirct Les connaissances alors utiliseacutees le sont habituellement de faccedilon manuelle agrave partir deconnaissances propres agrave lrsquoanalyste et des informations qursquoil peut collecter dans les bases de donneacutees
Lrsquoutilisation de systegravemes empiriques baseacutes sur des meacutethodes statistiques etou drsquoapprentissage est unpremier moyen drsquoassister lrsquoanalyste dans la seacutelection de donneacutees Une vue drsquoensemble de ces meacutethodesest proposeacutee dans [SIL05] ainsi que dans la section 1 du chapitre 2
Dans cette derniegravere section il est question drsquoun second moyen drsquoassister lrsquoanalyste par lrsquoutilisationde connaissances cependant les connaissances utiliseacutees ne sont jamais repreacutesenteacutees dans un formalismequi permette la mise en œuvre de meacutecanismes de raisonnement Ce qui nous inteacuteresse ici est justementlrsquoutilisation de connaissances dans le cadre de systegravemes de seacutelection de donneacutees avec comme objectifde tirer parti des connaissances formaliseacutees dans une en afin de guider agrave la fois le systegraveme (pardes meacutecanismes de raisonnement) et celui qui le pilote Le sceacutenario drsquoextraction de connaissances enbiologie exposeacute ci-apregraves illustre la distinction entre le rocircle des connaissances de lrsquoexpert le contenu debases de donneacutees et lrsquoutilisation drsquoune
variable_clin01 variable_clin m variant01 variant02 variant p
patient01
patient02
patient n
T 41 ndash Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario
Sceacutenario drsquoextraction de connaissancesUn biologiste eacutetudie la pharmacogeacutenomique lieacutee au traitement de lrsquoHypercholesteacuteroleacutemie Familiale (HF)agrave partir de donneacutees biologiques et geacutenomiques pour un panel de patients traiteacutes Le jeu de donneacutees dont
il dispose preacutesente pour chaque patient un ensemble de variables cliniques et plus de 500 geacutenotypes de
variants geacutenomiques localiseacutes sur diffeacuterents gegravenes (Tableau 41)
Pour seacutelectionner un sous-ensemble de donneacutees le biologiste peut utiliser
sa propre connaissance pour seacutelectionner les reacutegions du geacutenome ougrave les variants sont susceptibles de
lrsquointeacuteresser les gegravenes impliqueacutes dans lrsquoHF (LDLR APOE APOB LPL) et plus particuliegraverement
les exons les promoteurs et les reacutegions flanquantes des exons de ces gegravenes Cependant le biolo-
giste est incapable sur la base de sa seule connaissance drsquoassocier aux variants les reacutegions sur
lesquels ils sont situeacutes
le contenu de bases de donneacutees par exemple Genome Browser ou dbSNP lui permettent drsquoidentifier
parmi les variants exploreacutes dans son panel lesquels sont localiseacutes dans les reacutegions qui lrsquoin-
teacuteressent
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 105
lrsquoutilisation drsquoune Base de Connaissances lui permet potentiellement de savoir que les gegravenes en re-
lation avec la pharmacogeacutenomique de lrsquoHF sont plus nombreux et incluent eacutegalement les gegravenes
MTTP et ESR1 Il peut alors seacutelectionner les variants localiseacutes sur sa nouvelle liste de gegravenes sans
passer par une base de donneacutees Le biologiste peut eacutegalement observer qursquoil existe au sein des
variants des sous-ensembles pertinents les tag-SNP et les variants non-synonymes qursquoil peut
eacutegalement isoler directement gracircce agrave la Il peut seacutelectionner les variants des gegravenes qui codent
pour des proteacuteines impliqueacutees dans les reacuteactions du meacutetabolisme de lrsquoatorvastatine59 ou plus
geacuteneacuteralement du meacutetabolisme drsquoune statine (classe agrave laquelle appartient lrsquoatorvastatine)
Parce qursquoelle integravegre et structure les connaissances du domaine auquelle elle rattache les donneacuteesbrutes qursquoelle utilise un formalisme expressif et parce qursquoelle peut ecirctre associeacutee agrave des meacutecanismes deraisonnement la est un outil preacutecieux pour guider lrsquoanalyste dans un processus semi-automatique deseacutelection de donneacutees
Lrsquoanalyste aussi expert soit-il peut tirer parti de la repreacutesentation des connaissances encyclopeacutediquesdrsquoune ontologie pour orienter ses choix lors de la seacutelection De plus la somme de connaissances disponibleslaisse envisager que des tacircches demandant moins drsquoexpertise (comme par exemple la tacircche de seacutelectionmoins ldquopointuerdquo que la tacircche drsquointerpreacutetation) puissent ecirctre reacutealiseacutee par un analyste dont le niveau drsquoex-pertise est infeacuterieur mais capable de srsquoappuyer sur le reacuteferentiel deacutejagrave existant (ie la )
12 Meacutethode proposeacutee
La meacutethode preacutesenteacutee ici a pour objectif lors de lrsquoeacutetape de preacuteparation dans un processus drsquodrsquoaider lrsquoanalyste agrave seacutelectionner un sous-ensemble pertinent de donneacutees agrave fouiller que lrsquoensemble com-plet Cette approche se veut indeacutependante de la suite du processus et notamment de la meacutethode de fouilleutiliseacutee
Le principe est de permettre agrave lrsquoanalyste de faire cette seacutelection en prenant en compte les connais-sances du domaine formaliseacutees dans une preacutealablement deacuteveloppeacutee Pour cela un mapping entrechaque base de donneacutees consideacutereacutee et la doit ecirctre reacutealiseacute en collaboration avec un expert du domaineLa figure 41 deacutecrit les quatre eacutetapes principales de lrsquoapproche
1 La premiegravere est lrsquoinstanciation de la Celle-ci se fait suivant la meacutethode deacutecrite dans le chapitre 3section 2 ie sur la base de mappings deacutefinis entre les scheacutemas de bases de donneacutees et lrsquoontologieCes mappings sont exploiteacutes par des wrappers qui instancient les concepts et rocircles de lrsquoontologie agravepartir des tuples des bases de donneacutees consideacutereacutees Cette phase peut neacutecessiter diverses opeacuterationsde nettoyage et de transformation des donneacutees
2 La deuxiegraveme eacutetape consiste en la deacutefinition drsquoun jeu de donneacutee initial ensemble de donneacutees extraitdrsquoune ou plusieurs bases de donneacutees qui constite lrsquoensemble initial de donneacutees agrave analyser
3 Lrsquoeacutetape suivante est la deacutefinition drsquoun mapping entre la et le jeu de donneacutee initial Ce mappingnrsquoest pas deacutefini manuellement mais est deacuteduit des deux premiegraveres eacutetapes Son objectif est de per-mettre la reacutepercussion drsquoune seacutelection drsquoindividus dans la en une reacuteduction en largeur (ie dunombre drsquoattributs) ou en longueur (ie des tuples) du jeu de donneacutees initial
4 La derniegravere eacutetape est la seacutelection par lrsquoanalyste drsquoun ensemble drsquoindividus de la menant ainsiagrave la reacuteduction du jeu de donneacutee initial en un jeu de donneacutees reacuteduit Lrsquoanalyste ne seacutelectionne pasdirectement des donneacutees mais des individus de la agrave lrsquoaide du contenu des TBox et ABox Il estensuite possible gracircce au mapping preacuteceacutedent de faire correspondre agrave la seacutelection drsquoindividus uneseacutelection de donneacutees
59Lrsquoatorvastatine est un meacutedicament de la classe des statines preacutescrit notamment pour preacutevenir la survenue drsquoaccidentscardio-vasculaires
106 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 41 ndash Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances
Finalement le jeu de donneacutees reacuteduit peut ecirctre soumis aux eacutetapes suivantes de lrsquo la fouille etlrsquointerpreacutetation Les quatre eacutetapes de la meacutethode de seacutelection proposeacutee sont deacutetailleacutees dans la suite decette section Celles-ci font notamment intervenir trois mappings positionneacutes Figure 42
121 Instanciation de la
La premiegravere eacutetape drsquoinstanciation de la suit la meacutethode drsquointeacutegration guideacutee par une ontologieproposeacutee chapitre 3 section 2
Pour chaque base de donneacutees consideacutereacutee en entreacutee du processus drsquo un mapping entre le scheacutemade la base de donneacutees et les concepts rocircles et individus de lrsquoontologie doit ecirctre deacutefini par un expert dudomaine Ce mapping suit la deacutefinition 31 du mapping donneacutees-assertionsMdminusa deacutecrit dans le chapitre3
Il reacutesulte de ce processus une instancieacutee agrave partir des donneacutees des bases de donneacutees consideacutereacutees
122 Deacutefinition du jeu de donneacutees initial
Le jeu de donneacutees initial est deacutefini comme un ensemble de n-uplets suivant une relation n-aire uniqueRinit(B1 B2 Bm) Les attributs Bi de Rinit peuvent ecirctre issus de diffeacuterentes bases de donneacutees crsquoestpourquoi la deacutefinition du jeu de donneacutees initial neacutecessite la deacutefinition drsquoun mapping entre les scheacutemasdes bases de donneacutees consideacutereacutees pour lrsquo et la relation du jeu de donneacutees initial
Deacutefinition 41 (Mapping donneacutees ndash donneacutees) Soit un quadruplet (SMdminusdHRinit) ougrave
ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2
An) et de domainenprod
i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di
ndash Rinit est la relation n-aire unique qui deacutecrit le jeu de donneacutees initial Rinit(B1 B2 Bm)
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 107
ndash Mdminusd est une association entre les donneacutees de la base de donneacutees de scheacutema S et les donneacutees du
jeu de donneacutee initial structureacutees selon son unique relation Rinit
Φ Υ (41)
ougrave Φ est une requecircte relationnelle arbitraire sur la base de donneacutees de scheacutema S et Υ est un
ensemble drsquoinsertions de tuples dans la relation unique Rinit du jeu de donneacutees initial
ndash Enfin H un ensemble de fonctions de la forme hi(v) applicables aux diffeacuterentes valeurs reacutesultant
des requecirctes Φ pour les transformer dans le format de valeurs adeacutequat agrave leur insertion dans Rinit
deacutecrit dans Υ
Exemple Soit deux relations Rclinique et Rgenetique issues de deux bases de donneacutees dont on souhaiteextraire une partie des donneacutees pour constituer le jeu de donneacutees initial qui suit la relation Rinit
Rclinique (Patient_id Age LDL_c HDL_c TG_c xanthome arc_corneen)Rgenetique (Patient_id rs28942078 rs28942079 rs28942080)
Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)
Deux exemples de mappings possiblesMdminusd associent une requecircte SQL sur Rclinique ou Rgenetique agraveune insertion dans Rinit
Mdminusd 1 SELECT Patient_id LDL_c INSERT INTO Rinit(Patient_id LDL_c_mgl xanthome)xanthome VALUES (h1(Patient_id) h2(LDL_c) h3(xanthome))
FROM Rclinique
WHERE Age ge 18
Mdminusd 2 SELECT Patient_id rs28942078 INSERT INTO Rinit(Patient_id rs28942078 rs28942079rs28942079 rs28942080 rs28942080)
FROM Rgenetique VALUES (h1(Patient_id) h4(rs28942078)h4(rs28942079) h4(rs28942080))
Un tel mapping preacutesente lrsquoavantage de permettre de deacutefinir un jeu de donneacutees initial agrave partir dedonneacutees issues de diffeacuterentes bases et de permettre leur transformation Le mapping Mdminusd 1 met enœuvre une transformation de donneacutees entre autres par lrsquoutilisation de la fonction gprime qui transforme lesvaleurs de concentration en LDL cholesteacuterol circulant en mollminus1 ie lrsquoattribut LDL_c en valeurs de lamecircme mesure mais avec une uniteacute diffeacuterente le mglminus1 ie lrsquoattribut LDL_c_mgl
Lrsquoensemble des mappings Mdminusd impliquant les bases de donneacutees consideacutereacutees dans le processusdrsquo permet de constituer le jeu de donneacutees initial Celui-ci peut ecirctre vu comme un tableau dont lescolonnes seraient les attributs et les lignes seraient les n-uplets de la relation Rinit En suivant lrsquoexemplepreacuteceacutedent ce tableau est conforme agrave la forme geacuteneacuterale proposeacutee dans le Tableau 41
R Pour ecirctre tout agrave fait complet dans la description de la seacutelection de donneacutees il faut noterlrsquoexistence drsquoune premiegravere eacutetape de seacutelection preacutealable agrave lrsquoapproche que nous deacutecrivons Celle-ci con-siste dans le choix des bases de donneacutees agrave consideacuterer pour lrsquo Nous ne la discutons pas dans cetravail
108 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
123 Mapping entre la et le jeu de donneacutees initial
Les deux premiers mappings entre donneacutees et assertions puis entre donneacutees et donneacutees permettent dedeacuteduire un mapping entre les donneacutees du jeu de donneacutees initial et les individus de lrsquoontologie Lrsquoinversionde ce mapping fournit une correspondance entre certains individus de la et lrsquoensemble des attributs etn-uplets du jeu de donneacutees initial
Lrsquoeacutetablissement du mapping entre la et le jeu de donneacutees srsquoappuie sur le fait que le jeu de don-neacutees initial est constitueacute agrave partir de sous-ensembles de donneacutees qui ont servi agrave instancier la Drsquounemaniegravere informelle la deacuteduction du mapping suit les phases suivantes dans un premier temps le map-ping donneacuteesndashassertionsMdminusa geacuteneacuteral est reacuteduit aux seules donneacutees du jeu de donneacutees initial ensuitedepuis le mapping reacuteduit sont extraites des associations entre attributs du jeu de donneacutees et individusde la Ces associations sont finalement inverseacutees sous forme de relations entre individus et attributsSi un individu est associeacute agrave lrsquoattribut cleacute du jeu de donneacutees lrsquoassociation individu-attribut est eacutetendue agravelrsquoensemble du tuple
Ces phases peuvent ecirctre formaliseacutees selon les deacutefinitions suivantes
Deacutefinition 42 (Mapping donneacutees ndash assertions indirect) A partir des deux quadruplets (SMdminusa FO)et (SMdminusdHRinit) suivant les deacutefinitions 31 et 41 nous deacutefinissons le quintuplet intermeacutediaire
(RinitMdminusa FHO)
ougrave
ndash Mdminusa est lrsquoassociation entre les donneacutees du jeu de donneacutees initial et un ensemble drsquoassertions de
lrsquoontologie O
Φ Ψ
ougrave Φ est une requecircte relationnelle arbitraire sur la relation Rinit etΨ est un ensemble drsquoassertions
de concepts et drsquoassertions de rocircles de lrsquoontologie O
ndash Enfin un ensemble de fonctions composeacutees agrave partir des ensembles H et F de la forme fi(hminus1j
(v))applicables aux diffeacuterents types de valeurs v reacutesultant des requecirctes Φ sur le jeu de donneacutees initial
pour les transformer en noms drsquoindividus dans Ψ h j(v) est une fonction de transformation des
valeurs v issues des bases de donneacutees consideacutereacutees en leur format dans le jeu de donneacutee initial
(voir deacutefinition 41) hminus1j
(v) est lrsquoinverse de cette fonction fi(v) est une fonction de transformation
des valeurs v reacuteponses de Φ en noms drsquoindividus (voir deacutefinition 31)
Deacutefinition 43 (Mapping donneacutees ndash individus) Soit (RinitMdminusi FHO) un autre quintuplet suivant la
deacutefinition 42 avecMdminusi un mapping extrait deMdminusa qui est deacutefini comme un ensemble drsquoassociations
1 n entre un attribut Bi de la relation Rinit du jeu de donneacutees initial et un ou plusieurs individus a j de O
Bi a j
Les attributs Bi peuvent ecirctre indiffeacuteremment des cleacutes de la relation Rinit ou non
La deacutefinition de ce mapping permet que chaque n-uplet (ie chaque cleacute) et que chaque attribut du jeude donneacutees initial soit associeacute agrave un ou plusieurs individus de la
Deacutefinition 44 (Mapping individus ndash donneacutees) Selon la deacutefinition 43 du quintuplet (RinitMdminusi FHO)nous deacutefinissons le quintuplet (RinitMiminusd FHO) ougrave
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 109
ndash Miminusd inverse deMdminusi (Mdminusi =Mminus1iminusd
) est un ensemble drsquoassociations binaires bijectives (1 1)
entre un individu de la et un attribut Bi du jeu de donneacutees initial
a Bi
Bi peut ecirctre une cleacute de la relation Rinit
Exemple Une partie du mapping Mdminusi deacuteduit entre Rinit (voir lrsquoexemple de la section 122) et lrsquoon-tologie SNP-Ontology est
Patient_id f1 (hminus11 (Patient_id)) = patient_id
LDL_c_mgl f2 (hminus12 (LDL_c_mgl)) = f2 hminus1
2 (LDL_c_mgl)) = f2 (LDL_c) = ldl_c_mol_lxanthome f3 (hminus1
3 (xanthome)) = xanthome
rs28942076 f4 (hminus14 (rs28942076)) = rs28942076_01
Si lrsquoon observe le mapping proposeacute pour lrsquoattribut LDL_c il faut drsquoabord rappeler que lrsquoattribut LDL_c de larelation Rclinique avait eacuteteacute transformeacute par la fonction h2 en LDL_c_mgl dans Rinit hminus1
2 assure ainsi la premiegraveretransformation inverse pour retrouver le format originel de lrsquoattribut LDL_c Ensuite la fonction g permetde transformer les valeurs de lrsquoattribut en noms drsquoindividus dans la ie ldl_c_mol_l
La partie correspondante du mapping inverseMiminusd entre individus et attributs est simplement
patient_id Patient_id
ldl_c_mol_l LDL_c_mgl = h2 f minus12 (ldl_c_mol_l)
xanthome xanthome
rs28942076_01 rs28942076
La Figure 42 positionne les mappingsMdminusaMdminusdMiminusd deacutefinis pour la seacutelection drsquoun jeu de don-neacutees guideacutee par les connaissances du domaine ainsi que la forme des fonctions utiliseacutees pour transformerles valeurs drsquoattributs en nom drsquoindividus
124 Seacutelection drsquoindividus et reacuteduction du jeu de donneacutees initial
La reacuteduction du jeu de donneacutees initial repose sur une seacutelection reacutealiseacutee par lrsquoanalyste drsquoindividusde la Pour cela lrsquoanalyste deacutecrit un concept C0 agrave partir des concepts et des rocircles de lrsquoontologie Leconcept C0 peut ainsi ecirctre explicitement deacutefini dans lrsquoontologie ou correspondre agrave la description drsquounnouveau concept (impliquant connecteurs logiques concepts rocircles et individus) ou mecircme le concept ⊤Le meacutecanisme de raisonnement de recherche drsquoinstances (instance retrieval en anglais) permet ensuitedrsquoindiquer quels sont les individus instances de C0
Deacutefinition 45 (A0) SoitA0 lrsquoensemble des individus a instances de C0 tels que
a isin A0 si O C0(a) (42)
Les technologies du Web seacutemantique proposent diffeacuterents langages de requecircte qui permettent de retrouverles individus instances drsquoun concept drsquoune ontologie comme par exemple SPARQL
Crsquoest lorsqursquoil seacutelectionne ainsi des individus dans la que lrsquoanalyste peut beacuteneacuteficier des connais-sances formaliseacutees dans lrsquoontologie
110 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 42 ndash Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings Mdminusa
sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de Connaissance Les mappingMdminusd sontdeacutefinis entre les scheacutemas des bases de donneacutees et la relation du jeu de donneacutees intial Le mappingMiminusd
est deacuteduit des deux preacuteceacutedents Les fonctions symboliques associeacutees aux mappings sont repreacutesenteacutees Laforme geacuteneacuterale des fonctions associeacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j
ndash Lrsquoanalyste peut utiliser la hieacuterarchie de concepts pour seacutelectionner un ensemble drsquoindividus in-stances drsquoun concept plus ou moins speacutecifique La seacutelection progressive de concepts de plus enplus speacutecifiques au fur et agrave mesure des diffeacuterentes iteacuterations du processus permet de circonscrireun type drsquoindividu afin drsquoen eacutetudier les proprieacuteteacutes propres A lrsquoinverse il est possible de seacutelection-ner des concepts de plus en plus geacuteneacuteraux afin de valider la geacuteneacuteraliteacute drsquoune proprieacuteteacute mise eneacutevidence sur un ensemble restreint drsquoindividus
ndash Lrsquoanalyste peut utiliser les rocircles et les restrictions associeacutees pour seacutelectionner des individus preacutesen-tant des proprieacuteteacutes particuliegraveres
Une fois les individus seacutelectionneacutes le jeu de donneacutees peut ecirctre reacuteduit agrave lrsquoaide de A0 et du mappingindividu-donneacuteesMiminusd selon les regravegles deacutefinies comme suit
Deacutefinition 46 (Regravegles de reacuteduction) Soit Bi un attribut drsquoune relation Rinit a un individu drsquoune ontolo-
gie O le quintuplet (RinitMiminusd FHO) comme donneacute dans la deacutefinition 44 et un ensemble drsquoindividus
A0 instances drsquoun concept C0 Si
a Bi isin Miminusd
a lt A0 et
Bi cle de Rinit
(43)
alors le n-uplet dont Bi est la cleacute est supprimeacute du jeu de donneacutees initial
De faccedilon similaire si
a Bi isin Miminusd
a lt A0 et
Bi non cle de Rinit
(44)
alors lrsquoattribut Bi est supprimeacute du jeu de donneacutees initial
En fonction du type drsquoindividus seacutelectionneacutes le jeu de donneacutees est reacuteduit selon une dimension ou uneautre
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 111
Exemple Si le concept initial C0 est deacutefini par lrsquoanalyste comme suit
C0 equiv administrative_item ⊔ phenotype_item
pour les quatres individus impliqueacutes dans le mappingMiminusd proposeacute dans lrsquoexemple preacuteceacutedent les meacute-canismes de raisonnement sur SNP-Ontology donne les reacutesultats suivant
SNP-Ontology C0(patient_id)SNP-Ontology C0(ldl_c_mol_l)SNP-Ontology C0(xanthome)SNP-Ontology 2 C0(rs28942076_01)
alorspatient_id ldl_c_mol_l xanthome isin A0
rs28942076_01 lt A0
et si lrsquoon considegravere lrsquoensemble desMdminusiA0 et Rinit qui deacuteteacutermine les regravegles de reacuteduction seul lrsquoindividurs28942076_01 est inclu dans le mapping mais pas dans la seacutelection drsquoinstance
rs28942076_01 rs28942076 isin Miminusd
rs28942076_01 lt A0 et
rs28942076 non cle de Rinit
En conseacutequence lrsquoattribut rs28942076 de Rinit est supprimeacute En revanche les attributs Patient_id LDL_c_mglxanthome sont conserveacutes pour constituer une nouvelle relation Rreduit Les autres attributs de Rinit relatif augeacutenotype sont eacutegalement supprimeacutes de la relation du jeu de donneacutees initial Au final la transistion entreRinit et le schema Rreduit du jeu de donneacutee reacuteduit est
Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)
darr
Rreduit (Patient_id LDL_c_mgl xanthome)
Les sceacutenarios preacutesenteacutes dans la section 13 illustrent lrsquoutilisation par un biologiste des connaissances dudomaine pour reacuteduire en limitant la perte drsquoinformation le nombre de n-uplets ou drsquoattributs dans le jeude donneacutees initial
13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype
131 Motivation
Nous preacutesentons dans cette section des sceacutenarios drsquoutilisation de notre approche de seacutelection dedonneacutees guideacutee par les connaissances pour la recherche de relations geacutenotypendashpheacutenotype introduiteschapitre 1 section 13
Lrsquoapproche que nous proposons pour guider lrsquoanalyste dans sa seacutelection de donneacutees vise agrave srsquoappuyerde faccedilon semi-automatique sur les connaissances disponibles du domaine Ceci se justifie pleinement enbiologie ougrave de plus en plus drsquoontologies sont construites et rendues disponibles sur Internet comme surles portails OBO Foundry et Bioportal eacutevoqueacutes chapitre 2 section 34
Afin drsquoalleacuteger la lecture les mappings deacutefinis pour cette expeacuterimentation et ayant donneacute lieu audeacuteveloppement de wrappers ne sont pas repreacutesenteacutes Cependant des exemples de ces mappings ont eacuteteacuteproposeacutes dans la section preacuteceacutedente (section 12)
112 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 43 ndash Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie larecherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF
132 Hypercholesteroleacutemie Familiale sources de donneacutees et de connaissances
Notre expeacuterimentation srsquoinscrit dans le cadre de la recherche de nouvelles connaissances relatives agravelrsquohypercholesteacuteroleacutemie familiale (HF) LrsquoHF est un deacutesordre meacutetabolique drsquoorigine geacuteneacutetique autosomaldominant causeacute par diffeacuterentes mutations du gegravene LDLR [BDdG94] Elle est caracteacuteriseacutee principalementpar une augmentation importante de la concentration en cholesteacuterol LDL (Low Density Lipoprotein) dansle sang
Lrsquoobjectif du processus drsquo mis en oeuvre ici est drsquoextraire des relations entre des variants
geacutenomiques (ie le geacutenotype) et des traits pheacutenotypiques (ie le pheacutenotype) Des relations drsquointeacuterecirct sontpar exemple celles qui impliquent des variants geacutenomiques modulateurs ie un variant (ou un groupe devariants) qui a(ont) un effet modulateur sur la graviteacute de la pathologie eacutetudieacutee (lrsquoHF par exemple) ou surun symptocircme lieacute agrave celle-ci
Par exemple il existe diffeacuterents niveaux de seacuteveacuteriteacute de lrsquoHF qui sont fonctions de lrsquoallegravele observeacutepour deux variants geacutenomiques du gegravene APOE (rs7412 et rs429358) [NBS+06] Ces variants modula-teurs preacutesentent un inteacuterecirct particulier en pharmacogeacutenomique puisqursquoils sont souvent impliqueacutes dans lamodulation du meacutetabolisme et de lrsquoeffet des meacutedicaments [GBe07]
Les sources de donneacutees exploreacutees dans le cadre de cette expeacuterimentation ont deux origines dif-feacuterentes (i) deux jeux de donneacutees priveacutes reacutesultats drsquoinvestigations cliniques relatives agrave lrsquoHF (ii) desbases de donneacutees publiques (dbSNP HapMap OMIM PharmGKB et des bases de donneacutees ldquoLocus Speacute-cifiquesrdquo60) dont certaines parties ont eacuteteacute utiliseacutees pour instancier la SNP-Ontology Cette instanciationsuit lrsquoapproche deacutecrite dans la section 121 La Figure 43 deacutecrit la meacutethode (comme la Figure 41) dansle cas preacutecis de la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF
De lrsquoensemble des sources de donneacutees consideacutereacutees est extrait un jeu de donneacutees initial appeleacute HFinitial
constitueacute de 125 n-uplets correspondant agrave 125 patients impliqueacutes dans une eacutetude clinique lieacutee agrave lrsquoHF et
60The WayStation http wwwcentralmutationsorg
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 113
de 304 attributs relatifs au geacutenotype (292304) et au pheacutenotype (12304) des patientsLe jeu de donneacutees HFinitial implique (α) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine geacuteneacutetique (ie lrsquoHF)(β) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine non-geacuteneacutetique et(γ) des patients sainsLa majoriteacute des attributs geacuteneacutetiques (289293) provient du geacutenotypage (ie les allegraveles porteacutes) de
chaque patient pour les variations geacutenomiques du gegravene LDLR exploreacutees Un exemple drsquoattribut geacuteneacutetiquede ce type sont les allegraveles observeacutes pour la variation situeacutee agrave la position Chr19 11085058 (eg AA) Lesattributs relatifs au pheacutenotype deacutecrivent les variables habituellement observeacutees ou mesureacutees dans le cadrede lrsquoexploration du meacutetabolisme des lipides par exemple la concentration en cholesteacuterol LDL circulant(eg [LDL]c=3glminus1) ou la preacutesenceabsence de xanthome61 chez le patient
133 Meacutethodes de fouille
Pour eacutevaluer la quantiteacute de reacutesultats de fouille de donneacutees dans le cadre de cette expeacuterimentationnous utilisons deux meacutethodes de fouille de donneacutees
ndash lrsquoextraction des motifs freacutequents preacutesenteacutee dans la section 132 du chapitre 2ndash la classification hieacuterarchique non superviseacutee COBWEB [Fis87]La premiegravere meacutethode produit des motifs freacutequents (MF) agrave partir desquels peuvent ecirctre isoleacutes des sous
ensembles de motifs non-redondants les motifs fermeacutes freacutequents (MFF) Nous utilisons le nombre demotifs produits pour donner une estimation de la quantiteacute de reacutesultats agrave interpreacuteter et le ratio du nombrede MF sur celui de MFF ( |MF|
|MFF|) pour donner une estimation de la redondance des reacutesulats
COBWEB produit un ensemble de clusters organiseacutes selon une hieacuterarchie Le nombre de clustersnous sert drsquoindice pour juger de la complexiteacute des reacutesultats
134 Seacutelection progressive de variants speacutecifiques ndash guideacutee par la subsomption
Le premier sceacutenario srsquoappuie sur lrsquohypothegravese que des relations geacutenotypendashpheacutenotype pertinentes peu-vent ecirctre plus facilement extraites drsquoun sous-ensemble de donneacutees ne contenant que les variants codants62
ou les variants des domaines proteacuteiques conserveacutes63 Selon notre approche ce genre de seacutelection reacutesultede la seacutelection dans lrsquoontologie SNP-Ontology des individus instances du concept le plus speacutecifique quicorrespond au type de variant choisi Cette seacutelection peut se faire par une navigation progressive dans lahieacuterarchie de lrsquoontologie en suivant les relations de subsomption Le Tableau 42 illustre une seacutelectionsuccessive (au cours de diffeacuterentes iteacuterations du processus drsquoECBD) des individus instances du conceptvariant puis de ses sous-concepts les plus speacutecifiques successivement variant puis coding_variant etenfin conserved_domain_variant La seacutelection progressive drsquoun nombre deacutecroissant drsquoindividus se reacuteper-cute en une diminution du nombre des attributs dans HFinitial respectivement 289 231 et 126 attributsLes attributs relatifs aux variants non-codants sont eacutelimineacutes dans un premier temps puis sont eacutecarteacutes lesvariants codants localiseacutes hors des reacutegions correspondant aux domaines proteacuteiques conserveacutes
En pratique la seacutelection de classes plus ou moins speacutecifiques en suivant lrsquoorganisation hieacuterarchiqueproposeacutee par lrsquoontologie se fait par lrsquointermeacutediaire drsquoune partie drsquoun plug-in de Proteacutegeacute 4 que nous avonsdeacuteveloppeacute et dont lrsquointerface graphique est repreacutesenteacutee en Annexe G
Les conseacutequences que peut avoir la reacuteduction du jeu de donneacutees sur la quantiteacute et la significativiteacute desreacutesultats bruts de la fouille de donneacutees sont illustreacutees dans le Tableau 42 Pour cela les diffeacuterents jeuxde donneacutees reacuteduits obtenus ont eacuteteacute soumis aux deux meacutethodes de fouille de donneacutees utiliseacutes pour eacutevaluer
61Un xanthome est une tumeur beacutenigne cutaneacutee souvent signe drsquoune anomalie des lipides62Localiseacutes dans les reacutegions codantes pour ecirctre preacutecis63Dont les conseacutequences proteacuteiques se localisent dans des domaines conserveacutes pour ecirctre preacutecis
114 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
C0 variant coding_variant conserved_domain_variant tag_snp
Nombre drsquoattributs 289 231 126 198
() 6928 (255) 314 (24) 304 (12) 300 (28)ratio 2717 1308 2533 1071
Clusters 194 186 56 40
T 42 ndash Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nombredrsquoattribut seacutelectionneacutes
la quantiteacute de reacutesultats produits lrsquoextraction des motifs freacutequents (avec lrsquoalgorithme Zart [SNK07]) etCOBWEB (avec lrsquoalgorithme implanteacute dans Weka64) Quand tous les variants sont consideacutereacutes (colonnevariant du Tableau 42) le nombre total de motifs freacutequents () est de 6928 et le nombre de clusters deCOBWEB est 194 Dans leur eacutetat brut ces reacutesultats de fouille sont complexes agrave interpreacuteter Le nombrede variables impliqueacutees est important et il nrsquoy a pas excepteacute leur nom drsquoinformations contextuelles a
priori qui permettent de les diffeacuterencier Par exemple les variants codants ne peuvent pas ecirctre distingueacutesdes non-codants
La quantiteacute de reacutesultats de fouille de donneacutees diminue progressivement lorsque moins drsquoindividusdonc moins drsquoattributs sont seacutelectionneacutes (colonnes coding_variant et conserved_domain_variant) Ainsile nombre de passe de 6928 agrave 304 et le nombre de clusters de 194 agrave 56
Lrsquoorganisation hieacuterarchique mateacuterialiseacutee par la relation de subsomption est une des connaissancesdu domaine qui peut ecirctre utiliseacutee pour reacuteduire le volume du jeu de donneacutees agrave fouiller Cependant unetelle seacutelection oblige agrave un compromis sur le type de variants agrave inclure dans lrsquoeacutetude
135 Unification des variants agrave lrsquoaide des Tag-SNP ndash guideacutee par les rocircles et la compostion de rocircles
Les reacutesultats de la fouille du jeu de donneacutees HFinitial preacutesentent un proportion importante de triviaux ou redondants Ceci est ducirc en partie au fait que certains variants du jeu de donneacutees appartiennentaux mecircmes haplotypes Comme deacutecrit dans la section 24 du chapitre 1 un haplotype deacutesigne un groupede variants transmis conjointement et de faccedilon homogegravene agrave travers les geacuteneacuterations Il est possible drsquoi-dentifier au sein des haplotypes un ensemble minimal de variants appeleacutees Tag-SNP dont lrsquoobservationsuffit agrave preacutedire lrsquoallegravele preacutesenteacute par les autres variants de lrsquohaplotype Reacuteduire un ensemble de variantsmembres drsquoun haplotype agrave ses tag-SNP permet de reacuteduire les relations qui traduisent la deacutependance entreces variants et ainsi reacuteduit la redondance des reacutesultats
La Figure 44 montre un haplotype et sa repreacutesentation dans lrsquoontologie SNP-Ontology Cet haplo-type est composeacute des variants rs_001 rs_002 rs_003 et rs_004 et peut ecirctre remplaceacute par son uniquetag-SNP rs_004 La description drsquoun haplotype (ici le NA01234) met en lumiegravere lrsquoexistence drsquounedeacutependance fonctionnelle entre un (ou plusieurs) tag-SNP (rs_004) et les autres membres de lrsquohaplo-type (rs_001 rs_002 rs_003) Cette deacutependance est repreacutesenteacutee dans la SNP-Ontology comme suit
rs_001 rs_002 rs_003 ≔ exist isHaplotypeMemberO f haplotype_NA01234 ⊓exist isHaplotypeMemberO f isTaggedBy rs_004
64http wwwcswaikatoacnzmlweka
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 115
F 44 ndash Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variationsgeacutenomiques (rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovales pleinssont des concepts les ovales en tirets sont des individus la ligne pleine est une relation de subsomptionles lignes en tirets ronds sont des rocircles les lignes en tirets plats sont des assertions
et inversementrs_004 ≔ exist tags haplotype_NA01234 ⊓
exist tags containsVariants rs_001 ⊓exist tags containsVariants rs_002 ⊓exist tags containsVariants rs_003
Lrsquoontologie contient lrsquoensemble des descriptions des haplotypes des gegravenes geacutenotypeacutes pour la pop-ulation eacutetudieacutee dans lrsquoeacutetude HFinitial Les connaissances sur les haplotypes sont inteacutegreacutees agrave lrsquoontologielors de la phase drsquoinstanciation de notre approche agrave partir des donneacutees du projet HapMap et de donneacuteesissues du logiciel Haploview [Con03 BFMD05]
Le concept de tag-SNP est explicitement deacutecrit dans SNP-Ontology de la faccedilon suivante
tag_snp equiv exist tags containsVariantVariant (45)
Ainsi en limitant la deacutefinition du concept C0 agrave la deacutefinition des tag-SNP (ie C0 equiv tag_snp) lrsquoanalysteentraicircne la suppression au sein du jeu de donneacutees des attributs qui ne concernent pas des tag-SNP Suiv-ant notre exemple baseacute sur lrsquohaplotype NA01234 ceci revient finalement agrave la suppression des colonnesrs_001 rs_002 et rs_003 du jeu de donneacutee HFinitial Au niveau de lrsquoensemble du jeu de donneacutees HFinitialle Tableau 42 montre qursquoune telle seacutelection reacuteduit le nombre drsquoattributs (289 agrave 198) et diminue consid-eacuterablement la quantiteacute de reacutesultats produits par les deux meacutethodes de fouille La reacuteduction des reacutesultatsde fouille est due premiegraverement agrave la reacuteduction du nombre drsquoattributs et deuxiegravemement agrave la reacuteductiondu nombre drsquoassociations lieacutees agrave la deacutependance fonctionnelle (ie la co-segreacutegation) entre les variantsdrsquoun mecircme haplotype Le ratio |||| donne une ideacutee de la redondance65 qui existe au sein des motifsextraits lors de lrsquoextraction de motifs freacutequents et indique ainsi que la redondance entre les diminuelorsque le jeu de donneacutees est reacuteduit en utilisant les tag-SNP
R Les haplotypes sont des constructions statistiques dont la preacutecision est deacutependante delrsquoeacutechantillon drsquoindividus utiliseacute La reacuteduction du jeu de donneacutees sur la base de la composition des haplo-types souffre donc du mecircme biais
65Un motif est drsquoautant plus redondant qursquoil retrouveacute comme sous-motif drsquoun grand nombre drsquoautres motifs
116 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
136 Seacutelection de patients ndash guideacutee par la deacutefinition de concepts
Les deux premiers sceacutenarios visaient agrave reacuteduire le nombre drsquoattributs (relatifs au geacutenotypage de vari-ants geacutenomiques) Le troisiegraveme sceacutenario deacutecrit dans cette section illustre quant agrave lui la reacuteduction dunombre de n-uplets (ie de patients) du jeu de donneacutees HFinitial Pour ce faire lrsquoanalyste seacutelectionnedes individus instances des concepts deacutecrits non plus dans lrsquoontologie SNP-Ontology mais deacutecrit dansSO-Pharm dont la SNP-Ontology ne constitue qursquoune partie (voir chapitre 3 section 13)
Les concepts rocircles et individus de SO-Pharm permettent de deacutecrire de nouveaux concepts qui peu-vent preacutesenter un inteacuterecirct particulier dans le cadre de lrsquoexploration de lrsquoHF Le jeu de donneacutees regroupenotamment trois classes diffeacuterentes de patients (α β et γ) qui ne sont pas initialement repreacutesenteacutees dansSO-Pharm mais qursquoil est inteacuteressant de regrouper dans le cadre de lrsquoeacutetude afin drsquoen explorer les pro-prieacuteteacutes caracteacuteristiques et discriminantes Pour cela lrsquoanalyste peut utiliser SO-Pharm et les individuscreacuteeacutes lors de lrsquoeacutetape drsquoinstanciation pour deacutefinir le concept C0 correspondant agrave la classe de patients qursquoilveut eacutetudier
patients α C0 equiv patient ⊓
exist hasGenotypeItem LDLR_mutation
patients β C0 equiv patient ⊓
exist hasGenotypeItem no_LDLR_mutation ⊓
exist hasPhenotypeItem high_LDL_in_blood
patients γ C0 equiv patient ⊓
exist hasGenotypeItem no_LDLR_mutation ⊓
exist hasPhenotypeItem normal_LDL_in_blood
Lrsquoutilisation du meacutecanisme de recherche drsquoinstances permet de deacuteterminer quelles sont les instancesdu concept C0 Selon lrsquoapproche deacutecrite cela a se reacutepercute au niveau des donneacutees qui vont ecirctre reacuteduitesagrave un sous-ensemble de n-uplets qui partagent un attribut en commun ou qui appartiennent agrave une mecircmeclasse de patients Lrsquointeacuterecirct principal de cette reacuteduction est qursquoelle peut se faire agrave lrsquoaide drsquoattributs ou declasses qui ne sont pas preacutesents dans le jeu de donneacutees initial HFinitial mais qui sont repreacutesenteacutees danslrsquoontologie SO-Pharm
En pratique la deacutefinition de C0 srsquoeffectue de la mecircme maniegravere que dans le premier sceacutenario gracircce agravelrsquoutilisation drsquoun plug-in de Proteacutegeacute 4 (voir Annexe G)
14 Bilan
Nous avons preacutesenteacute dans cette section une meacutethode de seacutelection de donneacutees qui moyennant ladeacutefinition par lrsquoanalyste drsquoun ensemble de mappings adeacutequats lui permet de beacuteneacuteficier du contenu de la pour reacuteduire intelligemment un jeu de donneacutee initial avant la fouille
La proposition deacutecrite dans cette section pour guider la seacutelection de donneacutees agrave lrsquoaide des connais-sances du domaine et son illustration par des sceacutenarios de recherche de relations geacutenotypendashpheacutenotypeont eacuteteacute publieacutees dans le journal BMC Bioinformatics [CSTB+08]
Dans lrsquoideacutee drsquoaller plus loin dans lrsquoutilisation des connaissances disponibles pour lrsquoextraction de con-naissances la section suivante preacutesente une approche inteacutegreacutee drsquoExtraction de Connaissance agrave partir deBase de Connaissance () ougrave lrsquoensemble du processus drsquo est revisiteacute en preacutesence drsquoune Cetteapproche preacutesente en outre lrsquoavantage drsquoalleacuteger le travail de lrsquoanalyste en nrsquoexigeant que la deacutefinition
1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 117
des mappings donneacuteesndashassertions (Mdminusa) neacutecessaires au peuplement de la agrave partir drsquoun ensemble debases de donneacutees heacuteteacuterogegravenes
118 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash
Nous proposons une approche particuliegravere drsquoExtraction de Connaissances guideacutee par les Connais-sances du Domaine () appelleacutee lrsquoExtraction de Connaisances agrave partir drsquoune Base de Connaissances() La nouveauteacute de celle-ci est que la nrsquoest plus positionneacutee en marge du processus mais estlrsquoeacuteleacutement central dont sont agrave la fois extraits les eacuteleacutements agrave fouiller et les connaissances pour guider lafouille
21 Description geacuteneacuterale
Nous proposons une approche drsquo dont lrsquooriginaliteacute principale est de travailler agrave partir des TBox
et ABox drsquoune Lrsquohypothegravese sous-jacente est lrsquoexistence de reacutegulariteacutes porteuses de connaissancesnouvelles et significatives dans lrsquoinstanciation (deacutefinie et induite) drsquoune
Il srsquoagit donc drsquoappliquer des meacutethodes de fouille de donneacutees sur un ensemble drsquoassertions de la dans le but de deacuteceler des reacutegulariteacutes interpreacutetables sous forme de connaissances pertinentes quiraffineront la Nous appelons cette approche lrsquoExtraction de Connaissances agrave partir drsquoune Base deConnaissance () par distinction avec lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees()
Deux obstacles se posent agrave la mise en œuvre drsquoune telle approche ndash premiegraverement les ne contiennent souvent qursquoune quantiteacute de connaissances restreinte compareacute
au contenu de bases de donneacutees ou de corpus de textes ndash deuxiegravemement les algorithmes de fouille de donneacutees sont deacuteveloppeacutes pour manipuler des donneacutees
et non des assertions de plus les reacutesultats de ces algorithmes ne sont pas repreacutesenteacutes suivant unformalisme de repreacutesentation des connaissances
Nous proposons de deacutepasser la premiegravere limite en deacuteveloppant des mappings entre le contenu desbases de donneacutees du domaine et lrsquoontologie (ou TBox) (0) Ces mappings serviront de base agrave des wrappers
deacuteveloppeacutes speacutecialement pour peupler lrsquoontologie agrave partir du contenu de bases de donneacuteesPour surmonter la deuxiegraveme limite il est neacutecessaire de reacutealiser une eacutetape de transformation (i) des as-
sertions de lrsquoontologie en un format compatible avec le format drsquoentreacutee de la meacutethode de fouille choisieApregraves lrsquoeacutetape de fouille proprement dite (ii) il est eacutegalement neacutecessaire de reacutealiser une eacutetape de transfor-mation inverse (iii) des reacutesultats de fouille en axiomes et assertions dans le formalisme de lrsquoontologie
Notre meacutethode se divise ainsi en 4 eacutetapes principales (0 i ii iii) dont les 3 derniegraveres peuventecirctre compareacutees aux trois eacutetapes principales du processus drsquo (i) la preacuteparation des donneacutees (ii)
la fouille et (iii) lrsquointerpreacutetation Nous supposons ici que la TBox de la est deacutejagrave construite La Figure45 repreacutesente scheacutematiquement cette approche iteacuterative et interactive
22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts Formelsdans le contexte de lrsquo
Lrsquoexistant le plus proche de la meacutethode drsquo proposeacutee ci-dessus vient de travaux qui font inter-venir conjointement des formaliseacutees en et des meacutethodes drsquoAnalyse de Concepts Formels ()(chapitre 2 section 131) et partagent malgreacute des diffeacuterences fondamentales deux principes la notion de concept et lrsquoorganisation hieacuterarchique de ces concepts Bien que diffeacuterente en et en la notion de concept repose sur la mecircme ideacutee fondamentale de collection drsquoobjets partageant un certainnombre de proprieacuteteacutes Aussi lrsquoorganisation en hieacuterarchie des concepts formels produite par lrsquo preacutesentedes similitudes avec lrsquoorganisation des concepts drsquoune ontologie en Ces similitudes rendent possible
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 119
F 45 ndash LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou
lrsquoutilisation conjointe de meacutethodes ou outils provenant des deux domaines Toutefois les diffeacuterencesprincipales entre concepts en et concepts formels sont premiegraverement la faccedilon dont ils sont obtenus etdeuxiegravemement la faccedilon de les deacutecrire
En les concepts sont obtenus de faccedilon manuelle ou semi-automatique par un expert du domaineeacutetudieacute dans lrsquoobjectif de formaliser les concepts drsquointeacuterecirct du domaine en question La descriptiondrsquoun concept en est construite agrave partir de concepts atomiques (des preacutedicats unaires) de rocirclesatomiques (des preacutedicats binaires) et des constructeurs de concepts fournis par le langage de utiliseacute (existforall par exemple) Les concepts deacutecrits ainsi que les rocircles servent dans un second tempsagrave la speacutecification des proprieacuteteacutes des objets Pour plus de deacutetails voir la section 22 du chapitre 2 ou[BCM+03]
En les concepts formels sont obtenus agrave partir de contextes formels qui speacutecifient les attributs (ouproprieacuteteacute) preacutesenteacutes par chaque objet Dans un tel contexte un concept formel est deacutecrit par unensemble drsquoobjets (son extension) et un ensemble drsquoattributs (son intension) de telle sorte que lrsquoin-tension contienne exactement lrsquoensemble des attributs que les objets de lrsquoextension ont en communet qursquoinversement lrsquoextension contienne exactement lrsquoensemble des objets qui partagent tous lesattributs de lrsquointension Pour plus de deacutetails voir la section 131 du chapitre 2 ou [GW99]
Dans les deux cas les descriptions associeacutees aux concepts permettent de les organiser en une hieacuterar-chie Toutefois les deux types de concept deacutecrits de faccedilons distinctes produisent deux types de hieacuterar-chies distinctes
R Certains auteurs utilisent eacutegalement les notions drsquointension et drsquoextension concernantles concepts de Dans ce cas lrsquointension du concept est la description du concept et lrsquoextension estlrsquoensemble des individus (ie des objets) instances du concept en question
Baader et al utilisent lrsquo pour construire en partant du bas une hieacuterarchie de concepts agrave partirdrsquoun ensemble fini de concepts C1 Cn [BS04] Le principe de la meacutethode repose sur la deacutefinitiondrsquoun contexte formel agrave partir de lrsquoensemble de concepts de deacutepart et soit de leurs conjonctions soitde leurs subsumants communs les plus speacutecifiques La meacutethode drsquo utiliseacutee sur le contexte est lrsquoal-gorithme drsquoexploration drsquoattributs de Ganter [Gan84] qui permet de deacuteterminer des implications de laforme B1 rarr B2 Les implications permettent de deacuteriver des relations de subsomption entre les concepts
120 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
de deacutepart et leurs conjonctions (par exemple B1 ⊑ B2) ou entre les subsumants communs les plus speacute-cifiques des concepts de deacutepart et les concepts de deacutepart de sorte agrave geacuteneacuterer progressivement et de basen haut une hieacuterarchie En pratique ce travail est tregraves peu exploitable car les hieacuterarchies geacuteneacutereacutees au-tomatiquement sont volumineuses en raison du fait que tous les concepts qursquoil est possible de deacutecrire agravepartir des concepts de deacutepart sont construits et inclus dans la hieacuterarchie De plus la meacutethode srsquoappuiesur lrsquohypothegravese forte qursquoun subsumant commun le plus speacutecifique existe toujours et peut toujours ecirctretrouveacute ce qui nrsquoest pas le cas en pratique Enfin ce travail prend en compte la TBox sans exploiter lesconnaissances de la ABox
Des reacutesultats plus exploitables dans le cadre de lrsquo reacutesultent de deux travaux qui se complegravetent lrsquoExploration Relationnelle (que nous noterons )[Rud06] et la proposition de compleacutetion des en par Baader et al [BGSS07]
LrsquoExploration Relationnelle () deacutecrite par Rudolph srsquoappuie sur une extension de lrsquoalgorithme drsquoex-ploration drsquoattributs dans un contexte de Pour cela lrsquo se base sur la deacutefinition du contexte lieacuteagrave lrsquointerpreacutetation I en
Deacutefinition 47 (Contexte - ) Soit I une interpreacutetation sur le domaine ∆ M un ensemble de
description de concepts de ce domaine en et Ic une relation drsquoincidence Le contexteKI(M) lieacute
agrave lrsquointerpreacutetation I est deacutefini par le triplet (∆M Ic) ougrave quand la relation drsquoincidence Ic associe
agrave un individu δ de ∆ une description de concept C de M alors lrsquoindividu δ est instance du concept
CI Plus formellement
δIcCI hArr δ isin CI
A partir de cette deacutefinition il est deacutemontreacute que les implications extraites de KI par lrsquoexplorationdes attributs coiumlncident avec certains axiomes valides selon I (voir [Rud06]) Ainsi si CD sube M
alors lrsquoimplication C rarr D est extraite de KI si et seulement si I satisfait lrsquoaxiome C ⊑ DLrsquo permet drsquoexplorer les axiomes drsquoinclusion par cette correspondance et de veacuterifier leur validiteacutedans le domaine (selon I) agrave travers un systegraveme de questions-reacuteponses agrave un expert du domaineSi lrsquoassertion proposeacutee nrsquoest pas explicitement deacutecrite dans la TBox et ne peut pas ecirctre induitepar le meacutecanisme de raisonnement de subsomption alors lrsquoexpert est interrogeacute sur sa validiteacute Silrsquoassertion est vraie selon lrsquoexpert elle vient enrichir la TBox Si elle est fausse lrsquoexpert doitfournir un contre exemple qui sera ajouteacute agrave la ABox de la De cette faccedilon lrsquoimplication ne seraplus extraite lors drsquoune exploration suivante et la (TBox et ABox ) est progressivement raffineacutee
La compleacutetion des en proposeacutee par Baader et al [BGSS07] propose des ameacuteliorations permet-tant la mise en oeuvre effective de lrsquo Premiegraverement elle formalise lrsquoutilisation de lrsquo sur descontextes partiels Cette utilisation est neacutecessaire agrave la prise en consideacuteration drsquoobjets partiellementdeacutecrits par les meacutethodes de comme lrsquoexploration drsquoattributs Suivant lrsquohypothegravese du mondeouvert (deacutetailleacutee chapitre 2 section 22) les individus drsquoune en sont justement des objetspartiellement deacutecrits Deuxiegravemement la meacutethode limite agrave la seule subsomption les constructeurslogiques autoriseacutes dans les descriptions de concepts consideacutereacutes par la contexte (ie les conceptsde M de KI) Ceci permet de reacuteduire le nombre drsquoimplications et donc de questions poseacutees agravelrsquoexpert
Le beacuteneacutefice commun des reacutesultats de ces deux travaux est illustreacute par une meacutethode drsquoacquisitionsemi-automatique drsquoaxiomes en agrave partir de corpus de textes dans [VR08]
Une premiegravere limite des meacutethodes baseacutees sur lrsquoExploration drsquoAttributs est de nrsquoexploiter que lesimplications du contexte ie les regravegles dont la confiance est eacutegale agrave 1 Crsquoest justement ce qui permetdrsquoexclure un axiome C ⊑ D lorsque lrsquoexpert donne un contre-exemple agrave un axiome cela revient agrave
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 121
ajouter un objet au contexte qui preacutesente la proprieacuteteacute C sans la D ou inversement Ce nouvel objet rendforceacutement la confiance de la regravegle C rarr D infeacuterieure agrave 1 ce qui eacutevite lrsquoimplication entre C et D Nouspensons que cette limite est trop forte et peut empecirccher la mise en eacutevidence de concepts inteacuteressants agraveinclure dans la TBox Quand une est peupleacutee de nombreux individus quelque soit le mode utiliseacute pourson peuplement (manuel ou automatique) elle reste une repreacutesentation drsquoune reacutealiteacute particuliegravere soumiseaux nombreux arteacutefacts que cela implique par exemple le biais dans la repreacutesentation des connaissancesla reproduction ou lrsquointroduction de bruit drsquoerreurs lors du peuplement de la la difficulteacute agrave prendreen consideacuteration les cas extrecircmes
De plus selon la configuration de la (et notamment de son peuplement) le nombre drsquoimplicationset donc de questions poseacutees agrave lrsquoexpert peut ecirctre tregraves eacuteleveacute sans que celles-ci nrsquoapportent aucun beacuteneacuteficedans la repreacutesentation des connaissances qui inteacuteressent lrsquoexpert Par exemple un clinicien qui exploreune repreacutesentant les patients drsquoun hocircpital leurs dossiers meacutedicaux et administratifs peut selon la faccedilonavec laquelle a eacuteteacute peupleacute la geacuteneacuterer de nombreuses implications eacutevoquant des connaissances drsquoordreadministratif (ldquochocircmeurrdquo rarr ldquoassureacuteCMUrdquo ou ldquotransportEnAmbulancerdquo rarr ldquoActeDeRadiographierdquo) etfinalement tregraves peu de connaissances drsquoordre meacutedical qui puissent lrsquointeacuteresser
Nous proposons dans la section suivante une meacutethode drsquo qui utilise la compleacutementariteacute des etde lrsquo commme Rudolph et al et Baader et al Notre meacutethode se distingue notamment par
ndash la transcription des connaissances en donneacutees accessibles agrave la fouillendash la meacutethode de fouille utiliseacuteendash la position de lrsquoanalyste
et srsquooriente plus particuliegraverement vers une mise en application opeacuterationnelle sur des donneacutees reacuteeacutelles
23 Analyse des Assertions de Rocircles ndash
LrsquoAnalyse des Assertions de Rocircles ndash ougrave ndash est une approche particuliegravere drsquoExtraction de Con-naissances agrave partir de Bases de Connaissances () Lrsquo explore les reacutegulariteacutes dans les relationsdirectes et indirectes entre instances drsquoune en ie les reacutegulariteacutes des assertions de rocircles et de leurcomposition La section 231 deacutecrit lrsquo drsquoun point de vue geacuteneacuteral puis la section 232 la deacutetaille eacutetapepar eacutetape Enfin la section 24 preacutesente des reacutesultats expeacuterimentaux obtenues en pharmacogeacutenomique par
231 Description geacuteneacuterale
Lrsquo srsquoattache agrave analyser les reacutegulariteacutes preacutesentes dans la ABox (ie les assertions de concepts et de
rocircles) drsquoune ontologie en en utilisant les meacutethodes drsquoAnalyse de Concept Formel () et drsquoextractionde Regravegles Minimales Non-Redondantes Reacuteduites (RMNR) Ces reacutegulariteacutes sont susceptibles de refleacuteterlrsquoexistence de connaissances implicites dans la et de mettre en lumiegravere des relations inteacuteressantes
(selon lrsquoanalyste) mais masqueacutees qui prennent la forme de relations indirectes ou complexes entre lesindividus de la Une relation est indirecte si sa repreacutesentation neacutecessite lrsquoenchaicircnement de plusieursrocircles une relation est complexe si elle implique des relations vers plusieurs individus distincts
Pour cela nous proposons drsquoutiliser dans le cadre drsquoun processus semi-automatique et iteacuteratif leformalisme des pour deacutefinir des attributs analyseacutes par lrsquoexploration par nous permet de soncocircteacute drsquoobtenir ou drsquoaffiner des descriptions en De faccedilon informelle les exploitent les reacutesultatsobtenus par pour acqueacuterir interactivement des connaissances et lrsquo beacuteneacuteficie des pour exprimerdes connaissances relationnelles ie des connaissances sur les relations entre individus [Rud06]
Le preacuterequis indispensable agrave une telle approche est eacutevidemment de disposer drsquoune ontologie en instancieacutee pour pouvoir en utiliser les assertions Ensuite lrsquo se deacutecompose scheacutematiquement en trois
122 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 46 ndash LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes
parties principalesndash La premiegravere partie (Figure 46 (i) Preacuteparation) vise agrave transformer les assertions en un contexte
formel format de donneacutees compatible avec les meacutethodes drsquo et drsquoextraction des RMNRndash La deuxiegraveme partie est lrsquoextraction desRMNR agrave partir du contexte formel et agrave lrsquoaide des meacutethodes
drsquo (Figure 46 (ii) Fouille)ndash Enfin la partie finale de lrsquo est la transformation des regravegles en concepts rocircles et assertions
de rocircles qui srsquoils sont jugeacutes inteacuteressants vis agrave vis des objectifs de lrsquoexpert et des connaissancespreacutesentes dans la de deacutepart y seront inseacutereacutes (Figure 46 (iii) Interpreacutetation)
Lrdquoiteacuteration suivante de lrsquo pourra alors prendre en entreacutee lrsquoontologie ainsi raffineacuteeNous fixons un ensemble de constructeurs minimal obligatoire pour la utiliseacutee puisque que la mise
en œuvre de lrsquo neacutecessite les constructeurs de conjonction existentiel nominal et de rocircle inverse ce quicorrespond agrave la ELOI La seule limite agrave lrsquoutilisation de plus expressives est la complexiteacute associeacuteeagrave la mise en œuvre des meacutecanismes de raisonnement utiliseacutes (notamment la recherche drsquoinstances)
Les sections suivantes deacutetaillent les eacutetapes permettant la mise en oeuvre de ces opeacuterations et pourchaque eacutetape le rocircle de lrsquoanalyste
232 Lrsquo eacutetape par eacutetape
Etapes preacuteliminaires construction et peuplement drsquoune Base de Connaissances La constructiondrsquoontologies et le peuplement de la associeacutee agrave partir du contenu de bases de donneacutees ont eacuteteacute deacuteveloppeacutesdans le chapitre 4
Etape 1 Seacutelection des instances de C0
La premiegravere eacutetape drsquoune iteacuteration drsquo est la description en par lrsquoanalyste drsquoun concept C0Il nrsquoy a pas de contrainte particuliegravere concernant la deacutefinition de C0 ce peut ecirctre le concept ⊤ un
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 123
concept atomique ou deacutefini dans la ou encore la description drsquoun concept non nommeacute dans la maisdeacutefini pour lrsquooccasion agrave partir de la et des constructeurs disponibles dans la logique choisie (ELOISHOIN(D) par exemple)
La deacutefinition de C0 sert agrave deacutelimiter les assertions qui seront analyseacutees et les concepts de la quiseront concerneacutes par lrsquoextraction de connaissances
La description de C0 permet drsquoobtenir un ensemble drsquoindividus A0 instances de C0 (voir deacutefinition45) Ces individus constituent la base de lrsquoanalyse puisque lrsquoapproche va srsquoattacher agrave eacutetudier commentceux-ci sont relieacutes aux autres individus de la et agrave mettre en eacutevidence des reacutegulariteacutes remarquables danslrsquoensemble de ces relations
Etape 2 Transformation des connaissances exploration des graphes drsquoassertions
Lrsquoobjectif de lrsquoeacutetape de transformation est de repreacutesenter dans un contexte formel (ie des donneacutees)les connaissances relatives aux relations de chaque individu deA0 avec lrsquoensemble des autres individusde la consideacutereacutee Pour ce faire nous deacutefinissons la notion de graphe drsquoassertions
Deacutefinition 48 (Graphe drsquoassertions) Soit a un individu de la O Ga(V E) est un graphe drsquoorigine
a isin V eacutetiqueteacute cyclique appeleacute le graphe drsquoassertions de a dans O ougrave
ndash V est lrsquoensemble des nœuds de Ga ougrave chaque nœud v est un individu de O relieacute agrave a directement
ou indirectement par un arc E
ndash E est lrsquoensemble des arcs de Ga ougrave chaque arc E(v1 v2) partant de v1 vers v2 est une assertion
du rocircle E entre les individus v1 et v2 dans O Les arcs sont nommeacutes par le nom du rocircle dont ils
repreacutesentent une instance Lrsquoarc E(v1 v2) peut ecirctre parcouru en sens inverse de v2 vers v1 on
note alors Eminus(v2 v1) Les arcs sont nommeacutes par le nom du rocircle dont ils repreacutesentent une instance
Le graphe Ga de a dans O contient lrsquoensemble des chemins possibles entre lrsquoindividu a et tout autreindividu v de O auquel il est relieacute directement ou indirectement par n rocircles Ei (n isin N) De cette faccedilonchacune des relations existant entre a et les autres individus de O est repreacutesenteacutee dans le graphe par unchemin de a vers un autre individu v nœud de Ga
Proprieacuteteacute 41 (Interpreacutetation drsquoun chemin dans Ga) Srsquoil existe un chemin entre lrsquoindividu a et lrsquoin-
dividu v passant successivement par les rocircles E1 E2 En alors cela signifie que a est instance drsquoun
concept noteacute Ca de forme exist E1 E2 Env ou encore
exist E1 E2 Env (a) (46)
Proprieacuteteacute 42 Soit C un concept R un rocircle et a v deux individus de la O Alors si
O exist R v (a) et O C(v)
alors exist R v ⊑ exist RC et donc
O exist RC (a) (47)
Nous proposons pour chaque individu ai isin A0 de parcourir selon un algorithme simple tous leschemins et sous-chemins possibles dans son graphe drsquoassertions Gai
Lrsquoobjectif est drsquoassocier agrave chaqueindividu ai un ensemble de chemins donc selon la Proprieacuteteacute 41 un ensemble de descriptions de conceptsCai j dont ai est instance A partir de cette association nous proposons de construire un contexte formeldont chaque objet fait reacutefeacuterence agrave un individu ai isin A0 et dont les attributs font reacutefeacuterence aux diffeacuterentsconcepts Cai j dont les ai sont instances
Pour explorer lrsquoensemble des chemins possibles dans les graphes drsquoassertions nous utilisons un algo-rithme de parcours en profondeur (deacutecrit en Annexe F) fonction drsquoun paramegravetre la profondeur maximale
du parcours pmax deacutefinie par lrsquoanalyste en deacutebut de processus et de deux restrictions
124 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
(1) un mecircme chemin ne peut pas passer deux fois par le mecircme nœud(2) apregraves avoir emprunteacute un arc qui correspond agrave un rocircle E lrsquoalgorithme interdit lors de lrsquoeacutetape
suivante drsquoemprunter un arc de mecircme label en sens inverse qui correspond au rocircle inverse EminusLe paramegravetre pmax limite le nombre maximum drsquoarcs qursquoun seul chemin peut contenir et limite ainsi
la progression en profondeur de lrsquoalgorithme La premiegravere contrainte (1) garantie lrsquoabsence de cycle dansles chemins parcourus La seconde contrainte (2) est un choix heuristique qui limite la taille finale ducontexte formel geacuteneacutereacute
Dans ce dernier cas et dans la limite de la profondeur maximale il peut ecirctre deacutemontreacute que lrsquoalgo-rithme parcourt de faccedilon complegravete le graphe drsquoassertions ie parcourt tous les nœuds et arcs eacuteloigneacutes demoins de pmax arcs [RN03]
A la fin du parcours de graphes drsquoassertions des individus de A0 agrave chaque individu ai isin A0 estassocieacute un ensemble de chemins et donc un ensemble de concepts Cai j dont ai est instance A partir decette association est alors construit un contexte formel K(GMI)
ndash Chaque individu ai entraicircne la creacuteation drsquoun objet gi isin G dont le nom est celui de ai
ndash Chaque concept Cai j dont ai est instance entraicircne la creacuteation rArr drsquoun attribut mv isin M dont le nom est la description en du concept Cai j
A la notation classiqueexist E1 E2 En v
nous preacutefeacuterons ici la notation eacutequivalente qui utilise le constructeur de concept nominal suivant(appeleacute filler en anglais)
E1 E2 En vplus court et plus simple agrave transformer en une chaicircne de caractegraveres Ainsi le nom de mv est dela forme E1_o_E2_o__o_En v Lorsque Cai j equiv Cak j ie lorsque les individus ai et ak
sont instances drsquoun mecircme concept alors mv nrsquoest creacuteeacute que la premiegravere fois
rArr drsquoune relation giImv entre lrsquoobjet gi et lrsquoattribut mv
rArr de n attributs mC dont le nom est de la forme E1_o_E2_o__o_En Cv par similariteacute avecle nom de lrsquoattribut mv mais ougrave Cv fait reacutefeacuterence agrave un concept Cv dont v est instance
rArr des n relations giImC correspondantes
Les attributs mC et les relations relatives giImC sont creacuteeacutes dans le but drsquoaugmenter le nombredrsquoattributs et de relations dans le contexte K Leur creacuteation suit la Proprieacuteteacute 42 qui dit que si vest instance drsquoun concept quelconque Cv j alors a est eacutegalement instance de existE1 E2 EnCvAinsi pour chaque concept Cv j dont v est instance et tant que Cv j ne preacutesente pas de sous-conceptdont v est eacutegalement instance ie
2 Cvk ⊑ Cv j forallk j (48)
les attributs mC et les relations giImC correspondants sont ajouteacutes au contexte K
Le Tableau 43 repreacutesente le contexte formel K reacutesultant de lrsquoexploration des graphes drsquoassertionsdes individus deA0
La taille du contexte geacuteneacutereacute selon lrsquoexploration de graphes drsquoassertions deacutepend
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 125
G
Mmv1 mC11 mC1q1
mv j mC jk mvm mCm1 mCmqm
g1 times times times times times times times times
gi times times
gn times times times times times times
T 43 ndash Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions
ndash suivant la dimension des objets du nombre drsquoindividus dansA0 (n dans le Tableau 43) etndash suivant la dimension des attributs premiegraverement du nombre de nœuds dans le graphe lui mecircme
deacutependant de la valeur de pmax (m dans le Tableau 43) et deuxiegravemement du nombre de conceptsnon ascendants (voir Eacutequation 48) dont les individus v sont instances (q dans le Tableau 43)
Etape 3 Analyse du contexte formel ACF et RMNR
Les meacutethodes drsquoAnalyse de Concepts Formels () introduites dans la section 131 du chapitre2 permettent la construction drsquoune repreacutesentation des donneacutees eacutetudieacutees sous la forme drsquoun treillis deconcepts ie un ensemble de concepts formels organiseacutes selon une structure hieacuterarchique Cette structurereacutesulte drsquoune analyse automatique des reacutegulariteacutes existantes entre donneacutees ces reacutegulariteacutes reacutesultent dufait que des objets distincts ont des attributs en commun et inversement que des attributs distincts sontpreacutesenteacutes par un mecircme objet
Lrsquoobjectif de notre approche est justement de comparer la repreacutesentation reacutesultant du processus au-tomatique drsquo agrave la repreacutesentation reacutesultant drsquoun processus de modeacutelisation dirigeacute par lrsquohumain lrsquoon-tologie de domaine Pour ce faire nous proposons dans un premier temps de construire le treillis puisdrsquoutiliser les RMNR pour caracteacuteriser lrsquoorganisation en concepts formels du treillis afin lors des eacutetapessuivantes de permettre la comparaison de cette repreacutesentation agrave celle de lrsquoontologie associeacutee agrave la
La construction du treillis peut ecirctre reacutealiseacutee par lrsquoutilisation de lrsquoalgorithme classique Next Closure
Algorithm deacutecrit par Ganter [Gan84] Kuznetsov et Obiedkov ont reacutecemment affineacute cet algorithme etreacutealiseacute une comparaison des diffeacuterentes meacutethodes de construction de treillis dans [KO02]
Une fois le treillis de concepts construit son organisation peut ecirctre caracteacuteriseacutee selon diffeacuterentesmesures ou meacutethodes La mesure du stabiliteacute drsquoun treillis proposeacutee par Kuznetsov [Kuz07] permet decaracteacuteriser la faccedilon dont la description (le couple extension intension) drsquoun concept est deacutependante dechacun des objets qui compose son extension Cette mesure a eacuteteacute utiliseacutee par Jay et al [JKN08] pourdeacutecrire des groupes sociaux drsquointeacuterecirct agrave partir de concepts formels stables ie dont lrsquoexistence ne reposepas uniquement sur quelques facteurs speacutecifiques Nous proposons une meacutethode diffeacuterente lrsquoutilisationdes Regravegles Minimales Non-Redondantes Reacuteduites (RMNR voir section 132) pour caracteacuteriser les as-pects du treillis qui nous inteacuteressent plus particuliegraverement crsquoest agrave dire les relations entre les conceptsformels et le nombre drsquoobjets qui participe agrave la deacutefinition des concepts et des relations
La recherche des Regravegles drsquoAssociations () est un moyen drsquoextraire drsquoun treillis ce genre drsquoinforma-tion de faccedilon exhaustive Cependant les produites preacutesentent lrsquoinconveacutenient drsquoecirctre particuliegraverementvolumineuses et redondantes Nous preacutefeacuterons donc nous limiter agrave lrsquoextraction drsquoune famille particuliegraverede les RMNR Ce type de regravegles preacutesentent un premier avantage qui est drsquoecirctre un sous-ensembledes reacuteduit et concis ce qui facilite lrsquoeacutetape suivante drsquointerpreacutetation des regravegles par lrsquoanalyste En effetlrsquoensemble des RMNR est le plus petit ensemble de regravegles suffisant pour geacuteneacuterer lrsquoensemble des
126 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
Le deuxiegraveme avantage des RMNR est drsquoecirctre particuliegraverement repreacutesentatives de la structure du treillispuisqursquoune RMNR est produite agrave partir de la description drsquoun seul concept ou du regroupement de deuxconcepts directement relieacutes dans le treillis (ie un concept et son super- ou son sous-concept)
R En fonction de lrsquoobjectif de lrsquoanalyste il peut ecirctre inteacuteressant non pas de chercher lesregravegles freacutequentes drsquoun contexte ( ou RMNR) mais de chercher un autre type de reacutegulariteacute commepar exemple les regravegles rares [SNV07] De plus lrsquoutilisation drsquoautres meacutethodes de fouille comme leclustering hieacuterarchique [Fis87] peut proposer une repreacutesentation des donneacutees suivant une organisationdiffeacuterente de celle du treillis qursquoil est eacutegalement pertinent selon les objectifs de comparer agrave lrsquoontologiede domaine
Etape 4 Interpreacutetation des reacutegulariteacutes en terme de concepts et de rocircles
A lrsquoinverse de lrsquoeacutetape preacuteceacutedente qui est automatique cette eacutetape implique lrsquoanalyste degraves son deacutebutLrsquoanalyste doit choisir pour chaque RMNR et parmi les attributs Mr qui la composent un ensembledrsquoattributs Ms sube Mr pertinents qui servira de base agrave la creacuteation de nouveaux concepts de nouveauxrocircles etou de nouvelles assertions de rocircles
Etape 4a Description de nouveaux concepts Selon un meacutecanisme inverse agrave celui opeacutereacute durantla phase de preacuteparation (Figure 46 (i)) les attributs seacutelectionneacutes au sein drsquoune regravegle sont traduits en ladescription en du concept auquel ils font reacutefeacuterence Ainsi on distingue les attributs
mv avec un nom de la forme E1_o_E2_o__o_En v qui sont traduits en exist E1 E2 En vmC avec un nom de la forme E1_o_E2_o__o_En Cv qui sont traduits en existE1 E2 EnCv
Un nouveau concept Cnew est alors deacutefini par la conjonction des descriptions de concepts correspon-dant aux attributsMs drsquoune mecircme regravegle Par exemple si dans la regravegle de la forme ltmb rarr md me m fgtles deux attributs mb et md ont eacuteteacute seacutelectionneacutes (ieMs = mbmd)
mb nommeacute R_o_S b est traduit en exist R S bmd nommeacute T_o_U_o_V d est traduit en existS T U d
et leur conjonction permet de deacutefinir
Cnew equiv exist R S b ⊓ existS T U d
Etape 4b Creacuteation de nouveaux rocircles etou drsquoassertions de rocircles Les attributs seacutelectionneacutes parlrsquoanalyste Ms permettent eacutegalement la creacuteation de nouveaux rocircles etou assertions de rocircles Dans cetobjectif ces attributs sont traduits de la mecircme faccedilon que pour la creacuteation de nouveaux concepts hormisle fait qursquoils ne sont pas associeacutes pour creacuteer une nouvelle description et que seuls les concepts dont ladescription met en jeu le constructeur nominal (ie exist Rv ou R v) sont utiliseacutes Si parmi les descriptionsde concepts traduits depuis les attributs deMs au moins deux font intervenir un constructeur nominalavec deux nominaux diffeacuterents alors chaque paire de nominaux est utiliseacutee pour la construction drsquoun rocircleet de deux assertions de rocircles dans la Ainsi pour chaque paire de nominaux nous deacutefinissons Rnew unrocircle atomique dont le domaine et le co-domaine sont les concepts les plus speacutecifiques dont les nominauxsont instances et deux assertions de rocircle la premiegravere de Rnew et la seconde de son inverse Rminusnew par lecouple de nominaux
Par exemple si mb et md sont deux attributs seacutelectionneacutes dans une mecircme regravegle alors la paire (b d)qursquoils constituent est agrave la base de la deacutefinition du rocircle atomique Rnew dont le domaine et le co-domaine
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 127
sont respectivement le concept le plus speacutecifique dont b est instance et le concept le plus speacutecifique dontd est instance La paire (b d) est utiliseacutee pour deux instanciations de rocircles Rnew(b d) et Rminusnew(d b)
R Les nominaux peuvent ecirctre instances de plusieurs concepts sans qursquoil ne soit possibledrsquoeacutetablir une relation de subsomption entre ces concepts (ie C(a) et D(a) mais 2 D ⊑ C et 2 C ⊑ D)Dans ce cas il nrsquoexiste pas un concept unique plus speacutecifique et lrsquoanalyste est solliciteacute pour statuer surle concept agrave choisir entre C et D pour le domaine (ou le co-domaine) de Rnew
Dans le cadre de notre approche nous utilisons les regravegles (RMNR) comme un moyen de caracteacuterisa-tion de la structure du treillis La seacutemantique attacheacutee agrave une regravegle est utiliseacutee pour caracteacuteriser lrsquoextensiondrsquoun concept formel (pour les regravegles certaines) et les relations avec ses concepts voisins (pour les regraveglesapproximatives) Cependant elle nrsquoest pas utiliseacutee directement pour deacutefinir des axiomes drsquoinclusion (⊑)mais des axiomes assertionels (ie les assertions de rocircles) En revanche lrsquoeacutetape suivante permet lrsquoinser-tion des nouveaux concepts dans la initiale par la description drsquoaxiomes drsquoinclusion
Etape 5 Insertion des nouvelles connaissances
Il srsquoagit dans cette eacutetape de comparer les concepts et rocircles (Cnew et Rnew) creacuteeacutes lors de lrsquoeacutetapepreacuteceacutedente agrave ceux existants dans la de deacutepart Cette comparaison deacutetermine si les nouveaux conceptset rocircles nrsquoexistent pas deacutejagrave dans la (ie qursquoils sont veacuteritablement nouveaux) et dans le cas neacutegatifpermet de deacutefinir la faccedilon de les inseacuterer de faccedilon coheacuterente dans la
Etape 5a Insertion de concepts Le subsumant le plus speacutecifique Csubs du concept Cnew proposeacuteest rechercheacute dans lrsquoontologie associeacutee agrave la Si Cnew equiv Csubs le concept existe deacutejagrave dans lrsquoontologieet Cnew nrsquoest pas ajouteacute agrave lrsquoontologie Sinon Cnew ⊑ Csubs (sans que Csubs ⊑ Cnew) alors lrsquoanalyste adeux alternatives concernant la faccedilon drsquoinseacuterer le nouveau concept
ndash selon lrsquoanalyste Cnew est effectivement un sous-concept de Csubs Cnew est inseacutereacute par lrsquoajoutdans lrsquoontologie de lrsquoaxiome suivant Cnew ⊑ Csubs Lrsquoanalyste peut alors attribuer un nomCnew
ndash selon lrsquoanalyste les deacutefinitions de lrsquoontologie de deacutepart ne sont pas parfaites et Cnew est unedescription plus fine (ou plus exacte) de ce qui est censeacute ecirctre repreacutesenteacute par le concept CsubsDans ce cas Cnew est ajouteacute agrave lrsquoontologie par lrsquoaxiome suivant Cnew equiv Csubs
Etape 5b Insertion de rocircle Selon lrsquoexistence ou non dans lrsquoontologie de rocircles avec les mecircmesdomaine et co-domaine que Rnew une suite drsquoopeacuterations diffeacuterentes est mise en œuvre Dans le premiercas ougrave de tels rocircles existent deacutejagrave lrsquoanalyste est solliciteacute Si un des rocircles de la liste correspond agrave laseacutemantique souhaiteacutee pour Rnew il le choisit Aucun rocircle nrsquoest creacuteeacute dans lrsquoontologie le rocircle choisi et soninverse sont alors instancieacutes En revanche si aucun rocircle de la liste nrsquoest satisfaisant un nouveau rocircle estcreacuteeacute puis instancieacute
Dans le second cas ougrave aucun rocircle existant ne partage les domaine et co-domaine de Rnew un nouveaurocircle est automatiquement creacuteeacute et instancieacute Lrsquoanalyse nrsquointervient que pour nommer le nouveau rocircle
Enfin une classification drsquoinstances par les meacutecanismes de raisonnement classiques sur la raffineacuteepermet drsquoinstancier les concepts Cnew avec les individus qui en sont instances
Les deux derniegraveres eacutetapes ie lrsquointerpreacutetation des regravegles en termes de concepts et rocircles en puisleur insertion par la deacutefinition de nouveaux axiomes dans lrsquoontologie associeacutee agrave la sont formaliseacuteesdans deux algorithmes preacutesenteacutes ci apregraves le premier (Algorithme 41) deacutecrit lrsquointerpreacutetation des regraveglesen terme de nouveaux concepts de la et le second (Algorithme 42) deacutecrit lrsquointerpreacutetation des regravegles
128 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
en de nouveaux rocircles et assertions de rocircles
Algorithme 41 Depuis les attributsseacutelectionneacutes dans une regravegle agrave un nouveau concept1 Entreacutee O = (T A )K = (GMI)M0
ontologie contexte et attributs seacutelectionneacutees3 pour chaque mi deM0
4 si Cnew equivperp nouveau concept en DL5 Cnew ≔ toDL(mi) toDL retourne
la deacutescription en DL6 sinon7 Cnew ≔ Cnew ⊓ toDL(mi)8 fin si9 fin pour chaque10 si ∄ D isin T Cnew equiv D si Cnew nrsquoexist pas 11 Csubs ≔ subs(O Cnew) subs retourne le
subsumant direct de Cnew12 Question agrave lrsquoanalyste
13 selon analyste14 cas 1 insert un nouveau concept15 Cnew ⊑ Csubs16 cas 2 complegravete la definition de concept17 Csubs equiv Csubs ⊓ Cnew18 fin selon19 fin si20 Sortie O Ontologie raffineacutee
En bilan nous proposons la liste suivantes des eacutetapes de lrsquo qui tirent parti des meacutecanismes deraisonnement associeacutes agrave la
ndash lors de la seacutelection des instances la recherche drsquoinstances permet de deacuteterminer lrsquoensemble desindividus instances du concept initial C0
ndash lors de la transformation des connaissances la recherche du concept le plus speacutecifique permet dedeacuteterminer lrsquoidentiteacute du concept Cv dont v est instance pour la deacutefinition des attributs mC de laforme E1_o_E2_o__o_En Cv
ndash lors de lrsquoinsertion drsquoun nouveau concept dans la la classification des concepts (et plus exacte-ment la recherche du concept le plus speacutecifique) permet de positionner un nouveau concept deacutefiniCnew dans la hieacuterarchie de concepts
ndash apregraves lrsquoinsertion de nouveaux concepts de nouveaux rocircles et de nouvelles assertions de rocircles laclassification drsquoinstances permet de deacuteterminer pour lrsquoensemble des individus srsquoils sont instancesdrsquoun nouveau concept et pour les individus impliqueacutes dans une nouvelle assertion de rocircle srsquoilssont instances drsquoun concept ancien ou nouveau
Les deux derniegraveres utilisations des meacutecanismes de raisonnement permettent drsquoinfeacuterer de nouveauxaxiomes terminologiques et assertionnels ie de nouvelles uniteacutes de connaissances qui viennent raffiner
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 129
Algorithme G2 Depuis les attributsseacutelectionneacutes agrave de nouveaux rocircles1 Entreacutee O = (T A )K = (GMI)M0
ontologie contexte et attributs seacutelectionneacutees2 CnewR0 ≔ empty ensembles de concepts et de rocircles3 Cnew ≔perp nouveau concept4 pour chaque mi deM0
5 Cnew ≔ toDL(mi) toDL retournela description en DL
6 Cnew ≔ Cnew cup Cnew
7 fin pour chaque8 pour chaque Ci de Cnew
9 pour chaque Cj de Cnew iteacuterations emboicircteacuteespour compareacute chaque concept agrave tous les autres
10 si 2O Ci equiv Cj11 b ≔ getFiller(Ci)12 c ≔ getFiller(Cj) getFiller
retourne le ldquonominalrdquo drsquoune description de concept13 R0 ≔ domCodom(O Csubs(b) Csubs(c))
domCodom retourne lrsquoensemble des rocirclesavec domain et codomain
14 si R0 = empty description de nouveaux rocircles15 domain(Rnew) codomain(Rminusnew) ≔ Csubs(b)16 domain(Rminusnew) codomain(Rnew) ≔ Csubs(c)17 Question agrave lrsquoanalyste si Rnew est pertinent18 si pertinent19 T ≔ T cup Rnew R
minusnew nouvau rocircles
20 A ≔ A cup Rnew(b c) Rminusnew(c b)21 fin si22 sinon un rocircle existe23 pour chaque Rk de R0
24 Question agrave lrsquoanalyste est ce que Rk est pertinent 25 si pertinent26 A ≔ A cup Rk(b c) Rminus
k(c b)
27 fin si fin pour chaque fin si28 fin pour chaque fin pour chaque fin si29 Sortie O Ontologie raffineacutee
la initiale Crsquoest lrsquoinsertion de ces nouveaux axiomes dans la qui nous permet de dire que la meacutethodedrsquo autorise la deacutecouverte de connaissances implicites et nouvelles
La description de la meacutethode drsquo et son illustration avec un exemple pharmacogeacutenomique ontdonneacute lieu agrave deux publications [CSTND08b] et [CSTND08a]
La section 24 preacutesente une expeacuterimentation de la meacutethode drsquo meneacutee agrave partir de connaissancespharmacogeacutenomiques
130 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
24 Expeacuterimentation en pharmacogeacutenomique
Cette section preacutesente une expeacuterimentation de la meacutethode drsquoExtraction de Connaissance agrave partir
drsquoune Base de Connaissances () lrsquo Cette expeacuterimentation commence par le peuplement drsquoune pharmacogeacutenomique reacutealiseacute agrave lrsquoaide de lrsquooutil iSO-Pharm (preacutesenteacute section 32 chapitre 3) puis continuepar la mise en œuvre agrave partir de cette de la meacutethode drsquo (preacutesenteacutee section 23 de ce chapitre)
Cette expeacuterimentation srsquointeacuteresse aux donneacutees reacutesultant drsquoune investigation clinique des reacuteponses depatients asthmatiques agrave un meacutedicament appeleacute le montelukast Le deacuteroulement de notre expeacuterimentationest deacuteveloppeacute ci-dessous avec lrsquoobjectif drsquoillustrer et eacutevaluer la capaciteacute de lrsquo agrave (1) retrouver lesreacutesultats obtenus avec des meacutethodes statistiques classiques et (2) extraire de nouvelles connaissancesNotre motivation nrsquoest pas de discuter les reacutesultats de lrsquoinvestigation initiale mais plutocirct de donner unedeuxiegraveme vie agrave ces reacutesultats en les eacutetudiant selon une perspective diffeacuterente
241 Sources de donneacutees et de connaissances
Investigation clinique du montelukast La principale source de donneacutees exploiteacutee correspond auxdonneacutees recueillies au cours drsquoune investigation clinique meneacutee dans le cadre de lrsquoeacutetude de la diversiteacutede reacuteponses des patients asthmatiques au montelukast Des premiers reacutesultats de cette investigation onteacuteteacute publieacutes en 2006 par le groupe drsquoinvestigateurs Lima et al [LZG+06] Ces reacutesultats ont eacuteteacute mis en eacutev-idence agrave partir de donneacutees geacuteneacutetiques et cliniques recueillies sur un sous-ensemble du panel recruteacute pourcette investigation et constitueacute de 61 patients Les variables mesureacutees pour ces patients correspondentaux geacutenotypes de 26 SNP et agrave lrsquoenregistrement de deux signes cliniques principaux
ndash la survenue ou non drsquoune crise drsquoasthme durant les 6 mois de traitement noteacute ldquoExardquo pour exac-
erbation en anglais et pouvant prendre les valeurs Yes No ndash le pourcentage de modification apregraves 6 mois de traitement du Volume Expiratoire Maximum
Seconde66 (VEMS ou FEV en anglais) mesureacute par rapport au Volume Expiratoire Maximum Sec-onde preacutedit agrave 6 mois Cet attribut est noteacute ldquoPerrdquo pour percent change in predicted FEV1 est unpourcentage diviseacute par cent Ses valeurs sont comprises dans lrsquointervalle [-016 116]
Les SNP geacutenotypeacutes sont localiseacutes sur cinq gegravenes impliqueacutes dans la voie des leukotriegravenes67 ABCC1ALOX5 CYSLTR1 LTA4H et LTC4S localiseacutes respectivement sur les chromosomes 16 10 X 5 et 12
Autres sources de donneacutees Pour peupler la nous extrayons en plus des donneacutees de lrsquoinvestigationdes donneacutees des bases de donneacutees PharmGKB dbSNP OMIM Gene et KEGG Pathway relatives no-tamment aux gegravenes impliqueacutes dans la voie des leukotriegravenes leurs structures leurs variations geacutenomiquesles reacuteseaux meacutetaboliques dans lesquels ils sont impliqueacutes
242 Preacuteparation des donneacutees
Inteacutegration des donneacutees geacutenotypiques et pheacutenotypiques Les donneacutees geacuteneacutetiques et cliniques con-cernant les patients de lrsquoinvestigation sont disponibles publiquement dans deux fichiers distincts dans labase de donneacutees PharmGKB68 (preacutesenteacutee chapitre 1 section 32) Pour des raisons de confidentialiteacute lespatients sont identifieacutes dans chacun de ces deux fichiers par un identifiant distinct Une premiegravere eacutetape depreacuteparation des donneacutees est la mise en correspondance des donneacutees contenues dans ces fichiers Celle-ciest possible agrave lrsquoaide drsquoune table de correspondance entre les identifiants des patients
66Le VEMS correspond au volume expireacute pendant la premiegravere seconde drsquoune expiration forceacutee67httpwwwmedscapecomviewarticle444395_568httpwwwpharmgkborgdoserveobjId=PA142628130
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 131
Discreacutetisation des attributs Nous discreacutetisons les valeurs numeacuteriques de lrsquoattribut ldquoPerrdquo en deuxclasses Les valeurs de ldquoPerrdquo infeacuterieures ou eacutegales agrave 08 sont transformeacutees en ldquo6008rdquo et les valeurssupeacuterieures agrave 08 en ldquogt009rdquo Ces deux nouvelles valeurs de ldquoPerrdquo sont transformeacutees par le systegraveme drsquoen deux valeurs qui sont retrouveacutees dans les reacutesultats respectivement ldquoPer__-inf-008_rdquo et ldquoPer__009-inf_rdquo
Peuplement drsquoune Base de Connaissances Lrsquooutil iSO-Pharm introduit chapitre 3 section 32 estutiliseacute pour peupler une pharmacogeacutenomique notamment agrave partir des donneacutees de lrsquoeacutetude issues dePharmGKB Les 61 patients de lrsquoeacutetude et les donneacutees cliniques (pheacutenotypiques et geacutenotypiques) qui leursont associeacutees servent notamment agrave la creacuteation de 61 assertions du concept ldquopatientrdquo de 127 assertions duconcept ldquoclinical_itemrdquo ou de ses descendants et de nombreuses assertions du rocircle ldquopresents_clinical_ite-mrdquo Ce dernier rocircle permet drsquoassocier les instances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacute-ment aux donneacutees de lrsquoinvestigation clinique Les donneacutees des autres bases (dbSNP OMIM Gene etKEGG Pathway) permettent drsquoinstancier des concepts et des rocircles relatifs aux variations geacutenomiquesaux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques
243 Plug-in Proteacutegeacute pour lrsquo
La version 4 de lrsquoeacutediteur de Proteacutegeacute69 donne la possibiliteacute drsquointerfacer avec les fonctionnaliteacutesnatives de Proteacutegeacute des outils externes ou plug-in La meacutethode drsquo deacutetailleacutee en section 23 de ce chapitreest impleacutementeacutee sous la forme drsquoun plug-in de Proteacutegeacute Une copie drsquoeacutecran de lrsquointerface graphique delrsquoonglet associeacute au plug-in est repreacutesenteacutee en Figure 47 Le plug-in comme son interface est diviseacute entrois parties distinctes qui permettent de reacutealiser respectivement les eacutetapes de preacuteparation (au centre delrsquointerface) de fouille (en haut agrave droite) et drsquointerpreacutetation (en bas agrave droite) de lrsquo
ndash La partie deacutedieacutee agrave la preacuteparation permet de deacutecrire un concept C0 et de seacutelectionner ses instancesde deacutefinir une profondeur maximale dmax et sur cette base de construire un contexte formel Unefois le contexte construit cette partie permet eacutegalement de retirer du contexte les attributs qui nesemblent pas pertinents pour la fouille
ndash La partie deacutedieacutee agrave la fouille permet de lancer une recherche des RMNR selon un support et uneconfiance minimums min_supp et conf_min Notre plug-in utilise la boite agrave outils pourrechercher ces regravegles particuliegraveres [Sza06]
ndash La partie deacutedieacutee agrave lrsquointerpreacutetation permet la visualisation des regravegles la seacutelection de regravegles puisla seacutelection drsquoattributs au sein des regravegles seacutelectionneacutees Les attributs seacutelectionneacutes servent alors agraveconstruire et inseacuterer dans la initiale de nouveaux concepts de nouveaux rocircles et de nouvellesinstances de rocircles
244 Reacutesultats
Lrsquoexpeacuterimentation meneacutee est reacutealiseacutee suivant plusieurs iteacuterations du processus drsquo sur la peu-pleacutee Les reacutesultats obtenus lors drsquoune iteacuteration deacutependent des reacutesultats des iteacuterations preacuteceacutedentes Pourcette raison nous les deacutetaillons dans lrsquoordre de leur apparition
Premiegravere iteacuteration La premiegravere iteacuteration de lrsquo est meneacutee avec les paramegravetres suivants ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 2ndash min_supp = 08
69httpprotegewikistanfordeduindexphpProtege4UserDocs
132 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 47 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 133
ndash min_conf = 08La premiegravere RMNR produite preacutesente un support et une confiance de 1 Sa composition est la
suivante
Regravegle 1
=gt is_enrolled_in_o_is_composed_of initial_visit
is_part_of RacWithe
is_enrolled_in_o_is_composed_of six_month_visit
is_enrolled_in montelukast_study
is_enrolled_in_o_is_defined_by montelukast_sty_protocol
Le symbole (qui constitue la preacutemisse de la regravegle) repreacutesente lrsquoensemble de tous les attributs ducontexte formel Cette premiegravere regravegle du fait que la confiance est eacutegale agrave 1 peut ecirctre interpreacuteteacutee commele fait que tous les individus instances de C0 sont aussi instances des concepts deacutecrits par les attributsde la conclusion de la regravegle Dans ce premier cas tous les attributs nous inteacuteressent pour constituer unnouveau concept Alors aucun attribut de la regravegle nrsquoest exclu par lrsquoutilisateur et la regravegle 1 est transformeacuteepar le systegraveme en sous la forme de la deacutefinition de concept suivante
Cnew1 equiv is_enrolled_in is_composed_of initial_visit ⊓is_part_of RacWithe ⊓is_enrolled_in is_composed_of six_month_visit ⊓is_enrolled_in montelukast_study ⊓is_enrolled_in is_defined_by montelukast_sty_protocol
On peut tout drsquoabord remarquer que la quatriegraveme ligne de la deacutefinition de Cnew1 correspond agraveune partie de la description de C0 De faccedilon informelle le concept Cnew1 peut ecirctre interpreacuteteacute commeldquolrsquoensemble des individus qui sont recruteacutes dans lrsquoeacutetude du montelukast qui sont recruteacutes dans quelquechose qui est composeacute drsquoune visite initiale et drsquoune visite agrave six mois qui sont drsquoune ethnie blanche70et qui sont recruteacutes dans quelque chose qui est deacutefini par le protocole de lrsquoeacutetude du montelukastrdquo Cecicorrespond finalement agrave une description preacutecise des patients qui sont impliqueacutees dans lrsquoeacutetude du mon-telukast Une telle description nrsquoexiste pas dans la dans laquelle la description des patients se limite agravela deacutefinition du concept patient et agrave son concept parent person
Alors le nouveau concept Cnew1 est inseacutereacute dans la Pour cela un nom plus explicite que Cnew1lui est attribueacute par lrsquoutilisateur montelukast_study_patient Le systegraveme le branche dans un premiertemps agrave la racine des concepts de la ⊤ Dans un deuxiegraveme temps lrsquoutilisation du meacutecanisme de clas-sification permet de proposer un nouveau positionnement au concept montelukast_study_patientdans la hieacuterarchie de concepts Le reacutesultat est le suivant
montelukast_study_patient ⊑ patient
Ce positionnement srsquoexplique par (1) la deacutefinition du concept patient initiale dans lrsquoontologie SO-Pharm qui contient lrsquoaxiome
patient equiv exist is_enrolled_inclinical_trial ⊔ exist is_part_ofclinical_trial_panel
et (2) lrsquoaxiome drsquoassertion
clinical_trial(montelukast_study)
70La notion drsquoethniciteacute est rapporteacutee dans lrsquoeacutetude selon les recommandations de lrsquoInstitut National de la Santeacute eacutetats-unien (leNIH) httpgrants2nihgovgrantsguidenotice-filesNOT-OD-01-053html
134 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
selon lequel lrsquoindividu montelukast_study est une instance du concept clinical_trial suite aupeuplement de la A partir de ces deux eacuteleacutements le systegraveme peut deacuteteacuterminer que la deacutefinition dunouveau concept contient un condition suffisante pour infeacuterer que toutes ses instances sont eacutegalementinstances de patient
A ce niveau lrsquoutilisateur doit deacuteterminer si le nouveau concept est une meilleure deacutefinition de ce quidevrait ecirctre repreacutesenteacute par son subsumant le plus speacutecifique ou bien si le nouveau concept est effective-ment un sous-concept de celui-ci De par le fait que le nouveau concept (montelukast_study_patient)est effectivement un concept diffeacuterent de son subsumant le plus speacutecifique (patient) le nouveau conceptest positionneacute dans la par lrsquoinsertion de lrsquoaxiome drsquoinclusion de concept proposeacute par le systegraveme
Concernant la potentielle creacuteation de nouveaux rocircles et de nouvelles assertions de rocircles les couplespossibles entre les individus impliqueacutes dans la regravegle sont examineacutes par le systegraveme Il existe deacutejagrave desassertions de rocircles entre initial_visit six_month_visit et montelukast_sty_protocol dansla aussi la possibiliteacute de creacuteer des assertions associant ces individus est rejeteacutee Les relations possiblesentre les autres individus ne paraissent pas suffisamment inteacuteressantes agrave lrsquoutilisateur pour donner lieu agravela creacuteation de rocircles ou drsquoassertions de rocircles Au final aucun rocircle ou assertion de rocircle nrsquoest creacuteeacute agrave partirde cette regravegle
Les paramegravetres de cette iteacuteration et son premier reacutesultat sont illustreacutes sur la repreacutesentation de lrsquointer-face graphique du plug-in de Proteacutegeacute deacutedieacute agrave lrsquo preacutesenteacute dans la Figure 47
Lors de cette premiegravere iteacuteration la profondeur dmax utiliseacutee est eacutegale agrave 2 Aussi les rocircles impliqueacutesdans la deacutefinition du concept sont constitueacutes au maximum drsquoune seule composition de rocircles Augmenterla profondeur de recherche dans les graphes drsquoassertions permet de geacuteneacuterer des attributs qui correspon-dent agrave des compositions multiples de rocircles (par exemple 3 compositions de rocircle au maximum pourdmax=4) Ceci est illustreacute par lrsquoiteacuteration suivante du processus drsquo qui aboutit agrave lrsquoenrichissement de ladeacutefinition de notre nouveau concept montelukast_study_patient
Deuxiegraveme iteacuteration Les paramegravetres deacutefinis pour cette deuxiegraveme iteacuteration sont identiques agrave ceux utiliseacutespreacuteceacutedemment excepteacute pour la profondeur dmax qui est augmenteacutee De cette faccedilon nous avons
ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 08ndash min_conf = 08Preacutealablement agrave la fouille nous excluons un sous-ensemble drsquoattributs non pertinents afin de deacutecharger
le nombre drsquoattributs dans les regravegles Une des premiegraveres regravegles geacuteneacutereacutees preacutesentant un support et uneconfiance de 1 est la suivante
Regravegle 2
=gt presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn CYSLTR1
presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ALOX5
presents_clinical_item_o_is_the_observed_genotype_for_o_isStoredInVarDb ncbi_dbsnp_125
presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTA4H
presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ABCC1
is_enrolled_in montelukast_study
presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTC4S
is_enrolled_in_o_is_defined_by_o_is_composed_of montelukast_treatment
La seacutelection drsquoattributs explique notamment que les attributs de la regravegle 1 (exclus lors de cette nou-velle iteacuteration) nrsquoapparaissent pas dans la regravegle 2 (sauf le sixiegraveme) En revanche les attributs ici associeacutes
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 135
nrsquoapparaissaient pas dans la regravegle 1 car les rocircles qursquoils invoquent impliquent lrsquoenchaicircnement de deuxcompositions de rocircle
Cette regravegle illustre le fait que chaque individu instance de C0 est associeacute agrave des items cliniques qui sontdes geacutenotypes observeacutes pour des variants localiseacutes sur cinq gegravenes CYSLTR1 ALOX5 LTA4H ABCC1
LTC4S Dans le cas de notre eacutetude sur le montelukast savoir que tous les patients ont des variantsgeacutenotypeacutes sur chacun de ces cinq gegravenes nrsquoest pas une connaissance nouvelle puisque celle-ci est deacutecritedans les meacuteta-donneacutees dont nous disposons agrave propos de lrsquoeacutetude (lrsquoarticle de Lima et al et les meacuteta-donneacutees associeacutees aux fichiers dans PharmGKB) Cependant la reacutegulariteacute exprimeacutee par cette regravegle peutpermettre de formaliser cette connaissance de faccedilon explicite dans la Pour cette raison nous proposonsun nouveau concept Cnew2 sur la base de cette regravegle Par ailleurs il est facile drsquoimaginer des cas ougrave lesmeacuteta-donneacutees disponibles sur les variants exploreacutes sont partielles ou inexistantes ou encore des cas ougravele nombre de variants exploreacutes est trop grand pour que ces meacuteta-donneacutees soient facilement exploitablesDans ces cas le concept traduit agrave partir de cette regravegle peut ecirctre porteur drsquoune connaissance nouvelle
Cnew2 equiv presents_clinical_item is_the_observed_genotype_for isVariantIn CYSLTR1 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ALOX5 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTA4H ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ABCC1 ⊓is_enrolled_in montelukast_study ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTC4S ⊓is_enrolled_in is_defined_by is_composed_of montelukast_treatment
Nous remarquons que le troisiegraveme attribut impliqueacute dans la conseacutequence de la regravegle 2 nrsquoa pas eacuteteacuteutiliseacute par le systegraveme dans la deacutefinition du nouveau concept Ceci est la conseacutequence de son exclusionpar lrsquoutilisateur comme le permet lrsquointerface graphique du plug-in lors de lrsquointerpreacutetation des regraveglesLa raison de ce choix deacutepend du contexte de lrsquoexpeacuterimentation pour lequel nous ne consideacuterons paspertinent le fait que tous les patients puissent ecirctre geacutenotypeacutes pour au moins un variant reacutepertorieacute dansdbSNP
Le positionnement proposeacute par le systegraveme pour ce nouveau concept dans la hieacuterarchie de conceptsde la est
Cnew2 ⊑ montelukast_study_patient
Dans ce cas le nouveau concept ne constitue pas aux yeux de lrsquoutilisateur un sous-ensemble des in-dividus deacutefinis par le concept montelukast_study_patient mais plutocirct une description diffeacuterente dece concept De fait nous choisissons drsquoenrichir la deacutefinition de montelukast_study_patient commele permet le systegraveme en positionnant Cnew2 par lrsquoajout dans la de lrsquoaxiome suivant
Cnew2 equiv montelukast_study_patient
Aucun rocircle nrsquoest creacuteeacute ou instancieacute agrave partir de cette regravegle
Les deux premiegraveres iteacuterations permettent drsquoillustrer deux fonctionnaliteacutes de lrsquo ndash premiegraverement lrsquoaugmentation du paramegravetre dmax permet drsquoextraire des connaissances qui mettent
en jeu des individus indirectement associeacutes dans la Lrsquoexemple preacutesenteacute ici illustre la deacutefinitiondrsquoun nouveau concept agrave partir de connaissances construites avec des donneacutees de lrsquoinvestigation dumontelukast et drsquoannotations sur la position des variants issues de dbSNP
ndash Deuxiegravemement une nouvelle description de concepts peut venir soit srsquoinseacuterer dans la hieacuterarchiede concepts (Cnew1) soit enrichir un deacutefinition existante (Cnew2)
136 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
Troisiegraveme iteacuteration Nous poursuivons lrsquoexploration de la avec le mecircme concept initial C0 la mecircmeprofondeur dmax = 3 mais nous diminuons le support minimum agrave 03 Les paramegravetres utiliseacutes cette foissont
ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 03ndash min_conf = 08La recherche des RMNR reacutevegravele alors de nombreuses associations entre geacutenotypes Nous seacutelec-
tionnons les regravegles qui associent des geacutenotypes observeacutes sur le mecircme gegravene La regravegle 3 (support=031confiance=095) en est un exemple
Regravegle 3
presents_clinical_item chrX_77389891A-G
presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G
Ce genre de regravegle nous inteacuteresse particuliegraverement pour eacutetudier les geacutenotypes qui seacutegregravegent ensembleie qui sont transmis de faccedilon groupeacutee agrave la maniegravere des haplotypes Dans leur travaux Lima et al
mettent en eacutevidence trois groupes de geacutenotypes fortement associeacutes par deacuteseacutequilibre de liaison (Linkage
Desquilibrium ou LD en anglais) Ceux-ci sont reporteacutes dans la colonne de gauche du Tableau 44Suivant notre meacutethode nous isolons parmi la centaine de regravegles produites 7 regravegles qui nous permettentdrsquoisoler 7 groupes La regravegle 3 ci-dessus en est un exemple Lrsquoensemble de ces regravegles est reporteacute en AnnexeH avec leurs supports et confiances La colonne de droite du Tableau 44 repreacutesente les 7 groupes degeacutenotype associeacutes agrave partir de ces regravegles
Par ailleurs ce sont les associations entre les individus eacutevoqueacutes dans ces regravegles que nous souhaitonsinseacuterer dans la Aussi pour chaque regravegle nous ne construisons pas un nouveau concept mais cherchonsagrave instancier des rocircles entre les individus correspondant aux geacutenotypes
SO-Pharm ne dispose drsquoaucun rocircle dont le domaine et le co-domaine sont deacutefinis par le mecircme con-cept genomic_genotype ce qui permettrait drsquoassocier deux instances de ce concept auxquelles fontreacutefeacuterence les attributs des regravegles Aussi notre systegraveme drsquo propose automatiquement lors du traitementde la premiegravere regravegle associant des geacutenotypes la creacuteation drsquoun nouveau rocircle avec genomic_genotype endomaine et co-domaine Celui-ci est appeleacute par lrsquoutilisateur segregates_with Ensuite ce rocircle et soninverse (ie lui mecircme dans le cas particulier de segregates_with) sont instancieacutes avec chaque pairede geacutenotypes inclus dans une regravegle De cette faccedilon la regravegle 3 entraicircne apregraves validation de lrsquoutilisateurlrsquoinsertion dans la des 6 assertions de rocircles suivantes
segregates_with (chrX_77389891A-G chrX_77367837A-G)segregates_withminus(chrX_77389891A-G chrX_77367837A-G)
segregates_with (chrX_77389891A-G chrX_77334462A-G)segregates_withminus(chrX_77389891A-G chrX_77334462A-G)
segregates_with (chrX_77367837A-G chrX_77334462A-G)segregates_withminus(chrX_77367837A-Gbdquo chrX_77334462A-G)
Au total les 7 regravegles entraicircnent lrsquoinsertion dans la drsquoun nouveau rocircle (segregates_with) et de26 assertions de ce nouveau rocircle
Nous retrouvons les mecircmes groupes que Lima et Al Nos groupes sont plus restreints notammentpour le premier groupe du gegravene ABCC1 et celui du gegravene ALOX5 Cependant nous mettons en eacutevidence
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 137
Gegravene Geacutenotypes associeacutes Geacutenotypes associeacuteesLima et al (LD) Analyse des Assertions de Rocircles
ABCC1 Chr16 15986618G-G Chr16 15986618G-GChr16 15994334C-C Chr16 15994334C-CChr16 16016395A-A
Chr16 16045823T-T Chr16 16045823T-T Chr16 16045823C-TChr16 16047215T-T Chr16 16047215T-T Chr16 16047215C-T
ALOX5 Chr10 45190694C-T Chr10 45190694C-TChr10 45211490A-G Chr10 45211490A-G Chr10 45211490A-GChr10 45221095A-A Chr10 45221095A-G Chr10 45221095A-GChr10 45198914A-G Chr10 45198914A-AChr10 45237098A-G
CYSLTR1 empty ChrX 77346486T-TChrX 77356650G-GChrX 77389891G-G ChrX 77389891A-GChrX 77367837A-A ChrX 77367837A-GChrX 77334462A-A ChrX 77334462A-G
LTA4H empty empty
LTC4S empty empty
T 44 ndash Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation clinique de Limaet al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypes mis en eacutevidence par Limaet al par la mesure des deacuteseacutequilibres de liaison (Linkage Desquilibrium ou LD en anglais) La colonnede droite preacutesente les groupes que nous avons mis en eacutevidence agrave partir du mecircme jeu de donneacutees aveclrsquo Cette deuxiegraveme colonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pourun mecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces 7 groupessont reporteacutees en Annexe H
deux groupes particuliers qui correspondent agrave des allegraveles diffeacuterents de variations deacutejagrave impliqueacutees dansun groupe le couple Chr16 16045823C-T Chr16 16047215C-T et le triplet ChrX 77334462A-GChrX 77367837A-G ChrX 77389891A-G De plus nous mettons en eacutevidence une association entredeux groupes de geacutenotypes du gegravene CYSLTR1 absents des reacutesultats de Lima et al Les supports etconfiances de chaque regravegle reporteacutes en Annexe H permettent de juger la freacutequence dans la populationde ces associations
Quatriegraveme iteacuteration Nous poursuivons encore lrsquoexploration de la avec le mecircme concept initial C0
et la mecircme profondeur dmax en diminuant le support minimum cette fois agrave 02 Les paramegravetres utiliseacutessont ainsi
ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 02ndash min_conf = 08Lrsquoobjectif de cette nouvelle iteacuteration est drsquoisoler des regravegles associant un attribut relatif au pheacutenotype
(Per= ldquogt009rdquo ldquo6008rdquo ou Exa=ldquoNordquo ldquoYesrdquo) et un ou plusieurs attributs deacutecrivant un geacutenotypespeacutecifique agrave ce pheacutenotype
138 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
Avec un support minimum de 02 le nombre de regravegles devient important (proche de 3000 regravegles)cependant les regravegles impliquant un attribut relatif au pheacutenotype sont relativement rares dans cet ensemble(lt5) Pour trouver ces regravegles plus facilement nous utilisons un systegraveme de filtres simples semblablesagrave ceux deacutecrits dans la section 14 du chapitre 2 Nous isolons au final 5 regravegles qui correspondent aumodegravele imposeacute par les filtres La regravegle 4 (support=026 confiance=080) ci-dessous en est un exempleLrsquoensemble des regravegles isoleacutees est reporteacute en Annexe H
Regravegle 4presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G
presents_clinical_item Per__-inf-008_
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
Le fait que la regravegle 2 ait un support et une confiance eacutegaux agrave 1 permet de deacuteduire que lrsquoattribut de saconclusion is_enrolled_in_o_is_de f ined_by_o_is_composed_o f montelukast_treatment est preacutesentdans toutes les regravegles Cet attribut nrsquoapparaicirct pas dans la regravegle 3 car nous lrsquoavions exclu de la recherchede regravegles comme le systegraveme le permet afin drsquoalleacuteger le nombre drsquoattributs dans les regravegles Nous nouspermettons cette exclusion car drsquoune part nous savons que cet attribut est preacutesent pour chaque objet ducontexte et drsquoautre part lors de lrsquoiteacuteration preacuteceacutedente nous ne cherchions pas de regravegles impliquant untraitement mais uniquement des geacutenotypes
Des cinq regravegles isoleacutees nous sommes capables drsquoidentifier quatre geacutenotypes et une paire de geacuteno-types speacutecifiques de trois pheacutenotypes diffeacuterents La colonne de droite du Tableau 45 preacutesente ces geacuteno-types La colonne de gauche de ce Tableau preacutesente les reacutesultats rapporteacutes dans Lima et al en utilisantdeux tests statistiques χ2 et le rapport de vraisemblance Avec lrsquo nous retrouvons deux des cinq geacuteno-types qursquoils associent agrave un pheacutenotype particulier (Chr5 179153244A-C et Chr12 94941021A-G) Lestrois geacutenotypes non retrouveacutes (Chr10 45221095G-G Chr16 15994335C-T et Chr12 94941021G-G)sont observeacutes dans Lima et al sur des sous-groupes de patients particuliegraverement restreints (respective-ment n = 6 8 et 5) Les donneacutees manquantes et le seuil utiliseacute (008) pour discreacutetiser lrsquoattribut ldquoPerrdquoramegravenent dans notre jeu de donneacutees ces populations agrave n= 4 5 et 5 Sur une population totale de 61patients la probabiliteacute drsquoobservation de ces geacutenotypes en mecircme temps que le pheacutenotype associeacute est alorsinfeacuterieure agrave 005 Pour les retrouver ensemble dans des regravegles il nous faudrait reacuteduire le support mini-mum en dessous de cette valeur Ceci aurait pour conseacutequence un accroissement important du nombrede regravegles et par conseacutequent du temps neacutecessaire pour isoler les regravegles pertinentes qui correspondent aumodegravele rechercheacute
Nous identifions cependant lors de cette iteacuteration quatre geacutenotypes speacutecifiques agrave des pheacutenotypes quine lrsquoavaient pas eacuteteacute par Lima et al
Au niveau de la chaque regravegle isoleacutee permet la creacuteation drsquoun nouveau concept Lrsquoutilisateur luiassocie un nom et le systegraveme lrsquoinsegravere dans la hieacuterarchie de concepts de la Par exemple la regravegle 4permet de deacutefinir le concept suivant nommeacute patient_with_low_chge_in_fev_grp2 par lrsquoutilisateur
patient_with_low_chge_in_fev_2 equiv presents_clinical_item chrX_77334462A-G ⊓presents_clinical_item chrX_77367837A-G ⊓presents_clinical_item Per__-inf-008_ ⊓
is_enrolled_in is_defined_by is_composed_of montelukast_treatment
De plus pour chaque regravegle des assertions des sous-rocircles du rocircle interacts_with sont creacuteeacutees enfonction des concepts dont sont instances les paires drsquoindividus consideacutereacutes De cette faccedilon la regravegle 4permet drsquoinseacuterer dans la entre autres les axiomes assertionnels suivants
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 139
Pheacutenotype Geacutenotypes speacutecifiques Geacutenotypes speacutecifiquesLima et al (χ2 rapport de vraisemblance) Analyse des Assertions de Rocircles
Per=ldquogt009rdquo Chr10 45221095G-G empty
Chr16 15994335C-TPer=ldquo6008rdquo empty Chr10 45211490A-A
ChrX 77334462A-GChrX 77367837A-G
Exa=ldquoNordquo Chr5 179153244A-C Chr5 179153244A-C
Chr16 161443440C-GExa=ldquoYesrdquo Chr12 94941021A-G Chr12 94941021A-G
Chr12 94941021G-G
T 45 ndash Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonne ducentre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al par meacutethodes statistiques(χ2
et rapport de vraisemblance) [LZG+06] La colonne de droite repreacutesente les variations mises en eacutevidencepar notre approche drsquoAnalyse des Assertions de Rocircles Les regravegles qui mettent en eacutevidence ces associa-tions sont reporteacutees en Annexe H
interacts_with_phenotype (chrX_77334462A-G Per__-inf-008_)interacts_with_phenotypeminus(chrX_77334462A-G Per__-inf-008_)
interacts_with_drug_treatment (chrX_77334462A-G montelukast_treatment)interacts_with_drug_treatmentminus(chrX_77334462A-G montelukast_treatment)
ainsi que des axiomes de la mecircme forme impliquant le second geacutenotype (chrX_77367837A-G) etdrsquoautres agrave partir de Per__-inf-008_ et de montelukast_treatment
Au final les cinq regravegles sont agrave lrsquoorigine de cinq deacutefinitions de concepts et 68 assertions de rocirclesinseacutereacutes dans la
La classification drsquoinstances sur la permet de repreacutesenter explicitement les geacutenotypes pheacutenotypeset traitements qui interviennent dans une reacuteaction pharmacogeacutenomique agrave un traitement SO-Pharm con-tient initialement trois concepts deacutefinis de faccedilon symeacutetrique
ndash pharmacogenomic_genotype_itemndash pharmacogenomic_phenotype_item etndash pharmacogenomic_drug_treatment
Par exemple un geacutenotype qui intervient dans une reacuteaction pharmacogeacutenomique est deacutefini comme ungeacutenotype qui interagit agrave la fois avec un pheacutenotype et un traitement de la faccedilon suivante
pharmacogenomic_genotype_item equiv gt 1 interacts_with_phenotype ⊓gt 1 interacts_with_drug_treatment
Ainsi agrave partir de cette deacutefinition il est infeacutereacute que lrsquoindividu chrX_77334462A-G deacutejagrave instance degenotype_item est eacutegalement instance de pharmacogenomic_genotype_item
De la mecircme faccedilon la classification qui termine cette iteacuteration permet de statuer sur le fait quendash 6 individus instances de genotype_item sont aussi instances de pharmacogenomic_genotype_item
140 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
ndash 4 individus instances de phenotype_item sont instances de pharmacogenomic_phenotype_itemndash 1 individu instance de drug_treatment (montelukast_treatment) est eacutegalement instance depharmacogenomic_drug_treatment
245 Bilan et discussion
Lrsquo nous a permis drsquoextraire et de formaliser un certain nombre drsquouniteacutes de connaissances soitsous la forme drsquoaxiomes terminologiques (ie impliquant equiv ou ⊑) soit sous la forme drsquoaxiomes asser-tionnels (ie les assertions de rocircles et drsquoinstances) Ces uniteacutes de connaissances nrsquoeacutetaient preacutealablementpas preacutesentes dans la par conseacutequent nous les qualifions de nouvelles En outre lrsquoanalyste a lui mecircmejugeacute inteacuteressant de les inseacuterer dans la par conseacutequent nous les qualifions eacutegalement de pertinentesDe fait lrsquoexpeacuterimentation montre que lrsquo permet de retrouver lrsquoessentiel des reacutesultats qui avaient eacuteteacutemanuellement extrait par des meacutethodes statistiques classiques dans [LZG+06] des associations fortesentre geacutenotypes des associations geacutenotypendashpheacutenotype Notre meacutethode permet drsquoaller plus loin dans lrsquo-exploitation des donneacutees analyseacutees en isolant en plus de ces reacutesultats de nouvelles associations entregeacutenotypes de nouvelles relations geacutenotypendashpheacutenotype et des relations geacutenotypendashtraitementndashpheacutenotypeLrsquoensemble de ces reacutesultats est repreacutesenteacute de faccedilon formelle dans la qui peut ecirctre enrichie avec denouvelles donneacutees ou donner lieu agrave de nouvelles expeacuterimentations
Lrsquoexpeacuterimentation montre que la preacuteparation des donneacutees le parameacutetrage lrsquoexclusion drsquoattributspermettent drsquoorienter et de controcircler lrsquo Lrsquoinfluence de ces diffeacuterentes opeacuterations sur les reacutesultats delrsquoanalyse est discuteacutee dans la suite de cette section
La discreacutetisation des valeurs de lrsquoattribut ldquoPerrdquo effectueacutee lors de lrsquoeacutetape de preacuteparation des donneacuteesest un premier facteur jouant sur les reacutesultats En effet le choix drsquoun seuil moins eacuteleveacute pour la discreacuteti-sation par exemple 004 au lieu de 008 permettrait drsquoaugmenter le nombre drsquoobjets qui preacutesentent unevaleur au dessus de ce seuil et par conseacutequent drsquoaugmenter le nombre drsquoobjets qui peuvent preacutesenter agravela fois une valeur de ldquoPerrdquo au dessus du seuil et un geacutenotype particulier La valeur choisie pour ce seuilexplique en partie pourquoi contrairement agrave Lima et al nous ne retrouvons pas de geacutenotype speacutecifiqueau pheacutenotype Per=ldquogt009rdquo Lrsquoautre explication reacuteside dans le faible nombre de cas sur lesquels se basentLima et al pour estimer ces associations
Il apparaicirct au cours de lrsquoexpeacuterimentation que lrsquoexclusion des attributs les moins pertinents du con-texte facilite lrsquoeacutetape drsquointerpreacutetation Le moyen proposeacute drsquoexclure des attributs dans lrsquoimpleacutementationactuelle est entiegraverement manuel Il serait certainement inteacuteressant drsquoadapter lrsquoapproche de seacutelection dedonneacutees guideacutee par les connaissances proposeacutee dans la section 1 de ce chapitre pour faciliter lrsquoexclusiondrsquoattributs du contexte manipuleacute en
Le nombre de regravegles produites est un facteur important de la difficulteacute agrave interpreacuteter les reacutesultats Cenombre de regravegle est tout drsquoabord sensible au nombre drsquoattributs consideacutereacutes pour la recherche des regraveglesmais aussi sensible agrave drsquoautres paramegravetres Ainsi la profondeur dmax entraicircne la constitution drsquoun con-texte plus volumineux et par conseacutequent une production de regravegles souvent plus nombreuses Enfin lessupport et confiance minimums permettent de moduler le nombre de regravegles Hypotheacutetiquement il pour-rait eacutegalement ecirctre envisageacute de contraindre le parcours des graphes drsquoassertions de sorte agrave ce que seulsles chemins associeacutes agrave une seacutemantique deacutefinie soient parcourus En conseacutequence le contexte reacutesultant nepreacutesenterait que les attributs geacuteneacutereacutes agrave partir du parcours de ces chemins speacutecifiques
Voici un ordre de grandeur du nombre de regravegles produites lors des diffeacuterentes iteacuterations preacutesenteacutees
premiegravere iteacuteration lt 10 regraveglesdeuxiegraveme iteacuteration lt 20 regraveglestroisiegraveme iteacuteration lt 100 regraveglesquatriegraveme iteacuteration lt 3000 regravegles
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 141
Lorsque le support est diminueacute en deccedila de 02 le nombre de regravegles augmente davantage et lrsquointerpreacutetationdevient deacutelicate malgreacute lrsquoutilisation de filtres Ceci est en partie ducirc agrave la meacutethode de fouille utiliseacutee dontlrsquoobjectif est la recherche de regravegles freacutequentes Dans le cas ougrave les regravegles rechercheacutees apparaissent avecun support de 01 lrsquoutilisation drsquoune meacutethode baseacutee sur la notion de freacutequence est fortement discutableCependant lrsquoaspect iteacuteratif de notre approche peut ecirctre utiliseacute pour mettre en œuvre une nouvelle iteacuterationdans laquelle le concept initial C0 peut seacutelectionner un ensemble drsquoindividus plus restreints au sein duquelpeut se reacuteveacuteler freacutequente une association peu freacutequente sur un ensemble plus large drsquoindividus
Une piste particuliegraverement inteacuteressante est la mise en eacutevidence des geacutenotypes fortement associeacutes agraveun pheacutenotype rare Pour cela une meacutethode particuliegravere de recherche drsquoassociations dont le support estfaible est la recherche de regravegles rares ie drsquoassociations qui contrairement aux regravegles drsquoassociationssurviennent avec une freacutequence infeacuterieure agrave un seuil deacutefini [SNV07] Cette expeacuterimentation confirmeque les regravegles rares avec une confiance eacuteleveacutee semblent propices agrave lrsquoextraction des connaissances enpharmacogeacutenomique ougrave la notion drsquointeacuterecirct nrsquoest pas forcement coupleacutee agrave celle de freacutequence eacuteleveacutee
Actuellement seule lrsquoapparition simultaneacutee drsquoattributs dans une regravegle est utiliseacutee On peut supposeragrave premiegravere vue que lrsquoextraction de motifs freacutequents (par exemple les motifs fermeacutes freacutequents) pourraitecirctre suffisante agrave lrsquoobtention des mecircmes reacutesultats puisque la notion de regravegle (et notamment le fait qursquounattribut soit en preacutemisse ou en conclusion) nrsquoest pas exploiteacutee Cependant nous utilisons tout drsquoabordla mesure de la confiance propre aux regravegles drsquoassociations comme une marge permettant agrave supportconstant de trouver des associations non systeacutematiques entre les attributs Lrsquoexistence de donneacutees man-quantes ou entacheacutees drsquoerreurs dans les jeux de donneacutees biologiques manipuleacutes est agrave lrsquoorigine de cetteconsideacuteration Ensuite et surtout la seacutemantique associeacutee agrave une regravegle bien qursquoencore inexploiteacutee dans ladescription actuelle de lrsquo est une des eacutevolutions que nous souhaiterions apporter agrave cette meacutethodeDans ce sens Rudolph et Voumllker exploitent par exemple la seacutemantique des implications entre attributs dela forme A rarr B ougrave A et B sont deux ensembles drsquoattributs pour deacutefinir des nouveaux axiomes en dela faccedilon suivante A ⊑ B ougrave A et B sont les concepts qui correspondent aux ensembles drsquoattributs A et B
[VR08] Les reacutesultats tregraves reacutecents preacutesenteacutes par Kroumltzsch et al sur la description en de la seacutemantiqueassocieacutee agrave des regravegles constituent une base solide pour appuyer une telle eacutevolution [MK08]
Il est important de noter que la meacutethode deacutecrite nrsquoa pas la preacutetention de remplacer les meacutethodesstatistiques classiques drsquoanalyse de donneacutees En revanche nous pensons et lrsquoexpeacuterimentation preacutesenteacuteeva dans ce sens que cette meacutethode peut ecirctre utiliseacutee de faccedilon compleacutementaire en deuxiegraveme approchepour venir enrichir des reacutesultats initiaux et orienter de nouvelles investigations cliniques ou biologiques
Des expeacuterimentations suppleacutementaires non deacutecrites dans le cadre de cette section nous encouragentdans cette direction puisqursquoelles permettent drsquoutiliser les annotations des variants des gegravenes des reacuteseauxmeacutetaboliques inteacutegreacutees agrave la pour mettre en eacutevidence des reacutegulariteacutes entre un pheacutenotype intervenantdans une reacuteaction pharmacogeacutenomique et la reacutegion particuliegravere de certains gegravenes (voir regravegle 5) ou encoredes reacutegulariteacutes entre un groupe de pheacutenotypes et des variations geacutenomiques localiseacutees sur des gegravenesimpliqueacutes dans une voie meacutetabolique particuliegravere (voir regravegle 6) Les deux exemples de regravegles preacutesenteacutesci-apregraves obtenus par illustrent ce genre drsquoassociations
Regravegle 5isVariantIn_o_interacts_with Per__-inf-008_ =gt isDnaVariantIn intron
isVariantIn_o_interacts_with_o_interacts_with ALOX5
isVariantIn_o_interacts_with_o_interacts_with CYSLTR1
142 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
Regravegle 6isVariantIn_o_interacts_with exacerbation =gt isVariantIn_o_interacts_with arachidonic_acid_metabolism
isVariantIn_o_interacts_with_o_interacts_with LTC4S
isVariantIn_o_interacts_with_o_interacts_with eicosanoid_pathway
isVariantIn_o_interacts_with_o_interacts_with LTA4H
Lrsquo permet ici lrsquoacquisition et lrsquoinsertion de connaissances implicites et nouvelles dans une rel-ative agrave la variabiliteacute de reacuteponses au traitement par montelukast Ces connaissances sont acquises agrave partirdes reacutesultats drsquoune investigation particuliegravere et sont deacutefinies en tant que telle dans la Une prolonga-tion inteacuteressante de lrsquoutilisation de ce genre de connaissances serait leur interpreacutetation et leur validationexpeacuterimentale par des biologistes Ceci pourraient sur cette base geacuteneacuteraliser les connaissances mises eneacutevidence par sur un panel restreint puis les inseacuterer dans la avant de les soumettre agrave PharmGKB
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 143
25 Travaux similaires
Pour comparer agrave lrsquoexistant la meacutethode drsquo que nous proposons il est neacutecessaire de consideacutererseacuteparement lrsquoeacutetape preacuteliminaire de peuplement de la et la phase drsquoextraction de connaissances Lapremiegravere eacutetape de peuplement de lrsquoontologie (0) est abordeacutee dans le Chapitre 2 section 32 nous nrsquoyrevenons pas ici Par contre nous distinguerons deux grands groupes de travaux qui manipulent conjoin-tement meacutethodes de fouille de donneacutees et repreacutesentation des connaissances
ndash Le premier regroupe des travaux sur lrsquoacquisition de connaissances formelles agrave partir de donneacuteesde textes ou de pages Web Ils ne supposent pas lrsquoexistence de connaissances deacutejagrave formaliseacuteesagrave lrsquoorigine du travail Ces travaux megravenent le processus drsquo agrave son terme ougrave les reacutesultats de lafouille sont interpreacuteteacutes et formaliseacutes dans des langages de repreacutesentation des connaissances
ndash Le second regroupe des travaux qui tirent parti de connaissances deacutejagrave formaliseacutees pour la miseen oeuvre de meacutethodes drsquoextraction de connaissances Lrsquoobjectif de ce second type de travaux estgeacuteneacuteralement lrsquoenrichissement des connaissances initialement disponibles
251 Lrsquoacquisition de connaissances
Lrsquoacquisition de connaissances agrave partir de donneacutees de textes ou de pages Web est eacutegalement appeleacuteeapprentissage drsquoontologie (traduction de ontology learning en anglais) [BCM05] Les sources de donneacuteeset les meacutethodes de fouilles utiliseacutees dans ce cadre sont diverses Un exemple simple est lrsquoutilisation quefont Clerkin et al [CCH01] de lrsquoalgorithme COBWEB pour organiser des donneacutees selon une hieacuterarchiede clusters qui est ensuite transformeacutee en une hieacuterarchie de concepts (ou classes) sous forme drsquoun grapheRDF reprenant la structure hieacuterarchique des clusters La Figure 48 repreacutesente lrsquoexemple de geacuteneacuterationdrsquoontologie avec COBWEB donneacutee par Clerkin et al
F 48 ndash Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB lahieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite [CCH01]
Si le nombre et le volume des bases de donneacutees ont consideacuterablement augmenteacute ces derniegraveres anneacuteesdans beaucoup de domaines un volume consideacuterable de connaissances nrsquoest encore disponible que sousforme de texte en langage naturel et notamment drsquoarticles de revues speacutecialiseacutees En conseacutequence denombreux travaux ce sont inteacuteresseacutes agrave extraire et formaliser des connaissances contenues dans des corpus
144 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 49 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans [CHS05]
de textes (voir [BCM05] pour une vue drsquoensemble) Dans cette optique Cimiano et al deacuterivent agrave partir detextes une hieacuterarchie de concepts [CHS05] Pour cela ils construisent dans un premier temps un contexteformel agrave lrsquoaide de meacutethodes de TAL qui leur permettent drsquoextraire des relations entre termes associeacutesdans les textes Dans un deuxiegraveme temps le contexte formel construit est soumis agrave des meacutethodes drsquopour produire un treillis ensuite transformeacute et compacteacute en un ordre partiel speacutecifique qui constitue uneontologie Un exemple de treillis produit et la hieacuterarchie de concepts en laquelle il est transformeacute sontrepreacutesenteacutes Figure 49 La transformation du treillis revient agrave (1) retirer le concept bottom (2) creacuteer unconcept dit ontologique pour chaque concept formel avec comme nom lrsquointension du concept formel et(3) creacuteer un sous-concept relieacute au preacuteceacutedent pour chaque eacuteleacutement preacutesent dans lrsquoextension du conceptformel en question La hieacuterarchie produite est finalement reacuteduite afin de limiter le nombre potentiellementtregraves eacuteleveacute de concepts qui reacutesultent de la transformation drsquoun grand treillis Pour cela les concepts ditontologiques qui ont la mecircme extension en terme de concepts terminaux que leurs sous-concepts (ie
les mecircmes nœuds feuilles dans la hieacuterarchie) sont supprimeacutes Dans lrsquoexemple repreacutesenteacute Figure 49 leconcept rideable serait de cette faccedilon supprimeacute de la hieacuterarchie
Bendaoud et al ont proposeacute plus reacutecemment une meacutethode drsquoacquisition de connaissances agrave partirde textes qui srsquoappuie sur lrsquo Celle ci preacutesente deux avantages principaux par rapport agrave [BCM05] Lepremier est de produire non seulement une hieacuterarchie de concepts mais eacutegalement des instances asso-cieacutees aux concepts Ici le concept bottom est eacutelimineacute et les eacuteleacutements de lrsquoextension drsquoun concept formelservent eacutegalement agrave deacutecrire en les concepts de la hieacuterarchie comme dans [BCM05] En revanche leseacuteleacutements de lrsquointension des concepts formels servent agrave la creacuteation drsquoindividus qui instancient le conceptcorrespondant agrave lrsquoeacuteleacutement deacutecrit en extension La Figure 410 illustre cette transformation drsquoun treillisen une hieacuterarchie de concepts plus instances elle peut ecirctre compareacutee agrave la Figure 49 Dans un sens lafaccedilon de deacutecrire en les concepts formels deacutepend de la faccedilon dont les connaissances contenues dansles textes est codeacutee dans le contexte formel Cependant les correspondances entre drsquoabord lrsquoextensionde concepts formels et la description de concepts en et ensuite entre intension et instances semblentrelativement naturelles Le deuxiegraveme avantage de cette meacutethode consiste en lrsquoenrichissement de la hieacuterar-
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 145
F 410 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternative proposeacutee dans [BTN08]
chie de concepts par des rocircles entre les concepts en utilisant une meacutethode formelle appeleacutee lrsquoAnalyse deRelationnelle de Concepts ou Cet enrichissement preacutesente la particulariteacute de prendre en compte lahieacuterarchie des concepts pour la geacuteneacuteralisation de relations extraites des textes
Les connaissances sur la structuration des documents analyseacutes peuvent eacutegalement servir agrave guiderle processus drsquoacquisition de connaissance Crsquoest notamment le cas dans [KAB06] ougrave la connaissancedrsquoexperts sur la structuration des documents HTML est utiliseacutee pour favoriser la construction de clustersde termes homogegravenes agrave partir de pages Web
Cette cateacutegorie de travaux rassembleacutee sous le titre acquisition de connaissances peut ecirctre compareacuteeagrave lrsquoenchaicircnement des eacutetapes (ii) et (iii) de notre meacutethode drsquo Ces travaux permettent la formalisationde connaissances contenues dans des donneacutees des textes ou des pages Web et ce agrave lrsquoaide de meacutethodesde fouille de donneacutees et eacuteventuellement de repreacutesentations des connaissances du domaine pour [KAB06BTN08] Dans tous les cas les connaissances acquises par le processus sont enregistreacutees mais ne sontpas consideacutereacutees de sorte agrave pouvoir ecirctre reacuteutiliseacutees dans les opeacuterations drsquoacquisition de connaissancessuivantes Finalement ces meacutethodes considegraverent de faccedilon seacutepareacutee sources de donneacutees (bases de donneacuteestextes pages Web) et repreacutesentation des connaissances du domaine sans prendre en compte lrsquoexistencedes ontologies du domaine existant
252 La manipulation de connaissances pour extraire de nouvelles connaissances
Utilisation des meacutecanismes de raisonnement comme meacutethode drsquoapprentissage Un moyen originalde se servir de connaissances formaliseacutees pour lrsquoextraction de connaissances potentiellement utiles estlrsquoutilisation de meacutecanismes de raisonnement comme meacutethode drsquoapprentissage sur une plutocirct quedrsquoalgorithmes de fouille sur des bases de donneacutees Ce sont alors les concepts rocircles instances et axiomesde la qui sont directement manipuleacutes par ces meacutecanismes de raisonnement En pratique ceux-ci sontappliqueacutes agrave des en pour formaliser explicitement des connaissances implicites Le plus souventils mettent en lumiegravere des eacuteleacutements de connaissance eacutevidents pour lrsquoanalyste (humain) et sont rarementefficaces pour la deacutecouverte de connaissances dans le cadre de lrsquoECBD Un travail qui fait exception estla classification des proteacuteines phosphatases proposeacutee par Wostencroft et al [WLT+06] Les auteurs sebasent sur une ontologie en qui deacutecrit la composition en domaines des proteacuteines de la famille des phos-
146 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
F 411 ndash Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phosphatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacutees dans lrsquoontologie des phos-phatases et utiliseacutees pour la classification automatique de nouvelles proteacuteines [WLT+06]
phatases (voir Figure 411) Une proteacuteine y est repreacutesenteacutee comme un individu instance de lrsquoontologieauquel est associeacute la description de sa composition en domaines proteacuteiques Ils appliquent alors sur la associeacutee un meacutecanisme de raisonnement classique de classification drsquoinstances La comparaison drsquouneproteacuteine (donc drsquoun individu) aux descriptions des familles des phosphatases (ie des concepts deacutefinis)permet ainsi sa classification automatique dans la famille agrave laquelle elle appartient La classification reacute-sultante a permis drsquoaffiner la classification des phosphatases deacutefinie par les experts et de corriger pourcertaines proteacuteines lrsquoannotation qui indique leur appartenance agrave une famille ou agrave une autre
Moyennant quelques adaptations il est eacutegalement possible de transformer (ou coder) certains eacuteleacute-ments de connaissance afin que ceux ci puissent-ecirctre consideacutereacutes par des meacutethodes de fouille de donneacutees
Fouille de bases de cas Les eacuteleacutements de connaissances fouilleacutees par le systegraveme CA preacutesenteacutedans [dBL+07] sont des cas ie des couples (problegraveme solution) regroupeacutes dans une base de cas Lafouille de la base de cas par lrsquoextraction des motifs fermeacutes freacutequents a pour objectif la deacutecouverte deconnaissances drsquoadaptation ie un eacuteleacutement de connaissance qui deacutecrit comment eacutevolue la solution entredeux couples (problegraveme solution) quand le problegraveme eacutevolue Les reacutesultats extraits prennent la formede motifs fermeacutes freacutequents dont chaque eacuteleacutement deacutecrit lrsquoadaptation drsquoune proprieacuteteacute et dont lrsquoensemblepermet de deacuteduire des connaissances drsquoadaptation potentiellement utiles [dBL+07] propose dans lecontexte de bases de cas de traitement du cancer du sein un exemple de connaissance drsquoadaptationextraite et son interpreacutetation
Clustering conceptuel Les eacuteleacutements de connaissance peuvent eacutegalement ecirctre les individus drsquoune en comme dans [FdE08] pour lequel les auteurs proposent une meacutethode de clustering hieacuterarchique baseacuteesur une distance seacutemantique mesureacutee entre individus En accord avec cette distance deux individus quiappartiennent agrave un grand nombre de concepts communs dans la sont proches et inversement deuxindividus qui ne peuvent pas appartenir agrave des concepts communs sont eacuteloigneacutes (voir [FdE08] pour ladeacutefinition formelle de la distance) Le calcul de la distance neacutecessite lrsquointervention de meacutecanismes deraisonnement pour deacuteterminer lrsquoinstanciation des concepts (instance checking) Une meacutethode de cluster-ing inspireacutee des K-plus proches voisins utilise ensuite les distances entre individus pour construire unehieacuterarchie de clusters Les clusters construits peuvent ecirctre annoteacutes avec une description en qui carac-teacuterise au mieux les individus preacutesents dans le cluster en question tout en discriminant les individus desclusters de mecircme niveau dans la hieacuterarchie Cette description correspond au subsumeur commun le plus
2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 147
speacutecifique de lrsquoensemble des concepts les plus speacutecifiques de chaque individu du cluster La descriptionreacutesultante est une approximation et demeure deacutependante de la description des concepts et de la reacutepar-tition des individus dans la (ie de la conceptualisation) Lrsquoajout de nouveaux individus dans la induit des modifications dans la structure hieacuterarchique en terme soit de nouveau cluster soit de nouvelledescription drsquoun cluster existant Cependant la modification de la TBox initiale agrave la vue de clusters et deleur description en associeacutee nrsquoest pas consideacutereacutee
Ces deux derniegraveres approches manipulent des connaissances repreacutesenteacutees formellement dans une mais ne reacuteutilisent pas (ou partiellement) les reacutesultats de fouille pour raffiner ou enrichir la analyseacutee
En revanche les travaux theacuteoriques de Rudolph et al [Rud06] et de Baader et al [BGSS07] (preacutesen-teacutes dans la section 22) et notre meacutethode drsquo (section 23) autorisent lrsquoenrichissement de la initiale
R Le travail de Ferreacute et al est agrave noter eacutegalement Ils utilisent aussi et conjointementmais dans un objectif inverse au nocirctre [FRS05] Lrsquoobjectif nrsquoest pas drsquoenrichir une ontologie (ou une )agrave partir de reacutesultats drsquo mais drsquoenrichir un treillis de concepts agrave lrsquoaide de la seacutemantique associeacutee aux
148 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
3 Discussion
Cette section discute dans un premier temps la meacutethode drsquoAnalyse des Assertions de Rocircles ()preacutesenteacutee dans la section 23 puis dans un second temps la proposition plus geacuteneacuterale drsquoExtraction deConnaissances agrave partir de Base de Connaissances ()
Lrsquo srsquoappuie sur un meacutecanisme qui transforme des connaissances repreacutesenteacutees en sous la formedrsquoun contexte formel manipulable par les meacutethodes drsquo Cette transformation permet de repreacutesen-ter dans le contexte formel produit (1) des assertions de rocircles qui relient les individus dans un graphedrsquoassertions (2) les assertions de concepts repreacutesenteacutees par les attributs du contexte Ainsi cette repreacutesen-tation des connaissances est une repreacutesentation partielle du contenu de la Par exemple les relations desubsomption entre concepts et entre rocircles ne sont pas repreacutesenteacutees dans le contexte Il peut pourtant ap-paraicirctre inteacuteressant de les consideacuterer dans lrsquoideacutee de retranscrire de faccedilon plus complegravete les connaissancescontenues dans la
Une meacutethode alternative agrave lrsquoexploration des graphes drsquoassertions pour retranscrire de faccedilon systeacutema-tique les connaissances drsquoune dans un format manipulable par des meacutethodes de fouille pourrait ecirctrelrsquoutilisation de la meacutethode drsquoAnalyse Relationnelle de Concept () [HHNV07] Cette meacutethode peutecirctre utiliseacutee pour consideacuterer lrsquoensemble des connaissances drsquoune agrave condition de retranscrire celles-cidans plusieurs contextes formels (par exemple un contexte pour les assertions de concepts un autre pourles assertions de rocircles encore un autre pour la hieacuterarchie de concepts etc) Lrsquo permet ensuite surla base des reacutegulariteacutes preacutesentes dans les contextes de geacuteneacuterer de nouvelles descriptions de concepts en qui prennent en consideacuteration les relations entre les eacuteleacutements impliqueacutes dans diffeacuterents contextes Lacontrainte importante associeacutee agrave lrsquoutilisation de lrsquo est la deacutefinition manuelle des contextes de leursrelations et enfin lrsquointerpreacutetation des nombreux concepts produits automatiquement En comparaisonavec lrsquo notre meacutethode drsquo propose un compromis qui permet une retranscription partielle des con-naissances de la et la production drsquoun contexte de taille raisonnable Une des hypothegraveses de deacutepartde lrsquo est notamment que les assertions de rocircles directes et indirectes peuvent deacutecrire des relationsplus ou moins freacutequentes entre diffeacuterentes cateacutegories drsquoindividus et par ce biais sont des connaissancessusceptibles drsquoecirctre porteuses de connaissances nouvelles
Un moyen drsquoeacutevaluer concregravetement lrsquoapport de lrsquo serait de comparer les reacutesultats drsquoune recherchedes RMNR sur un jeu de donneacutees brut par exemple les reacutesultats de lrsquoinvestigation clinique du mon-telukast utiliseacutee pour lrsquoexpeacuterimentation preacutesenteacutee section 24 avec les regravegles et reacutesultats produits parlrsquo Cette expeacuterimentation pourrait permettre de justifier lrsquoeffort que neacutecessite la construction de lrsquoon-tologie et la deacutefinition des mappings donneacutees-assertions pour la deacutecouverte de connaissances
Une utilisation inteacuteressante de lrsquo pourrait consister agrave positionner le concept initial C0 agrave la racine dela TBox (C0 equiv ⊤) puis agrave recueillir la totaliteacute des nouveaux concepts deacuteriveacutes des RMNR dans une nou-velle TBox vierge La comparaison entre la hieacuterarchie de concepts obtenue apregraves classification de cettenouvelle TBox et la hieacuterarchie de concepts de la initiale permettrait drsquoeacutevaluer en un sens la capaciteacutedes assertions de rocircles drsquoune agrave refleacuteter la repreacutesentation des connaissances eacutetablies et agrave en proposer denouvelles Dans une ideacutee proche les meacutethodes drsquoeacutevaluation drsquoontologies pourraient permettre de mesurerla progression entre la initiale et la finale apregraves [GCCL06]
Lrsquo (deacutetailleacutee et expeacuterimenteacutee sections 23 et 24) se veut une illustration de la proposition plusgeacuteneacuterale drsquo En effet lrsquo peut ecirctre mise en œuvre agrave lrsquoaide de diffeacuterentes meacutethodes Par exempledes meacutethodes de fouille de donneacutees alternatives agrave la recherche des RMNR pourraient ecirctre utiliseacuteesEn fonction de la meacutethode choisie il serait alors indispensable drsquoadapter les eacutetapes de preacuteparation etdrsquointerpreacutetation des reacutesultats de fouille qui deacutependent respectivement des formats drsquoentreacutee et du typedrsquouniteacutes drsquoinformation produit par la fouille Des meacutethodes de fouille alternatives qursquoil semble pertinent
3 Discussion 149
drsquoexpeacuterimenter sont par exemple la construction drsquoarbres de deacutecision ou le clustering conceptuel Unsystegraveme de repreacutesentation des connaissances diffeacuterent des pourrait eacutegalement ecirctre envisageacute
Suivant lrsquoexemple de lrsquo le processus drsquoextraction de connaissances reste centreacute sur un algorithmede fouille de donneacutees qui prend en entreacutee des connaissances preacutealablement preacutepareacutees en un format com-patible et produit en sortie des uniteacutes drsquoinformation extraites agrave interpreacuteter formaliser et inseacuterer dans la Malgreacute diffeacuterents essais cela reste un deacutefi de consideacuterer des meacutethodes drsquoapprentissage capables demanipuler les axiomes drsquoune ie capables de tenir compte de la seacutemantique qui leur est associeacutee etde leur reacutegulariteacutes [Mug91 Nap92 Ser07]
150 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances
Conclusion et perspectives
Lrsquoensemble de la thegravese preacutesenteacutee dans ce manuscrit conforte la conviction selon laquelle lrsquoExtractionde Connaissances agrave partir de Bases de Donneacutees () doit ecirctre guideacutee agrave partir des connaissances dudomaine Dans ce contexte nous avons proposeacute et mis en œuvre un ensemble coheacuterent de meacutethodes afinde formaliser les connaissances drsquoun domaine inteacutegrer des donneacutees heacuteteacuterogegravenes relatives agrave ce domaineau sein drsquoune Base de Connaissances () et enfin analyser le contenu de cette pour en extraire denouvelles connaissances
La premiegravere contribution deacutecrit une meacutethode de construction drsquoontologie qui favorise la reacuteutilisationdrsquoontologies deacutejagrave existantes en les inteacutegrant au processus de construction De plus cette meacutethode inclutlrsquoeacutevaluation de la capaciteacute de lrsquoontologie construite agrave repreacutesenter les connaissances du domaine
Ensuite nous deacutecrivons une approche drsquointeacutegration de donneacutees qui srsquoappuie sur une formalisationtheacuteorique de la mise en correspondance de donneacutees et de connaissances La mise en œuvre de cetteapproche conduit agrave associer une seacutemantique preacutealablement deacutefinie agrave des donneacutees heacuteteacuterogegravenes afin de lesinteacutegrer au sein drsquoune
La reacutesultante constitue lrsquoeacuteleacutement central du processus drsquoExtraction de Connaissances agrave partir
drsquoune Base de Connaissances () Lrsquoideacutee originale ici est drsquoexplorer les reacutegulariteacutes drsquoune par oppo-sition agrave la recherche de reacutegulariteacutes agrave partir de bases de donneacutees Nous rapportons des reacutesultats prometteurssur la deacutefinition et la mise en œuvre drsquoune meacutethode drsquo particuliegravere appeleacutee lrsquoAnalyse drsquoAssertionsde Rocircles () Cette meacutethode srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Les uniteacutesde connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui de la ce qui permetensuite leur manipulation par des meacutecanismes de raisonnement en vue de leur inteacutegration coheacuterente dansla Cette derniegravere contribution propose ainsi un moyen de mettre en œuvre un processus drsquoExtractionde Connaissance guideacutee par les Connaissances du Domaine
Ces reacutesultats illustrent que lrsquo peut ecirctre employeacutee avec succegraves pour la deacutecouverte de connaissancesen pharmacogeacutenomique De plus le cadre geacuteneacuteral de lrsquo peut ecirctre reacuteutiliseacute pour deacutecrire de nouvellesde meacutethodes diffeacuterentes de la nocirctre
Par ailleurs lrsquoensemble coheacuterent des meacutethodes deacutecrites dans la thegravese a eacuteteacute appliqueacute au domainede la pharmacogeacutenomique Nous avons ainsi construit deux ontologies de domaine La premiegravere SNP-Ontology formalise les connaissances sur les variations geacutenomiques La seconde SO-Pharm formaliseles connaissances du domaine de la pharmacogeacutenomique SNP-Ontology et SO-Pharm ont reccedilu un ac-cueil favorable par la communauteacute scientifique inteacuteresseacutee par la mise agrave disposition et le partage desbio-ontologies
Nous avons ensuite employeacute ces ontologies pour inteacutegrer selon lrsquoapproche drsquointeacutegration proposeacuteedes donneacutees pharmacogeacutenomiques issues de bases de donneacutees heacuteteacuterogegravenes Le reacutesultat de cette inteacutegra-tions est le peuplement de Bases de Connaissances relatives agrave ce domaine particuliegraverement concerneacute parle problegraveme de lrsquointeacutegration de donneacutees Dans le cas de donneacutees relatives au geacutenotype notre systegravemeSNP-Converter permet de reacuteconcilier les diffeacuterentes repreacutesentations des variations geacutenomiques Dans lecas drsquoinvestigations cliniques notre systegraveme iSO-Pharm permet de cumuler des donneacutees relatives augeacutenotype au pheacutenotype et au meacutedicament provenant drsquoinvestigations reacuteelles
151
152 Conclusion et perspectives
Enfin nous avons expeacuterimenteacute notre meacutethode drsquo lrsquo dans le contexte drsquoune instancieacutee pariSO-Pharm agrave partir drsquoune investigation clinique particuliegravere et de donneacutees compleacutementaires provenantde bases de donneacutees publiques Nos reacutesultats confortent et enrichissent les reacutesultats publieacutes sur cet essaiqui ont eacuteteacute obtenus gracircce aux meacutethodes statistiques classiques pour ce genre drsquoeacutetudes De plus lrsquointer-preacutetation des reacutesultats de la fouille a permis drsquoinseacuterer de nouvelles connaissances dans la initiale
Les perspectives susciteacutees par ce travail sont nombreuses En premier lieu il conviendrait de deacutefinirune proceacutedure drsquoeacutevaluation de la pertinence et de la nouveauteacute des uniteacutes de connaissances deacutecou-vertes par lrsquoapproche drsquo proposeacutee dans cette thegravese Une telle proceacutedure pourrait srsquoappuyer sur desmesures comparant les uniteacutes de connaissances au contenu preacutealable de la pour aider lrsquoexpert dansla tacircche de validation des reacutesultats de fouille Une deuxiegraveme perspective plus vaste porte sur lrsquoeacutelar-gissement du domaine drsquoapplication consideacutereacute ie la pharmacogeacutenomique agrave lrsquoeacutetude plus globale desinteractions gegravenes-environnement En effet les traitements meacutedicamenteux et les facteurs geacuteneacutetiquesne sont pas les seuls eacuteleacutements ayant un impact sur les traits du pheacutenotype Par exemple lrsquoeacutetat nutri-tionnel les micro-organismes intestinaux les maladies veacutecues lrsquoacircge drsquoun individu ont des impacts surson pheacutenotype et donc sur sa reacuteponse agrave un meacutedicament Dans cette direction il est possible drsquoeacutetendreles connaissances repreacutesenteacutees dans SO-Pharm pour consideacuterer les influences possibles de nouveauxfacteurs Il serait alors possible drsquoenvisager de peupler la version eacutetendue de SO-Pharm agrave partir des reacute-sultats drsquoessais ou de cohortes eacutetudiant de faccedilon plus geacuteneacuterales ces interactions gegravenes-environnement[Mau06 CLC+06 ORT08 RLSN08] La base de connaissances reacutesultante pourrait ecirctre utiliseacutee suivantlrsquoapproche drsquo proposeacutee dans cette thegravese avec comme objectif drsquoanalyser simultaneacutement les influ-ences quantitatives et qualitatives des divers facteurs sur le pheacutenotype Suivant cette ideacutee il serait in-teacuteressant drsquoutiliser des meacutethodes de fouilles de donneacutees alternatives agrave celles expeacuterimenteacutees dans le cadrede lrsquo Par exemple lrsquoextraction de motifs rares la classification hieacuterarchique la fouille de donneacuteestemporelles sont des meacutethodes qui paraissent adapteacutees aux particulariteacutes du domaine Lrsquoutilisation desconnaissances agrave priori pour la deacutecouverte de connaissances sur les interactions gegravenes-environnement re-pose eacutegalement sur la formalisation de la notion de pheacutenotype de ces diffeacuterents niveaux de granulariteacutede ces variations inter-individuelles et temporelles Une troisiegraveme perspective porte sur lrsquoappropriationpar les experts des outils de gestion des connaissances Les nombreux travaux exploitant les technologiesdu Web seacutemantiques laissent preacutesager lrsquoeacutemergence de systegravemes permettant de compleacuteter et drsquointerrogerune via un environnement de visualisation intuitif qui exploite par exemple la structure en grapheinheacuterente agrave une impleacutementeacutee en OWL ou encore les capaciteacutes drsquointerrogation du langage SPARQL[RMKM08 BdLM08] Lrsquointeacutegration de ces avanceacutees au niveau drsquoune interface utilisateur permettrait agravelrsquoexpert drsquoecirctre plus autonome tout au long du processus drsquo Enfin une quatriegraveme perspective est lrsquoap-plication de lrsquoapproche drsquo agrave des domaines diffeacuterents de celui de la pharmacogeacutenomique De tellesexpeacuterimentations permettraient drsquoeacutevaluer agrave quel point notre approche est geacuteneacuterique
Au terme de ce travail il apparaicirct que les contributions apporteacutees tant au domaine de lrsquoinforma-tique qursquoagrave celui de la pharmacogeacutenomique sont fructueuses et prometteuses Le caractegravere particuliegravere-ment interdisciplinaire de cette thegravese nous a conduit au deacuteveloppement de systegravemes opeacuterationnels pourla pharmacogeacutenomique agrave partir de technologies du Web seacutemantique Cependant le rocircle de la pharma-cogeacutenomique dans ce travail de thegravese ne se limite pas agrave un simple domaine drsquoapplication Par la com-plexiteacute de ses probleacutematiques ce domaine a orienteacute et motiveacute les approches informatiques proposeacutees quiresteront applicables agrave drsquoautres domaines Nous espeacuterons ainsi avoir contribueacute agrave la concreacutetisation du Webseacutemantique en deacutepassant le niveau du Web de donneacutees (en anglais Web of data)
Annexe A
Algorithme de recherche des RMN et desRMNR
153
154 Annexe A Algorithme de recherche des RMN et des RMNR
Description
Cet algorithme permet la recherche des Regravegles Minimales Non-redondantes (RMN) et des RegraveglesMinimales Non-Redondantes Reacuteduites (RMNR) [Sza06] Pour cela il prend en entreacutee trois paramegravetres (1) les motifs fermeacutes freacutequents (MFF) (2) les geacuteneacuterateurs freacutequents (GF) et (3) les valeurs du supportdes motifs Pour deacutecrire cet algorithme nous utilisons deux fonctions
getProperSuperSet prend deux paramegravetres un ensemble S de motifs et un motif p La fonctionretourne le super motif direct de p dans S Cette fonction peut tirer parti drsquoune structuration desmotifs sous forme drsquoun treillis
getSupportOf prend en paramegravetre un motif quelconque et renvoie son support Cette fonction peuteacutegalement tirer parti de lrsquoorganisation en treillis des motifs
R Lrsquoalgorithme peut ecirctre facilement adapteacute pour isoler les ensembles de regravegles qui corre-spondent agrave la Base Geacuteneacuterique (BG) la Base Informative (BI) et la Base Informative Reacuteduite (BIR)[Sza06]
Algorithme
Algorithme A1 Recherche des RMN et des RMNR
Entreacutee MFF GF valeurs de support des motifsSortie ensemble des RMN et des RMNR
1 Pour chaque geacuteneacuterateur g
2 CG larr getProperSuperSet(MFFg) retourne le super motif de g parmi les MFF3 4 Pour chaque eacutelement c de CG
5 premisselarr g
6 conclusionlarr (cg)7 supportPremisselarr gsupport8 supportConclusionlarr getSupportOf(conclusion)9 10 reglelarr (premisserarr conclusion)11 12 si conf(regle) ge min_con f conf(regle)=supp(csupp(g))13 Lrsquoeacutetape suivante est optionnelle Elle doit ecirctre exeacutecuteacutee14 si lrsquoon souhaite extraire les RMNR au lieu des RMN15 si conf(regle) 1016 CG larr CGgetProperSuperSet(MFFc) le supermotif de c est eacutelimineacute de CG17 fin si18 Rlarr R cup regle19 fin si20 Pour chaque22 Pour chaque23 Retourner R
Annexe B
Constructeurs en
155
156 Annexe B Constructeurs en
Nom du syntaxe syntaxe seacutemantique associeacuteeconstructeur en OWLConcept C C (URI) CI sube ∆I
Concept universel ⊤ owlThing ⊤I = ∆I
Bottom perp owlNothing perpI= empty
Intersection C ⊓ D intersectionOf(C D) (C ⊓ D)I = CI cap DI
Union C ⊔ D unionOf(C D) (C ⊔ D)I = CI cup DI
Neacutegation notC complementOf(C) (notC)I = ∆I CI
Enumeacuteration a b oneOf(a b ) a b I = aI bI
Quantificateur existRC restriction(R (existRC)I = x|existy (x y) isin RI and y isin CI
existentiel someValuesFrom(C))Quantificateur forallRC restriction(R (forallRC)I = x|forally (x y) isin RI rarr y isin CI
universel allValuesFrom(C))Restriction agrave ni Ra restriction(R (ni Ra)I = x|(x aI) isin RI
une valeur ou Ra hasValue(a))Restrictions = n R restriction(R (= n R)I = x| cardy|(x y) isin RI = n
non qualifieacutees cardinality(C))de cardinaliteacute gt n R restriction(R (gt n R)I = x| cardy|(x y) isin RI gt n
minCardinality(C))6 n R restriction(R (6 n R)I = x| cardy|(x y) isin RI 6 n
maxCardinality(C))Quantificateur existST restriction(S (existST)I = x|existy (x y) isin SI and y isin TI
existentiel someValuesFrom(T ))Quantificateur forallST restriction(S (forallST)I = x|forally (x y) isin SI rarr y isin TI
universel allValuesFrom(T ))Restriction agrave ni Sa restriction(S (ni Sa)I = x|(x aD) isin SI
une valeur ou Sa hasValue(a))Restriction = n S restriction(S (= n S)I = x| cardy|(x y) isin SI = n
non qualifieacutee cardinality(T ))de cardinaliteacute gt n S restriction(S (gt n S)I = x| cardy|(x y) isin SI gt n
minCardinality(T ))6 n S restriction(S (6 n S)I = x| cardy|(x y) isin SI 6 n
maxCardinality(T ))
T B1 ndash Constructeurs de concepts en Logique de Descriptions et leurs correspondances en OWLC et D sont des concepts (respectivement C et D sont des classes) T est un concept particulier qui cor-respond agrave un type de donneacutees (un Datatype en OWL) n est un nombre a et b sont des individus R unrocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) et S un rocircle dont le co-domaine correspond agrave unconcept de mecircme type que T (une proprieacuteteacute de donneacutees ou DatatypeProperty en OWL)
157
nom du constructeur syntaxe en syntaxe abstraite OWL seacutemantique associeacuteeRocircle inverse Rminus inverseOf(R) (Rminus)I = (x y) | (y x) isin RIComposition de R Q ndash (R Q)I = (x z) | existy(x y) isin RI
rocircle and(y z) isin QI
T B2 ndash Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWL R etQ sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL)
158 Annexe B Constructeurs en
Annexe C
Exemple de code OWL
159
160 Annexe C Exemple de code OWL
F C1 ndash Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacute dansle fichier ldquoexemple_de_bcowlrdquo
Annexe D
Modegravele conceptuel de SO-Pharm
161
162 Annexe D Modegravele conceptuel de SO-Pharm
F D1 ndash Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptualisationde SO-Pharm
Annexe E
Captures drsquoeacutecrans de SNP-Converter
163
164 Annexe E Captures drsquoeacutecrans de SNP-Converter
F E1 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il propose deseacutelectionner une liste de sources de donneacutees et une portion du geacutenome un exon un intron un gegravene entierou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecution de la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permet lrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permetdrsquoeacutevaluer le recouvrement des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans lecadre intituleacute Database overlapp Par exemple le premier variant de la liste est initialement preacutesent dansles 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquement dans PharmGKB le troisiegravemeest dans HGVBase et PharmGKB
165
F E2 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose de saisirla descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de description diffeacuterent pourdeacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecution par le biais du bouton Run construitla description du variant donneacutee selon la description demandeacutee TPMT_exon_6 129GgtC Le variantdonneacute en entreacutee peut ecirctre soit un identifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclatureHGVS
F E3 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans la FigureE2 Cette figure repreacutesente en plus les diffeacuterents type de description suivant lesquelles il est possiblede convertir le variant donneacute nomenclature HGVS du variant positionneacute relativement agrave la seacutequence duchromosome de contigs de lrsquoexon de lrsquointron de la proteacuteine ou encore lrsquoidentifiant du variant dansdbSNP
166 Annexe E Captures drsquoeacutecrans de SNP-Converter
Annexe F
Algorithme de parcours drsquoun graphedrsquoassertions
167
168 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions
Description
Lrsquoalgorithme suivant permet lrsquoexploration en profondeur drsquoun graphe drsquoassertions Ga(V E) avec ndash une profondeur maximale pmax la longueur maximale drsquoun chemin est limiteacutee par pmax dont la
valeur est preacuteciseacutee par lrsquoanalyste en deacutebut de processusndash lrsquointerdiction de faire des boucles lrsquoalgorithme interdit agrave un mecircme chemin de passer deux fois
par le mecircme nœudndash lrsquointerdiction de revenir en arriegravere apregraves avoir emprunteacute un arc dans un sens lrsquoalgorithme interdit
drsquoemprunter lors de lrsquoeacutetape suivante un arc avec le mecircme label en sens inverseCet algorithme correspond agrave une exploration iteacuterative en profondeur limiteacutee notamment par les trois
critegraveres eacutenumeacutereacutes ci-dessus Pour plus de lisibiliteacute nous articulons notre algorithme en trois fonctions ndash Exploration-graphe-d-assertionndash Exploration-profondeur-limiteacutee etndash EPL-reacutecursive
La description de ces trois fonctions srsquoinspire des algorithmes drsquoexploration en profondeur limiteacutee pro-poseacutees dans le livre de Russel et Norvig [RN03]
169
Algorithme
Algorithme F1 Parcours en profondeur drsquoun graphe drsquoassertions
1 fonction Exploration-graphe-d-assertion(Ga dmax)retourne un ensemble de chemins
2 ensembleDeChemins ≔ empty initialisation3 pour chaque pro f ondeur 6 dmax
4 si Exploration-profondeur-limiteacutee interruption5 ensembleDeChemins ≔ ensembleDeChemins
cup Exploration-profondeur-limiteacutee(Ga pro f ondeur)6 fin si7 fin pour8 retourner ensembleDeChemins
9 fonction Exploration-profondeur-limiteacutee(Ga pro f ondeur)retourne un ensemble de chemins pour une profondeur donneacutee ou interruption
10 a ≔ Nœud-racine[Ga] a est le nœud racine du graphe Ga11 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup b ensemble de nœud visiteacutes11 retourner EPL-reacutecursive(Ga a pro f ondeur) reacutesultat de la fonction EPL-reacutecursive
12 fonction EPL-reacutecursive(Ga x pro f ondeur)retourne un chemin ou interruption
13 Rminus ≔ NIL initialisation drsquoun arc Rminus14 pour chaque b isin Adjacent[x] pour chaque nœud adjacent agrave x15 si b lt Vvisiteacute[Ga] le nœud adjacent nrsquoa pas eacuteteacute visiteacute
et (x b) Rminus lrsquoarc (x b) nrsquoest pas lrsquoinverse du dernier arc emprunteacuteet Profondeur[b] 6 pro f ondeur lrsquoexploration respecte la limite
16 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup a17 Rminus ≔ Inverse[(x b)] Rminus est lrsquoarc inverse de celui emprunteacute18 chemin ≔ AjouterNœud(chemin b)19 EPL-reacutecursive(Ga b pro f ondeur)20 retourner chemin
21 sinon22 retourner interruption23 fin si24 fin pour
170 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions
Annexe G
Captures drsquoeacutecrans du plugin de Proteacutegeacute 4pour lrsquoAAR
171
172 Annexe G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR
F G1 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles
Annexe H
RMNR extraites de la relative agravelrsquoinvestigation clinique du montelukast
173
174 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast
Regravegles associant des geacutenotypes
Regravegle H1 (supp=049 conf=1)
presents_clinical_item chr16_16045823T-T =gt presents_clinical_item chr16_16047215T-T
Regravegle H2 (supp=038 conf=96)
presents_clinical_item chr16_16047215C-T =gt presents_clinical_item chr16_16045823C-T
Regravegle H3 (supp=064 conf=095)
presents_clinical_item chr16_15994334C-C =gt presents_clinical_item chr16_15986618G-G
Regravegle H4 (supp=044 conf=090)
presents_clinical_item chr10_45190694C-T
presents_clinical_item chr10_45211490A-G =gt presents_clinical_item chr10_45221095A-G
Regravegle H5 (supp=041 conf=1)
presents_clinical_item chr10_45198914A-A
presents_clinical_item chr10_45221095A-G =gt presents_clinical_item chr10_45211490A-G
Regravegle H6 (supp=039 conf=086)
presents_clinical_item chrX_77367837A-A =gt presents_clinical_item chrX_77346486T-T
presents_clinical_item chrX_77389891G-G
presents_clinical_item chrX_77356650G-G
presents_clinical_item chrX_77334462A-A
Regravegle H7 (supp=031 conf=095)
presents_clinical_item chrX_77389891A-G
presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G
Regravegles associant geacutenotype pheacutenotype et traitement
Regravegle H8 (supp=020 conf=080)
presents_clinical_item chr12_94941021A-A
presents_clinical_item chr16_16143440C-G =gt presents_clinical_item ExaNo
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
175
Regravegle H9 (supp=021 conf=081)
presents_clinical_item chr10_45211490A-A =gt presents_clinical_item Per__-inf-008_
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
Regravegle H10 (supp=026 conf=080)
presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G
presents_clinical_item Per__-inf-008_
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
Regravegle H11 (supp=020 conf=1)
presents_clinical_item chr12_94941021A-G
presents_clinical_item ExaYes =gt presents_clinical_item chr16_16024772C-C
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
Regravegle H12 (supp=026 conf=075)
presents_clinical_item chr5_179153244A-C
presents_clinical_item ExaNo =gt presents_clinical_item chr16_16024772C-C
is_enrolled_in_o_is_defined_by_o_is_composed_of
montelukast_treatment
176 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast
Bibliographie
[AAD+96] S Agarwal R Agrawal P Deshpande A Gupta JF Naughton R Ramakrishnan andS Sarawagi On the computation of multidimensional aggregates In VLDB rsquo96 Pro-
ceedings of the 22th International Conference on Very Large Data Bases pages 506ndash521San Francisco CA USA 1996 Morgan Kaufmann Publishers Inc
[ABB+00] M Ashburner CA Ball JA Blake D Botstein H Butler JM Cherry APDavis K Dolinski SS Dwight JT Eppig MA Harris DP Hill L Issel-TarverA Kasarskis S Lewis JC Matese JE Richardson M Ringwald GM Rubin andG Sherlock Gene Ontology tool for the unification of biology Nat Genet 25(1) 25ndash29 2000
[ABC+99] RB Altman M Bada XJ Chai M Whirl Carrillo RO Chen and NF Abernethy Ri-boWeb An ontology-based system for collaborative molecular biology IEEE Intelligent
Systems 14(5) 68ndash76 1999
[ABG+06] M Ackermann B Berendt Marko Grobelnik A Hotho D Mladenic G SemeraroM Spiliopoulou G Stumme V Svaacutetek and M van Someren editors Semantics Web
and Mining Joint International Workshops EWMF 2005 and KDO 2005 Porto Portu-
gal October 3 and 7 2005 Revised Selected Papers volume 4289 of Lecture Notes in
Computer Science Springer 2006
[ABH95] SS Anand DA Bell and JG Hughes The role of domain knowledge in data miningIn CIKMrsquo95 Proceedings of the fourth international conference on Information and
knowledge management pages 37ndash43 New York NY USA 1995 ACM
[AEB+08] E Antezana M Egantildea B De Baets M Kuiper and V Mironov ONTO-PERL AnAPI for supporting the development and analysis of bio-ontologies Bioinformatics24(6) 885ndash887 2008
[AFC99] DB Aronow F Fangfang and WB Croft Ad hoc classification of radiology reportsJ Am Med Inform Assoc 6(5) 393ndash411 1999
[AIS93] R Agrawal T Imielinski and AN Swami Mining association rules between sets ofitems in large databases In P Buneman and S Jajodia editors SIGMOD Conferencepages 207ndash216 ACM Press 1993
[AK02] RB Altman and T Klein Challenges for biomedical informatics and pharmacoge-nomics Annu Rev Pharmacol Toxicol 42 113ndash33 2002
[AMB06] Y An J Mylopoulos and A Borgida Building semantic mappings from databases toontologies In AAAI AAAI Press 2006
[BA96] RJ Brachman and T Anand The process of knowledge discovery in databases InUM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in
Knowledge Discovery and Data Mining pages 37ndash57 AAAIMIT Press 1996
177
178 Bibliographie
[Bar02] MR Barnes SNP and mutation data on the Web - hidden treasures for uncoveringComp Funct Genomics 3(1) 67ndash74 2002
[Bat08] A Bateman Editorial Nucleic Acids Research 36(Database issue D1) 2008
[Bax06] AD Baxevanis Searching the NCBI databases using Entrez Curr Protoc Bioinfor-
matics 1(3) 2006
[BB06] CA Ball and A Brazma Mged standards work in progress Omics 10 138ndash44 2006
[BBL05] F Baader S Brandt and C Lutz Pushing the EL envelope In Kaelbling and Saffiotti[KS05] pages 364ndash369
[BC08] BioPAX Consortium BioPAX Biological pathways exchange http wwwbiopaxorg(derniegravere consultation 14 juillet 2008)
[BCBF08] A Bairoch S Cohen-Boulakia and C Froidevaux editors Data Integration in the
Life Sciences 5th International Workshop DILS 2008 Evry France June 25-27 2008
Proceedings volume 5109 of Lecture Notes in Computer Science Springer 2008
[BCGP04] J Barrasa O Corcho and A Goacutemez-Peacuterez R2O an extensible and semantically baseddatabase-to-ontology mapping language In Semantic Web and Databases Second Inter-
national Workshop SWDB 2004 Toronto Canada 2004
[BCM+03] F Baader D Calvanese DL McGuinness D Nardi and PF Patel-Schneider editorsThe Description Logic Handbook Theory Implementation and Applications Cam-bridge University Press 2003
[BCM05] P Buitelaar P Cimiano and B Magnini Ontology Learning from Text Methods Eval-
uation and Applications volume 123 of Frontiers in Artificial Intelligence IOS Press2005
[BDdG94] P Benlian F Dairou and JL de Gennes Apports de la geacuteneacutetique moleacuteculaire dans leshypercholesteacuteroleacutemies pures primitives Bulletin de lrsquoAcadeacutemie nationale de meacutedecine178(3) 393ndash404 Mar 1994
[BdLM08] F Badra M drsquoAquin J Lieber and T Meilender EdHibou a customizable interfacefor decision support in a semantic portal In International Semantic Web Conference
poster 2008
[BFG+04] P Buitelaar J Franke M Grobelnik G Paass and V Svatek editors Proceedings of
the Workshop on Knowledge Discovery and Ontologies at ECMLPKDDrsquo04 Pisa ItalySeptember 2004
[BFMD05] J C Barrett B Fry J Maller and M J Daly Haploview analysis and visualization ofLD and haplotype maps Bioinformatics 21(2) 263ndash5 Jan 2005
[BGL08] F Baader S Ghilardi and C Lutz LTL over description logic axioms In Baader et al[BLM08]
[BGSS07] F Baader B Ganter B Sertkaya and U Sattler Completing description logic knowl-edge bases using formal concept analysis In MM Veloso editor IJCAI pages 230ndash2352007
[BGvH+03] P Bouquet F Giunchiglia F van Harmelen L Serafini and H Stuckenschmidt C-owl Contextualizing ontologies In D Fensel KP Sycara and J Mylopoulos editorsInternational Semantic Web Conference volume 2870 of Lecture Notes in Computer
Science pages 164ndash179 Springer 2003
[BHS02] B Berendt A Hotho and G Stumme editors Proceedings of the Workshop on Semantic
Web Mining (SWMrsquo02 at ECMLPKDDrsquo02) Helsinki Finland August 2002
179
[BKvH02] J Broekstra A Kampman and F van Harmelen Sesame A generic architecture forstoring and querying RDF and RDF Schema In I Horrocks and JA Hendler editorsInternational Semantic Web Conference volume 2342 of Lecture Notes in Computer
Science pages 54ndash68 Springer 2002
[BLHL01] T Berners-Lee J Hendler and O Lassila The semantic Web Scientific American284(5) 35ndash43 May 2001
[BLM08] F Baader C Lutz and B Motik editors Proceedings of the 21st International Workshop
on Description Logics (DL2008) Dresden Germany May 13-16 2008 volume 353 ofCEUR Workshop Proceedings CEUR-WSorg 2008
[BPH05] A Bernstein FJ Provost and S Hill Toward intelligent assistance for a data min-ing process An ontology-based approach for cost-sensitive classification IEEE Trans
Knowl Data Eng 17(4) 503ndash518 2005
[Bri06] L Brisson Inteacutegration de connaissances expertes dans un processus de fouille de don-
neacutees pour lrsquoextraction drsquoinformations pertinentes Thegravese en informatique Universiteacute deNice - Sophia Antipolis France Deacutec 2006
[BS85] RJ Brachman and JG Schmolze An overview of the KL-ONE knowledge representa-tion system Cognitive Science 9(2) 171ndash216 1985
[BS04] F Baader and B Sertkaya Applying formal concept analysis to description logics InEklund [Ekl04] pages 261ndash286
[BSc07] B Berendt V Svagravetek and F Zelezny editors Proceedings of the Workshop on Prior
Conceptual Knowledge in Machine Learning and Knowledge Discovery (PriCKLrsquo07) at
ECMLPKDDrsquo07 Warsaw Poland September 2007
[BTN08] R Bendaoud Y Toussaint and A Napoli PACTOLE A methodology and a systemfor semi-automatically enriching an ontology from a collection of texts In PW Eklundand O Haemmerleacute editors ICCS volume 5113 of Lecture Notes in Computer Sciencepages 203ndash216 Springer 2008
[CBBDF07] S Cohen-Boulakia O Biton SB Davidson and C Froidevaux BioGuideSRS query-ing multiple sources with a user-centric perspective Bioinformatics 23(10) 1301ndash13032007
[CCH01] P Clerkin P Cunningham and P Hayes Ontology discovery for the semantic Webusing hierarchical clustering In Bettina Berendt Gerd Stumme Andreas Hotho editorProceedings of the Workshop on Semantic Web Mining (SWMrsquo01 at ECMLPKDDrsquo01)pages 27ndash38 Freiburg Germany September 2001
[CCQF05] J Chabalier C Capponi Y Quentin and G Fichant ISYMOD a knowledge warehousefor the identification assembly and analysis of bacterial integrated systems Bioinformat-
ics 21(7) 1246ndash1256 2005
[CFCH01] WW Chapman M Fizman BE Chapman and PJ Haug A comparison of classifica-tion algorithms to automatically identify chest x-ray reports that support pneumonia J
Biomed Inform 34(1) 4ndash14 2001
[CG05] D Calvanese and G De Giacomo Data integration A logic-based perspective AI
Magazine 26(1) 59ndash70 2005
[CGL+98] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Description logicframework for information integration In KR pages 2ndash13 1998
180 Bibliographie
[CGL+01] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Data integrationin data warehousing Int J Cooperative Inf Syst 10(3) 237ndash271 2001
[CGL+06] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Data complexityof query answering in description logics In P Doherty J Mylopoulos and CA Weltyeditors KR pages 260ndash270 AAAI Press 2006
[CGL+07] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Tractable rea-soning and efficient query answering in description logics The l-lite family J Autom
Reasoning 39(3) 385ndash429 2007
[CGLR04] D Calvanese G De Giacomo M Lenzerini and R Rosati Logical foundations ofpeer-to-peer data integration In A Deutsch editor PODS pages 241ndash251 ACM 2004
[CGLV01] D Calvanese G De Giacomo M Lenzerini and MY Vardi View-based query answer-ing and query containment over semistructured data In G Ghelli and G Grahne editorsDBPL volume 2397 of Lecture Notes in Computer Science pages 40ndash61 Springer 2001
[CHS05] P Cimiano A Hotho and S Staab Learning concept hierarchies from text corporausing formal concept analysis Journal of the Artifical Intelligence Research 24 305ndash339 2005
[CHST04] P Cimiano A Hotho G Stumme and J Tane Conceptual knowledge processing withformal concept analysis and ontologies In Eklund [Ekl04] pages 189ndash207
[CLC+06] TA Clayton JC Lindon O Cloarec H Antti C Charuel G Hanton JP Provost JLLe Net D Baker RJ Walley JR Everett and JK Nicholson Pharmaco-metabonomicphenotyping and personalized drug treatment Nature 440(7087) 1073ndash1077 2006
[CMF+07] G Colombo D Merico G Frisoni M Antoniotti F De Paoli and G Mauri An on-tological modeling approach to neurovascular disease study the NEUROWEB case InProceedings of the International Workshop on Network Tools and Applications in Biol-
ogy (NETTABrsquo07) pages 177ndash186 Pisa Italy 2007
[Con01] The International Human Genome Sequencing Consortium Initial sequencing and anal-ysis of the human genome Nature 409 860ndash921 2001
[Con03] The International HapMap Consortium The International HapMap Project Nature426 789ndash796 2003
[Con05] The International HapMap Consortium A second generation human haplotype map ofover 31 million snps Nature 449(7164) 851ndash861 2005
[CR04] C Carpineto and G Romano Concept Data Analysis Theory and Applications JohnWiley amp Sons Chichester England 2004
[CRS+04] H Cespivova J Rauch V Svatek M Kejkula and M Tomeckova Roles of medical on-tology in association mining CRISP-DM Cycle In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery
and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004
[CSTB+06] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes SNP-Converter An ontology-based solution to reconcile heterogeneous SNP descriptions forpharmacogenomic studies In U Leser F Naumann and BA Eckman editors DILSvolume 4075 of Lecture Notes in Computer Science pages 82ndash93 Springer 2006
[CSTB+08] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes Ontology-guided data preparation for discovering genotype-phenotype relationships BMC Bioin-
formatics 9(Suppl 4) S3 2008
181
[CSTND06] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Suggested Ontologyfor Pharmacogenomics (SO-Pharm) Modular construction and preliminary testing InProceedings of the International Workshop on Knowledge Systems in Bioinformatics -
KSinBITrsquo06 volume LNCS 4277 pages 648ndash57 2006
[CSTND08a] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Ontology refinementthrough Role Assertion Analysis Example in pharmacogenomics In Baader et al[BLM08]
[CSTND08b] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Role Assertion Analysis a proposed method for ontology refinement through assertion learning In Proceedings
of the Fourth Starting AI Researchersrsquo Symposium (STAIRS 2008) pages 47ndash58 IOSPress 2008
[CWT06] TH Cheng CP Wei and VS Tseng Feature selection for medical data mining Com-parisons of expert judgment and automatic approaches In CBMS pages 165ndash170 IEEEComputer Society 2006
[dBL+07] M drsquoAquin F Badra S Lafrogne J Lieber A Napoli and L Szathmary Case basemining for adaptation knowledge acquisition In Proc of the 20th Intl Joint Conf on
Artificial Intelligence (IJCAIrsquo07) pages 750ndash755 Hyderabad India Jan 2007 MorganKaufmann Inc
[DCGR98] R Dieng O Corby A Giboin and M Ribiegravere Methods and tools for corporate knowl-edge management Technical Report RR-3485 INRIA 1998
[dDA00] J den Dunnen and S Antonarakis Mutation nomenclature extensions and suggestions todescribe complex mutations a discussion Hum Mutat 15(1) 7ndash12 2000
[dDP03] J den Dunnen and M Paalman Standardizing mutation nomenclature why bother Hum Mutat 22(3) 181ndash182 2003
[Dev99] KJ Devlin Infosense Turning Information into Knowledge W H Freeman amp CoNew York NY USA 1999
[DGDM91] J Desmeules MP Gascon P Dayer and M Magistris Impact of environmental andgenetic factors on codeine analgesia Eur J Clin Pharmacol 41(1) 23ndash6 1991
[dLN07] M drsquoAquin J Lieber and A Napoli La repreacutesentation de points de vue dans le systegravemedrsquoaide agrave la deacutecision en canceacuterologie KASIMIR In Special issue Vues Points de vue
rocircles et paradigmes proches Du concept agrave son exploitation volume 13 pages 143ndash175Hermes - Lavoisier 2007
[DMS05] F Dau ML Mugnier and G Stumme editors Conceptual Structures Common Se-
mantics for Sharing Knowledge 13th International Conference on Conceptual Struc-
tures ICCS 2005 Kassel Germany July 18-22 2005 Proceedings volume 3596 ofLecture Notes in Computer Science Springer-Verlag Berlin Heidelberg 2005
[DPW08] M Dibernardo R Pottinger and M Wilkinson Semi-automatic Web service compo-sition for the life sciences using the BioMoby semantic Web framework J Biomed
Inform March 2008
[DQ86] R Ducournau and J Quinqueton encore un langage agrave objets agrave base de framesTechnical Report 72 INRIA 1986
[DS08] K Dellschaft and S Staab Strategies for the Evaluation of Ontology Learning IOSPress 2008
182 Bibliographie
[Duc00] R Ducournau Des langages agrave objets aux logiques terminologiques les systegravemes clas-sificatoires In Rapport de Recherche 96ndash030 LIRMM Montpellier 2000
[EA93] T Etzold and P Argos SRS - an indexing and retrieval tool for flat file data librariesComputer Applications in the Biosciences 9(1) 49ndash57 1993
[ea01] J Craig Venter et al The sequence of the human genome Science 291 1304ndash13512001
[Ekl04] PW Eklund editor Concept Lattices Second International Conference on Formal Con-
cept Analysis ICFCA 2004 Sydney Australia February 23-26 2004 Proceedings vol-ume 2961 of Lecture Notes in Computer Science Springer 2004
[ER95] J Euzenat and F Rechenmann SHIRKA 10 ans crsquoest TROPES In A Napoli editorLMO pages 13ndash34 INRIA 1995
[ER99] WE Evans and MV Relling Pharmacogenomics translating functional genomics intorational therapeutics Science 286(5439) 487ndash91 1999
[ER04] WE Evans and MV Relling Moving towards individualized medicine with pharma-cogenomics Nature 429 464ndash468 2004
[ES07] J Euzenat and P Shvaiko Ontology Matching Springer 2007
[FdE08] N Fanizzi C drsquoAmato and F Esposito Conceptual clustering and its application toconcept drift and novelty detection In S Bechhofer M Hauswirth J Hoffmann andM Koubarakis editors ESWC volume 5021 of Lecture Notes in Computer Sciencepages 318ndash332 Springer 2008
[FFR97] A Farquhar R Fikes and J Rice The Ontolingua Server a tool for collaborativeontology construction Int J Hum-Comput Stud 46(6) 707ndash727 1997
[FGPJ97] M Fernandez A Gomez-Perez and N Juristo METHONTOLOGY from ontologicalart towards ontological engineering In Proceedings of the AAAI97 Spring Symposium
Series on Ontological Engineering pages 33ndash40 Stanford USA 1997
[Fis87] DH Fisher Knowledge acquisition via incremental conceptual clustering Machine
Learning 2(2) 139ndash172 1987
[Flo05] CS Flordellis The emergence of a new paradigm of pharmacogenomics Pharmacoge-
nomics 6(5) 515ndash526 2005
[Fou08] The OBO Foundry OBO Foundry policy document Technical report 2008
[FPSM91] WJ Frawley G Piatetsky-Shapiro and CJ Matheus Knowledge discovery indatabases An overview In Knowledge Discovery in Databases pages 1ndash30 AAAIMITPress 1991
[FPSS96] UM Fayyad G Piatetsky-Shapiro and P Smyth From data mining to knowledgediscovery An overview In Fayyad et al [FPSSU96] pages 1ndash34
[FPSSU96] UM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in
Knowledge Discovery and Data Mining AAAIMIT Press 1996
[Fre98] AA Freitas On objective measures of rule surprisingness In Zytkow and Quafafou[ZQ98] pages 1ndash9
[FRS05] S Ferreacute O Ridoux and B Sigonneau Arbitrary relations in formal concept analysisand logical information systems In Dau et al [DMS05] pages 166ndash180
183
[Gai89] BR Gaines An ounce of knowledge is worth a ton of data quantitative studies ofthe trade-off between expertise and data based on statistically well-founded empiricalinduction In Proceedings of the sixth international workshop on Machine learningpages 156ndash159 San Francisco CA USA 1989 Morgan Kaufmann Publishers Inc
[Gan84] B Ganter Two basic algorithms in concept analysis Technical report TechnischeHochschule Darmstadt 1984
[Gan05] A Gangemi Ontology design patterns for semantic Web content In Y Gil E MottaV Richard Benjamins and MA Musen editors International Semantic Web Confer-
ence volume 3729 of Lecture Notes in Computer Science pages 262ndash276 Springer2005
[GBe07] KM Giacomini CM Brett and RB Altman et al The pharmacogenetics researchnetwork from SNP discovery to clinical drug response Clinical pharmacology and ther-
apeutics 81(3) 328ndash45 2007
[GCCL06] A Gangemi C Catenacci M Ciaramita and J Lehmann Modelling ontology evalua-tion and validation In Y Sure and J Domingue editors ESWC volume 4011 of Lecture
Notes in Computer Science pages 140ndash154 Springer 2006
[GDF+04] Y Gasche Y Daali M Fathi A Chiappe S Cottini P Dayer and J DesmeulesCodeine intoxication associated with ultrarapid cyp2d6 metabolism N Engl J Med351(27) 2827ndash31 2004
[GE03] I Guyon and A Elisseeff An introduction to variable and feature selection Journal of
Machine Learning Research 3 1157ndash1182 2003
[GKM04] P Gottgtroy N Kasabov and S MacDonell An ontology driven approach for knowl-edge discovery in biomedicine In Proceedings of the 8th Pacific Rim International Con-
ference on Artificial Intelligence volume LNAI 3157 pages 53ndash67 Berlin Germany2004 Springer
[GMB+05] E Gueacuterin G Marquet A Burgun O Loreacuteal L Berti-Equille U Leser and F Mous-souni Integrating and warehousing liver gene expression data and related biomedicalresources in gedaw In B Ludaumlscher and L Raschid editors DILS volume 3615 ofLecture Notes in Computer Science pages 158ndash174 Springer 2005
[GPCGFL03] A Gomez-Perez O Corcho-Garcia and M Fernandez-Lopez Ontological Engineer-
ing Springer-Verlag New York Inc Secaucus NJ USA 2003
[Gru93] TR Gruber A translation approach to portable ontology specifications Knowledge
Acquisition 5(2) 199ndash220 1993
[GS08] C Goble and R Stevens State of the nation in data integration for bioinformatics J
Biomed Inform February 2008
[GSC+08] RA George TD Smith S Callaghan L Hardman C Pierides O Horaitis MAWouters and Cotton RG General mutation databases analysis and review Journal
of Medical Genetics 45(2) 65ndash70 2008
[GSK+88] FJ Gonzalez RC Skoda S Kimura M Umeno UM Zanger DW Nebert HVGelboin JP Hardwick and UA Meyer Characterization of the common genetic defectin humans deficient in debrisoquine metabolism Nature 331(6155) 442ndash446 1988
[GVM93] A Gueacutenoche and I Van Mechelen Galois approach to the induction of concepts InCategories and concepts Theorical views and inductive data analysis pages 287ndash308Academic Press 1993
184 Bibliographie
[GW99] B Ganter and R Wille Formal Concept Analysis Mathematical Foundations Springer1999
[GW04] C Goble and C Wroe The Montagues and the Capulets Conference papers Comp
Funct Genomics 5(8) 623ndash632 2004
[Hac04] MS Hacid Special issue on Web data integration Introduction Information Systems29(1) 1ndash2 2004
[Hal01] AY Halevy Answering queries using views A survey VLDB J 10(4) 270ndash294 2001
[Hal05] AY Halevy Why your data wonrsquot mix ACM Queue 3(8) 50ndash58 2005
[HBWCH+08] T Hernandez-Boussard M Whirl-Carrillo JM Hebert L Gong R Owen M GongW Gor F Liu C Truong R Whaley M Woon T Zhou RB Altman and TEKlein The pharmacogenetics and pharmacogenomics knowledge base accentuatingthe knowledge Nucleic Acids Res 36(Database issue) D913ndashD918 2008
[HF94] J Han and Y Fu Dynamic generation and refinement of concept hierarchies for knowl-edge discovery in databases In Proceedings of AAAIrsquo94 Workshop on Knowledge Dis-
covery in Databases (KDDrsquo94) pages 157ndash168 1994
[HHNV07] M Rouane Hacene M Huchard A Napoli and P Valtchev A proposal for combin-ing formal concept analysis and description logics for mining relational data In SOKuznetsov and S Schmidt editors ICFCA volume 4390 of Lecture Notes in Computer
Science pages 51ndash65 Springer 2007
[HJ02] HJMotulsky Biostatistique une approche intuitive De Boeck Universiteacute 2002
[HK01] J Han and M Kamber Data Mining Concepts and Techniques Morgan Kaufmann2001
[HLTB04] I Horrocks L Li D Turi and S Bechhofer The Instance Store DL reasoning withlarge numbers of individuals In V Haarslev and R Moumlller editors Description Logicsvolume 104 of CEUR Workshop Proceedings CEUR-WSorg 2004
[HM03] V Haarslev and R Moumlller Racer A core inference engine for the semantic WebIn Y Sure and O Corcho editors EON volume 87 of CEUR Workshop ProceedingsCEUR-WSorg 2003
[HMS05] U Hustadt B Motik and U Sattler Data complexity of reasoning in very expressivedescription logics In Kaelbling and Saffiotti [KS05] pages 466ndash471
[Hor07] I Horrocks OBO flat file format syntax and semantics and mapping to OWL Webontology language Technical report University of Manchester 2007
[HPSvH03] I Horrocks P F Patel-Schneider and F van Harmelen FromSHIQ and RDF to OWL the making of a web ontology language J Web Sem 1(1) 7ndash26 2003
[HRT+05] ML Hastings N Rest D Traum A Stella G Guanti and AR Krainer An LKBI AT-AC intron mutation causes Peutz-Jeghers syndrome via splicing at noncanonical crypticsplice site Struct Mol Biol 12(1) 54ndash59 2005
[HSS06] BM Hemminger B Saelim and PF Sullivan TAMAL an integrated approach tochoosing SNPs for genetic studies of human complex traits Bioinformatics 22(5) 626ndash627 2006
[HVK+02] MK Higashi DL Veenstra LM Kondo AK Wittkowsky SL SrinouanprachanhFM Farin and AE Rettie Association between CYP2C9 genetic variants andanticoagulation-related outcomes during warfarin therapy JAMA 287(13) 1690ndash16982002
185
[HY90] R Hull and M Yoshikawa Ilog Declarative creation and manipulation of object iden-tifiers In D McLeod R Sacks-Davis and HJ Schek editors VLDB pages 455ndash468Morgan Kaufmann 1990
[JKN08] N Jay F Kohler and A Napoli Analysis of social communities with iceberg andstability-based concept lattices In Medina and Obiedkov [MO08] pages 258ndash272
[KAB06] L Karoui MA Aufaure and N Bennacer Context-based hierarchical clustering for theontology learning In Web Intelligence pages 420ndash427 IEEE Computer Society 2006
[KACV+04] PD Karp M Arnaud J Collado-Vides J Ingraham IT Paulsen and MH Jr SaierThe E coli EcoCyc database No longer just a metabolic pathway database ASM News70(1) 25ndash30 2004
[Kay97] D Kayser La repreacutesentation des connaissances collection informatique hermegraves edi-tion 1997
[KCH+02] P Kogut S Cranefield L Hart M Dutra K Baclawski M Kokar and J Smith UMLfor ontology development Knowl Eng Rev 17(1) 61ndash64 2002
[KDK+05] R Karchin M Diekhans L Kelly DJ Thomas U Pieper N Eswar D Haussler andA Sali LS-SNP large-scale annotation of coding non-synonymous SNPs based onmultiple information sources Bioinformatics 21(12) 2814ndash2820 2005
[KFNM04] H Knublauch RW Fergerson N Fridman Noy and MA Musen The Proteacutegeacute OWLplugin An open development environment for semantic Web applications In SA McIl-raith D Plexousakis and F van Harmelen editors International Semantic Web Confer-
ence volume 3298 of Lecture Notes in Computer Science pages 229ndash243 Springer2004
[KJ97] R Kohavi and GH John Wrappers for feature subset selection Artif Intell 97(1ndash2) 273ndash324 1997
[KK07] F Karel and J Klema Quantitative association rule mining in genomics using apri-ori knowledge In Workshop on Prior Conceptual Knowledge in Machine Learning
and Knowledge Discovery (PriCKLrsquo07) at ECMLPKDD 2007 pages 53ndash64 WarsawPoland September 2007
[KKS+04] A Kasprzyk D Keefe D Smedley D London W Spooner C Melsopp M HammondP Rocca-Serra T Cox and E Birney Ensmart A generic system for fast and flexibleaccess to biological data Genome Res 14(1) 160ndash169 2004
[KLW08] PD Karp TJ Lee and V Wagner BioWarehouse Relational integration of elevenbioinformatics databases and formats In Bairoch et al [BCBF08] pages 5ndash7
[KLWW08] B Konev C Lutz D Walther and F Wolter Semantic modularity and module extractionin description logics In ECAI 2008 18th European Conference on Artificial Intelligence
Patras Greece Proceedings pages 55ndash59 2008
[KN01] L Kruglyak and DA Nickerson Variation is the spice of life Nature Genetics 27 234ndash236 2001
[KO02] SO Kuznetsov and SA Obiedkov Comparing performance of algorithms for generat-ing concept lattices J Exp Theor Artif Intell 14(2ndash3) 189ndash216 2002
[KPL03] J Koumlhler S Philippi and M Lange SEMEDA ontology based semantic integration ofbiological databases Bioinformatics 19(18) 2420ndash2427 2003
[KPS+06] A Kalyanpur B Parsia E Sirin B Cuenca Grau and JA Hendler Swoop A Webontology editing browser J Web Sem 4(2) 144ndash153 2006
186 Bibliographie
[Kry02] M Kryszkiewicz Concise representations of association rules In Proceedings of the
ESF Exploratory Workshop on Pattern Detection and Discovery pages 92ndash109 LondonUK 2002 Springer-Verlag
[KS05] L Pack Kaelbling and A Saffiotti editors IJCAI-05 Proceedings of the Nineteenth
International Joint Conference on Artificial Intelligence Edinburgh Scotland UK July
30-August 5 2005 Professional Book Center 2005
[Kuz07] SO Kuznetsov On stability of a formal concept Ann Math Artif Intell 49(1ndash4) 101ndash115 2007
[Len02] M Lenzerini Data integration A theoretical perspective In L Popa editor PODSpages 233ndash246 ACM 2002
[LFZ99] N Lavrac PA Flach and B Zupan Rule evaluation measures A unifying view InS Dzeroski and PA Flach editors ILP volume 1634 of Lecture Notes in Computer
Science pages 174ndash185 Springer 1999
[LHCM00] B Liu W Hsu S Chen and Y Ma Analyzing the subjective interestingness of associ-ation rules IEEE Intelligent Systems 15(5) 47ndash55 2000
[LN05] U Leser and F Naumann (almost) hands-off information integration for the life sci-ences In CIDR pages 131ndash143 2005
[LNST08] J Lieber A Napoli L Szathmary and Y Toussaint First elements on KnowledgeDiscovery guided by Domain Knowledge (kddk) In S B Yahia E M Nguifo andR Belohlavek editors Concept Lattices and Their Applications (CLA 06) Lecture Notesin Artificial Intelligence 4923 pages 22ndash41 Springer Berlin 2008
[LWZ08] C Lutz F Wolter and M Zakharyaschev Temporal description logics A survey InProceedings of the 15th International Symposium on Temporal Representation and Rea-
soning time pages 3ndash14 2008
[LY05] H Liu and L Yu Toward integrating feature selection algorithms for classification andclustering IEEE Trans Knowl Data Eng 17(4) 491ndash502 2005
[LZG+06] JJ Lima S Zhang A Grant L Shao KG Tantisira H Allayee J Wang J SylvesterJ Holbrook R Wise ST Weiss and K Barnes Influence of leukotriene pathwaypolymorphisms on response to montelukast in asthma Am J Respir Crit Care Med173(4) 379ndash85 2006
[Mar03] FM Marincola Translational medicine A two-way road Journal of Translational
Medicine 1(1) 1 2003
[Mau06] S Maumus Approche de la complexiteacute du syndrome meacutetabolique et de ses indicateurs
de risque par la mise en oeuvre de meacutethodes numeacuteriques et symboliques de fouille de
donneacutees Thegravese en eacutepideacutemiologie et santeacute publique Universiteacute Henri Poincareacute ndash Nancy1 France Nov 2006
[MBB+08] F Mougin A Burgun O Bodenreider J Chabalier O Loreacuteal and P Le Beux Auto-matic methods for integrating biomedical data sources in a mediator-based system InBairoch et al [BCBF08] pages 61ndash76
[McG05] Ken McGarry A survey of interestingness measures for knowledge discovery The
Knowledge Engineering Review 20(1) 39ndash61 2005
[McK98] VA McKusick Mendelian inheritance in man a catalog of human genes and geneticdisorders 1998
187
[MD07a] D Martin and J Domingue Semantic Web services Part 1 IEEE Intelligent Systems22(5) 12ndash17 2007
[MD07b] D Martin and J Domingue Semantic Web services Part 2 IEEE Intelligent Systems22(6) 8ndash15 2007
[MDNST05] N Messai MD Devignes A Napoli and M Smaiumll-Tabbone Querying a bioinformaticdata sources registry with concept lattices In Dau et al [DMS05] pages 323ndash336
[MFJ+07] MD Mailman M Feolo Y Jin M Kimura K Tryka R Bagoutdinov L HaoA Kiang J Paschall L Phan N Popova S Pretel L Ziyabari M Lee Y Shao ZYWang K Sirotkin M Ward M Kholodov K Zbicz J Beck M Kimelman S ShevelevD Preuss E Yaschenko A Graeff J Ostell and ST Sherry The NCBI dbGaP databaseof genotypes and phenotypes Nat Genet 39(10) 1181ndash1186 2007
[MK08] P Hitzler M Kroumltzsch S Rudolph Description logic rules In ECAI 2008 18th Eu-
ropean Conference on Artificial Intelligence 2008 Patras Greece Proceedings pages80ndash84 2008
[MKS04] HM Muumlller EE Kenny and PW Sternberg Textpresso an ontology-based infor-mation retrieval and extraction system for biological literature PLoS Biol 2(11) e3092004
[MMK+03] RH Mathijssen S Marsh MO Karlsson R Xie SD Baker J Verweij A Spar-reboom and HL McLeod Irinotecan pathway genotype analysis to predict pharma-cokinetics Clin Cancer Res 9(9) 3246ndash3253 2003
[MO08] R Medina and SA Obiedkov editors Formal Concept Analysis 6th International Con-
ference ICFCA 2008 Montreal Canada February 25-28 2008 Proceedings volume4933 of Lecture Notes in Computer Science Springer 2008
[MTB+99] I Martinelli E Taioli P Bucciarelli S Akhavan and PM Mannucci Interaction be-tween the G20210A mutation of the prothrombin gene and oral contraceptive use in deepvein thrombosis Arterioscler Thromb Vasc Biol 19(3) 700ndash703 1999
[Mug91] Stephen Muggleton Inductive Logic Programming New Generation Comput 8(4) 2951991
[MVB+95] C Meacutedigue T Vermat G Bisson A Viari and A Danchin Cooperative computersystem for genome sequence analysis In CJ Rawlings DA Clark RB AltmanL Hunter T Lengauer and SJ Wodak editors ISMB pages 249ndash258 AAAI 1995
[MZCC04] AA Mitchell ME Zwick A Chakravarti and DJ Cutler Discrepancies in dbSNPconfirmation rates and allele frequency distributions from varying genotyping error ratesand patterns Bioinformatics 20(7) 1022ndash1032 2004
[Nap92] A Napoli Repreacutesentations agrave objets et raisonnement par classification en intelligence ar-
tificielle Doctorat drsquoeacutetat egraves sciences matheacutematiques Universiteacute Henri Poincareacute ndash Nancy1 France Jan 1992
[NB04] Z Nazeri and E Bloedorn Exploiting available domain knowledge to improve min-ing aviation safety and network security data In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery
and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004
[NBS+06] MCY Ng L Baum WY So VKL Lam Y Wang E Poon B Tomlinson S ChengK Lindpaintner and JCN Chan Association of lipoprotein lipase S447X apolipopro-tein E exon 4 and apoC3 -455T-C polymorphisms on the susceptibility to diabeticnephropathy Clin Genet 70 20ndash28 2006
188 Bibliographie
[NED00] A Napoli J Euzenat and R Ducournau Les repreacutesentations des connaissances parobjets Technique et Science Informatiques 19(1ndash3) 387ndash394 2000
[NM01] N F Noy and D McGuinness Ontology development 101 A guide to creating yourfirst ontology Technical report 2001
[NMG05] AC Need AG Motulsky and DB Goldstein Priorities and standards in pharmacoge-netic research Nat Genet 37(7) 671ndash81 2005
[NR06] N F Noy and A Rector Defining n-ary relations on the semantic Web Technical reportW3C 2006
[Ome01] B Omelayenko Learning of ontologies for the Web the analysis of existent approaches2001
[ORS+02] DE Oliver DL Rubin JM Stuart M Hewett TE Klein and RB Altman On-tology development for a pharmacogenetics knowledge base In Pacific Symposium on
Biocomputing pages 65ndash76 2002
[ORT08] RP Owen Altman RB and Klein TE PharmGKB and the international warfarinpharmacogenetics consortium the changing role for pharmacogenomic databases andsingle-drug pharmacogenetics Hum Mutat 29(4) 456ndash460 2008
[PB01] J Phillips and BG Buchanan Ontology-guided knowledge discovery in databasesIn K-CAPrsquo01 Proceedings of the 1st international conference on Knowledge capturepages 123ndash130 New York NY USA 2001 ACM
[PGC+01] M Page J Gensel C Capponi C Bruley P Genoud D Zieacutebelin D Bardou andV Dupierris A new approach in object-based knowledge representation The AROMsystem In L Monostori J Vaacutencza and M Ali editors IEAAIE volume 2070 of Lec-
ture Notes in Computer Science pages 113ndash118 Springer 2001
[PLC+08] A Poggi D Lembo D Calvanese G De Giacomo M Lenzerini and R Rosati Link-ing data to ontologies J Data Semantics 10 133ndash173 2008
[PRAC06] D Peacuterez-Rey A Anguita and J Crespo Ontodataclean Ontology-based integrationand preprocessing of distributed data In N Maglaveras I Chouvarda V Koutkias andRW Brause editors ISBMDA volume 4345 of Lecture Notes in Computer Sciencepages 262ndash272 Springer 2006
[RAC+06] MC Rousset P Adjiman P Chatalic F Goasdoueacute and L Simon Somewhere in thesemantic Web In J Wiedermann G Tel J Pokornyacute M Bielikovaacute and J Stuller editorsSOFSEM volume 3831 of Lecture Notes in Computer Science pages 84ndash99 Springer2006
[RBJ00] J Rumbaugh G Booch and I Jacobson Le guide de lrsquoutilisateur UML Eyrolles 2000
[RDM05] DL Rubin O Dameron and MA Musen Use of description logic classification toreason about consequences of penetrating injuries In Proceedings of the AMIA Annu
Symp pages 649ndash653 2005
[Rec00] F Rechenmann From data to knowledge Bioinformatics 16(5) 411 2000
[RFG+02] MC Rousset C Froidevaux H Gagliardi F Goasdoueacute C Reynaud and B Sa-far Construction de meacutediateurs pour inteacutegrer des sources drsquoinformation multiples etheacuteteacuterogegravenes le projet PICSEL Revue I3 2(1) 2002
[RIF+06] R Redon S Ishikawa KR Fitch L Feuk GH Perry and et al Global variation incopy number in the human genome Nature 444 444ndash454 2006
189
[RKC06] HZ Ring PY Kwok and RG Cotton Human variome project an international col-laboration to catalogue human genetic variation Pharmacogenomics 7(7) 969ndash9722006
[RKK+00] A Rzhetsky T Koike S Kalachikov SM Gomez M Krauthammer SH KaplanP Kra JJ Russo and C Friedman A knowledge model for analysis and simulation ofregulatory networks Bioinformatics 16(11) 1120ndash1128 2000
[RKM+05] C Rosse A Kumar JL Mejino DL Cook LT Detwiler and B Smith A strategyfor improving and integrating biomedical ontologies In Proceedings of the AMIA Annu
Symp pages 639ndash643 2005
[RLSN08] MJ Rieder RJ Livingston IB Stanaway and DA Nickerson The environmentalgenome project reference polymorphisms for drug metabolism genes and genome-wideassociation studies Drug Metabolism Review 40(2) 241ndash261 2008
[RMKM08] DL Rubin DA Moreira PP Kanjamala and Musen MA BioPortal A Web portalto biomedical ontologies 2008 AAAI Spring Symposium Series Symbiotic Relationships
between Semantic Web and Knowledge Engineering 2008
[RMM+98] C Rosse JL Mejino BR Modayur R Jakobovits KP Hinshaw and JF BrinkleyMotivation and organizational principles for anatomical knowledge representation thedigital anatomist symbolic knowledge base J Am Med Informx Assoc 5(1) 1998
[RN03] S Russell and P Norvig Artificial Intelligence - A modern approch Englewood CliffsNJ Prentice-Hall (2d Edition) 2003
[RSN07] DL Rubin NH Shah and NF Noy Biomedical ontologies a functional perspectiveBriefings in Bioinformatics 9(1) 75ndash90 2007
[Rud06] S Rudolph Relational Exploration Combining Description Logics and Formal Con-
cept Analysis for Knowledge Specification Thegravese en informatique Technischen Univer-sitaumlt ndash Dresden Germany Dec 2006
[SA95] R Srikant and R Agrawal Mining generalized association rules In U Dayal PMDGray and S Nishio editors VLDB pages 407ndash419 Morgan Kaufmann 1995
[SAA+99] G Schreiber H Akkermans A Anjewierden R Dehoog N Shadbolt W Vande-velde and B Wielinga Knowledge Engineering and Management The CommonKADS
Methodology The MIT Press December 1999
[Sah02] S Sahar Exploring interestingness through clustering A framework In ICDM pages677ndash680 IEEE Computer Society 2002
[SAR+07] B Smith M Ashburner C Rosse J Bard W Bug W Ceusters LJ Goldberg K Eil-beck A Ireland CJ Mungall The OBI Consortium N Leontis P Rocca-Serra A Rut-tenberg SA Sansone RH Scheuermann N Shah PL Whetzel and S Lewis TheOBO Foundry coordinated evolution of ontologies to support biomedical data integra-tion Nature Biotechnology 25(11) 1251ndash1255 2007
[Saiuml07] F Saiumls Inteacutegration seacutemantique de donneacutees guideacutee par une ontologie Thegravese en informa-tique Universiteacute Paris-Sud France Deacutec 2007
[SBB+00] R Stevens PG Baker S Bechhofer G Ng A Jacoby NW Paton CA Goble andA Brass Tambis Transparent access to multiple bioinformatics information sourcesBioinformatics 16(2) 184ndash186 2000
[Ser07] B Sertkaya Formal Concept Analysis Methods for Description Logics Thegravese en infor-matique Technischen Universitaumlt ndash Dresden Germany Nov 2007
190 Bibliographie
[SHB01] G Stumme A Hotho and B Berendt editors Proceedings of the Workshop on Semantic
Web Mining (SWMrsquo01 at ECMLPKDDrsquo01) Freiburg Germany September 2001
[SHSD08] B Seacuteguin B Hardy PA Singer and AS Daar Bidil recontextualizing the race debateThe Pharmacogenomics Journal 8 169ndash173 2008
[SIL05] Y Saeys I Inza and P Larrantildeaga A review of feature selection techniques in bioinfor-matics Bioinformatics 23(19) 2507ndash2517 2005
[SNK07] L Szathmary A Napoli and S O Kuznetsov ZART A Multifunctional Itemset MiningAlgorithm In Proc of the 5th Intl Conf on Concept Lattices and Their Applications
(CLArsquo07) pages 26ndash37 Montpellier France Oct 2007
[SNV07] L Szathmary A Napoli and P Valtchev Towards Rare Itemset Mining In Proc of the
19th IEEE Intl Conf on Tools with Artificial Intelligence (ICTAIrsquo07) volume 1 pages305ndash312 Patras Greece Oct 2007
[SP04] E Sirin and B Parsia Pellet An OWL DL reasoner In Proceedings of the International
Workshop on Description Logics (DL2004) 2004
[Spe08] G Spencer International consortium announces the 1000 genomes project EMBAR-
GOED 2008
[SRR05] V Svaacutetek J Rauch and M Ralbovskyacute Ontology-enhanced association mining InAckermann et al [ABG+06] pages 163ndash179
[Ste08] LD Stein Towards a cyberinfrastructure for the biological sciences progress visionsand challenges Nature Genetics 9(9) 678ndash688 2008
[SWK+01] ST Sherry MH Ward M Kholodov J Baker L Phan EM Smigielski andK Sirotkin dbSNP the NCBI database of genetic variation Nucleic Acids Res29(1) 308ndash311 2001
[SWW98] G Stumme R Wille and U Wille Conceptual knowledge discovery in databases usingformal concept analysis methods In Zytkow and Quafafou [ZQ98] pages 450ndash458
[Sza06] L Szathmary Symbolic Data Mining Methods with the Coron Platform Thegravese eninformatique Universiteacute Henri Poincareacute ndash Nancy 1 France Nov 2006
[TH06] D Tsarkov and I Horrocks FaCT++ description logic reasoner System descrip-tion In Proceedings of the International Joint Conference on Automated Reasoning
(IJCAR 2006) volume 4130 of Lecture Notes in Artificial Intelligence pages 292ndash297Springer 2006
[TKS02] PN Tan V Kumar and J Srivastava Selecting the right interestingness measure forassociation patterns In KDDrsquo02 Proceedings of the eighth ACM SIGKDD international
conference on Knowledge discovery and data mining pages 32ndash41 New York NY USA2002 ACM
[TZY+04] AL Taylor S Ziesche C Yancy P Carson R Jr DrsquoAgostino K Ferdinand M TaylorK Adams M Sabolinski M Worcel JN Cohn and African-American Heart Fail-ure Trial Investigators Combination of isosorbide dinitrate and hydralazine in blackswith heart failure N Engl J Med 351(20) 2049ndash57 2004
[UK95] M Uschold and M King Towards a methodology for building ontologies In Proceed-
ings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing 1995
[VB05] M Vanzin and K Becker Ontology-based rummaging mechanisms for the interpretationof Web usage patterns In Ackermann et al [ABG+06] pages 180ndash195
191
[vHY04] V van Heyningen and PL Yeyati Mechanisms of non-mendelian inheritance in geneticdisease Human Molecular Genetics 13(RI2) R225ndashR233 2004
[VMG04] P Valtchev R Missaoui and R Godin Formal concept analysis for knowledge discov-ery and data mining The new challenges In Eklund [Ekl04] pages 352ndash371
[VR08] J Voumllker and S Rudolph Lexico-logical acquisition of OWL DL axioms [MO08]pages 62ndash77
[Web97] WW Weber Pharmacogenetics Oxford University Press New York NY 1997
[WH03] AB Wilcox and G Hripcsak The role of domain knowledge in automating medical textreport classification J Am Med Inform Assoc 10(4) 330ndash338 2003
[Wil02] R Wille Why can concept lattices support knowledge discovery in databases J Exp
Theor Artif Intell 14(2ndash3) 81ndash92 2002
[WLT+06] K Wolstencroft P Lord L Tabernero A Brass and R Stevens Protein classificationusing ontology classification Bioinformatics 22(14) e530ndashe538 2006
[WMF+08] ST Weiss HL McLeod DA Flockhart ME Dolan NL Benowitz JA JohnsonMJ Ratain and KM Giacomini Creating and evaluating genetic tests predictive ofdrug response Nat Rev Drug Discov 7(7) 568ndash74 2008
[WMS+05] K Wolstencroft R McEntire R Stevens L Tabernero and A Brass Constructingontology-driven protein family databases Bioinformatics 21(8) 1685ndash1692 2005
[WSGA03] C Wroe R Stevens CA Goble and M Ashburner A methodology to migrate the geneontology to a description logic environment using daml+oil In Pacific Symposium on
Biocomputing pages 624ndash635 2003
[WZTS05] JTL Wang MJ Zaki HTT Toivonen and DE (Eds) Shasha Data Mining in Bioin-
formatics Springer 2005
[YHTL08] HH Yang N Hu PR Taylor and MP Lee Whole genome-wide association studyusing affymetrix SNP chip a two-stage sequential selection method to identify genesthat increase the risk of developing complex diseases Methods Mol Med 141 23ndash352008
[YL04] L Yu and H Liu Efficient feature selection via analysis of relevance and redundancyJournal of Machine Learning Research 5 1205ndash1224 2004
[YSS07] T Yu SJ Simoff and D Stokes Incorporating prior domain knowledge into a kernelbased feature selection algorithm In ZH Zhou H Li and Q Yang editors PAKDDvolume 4426 of Lecture Notes in Computer Science pages 1064ndash1071 Springer 2007
[ZQ98] JM Zytkow and M Quafafou editors Principles of Data Mining and Knowledge Dis-
covery Second European Symposium PKDD rsquo98 Nantes France September 23-26
1998 Proceedings volume 1510 of Lecture Notes in Computer Science Springer 1998
192 Bibliographie
Reacutesumeacute
Cette thegravese porte sur lrsquoutilisation drsquoontologies et de bases de connaissances pour guider diffeacuterenteseacutetapes du processus drsquoextraction de connaissances agrave partir de bases de donneacutees (ECBD) et une applica-tion dans le domaine de la pharmacogeacutenomique Les donneacutees relatives agrave ce domaine sont heacuteteacuterogegravenescomplexes et distribueacutees dans diverses bases de donneacutees ce qui rend cruciale lrsquoeacutetape preacuteliminaire depreacuteparation et drsquointeacutegration des donneacutees agrave fouiller Je propose pour guider cette eacutetape une approche orig-inale drsquointeacutegration de donneacutees qui srsquoappuie sur une repreacutesentation des connaissances du domaine sousforme de deux ontologies en logiques de description SNP-Ontology et SO-Pharm Cette approche a eacuteteacuteimpleacutementeacutee gracircce aux technologies du Web seacutemantique et conduit au peuplement drsquoune base de con-naissances pharmacogeacutenomique Le fait que les donneacutees agrave fouiller soient alors disponibles dans une basede connaissances entraicircne de nouvelles potentialiteacutes pour le processus drsquoextraction de connaissances Jeme suis drsquoabord inteacuteresseacute au problegraveme de la seacutelection des donneacutees les plus pertinentes agrave fouiller en mon-trant comment la base de connaissances peut ecirctre exploiteacutee dans ce but Ensuite jrsquoai deacutecrit et appliqueacuteagrave la pharmacogeacutenomique une meacutethode qui permet lrsquoextraction de connaissances directement agrave partir
drsquoune base de connaissances Cette meacutethode appeleacutee Analyse des Assertions de Rocircles (ou AAR) permetdrsquoutiliser des algorithmes de fouille de donneacutees sur un ensemble drsquoassertions de la base de connaissancespharmacogeacutenomique et drsquoexpliciter des connaissances nouvelles et pertinentes qui y eacutetaient enfouies
Mots-cleacutes extraction de connaissances agrave partir de bases de donneacutees inteacutegration de donneacutees seacutelectionde donneacutees repreacutesentation des connaissances ontologie base de connaissances logiques de descriptionSNP pharmacogeacutenomique
Abstract
This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowl-edge Discovery in Databases (KDD) process in the domain of pharmacogenomics Data related to thisdomain are heterogeneous complex and disseminated through several data sources Consequently thepreliminary step that consists in the preparation and the integration of data is crucial For guiding thisstep an original approach is proposed based on a knowledge representation of the domain within twoontologies in description logics SNP-Ontology and SO-Pharm This approach has been implementedusing semantic Web technologies and leads finally to populating a pharmacogenomic knowledge baseAs a result data to analyze are represented in the knowledge base which is a benefit for guiding fol-lowing steps of the knowledge discovery process Firstly I study this benefit for feature selection byillustrating how the knowledge base can be used for this purpose Secondly I describe and apply topharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledgediscovery directly from knowledge bases This method uses data mining algorithms over assertions ofour pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge
Keywords knowledge discovery in databases data integration feature selection knowledge represen-tation ontology knowledge base description logics SNP pharmacogenomics