-
Universit Paris IV - Sorbonnecole doctorale V - Concepts et
Langages
Technologies du Web Smantique pourlEntreprise 2.0
Thse
Pour lobtention du grade de
Docteur de lUniversit Paris IV - Sorbonne
Discipline: InformatiquePrsente et soutenue publiquement
Le 9 Juin 2009 par
Alexandre Passant
Dfendue devant un jury compos de:
Fabien L. Gandon, INRIA Sophia-Antipolis, Rapporteur Gilles
Kassel, Universit de Picardie, Rapporteur Jean-Pierre Descls,
Universit Paris IV - Sorbonne, Directeur Philippe Laublet,
Universit Paris IV - Sorbonne, Co-directeur Ivan Herman, CWI
Amsterdam / W3C, Examinateur Franois-Xavier Testard-Vaillant,
lectricit de France, Examinateur
|_|_|_|_|_|_|_|_|_|_|(Numro denregistrement attribu par la
bibliothque)
-
Ce mmoire est mis disposition sous un contrat Creative Commons
"Paternit-Pas dUtilisation Commerciale-Pas de Modification 2.0
France". Les dtails dece contrat sont disponibles ladresse suivante
: http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
-
Julie
-
Remerciements
Bien quelles ne maient pas permis de saisir la Grande Question
sur la Vie, lUniverset le Reste, ces quatre annes de thse mont
apport beaucoup, dun point de vue aussibien personnel que
scientifique. Il me tient ainsi cur de remercier un certain
nombrede personnes sans qui je naurai sans doute pu franchir ce
cap, en mexcusant par avanceauprs de celles et ceux que
joublie.
Tout dabord, je tiens remercier chaleureusement Philippe Laublet
pour lencadrementsans faille de cette thse. Nos longues discussions
et changes dides mont sans aucundoute fait progresser dans mes
recherches et permis de prendre le recul ncessaire pourmieux
apprhender celles-ci. Merci davoir toujours pris le temps de
rpondre mes re-qutes (souvent tardives) et pour le dtail accord la
relecture de ce mmoire. Merci gale-ment Franois-Xavier
Testard-Vaillant de mavoir propos cette thse et de mavoir fournice
terrain dexprimentation innovant et grandeur nature pour mener bien
mes recherchesau sein dEDF R&D. Merci Jean-Pierre Descls davoir
permis cette thse en mayant ac-ceuilli dans son quipe et de mavoir
montr dautres domaines de recherche, que je nauraisans doute pas eu
loccasion daborder en dautres circonstances. Merci Fabien
Gandonpour les commentaires apports la lecture de ce mmoire et les
diffrentes discussions quenous avons pu avoir ds le dbut de cette
thse, grande source de motivation. Merci GillesKassel davoir accept
de prsider le jury de cette thse, ainsi que pour lintrt port
mesrecherches et aux problmatiques abordes dans ce manuscrit. Merci
galement Ivan Her-man pour sa participation dans ce jury et
lattention porte mes travaux et leur contexteapplicatif.
Merci lensemble des personnes avec qui jai pu changer et
travailler durant cettethse, de Paris Pkin en passant bien entendu
par Galway : Axel, Fabrizio, Hak Lae, Mi-chael, Milan, Philipp,
Richard, Sergio, Yves et bien dautres encore. Nos changes et la
viva-cit que jai pu constater au sein de cette communaut ont
galement t une grande sourcede motivation et me laissent penser que
le Web a encore de belles annes devant lui. Mercibien entendu Uldis
et John pour notre collaboration fructueuse autour de SIOC, et
StefanDecker pour me permettre de continuer mes travaux dans cette
direction. Merci galement lquipe du project Athna avec qui jai
partag mes journes EDF : Aurlie, Christine,Fabien, Jean-David,
Richard et Thierry ainsi que lensemble de la C.A.V.
Enfin, merci mes amis, Guillaume et Elodie, Fred et Nolwen,
Kevin et Anne-Galle,Olivier, Bertrand et Valrie, Pierre-Yves,
Vincent et les autres, de mavoir suivi pendant cesquatre annes et
de mavoir rappel, de Paris Tokyo, quil y a une vie en dehors du
Web.
i
-
Merci mes deux familles et leurs amis pour leur soutien constant
et pour avoir suiviavec intrt lvolution de ma thse. Merci en
particulier mes parents de mavoir donnle got de la curiosit et des
sciences qui ma men jusquici et de mavoir toujours soutenudans mes
dmarches. Merci mes beaux-parents, Anne et Camille, et ma belle
famille, So-phie, Valrie, Benot et Damien, pour leurs
encouragements permanents et leur joie de vivre.Merci galement
Lilou, Prune et Lucas pour leur sourire constant. Enfin, merci
celle quia toujours t mes cts pour me soutenir et me comprendre
durant cette longue tape et qui je dois tant. Julie, ce mmoire test
ddi.
Alexandre Passant, Galway, Juin 2009
-
Rsum
Cette thse sinscrit dans le cadre des rcents travaux relatifs la
complmentarit entreWeb Smantique et Web 2.0, deux visions du Web
qui ont souvent t considres, tort,comme disjointes. Plus
particulirement, nous nous intressons lutilisation des
techno-logies du Web Smantique (i.e. langages, modles, outils et
protocoles) dans le contexte delEntreprise 2.0, vision o les outils
de plus en plus courants du Web 2.0 (blogs, wikis, ser-vices de
partage de contenus, pratiques de tagging ...) font leur apparition
dans les systmesdinformation organisationnels. Si ces outils
facilitent le partage et la collaboration entreindividus, dans
lobjectif de faire merger une Intelligence Collective au sein de
telles struc-tures, ils introduisent de nouvelles problmatiques en
termes dexploitation pertinente desinformations produites. Dune
part, la diversit des outils utiliss complexifie
lintgrationdinformations provenant de diverses sources (blogs,
wikis, flux RSS ...) fragmentes au seindu rseau dentreprise. Dautre
part, la nature plein-texte des outils utiliss rend dlicate
larutilisation de manire autonome des connaissances ainsi
produites, notamment au seindes wikis qui permettent pourtant
llaboration de bases de connaissances prennes. Enfin,les pratiques
de tagging soulvent diffrents problmes en terme de recherche
dinforma-tions, dus notamment lambigut et lhtrognit des mots-cls
utiliss, ainsi qua leurmanque dorganisation.
Afin de rpondre ces diffrentes problmes et en reprenant
lacronyme SLATES (Search,Links, Authoring, Tags, Extension,
Signals) utilis pour identifier lEntreprise 2.0, nous dfinis-sons
le paradigme SemSLATES, proposant la mise en place dune
architecture de mdiationsociale et smantique venant en support dun
ensemble doutils existants. Cette volutionimplique la dfinition et
limplmentation de diffrents composants, aussi bien en termes
dereprsentation des connaissances que darchitecture logicielle,
composants que nous avonsmis en place dans le cadre de cette thse,
en sappuyant essentiellement sur les technologiesdu Web Smantique
via les standards du W3C.
Ainsi, nos travaux ont consist dune part en la mise en place
dontologies formelles,aussi bien en terme de mtadonnes
socio-structurelles (afin de reprsenter les interactionssociales
produites au sein des diffrents applications utilises et les
contenus issus de cesinteractions) que de mtadonnes mtier (afin
dannoter les contenus eux-mmes). En ce quiconcerne le premier type,
nous avons particip activement au projet SIOC
Semantically-Interlinked Online Communities , dfinissant une
ontologie permettant de reprsenter lesactivits des communauts en
ligne et les contributions associes. En rapport au secondpoint,
nous avons dfini un certain nombre dontologies de domaine, lgres et
extensibles,
iii
-
reposant sur des modles dj existants et adopts sur le Web,
proposant ainsi certainesbonnes pratiques relatives la modlisation
de telles ontologies. Enfin, afin dtablir unlien entre ces deux
niveaux de reprsentation, nous avons mis en place le modle MOAT
Meaning Of A Tag permettant de faire le lien entre tags et
ressources du Web Smantique(classes et instances dontologies), dans
lobjectif de coupler la souplesse des folksonomieset la puissance
de lindexation smantique base sur des ontologies. Bien
quindpendants,lensemble de ces modles sarticule ainsi de manire
cohrente afin de prendre en compteles diffrentes strates de
reprsentations des connaissances ncessaires de tels
cosystmessmantiques.
Nous avons galement mis en place diffrents composants logiciels
permettant la pro-duction et lexploitation dannotations smantiques
de manire intuitive pour les utilisa-teurs finals et communiquant
au travers dun ensemble de protocoles ddis. En termes deproduction
dannotations, nous avons dvelopp diffrents services permettant
lexport au-tomatique dannotations reprsentes avec SIOC depuis des
outils de blogs, wikis et fluxRSS dans ce contexte dentreprise. Nos
travaux se sont galement concentrs sur la dfi-nition dun service de
wiki smantique afin de permettre une constitution
collaborative,ouverte et incrmentale de bases de connaissances
formelles reposant sur des ontologies,sans pour autant confronter
les utilisateurs la complexit des modles sous-jacents. Nousavons
galement propos diffrents services innovants venant tirer parti des
graphes dan-notation produits. Cest ainsi le cas dun moteur de
recherche smantique que nous avonsmis en place et qui permet de
visualiser des informations (agrges depuis diffrents
outilsdentreprise) au sujet des instances dontologies peuples
depuis les wikis, tout en propo-sant dtendre la recherche en
considrant lensemble des diffrents graphes dannotationsdisponibles
au sein du systme. Nous avons galement propos de nouvelles manires
devisualiser ces informations, notamment au travers dun systme de
mash-up combinant don-nes internes au systme organisationnel et
donnes RDF publiques et reposant sur uneinterface facettes.
Alors que lensemble de nos recherches ont t valids dans un
contexte industriel, laporte de certaines de nos propositions est
plus large que ce cadre dentreprise, et plus gn-ralement que ce
contexte dEntreprise 2.0. Diffrents travaux ont ainsi t publis sous
formedontologies publiques ou de logiciels libres, permettant leur
utilisation a grande chelle surle Web. Ainsi, ce manuscrit propose,
plus globalement, diffrentes rflexions sur la compl-mentarit, selon
nous ncessaire, entre Web 2.0 et Web Smantique, pour mener bien
lavision dun Web social et introprable.
Mots-cls :
Web 2.0, Entreprise 2.0, Web Smantique, Ontologies,
Folksonomies, Wikis, SIOC, MOAT,Linked Data
-
Abstract
This Ph.D. thesis is part of some recent works regarding the
complementarity betweenthe Semantic Web and the Web 2.0, two
visions of the Web that have often been conside-red, wrongly, as
disjoints. Especially, our focus is the use of Semantic Web
technologies (i.elanguages, models, tools and protocols) in
Enterprise 2.0 contexts, a vision in which mostof the commonly used
Web 2.0 tools (such as blogs, wikis, content-sharing services,
taggingpractices ...) became popular in corporate information
systems.
Yet, while these tools can ease the process of information
sharing and collaborationsbetween individuals, with the global aim
to create a Collective Intelligence within suchstructures, they
introduce new issues regarding how to efficiently use the
information theyhelped to produce. On the one hand, the nature and
diversity of the services used makesthe information integration
process a complex task, from various sources fragmented in
thecorporate network (blogs, wikis, RSS feeds ...). On the other
hand, the plain-text nature ofthese tools makes also difficult to
reuse the created knowledge, especially regarding wikis,generally
used as valuable knowledge bases. Finally, the practice of tagging
raises severalproblems in terms of information retrieval,
especially due to the ambiguity and heteroge-neity of the tags
used, as well as their lack of organization.
In order to solve these different issues and considering the
SLATES acronym (Search,Links, Authoring, Tags, Extension, Signals)
used to define the Enterprise 2.0 vision, we havedefined the
SemSLATES paradigm, proposing a social semantic middleware
architecture onthe top of existing enterprise services. This
proposal implies to define and implement va-rious components, both
in terms of knowledge engineering and software architecture,
com-ponents that we have developed in the context of this Ph.D.,
relying essentially on SemanticWeb technologies, via W3C
standards.
Hence, our research have consisted in modeling various formal
ontologies, in order todefine both the socio-structural meta-data
(in order to represent community interactionshappening in these
applications as well as the content emerging from these
interactions)and business data (in order to annotate the data
contained in the application) Regardingthe first type of
ontologies, we have actively participated in the SIOC project
Semantically-Interlinked Online Communities that defines a model to
represent activities of online com-munities and their related
contributions. Regarding the second one, we have defined se-veral
domain ontologies, lightweight, extensible and based on existing
and Web-used mo-dels, hence defining some good practices regarding
lightweight ontologies modeling in suchcontext. Finally, in order
to provide some relationships between these two levels of know-
v
-
ledge representation, we defined MOAT Meaning Of A Tag that
allows to create a bridgebetween tags, tagged content and Semantic
Web resources (i.e.aclasses and instances fromontologies) in order
to benefit both the flexibility of folksonomies and of the power of
se-mantic indexing based on ontologies. While being independent,
these various models arti-culate themselves in a consistent manner
in order to take into account the different layers ofknowledge
representation for such semantic ecosystems.
We have also developed several software components
(communicating between eachother thanks to a set of dedicated
protocols) in order to produce and use semantic annota-tions in a
user-friendly way for end-users. In the context of producing
semantic annotations,we wrote different services that automatically
export SIOC-based annotations from blogs,wikis and RSS feeds in
this enterprise context. We have also defined a semantic wiki
ser-vice in order to let end-users participate in a collaborative,
open and incremental processto define formal knowledge bases driven
by ontologies, without letting these users face thecomplexity of
the underlying models. Moreover, we have also designed several
innovativeservices using the produced annotations. We wrote a
dedicated semantic search engine allo-wing to browse information
(aggregated from various enterprise sources) related to ontolo-gies
instances, populated via the wikis. The engine also provides a
search extension systemby considering the whole graphs of semantic
annotations available in the ecosystem. Wehave also proposed new
ways to browse these information, building a dedicated
mash-upsystem combining internal information and public RDF data
and using a faceted browsinginterface.
While our research has been done in an industrial context, the
scope of our proposalsgoes further than this corporate context and
more generally than the Enterprise 2.0 context.Hence, various works
have then been published as public ontologies or free software,
allo-wing to be used at a Web scale. Thus, this thesis suggests,
more broadly, different ideas andthoughts regarding the
complementarity, in our opinion needed, between Web 2.0 and
theSemantic Web, to envision of a social and interoperable Web.
Keywords :
Web 2.0, Enterprise 2.0, Semantic Web, Ontologies, Folksonomies,
Wikis, SIOC, MOAT,Linked Data
-
Table des matires
Rsum iii
Abstract v
Table des matires vii
Table des figures xi
Liste des tableaux xv
Listings xvii
Introduction 1Contexte et problmatique scientifique . . . . . .
. . . . . . . . . . . . . . . . . . . 1
Contexte de la thse . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 1Motivations et axes de recherche . . . . . . .
. . . . . . . . . . . . . . . . . 2Principaux rsultats . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 4
Organisation du mmoire . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 6Plan du mmoire . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 6Guide de lecture . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1 Vers une convergence entre Web Smantique et Web 2.0
11Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 111.1 Formalismes et structures de
donnes avec le Web Smantique . . . . . . . 12
1.1.1 Vers un Web interprtable par les machines . . . . . . . .
. . . . . 121.1.2 Reprsentation des connaissances avec RDF(S) et
OWL . . . . . . 161.1.3 Interrogation de donnes avec SPARQL . . . .
. . . . . . . . . . . 251.1.4 Web Smantique et Web of Data . . . .
. . . . . . . . . . . . . . . . 27
1.2 Du consommateur au producteur avec le Web 2.0 . . . . . . .
. . . . . . . 311.2.1 Une vision participative du Web . . . . . . .
. . . . . . . . . . . . 311.2.2 Blogs, wikis, rseaux sociaux et
syndication de contenu . . . . . . 341.2.3 Mtadonnes sociales :
tags et folksonomies . . . . . . . . . . . . 39
1.3 Complmentarit entre les deux domaines . . . . . . . . . . .
. . . . . . . . 431.3.1 Synthse des deux visions . . . . . . . . .
. . . . . . . . . . . . . . 43
vii
-
1.3.2 Apports du Web 2.0 pour le Web Smantique . . . . . . . . .
. . . 441.3.3 Apports du Web Smantique pour le Web 2.0 . . . . . .
. . . . . . 46
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 47
2 SemSLATES : Une approche smantique pour lEntreprise 2.0
49Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 492.1 Web collaboratif en entreprise :
le projet Athna . . . . . . . . . . . . . . . 50
2.1.1 Origine et objectifs du projet . . . . . . . . . . . . . .
. . . . . . . . 502.1.2 Rpondre efficacement aux diffrents besoins
. . . . . . . . . . . . 532.1.3 Complmentarit gnrale des outils . .
. . . . . . . . . . . . . . . 572.1.4 Retour sur exprience . . . .
. . . . . . . . . . . . . . . . . . . . . 59
2.2 Limites de lapproche classique . . . . . . . . . . . . . . .
. . . . . . . . . . 622.2.1 Fragmentation de linformation et
htrognit des formats . . . 622.2.2 Capitalisation des connaissances
. . . . . . . . . . . . . . . . . . . 632.2.3 Tags et recherche
dinformation . . . . . . . . . . . . . . . . . . . . 632.2.4
Synthse des problmes rencontrs . . . . . . . . . . . . . . . . . .
68
2.3 cosystme smantique pour lEntreprise 2.0 . . . . . . . . . .
. . . . . . . 692.3.1 Web Smantique et mthodologie SemSLATES . . .
. . . . . . . . 692.3.2 Dfinition dune architecture sociale de
mdiation smantique . . 712.3.3 Modles, adaptateurs et services . .
. . . . . . . . . . . . . . . . . 732.3.4 Situation de lapproche
vis--vis de ltat de lart . . . . . . . . . . 77
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 81
3 Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0
83Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 833.1 Mtadonnes socio-structurelles
pour le Web 2.0 avec SIOC . . . . . . . . . 84
3.1.1 Identification des Besoins . . . . . . . . . . . . . . . .
. . . . . . . 843.1.2 Positionnement par rapport de lart . . . . .
. . . . . . . . . . . 863.1.3 Prsentation du modle de reprsentation
SIOC . . . . . . . . . . 893.1.4 Alignement avec des vocabulaires
existants . . . . . . . . . . . . . 933.1.5 SIOC, FOAF et la
portabilit des donnes Web 2.0 . . . . . . . . . 963.1.6 Adoption du
modle et valuation . . . . . . . . . . . . . . . . . . 101
3.2 Modlisation des ontologies mtier . . . . . . . . . . . . . .
. . . . . . . . . 1033.2.1 Besoins en termes de reprsentation mtier
. . . . . . . . . . . . . 1033.2.2 FOAF pour la reprsentation des
personnes physiques et morales 1043.2.3 Localisation avec Geonames
. . . . . . . . . . . . . . . . . . . . . . 1073.2.4 Ontologies des
rles et utilisation de SKOS . . . . . . . . . . . . . 1093.2.5
Articulation globale des diffrentes ontologies mtier . . . . . . .
117
3.3 MOAT pour lier tags et ontologies . . . . . . . . . . . . .
. . . . . . . . . . 1193.3.1 Tags, folksonomies et ontologies : un
tat de lart . . . . . . . . . . 1193.3.2 Reprsentation de la
signification des tags avec MOAT . . . . . . 1263.3.3 Modle de
reprsentation MOAT . . . . . . . . . . . . . . . . . . . 1283.3.4
Positionnement de MOAT par rapport ltat de lart . . . . . . .
134
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 135
-
4 Annotations smantiques et peuplement collaboratif dontologies
137Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 1374.1 Annotation smantique de
documents Web 2.0 . . . . . . . . . . . . . . . . 138
4.1.1 Une approche automatise pour lannotation
socio-structurelle . 1384.1.2 Implmentation au sein de la
plate-forme Herms . . . . . . . . . 1394.1.3 API SIOC et passage
lchelle de lannotation socio-structurelle
de documents Web 2.0 . . . . . . . . . . . . . . . . . . . . . .
. . . 1434.2 UfoWiki pour le peuplement dontologies mtier . . . . .
. . . . . . . . . . 148
4.2.1 Wikis smantiques et peuplement dontologies : intrt et tat
delart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 148
4.2.2 Objectifs, principes et architecture dUfoWiki . . . . . .
. . . . . . 1544.2.3 Architecture logicielle . . . . . . . . . . .
. . . . . . . . . . . . . . 1564.2.4 Utilisation dUfoWiki et
peuplement collaboratif dontologies . . 1614.2.5 Evaluation de
loutil et statistiques dutilisation . . . . . . . . . . 166
4.3 Du tagging lindexation smantique . . . . . . . . . . . . . .
. . . . . . . 1714.3.1 Processus dindexation smantique associ MOAT
. . . . . . . . 1714.3.2 Implmentations logicielles . . . . . . . .
. . . . . . . . . . . . . . 175
4.4 Retour sur lutilisation de MOAT dans notre contexte
dEntreprise 2.0 . . . 183Conclusion . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . 185
5 Intgration et utilisation dannotations smantiques distribues
187Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 1875.1 Stockage des donnes et
protocoles associs . . . . . . . . . . . . . . . . . . 188
5.1.1 De la ncessit dun entrept de donnes . . . . . . . . . . .
. . . 1885.1.2 Besoins et choix de lentrept . . . . . . . . . . . .
. . . . . . . . . 1925.1.3 Protocoles de communication . . . . . .
. . . . . . . . . . . . . . . 195
5.2 Enrichissement des fonctionnalits des wikis . . . . . . . .
. . . . . . . . . 1995.2.1 Utilisation de macros smantiques pour
lutilisation dannotations 1995.2.2 Contextualisation des macros
pour augmenter le potentiel de veille 2045.2.3 Interfaces avances
de visualisation et mash-ups smantiques . . . 206
5.3 Interoprabilit entre applications via les annotations . . .
. . . . . . . . . 2105.3.1 Intgration des contenus des blogs au
sein des wikis . . . . . . . . 2105.3.2 Indexation de flux RSS
guide par les annotations . . . . . . . . . 2125.3.3 Projection de
connaissances pour laide la veille technologique . 214
5.4 Recherche smantique pour lEntreprise 2.0 . . . . . . . . . .
. . . . . . . . 2155.4.1 Recherche dinformation et Web Smantique .
. . . . . . . . . . . 2155.4.2 Mise en place dun moteur de
recherche exploitant ontologies et
annotations . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 2165.4.3 Suggestion de concepts et de contenus proches .
. . . . . . . . . . 219
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 225
Conclusion gnrale 227Retour sur les impacts de la thse . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 227Perspectives et
rflexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 230
-
A Prfixes et espaces de noms utiliss dans ce mmoire 233
B Requte SPARQL pour la traduction de donnes RSS vers SIOC
235
C Ontologie des rles 237
D Exemple dannotations mtier produites avec UfoWiki 239
E Exemple dannotations socio-structurelles produites avec
UfoWiki 243
F Analyse de proprits DBpedia 247
Bibliographie 249
-
Table des figures
0.1 Organisation des chapitres . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 9
1.1 Proposition darchitecture distribue qui conduira au World
Wide Web . . . . . 131.2 Pile du Web Smantique, Fvrier 2008 . . . .
. . . . . . . . . . . . . . . . . . . 151.3 Reprsentation graphique
de triplets RDF . . . . . . . . . . . . . . . . . . . . . 181.4
Graphes nomms et identification de lauteur dun ensemble de triplets
. . . 201.5 Nuage de donnes du projet Linking Open Data . . . . . .
. . . . . . . . . . . 281.6 Le document en tant que support de
donnes pour le Web Smantique . . . . 291.7 Lcosystme Web 2.0 . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.8
Etat de la blogosphre, Avril 2007 . . . . . . . . . . . . . . . . .
. . . . . . . . . 361.9 Le Web en tant que plate-forme, lexemple de
RSS . . . . . . . . . . . . . . . . 391.10 Actions de tagging
combines autour dune mme photo . . . . . . . . . . . . 411.11
Exemple de nuage de tags (Delicious) . . . . . . . . . . . . . . .
. . . . . . . . 421.12 Web 2.0 pour le Web Smantique . . . . . . .
. . . . . . . . . . . . . . . . . . . 451.13 Web Smantique pour le
Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . 461.14
Convergence entre Web Smantique et Web 2.0 . . . . . . . . . . . .
. . . . . . 47
2.1 Utilisation de Twitter par le service Web 2.0 Slideshare
pour communiqueravec ses utilisateurs . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 52
2.2 Interface personnelle de visualisation de flux RSS au sein
dHerms . . . . . . 542.3 Coconstruction de connaissances avec les
wikis . . . . . . . . . . . . . . . . . . 562.4 Scnario idal
dutilisation des diffrents lments de publication de la plate-
forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 582.5 volution des billets et des
commentaires sur la plate-forme . . . . . . . . . . 602.6 Rsultats
dune recherche associe au tag apple sur Flickr . . . . . . . . . .
. 642.7 Tags suggrs par cooccurrence sur Delicious . . . . . . . .
. . . . . . . . . . . 662.8 Distribution des tags au sein de notre
folksonomie . . . . . . . . . . . . . . . . 672.9 Annotations
smantiques en support dun systme dEntreprise 2.0 existant
selon trois niveaux dannotations . . . . . . . . . . . . . . . .
. . . . . . . . . . 702.10 Architecture de mdiation smantique pour
lEntreprise 2.0 . . . . . . . . . . 722.11 Reprsentation unifie des
mtadonnes documentaires avec SIOC . . . . . . 752.12 Architecture
RDF Bus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 80
3.1 Intgration de donnes htrognes rparties avec SIOC . . . . . .
. . . . . . 86
xi
-
3.2 Le modle de classes et proprits de SIOC . . . . . . . . . .
. . . . . . . . . . 913.3 Comptes utilisateur et personne physique
avec SIOC et FOAF . . . . . . . . . 953.4 Interoprabilit entre
donnes sociales avec SIOC et FOAF . . . . . . . . . . . 983.5
Unification de rseaux sociaux distribus avec owl :sameAS . . . . .
. . . . . 993.6 Visualisation uniforme de rseaux sociaux distribus
. . . . . . . . . . . . . . 993.7 Utilisation combine de FOAF et
OpenID avec SparqlPress . . . . . . . . . . . 1003.8 Statistiques
de production de donnes SIOC sur le Web . . . . . . . . . . . . .
1023.9 Taxonomie des sous-classes dAgent dans Proton . . . . . . .
. . . . . . . . . . 1053.10 Relations gographiques entre entits et
transitivit de la proprit parentFeature
de Geonames . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 1103.11 Distinction entre taxonomies et
ontologies . . . . . . . . . . . . . . . . . . . . . 1133.12
Taxonomies de domaines en OWL-Full . . . . . . . . . . . . . . . .
. . . . . . . 1143.13 Taxonomies de domaines en OWL-Lite . . . . .
. . . . . . . . . . . . . . . . . . 1153.14 Taxonomies de domaines
avec SKOS . . . . . . . . . . . . . . . . . . . . . . . . 1163.15
Combinaison dontologies et base de connaissance associe pour dfinir
des
assertions au sujet dEDF . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 1183.16 Tags et actions de tagging avec la
Tag Ontology . . . . . . . . . . . . . . . . . . . 1233.17
Modlisation quadripartite de deux relations de tagging au sein dune
folkso-
nomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 1283.18 Significations globales du tag
apple avec MOAT . . . . . . . . . . . . . . . . . 1303.19
Reprsentation de la signification locale du tag apple avec MOAT et
DBpedia 1313.20 Modle de reprsentation MOAT . . . . . . . . . . . .
. . . . . . . . . . . . . . 1333.21 Articulation dontologies pour
lEntreprise 2.0 . . . . . . . . . . . . . . . . . . 136
4.1 Processus gnrique de production de donnes RDF depuis des
services Web2.0 . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 139
4.2 Processus de traduction RSS / Atom vers SIOC . . . . . . . .
. . . . . . . . . . 1414.3 Processus de traduction des donnes de
blogs et wikis vers SIOC . . . . . . . 1444.4 Exemple de traduction
dun billet de blog vers SIOC . . . . . . . . . . . . . . . 1444.5
Reprsentation de liens rdfs :seeAlso entre documents RDF avec lAPI
SIOC . 1464.6 Cartographie de rseaux sociaux avec FOAFMap . . . . .
. . . . . . . . . . . . 1484.7 Du wiki au Web Smantique . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 1494.8 Interactions
entre annotations documentaires et annotations mtier dans Ufo-
Wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 1574.9 Association dun type de page une
classe avec UfoWiki . . . . . . . . . . . . 1584.10 Cration de
formulaire pour une classe donne avec UfoWiki . . . . . . . . . .
1594.11 Architecture dun wiki au sein dUfoWiki . . . . . . . . . .
. . . . . . . . . . . 1604.12 Slection dun type de contenu avec
UfoWiki . . . . . . . . . . . . . . . . . . . 1614.13 dition dune
page wiki pour la cration dinstance via UfoWiki . . . . . . . .
1624.14 Gestion dune taxonomie de domaines avec UfoWiki . . . . . .
. . . . . . . . 1634.15 Production dannotations bases sur Geonames
avec UfoWiki . . . . . . . . . 1654.16 Statistiques dutilisation
dUfoWiki : Pages et instances . . . . . . . . . . . . . 1694.17
Statistiques dutilisation dUfoWiki : Pages, instances et triplets .
. . . . . . . 170
-
4.18 Framework utilisateur MOAT . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 1724.19 Workflow client / serveur et
processus MOAT . . . . . . . . . . . . . . . . . . . 1744.20
Interface utilisateur du module MOAT pour Drupal couple au widget
Sindice 1754.21 Choix dun concept pour dsambiguser un tag au sein
du client MOAT Athna 1774.22 Parcours de la taxonomie des classes
pour dfinir une nouvelle signification . 1784.23 Cration dune
nouvelle instance et association dun tag via le client MOAT .
1794.24 Visualisation des diffrents tags associs un concept . . . .
. . . . . . . . . . 1794.25 Architecture de LODr . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . 1804.26 Assignation
dune URI un tag particulier avec LODr . . . . . . . . . . . . . .
1814.27 Nuage de concepts avec LODr . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 181
5.1 Vision globale des actions, annotations et ontologies dun
cosystme sman-tique pour lEntreprise 2.0 . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . 189
5.2 Rpartition des ontologies et annotations au sein du systme .
. . . . . . . . . 1905.3 Architecture associe PTSW pour lindexation
et la dcouverte de docu-
ments RDF sur le Web Smantique . . . . . . . . . . . . . . . . .
. . . . . . . . 1965.4 doap :store : Annuaire et interface de
visualisation de projets logiciels mod-
liss avec DOAP . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 1975.5 Protocoles dabstraction au-dessus de
lentrept de donnes du mdiateur . . 1995.6 Processus dinterprtation
des macros au sein dUfoWiki . . . . . . . . . . . . 2005.7 Rsultat
dune macro smantique listant lensemble des associations recen-
ses au sein dun wiki . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 2035.8 Rsultat dune macro contextualise . . .
. . . . . . . . . . . . . . . . . . . . . 2055.9 URIs partages
entre graphes dannotations . . . . . . . . . . . . . . . . . . . .
2055.10 Slection de facettes partir de diffrentes ontologies . . .
. . . . . . . . . . . 2075.11 Visualisation facettes dun wiki avec
Exhibit . . . . . . . . . . . . . . . . . . 2085.12 Interface
facettes pour visualiser des donnes SIOC avec SMOB . . . . . . .
2085.13 Golocalisation dun ensemble dacteurs avec Exhibit et
Geonames . . . . . . 2095.14 Golocalisation au sein dune macro
contextualise . . . . . . . . . . . . . . . 2105.15 Interoprabilit
entre applications via lutilisation dannotations smantiques 2115.16
Projection de connaissances sur des contenus internes . . . . . . .
. . . . . . . 2145.17 Choix dun concept partir dun terme de
recherche . . . . . . . . . . . . . . . 2175.18 Rendu du moteur de
recherche smantique au sein dHerms . . . . . . . . . 2185.19 Accs
au moteur de recherche via les concepts identifis avec MOAT . . . .
. 2195.20 Identification de contenus proches via des relations
entre concepts associs . 2205.21 Identification des domaines plus
spcifiques qunergie solaire . . . . . . . . . . 2215.22
Identification dacteurs proches de Gaz de France selon une rgle
prdfinie . 2225.23 Relations entre experts et non-experts en
combinant FOAF, SIOC, MOAT et
SKOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 2235.24 Suggestion de concepts proches au
sein de LODr . . . . . . . . . . . . . . . . . 2245.25 Systme de
recommendations musicales bases sur DBpedia . . . . . . . . . .
2255.26 Vision du Web axe sur une convergence humain-machine-humain
. . . . . . . 229
-
Liste des tableaux
1.1 Exemple de rgles dinfrence RDFS . . . . . . . . . . . . . .
. . . . . . . . . . 231.2 Caractristiques compares du Web Smantique
et du Web 2.0 . . . . . . . . . 43
2.1 SLATES et la plate-forme Herms . . . . . . . . . . . . . . .
. . . . . . . . . . . 572.2 Utilisateurs et contributeurs au sein
dHerms . . . . . . . . . . . . . . . . . . 592.3 Statistiques des
flux RSS au sein dHerms . . . . . . . . . . . . . . . . . . . .
592.4 Statistiques des contributions utilisateur au sein dHerms . .
. . . . . . . . . 602.5 Tags utiliss pour le concept de Web
Smantique sur Delicious . . . . . . . . . 652.6 Distribution des
tags au sein de la plate-forme Herms . . . . . . . . . . . . .
672.7 Problmatiques soulevs par lapproche SLATES classique au sein
dHerms 682.8 Fonctionnalits compares de SLATES et SemSLATES . . . .
. . . . . . . . . . 70
3.1 Elments du module Types de SIOC . . . . . . . . . . . . . .
. . . . . . . . . . 933.2 Comparaison de diffrentes ontologies pour
la reprsentation des tags et des
objets associs . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 1253.3 Situation de MOAT par rapport ltat
de lart . . . . . . . . . . . . . . . . . . 134
4.1 Positionnement dUfoWiki par rapport dautres wikis smantiques
. . . . . 1684.2 Distribution des tags au sein de la plate-forme
Herms . . . . . . . . . . . . . 184
5.1 Associations entre URIs et termes contrles par les
utilisateurs . . . . . . . . 213
xv
-
Listings
1.1 Reprsentation Turtle de triplets RDF . . . . . . . . . . . .
. . . . . . . . . . 171.2 Reprsentation RDF/XML de triplets RDF . .
. . . . . . . . . . . . . . . . . 171.3 Exemple dassertions
modlises avec RDFa . . . . . . . . . . . . . . . . . . 181.4
Exemple de base de connaissances associe une ontologie . . . . . .
. . . . 231.5 Exemple dontologie reprsente en RDFS et srialise en
Turtle . . . . . . . 231.6 Exemple de requte SPARQL SELECT . . . .
. . . . . . . . . . . . . . . . . . 251.7 Exemple de requte SPARQL
CONSTRUCT . . . . . . . . . . . . . . . . . . . 261.8 Exemple de
requte SPARQL ASK . . . . . . . . . . . . . . . . . . . . . . . .
261.9 Exemple de requte SPARQL DESCRIBE . . . . . . . . . . . . . .
. . . . . . 261.10 Inconsistence logique cause par lutilisation de
liens owl:sameAs entre
ressources . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 301.11 Exemple de flux RSS 2.0 . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 382.1 Reprsentation
dassertions au sujet dEDF . . . . . . . . . . . . . . . . . . .
763.1 Exemple de contenu Web 2.0 avec SIOC . . . . . . . . . . . .
. . . . . . . . . 913.2 Exemple de requte SPARQL ddie SIOC . . . .
. . . . . . . . . . . . . . . 923.3 Exemple de billet de blog avec
SIOC et son module Types . . . . . . . . . . . 933.4 Utilisation de
proprits issues du DublinCore avec SIOC . . . . . . . . . . . 943.5
Rgle dinfrence pour lier SIOC et FOAF, reprsente en N3 . . . . . .
. . . 953.6 Extension de FOAF pour la gestion de diffrents types
dagents . . . . . . . 1063.7 Modlisation de partenariats entre
agents . . . . . . . . . . . . . . . . . . . . 1073.8 Localisation
dune entreprise avec FOAF et le Geo Vocabulary . . . . . . . .
1073.9 Dfinition de la proprit locatedIn de Geonames . . . . . . .
. . . . . . . 1093.10 Modle simple pour la reprsentation des rles .
. . . . . . . . . . . . . . . . 1113.11 Modle pour la reprsentation
des rles avec prise en compte du mtier et
du domaine . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 1123.12 Association dun rle un agent . . . . .
. . . . . . . . . . . . . . . . . . . . 1123.13 Modle complet pour
la reprsentation des rles . . . . . . . . . . . . . . . . 1163.14
Ensemble dassertions au sujet dEDF laide de diffrents modles . . .
. . 1193.15 Significations globales du tag "apple" avec MOAT . . .
. . . . . . . . . . . . 1303.16 Signification locale du tag "apple"
avec MOAT . . . . . . . . . . . . . . . . . 1313.17 Rgle dinfrence
pour MOAT, reprsente en N3 . . . . . . . . . . . . . . . 1324.1
Utilisation de Jena pour reprsenter des donnes RDF . . . . . . . .
. . . . . 1454.2 Requte interne au sein de MediaWiki . . . . . . .
. . . . . . . . . . . . . . . 152
xvii
-
5.1 Requte SPARQL pour linterrogation de donnes SIOC via un
moteur sup-portant les principes dinfrence RDFS . . . . . . . . . .
. . . . . . . . . . . . 194
5.2 Restriction dune requte SPARQL aux graphes produits par un
wiki donn 2015.3 Fonction PHP et requte SPARQL associes une macro
UfoWiki . . . . . . 2025.4 Requte SPARQL avec contextualisation des
macros . . . . . . . . . . . . . . 2045.5 Requte SPARQL pour
identifier des billets annots avec un concept parti-
culier . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 2125.6 Identification de pages associes un
concept proche . . . . . . . . . . . . . 2185.7 Rgle dinfrence pour
identifier deux contenus proches en utilisant MOAT,
SIOC et des relations entre URIs . . . . . . . . . . . . . . . .
. . . . . . . . . . 2205.8 Rgle dinfrence base sur SKOS pour
lidentification de concepts proches 2215.9 Rgle dinfrence pour
lidentification de concepts proches partir de rela-
tions entre domaines . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 222
-
To a computer, the Web is a flat, boring world, devoid of
meaning. This is a pity,as in fact documents on the Web describe
real objects and imaginary concepts,and give particular
relationships between them. For example, a document mightdescribe a
person. The title document to a house describes a house and also
theownership relation with a person. Adding semantics to the Web
involves twothings : allowing documents which have information in
machine-readable forms,and allowing links to be created with
relationship values. Only when we havethis extra level of semantics
will we be able to use computer power to help usexploit the
information to a greater extent than our own reading.
Tim Berners-Lee, Prsentation "W3 future directions"1st World
Wide Web Conference, Genve, Mai 1994
-
Introduction
CONTEXTE ET PROBLMATIQUE SCIENTIFIQUE
Contexte de la thse
Les travaux prsents dans ce mmoire sinscrivent dans le cadre
dune thse effectueen contrat CIFRE1 en collaboration entre le
LaLIC2, Universit Paris-Sorbonne (Paris IV) etle centre de
Recherche et Dveloppement dElectricit de France (EDF R&D par la
suite) Clamart3. Nous avons ainsi t rattachs EDF R&D de Fvrier
2005 Mai 2008, au seinde trois services successifs, poursuivant
ensuite nos travaux part entire au LaLIC puis auDERI4, National
University of Ireland, Galway, partir de Septembre 2008.
Si ce contexte nous a parfois amen chercher un compromis entre
impratifs industriels court ou moyen terme et recherche
scientifique, il nous a cependant permis de confronternos travaux
des situations relles. Ainsi, nous avons pu tester nos diffrentes
hypothseset les outils associs au sein dun systme dploy en grandeur
nature, nous permettant deprendre en compte les retours utilisateur
pour affiner certains choix. Ceci nous a en outreconduit une
certaine rigueur et essayer le plus souvent possible denvisager des
solutionsvolutives et adaptes un nombre croissant dutilisateurs. Si
cette composante appliquenous a conduits dans certains cas
dvelopper des solutions ad hoc pour lentreprise, nousavons fait en
sorte de toujours garder lesprit une problmatique de recherche plus
large demanire gnraliser nos rsultats lchelle du Web, comme nous le
verrons tout au longde ce mmoire. Ainsi, si la plupart des travaux
prsents ici trouvent leur motivation etsarticulent globalement dans
un contexte dEntreprise 2.0, la porte de certains dentre euxsavre
plus large que ce cadre industriel. Il nous a en effet sembl
pertinent de considrercette thse CIFRE non pas comme un vase clos,
mais comme un contexte dexprimentationde ce quil est possible de
raliser plus grand chelle sur le Web Smantique, notammenten faisant
le choix ds le dbut de nous baser sur les diffrents langages et
recommandationsdu W3C5.
1Conventions Industrielles de Formation par la
Recherche2Langages, Logique, Informatique et Cognition
http://www.lalic.paris4.sorbonne.fr/. NB : Len-
semble des liens hypertexte de cette thse ont t vrifis la date
du 26 Janvier 2009.3EDF R&D dispose de trois sites sur le
territoire franais, rassemblant plus de 2000 chercheurs. Plus
dun
millier dentre eux sont situs sur le site de Clamart, sur des
thmatiques aussi diverses que les nergies renou-velables ou la
scurit informatique au sein des centrales nuclaires.
http://retd.edf.fr
4Digital Enterprise Research Institute http://deri.org5World
Wide Web Consortium http://w3c.org
1
-
INTRODUCTION
Enfin, dun pont de vue plus gnral, il est important de
mentionner que nous sommesarrivs au Web Smantique (et aux travaux
de recherche prsents dans cette thse) par at-trait pour le Web et
par volont de participer, notre chelle, lvolution de ce
formidablemdium. Cest dailleurs la suite dun IUP Gnie Mathmatiques
et Informatique et dunDESS Technologies de lInternet pour les
Organisations, accompagns en parallle de plu-sieurs annes
dexprience en tant quingnieur dveloppement Web que nous avons
dcidde reprendre le chemin des tudes pour mener une thse sur le
sujet. Un DEA Informatiqueet Systmes Intelligents6 nous a ainsi
amen dcouvrir la notion dontologies ddies la modlisation de donnes
sur le Web avant de poursuivre sur un stage relatif lanno-tation
sur le Web Smantique au LaLIC, point de dpart de nos travaux. Notre
expriencepasse autour des technologies du Web et notre passion pour
celui-ci nous semblent im-portants signaler dans la mesure o ils
permettent de comprendre certains choix relatifs nos travaux. Nous
dfendons ainsi dans ce mmoire une vision assez pragmatique du
WebSmantique, et plus gnralement une vision applique de la
recherche. Cest en effet selonnous en combinant recherche et
standardisation autour de technologies cls associes uncontexte
applicatif fort que lon parviendra mener le Web son plein
potentiel7.
Motivations et axes de recherche
Les travaux prsents dans ce mmoire sinscrivent dans la ligne des
recherches au-tour du Web Smantique et du Web 2.0, deux visions
rcentes dune certaine volution duWeb. Plus particulirement, nous
nous intressons la manire dont celles-ci peuvent co-habiter et
bnficier chacune des apports de lautre. Alors quelles ont souvent,
tort, tconsidres comme disjointes, il nous semble au contraire
pertinent dtudier en quoi leurcomplmentarit permettra de conduire
un Web bas sur un ensemble dinteractions so-ciales entre
internautes et aux donnes interprtables sans ambigut par des agents
logicielsautonomes.
Cest en envisageant cette complmentarit que lon pourra terme
proposer de nou-veaux services innovants en termes dintgration, de
visualisation et de recherche dinfor-mation sur le Web, alors
considr comme une immense base de donnes sociale et distri-bue.
Plus particulirement, ltude de cette convergence nous a amen
approfondir nostravaux en fonction de trois thmatiques principales,
dont nous prsenterons de maniresuccincte diffrents rsultats dans la
seconde partie de cette introduction.
La modlisation des mtadonnes socio-structurelles associes aux
outils Web 2.0
Si le Web 2.0 a introduit de nouvelles pratiques sociales en
termes dchange dinforma-tions et dmergence de communauts en ligne,
la diversit des applications et des servicesintroduits nous
confronte invitablement une htrognit des formats de
modlisation.Chaque outil ou service dispose en effet de ses propres
modles de donnes, rendant dece fait complexes lintgration, lchange
et la recherche dinformation partir de sourcesmultiples. Si cette
diversit est problmatique dans un contexte comme celui du Web,
elle
6Celui-ci, tout comme lIUP et le DESS voqus prcdemment, a t
suivi LUniversit Paris-Dauphine(Paris IX).
7Traduction du slogan du W3C
2
-
Contexte et problmatique scientifique
lest galement dans des environnements plus restreints utilisant
ces mmes outils, tels queles systmes dinformations dEntreprise 2.0
o un accs pertinent linformation est nces-saire. Ainsi, une partie
de nos travaux a consist en la dfinition de modles pour permettrela
reprsentation commune des mtadonnes socio-structurelles associes
aux outils Web2.0 via lutilisation de technologies du Web
Smantique. Par reprsentation des mtadon-nes socio-structurelles,
nous entendons la fois la modlisation de notions documentaireset
structurelles (distinguer par exemple un billet de blog dune page
wiki, identifier le lienentre une page wiki et le wiki associ,
etc.) et celle des interactions sociales qui sy
rapportent(commentaire sur un blog, dition dune page wiki, etc.).
De tels modles permettent de dis-poser dannotations smantiques
partages depuis des systmes htrognes, facilitant ainsilintgration
de contenus depuis diffrentes plates-formes et en consquence la
recherchedinformation associe.
La reprsentation de connaissances termino-ontologiques et le
peuplement dontologies de domaine partir doutils Web 2.0
Alors que le point prcdent se concentre sur des aspects
documentaires et sociaux, il estgalement important de prendre en
compte le contenu mme de ces documents Web 2.0. Silon se rfre aux
dfinitions actuelles du Web Smantique telles que mises en avant par
leW3C "The Semantic Web is a Web of Data"8 , il sagit donc de
passer de documents aux re-prsentations des donnes du monde rel
quils contiennent. Par exemple, nous souhaitonsmodliser partir dune
page wiki intitule LaLIC quil sagit dun laboratoire de recherchebas
Paris, i.e. passer du document et du terme la reprsentation du
concept associ. Silsagit ici de thmatiques connues de peuplement
dontologies, ou de manire plus large dereprsentations de
connaissances termino-ontologiques, la problmatique qui nous
intresseici est la prise en compte de lutilisateur final dans cette
dmarche, notamment au traversdoutils Web 2.0. Alors que le Web 2.0
facilite la production de contenus documentaires,nous avons souhait
approfondir la manire dont il permet la cration, lvolution et le
par-tage de donnes, toujours au sens Web of Data, via ces outils
Web 2.0. Plus particulirementnous nous sommes ici intresss :
lutilisation de wikis pour le peuplement dontologies, en tudiant
de quelle manireces outils permettent un peuplement ouvert,
collaboratif et volutif dontologies dedomaine ;
aux relations entre les systmes dindexation libre (et spontane)
base de tags et desprocessus dindexation smantique plus classiques
o les termes dindexation sont lis des ressources
termino-ontologiques.
Nos travaux dans ce domaine nous permettent ainsi denvisager en
quoi les outils et les pro-cessus du Web 2.0 peuvent faciliter
lmergence de donnes reprsentes selon les principesdu Web
Smantique.
8http://w3c.org/2001/sw
3
-
INTRODUCTION
Lexploitation de graphes dannotations smantiques pour
linteroprabilit, la mise en commun et larecherche dinformation
Enfin, une troisime thmatique que lon peut extraire de nos
travaux et qui vient en co-rollaire des deux prcdentes est
lexploitation de graphes dannotations smantiques pourproposer de
nouveaux services valeur ajoute aux utilisateurs finals. Une des
problma-tiques du Web Smantique est en effet le problme classique
de la poule et luf : il est n-cessaire de disposer de donnes pour
en montrer toute la puissance mais il est galementncessaire de
disposer doutils les exploitant pour inciter leur production. Afin
de mettrece cercle vertueux en place, diffrentes questions se
posent, principalement vis vis desoutils permettant lexploitation
de ces annotations :
de quelle manire utiliser un nombre croissant dannotations
distribues dans un ob-jectif de signalement pertinent dinformation
?
comment masquer lutilisateur la complexit des graphes
dannotations et des algo-rithmes de parcours et de requtes associs
?
comment mettre en avant les rsultats obtenus pour que
lutilisateur final prenneconscience de la valeur des donnes
produites et accentue cette dmarche de produc-tion ?
Ainsi, si lon devait rsumer nos motivations et la problmatique
scientifique de cettethse en une phrase synthtique, nous pourrions
reformuler de la manire suivante : Com-ment combiner Web Smantique
et Web 2.0 afin de tirer profit dinteractions sociales issues
doutilsdu Web 2.0 pour la reprsentation et lexploitation de
connaissances formalises selon les principesdu Web Smantique ?
Notons galement, comme le titre de ce mmoire lindique, que
nosmotivations autour de cette convergence entre Web Smantique et
Web 2.0 sont lies les-sor rcent de la notion dEntreprise 2.0, qui
met en avant lutilisation des technologies etprincipes du Web 2.0
au sein de la sphre professionnelle.
Principaux rsultats
Rflexions sur la complmentarit entre Web 2.0 et Web
Smantique
De manire gnrale, nous avons dtaill travers nos travaux en quoi
cette complmen-tarit entre Web 2.0 et Web Smantique nous paraissait
ncessaire pour conduire un Webo les interactions sociales sont
omniprsentes dans un objectif de production de donnesinterprtables
et interoprables. Ainsi, nous avons montr en quoi le Web Smantique
et sesformalismes de reprsentation des connaissances (au sens
RDF(S)/OWL) ne sopposaientpas au contraire lutilisation doutils et
de principes Web 2.0 [Passant et Laublet, 2008c].Nos rflexions ont
port notamment sur lutilisation couple dontologies et de bases
deconnaissances en support de systmes base de tags et de
folksonomies [Passant et al., 2006][Passant, 2007c], ou encore sur
lutilisation de wikis smantiques pour permettre un peuple-ment
dontologies collaboratif, volutif et ouvert [Passant et Laublet,
2008e]. Dans ces deuxcas, il nous semble important de signaler que
nous avons pris en compte le rle actif delutilisateur, proposant
ainsi une vision du Web Smantique pense pour lutilisateur
finalaussi bien en termes de production que dutilisation
dannotations smantiques.
Ces rflexions sur la complmentarit entre Web 2.0 et Web
Smantique ont galementdonn lieu lorganisation de diffrents ateliers
nationaux [Giboin et al., 2008] et internatio-
4
-
Contexte et problmatique scientifique
naux [Breslin et al., 2008] [Hausenblas et al., 2009], la
participation plusieurs tutoriels sur lesujet dans des confrences
comme WWW9, ESWC10 ou ISWC11 et la cordaction dun livresur le sujet
[Breslin et al., 2009].
Modles de reprsentation
Afin de mettre en pratique ces rflexions, nous nous sommes
attachs la dfinition dediffrentes ontologies permettant de modliser
la fois les activits, les interactions et lescontenus crs par des
communauts Web 2.0 laide de technologies du Web Smantique.Bien que
voues des utilisations distinctes, ces diffrentes ontologies
sarticulent de ma-nire complmentaire au sein dune architecture de
mdiation smantique pour lEntreprise2.0.
En termes de modlisation des mtadonnes socio-structurelles, nous
avons ainsi contri-bu activement SIOC Semantically-Interlinked
Online Communities [Breslin et al., 2005] ,de ses dbuts sa
Soumission Membre au W3C en Juin 2007 [Berrueta et al., 2007], en
tantque coauteur de la spcification et diteur de deux documents
associs. Concernant nos tra-vaux autour de la complmentarit entre
ontologies et tags, nous avons dfini le modleMOAT Meaning Of A Tag
[Passant et Laublet, 2008b] permettant de rsoudre les pro-blmes
classiques des systmes base de tags via lutilisation de bases de
connaissances for-melles venant en support des folksonomies. Enfin,
de manire plus proche des besoins decette convention CIFRE, nous
avons galement dvelopp plusieurs vocabulaires permet-tant la
reprsentation des connaissances mtier, en se basant notamment sur
des modlespublics et abondamment utiliss sur le Web Smantique et en
proposant certaines bonnespratiques dans ce contexte.
Ainsi, nos diffrentes rflexions en termes de modles de
reprsentation ont t bn-fiques aussi bien dans le contexte
dentreprise de cette thse que de manire plus large surle Web.
Ralisations logicielles
En plus des modles voqus prcdemment, nos travaux ont galement
conduit laralisation de diffrentes implmentations logicielles. Si
celles-ci sont lies aussi bien aucontexte dentreprise de notre thse
qu des dveloppements plus larges sur le Web, ellesont toutes en
commun lobjectif de mettre en avant ce lien fort entre Web
Smantique et Web2.0.
Dune part, nous avons mis en place un ensemble doutils pour
lEntreprise 2.0 agrmen-ts de modules ddis la production automatise
dannotations smantiques, notamment partir de blogs, ainsi quun
serveur de wikis smantiques permettant la reprsentationde donnes
formalises selon les principes du Web Smantique [Passant et
Laublet, 2008d].En termes dutilisation de ces annotations, nous
avons dvelopp diffrents services de vi-sualisation de donnes RDF
ainsi quun moteur de recherche smantique pour lentreprisevenant
exploiter ontologies et annotations smantiques pour la recherche de
documents an-
9World Wide Web Conference http://www.iw3c2.org/10European
Semantic Web Conference11International Semantic Web Conference
http://iswc.semanticweb.org/
5
-
INTRODUCTION
nots [Passant et al., 2009c]. Cette architecture logicielle,
propose sous la forme dun mdia-teur smantique pour lEntreprise 2.0
[Passant, 2008a], combine ainsi outils et principes duWeb 2.0 pour
la production et visualisation dannotations et technologies du Web
Sman-tique pour la reprsentation de celles-ci.
Dautre part, nous avons dvelopp diffrentes applications Web dans
cet objectif deconvergence entre Web 2.0 et Web Smantique, certains
dveloppements ayant t mutua-liss avec les outils mis en place en
entreprise, comme par exemple diffrents plug-in pourla production
dannotations smantiques depuis le systme Drupal en utilisant les
voca-bulaires SIOC et MOAT. Nous avons galement propos une API
permettant de gnra-liser la production automatique dannotations
smantiques socio-structurelles avec SIOC[Bojars et al., 2006],
ainsi que des applications comme LODr [Passant, 2007a],
permettantdappliquer les principes de MOAT des contenus Web 2.0
issus de services comme Flickrou Delicious, ou SMOB, service de
microblogging ouvert et dcentralis reposant entire-ment sur les
standards et technologies du Web Smantique [Passant et al., 2008].
En termesde visualisation de donnes, nous pouvons galement citer
FOAFMap [Passant, 2006], undes premiers services de mash-up
smantique, proposant la golocalisation de rseaux so-ciaux modliss
en RDF.
ORGANISATION DU MMOIRE
Plan du mmoire
Ce manuscrit est dcoup en cinq chapitres auxquels viennent
sajouter cette introduc-tion et une conclusion. Si le plan gnral ne
suit pas une approche traditionnelle qui consiste introduire ltat
de lart puis nos travaux et leur valuation, chacun des chapitres
reviendrasur ces diffrents aspects en fonction du domaine abord. Ce
mmoire, qui peut se consid-rer la fois comme un ensemble de
propositions autour de la convergence entre Entreprise2.0 (et plus
gnralement Web 2.0) et Web Smantique et comme ltude dun cas
pratiqueautour de cette convergence, sorganise ainsi de la manire
suivante.
Chapitre 1: Vers une convergence entre Web Smantique et Web 2.0,
page 11
Ce premier chapitre introduira les notions de Web Smantique et
de Web 2.0, essentiellespour la bonne comprhension de ce mmoire.
Dans la premire partie, nous prsenterons unbref historique du Web
et introduirons ensuite les fondements du Web Smantique.
Nousexpliciterons RDF et la notion dURIs pour la reprsentation de
donnes, lutilisation deRDFS et OWL pour la dfinition dontologies et
lutilisation de SPARQL pour linterrogationde donnes. Nous
reviendrons galement sur le projet Linking Open Data et la vision
dunWeb of Data, notamment par rapport au Web tel que nous le
connaissons aujourdhui. Laseconde partie dtaillera la notion de Web
2.0 et les principaux changements introduits parcelui-ci. Nous
prsenterons tout dabord les principes gnraux de cette vision
participativedu Web, puis introduirons diffrents composants qui
seront au cur de nos travaux parmilesquels blogs, wikis et systmes
dannotation base de tags. Enfin, nous prsenterons unaperu gnral de
la convergence possible entre ces deux domaines. Nous conclurons
ainsice chapitre en introduisant certains des travaux qui seront
dtaills par la suite dans ce
6
-
Organisation du mmoire
mmoire, comme la notion de modles communs pour les outils Web
2.0 ou lutilisation dewikis smantiques pour le peuplement
dontologies.
Chapitre 2: SemSLATES : Une approche smantique pour lEntreprise
2.0, page 49
Nous introduirons le chapitre suivant en prsentant la notion
dEntreprise 2.0 et le sys-tme dinformation initial que nous avons
mis en place au sein dEDF. Nous identifieronsensuite ses limites,
qui motivent nos travaux relatifs la mthodologie SemSLATES que
nousavons dfinie et qui sera dtaille dans ce chapitre. Nous
prsenterons ainsi lapport dunearchitecture de mdiation smantique
dans ce contexte dEntreprise 2.0, architecture venantse greffer au
dessus de lexistant sans pour autant remettre en cause celui-ci.
Nous verronsen quoi lajout de diffrents composants logiciels sur
des outils dj prsents permet de b-nficier dune smantique commune
qui ouvre la voix une interoprabilit accrue entreapplications. Nous
comparerons galement notre proposition certains travaux
similaires,et tcherons de montrer en quoi notre approche nous
semble novatrice et pertinente parrapport ltat de lart. Ce chapitre
nous permettra galement dintroduire les trois cha-pitres suivants,
qui dtailleront les diffrents aspects ncessaires pour mener bien
cetteapproche, savoir (1) des modles communs de reprsentation, (2)
des outils dannotationssmantiques et de peuplement dontologies et
(3) des services exploitant ces ontologies etbases de
connaissances.
Chapitre 3: Rle et dfinition dun ensemble dontologies pour
lEntreprise 2.0, page 83
Ce troisime chapitre prsentera en dtail diffrentes ontologies
que nous avons misesen place dans ce contexte dEntreprise 2.0, en
distinguant les modles axs sur la reprsen-tation de donnes mtier et
ceux mis en place pour la reprsentation des structures
docu-mentaires et des interactions sociales sur le Web 2.0. La
premire partie prsentera prin-cipalement nos travaux autour de
SIOC, modle pour la reprsentation des mtadonnessocio-structurelles
pour les outils et communauts Web 2.0. Nous prsenterons dautres
mo-dles poursuivant un but similaire et dtaillerons lalignement de
SIOC avec des vocabu-laires existants. Nous aborderons galement le
rle de SIOC vis--vis des problmatiquesde portabilit des donnes
sociales. La seconde partie prsentera ensuite les diffrentes
on-tologies de domaine utilises dans notre architecture de
mdiation. Alors que ces modlessont par nature dpendants du contexte
applicatif, il nous semble utile de revenir dessusnotamment pour
expliciter en quoi lutilisation et lextension de vocabulaires
existants noussemble une bonne pratique dans un contexte
dentreprise. Nous prsenterons galementcertaines problmatiques de
modlisation dontologies auxquelles nous avons t confron-tes, et
comment nous y avons fait face. Nous dtaillerons ensuite nos
travaux en matirede reprsentation des tags et plus particulirement
la dfinition de MOAT, modle permet-tant de prendre en compte et de
modliser la signification des tags via des concepts duWeb
Smantique, offrant ainsi la possibilit dtablir un lien souple entre
folksonomies etontologies. Cette partie sera galement loccasion de
comparer ce modle aux autres ontolo-gies permettant la
reprsentation des tags et des folksonomies mais aussi de faire le
parallleavec les approches permettant lenrichissement smantique de
folksonomies de manire au-tomatique ou semi-automatique.
7
-
INTRODUCTION
Chapitre 4: Annotations smantiques et peuplement collaboratif
dontologies, page 137
Aprs avoir prsent les diffrents modles utiliss dans de tels
cosystmes sman-tiques, nous dtaillerons dans ce quatrime chapitre
les moyens mis en place pour permettreleur peuplement et ainsi
produire les annotations smantiques sy rattachant. Nous
dtaille-rons ainsi les diffrentes extensions que nous avons mises
en place pour les outils exis-tants, en prsentant galement certains
de nos efforts plus gnraux pour simplifier lanno-tation smantique
et le peuplement dontologies depuis des services Web 2.0. Ce
chapitre,plus technique que le prcdent, nous permettra tout dabord
de prsenter les processus deproduction automatique dannotations
smantiques modlises avec SIOC depuis des ou-tils existants. Nous
nous attarderons ensuite sur notre prototype de wiki smantique,
Ufo-Wiki, notamment sur la manire dont il permet de coupler la
cration dannotations socio-structurelles et le peuplement
dontologies mtier. Enfin, nous expliciterons les
processusparticipatifs associs MOAT, permettant lindexation
smantique de contenus partir desystmes base de tags et dtaillerons
diffrentes implmentations logicielles associes, uti-lises aussi
bien dans ce contexte de mdiation pour lEntreprise 2.0 que sur le
Web.
Chapitre 5: Intgration et utilisation dannotations smantiques
distribues, page 187
Aprs avoir prsent la dfinition de diffrentes ontologies pour
lEntreprise 2.0 et laproduction des annotations smantiques
associes, nous dtaillerons leur utilisation. Nousreviendrons tout
dabord sur le caractre distribu de ces annotations et le besoin de
dispo-ser dune architecture nous permettant facilement deffectuer
des requtes sur celles-ci viaun entrept de donnes centralis. Ceci
nous permettra de prsenter les diffrents protocolesde communication
mis en place, la fois en termes dagrgation de donnes et
dexploitationde celles-ci. Nous prsenterons ensuite diffrents
services venant enrichir les outils existantspar lintermdiaire des
annotations produites. Nous dtaillerons principalement (1)
lenri-chissement des wikis smantiques via un systme de macros, (2)
lutilisation dinterfacesde visualisation avances et la mise en
place de mash-ups smantiques et (3) la ralisationdun moteur de
recherche smantique venant sintgrer cette architecture. Plus
particu-lirement, nous insisterons dans ce chapitre sur la manire
dont ces outils permettent demasquer la complexit des requtes et
des modles et langages utiliss lutilisateur final.
Conclusion gnrale, page 227
Enfin, nous conclurons ce mmoire en revenant sur les diffrents
travaux prsents etla manire dont ils rpondent aux problmatiques
initiales, tout en essayant de porter unregard critique sur
ceux-ci. Nous envisagerons galement certains travaux futurs quil
noussemble important de garder lesprit dans cette perspective
globale de convergence entreWeb Smantique et Web 2.0.
Guide de lecture
Afin de guider le lecteur dans le parcours de ce mmoire, nous
proposons le guide delecture suivant (Figure 0.1, page 9). Pour un
aperu global de nos travaux, on pourra selimiter aux deux premiers
chapitres qui donneront une vision gnrale et synthtique denos
recherches. Le premier chapitre prsente ainsi les diffrentes
notions manipules alors
8
-
Organisation du mmoire
que le second donne une aperu global de nos problmatiques de
recherche et des solutionsapportes. Les trois chapitres suivants
dtaillent en profondeur nos travaux et peuvent parailleurs se
considrer comme un tout permettant dapprofondir les thmes abords
dans lesecond chapitre.
Chapitre 1
Introduction aux concepts
utiliss
Prsentation gnrale des
travaux
Prsentation dtaille des
travaux
Chapitre 2
Chapitre 5
Chapitre 4
Chapitre 3
Figure 0.1: Organisation des chapitres
9
-
Chapitre 1
Vers une convergence entre WebSmantique et Web 2.0
INTRODUCTION
Ces dernires annes ont vu la monte en puissance de deux visions
du Web, que lonpourrait premire vue considrer comme disjointes. La
premire, le Web Smantique, pro-pose une extension de celui-ci
dfinissant des formalismes de reprsentations unifies pourles donnes
dans une optique dchange et de comprhension de celles-ci par les
agents lo-giciels [Berners-Lee et al., 2001]. Lautre, communment
appele Web 2.01, est beaucoup pluspragmatique et met laccent sur la
place centrale de lutilisateur au sein de la dmarche deproduction
dinformation [OReilly, 2005]. Elle met en avant les changes,
louverture et lacollaboration entre internautes par lintermdiaire
doutils et services simples dutilisation.
Dans ce chapitre, nous introduirons tout dabord les principes du
Web Smantique et desformalismes de reprsentation associs, tout en
revenant plus particulirement sur certainsaspects qui nous
paraissent fondamentaux pour la bonne comprhension de ce
mmoire.Nous introduirons donc la notion dURI et prsenterons le
langage RDF (Section 1.1.2, page16), qui permet de reprsenter les
donnes sur le Web Smantique selon la vision du W3C,avant daborder
les notions de vocabulaires et dontologies ainsi que les langages
associs, savoir RDFS et OWL (Section 1.1.2, page 21). Si ces
diffrents points sont relatifs la pro-duction de donnes, ou
annotation smantique, il nous semble galement intressant deprsenter
les mcanismes relatifs leur interrogation. Nous expliciterons ainsi
lutilisationdu langage et protocole SPARQL (Section 1.1.3, page
25), celui-ci jouant un rle importantdans lavnement du Web
Smantique et plus concrtement dans les outils que nous
allonsprsenter par la suite. Enfin, nous aborderons linitiative
Linking Open Data, qui vise tra-duire en RDF et interconnecter un
grand nombre de donnes prsentes sur le Web, dansune vision plus
pragmatique du Web Smantique et de ce que lon appelle maintenant
pluscommunment Web of Data (Section 1.1.4, page 27).
Dans la seconde partie du chapitre, nous prsenterons ce qui
caractrise le Web 2.0 etexpliciterons en quoi cette vision
nintroduit selon nous pas de rvolution technologiquemajeure
(particulirement en termes de reprsentation des connaissances) mais
en contre-
1Nous ne discuterons pas lutilisation de ce terme. Gardons
simplement lesprit que, malgr les appella-tions, il ny a quun seul
Web.
11
-
CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB
2.0
partie modifie de manire profonde la faon dont les contenus sont
publis et changs enligne (Section 1.2, page 31). Cette rupture
concernant la production dinformations en ligne,qui est donc plus
sociale que technologique saccompagne dun certain nombre doutils
quenous prsenterons ici. En particulier, nous dtaillerons deux
outils phares de cette mou-vance, savoir les blogs (Section 1.2.2,
page 34) et les wikis (Section 1.2.2, page 36), ainsi quela notion
de rseaux sociaux (Section 1.2.3, page 42), les principes de
syndication de contenu(Section 1.2.2, page 37) et la notion de
tagging (Section 1.2.3, page 39), mthode collaborative,incrmentale
et ouverte de catgorisation. Ces diffrents points tant au cur des
travauxqui seront prsents par la suite dans ce mmoire, il nous
semble important de bien dtaillerleur fonctionnement et dentrevoir
certaines de leurs limites que nous prsenterons par lasuite
(Section 2, page 49).
Enfin, nous indiquerons dans la troisime partie de ce chapitre
pourquoi il nous sembleutile, voire ncessaire, de faire cohabiter
ces deux visions pour parvenir terme un Web olutilisateur est au
centre de la production de donnes, mais o celles-ci sont reprsentes
demanire unifie afin dautomatiser, ou tout du moins de simplifier,
certaines tches (Section1.3, page 43). Nous reviendrons ici sur les
prjugs supposs entre ces deux visions avantdtudier cette
convergence, qui conduira des espaces informationnels combinant
princi-pesaWeb 2.0 et technologies du Web Smantique. Ainsi, nous
prsenterons dune part quelspeuvent tre les avantages du Web 2.0
pour le Web Smantique, essentiellement en termesdinterfaces ddition
et dannotations smantiques et dautre part les avantages du Web
S-mantique pour le Web 2.0, cette fois-ci en termes de
structuration de donnes et de formatsdchange. Ces deux aspects nous
permettrons ainsi de voir de quelle manire cette conver-gence
conduit un cercle vertueux entre Web Smantique et Web 2.0. Cette
dernire partiedu chapitre permettra galement dentrevoir plus en
dtail les travaux qui seront dvelop-ps dans la suite de ce mmoire,
savoir lutilisation des technologies du Web Smantiquepour modliser
et structurer les donnes issues de services Web 2.0, de manire
enrichirleurs fonctionnalits.
1.1 FORMALISMES ET STRUCTURES DE DONNES AVEC LE WEB
SMANTIQUE
1.1.1 Vers un Web interprtable par les machines
En 1989, Tim Berners-Lee imagine pour le CERN2 une architecture
informatique distri-bue permettant dinterconnecter les diffrents
lments du systme dinformation interne[Berners-Lee, 1989]. Il
reprsente alors celui-ci comme un graphe o les nuds, tout commeles
arcs, sont typs et peuvent ainsi reprsenter (pour les nuds) des
outils, des documents,des projets ou des personnes ou bien encore
(pour les arcs) des relations de production,dinclusion ou
dappartenance. Afin de faciliter la navigation dans un tel systme,
sa propo-sition se base sur lutilisation de lhypertexte, tel que
dfini par Ted Nelson ds les annes60 au sein du projet Xanadu3
[Nelson, 1965]. Cest cette proposition darchitecture dcen-tralise
qui donnera par la suite naissance au World Wide Web tel que nous
le connaissonsaujourdhui.
2Organisation europenne pour la recherche nuclaire
http://cern.ch3http://www.xanadu.com/
12
-
1.1 Formalismes et structures de donnes avec le Web
Smantique
Figure 1.1: Proposition darchitecture distribue qui conduira au
World Wide Web[Berners-Lee, 1989]
Si lon observe le schma correspondant cette vision dorigine du
Web (Figure 1.1,page 13) et que lon prend en compte ltat actuel de
celui-ci, on ne peut sempcher deconstater que l o la proposition
initiale fait tat de ressources et de liens fortement typs, leWeb
tel que nous le connaissons aujourdhui ne considre que des
documents, quils soienttextuels ou multimdia et des liens
hypertextes non typs pour tablir des relations entreceux-ci. Ainsi,
si un utilisateur est en mesure didentifier le concept induit par
un document(une personne ou un projet donn ...) ainsi que la nature
du lien dfini entre deux concepts (partir des liens entre
documents), cette identification nest pas ralisable de manire
simplepar un agent logiciel. En effet, celui-ci ne considre que des
documents plein-texte (encodsdans un langage dont il ne sait pas
interprter la smantique) connects entre eux par deshyperliens
unidirectionnels non typs. De plus, les mtadonnes associes ces
documents(auteur, date de cration ...) sont elles aussi
difficilement interprtables. Enfin, mme pour unutilisateur, ces
interprtations peuvent-tre biaises puisquelles font appel
lexprience,la culture, et laffect mental de celui-ci, qui peut
diffrer selon les personnes pour un mmedocument.
Ainsi se pose le problme dun Web interprtable non seulement par
les humains maissurtout par les machines. Cest en ce sens que se
situe linitiative du Web Smantique quivise rsoudre cette
problmatique dinterprtation des donnes par les agents logiciels
:
13
-
CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB
2.0
"The Semantic Web is an extension of the current Web in which
information is given well-definedmeaning, better enabling computers
and people to work in cooperation" [Berners-Lee et al., 2001].Cest
donc bien dextension et non pas de refonte dont il est question
pour dfinir ce Webcomprhensible par les machines4. On parle
galement de Web de Donnes (Web of Data)afin dvoquer la faon dont
celui-ci permet de modliser sur le Web des
reprsentationsinterprtables de donnes et non plus uniquement de
documents au sujet de ces donnes.Nous reviendrons un peu plus tard
sur cet aspect (Section 1.1.4, page 27).
Cette volution du Web repose sur la prsence dannotations
smantiques, permettant demodliser de manire formelle (1) les
mtadonnes (date de cration, auteur, etc.) associesaux documents
prsents sur le Web et (2) les donnes prsentes au sein de ces
documents.Ces annotations smantiques, qui permettent ainsi
denvisager linterprtation des contenusen ligne, sont envisageables
partir du moment o lon dispose :
dune part dun modle commun pour identifier les ressources sur le
Web. Cest le rlejou par lutilisation des URIs Uniform Resource
Identifier [Berners-Lee et al., 2005] couples RDF Ressource
Description Framework [Klyne et Carroll, 2004] (Section1.1.2, page
16) ;
dautre part de vocabulaires permettant de dfinir de manire
formelle, mais sur-tout interprtable et interoprable, la smantique
de ces donnes. Les ontologies, ausens informatique du terme
[Gruber, 1995], jouent ici un rle important. Nous ver-rons plus
loin comment modliser des ontologies sur le Web Smantique avec
deslangages RDFS RDF Schema [Brickley et Guha, 2004] et OWL Web
Ontology Lan-guage) [Patel-Schneider et al., 2004] (Section 1.1.2,
page 21).
Nous verrons par la suite que ces annotations peuvent tre
produites selon diffrents ob-jectifs, de lindexation de documents
la modlisation du contenu de ceux-ci, les deux ap-proches pouvant
galement tre associes (Section 2.3.1, page 69).
Si cette initiative est aujourdhui essentiellement guide par les
travaux du W3C, viadiffrents groupes de travail et efforts de
standardisation mens depuis 20015, il est impor-tant de signaler
dautres travaux plus anciens, notamment Ontobroker [Decker et al.,
1999],WebKB [Martin et Eklund, 1999] ou encore SHOE6 [Heflin et
Hendler, 2000]. Ce dernier in-tgre en effet diffrents composants
permettant de rendre le contenu de pages Web compr-hensible et
exploitable par des agents logiciels :
un langage SHOE : Simple HTML Ontology Extensions7 [Luke et
Heflin, 2000] dfinisous forme dextension de HTML et permettant
dinclure directement des donnesinterprtables au sein de pages Web.
Celui-ci permet dune part de modliser les don-nes mais aussi de
dfinir leur smantique via la description dontologies (Section
1.1.2,page 21) au sein des pages ;
un agent Expos permettant de retrouver sur le Web les diffrentes
pages annotes4La machine ninterprtant quune succession de 0 et 1,
il est dlicat de parler rellement de comprhension
par les machines. On devrait plutt parler de contraintes
dinterprtation, comme le souligne [Bachimont, 2000]en voquant la
notion dengagement ontologique. On utilisera cependant ce terme
comprhension par abus delangage au sein de ce mmoire.
5http://www.w3.org/2001/sw6http://www.cs.umd.edu/projects/plus/SHOE/7http://www.cs.umd.edu/projects/plus/SHOE/spec.html
14
-
1.1 Formalismes et structures de donnes avec le Web
Smantique
pour les stocker ensuite dans un systme ddi - PARKA [Rager et
al., 1997], sur lequelil est possible deffectuer diffrentes requtes
via un langage spcifique PIQ.
On retrouve bien dans la vision actuelle du Web Smantique des
similarits avec cetteapproche combinant (1) des langages de
description de donnes et de modlisation donto-logies comme
RDF(S)/OWL et (2) des langages de requtes comme SPARQL (Section
1.1.3,page 25) et lutilisation dentrepts de donnes RDF. ceux-ci
viennent sajouter des no-tions de logique formelle, de preuve et de
confiance utilises terme par diffrentes appli-cations et reprenant
certains principes de lIntelligence Artificielle [Russell et
Norvig, 2003](Figure 1.2, page 15).
Figure 1.2: Pile du Web Smantique, Fvrier 20088
Pour terminer cette introduction au Web Smantique et avant de
dtailler les diffrentsformalismes de reprsentation utiliss dans ce
contexte, nous signalerons les travaux devisionnaires comme
Vannevar Bush et le Memex [Bush, 1945], Ted Nelson et Xanadu,
ouencore Douglas Engelbert et ses propositions de systmes
informatiques pour augmen-ter lefficience intellectuelle
[Engelbart, 1962] ou ses travaux sur lOpen Hyperdocument Sys-tem9
[Engelbart, 1990]. Ceux-ci imaginaient il y a plusieurs dizaines
dannes dj des m-thodes pour unifier et connecter des reprsentations
du monde rel via des relations types,couples des processus de
navigation dans ces reprsentations. Cest galement ce
que[Berners-Lee, 1989] proposait dans sa vision dorigine dun systme
dinformations inter-connectes : "The system we need is like a
diagram of circles and arrows, where circles and arrowscan stand
for anything". Nous pensons que les travaux du Web Smantique
permettrons
8http://www.w3.org/2001/sw/9http://www.csl.sri.com/projects/ohs/
15
-
CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB
2.0
terme de raliser ces visions dun systme o linformation est
universellement accessible,interconnecte mais surtout dfinie avec
une smantique formelle et interprtable par desagents logiciels
autonomes, de manire proposer de nouveaux services innovants
notam-ment en termes de navigation et de recherche dinformation.
Cest galement de cette ma-nire que les social machines dfinies par
[Berners-Lee et Fischetti, 1999] pourront galementvoir le jour,
dans un modle unifi dinteractions entre humains et machines.
1.1.2 Reprsentation des connaissances avec RDF(S) et OWL
Avant-propos
Nous prsenterons ici uniquement des formalismes proposs ou
standardiss via lesactivits du W3C, formalismes que nous utilisons
par ailleurs au sein des diffrents travauxprsents dans cette thse.
Pour dautres modes de reprsentation des connaissances,
enparticulier les Topic Maps [Biezunski et al., 2002] [Auillans et
al., 2002] et leur utilisation surle Web Smantique, le lecteur
pourra se rfrer la thse [Amardeilh, 2007].
Reprsentation des ressources : les URIs et RDF
RDF Ressource Description Framework [Klyne et Carroll, 2004] est
un lment fonda-mental du Web Smantique puisquil permet de
reprsenter des ressources sur le Web demanire uniforme pour les
agents logiciels l o ceux-ci ne voient dans un document textequune
succession de caractres inexploitables. Pour ce faire, chaque
ressource est identifiede manire universelle par une URI, qui peut
tre assigne aussi bien (1) une donne pr-sente sur le Web (un
document, un compte utilisateur sur un service donn ...), (2) un
objetdu monde rel (un pays, une personne ...) auquel on souhaite
associer un identifiant dansce contexte de reprsentation en ligne,
ou encore (3) une relation (lappartenance, la filiation...). Par
exemple :
http://example.org/blog/112 identifie un billet de blog sur un
site donn ; http://sws.geonames.org/3017382/ identifie la France en
tant que zone gogra-
phique ; http://apassant.net/alex identifie lauteur de ce mmoire
(et non sa page per-
sonnelle) : http://www.w3.org/2000/01/rdf-schema#label identifie
la relation qui lie une
ressource son label.Afin de dcrire ces ressources, RDF se base
sur la notion de triplets, permettant de dfinir
des assertions au sujet de celles-ci. Chaque triplet se compose
de : un sujet, i.e. la ressource laquelle on assigne une proprit,
identifie par une URI ; un prdicat, i.e. la proprit assigne la
ressource, galement identifie par une URI ; un objet, i.e. la
valeur de la proprit. Celle-ci peut tre de type primitif (chane de
ca-
ractre, entier ...) ou tre nouveau une ressource. Elle peut
ainsi tre son tour sujetdun autre triplet conduisant la formation
dun graphe, les nuds tout comme lesarcs tant reprsents par des
URIs. Tim Berners-Lee considre ainsi le Web Sman-tique comme un
Giant Global Graph par analogie avec le World Wide Web10, dans
le
10http://dig.csail.mit.edu/breadcrumbs/node/215
16
-
1.1 Formalismes et structures de donnes avec le Web
Smantique
sens o il connecte des ressources types via des proprits
identifies, l o le Webconnecte simplement des documents via des
liens hypertextes (Section 1.1.4, page 27).
Diffrentes srialisations permettent de reprsenter des assertions
modlises en RDF.Cest le cas de N3 [Berners-Lee, 2006c], Turtle
[Beckett et Berners-Lee, 2008] (sous-dialectedu prcdent), RDF/XML
11 [Beckett, 2004], ou encore des reprsentations
graphiques12.Ainsi, les deux exemples de code et la figure qui
suivent (Figure 1.3, page 18) dfinissent lesmmes informations qui
se traduisent par "EDF est une organisation situe en France",
infor-mation constitue dans cet exemple de deux triplets13, la
srialisation RDF/XML tant ellesous forme condense. Nous
remarquerons aussi dans cet exemple lutilisation de prfixeset
despaces de noms ainsi que la prsence du raccourci N3 "a" utilis
pour rdf:type14.
@prefix foaf: .@prefix rdfs: .@prefix geonames: .@prefix athena:
.
athena:EDF a foaf:Organization ;geonames:locatedIn ;rdfs:label
"Electricit de France" .
Listing 1.1: Reprsentation Turtle de triplets RDF
-
CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB
2.0
athena:EDF foaf:Organization
http://sws.geonames.org/3017382/
rdf:type
geonames:locatedIn
Electricit de France rdfs:label
Figure 1.3: Reprsentation graphique de triplets RDF
que lajout de mtadonnes directement au sein de pages Web (comme
le proposait SHOE)est aujourdhui au cur de diffrents travaux. En
effet, reprsenter les annotations au seinde documents annexes
introduit gnralement un problme de duplicit dinformations.Dans
lexemple prcdent, on peut supposer que le fait de dfinir la chane
de caractre"Electricit de France" comme valeur pour rdfs:label est
redondant avec une in-formation dj prsente au sein de la page Web
associe, certes en (X)HTML mais avec cettemme chane de caractres
(par exemple dans une balise ). Des travaux comme eRDF15ou RDFa
[Adida et Birbeck, 2008] permettent ainsi linclusion directe
dannotations RDF ausein de documents (X)HTML, le second se basant
sur lintroduction de nouveaux attributsXHTML pour y parvenir, comme
le montre lexemple ci-dessous (Listing 1.3, page 18).
-
1.1 Formalismes et structures de donnes avec le Web
Smantique
puissants que RDF(S)/OWL en termes dexpressivit (subsomption,
infrence ...), mais sontnanmoins utiliss plus frquemment sur le
Web. De plus, ceux-ci ne bnficient pas dela mme ouverture que les
ontologies, puisquun microformat ne peut voluer quaprsconsensus de
la communaut. Ces diffrentes limites leurs valent parfois le nom de
lower-case semantic web, en opposition au Web Smantique et ses
modles plus formels. Nan-moins, lutilisation de GRDDL Gleaning
Resource Descriptions from Dialects of Languages [Connolly, 2007]
permet de faire le pont entre ces diffrentes visions. GRDDL offre
en effetla possibilit de traduire diffrents dialectes XML en RDF et
permet ainsi de transformer undocument XHTML contenant des
microformats ou des annotations RDFa en donnes RDFbrutes qui
peuvent tre utilises comme nimporte quelles donnes RDF natives.
Pour en revenir aux assertions RDF elles-mmes, il est galement
possible de considrerun ou plusieurs triplets RDF comme source(s)
de nouveaux triplets, par exemple pour dfi-nir la date laquelle une
assertion a t tablie. Si une premire approche pour modliser
ceprocessus se base sur lutilisation des principes de rification
RDF17, celle-ci introduit diff-rents problmes (notamment une
explosion du nombre de triplets [Caroll et Stickler, 2004])que
[Carroll et al., 2005] permettent de rsoudre avec lutilisation des
graphes nomms (na-med graphs). La notion de graphes nomms tend
celle de graphe RDF (i.e. un ensemble detriplets18) en permettant
dassigner chacun une URI propre. Cette URI permet de consi-drer
chaque graphe comme une ressource part entire et donc de lutiliser
comme sujetdune nouvelle relation. Il est ainsi possible de
modliser lauteur dun ensemble de tri-plets (Figure 1.4, page 20) ou
encore de certifier les informations via un systme de signa-ture de
graphes [Caroll, 2003] dans une optique de confiance des sources
dinformationscomme dfinie par la pile du Web Smantique (Figure 1.2,
page 15). Malgr ces avantageset en raison de la structure par
triplets de RDF, lutilisation des graphes nomms au sein dedocuments
RDF est complexe et ncessite une volution des syntaxes actuelles.
Les exten-sions TRIX19 [Caroll et Stickler, 2004] ou TRIG [Bizer et
Cyganiak, 2007] permettent de mo-dliser ces graphes nomms
respectivement en RDF/XML et Turtle. [Bottollier et al., 2007]ont
propos une nouvelle manire de procder via lutilisation dune proprit
spcifique(http://www.inria.fr/acacia/corese#graph) pour indiquer la
source dun ensemblede triplets au sein de documents RDF/XML. En
pratique cependant, une manire simplede procder lidentification de
ces sources et de regrouper les triplets dans un documentaccessible
en ligne est de considrer lURL du dit document comme lURI du graphe
source.Ces mthodes sont en outre toutes compatibles avec
lutilisation de la clause GRAPH au seinde requtes SPARQL (Section
1.1.3, page 25).
Il est galement important lorsquon modlise une ressource sur le
Web Smantique,de faire la distinction entre son URI (i.e. son
identifiant) et lURL du ou des documents ladcrivant, quil sagisse
dun document RDF regroupant un certain nombre dassertions son sujet
ou dune description (X)HTML. On considre ainsi ce sujet [Lewis,
2007] :
les ressources informationnelles (un document, un billet de blog
...) pour lesquelleslURL du document peut correspondre lURI de son
identifiant. Il est en effet coh-
17http://www.w3.org/TR/rdf-mt/#ReifAndCont18http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#dfn-rdf-graph19http://sw.nokia.com/trix/TriX.html
19
-
CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB
2.0
athena:EDF foaf:Organization
http://sws.geonames.org/3017382/
rdf:type
geonames:locatedInAlexandre Passant
dc:creatorhttp://example.org/ng_1
Figure 1.4: Graphes nomms et identification de lauteur dun
ensemble de triplets
rent de considrer que le document identifi par cette URI
correspond au documentsitu cette mme adresse ;
les ressources non-informationnelles, i.e. des donnes monde rel
(une personne, unpays ...) que lon souhaite reprsenter sur le Web
et o la distinction est ncessaire.On ne peut en effet pas considrer
que http://fr.wikipedia.org/wiki/Francecorrespond lidentifiant de
la France, puisquon a dun ct un document Web et delautre un
pays20.
Ainsi : http://sws.geonames.org/3017382 correspond une URI
identifiant la France
(et non pas un document son sujet) ;
http://sws.geonames.org/3017382/about.rdf correspond au document
RDF
associ comportant un certain nombre de triplets son sujet ;
http://www.geonames.org/3017382/republic-of-france.html
correspond
sa description (X)HTML associe.Cette distinction est
particulirement importante au moment de la dfinition
dassertions.Lorsquon va modliser des informations au sujet du pays
(par exemple sa population),on va utiliser lURI identifiant la
ressourc