Top Banner

Click here to load reader

16

Du web sémantique à tous les étages

Jul 08, 2015

Download

Software

SemWebPro

L'ABES a pour métier la gestion des métadonnées bibliographiques de l'enseignement supérieur français. Soit elle les récupère auprès de fournisseurs (autres catalogues, éditeurs), soit elle coordonne leur production par le réseau des bibliothèques universitaires.

Depuis 2008 et surtout 2010, l'ABES mise sur le web sémantique. Comme d'autres, elle a d'abord décidé de partager et de lier ses métadonnées sur le web de données. Cela concerne tous ses catalogues : le catalogue général Sudoc, le catalogue des archives et des manuscrits Calames, le catalogue theses.fr et sa base-référentiel de personnes, collectivités, concepts... IdRef. Ce travail d'ouverture est toujours en cours, car le principal format natif à traduire en RDF, appelé MARC, est très riche, et même touffu. Pour l'instant, l'exposition en RDF se fait à la volée, à partir d'une base XML qui stocke du MARC en XML. Passer à un triplestore semble tentant, mais on résiste... tout en cherchant une solution pour devenir interrogeable en SPARQL.

A partir de 2013, l'ABES a commencé à utiliser RDF comme pivot pour agréger et traiter des métadonnées fournies par des des tiers sous des formes très variées. Il s'agit donc de commencer à travailler en RDF, et plus seulement de l'utiliser en sortie.

Aujourd'hui, on commence à réfléchir à l'avenir des outils de production de métadonnées du réseau Sudoc. Là encore, faut-il aller vers du RDF natif ? Tout en retraçant ce cheminement qui touche tous les aspects de nos expertises et applications métier, nous tenterons d'expliciter les contraintes et les principes directeurs qui déterminent nos actions et nos interrogations.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Du web sémantique à tous les étages

Du web sémantiqueà tous les étages ?

Yann Nicolas – Michael Jeulin

ABESSemWeb.Pro 2014 Paris, 5/11/2014

Page 2: Du web sémantique à tous les étages

Le Linked Data de l’ABESTrois bases de données autour d’un

référentiel

Système Universitaire de Documentation :Catalogue collectif de l’enseignement supérieur

Theses.fr : portail des thèses de doctorat soutenues et en préparation en France (applications STAR et STEP)

IdRef : référentiel d’autorités pour le Sudoc, Theses.fr et Calames

Calames : catalogue des archives et manuscrits de l’enseignement supérieur

Page 3: Du web sémantique à tous les étages

Exposer

Page 4: Du web sémantique à tous les étages

L’ABES sur le web de données : pourquoi ?

• Des données liées et structurées• pour les moteurs de recherche...• pour faciliter leur export et leur réutilisation

• Ouverture et mutualisation des données : une tradition dans les bibliothèques ISBD, MARC, catalogage partagé, Z39-50…

• Nouvelle étape : on ouvre plus, et à tout le mondeOAI, webservices... et RDF

Page 5: Du web sémantique à tous les étages

Méthode et principes

• Une entreprise au long cours

• Approche progressive, pragmatique et empirique

• Choix de standards du web

XMLEAD, MARC/XML, TEF

XSLT

RDFa

RDF/XML

Pas de triplestore

Conversion à la volée = pas de base RDF

URL + sitemapsschema.org

Page 6: Du web sémantique à tous les étages

Les chantiers RDFApplication Format Année RDF Dump SPARQL ? Qualité LOD

Calames XML (EAD) 2008 RDFa Non Non★ ★ ★ ★ ★

IdRef MARC 2010 RDF/XML Oui(mais pas

public)

Non

★ ★ ★ ★ ★

Sudoc MARC 2011 RDF/XML + schema.org

Oui(mais pas

public)

Non(en cours) ★ ★ ★ ★ ★

www.theses.fr

XML (TEF) 2011 RDFa+RDF/XML Non Non

★ ★ ★ ★ ★

Linked open data :★ non filtrées (presque)★ ★ Structurées★ ★ ★ Librement exploitables★ ★ ★ ★ Identifiées (URL)★ ★ ★ ★ ★ Données liées

Page 7: Du web sémantique à tous les étages

Quels modèles de données ?vocabulaires « métiers » quand nécessaire : ISBD,

RDA (Sudoc)Proches des formats

natifs, mais mal adaptés au web de données…

Vocabulaires déjà publiés et répandus : Dublin

Core, Bibo, FOAF, bio, etc=

Diffusion plus large, mais mal adapté aux données

natives

Vocabulaire ad hoc ?

Et jusqu’où raffiner ?

Page 8: Du web sémantique à tous les étages

Interroger les donnéesUn Sparql endpoint pour le Sudoc et les

autorités : on y travaille…– Usages : interopérabilité Sudoc/Hub, BnF…– Exigences : fraîcheur et exhaustivité

– L’écueil : la volumétrieSudoc + IdRef = près d’un milliard de triplets

– Des alternatives au triplestore ?Exemple: D2RQ (en test)

Oracle (SQL) XSLT Mapping SQL-RDF

SPARQL

D2RQ ?

Page 9: Du web sémantique à tous les étages

Quel retour sur investissement ?

• Des exemples encore limités de réutilisations (connues)– Limités par l’absence d’un requêteur– Et de dumps vraiment exploitables

• Mais une montée en compétence réinvestie pour des usages internes

Page 10: Du web sémantique à tous les étages

Gérer en interne

des données hétérogènesLe “hub de métadonnées” ABES

Page 11: Du web sémantique à tous les étages

un hub de métadonnées

• Une application

• Une seule base de données

• Une approche

• Terrains d’application :

• Aujourd’hui : les métadonnées fournies par

les éditeurs internationaux dans le cadre du

programme ISTEX (achat en masse de

littérature scientifique online)

Page 12: Du web sémantique à tous les étages

méta-donnéeséditeur

catalogues +discovery tools + … +LOD

catalogues

Page 13: Du web sémantique à tous les étages
Page 14: Du web sémantique à tous les étages

Principes de conception

• Modélisation et conversion zéro déchet– ne rien perdre des données de départ– si nécessaire, forger classes et propriétés sans complexe

• Corriger/Modifier dans la base RDF– pas dans le format natif

• Ré-exposer dans le LOD, sans le spammer #demain

– Si l’éditeur (ou un tiers) a déjà exposé les données, n’exposer que nos enrichissements

– Mais quid des corrections/contradictions ?

Page 15: Du web sémantique à tous les étages

Conclusions avec des ?

• Résister à la tentation de mettre du semweb partout #fétichisme

• Cas d’usage les plus pertinents :• Ouverture des données• Gestion de données hétérogènes #hub

• Conséquences sur les priorités pratiques :• Sparql OK, mais web services simples et efficaces avant• Produire les données en RDF ?

• compliqué si données hétérogènes ?• inutile si données homogènes ?

Page 16: Du web sémantique à tous les étages

Pour aller plus loin…Calames

• http://calames.wordpress.com/2008/07/22/calames-yahoo-rdf/

IdRef

• http://punktokomo.abes.fr/2012/05/11/idref-dans-viaf-identifiants/

• http://punktokomo.abes.fr/2011/07/05/idref-des-pages-html-et-rdf-plus-riches/

• http://documentation.abes.fr/aideidref/developpeur/ch03s02.html

Thèses

• http://documentation.abes.fr/aidethesesfr/accueil/ch03.html

• http://punktokomo.abes.fr/2011/07/12/theses-fr-lapi-xml-des-theses/

• http://punktokomo.abes.fr/2011/07/12/theses-fr-lapi-xml-des-personnes/

Sudoc

• http://punktokomo.abes.fr/2011/07/04/le-sudoc-sur-le-web-de-donnees/

• http://documentation.abes.fr/sudoc/manuels/administration/sudoc_rdf/

Hub de métadonnées

• http://fil.abes.fr/2013/07/15/le-hub-de-metadonnees-rapport-final-et-plan-daction/

• http://fr.slideshare.net/abesweb/jabes14-yann-nicolasfocushub

SudocAD/Qualinca

• http://punktokomo.abes.fr/2012/02/02/sudocad-resume-du-projet/

• http://www.lirmm.fr/qualinca

Exemples de réutilisations externes (présentations Jabes 2014):

Julien Sicot, SCD Rennes 2

• http://fr.slideshare.net/abesweb/jabes14-julien-sicotutiliserwebservicesabes-35302040

Yves Tomic, SCD Université Paris Sud

• http://fr.slideshare.net/abesweb/jabes14-yves-tomicapipourquoifaire

• http://punktokomo.abes.fr/2014/02/18/domybiblio/