M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 2016 DOI de DataCite : un système d'identification pour valoriser vos données de la recherche 1 Mohamed S. Yahia, Inist-CNRS
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 2016
DOI de DataCite : un système d'identification pour valoriser vos données de la recherche
1
Mohamed S. Yahia, Inist-CNRS
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20162
un identifiant pérenne, pourquoi ?
• les documents sont référencés sur le web par des URL qui sont des
mécanismes d’adressages
• si déplacement du document par changement : de serveur, de chemin, de
nom... le lien est brisé, le document n’est plus disponible. On obtient la
page 404
URL n’est donc pas stable
d’où la nécessité d’un identifiant pérenne qui fiabilise la localisation
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20163
identifiant pérenne ?
Chaine de caractères
unique
- Personne
- Institution
- Objet
Identifiants Pérennes
association
permanente
dans un
registre &
gestion par
institutions
La persistance est purement une question de service (gestion) et est ni inhérente à un objet, ni
conféré par une syntaxe de nommage particulier
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20164
Objectifs
• Accéder à la ressource sur le long terme
• Faciliter la découverte, le partage, la réutilisation des données
• Faciliter la Citation
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20165
Historique
Principaux systèmes d’Identifiants pérennes
- Handle(1994)
- PURL (Permanent URL),1995
- DOI (Digital Object Identifier),2000
- ARK (Archival Ressource Key), 2001
- ResearcherID (de Thomson Reuters )2008
- ISNI (International Standard Name Identifier) 2010
- ORCID(Open Researcher and Contributor ID) 2012
PID
Ressource
PID
Auteur, Contributeur
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20166
Lequel Choisir ?
ARK, PURL, DOI sont tous des choix valides pour identifier de
manière pérenne des ressources scientifiques sur le web.
• Pourquoi choisir le DOI ?
• 4 raisons principales* :
• DOI est une norme internationale – ISO26324:2012
• Très largement utilisé > de 100 millions
• Coopération entre plusieurs organisations (Crossref, Orcid, RDA…: synergies
• Même si les registres DOI disparaissent le Handle System prendra le relai
*http://www.crisp-fp7.eu/fileadmin/user_files/doc/Milestones/CRISP_MS7.pdf
le DOI s’appuie sur le système Handle pour construire
une infrastructure sociale qui garantit la pérennité
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20167
DOI
• Contrôlé et géré par IDF ( International DOI Foundation)
• IDF est composé de 10 agences d’enregistrement (RA)
• dont les plus importantes sont :
• CrossRef
• DataCite
DataCite et Crossref sont des RA bien développées, mais seule DataCite fournit les solutions les mieux adaptées pour les jeux de données scientifiques
Airiti, Inc.
CrossRef
China National Knowledge Infrastructure (CNKI)
DataCite
EIDR (Entertainment Identifier Registry)
ISTIC (The Institute of Scientific and Technical Information of China)
JaLC (Japan Link Center)
KISTI (Korea Instituteof Science and Technology Information)
mEDRA (Multilingual European DOI Registration Agency)
OP (Publications Office of the European Union)
Institution membre
Data CentreData CentreCentre données
DataCite
FondationInternationale DOI
ex : ILL,
Inist-CNRS
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20168
Consortium international à but non lucratif
Créé en décembre 2009 à Londres
Centré sur la valorisation des données de la recherche.
36 membres au 09/2016
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 20169
Infrastructure technique de DataCite
Agence d’Enregistrement DataCite :
• support dl'infrastructure de résolution (Handle)
• mise en place des politiques et des bonnes pratiques
• coordination avec les parties prenantes ayant les mêmes objectifs
• création et mise à jour de schéma de métadonnées
• maintient une base de métadonnées consultable et moissonable
• gestion des identifiants sur le long terme
• gestion des services de découverte (moteur de recherche, annuaire de bases de
données)
• soutien et aide aux utilisateurs à la creation des fichiers de métadonnées et des DOI
les utilisateurs (centres de données, organismes de recherche,
producteurs de données) sont responsables de :
• assurance qualité des données
• maintien, persistance et mise à disposition du contenu scientifique doté de DOI
• création des identifiants
• création et mise à jour des métadonnées
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 2016
En plus de l’infrastructure technique, DataCite s’appuie sur une infrastructure sociale
* https://blog.datacite.org ** https://groups.google.com/forum/?hl=en#!forum/datacite-metadata
10
Infrastructure Sociale de DataCite
composée de 3 Steering Groups ou groupes de pilotage:
• sustainability and business steering group (sbsg)
• services and technology steering group (stsg)
• community engagement steering group (cesg)
Chaque Steering Group pilote des groupes de travail (WG)
Une couche supplémentaire d’infrastructure sociale
renforce la réactivité de DataCite en remontant et
en rapportant les retours d’expérience des usagers.
(blog*,groupe de discussion**).
DataCite collabore également avec
plusieurs organisations à travers le monde
sur différents aspects de la valorisation des
données de la recherche (Crossref, ORCID,
RDA, Codata,…)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201611
Services de DataCite
• DataCite Metadata Store (MDS)
Création DOI et enregistrement des métadonnées associées
https://mds.datacite.org
• DataCite Metadata Schema
Schéma de métadonnées DataCite
http://schema.datacite.org
• DataCite OAI Provider
Exposition des métadonnées de la base DataCite moissonables selon le
protocole OAI-PMH http://oai.datacite.org
• DataCite Metadata Search
Moteur de recherche des jeux de données enregistrées dans la base DataCite
http://search.datacite.org
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201612
Attribuer des DOI
o Se renseigner sur les règles de propriété intellectuelle et sur le cadre
juridique en vigueur pour savoir si les données peuvent-être disséminées.
o Evaluer et sélectionner les données à conserver et à partager
o Déterminer et fixer la granularité de vos jeux de données en fonction des
besoins et de la citation
Réflexions préalables à mener sur les données à identifier par un DOI
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201613
Attribuer des DOI
La granularité décrit le degré d'agrégation de l'objet à enregistrer.
DataCite n’impose aucune restriction sur le niveau de granularité
il est possible d’attribuer des DOI à des entités de différents niveaux d’un même objet
les DOI sont principalement conçus pour la citation et la découverte de ressources.
Chaque entité devrait avoir un sens indépendant de l’ensemble plus large ou la
collection à laquelle il peut appartenir
le Schéma de métadonnées DataCite comprend un champ pour préciser les relations
entre les objets.
Quelle granularité adopter ?
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201614
Attribuer des DOI
Citer des données dynamiquesdonnées continuellement ou fréquemment mises à jour
3 approches sont possibles :
1.Citer une partie spécifique (la série de mises à jour effectuées au
cours d’une période donnée ou à un secteur particulier du jeu de
données)
2.Citer un instantané (snapshot) (copie du jeu de données entier à un
moment précis)
3.Citer le jeu de données continuellement mis à jour et incorporer à la
citation la date et l’heure de l’extraction du jeu de données
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201615
Citer des données dynamiquesdonnées continuellement ou fréquemment mises à jour
Cependant ces recommandations ne résolvent pas tous les
problèmes liés à l’accès et à la citation des données dynamiques.
Un groupe de travail de RDA a produit 14 propositions ( à
implémenter par les entrepôts de données) basées sur
l’identification et le stockage des requêtes. Ces propositions sont
en phase d’essai pilote https://rd-alliance.org/group/data-citation-wg/outcomes/data-citation-
recommendation.html
Le centre de données SAHFOS (Sir Alister Hardy Foundation for Ocean
Science) crée, identifie par des DOI et stocke des sous-ensembles
de jeux de données dynamiques à la demande de chercheurs. https://www.sahfos.ac.uk/data/our-data/
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201616
Critères spatiaux
Critères temporels
Citer des données dynamiquesdonnées continuellement ou fréquemment mises à jour
Exemple centre de données SAHFOS :
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201617
1- Nom du DOI
- Préfixe attribué par l’agence d’attribution
DataCite
- Suffixe choisi par le centre de données
DataCite recommande que le suffixe soit opaque et
court
longueur maximum du nom DOI: 255 caractères
Attribuer des DOI3 informations nécessaires à la création de DOI
10.xxxxx/abcd_x-x_efg
Préfixe Suffixe
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201618
Attribuer des DOI3 informations nécessaires à la création de DOI
2- URL stable permettant l’accès aux données via
Landing page ou Page de présentation
• des métadonnées descriptives
• les informations concernant les moyens et les conditions d’accès à
ressource (restriction, embargo….)
• les informations pour lire l’objet scientifique (logiciels, contexte,
formats, autres informations nécessaires à l’interprétation….)
• Le format de citation souhaité
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201619
Exemple de landing page
Description
des données
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201620
Utilisation
des données
Exemple de landing page(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201621
Attribuer des DOI3 informations nécessaires à la création de DOI
3- Fichier des métadonnées en xml
selon schéma DataCite 4.0 : https://schema.labs.datacite.org/meta/kernel-4.0/
6 éléments obligatoires
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201622
Schéma de métadonnéesformat de la citation
Kalaydjian Regis, Girard Sophie (2014). Civil marine research effort in
main French research organisations: data and estimates. SEANOE.
http://doi.org/10.17882/44428
Les 5 premières propriétés constituent les éléments de la citation :Creator (PublicationYear): Title. Publisher. Identifier
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201623
Schéma de métadonnéesLes 13 propriétés optionnelles
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201624
Exemple de propriétéRelatedIdentifier : isCitedBy
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201625
Exemple de propriétéRelatedIdentifier : relationType : isPartOf
article
Métadonnées du data package
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201626
http://dx.doi.org/10.5061/dryad.bt963/1
data set 1
1122 1122http://dx.doi.org/10.5061/dryad.bt963/2
data set 2 1122
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201627
Exemple : lien jeu de données publication
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201628
Accessibilité aux ressources par le DOI
Résolution directe par navigateurs : ajouter les plug-in
Firefox : http ://addons.mozilla.org/fr/firefox/addon/10820
Internet Explorer : http://handle.net/resolver/index.html
Cliquable en citation
doi:10.1016/j.dsr.2008.08.009
Sur les site de IDF http://dx.doi.org/
Utilisation du moteur DataCite Metadata Search beta : https://search.datacite.org/ui
Ou en ajoutons le nom de domaine https://doi.org/ devant lenom du DOI dans le navigateur 10.1016/j.dsr.2008.08.009
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201629
Inist-CNRSAgence française d’attribution de DOI
Institution membre
Data CentreData CentreCentre données
DataCite
FondationInternationale DOI
ex : ILL
Inist-CNRS
• Lien fort avec le consortium (participation aux groupes de
travail, assemblée générale, stratégie…)
• Sensibilisation aux services DataCite
• Fourniture des préfixes DOI
• Assistance dans la création et la conversion des fichiers de
métadonnées
• Aide au paramétrage de l’API
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201630
Workflow d’attribution de DOI par l’Inist-CNRS
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201631
Partenariat
• Un contrat formalise les relations entre l’usager et l’Inist-
CNRS
(3 ans reconductible)
Modèle économique :
Membres ESR : cotisation annuelle de 180 € HT
pour un nombre illimité de DOI
Autres usagers : cotisation annuelle de 180 € /HT
pour 500 DOI.
Tarif dégressif au-delà
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201632
responsabilités des deux partenaires
• Veiller au respect des règles de bonne pratique édictées par
DataCite :
- qualité des métadonnées,
- URL pérenne,
- persistance des données.
• Accompagner et conseiller à l’utilisation des services DataCite
• Fournir un préfixe(s) de DOI unique(s)
• Fournir un login pour accéder à la plateforme Metadata Store
(MDS) de DataCite
Responsabilités de l’Inist-CNRS
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201633
• Qualité et pertinence des données
• Veiller à la conservation et la gestion des données de
manière à garantir leur accessibilité
• Page de présentation ou landing page accessible.
responsabilités des deux partenaires
Responsabilités de l’usager
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201634
Informations nécessaires pour créer un centre de données
Informations nécessaires pour créer un
centre de données
1. symbole de l’organisme
2. nom développé de l’organisme
3. nom de la personne contact et son
4. nom de domaine où sont stockées les
données
https://mds.datacite.org/?lang=fr
OMP
Observatoire Midi-Pyrénées
Paul Martin [email protected]
sedoo.fr,
obs-mip.fr,
aviso.altimetry.fr
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201635
Création de DOI
• Manuelle via Metadata Store (MDS)
https://mds.datacite.org/?lang=fr
• Automatique via l’API
https://mds.datacite.org/static/apidoc
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201636
Création de DOI
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201637
Création de DOI
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201638
Création de DOI
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201639
Création de DOI
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201640
Mise à jour d’un jeu de données
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201641
Mise à jour d’un jeu de données(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201642
Mise à jour d’un jeu de données(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201643
Mise à jour d’un jeu de données(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201644
Mettre à jour
Ensemble de données
Mise à jour d’un jeu de données(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201645
Mise à jour de l’URL
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201646
Mise à jour de l’URL
(suite)
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201647
Mise à jour des métadonnées
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201648
Mise à jour des métadonnées
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201649
Mise à jour des métadonnées
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201650
Contact
03 83 50 46 70
M. S. Yahia SIST 2016 : Séries Interopérables et Systèmes de Traitement 29-30 septembre 201651
Merci de votre attention