Pour une bonne compréhension des métadonnées
Nov 28, 2014
Pour une bonne compréhension
des métadonnées
Qu’est ce la Folksonomie?
BA
B A
DD
D
C
C
E
B E Pas de F
D Carré jaune Pas de triangle rouge
Hexagone rouge Carré vert
Carré jaune Triangle jaune Cercle jaune
Cercle bleu E Pas de cercle vert
Qu’est-ce que la Taxonomie?
La France
Les Régions
L’ouestLa Bretagne
Les pays de LoireLe Nord
Le Centre
Les Départements
Les cantons
Les viles
Les quartiersLes rues
Les monuments
Les bâtiments publics
Les communautés
d’agglomérations
Le climatTempéré
Océanique
La géographie
Les plaines
Les fleuves
L’Histoire
En pratique litteratureTaxonomie
Littérature
Fiction
Drame
Comedie
Tragedie
Roman
Metadonnées
Auteur
Shakespeare, William
Titre
Hamlet, Prince du Danemark
Date de Publication
Mai 1604
Métadonnées : une première définition
Une métadonnée est littéralement une « donnée sur une donnée »
Dans le domaine des métadonnées [metadata], on parle de « données sur une ressource »
Plus précisément, c'est un ensemble structuré de données décrivant une ressource quelconque
Une métadonnée peut être utilisée à des fins diverses…
La description et la recherche de ressources
La gestion de collections de ressources
La préservation des ressources
Utilité des métadonnées (1/2) Les métadonnées sont en général constituées de
« mots-clés » ou de « texte libre »
Ces informations peuvent être « évidentes » ( auteur, date de publication, éditeur), ou « plus complexes » et moins aisément définies
Les avis collectifs sur un document, par exemple, nécessitent une structure évoluée capable d'annoter des passages, et cela, de façon multiple
Les métadonnées sont particulièrement importantes pour les « ressources visuelles » qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver
les utilisateurs dépendent en effet des informations ajoutées aux images ou vidéos pour effectuer des recherches pertinentes et précises
Utilité des métadonnées (2/2)
La recherche de documents à l'aide de leur indexation « full-text » ne suffit pas
Exemple : rechercher tous les documents contenant les mots Lestrem et Nutrition …
Les métadonnées sont également indispensables d'un point de vue technique et administratif
pour décrire les droits, relations, formats, dates, etc… associés à une ressource, l'appartenance à une collection digitale, le mode d’acquisition de la ressource, etc.
Les métadonnées sont utilisées dans les systèmes de gestion de contenu d’entreprise (Enterprise Content Management)
pour éditer, gérer, rechercher, réutiliser, diffuser, publier de multiples contenus (textes, images, vidéos, documents bureautiques, etc ... )
Métadonnées « Métiers » (1/2)
Les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale
un catalogue de bibliothèque, des ressources matérielles d’entreprise contiennent aussi des métadonnées
De nombreuses communautés s'intéressent aux métadonnées
Bibliothécaires, Documentalistes, Archivistes, Conservateurs de musées, Travailleurs du savoir …
Pour gérer de types de ressources très différents
Métadonnées « Métiers » (2/2) On ne décrit pas toutes les variétés de ressources de la
même façon (fichiers bureautiques, photos, vidéos, audio, etc..)
D’où apparition de standards de métadonnées « métiers »
MARC (Machine-readable cata loging)
ISBD (International Standard Bibliographic Description)
Dewey Decimal Classification system
EAD (Encoded Archival Description)
CIMI consortium (Computer Interchange of Museum Information)
RKMS (Recordkeeping Metadata Schema)
MPEG-7 (Multimedia Content Description Interface)
LOM (IEEE - Learning Object Meta data)
SCORM (Sharable Content Object Reference Model)
Métadonnées « Informatiques » (1/4)
Où sont les métadonnées informatiques ?
Dans les bases de données
Les métadonnées peuvent être "embarquées" implicitement dans certains formats de documents ou Informations
Considérons la ressource suivante : http://www.liberation.fr/livres/index.php
Cette ressource contient plusieurs métadonnées
Protocole Web : http
Site “liberation.fr”: Nom de domaine “FR”
Page Web dynamique écrite en langage « php »
Index de la rubrique « livres »
Métadonnées « Informatiques » (2/4)
Les noms informatiques sont donc des métadonnées
Plus généralement : chemin d'accès, nom, extension, taille, format de fichier, date de création, date de modification, etc…
Les propriétés des documents bureautique
Titre, Auteur, Sujet, Mots-clés, Commentaires, Responsable, Société, Catégorie, etc…
Mais aussi certaines propriétés personnalisées
Les propriétés Windows associées à un fichier quelconque
Titre, Sujet, Catégorie, Mots-clés, etc.
Les informations sur les documents PDF
Titre, Auteur, Sujet, Mots-clés, Créateur, Producteur, etc…
Métadonnées « Informatiques » (3/4)
Les champs IPTC des images JPEG/TIFF
Titre, Source, Crédit, Copyright, Statut éditorial, Priorité, Catégorie, Mots-clés, etc...
Les champs EXIF des images JPEG
Fabricant de la caméra, Modèle, Orientation, Temps d'exposition, Résolution en largeur, Résolution en hauteur, etc…
Les champs ID3 des fichiers MP3
Titre, Compositeur, Auteur du texte, Durée, Copyright, etc…
Métadonnées « Informatiques » (4/4)
Estampillage électronique (Watermarks)
But : authentifier un document (garantie de non-falsification) et prouver l'appartenance d'une œuvre à son propriétaire
Moyen : Filigrane, tatouage, estampillage, etc. insertion d'informations numériques dans les fichiers binaires que sont les images, sons, vidéo
Exemple : la Dublin Core Initiative (1/3) Prolifération de besoins "métiers" variés
Métadonnées informatiques: diversité et non-interopérabilité des nomenclatures et des structures
Recherche d'un standard
Définition d'un ensemble de métadonnées communes à diverses communautés: le Dublin Core Metadata Initiative (DCMI).
Le Dublin Core est un ensemble de 15 éléments de métadonnées inhérents :
au Contenu : Titre, Description, Sujet, Source, Environnement, Type, Relation
à la Propriété intellectuelle : Créateur, Contributeur, Publieur, Droits
à la Version : Date, Format, Identifiant, Langage
Une version plus évoluée du Dublin Core autorise l'usage de qualificateurs :
L'élément Description peut être affiné à l'aide des qualificateurs « Table des matières » et « Extrait »
L’élément Date peut être affiné à l'aide des qualificateurs Crée par, Validé par, Disponible pour, Modifié par…
Exemple : la Dublin Core Initiative (2/3)
Le Dublic Core ne prétend pas répondre aux besoins et à la complexité de tous les métiers
Le Dublin Core est un ensemble simple et très utilisé de métadonnées (en cours de normalisation ISO 15836), mais il n'est pas suffisant
Dans la plupart des besoins professionnels, il doit être complété par d'autres schémas de métadonnées
Exemple : la Dublin Core Initiative (3/3)
Le thesaurus est un type particulier de langage documentaire
Un thesaurus est constitué d'un ensemble structuré de concepts représentés par des termes hiérarchisés, pouvant être utilisés pour l’indexation de documents
Le thesaurus s’il est bien construit, est un instrument de recherche sans pareilles
On construit un thesaurus de manière
analytique : à partir des mots clefs de l'indexation
Synthétique : à partir de listes de mots-clés préétablies à l'aide de dictionnaires, lexiques, glossaires etc..
Ou en mixant les deux méthodes analytique et synthétique
Il est possible d’implémenter plusieurs thésaurus métiers au sein d’une même organisation
Les thesaurus « métiers »
Exemple de thesaurus
Pourquoi l’usage de la sémantique devient primordial (1/4)? Le seul fait d'archiver, ou de stocker les documents en
un lieu unique et sécurisé, ne répond que très partiellement aux problématiques des utilisateurs finaux
Parce que l'information à gérer est plus importante et moins homogène , et même si l'information est stockée quelque part, elle reste inaccessible
La performance de tous les acteurs d'un projet est assujettie à la propension d'une équipe à prévoir, analyser et trouver les meilleures réponses le plus rapidement possible
Parce que l'environnement "métier" dans lequel votre entreprise évolue tend à se complexifier. Rares sont les sociétés qui évoluent sur un marché bien "structuré"
Pourquoi l’usage de la sémantique devient primordial (2/4)? Chaque collaborateur doit pouvoir prendre la bonne
décision en fonction du contexte dans lequel il est placé, et les informations qui lui seront proposées doivent elles aussi refléter ces multiples facettes
Il faut pour cela que la gestion des informations aborde de manière dynamique l'ensemble des problématiques métiers
Pourquoi l’usage de la sémantique devient primordial (3/4)?
Pour plus d'efficacité, il est indispensable de raisonner global tout en garantissant que le caractère particulier de chaque source d'information puisse être identifié et retranscrit de manière intégrale, et surtout au bon moment
Pourquoi l’usage de la sémantique devient primordial (4/4)? La sémantique va permettre de structurer les
informations de telle façon que l'on puisse automatiser, intégrer et réutiliser les données au travers d'applications variées
Chaque collaborateur doit pouvoir prendre la bonne décision en fonction du contexte dans lequel il est placé, et les informations qui lui seront proposées doivent elles aussi refléter ces multiples facettes
Il faut pour cela que la gestion des informations aborde de manière dynamique l'ensemble des problématiques métiers
Pour plus d'efficacité, il est indispensable de raisonner global tout en garantissant que le caractère particulier de chaque source d'information puisse être identifié et retranscrit de manière intégrale, et surtout au bon moment
La sémantique va permettre de structurer les informations de telle façon que l'on puisse automatiser, intégrer et réutiliser les données au travers d'applications variées
Pourquoi les outils doivent prendre en compte les utilisateurs Les outils collaboratifs reposent tous sur la contribution
et la participation des collaborateurs.
Les contenus crées peuvent être facilement republiés, commentés, enrichis et apporter une réelle valeur aux organisations
En parallèle, il est nécessaire de définir en amont une stratégie de mise sous contrôle des risques relatifs à la prolifération des contenus
On recherche plus un contexte qu’un document, il faut donc présenter tous les contenus correspondants à ce contexte
Les arborescences de répertoire de classement disparaissent au profit des vues dynamiques
Pourquoi un plan de classement seul n’est plus suffisant (1/3)
Trop souvent, les entreprises proposent des serveurs d'applications de service aux équipes pour qu'elles puissent répondre à leurs besoins individuels de gestion des informations
La coordination entre les services est limitée, et le partage des informations est compliqué du fait de structures trop monolithiques
Il faut donc séparer l'architecture de la solution des couches de présentations, et les systèmes de stockage des logiques métiers.
Certaines informations doivent circuler, et restent trop souvent cantonnées à un service ou à un conteneur hermétique.
Pourquoi un plan de classement seul n’est plus suffisant (2/3)
En gérant des notions de types ou de familles, on pourra faire correspondre pour chaque besoin, des champs, des stratégies, des flux de travail (workflows) et des règles
Si plusieurs types de populations sont amenés à consulter et à rechercher de l’information, chaque personne a son propre « point de vue » et son propre « cheminement » pour accéder à celle-ci.
Trop souvent les documents sont écrits, stockés et indexés par des « spécialistes », qui respectent souvent une classification normative imposée et non pas des règles de « bon sens ».
Pourquoi un plan de classement seul n’est plus suffisant (3/3)
On multiplie alors les référentiels, les outils, et au final, on s’aperçoit que presque rien ne communique vraiment
Principe à respecter On ne crée pas de taxonomie : on l’implémente à partir
De l’existant et des données
Des processus : surtout
Du feedback des utilisateurs clés
D’une norme
Il faut en tenir compte dès le plan de gouvernance
Design et architecture Logique
Création et gestion
Délégation
Alimentation
En terme de gouvernance, ne pas oublier
L’inclure au plus tôt dans le design SharePoint
Fréquence de revue ? Qui est responsable ? Juridiction ? …
Principe à respecter Identifier le scope de chaque besoin
Interne, externe ? Département spécifique ? Mixte ?
Rapprocher le scope au plus prés de votre organisation interne
On vise large mais on commence petit : département avant Corporate
Cataloguer tout le contenu !!!
Exercice long mais très riche en information sur les vrais processus
Se focaliser aussi
Sur les méthodes et l’analyse de définition de vos metadonnées
Mieux gérer les futures demandes et évolutions