structuration des documents: les applications M2: Gestion des connaissances
Apr 04, 2015
Introduction à la structuration des documents: les applications
M2: Gestion des connaissances
Plan
De l’utilité à structurer les documents Les archives ouvertes
De l’utilité à structurer les documents: les pages web Tout document numérique est structuré
Exemple: les pages web– Code source d’une page web réelle (site
du GRESEC)
De l’utilité à structurer les documents: les pages web <html>
<head>
<title>Site officiel du laboratoire GRESEC </title>
</head>
<body>
<a href="http://gresec.u-grenoble3.fr/"> Bienvenue au Gresec </a>
<p> Exemple de page HTML simple </p>
</body>
</html>
Exemple d’application
Calcul du PageRank
Indices utilisés Mots-clés des liens
– <a href=...> mot-clé pertinent...</a> Noms et attributs « alt » des images
– <img src="accueil.gif" alt="Accueil"> Se prémunir contre les spam…
– <a href="avis.htm" rel="nofollow"> Vous pouvez poster ici vos avis…</a>
… etc.
De l’utilité à structurer les documents: les fils RSS
<?xml version="1.0" ?> <rss version="2.0"> <channel> <title>Le Point – Société </title> <link> http://www.lepoint.fr/societe/rss.xml </link> <description>Fil RSS de la page Société du journal Le Point </description> <image> <url>http:///www.lepoint.fr/logo-lepoint.gif </url> <link>http:///www.lepoint.fr
</link> </image> <item> <title> Affaire Neyret - L'homme arrêté à Cannes avait un casier vierge
malgré
une condamnation </title>
<description> Stéphane Alzraa, écroué vendredi à Grasse, dans les Alpes-Maritimes, dans le... </description>
<pubDate>Mon, 03 Oct 2011 15:14:00 +0200</pubDate> <link>http://www.lepoint.fr/societe/l-homme-arrete-a-cannes-03-10-2011-
1379779_23.php</link>
</item>
<item> <title>Le procès en appel de Jérôme Kerviel aura lieu en juin</title>
<description> Jérôme Kerviel, lourdement condamné en 2010 pour une perte record à la… </description>
<pubDate>Mon, 03 Oct 2011 15:14:00 +0200</pubDate>
<link>http://www.lepoint.fr/societe/le-proces-en-appel-de-jerome-kerviel-aura-lieu-en-juin-03-10-2011-1380253_23.php</link>
<enclosure url=http://www.lepoint.fr/images/2011/10/03/par-406300-jpg_268107.JPG length="24864" type="image/jpeg" />
</imtem>
<item>
<title>Michel Neyret mis en examen</title>
<description> La garde à vue de Michel Neyret s'est achevée ce matin à 6 heures. Il a été...</description>
<pubDate>Mon, 03 Oct 2011 14:53:00 +0200</pubDate>
<link>http://www.lepoint.fr/societe/michel-neyret-mis-en-examen-03-10-2011-1379779_23.php</link>
<enclosure url="http://www.lepoint.fr/images/2011/10/03/par-406085-jpg_267762.JPG" length="17456" type="image/jpeg" />
</item>
</channel>
</rss>
Les Archives ouvertes Historique et objectifs Fonctionnement Applications
– Bibliothèques– Communautés scientifiques
Exemples à explorer
Historique et objectifs
L'OAI-PMH – Open Archives Initiative’s Protocol for
Metadata Harvesting– Protocole de moissonnage OAI
Archive– « classique »– E-prints– ICI: réservoir, lieu ressource
Historique et objectifs
Ouverte:– « gratuit »– « libre » (architecture technique)– ICI: libre et parfois gratuit
Qu’est-ce que c’est?
Historique:– Années 90: bases pre-print, post-print– Standards inter opérables– Convention de Santa Fé 1999
• Fédérer les initiatives • Développer les échanges• Mise en place du protocole OAI-PMH
Historique et objectifs
Caractéristiques:• Dépasser les barrières du « web invisible »• Interopérabilité des ressources• Mise à jour simplifiée• Encourager l’adoption des standards Dublin
Core• Intégrer des ressources de types et
d’origines diverses
Comment ça marche?Facilitation des échanges entre:
• Fournisseurs de données• Fournisseurs de services
Avantages• Réservoirs d’enregistrements• Sans déplacer ou dupliquer les documents
Exemple: bibliothèque• Visibilité du fonds propre• Portail documentaire spécialisé• Partenariats: catalogues collectifs, etc.
FonctionnementConcepts de base:
• Ressource• Item• Enregistrement• Lot
Fonctionnement
Fonctionnement
Éléments essentiels• Entrepôt• Moissonneur• Agrégateur
Fonctionnement
Protocole:– Soumission des requêtes en HTTP
• Identify• ListMetadataformats• ListSets• ListIdentifiers• GetRecord
• ListRecords – Réponses en XML (métadonnées)
Applications
Bibliothèque:– Entrépôt:
• Valorisation du fonds électronique
– Moissoneur:• Portail spécialisé, catalogue collectif, etc.
Outils libres: http://www.openarchives.org/tools/tools.html
Applications
Services: – Agrégateurs encyclopédiques: OAIster
(Univ.Michigan)– Grands répertoires thématiques:
• Michael (fonds européen culturel numérique)• PictureAustralia (patrimoine pictural et photo)• BNSA (banque numérique du savoir
d’Aquitaine)• France-Généalogie
Exemples
Les OAI scientifiques:• car tout commence là…
Exemples: • ArXiv X: http://arxiv.org/
– Physique, mathématiques, etc.
– P.Ginsparg (Los Alamos, puis Univ.Cornell)
• MathDoc: http://portail.mathdoc.fr/– Mathématiques, UJF
Liste plus complète sur: http://www.openarchives.org/Register/BrowseSites
Exemples
Mise en valeur du fonds propre• Partie OAI du projet GALLICA
– http://bibnum.bnf.fr/oai/
• Projet American Memory, (Bibliothèque nationale du Congrès)
– http://memory.loc.gov/ammem/oamh/
ExemplesAgrégation de fonds thématiques – type portail : • Projet européen Michael
– http://www.michael-culture.org/fr/home
• Picture Australia– http://www.pictureaustralia.org/
• Et…sur Grenoble, Aladin:– https://dspace.msh-alpes.prd.fr/index.jsp
Exemples
Agrégation de fonds type catalogue• OAIster:
– http://oaister.umdl.umich.edu/o/oaister/viewcolls.html
• ArXiv:– http://arxiv.org/