Urfist de Rennes, 2009 2
Urfist de Rennes, 2009 2
Urfist de Rennes, 2009 3
PLAN 1/Panorama, typologies des outils de
recherche 2/ Outils de repérage et d’accès : annuaires
thématiques, portails… 3/ Outils automatisés : moteurs et
métamoteurs de recherche 4/ Moteurs scientifiques, moissonneurs OAI… 5/ Outils pour la veille : syndication de
contenu, pages personnalisables… 6/ Outils de gestion et de partage de signets
: les plates-formes de « social bookmarking »
7/ Ressources pour aller plus loin
© A. Serres URFIST, 2007 4
1/ Panorama, typologies des outils de recherche
Existence de milliers d’outils de recherche : Voir :ISEDB, Vite tous les outils
Nombreuses catégories d’outils : Annuaires thématiques Moteurs de rcherche Moteurs spécialisés Métamoteurs Outils de veille, agents intelligents Portails, sites de référence Moissonneurs Plates-formes de signets Pages personnalisables ...
> quelles typologies ?
Urfist de Rennes, 2009 5
1/Typologies des outils de recherche du web
Distinguer d’abord : Outils propres au web : moteurs de
recherche, moteurs de blogs… Outils accessibles par le web : bases de
données, catalogues… Deux critères essentiels :
Offre des ressources : outil généraliste / spécialisé Mode d’indexation : outil humain / automatisé
Urfist de Rennes, 2009 6
1/ Typologies des moteurs de recherche : l’offre des ressources
Critère : type de ressources collectées Distinction principale :
Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search…
caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources
Moteurs spécialisés : Tendance lourde des moteurs :
Modules spécialisés à l’intérieur des moteurs généralistes
Infinité des types de spécialisations Explosion du nombre d’outils
Urfist de Rennes, 2009 7
1/ Typologies des outils de recherche : la spécialisation
Plusieurs types de spécialisation : géographique : Breizoo, Annuaire Recherche France /
linguistique Allemagne : Google.de, Espagne : Yahoo pour l’Espagne …
selon le contenu des ressources indexées : littérature grise (Google Scholar), presse (Google News)
disciplinaire : Scirus en Sciences exactes, In-Extenso.org en SHS
par domaine : portails thématiques : Culture.fr, Fabula
par type de ressources Internet : forums (Google Groups), listes de diffusion (Francopholistes),
blogs (Blogonautes) Selon les parties du web : web invisible (DADI) selon les supports : images, vidéos (Google ou Yahoo),
fichiers son…
Urfist de Rennes, 2009 8
2.1 Outils de repérage : les annuaires thématiques
Premiers outils du web : Virtual Library (1991), Yahoo (1994)
Des principes communs : Sélection humaine de ressources :
Caractère très sélectif des annuaires Recensement de sites web (et non de
pages web) Pré-catégorisation des ressources Arborescence Description manuelle des sites Moteur de recherche interne à
l’annuaire : Possibilités de requêtes
Urfist de Rennes, 2009 9
2.1 Outils de repérage : les annuaires thématiques
Usages : Recherche d’information sur un sujet
large Première approche d’un domaine :
Exemple de la presse Recherche géographique Recherche de sites de référence
utiles pour défricher un domaine, pour les premières recherches sur un sujet
Ne pas opposer annuaires et moteurs : outils complémentaires
Urfist de Rennes, 2009 10
2.1 Outils de repérage : les annuaires thématiques
Annuaires tous publics: Open Directory :
annuaire collaboratif plus important annuaire généraliste
Annuaires scientifiques multidisciplinaires : Virtual Library : annuaire collectif de ressources
scientifiques Les Signets de la BNF :
sélection de sites de référence Infomine. Scholarly Internet Resource Collection > Arts and
Humanities Répertoire réalisé par des bibliothécaires d’universités américaines Boîte de recherche avec filtrage, description de la ressource
BUBL Link, Catalogue of Internet Resources (toutes les thématiques universitaires)
DOAJ (Directory of Open Access Journals) : 3849 revues en libre accès
Urfist de Rennes, 2009 11
2.1 Outils de repérage et d’accès : les portails Définition :
"Ressource accessible via Internet, constituant un point d'accès unique, simplifié, facile d'emploi et unifié, pour un public cible, à des ressources (services, produits) électroniques distantes, variées et hétérogènes". (Sylvie Dalbin, Instruments de recherche sur le Web, in La Recherche d'information sur les réseaux, cours INRIA 2002)
Dispositif : documentaire (ressources informationnelles),
communicationnel, éditorial, technique... Diversité des ressources et services :
recherche d’information, achats/ventes, informations générales, spécialisées, personnalisation, messagerie, forums, services d’alerte…
Portails généralistes / spécialisés Exemples : Yahoo.fr, Fabula, Culture.fr
Urfist de Rennes, 2009 12
2.1 Outils de repérage : annuaires et portails en ALL
Répertoires, Portails, sélections de liens : quelques exemples
Voice of the Shuttle (Alan Liu, University of California, Santa Barbara)
Le portail Culture.fr 16 thèmes : archéologie, art contemporain, Livres
et littérature … Accès par région + Interface de recherche (simple
et avancée)
Intute Arts and Humanities : Sélection de ressources web pour l’éducation et
la recherche
Urfist de Rennes, 2009 13
2.1 Outils de repérage : annuaires et portails en ALL
Le portail Fabula (Association de chercheurs) Informations /théorie et critique littéraires Ressources scientifiques (atelier, revues, cours et colloques en
ligne Outils collaboratifs Offres de postes et de bourses, etc.
The Linguist List
Archeophile, Annuaire de l’archéologie francophone
La clé des langues (DGES / ENS LSH) Pour enseignants du secondaire / Ouverture sur le monde de la
recherche universitaire
Les liens de la Société française de musicologie Musicologie toutes époques, tous domaines
Urfist de Rennes, 2009 14
3.1 Moteurs de recherche
Premiers points d’accès à Internet
Outils également anciens : 1995
Également appelés : robots de recherche, spiders, crawlers, worms, search engines
Différence avec les annuaires : - indexent automatiquement les ressources- indexent les pages web et/ou les documents, et non les sites
Urfist de Rennes, 2009 15
3.1 Fonctionnement des moteurs de recherche
Source : R. Viseur, CETIC
Urfist de Rennes, 2009 16
3.1 Maîtriser l’interrogation avancée : le filtrage
Nombreuses possibilités de filtrage des résultats :
géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum, messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : plusieurs options (mais problématique) des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche Exercice de recherche : chercher un support pédagogique
récent, en français, expliquant le fonctionnement des moteurs de recherche et provenant d’une université
Urfist de Rennes, 2009 17
3.1 Maîtriser l’interrogation avancée : les opérateurs de recherche
Opérateurs booléens : AND : implicite ;
différent de + + : prend en compte
l’orthographe exacte
- : exclut un ou plusieurs termes (SAUF)
OR (ou |) : l’un ou l’autre ou tous les termes
Opérateurs linguistiques : «… » : recherche
d’expression exacte * : astérisque permet
de remplacer un terme
sur Google : ~ : recherche sur les
synonymes (dans version anglaise)
define: : pour trouver la définition d’un mot
Règle : limite des 10 mots
Urfist de Rennes, 2009 18
3.1 Moteurs de recherche : méthodes de classement des
résultats
Enjeux du « relevance ranking », du classement des résultats selon leur pertinence
Trois grandes méthodes (imbriquées) de classement : tri par indice de pertinence : calculs
statistiques sur la fréquence des termes… tri par popularité : indice de popularité,
indice de clic tri par calcul dynamique de catégories …. + positionnement payant...
Urfist de Rennes, 2009 19
3.1 Méthodes de classement des résultats : l’indice de pertinence
Principes : classement des résultats fondé sur la fréquence d’apparition
et la localisation des termes de la requête dans une page web
affichage des résultats à partir du calcul d’un score pour chaque réponse :
Ex. : Requête sur le marché des DVD en France : +marché +DVD +France
> retourne les documents contenant tous les mots de la requête >> documents contenant le plus de fois les mots de la requête
classés en premier Utilisation :
première méthode de classement utilisée sur le web ; Utilisée, partiellement ou non, sur tous les moteurs de
recherche ; Problèmes :
détournement par le spamdexing
Urfist de Rennes, 2009 20
3.1 Méthodes de classement des résultats : l’indice de popularité
Principes, origines : Utilisation de la nature hypertextuelle du web
: prise en compte des liens entre sites, considérés comme des liens de parenté sémantique
calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site
Utilisation : indice de popularité lancé par Google en 98
originalité et succès de Google et de son PageRank
Urfist de Rennes, 2009 21
3.1 Méthodes de classement : classification automatique des résultats Technologies plus complexes ; domaine d’innovations
avancées des moteurs : cf Exalead
Principes : organisation d’un lot de résultats pour donner
possibilité d’affiner ou étendre la requête répartition des documents dans des classes
Intérêt pour la recherche : aide à la sélection d’un mot-résultat aide à l’élimination des corrélations
inintéressantes suggestion d’idées et de pistes nouvelles
Voir aussi sur Exalead les différentes possibilités d'affinement de la requête :
Rubriques associées Limitation par zones géographiques Différents types de fichiers Recherches spécialisées : actualité, RSS...
Urfist de Rennes, 2009 22
3.1 La gestion des résultats : Marketing publicitaire, positionnement payant
Positionnement : Position occupée par un site ou une page web dans
la page de résultats d’un outil de recherche Positionnement naturel
Selon le contenu, la notoriété… du site parcouru par le robot
Positionnement payant : Achat de mots-clés, pour garantir une visibilité en
tête des résultats d’un outil de recherche
Principale source du financement des moteurs
Urfist de Rennes, 2009 23
3.2 Outils de recherche : Les métamoteurs
Définition : Un métamoteur est un outil de recherche qui
interroge en parallèle plusieurs outils (moteurs et annuaires), rapatrie leurs réponses et les organise, selon des méthodes de classement spécifiques, pour fournir aux utilisateurs une présentation structurée des résultats.
Nés en 1995 Diversité des métamoteurs :
En ligne / hors-ligne Généraux / spécialisés
Urfist de Rennes, 2009 24
3.2 Les métamoteurs
Fonctionnement, éléments d’un métamoteur :
pas de base de données en propre outils intermédiaires : une seule requête
posée sur différents outils Exploitation des résultats des autres outils Généralement, fusion des résultats et
élimination des doublons Classement des résultats selon critères
propres au métamoteur Présentation des résultats, selon différentes
méthodes : linéaires, cartographiques
Urfist de Rennes, 2009 25
3.2 Les métamoteurs
Utilisation, intérêt : Simplification :
Une seule requête sur plusieurs outils Elargissement de la recherche : :
Possibilité d’interroger plusieurs sources : d’une dizaine à un millier (Copernic)
Renforcement de la pertinence : Sélection des documents plus poussée, par le calcul de
pertinence opéré sur plusieurs outils Utiles pour un panorama des ressources, des
sites de référence sur un thème Exploitation parfois sophistiquée des résultats Outils paramétrables, personnalisables (surtout
hors-ligne)
Urfist de Rennes, 2009 26
3.2 Les métamoteurs
Exemples de métamoteurs : Francophones :
Ixquick : http://www.ixquick.com Kartoo : http://www.kartoo.com/
Présentation cartographique Anglo-saxons :
Clusty : http://clusty.com/ : Plusieurs modules spécialisés Techniques de clustérisation
SurfWax : http://www.surfwax.com
Urfist de Rennes, 2009 27
4/ Outils de recherche spécialisés selon l’offre des ressources
Au moins 3 critères de spécialisations : Selon les ressources internet :
Moteurs de blogs, de forums, de listes de diffusion, de FAQ, de wikis, de fils RSS…
Selon la nature du contenu : Moteurs scientifiques, d’actualité, de personnes, de
produits… Selon la nature du média :
Moteurs d’images, de vidéos, de podcasts, de photos.. Autres critères possibles : langue,
géographie, domaine thématique…
Urfist de Rennes, 2009 28
4/ Outils spécialisés : quelques exemples
Selon les ressources internet : Moteurs de blogs :
Technorati Google Blog Search Pour aller plus loin : Intelligence-Center
Selon la nature des informations : Moteurs d’actualité (dépêches,
articles…) : Wikio Yahoo Actualités
Urfist de Rennes, 2009 29
4/ Moteurs scientifiques, moissonneurs
Moteurs spécialisés sur les ressources scientifiques
Plusieurs types, plusieurs statuts… Moteurs de recherche scientifiques :
Google Scholar : toutes disciplines Scirus : sciences exactes Academic Index : toutes disciplines CiteSeer.IST : sciences physiques et de l’ingénieur In-extenso.org : SHS
Moissonneurs OAI : OAIster : toutes disciplines Michael : culture, arts, patrimoine
© URFIST de Rennes, 2007 30
4.1 Moteurs scientifiques :Google Scholar
Stratégie de Google : « guichet universel »
pour la science grand catalogue
mondial Succès de Google
Scholar : Très bon accueil dans
les universités Ancrage dans les
bibliothèques anglo-saxonnes, et européennes : Initiative Library Links
Rivalité avec l’ISI : Même nombre de citations
que l’ISI
Intérêt de Google Scholar : Accès gratuit à l’IST,
même en référence secondaire
Valorisation et visibilité des AO
Intérêt des citations Visibilité des chercheurs Pas de publicité
Problèmes posés : Situation dangereuse de
monopole d’accès Gratuité pour le
moment, mais jusqu’à quand ?
Effets pervers de l’indice de popularité
Urfist de Rennes, 2009 31
4.1 Google Scholar : fonctionnalités d’interrogation
Préférences : interface en français Lien vers bibliothèques
Champs et opérateurs avancés d’interrogation : Sur l’auteur :
author: ou champ Auteur en mode avancé Sur le titre d’une revue :
Uniquement en mode avancé : champ Publication, Sur le titre d’un article ou d’un document :
Opérateur intitle: Sur la date :
Uniquement en mode avancé : champ Date Pour en savoir plus
Urfist de Rennes, 2009 32
4.2 Moteurs scientifiques : disciplinaires
In-extenso.org : Moteur de la plate-forme Revues.org
Spécialisé sur les SHS Utilité pour ALL
Recherche sur le web : pré-sélection de sites : 2 500 000 pages de
sites web en SHS Dans les dépôts OAI : 135 000 articles
Urfist de Rennes, 2009 33
4.3 Moissonneurs OAI
L’OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting) : protocole visant à favoriser l’échange de
données entre bases hétérogènes partage des métadonnées
Entrepôts OAI : Fournissent les données Archives ouvertes, bibliothèques
numériques, portails de revues… Agrégateurs OAI :
Collectent les données par un « moissonneur »
Urfist de Rennes, 2009 34
4.3 Moissonneurs OAI : schéma de fonctionnement
Source : François Nawrocki
Urfist de Rennes, 2009 35
4.3 Moissonneurs OAI OAIster :
Le plus grand moissonneur OAI Université du Michigan et OCLC (depuis
janvier 09) Donne accès à plus de 19 millions de
notices Alimenté par plus de 1000 organisations :
archives ouvertes essentiellement Michael :
Moissonneur OAI européen Accès aux collections numériques : culture,
arts, patrimoine
Urfist de Rennes, 2009 36
5/ Outils pour la veille Veille : au sens large, activité de
surveillance de l’environnement et de ses évolutions, dans un domaine donné
Importance pour le chercheur : Se tenir informé des nouveautés dans son
domaine Suivre l’actualité d’un site, d’une source,
d’un auteur… Nombreux outils existants :
Métamoteurs, outils professionnels Syndication de contenus
Urfist de Rennes, 2009 37
5.1 Outils pour la veille : la syndication de contenus
Définition : Agrégation de contenus divers sur un même
navigateur possibilité de publier automatiquement sur un
site web des informations issues d‘autres sites web
Outils : Agrégateur de fils RSS : en lecture Editeur de fils RSS : pour l’édition Format RSS = Rich Site Summary, ou Really Simple
Syndication Très nombreuses applications, liens avec les blogs Explosion du phénomène du RSS
Bibliobsession 38
RSS (Really Simple Syndication = syndication vraiment simple)Moyen de syndication, capable de récupérer le contenu brut d'un site web sans s'occuper des données liées à sa forme
On parle de Flux RSS, Fil RSS, liens RSS, RSS feed, canaux RSS
Source : Bibliobsession
Urfist de Rennes, 2009 39
5.1 Outils de syndication de contenus
Plusieurs fonctions des fils RSS :• Suivre l’actualité d’un site : réception de
toutes les nouveautés• Se tenir informé :
Sur l’actualité : tous les journaux proposent des fils RSS
Presse : ex. de Libération
Sur un domaine : suivi de blogs et de sites spécialisés
ex. de UrfistInfo Outil de veille et de surveillance, technique
du push
Urfist de Rennes, 2009 40
5.2 Outils de syndication de contenus : les « pages perso »
Pages personnalisables : Fourniture gratuite de pages web,
personnalisables pour la gestion et la recherche d’information
Choix personnel des sources : sites web, blogs, fils RSS…
Divers services : calendrier, agenda… Exemple de Netvibes
Urfist de Rennes, 2009 41
6/ Les plates-formes de partage de signets
Le principe de la folksonomie : Forme de « classification collaborative
décentralisée spontanée », s’appuyant sur les termes choisis par les utilisateurs
Objectif : faciliter l’indexation des contenus et la recherche d’information
Tags peuvent s’appliquer à des signets web, à des photos, à des projets, des vidéos, ou encore des billets de blogs (nuages de tags)
Constitution d’une communauté de « spécialistes » parmi les internautes
Urfist de Rennes, 2009 42
6/ Les plates-formes de partage de signets
Intérêt pour la recherche : Recherche parmi les sources jugées
pertinentes par une groupe d’utilisateurs
Identifier des leaders de veille
Juger de la popularité d’une source (combien de fois a-t-elle été mise en signets)
Urfist de Rennes, 2009 43
Exemples de plate-formes de partage de signets
Généralistes : Del.icio.us, Yahoo! MyWeb2, Furl, Blogmarks, Blinklist
Scientifiques : Connotea, CiteUlike Recherche sur le titre des signets de tous
les autres utilisateurs et sur leurs tags Problème : logiques de classement et
d’indexation différentes selon les internautes Solution partielle sur Del.icio.us :
description des tags
6.1 Les plates-formes de partage de signets
Urfist de Rennes, 2009 44
6.1 Les plates-formes de partage de signets
del.icio.us : La plus ancienne Créée en 2004 par Joshua
Schachter, revendue à Yahoo en 2005
partage de signets tous publics
Création de réseaux
LiveMarks : pour suivre la création de
signets sur Del.icio.us en temps réel
Connotea : Partage de signets dans
le monde académique
Lancé par revue Nature En 2008, 144090 liens,
59548 tags et 13840 utilisateurs, dont 4811 actifs.
pour l’établissement de favoris, extraction automatique des références bibliographiques issus de sites tels que Nature, Science, PubMed
Urfist de Rennes, 2009 45
6.2 Les plates-formes de partage de documents multimédias
Les images : Flickr :
racheté par Yahoo! en 2OO5 Plus grande base de données de photos Mise en ligne de collections photographiques de
bibliothèques : Cf la collection de la Library of Congress
Les vidéos YouTube, DailyMotion
Les diaporamas SlideShare
partage et récupération de présentations powerpoint + quelques formats alternatifs
Urfist de Rennes, 2009 46
7/ Ressources pour aller plus loin
URFIST de Rennes : Supports de formation sur
la recherche d’information
Sélection de ressources sur les outils de recherche
URFIST de Lyon : Ressources pédagogiques
URFIST de Paris : Guides et tutoriels
FORMIST REPERE SAPRISTI SISTEM CALIS DEFIST MethoDoc (Univ. De
Gembloux) InfoSpheres (en SHS) AERIS (en sciences)