Bibliothèques et crowdsourcing Stage ENSSIB – PBD 11 janvier 2017 Pauline Moirez, BnF Jean-Philippe Moreux, BnF CC BY-NC-ND _NDenis, Flickr
Bibliothèques et crowdsourcing
Stage ENSSIB – PBD 11 janvier 2017
Pauline Moirez, BnFJean-Philippe Moreux, BnF
CC B
Y-NC
-ND
_NDe
nis,
Flick
r
CC B
Y-NC
-SA
Emily
Talia
ferro
Prin
ce, F
lick
Inventer de nouvelles relations avec nos
publics
S’inscrire dans un écosystème où
l’interaction est la norme
CC B
Y-NC
DC
Smith
, Flic
kr
RESEAUX SOCIAUX WEB
MOBILE
WEB SOCIAL
GEOLOCALISATIONGAMIFICATION
Galleries Libraries Archives Muséums
Echanger avec les autres institutions patrimoniales et culturelles
Diapo inspirée d’Antoine Courtin
Comprendre et se conformer aux codes d'usages du web
CC
BY-
NC
-SA
Bibl
ioqu
est.
CC
BY-
NC
-ND
, Fl
ickr
Pour enrichir nos collections et les services rendus à nos
usagers
C’est une mission pour Super Librarian !
Au programme
1. Contexte et enjeux du crowdsourcing pour les bibliothèques
2. Typologie de projets 3. Retour d’expérience sur la plateforme de correction d’OCR CORRECT
4. Contenus et données : qualité, nature, cadre juridique
5. Recruter et motiver les publics
Et des ateliers pratiques
CC B
Y-NC
dr c
oop,
Flic
kr
Contexte et enjeux du crowdsourcing pour les
bibliothèques
1
Arrêtons de parler de web 2.0…
CC B
Y-NC
-ND
Josh
Fass
bind
, Flic
kr
Vive le web social !
Médias sociaux ou web social ?
Les projets Wikimedia CC B
Y-SA
Wik
imed
ia F
ound
atio
n
Le web collaboratif
CC
BY-
NC
-SA
mon
mim
oun,
Flic
kr
Une terminologie fluctuante…qui reflète différentes réalités
Crowdsourcing
Web collaboratifWeb participatif Métadonnées
sociales
Production participative
Community sourcing
Les archives participatives
Kate Theimer
Un organisme, un site ou une collection auxquels des personnes qui ne sont pas
des professionnels des archives apportent leur connaissance ou ajoutent des
contenus, généralement dans un contexte numérique en ligne. Il en résulte une
meilleure compréhension des documents d’archives.
Le musée participatif
Nina Simon
« Je définis une institution culturelle participative comme un endroit où
les visiteurs peuvent créer, partager et échanger entre eux autour des
objets culturels. »
CC B
Y-NC
ryan
cr, F
lickr
Les enjeux culturels de la participation
CC B
Y-ND
Jere
my
Salm
on, F
lickr
L’économie de la recommandation
Notation et critiques
BM de Saint-Herblain
Les « playlists » de l’INA
Organisation de l’information par les usagers
What’s your MET ? au Metropolitain Museum
Marketing viral
CC B
Y-ND
iT@
c, F
lickr Sciences citoyennes
Ancient Lives (Université d’Oxford)
Muséum d’histoire naturelle
VigieNature
BirdLab
Les Herbonautes
Citizen Archivist (AN Etats-Unis)
CC B
Y-NC
-ND
Libel
ulle
, Flic
kr
2 De nombreux types de projets de
crowdsourcing…
CC B
Y-NC
-ND
Rick
ydav
id, F
lickr
Catalogues enrichisGranularité de description plus finePlein texteConstruction de nouveaux services
L’indexation de la bibliothèque
Indexation en langage naturel (folksonomies)
Le tagging des usagers
La Library of Congress sur Flickr : plus de
20000 photographies, 67000 tags ajoutés
Operation War Diaries (Archives nationales du Royaume-Uni)
Indexation collaborative
Identification de photographies
BM de Lyon
Catalogage collectif de manuscrits
Manuscrits islamiques de l’Université du Michigan
Rétroconversion de fichiers papiers
Convert-a-Card (Libcrowds, British Library)
Géolocalisation des contenus
Map Warper de la NYPL : géoréférencement de cartes
anciennes
« Many hands make light work »Trove (Bibliothèque nationale d’Australie)
Correction collaborative
d’OCR
Transcription collaborative
AnnoTate (Tate Gallery)
Edition collaborative
Transcribe Bentham (Université de Londres)
Edition annotée
Candide 2.0 (New York Public Library)
SHS participatives
Transcrire (Huma-Num)
Co-création de contenus et de savoirs
CC B
Y-NC
Don
McC
ullo
ugh,
Flic
kr
CC
BY-
SA Je
nny
YE, W
ikim
edia
Com
mon
s
« Editathons » (journées contributives)
British Library
Un wiki pour une institution
La « Rosalipédie » de la bibliothèque numérique de Toulouse
Inventaires participatifs
Le Laboratoire des internautes des AD Vendée
Moving Here – 200 years of migrations in England (AN Royaume-Uni)
Collecte d’archives orales
Une exposition sur place créée par les internautes au Brooklyn museum
Co-création d’expositio
n
Hackathon BnF 2016
Hackathons
Projet GallicarteProjet GallicaLOL
CC B
Y-NC
-ND
jona
than
_W, F
lickr
Crowdfunding
CC B
Y Am
anda
B, F
lickr3
Le crowdsourcing à la BnF : retour d’expérience sur le
projet Correct
Disposer d’un mode texte de bonne qualité- Recherche plein texte - Accessibilité (synthèse vocale)- Text mining
OCR automatique insatisfaisant
Nécessité d’une relecture humaine
Sour
ce :
Gallic
a
Répondre à des besoins concrets dans Gallica
Recherche plein texte dans Gallica
OCR
Diapo empruntée à I. Josse
Etude sur les usages collaboratifs (Plein Sens, 2008) « échanger sur Gallica, on n’y
pense pas »
Depuis 2010 : médiation numérique, communauté des Gallicanautes
Etude Usage et satisfaction de Gallica (GMV, 2011)
Sour
ce :
Gallic
a
Des usagers disposés à participer
Les Gallicanautes brûlent de corriger Gallica !
Source : Twitter.Diapo empruntée à M. Leroy-Terquem
Les bibliothécaires sont de plus en plus favorables au crowdsourcing- Complémentarité des
métadonnées professionnelles et sociales
- Multiplication des sources de données (dérivation de notices, éditeurs, etc.)
Sour
ce :
Gallic
a
Evolution de la culture professionnelle
Ouverture de 1365 documents sur la bibliothèque numérique Wikisource - S’appuyer sur une
plateforme préexistante (éditeur de texte) et des contributeurs wikisourciens
- Expérimenter un premier projet collaboratif
Sour
ce :
Gallic
a
Le partenariat BnF / Wikimedia France (2009)
Fin 2016 : 111 documents corrigés par une double vérification ; 153 documents validés par un seul correcteur - Faiblesse de la
communication et de la médiation institutionnelle
- Difficulté de s’insérer dans la communauté des Wikisourciens
- Difficulté de réintégrer les documents produits
Sour
ce :
Gallic
a
Un bilan mitigé
Le projet FUI12 OzalidConception de la plateforme collaborative Correct de correction et d’enrichissement de documents numérisés
9 partenaires :- Coordination : Orange Labs- Entreprises : Jamespot,
Urbilog, I2S- Labos de recherche : ISEP,
INSA Lyon, Université Claude Bernard, Paris 8
- Institution culturelle : BnF
Trois modules interconnectésMoteur autocontrôle
Editeur de correction
Réseau social
Diapo empruntée à I. Josse
2012-2013 2013-2014 2014-2015
RECHERCHE / PROTOTYPE
Mener en parallèle recherche et expérimentation
66
EXPERIMENTATION
Expérimentation 3Observation continue des activités de la plateforme Réalisation d’une étude d’usage
Expérimentation 1En avril 2013 , expérimentation du 1er prototype de l’éditeur de correction
Expérimentation 2Le 19 juin à La BnF, expérimentation en réseau, réalisée simultanément à distance et à la BnF
Editeur de correction Module réseau social Ouverture de Correct
Diapo empruntée à I. Josse
Ouverture de Correct le 24 novembre 2014
www.reseau-correct.fr Diapo empruntée à I. Josse
Le cadre juridique
- Les métadonnées descriptives : open data (licence Etalab)
- Les documents numérisé et l’OCR : licence spécifique de Gallica (toutes réutilisations privées ou publiques sauf commerciales)
- Les données produites : entrent dans la licence Gallica (pas de mention des contributeurs)
Recrutement et motivation des usagers
- La communauté des Gallicanautes : communication sur les réseaux sociaux et sur Gallica
- Choix des corpus :- Documents les plus consultés de Gallica
(ésotérisme, récits de voyages)- Usages constatés sur le web : romans
d’anticipation, gastronomie- Sujets « tous publics » : littérature
populaire, contes d’ici et d’ailleurs- Lien à l’actualité : Première guerre
mondiale
Un pari : un projet de crowdsourcing appuyé sur un
réseau social- Miser sur l’entraide des usagers pour
organiser le travail de participation et assurer la qualité de la production
- Parier sur l’échange social comme levier de motivation
- Objectif : susciter l’appropriation de la plateforme par les usagers, passer de la participation à la collaboration
- L’exemple du groupe Lecteurs.com
Résultats de l’étude d’usages de la plateforme Correct
(nov. 2014-jan.2015)
- Analyse des statistiques- Questionnaire en ligne- Focus groups- Recueil de carnets d’activité
Quelques chiffres
369 inscrits en deux mois- pics liés aux actions de communication- 47% ont « décroché » en 48 heures
3 701 pages corrigées sur un total de 16 805 pages (62 ouvrages proposés), soit environ 22% du nombre total des pages.
37 contributeurs (soit 8% des inscrits) ont assuré 63% des corrections totales dont 10 ont réalisés à eux-seuls 50% du total des corrections.
Quelques « super-contributeurs »
Profils des contributeurs
- Bibliothécaires- Enseignants et chercheurs- Amateurs de culture, bibliophiles- Technophiles
« C’est comme les mots croisés mais c’est utile »
- Mais des outils d’échanges et de collaboration peu utilisés : 75% des contributeurs n’ont jamais échangé avec d’autres.
- même si la correction est une activité solitaire, la présence des autres contributeurs sur la plateforme accroît la motivation.
« Je ne suis pas rentré en contact pour l’instant avec les autres utilisateurs de Correct mais cela m’intéresserait de le faire avec les personnes qui corrigent un document qui m’intéresse. »
Des interfaces agréables
Motivation des usagers
- découvrir des documents (intérêt scientifique, curiosité),
- participer à l’amélioration de Gallica - contribuer de manière citoyenne à un projet de la BnF- envie de voir l’aboutissement des corrections sur un
document (satisfaction ou plaisir du travail fini)
Attention aux enjeux techniques !
• Prévoir la réintégration des données enrichies/corrigées
• Penser aux :– formats techniques– SI de l'institution– cycles de vie des objets numériques– coûts/gains– mesure de la qualité
CC B
Y-NC
-SA
Joan
a Ha
rd, F
lickr
4
Contenus et données
CC B
Y-SA
e30
00, F
lickr
Comment assurer la qualité des données produites ?
DigitalKoot, correction collaborative d’OCR (Bibliothèque nationale de Finlande)
Des microtâches très encadrées
S’assurer de la compétence des usagers
Examen de paléographie pour l’indexation collaborative aux AD Ain
Evaluation sociale et validation par
des experts
Transcribe Bentham (University College London)
Automatisation des vérifications
Old Weather (Archives nationales du Royaume-Uni)
Miser sur l’encadrement et l’entraide des contributeurs
Plateforme Correct : activité de correction appuyée sur un réseau social
Utilisation de référentiels
JocondeLab (Ministère de la Culture)
CC B
Y Ro
bert
Cous
e-Ba
ker,
Flick
r
Quels lieux pour les projets de crowdsourcing ?
History Pin (Archives nationales d’Australie)
Sur une plateforme extérieure
Sur une plateforme dédiée
Le Wiki de la Grande Guerre (département des Yvelines)
Au cœur du catalogue
Trove (Bibliothèque nationale d’Australie)
CC
BY-
ND
rip
ples
tone
ga
rden
, Flic
kr
Quels réintégration des
données produites ?
Contribuer sans réintégrer les données
Ateliers Wikipedia / Centre Pompidou
Afficher dans un catalogue des données
produites ailleurs
La Babelthèque dans le catalogue de la BM de Toulouse
Questions juridiques
CC B
Y-SA
Mich
ael C
oghl
an, F
lickr
Open data (métadonnées) et open content (documents numérisés)
BnF : data.bnf.fr, toutes les données des catalogues
Images numérisées de
la BNUS
Mairie de Toulouse (Archives, Musée des
Augustins)
Œuvres du Rijksmuseum
Open data et culture
Les licenses Creative Commons
Proposer un cadre clair et explicite
Trove (Terms of use)
Rendre aux usagers ce qui appartient aux usagers ?
Mémoire des hommes (Ministère de la Défense)
Créditer les contributeurs
Annotations trouvées dans les registres
d’état-civil (AD Mayenne)
Reconnaître les contributeurs
comme co-auteurs
Foldit : des contributeurs crédités comme auteurs des articles scientifiques
5
CC B
Y M
arc
Corn
elis,
Flic
kr
Recruter et motiver les publics
Atteindre la masse critique ?
CC B
Y-NC
-ND
Lulu
Witc
h, F
lickr
La loi de participation :« 90-9-1 »
Et à l’heure du web social ?
Sour
ce: B
BC
Choisir ses publics- Public local / national / international- Tous publics ou publics ciblés :
- Généalogistes ou érudits locaux (ex. indexation collaborative des documents nominatifs)
- Enfants, scolaires (ex. atelier Wikipedia)
- Professionnels du patrimoine- Non-voyants (ex. plateforme Correct)- Chercheurs, Digital humanities (ex.
Transcrire)
Identifier les leviers de motivation des publics choisis
- Participation citoyenne- Intérêt scientifique- Curiosité technophile- Sentiment de communauté (ex.
Transcribe Bentham)- Interfaces agréables- Intense animation et médiation (on
aime être sollicité)- Mais aussi…
Gamification
Metadatagames (Dartmouth College)
Choix des corpus
Do it yourself history (Université de l’Iowa)
Système de récompenses
ArcHIVE, transcription collaborative des inventaires des AN d’Australie
Bibliographie sommaire E. Bouyé, « Le web collaboratif dans les services d’archives publics : un pari sur l’intelligence et la motivation des publics », La Gazette des Archives, n°227 (2012-3).B. W. Brumfield, « Control for Crowdsourced Transcription », Collaborative Manuscript Transcription, 2012. Construire des pratiques participatives dans les bibliothèques, dir. Raphaëlle Bats, Presses de l’ENSSIB, 2015A. Chardonnens, Collections iconographiques numérisées et crowdsourcing : Possibilités et limites de la co-création de métadonnées par le grand public au travers de trois études de cas, mémoire pour le diplôme de Master en Gestion culturelle, université libre de Bruxelles, 2015.D. Day, Enjeux, état des lieux et dynamiques de participation en bibliothèques, mémoire pour le diplôme de conservateur des bibliothèques, ENSSIB, 2014,A. Neroulidis, Le crowdsourcing appliqué aux archives numériques : concepts, pratiques et enjeux, mémoire pour le diplôme de master en sciences de l’information et des bibliothèques, ENSSIB, 2015.P. Moirez, « Archives participatives », dans Bibliothèques 2.0 à l’heure des médias sociaux, dir. M. Amar et V. Mesguich, 2012, p. 187-197.P. Moirez, « Bibliothèques, crowdsourcing, métadonnées sociales », BBF (sept. 2013).P. Moirez, J.-P. Moreux, I. Josse, Etat de l’art en matière de crowdsourcing dans Les bibliothèques numériques, 2013.K. Smith-Yoshimura, C. Shein, Social Metadata for Libraries, Archives, and Museums, OCLC, 2011-2012.K. Theimer, « The participatory archives », Archives Next, 2011.