Page 1
9e Forum européen de l’accessibilité numérique
8 juin 2015, Paris
Livre numérique accessible et
numérisation de masse à la BnF :
retour d’expérience
Jean-Philippe Moreux, Bibliothèque nationale de France
département de la Conservation, service Numérisation
Page 2
Pourquoi produire des
livres numériques (à la BnF) ?
Accessibilité aux
contenus numériques
EPUB 3 et DTBook
Numérisation de masse et
production
de contenus numériques
accessibles
2
Plan
Livre numérique accessible et
numérisation de masse à la BnF :
retour d’expérience
Accessible Ebooks and Mass
Digitization at the BnF :
feedback
How come BnF produces ebooks?
Making digital contents accessible
EPUB 3 and DTBook
Mass digitization and accessible digital
content production
Page 3
Bibliothèques patrimoniales : pourquoi produire
des livres numériques ?
3 8 juin 2015
• Améliorer la dissémination des contenus numériques :
– OCR indexation pour la bibliothèque numérique
– ebook lecture nomade, hors bibliothèque
• Tirer avantage du livre numérique en comparaison
des formats classiques de diffusion (HTML, PDF) :
– Meilleure utilisabilité, sur des appareils dédiés, d’un format
conçu pour la lecture numérique
– Meilleure accessibilité aux contenus numériques pour
les personnes empêchées de lire du fait d’un handicap
Page 4
Ebook et bibliothèques : prêt, téléchargement
4 4
Baromètre SOFIA/SNE/SGDL sur les usages du livre numérique, février 2013
Page 5
La numérisation à la BnF
5 8 juin 2015
Jusqu’à 1998, consultation
dans les murs
Depuis 1998, consultation
sur le Web (Gallica)
Depuis 2011, consultation sur
tablettes, et au format EPUB
1992 1998 2004 2005 2006-2009 2011-2014 2010 2014-2017
Num. de
conservation SPAR
Num. de
diffusion
Num.
de masse
Couleur,
test EPUB EPUB 2 EPUB 3
Page 6
Pourquoi EPUB ?
6 8 juin 2015
• Format ouvert pour le livre numérique (2006, 2011)
• Interopérable
• Basé sur des formats techniques standard :
• XHTML, CSS, SVG, ZIP, Unicode, Dublin Core
• Adapté aux contenus patrimoniaux ciblés par la BnF
(littérature, histoire, SHS, etc.)
• Meilleur confort de lecture que PDF :
• flot de texte
• personnalisation de la lecture (police et taille
de caractères)
Page 7
Flot de texte : adaptation au lecteur
7
corps de police variable police au choix
7
Page 8
Flot de texte : adaptation au dispositif
8 8
Page 9
9
Un EPUB non accessible est toujours meilleur qu’un PDF !
“In other words, everyone
will benefit from accessible
data at some point in their
lives, as there are a lot of
ways accessible data
improves access that aren’t
always immediately obvious.
Accessibility is critical for
some and universally
beneficial for all.” Matt Garrish
Page 10
Accessibilité aux contenus numériques à la BnF
10 8 juin 2015
• Développer l’accès à la lecture pour les personnes
empêchées de lire dans le cadre de la loi
du 11 février 2005
• À la BnF :
• Les documents convertis en livre numérique
sont rendus accessibles avec EPUB 3 et DAISY
(2014-).
• L’accès aux contenus accessibles est amélioré dans
la bibliothèque numérique (Gallica, sept. 2015).
Page 11
Pourquoi EPUB 3 ?
11 8 juin 2015
• Mécanismes dédiés favorisant l’accessibilité :
• Table de navigation enrichie : tables des pages et des repères
• Structuration des contenus :
• structuration sémantique HTML 5
• annotation sémantique EPUB 3 (epub:type) : vocabulaire
dédié (part, chapter, footnote…)
• Caractérisation de la langue du contenu (document, bloc, mot)
• Description de l’accessibilité avec des métadonnées ONIX
• Synchronisation texte/son
• Accès aux contenus scientifiques : MathML
• Mise en page adaptative
Page 12
Utiliser EPUB 3 aujourd’hui : les risques
12 8 juin 2015
• Enjeux de préservation :
• format maîtrisé (XHTML, Unicode, etc.)
• gabarit « EPUB patrimonial » : pas de scripting,
pas de contenu multimédia
• et il s’agit d’un format de diffusion (conservation = images)
• Enjeux d’usage :
• 2014-2015 : transition générale des dispositifs de lecture de
EPUB 2 vers EPUB 3
• Le gabarit « EPUB 3 patrimonial » n’utilise pas de
contenus/mécanismes « à risque »
lecture possible sur liseuses et logiciels EPUB 2
Page 13
Pourquoi DAISY ?
13 8 juin 2015
• DAISY a fusionné avec EPUB 3. En termes d’accessibilité,
EPUB 3 et DAISY sont équivalents.
• Mais un format pivot XML adaptable est préférable
pour la production d’autres formats accessibles :
• livres à gros caractères
• livres audio DAISY
• Braille
• … et pour anticiper les besoins à venir (rétroconversion
EPUB 3 vers EPUB x)
• La DTD XML DTBook 2005-3 a été choisie. Ce choix pourra
évoluer (ZedAI par exemple).
• Un mapping EPUB 3 vers DTBook a été créé.
Page 14
Production de contenus accessibles : processus
14 8 juin 2015
Sélection
documentaire
rétroconversion
numérisation
Montée en
qualité du
texte
Prestataire de numérisation
Structure OCR
XML
pivot
Packaging
des livrables
Feu
ille
s d
e
sty
le C
SS
,
po
lic
es
,
mé
tad
on
née
s,
tex
tes
fix
es
Page 15
Des contenus variés Un format, des dispositifs
de lecture hétérogènes
Un
processus
industriel
Dictionnaires Théâtre
Essai
Livres pour enfants
Production d’EPUB : les enjeux
8 juin 2015
Sciences
Périodiques
Littérature
Page 16
Production d’EPUB patrimoniaux : contexte
16 8 juin 2015
• Critères de sélection :
• intellectuels : genres, thèmes, périodes
• techniques, liés à la qualité de l’OCR : typographie, langues,
état physique, format d’origine (papier, microfilm)
• techniques, liés au format EPUB « reflowable » : texte
majoritaire, maquette simple
• Processus industriel :
• pas de traitement personnalisé des documents
• Enjeux de coût :
• pas de documents multilingues
• pas de contenus scientifiques
• pas d’index actifs
Page 17
Production de contenus num. accessibles : contexte
17 8 juin 2015
• Processus industriel :
• peu de maîtrise de DAISY de la part des prestataires ebook
et/ou numérisation…
• la description des illustrations n’est pas possible
• Enjeux de coût :
• pas de structuration sémantique fine
• langue d’un mot isolé
• Limite technique :
• structuration sémantique : les vocabulaires DAISY/EPUB sont
limités (théâtre, poésie, etc.)
Page 18
Contenus numériques accessibles : est-ce plus cher ?
18 8 juin 2015
• Numérisation OCR/EPUB : 3 à 4
• ingénierie
• qualité du texte (99,96 %)
• Coût de production EPUB 2 / EPUB 3 accessible : +5 %
• Prix à la page (OCR, correction, EPUB 3 + DAISY) :
0,4 à 0,8 €
• XML DTBook : export par mapping à partir du format pivot
XML du prestataire (pas de coût variable)
Page 19
Contenus num. accessibles : est-ce plus compliqué ?
19 8 juin 2015
Mécanisme d’accessibilité Compl. ? Remarque
Structure sémantique micro : De base : parag., notes de bdp, titres…
0 Nécessaire même pour des EPUB
non accessibles
Avancée : épigraphe, poème…
2 Plus de natures de contenu
à identifier
Structure sémantique macro
(organisation logique de l’œuvre)
1 Parfois complexe (variété des
collections, subjectivité)
Table des pages physiques 0 Générée automatiquement d’après
la structure physique (produite lors
de la numérisation)
Table des repères 0 Générée automatiquement d’après
la structure logique
Export XML DTBook 1 Mapping à créer
Page 20
Conclusion
20 8 juin 2015
• Numérisation BnF : 1 000 EPUB/an depuis 2011
• Savoir faire et outils mutualisés avec
le Dépôt légal du livre numérique (2015)
• Référentiels et spécifications BnF utilisés par
les partenariats de numérisation public-privé
les EPUB produits seront accessibles :
• projet « Relire/Indisponibles » (2014-2024) : 500 000
ouvrages, majoritairement au format EPUB
• Futurs genres en EPUB 3 : sciences, dictionnaires ?
Page 21
gallica.bnf.fr
21 21
L’offre sur Gallica : 3 000 EPUB
Page 22
Statistiques de diffusion
22 22 août 2014
iApp Gallica
Gallica Web
Le téléchargement
EPUB commence
à apparaître
Page 23
23
marqueurs insérés
dans le contenu
…
<div class="p-indent">Nous allons avoir sous les yeux les
êtres les plus dignes de l’attention du physicien. Que
l’imagination, éclairée par le flambeau de la science,
rassemble en effet tous les produits organisés de
<span id="page002" epub:type="pagebreak"
title="002"></span>la puissance créatrice…
Numéros de page : lectures papier/numérique
Page 24
Structuration sémantique : exemple des notes de bas de page
24
EPUB 3 avec structuration sémantique Texte sans structure logique
La structuration sémantique alimente les dispositifs d’assistance :
• le lecteur peut choisir de sauter une note
• le lecteur peut choisir de sauter systématiquement les notes 24
Page 25
Structuration sémantique : critique pour certains, bénéfique à tous
25
Lecture audio synchronisée
La structuration sémantique profite à tous :
• les liseuses EPUB restituent automatiquement les notes de bas de page
• les dispositifs d’assistance gèrent les fonctionnalités propres
au handicap visuel
25
Page 26
Le contrôle qualité EPUB+DTBook à la BnF
26 22 août 2014
Prestataires
rejets
Contrôles de
structure* :
•epubcheck
•pipeline
•contrôles BnF
Contrôle qualité
Archivage
SPAR
Contrôles visuels :
•mise en forme
•qualité du texte** Diffusion
* Pas d’outil de contrôle de l’accessibilité d’un fichier EPUB 3
** QA de la transcription du texte : difficile