Les dossiers de Bouvard et Pécuchet de Flaubert : Fragments visuels et fragments logiques au sein du projet d’édition électronique Stéphanie Dord-Crouslé (CNRS / LIRE UMR 5611) Emmanuelle Morlock-Gerstenkorn (CNRS / ISH UMS 1798) Séminaire de publication électronique, 15 décembre 2009, IRHT, Orléans
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Les dossiers de Bouvard et Pécuchet de Flaubert :
Fragments visuels et fragments logiquesau sein du projet d’édition électronique
Stéphanie Dord-Crouslé (CNRS / LIRE UMR 5611)Emmanuelle Morlock-Gerstenkorn (CNRS / ISH UMS 1798)
Séminaire de publication électronique, 15 décembre 2009, IRHT, Orléans
Plan
1. Présentation du projet2. La notion de "fragment" en question3. De la segmentation à la pérennisation, les rôles assignés
au balisage XML/TEI
L’origine du projet : Bouvard et Pécuchet, un roman inachevé
1- Un peu d’histoire littéraire…
● Le projet de Flaubert : un roman en 2 volumes commencé en 1872
● L’interruption brutale : la mort de Flaubert le 8 mai 1880
L’origine du projet : Bouvard et Pécuchet, roman inachevé
1- Un peu d’histoire littéraire…
2- Un peu d’histoire éditoriale…
Le roman publié sous le titre de Bouvard et Pécuchet (1881 - aujourd’hui) = le « 1er volume »
1881 2008
L’origine du projet : Bouvard et Pécuchet, roman inachevé
1- Un peu d’histoire littéraire…2- Un peu d’histoire éditoriale…● Le roman publié sous le titre de Bouvard et Pécuchet (1880-
aujourd’hui) = le « 1er volume »● Le chantier documentaire du « 2nd volume » conservé à la
bibliothèque municipale de Rouen
Le chantier documentaire du « 2nd volume »● Des « choix de documents » en annexe des éditions modernes
Le chantier documentaire du « 2nd volume »● Des « choix de documents » en annexe des éditions modernes ● Quelques tentatives plus récentes de reconstitution conjecturale
du « 2nd volume »
Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus
1- sa taille imposante (2300 feuillets)2- sa double hétérogénéité
- la nature physique des documents
page manuscrite page imprimée page mixte
Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus
1- sa taille importante (2300 feuillets)2- sa double hétérogénéité
- la nature physique des documents- leur appartenance typologique
- documentation brute ou peu traitée
- listes de références bibliographiques
- notes de lecture
- « notes de notes » ou fiches de synthèse disciplinaires
- pages préparées pour le second volume
Les dossiers documentaires de Bouvard et Pécuchet : les caractéristiques du corpus
1- sa taille importante (2300 feuillets)2- sa double hétérogénéité3- la mobilité de ses fragments
rococo
Style médical
dangers du chocolat.
Le projet BOUVARD
1- L'équipe scientifique
● en France, autour du LIRE:● des spécialistes de Flaubert ● et, plus largement, du XIXe siècle
● en Italie, au Japon et aux États-Unis : ● des spécialistes de Flaubert
1- L'équipe technique ● Le projet ANR, coordination technique assurée par le SID
● Responsable technique : Raphaël Tournoy ● Conception et suivi de l'encodage TEI : E Morlock-Gerstenkorn● Développements : Contractuels
● L'ADR – Cluster 13 (2007)● "Environnement collaboratif pour l’enrichissement, la valorisation et la
documentation d’un corpus multi supports en sciences humaines : l’édition électronique des dossiers de Bouvard et Pécuchet de Flaubert"
● Doctorant : Vincent Malleron, directeurs : Philippe Régnier (LIRE) – Hubert Emptoz (LIRIS)
2- Les moyens mis en œuvre
● une numérisation souhaitable mais problématique...
g226 (7) f°012
2 images :
1 surexposée
1 sous-exposée
2- Les moyens mis en œuvre
● une numérisation souhaitable mais problématique...● un site Web
2- Les moyens mis en œuvre
● une numérisation souhaitable mais problématique...● un site Web ● une base de données
Renvois vers les sources : « Références bibliographiques du scripteur ou titre de l'imprimé »
Colloque "Le patrimoine à l'ère du numérique : structuration et balisage" – Caen – 10-11 décembre 2009
hommes qui sont morts de joie. à copier
Diagoras de Rhodes, Chilon, Sophocle, Denys tyran de Sicile, Philémon,Polycratela nièce de Leibnitz en voyant une cassette pleine d'or dont elle héritait par la mortde son oncle, le pape Léon X en apprenant la prise de Milan
(398).
La récapitulation (g226-vol7-f154)
hommes qui sont morts de joie : Diagoras de Spartes Rhodes, Chilon, Sophocle, Denys tyran de SicilePhilémon, Polycrate, la nièce de Leibnitz en voyant une cassette
id. pleine d'or dont elle héritait par la mort de son oncle —le pape Léon X en apprenant la prise de Milan.l'Arétin, en apprenant une ruse de sa sœur
● Prendre en compte les structures implicites● Identifier des unités comparables
"Modèle abstrait" du fragment-citation
F
Vedettes Commentaires Citation
V1 V2 Vn C1 C2 Cn Enoncé Renvoi
Bizarreries Enumérations X À copier DM p. 287Hommes qui (...)
Raisonner au niveau logique
● Prendre en compte les structures implicites● Identifier des unités comparables● Définir une unité pour chaque niveau : logique (textuel),
physique 3D (document), visuel 2D (image)
Définition : le fragment-citationC'est une unité textuelle logique, correspondant à un passage d'une source externe au corpus, imprimée ou manuscrite, que l'on a pu identifier ou non.
Elle peut connaître plusieurs matérialisations dans le manuscrit patrimonial.
Elle correspond à une entité de la base de données, est en relation avec un élément de la transcription TEI et une ou plusieurs zones de l'image.
Définition : la zone d'imageC'est une région d'intérêt de forme polygonale isolée sur l'image facsimile du manuscrit.
Elle peut être générée automatiquement par un logiciel d'analyse d'image ou dessinée directement par un transcripteur.
Après validation par un transcripteur, elle est encodée dans le fichier TEI dans l'élément <facsimile>. Elle peut être mise en relation les composants de l'éléments <text> par l'intermédiaires d'attributs.
Définition : le morceau colléC'est une unité physique, correspondant au morceau de page manuscrite ou imprimée collé sur une page du manuscrit à une étape de sa composition.
Si nécessaire, il peut être encodé dans la transcription TEI par l'intermédiaire de balises vides de type "milestones".
Si la proposition de module dédié aux études génétiques est validée par le consortium, cette unité pourra être encodée par l'élément <ge:patch> au sein de l'élément <ge:document>.
Exemple d'encodage
<facsimile> <surface xml:id="page-G2226-1-287-r"> <graphic url="image-G226-1-287-r.jpg"/> <zone xml:id="zone-G266-1-287-r-vedette1"></zone> <zone xml:id="zone-G266-1-287-r-fragment3"></zone> <zone xml:id="zone-G266-1-287-r-vedette2"></zone> </surface> </facsimile> <text type="scenarique" subtype="BP2"> <body> <pb xml:id="G226-1-287-r" type="recto" n="1"/> <head rend="align(left) underline"> <index indexName="vedettes"> <term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1"> <interp ana="V-Bizarrerie">Bizarreries</interp> </term> </index> </head> <div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/> <div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/> <div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie"> <note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2"> <subst hand="#GF-crayon" > <del rend="strikethrough">Nomencl</del> <add place="below-indent">énumération</add> </subst> </note> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> <bibl xml:id="B3-2072"> <title> <abbr>Dict.</abbr> <abbr>Sc.</abbr> <abbr>Médic.</abbr> </title> <biblScope><abbr>Art</abbr> = Joie</biblScope> </bibl> </cit> </div> </body> </text>
<div xml:id="frag-1" type="fragment" n="1"> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> </cit> </div>
Valider au niveau fonctionnel de l'interface utilisateur
● La "maquette papier" du module de reconstitution● Reconstituer les pages intermédiaires découpées par
Flaubert ?
3 - De la segmentation à la pérennisation, les rôles assignés au balisage XML/TEI
3 - De la segmentation à la pérennisation, les rôles assignés au balisage XML/TEI1. Reprise des transcriptions existantes => fichier TEI minimal
2. Intégration des zones d'images + délimitation des fragments dans le texte + résolution des abréviations + métadonnées de la BDD (ref. bibliographiques) => fichier TEI délimité
3. Validation dans Oxygen par le chercheur => CSS Oxygen auteur sur-mesure
4. Script : création d'enregistrements pour chaque fragment et chaque texte dans la BDD
5. Archivage du fichier TEI validé dans la base de données au niveau texte
<text type="scenarique" subtype="BP2"> <body> <pb xml:id="G226-1-287-r" type="recto" n="1"/> <head rend="align(left) underline"> <index indexName="vedettes"> <term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1"> <interp ana="V-Bizarrerie">Bizarreries</interp> </term> </index> </head> <div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/> <div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/> <div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie"> <note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2"> <subst hand="#GF-crayon" > <del rend="strikethrough">Nomencl</del> <add place="below-indent">énumération</add> </subst> </note> <cit> <quote> <lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> - <persName>Chilon</persName> - <persName>Sophocle</persName> <lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce de <persName>Leibnitz</persName></persName> <lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle - Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de <placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une <space quantity="1" unit="word"/>de sa soeur - </quote> <bibl xml:id="B3-2072"> <title> <abbr>Dict.</abbr> <abbr>Sc.</abbr> <abbr>Médic.</abbr> </title> <biblScope><abbr>Art</abbr> = Joie</biblScope> </bibl> </cit> </div> </body> </text>
Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique● Réintégration des données de la BDD dans le fichier TEI● Relations génétiques et TEI ?
Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique● Mapping BDD vers TEI et « TEI on demand »● Export TEI patrimonial : génération à partir des <pb>● A expérimenter : encodage TEI des relations génétiques entre fragments
Le double rôle du balisage XML/TEI1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique● Réintégration des données de la BDD dans le fichier TEI● Relations génétiques et TEI ?
● Amélioration du processus de transcription (stratégie d'encodage, ciblage, cohérence et harmonisation)
Limites :
● L'encodage du niveau physique et visuel reste un objectif secondaire
● La temporalité des deux projets (ANR / Thèse) limite leur articulation
Recommandations :
● Nécessité de bien distinguer entre projet d'exploration scientifique et projet d'édition
● L'enjeu stratégique du dialogue chercheur / ingénieur : utiliser des représentations visuelles, rédiger des scénarios d'usage, éviter les pièges des questions/réponses binaires (possible/pas possible)
OutilsSur le marché...● Roma : schéma de la « personnalisation » TEI
● Oxygen : éditeur XML + CSS sur mesure de l'affichage « auteur »
● Inkscape : dessin et/ou validation des zones de l'image
● Milefeuille : indexation sémantique des fichiers TEI
En développement...● GraphicalFolioEditor : plugin Eclipse développé dans le cadre d'un stage
● Zonage automatique des images : algorithmes et interface développés dans le cadre d'une thèse
● Scripts divers maison à développer :
● création des enregistrements dans la BDD
● Script(s) BDD vers TEI
● Etc.
Lectures conseillées :● Biblio du projet : http://dossiers-flaubert.ish-lyon.cnrs.fr/
● Attaching a facsimile : http://tei.oucs.ox.ac.uk/GettingStarted/html/os.html#osreffac
● Cayless, Hugh A. “Linking Page Images to Transcriptions with SVG.” Presented at Balisage: The Markup Conference 2008, Montréal, Canada, August 12 - 15, 2008. http://www.balisage.net/Proceedings/vol1/html/Cayless01/BalisageVol1-Cayless01.html
● Projet TILE (Text-Image Linking Environment) : http://mith.info/tile/
● Description du projet TILE http://www.neh.gov/grants/guidelines/researchdevsamples/UnivMd_R&D.pdf