Progetti e prospettive di Filologia Digitale Verona, 4-5 Ottobre 2007 Roberto Rosselli Del Turco Ricercatore Dipartimento di Scienze del Linguaggio Università di Torino Introduzione al progetto Vercelli Book Digitale
Progetti e prospettive di Filologia Digitale
Verona, 4-5 Ottobre 2007
Roberto Rosselli Del Turco
Ricercatore
Dipartimento di Scienze del Linguaggio
Università di Torino
Introduzione al progetto Vercelli Book Digitale
2
Sommario della presentazione
Il Codex Vercellensis CXVIIIntroduzione al progetto Vercelli Book DigitaleLa trascrizione del manoscrittoAcquisizione ed elaborazione delle immaginiIl software di consultazioneStatus del progettoConclusioni
3
Introduzione al progetto Vercelli Book Digitale
Il Vercelli Book (Codex Vercellensis CXVII)
fine del X secolo (grafia tardo s.o.)136 fogli di pergamena sottile, 31x20 cm circaredatto da un unico scriba in tempi diversicontiene 23 omelie e 6 componimenti poeticitra questi ultimi opere importanti: Andreas, Elena, Il sogno della Croceuno dei quattro “grandi codici” anglosassoniin Italia dal XII secolo (cfr. f. 24v: Salmo XXVI)pervenuto a Vercelli in circostanze ancora misteriose: forse il dono di un pellegrino
4
Introduzione al progetto Vercelli Book Digitale
Il Vercelli Book: altri dettagli
aspetto piuttosto modestopoche iniziali decoratealcuni fogli sono molto sottilifori nella pergamenadanni da reagente chimicoprimo foglio illeggibile
5
Introduzione al progetto Vercelli Book Digitale
Gli obiettivi del progetto VBD
edizione ipertestuale con immagini a fronte (full DE)miglioramento dell’accessibilità grazie a una pubblicazione digitalepreservazione del manoscritto riducendo la necessità di una manipolazione fisicaevidenziazione e recupero di dettagli del manoscritto grazie al restauro digitalestrumenti di ricerca testuale e analisi del manoscrittoinclusione di tutto il materiale che possa essere utile per lo studio del VB e dei testi che contiene
6
Introduzione al progetto Vercelli Book Digitale
Obiettivi intermedi
trascrizione di tutti i testiscansione ad alta risoluzione del manoscrittorestauro digitale delle aree danneggiateedizione diplomatica dei testiintroduzione paleografica e filologicatrascrizione e digitalizzazione di documenti accessori (trascrizione di Maier)software di visualizzazione
7
Introduzione al progetto Vercelli Book Digitale
Piano di lavoro
moduli paralleli: acquisizione delle immagini, trascrizione dei testi, sviluppo/adattamento del softwarecontrollo qualità: revisione incrociata della trascrizione, test del softwarefase di assemblaggio e test finaleuso di standard aperti e ben documentati sia per le immagini (TIFF, JPEG), sia per i testi (TEI XML)uso di software libero quando possibileuso di (e distribuzione come) software libero per il programma di consultazione
8
Introduzione al progetto Vercelli Book Digitale
Trascrizione dei testi: XML
standard W3C flessibile e potentemolto diffuso e usato per gli scopi più diversiindipendente da hardware e software (sistema operativo)marcatura di tipo semantico invece che proceduralei documenti XML sono leggibili e modificabili con un semplice editor di testoinoltre possono essere convertiti in altri formati piuttosto facilmente
9
Introduzione al progetto Vercelli Book Digitale
Cosa significa “marcatura semantica”
vari tipi di markup:
testo: Renzo non mangia sushi nei Promessi SposiRTF: Renzo {\ltrch\hich\b\loch\b non} mangia {\ltrch\hich\i\loch\i sushi} nei {\ltrch\hich\i\loch\i Promessi Sposi}HTML: Renzo <b>non</b> mangia <i>sushi</i> nei <i>Promessi Sposi</i>XML: Renzo <emph>non</emph> mangia <foreign>sushi</foreign> nei <title>Promessi Sposi</title>
10
Trascrizione del manoscritto
Trascrizione dei testi: scelta della DTD
conforme alle norme TEI (Text Encoding Initiative http://www.tei-c.org/) perché
standard molto versatile e diffusoperfetto per tutte le parti “generiche”
ma...non la TEI Lite (troppo limitata per la trascrizione)non la TEI P4 (molto orientata verso la marcatura di documenti a stampa, supporto alla trascrizione ancora incompleto, piuttosto complessa, superata dalla P5)troppo presto per pensare a una DTD personalizzatanecessaria una DTD temporanea
11
Trascrizione del manoscritto
La DTD del Digital Scriptorium
ottima come DTD ad interim perché
semplice (basata sulla TEI Lite)estensioni specifiche per la trascrizione di manoscrittiben documentatacorredata di esempi da studiare
Web site: http://www.scriptorium.columbia.edu/
12
Trascrizione del manoscritto
La DTD definitiva del progetto VBD
la TEI sta per pubblicare la versione P5:
struttura modulare più facile da assemblare (software Roma)numerosi miglioramenti, in particolare per quanto riguarda la trascrizionebuona compatibilità con la versione precedente (migrazione semplificata)
la DTD definitiva sarà quindi basata sulla TEI P5, personalizzata per modificare o integrare alcune caratteristiche
13
Trascrizione del manoscritto
Strumenti per la codifica
requisiti: user-friendly, flessibili, economicieditor XML:
sotto Linux: gedit, Screem (http://www.screem.org/)XML Copy Editor (http://xml-copy-editor.sourceforge.net/)Oxygen (http://www.oxygenxml.com/)
validazione:libxml (http://xmlsoft.org/) ► xmllintScreem, XML Copy Editor, Oxygen
trasformazioni XSLTlibxslt (http://xmlsoft.org/XSLT/) ► xsltprocXML Copy Editor, Oxygen
17
Trascrizione del manoscritto
Problemi di trascrizione I
lettere e simboli non standardvedi intervento di R. Cioffi
distinzione fra lessema e parola grafica:<w> non può contenere elementi come <abbr> o <expan>costretti a usare <seg type=”word”> nel caso di parole spezzate
gerarchie sovrapposte:<p><q>eadige beoð. </p><p>þa clæn se heortan.</q></p> ► markup non valido!!!
18
Trascrizione del manoscritto
Problemi di trascrizione II
la trascrizione e codifica di un manoscritto richiede molto tempo e attenzionela TEI sta migliorando la sezione delle Guidelines e il modulo corrispondente (in particolare miglioramenti nella P5) ma resta ancora molto lavoro da farepermangono alcuni problemi specifici (ad esempio la modifica di un carattere) ...... e alcune limitazioni (ad esempio un metodo per collegare il testo alla corrispondente area del manoscritto in TEI XML)
19
Trascrizione del manoscritto
Il software EPPT
Edition Production and Presentation Tool (sito: http://beowulf.engl.uky.edu/~eft/eppt/)sviluppato da Kevin S. Kiernancodifica basata su immagine e testo (IBEE)può essere usato con qualsiasi DTD, e più di una DTD allo stesso tempopermette di risolvere il problema delle gerarchie sovrapposteoffre altri strumenti interessanti: analisi della forma dei caratteri, glossario, motore di ricerca XMLbasato su Eclipse, sviluppato come open source
21
Acquisizione ed elaborazione delle immagini
Acquisizione e post-processing
MS
Acquisition Post-processing
RAW TIFF / JPEG
22
Acquisizione ed elaborazione delle immagini
Strumenti di visualizzazione / elaborazione
gThumb (http://gthumb.sourceforge.net/)visualizzazione durante la codificapiccole operazioni di image processing
The GIMP (http://www.gimp.org)strumento di elaborazione molto potenteconversione delle immagini
ImageMagick (http://www.imagemagick.org/)conversione delle immagini in modalità batch
EPPTcollegamento testo - immagine
23
Software di consultazione
Software di consultazione: requisiti
multi-piattaforma: Windows, MacOS, Linux, etc.supporto per lingue diverse: facilmente localizzabilerequisiti hardware ragionevoliinterfaccia efficace e amichevole: in particolar modo per quanto riguarda la navigazioneflessibile: in grado di gestire formati di dati e DTD diversi, facilmente aggiornabile ed espandibilesviluppato e distribuito come software libero
25
Software di consultazione
Software di consultazione: EPPT
il software EPPT costituisce un buon candidato:soddisfa quasi tutti i requisitile funzionalità mancanti possono essere aggiunte come plugin di Eclipsepermetterebbe di restare nello stesso ambiente di sviluppo per tutta la durata della preparazione
qualche problema da risolvere:l’interfaccia è complessa, talvolta macchinosala parte di visualizzazione non è completadovrebbe essere trasformata in applicazione separata (RCP) più leggera, solo per la visualizzazione
27
Software di consultazione
Software di consultazione: alternative
il software sviluppato da P. Robinson (Anastasia):soddisfa quasi tutti i requisitiGUI non ottimaleparzialmente “non standard”sviluppo molto lento
il software sviluppato da B.J. Muir:GUI molto buonatecnologia non ottimale (Javascript)software proprietario
il software sviluppato da E. Lyman (Elwood):ancora in fase di sviluppo, proprietario
28
Status del progetto
Lo status attuale del progetto
trascrizionecompletata al 60-70%prossimi alla definizione di uno schema di codifica personalizzato (TEI P5)controllo incrociato + finale
digitalizzazione delle immaginieffettuata
valutazione del software di consultazionein corsocollaborazione con Kiernan (EPPT)
29
Status del progetto
I moduli mancanti
restauro digitalecombinazione di tecniche “fisiche” e digitaliuso di tecniche tradizionali (UV, fibre ottiche) non ha dato risultati apprezzabilinecessario l’uso di strumenti hardware dedicati
scansione e codifica della trascrizione di MaierC. Maier è stato il primo a effettuare una trascrizione completa del VB nel 1833archiviata a Londra, presso il Lincoln’s Inn come Misc 225molto importante non soltanto per motivi storici, ma anche perché trascrive parti danneggiate
30
Status del progetto
Necessità future
un framework TEI XML per la marcatura del metro germanico
essenziale per effettuare un’edizione criticaelementi per marcare il verso lungo secondo varie teorieelementi per le figure retoriche caratterizzanti (formule, kenningar, variazioni)lavoro già cominciato
set di fogli di stile per la pubblicazione dei testi sul webmassimizzare l’accessibilità all’edizioneobiettivo ideale: versione più leggera del software di consultazione
31
Conclusioni
Come gestire un progetto di edizione digitale
pianificazione accurataindividuare le fasi, le risorse, gli strumenti necessariricognizione preliminare di progetti simili
seguire di persona tutte le fasi critichedigitalizzazione del manoscritto
non reinventare la ruotausare al meglio gli standard disponibilientrare in una community of practiceusare standard apertiusare software open source
32
Ringraziamenti
Collaboratori del progetto
codifica del testo:Federica Goria – Università di Torino Raffaele Cioffi – Università di TorinoEmilia Di Maio – Università di Napoli
sviluppo plugin EPPT:Laura Vigna – Università di Bologna
software di consultazione sperimentale:Vincenzo Gervasi – Università di Pisa