Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev [email protected] Ecole Normale Supérieure Lettres et Sciences humaines, Lyon, France University of Kentucky, October 24 2007
Jan 05, 2016
Processing Textual Sources for Linguistic and Literary Research:
What a 'Solitary Scholar' Can Do
Alexei Lavrentiev
Ecole Normale Supérieure Lettres et Sciences humaines, Lyon, France
University of Kentucky, October 24 2007
Two projects
• Scholarly re-edition of a 1861 “Anonymous” folklore collection
• Corpus of Medieval French manuscript transcriptions for the study of punctuation
Folklore Project 1/14
Project Team
• Vera Kuznetsova– Senior Researcher, Institute of
Philology SB RAS
– Specialist in Russian folklore
• Olga Laguta– Professor, Novosibirsk State University
– Linguist
• Alexei Lavrentiev
Folklore Project 2/14
Objectives
• Verify the authenticity of folklore texts in the collection
• Analyze linguistic features of the texts
• Learn more about the author of the collection
• Make these texts available to scholarly community
Folklore Project 3/14
Challenges
• Encode data in a sustainable format (TEI XML) using available tools– Microsoft office (Word, Access)
– XML processing software (XML Spy)
– Perl
• Configure the tools for the users with virtually no experience in IT
Folklore Project 4/14
Workflow
Word Documents
Perl script
Tokenized
XML-TEIdocuments
XSL Stylesheets
AccessDatabase
Printededition
Lemmatized
XML-TEIdocuments
Vocabularywith contexts
Linguistic analysis
Metadata
Folklore Project 5/14
Word
document
Folklore Project 6/14Жил был старичек уединенно в своей избушечке, сидел он [r] старик [/r] в одно
время и думал думу. [i0] Думает он [r] старик [/r] #: «Говорится же, что человек, чего ни
захотел бы, все ему будет, все он достать может. Нет, неправда это. Вздумал [g] бы [/g] я
[r] старик [/r] взять себе в замужество дочь княжескую. Этого быть не может, [c] потому
что [/c] я [r] старик [/r] ничего не значу, [c] да и [/c] стар…, а испытать нужно». [/i0]
Вот и приходит он [r] старик [/r] к князю, и говорит ему [r] князю [/r] #:«Отдай ты
[rk] старик князю [/rk] мне [r] старику [/r], [k] князь [/k], свою дочь в замужество». - « [k]
Изволь [/k] , - говорит князь, смеясь, - достань ты [rk] князь старику [/rk] мне [r] князю [/r]
только самоцветный камень, тогда я [r] князь [/r] отдам тебе [rk] князь старику [/rk] дочь
мою». [i0] Поклонился старик князю, [c] да и [/c] пошел домой, говоря сам про себя #: «
[c] Вот и [/c] выходит, что быть не может того, чтобы я [r] старик [/r] захотел. Где я [r]
старик [/r] такой камень возьму? Его [r] камень [/r], кажись, и во сто лет не отыщешь».
[/i0]
Так он [r] старик [/r] рассуждал, да рассуждал, да вдруг и услыхал, что кто-то в
рукомойнике плещется. Взглянул - а там и сидит чертенок. Старичек тотчас догадался, что
делать нужно было, - он [r] старик [/r] разом и закрестил чертенка в рукомойнике. [i0] Тот
[r] чертенок [/r] бился, бился, как бы вырваться, - нет, не может, и стал он [r] чертенок [/r]
просить старичка#: «Выпусти, - говорит, - [k] сделай милость [/k] ». - «Нет, не выпущу, -
говорит старичек. - А если хочешь, чтобы я [r] старик [/r] тебя [rk] старик чертенку [/rk]
выпустил, то обещай мне [r] старику [/r] достать самоцветный камень». - « [k] Изволь [/k],
достану, только выпусти». Старик тотчас выпустил его [r] чертенка [/r], а чертенок и
говорит#: «Садись на меня [r] чертенка [/r], полетим со мною [r] чертенком [/r] ». [/i0]
[i0] Сел старик на чертенка, а тот и поднялся с ним [r] стариком [/r] на воздух, да
так быстро, что с головы старика и шапка свалилась. «Постой, - говорит старик чертенку,
- шапку я [r] старик [/r] уронил, поднять надо». - «Нет, - говорит чертенок, - уж мы [r]
старик и чертенок [/r] десять тысяч верст отлетели», - и полетел дальше. [/i0]
Летел, летел он [r] чертенок [/r] и спустился в ад. Старику же у ворот ада велел [a]
чертенок [/a] себя подождать, а сам в ад пошел. [i0] Приходит чертенок назад к старику,
отдает ему [r] старику [/r] камень, [c] да и [/c] говорит#: «Украсть-то я [r] чертенок [/r]
камень украл, но нелегко мне [r] чертенку [/r] было пронести его [r] камень [/r], поймали,
Metadata file[1. File name] chtochelovekzakhochet ;
[номер] 20 ;[2. Заглавие текста (в источнике)] Что человек захочет, то и сделает ;[3. Заглавие текста (рабочее)] Что человек захочет ;[4. Коллектив - редактор электронной версии] Сектор русского языка в Сибири, Институт филологии СО РАН ;[5. Ответственные исполнители] :
[функция] Ввод текста и предварительная разметка ;[ФИО] Кузнецова Вера Станиславовна, Алешина Ольга Николаевна ;[функция] Конвертирование в формат XML-TEI, валидация ;[ФИО] Лаврентьев Алексей Михайлович .
[6. Информация о проекте] : Корпус текстов русской фольклорной прозы (легенды) ;[7. Информация об источнике] :
[Информация о редакторе(ах), составителе(ях) и т.п.] :[функция] подготовка к изданию ;[ФИО] Кузнецова Вера Станиславовна ;[функция] составитель сборника ;[ФИО] аноним ;[функция] автор записи ;[ФИО] не указан .
[Место записи] не указано ;[Издательство] типография Ф. Иванова;[Место издания] Санкт-Петербург ;[Год издания] 1861 ;[ISBN] ???? .
Folklore Project 7/14
Perl script
• Takes Word document saved in HTML (filtered) format
• Takes the metadata
• Produces an XML-TEI document– Tokenizes and gives ID to <w> and <s>
– Transforms analytical markup into <seg type=“…”> elements
Folklore Project 8/14
XML DocumentFolklore Project 9/14
XSLT Stylesheets
• Produce legible text for proofreading
• Produce tables to be exported to the database
Folklore Project 10/14
Access DatabaseFolklore Project 11/14
Access DatabaseFolklore Project 12/14
Access DatabaseFolklore Project 13/14
Results• Printed edition
– Texts– linguistic analysis supplement– indexes
• XML-TEI lemmatized text corpus• XSLT stylesheets• Access database
– morphological table, – forms for lemmatization and dictionary
• Problem: no direct connection between the printed edition and the XML texts
Folklore Project 14/14
Challenges
• Create an adequate representation of linguistically relevant data from a medieval manuscript– Multiple visualizations according to
various editing traditions
• Annotate and analyze the use of punctuation marks
Punctuation Project 1/12
Project “History”
• 1994-1999: first transcriptions using ASCII special characters
• 2001: first annotation using Excel
• 2003: XML-TEI (Charrette-style) transcriptions
• 2005-2007: XML-TEI (Menota-style) transcriptions
Punctuation Project 2/12
“Special” data to be encodedPunctuation Project 3/12
“Special” data to be encoded• Variant character
glyphs
Punctuation Project 3/12
“Special” data to be encoded• Variant character
glyphs• Abbreviations
Punctuation Project 3/12
“Special” data to be encoded• Variant character
glyphs• Abbreviations• Large initials• “Abnormal” word
spacing
Punctuation Project 3/12
“Normalized” Presentation
[ § 7] Endementres qu'il parloient einsi si entra laienz uns vaslez qui dist au roi: « Sire noveles vos aport mout merveilleuses. – Queles ?
Multiple visualizations
Extract from Ms.Lyon BM, P.A. 77, Queste del saint Graal, Photo: BM Lyon, Transcription: Graal Project
“Diplomatic” Presentation
[ § 7] ENdementres qu'il parloient einsi si entra
laienz uns uaslez qui dist au roi. Sire
noueles uos aport mout merueilleuses. Queles
“Imitative” Presentation
[ § 7] ENdementreſ quıl parloıent eínſı ſı en tͣlaıenz unſ uaſlez quı dıſt au roı . Sıre
noueleſ uoſ apo t mout merueılleuſeſ . Queleſ
XML Transcription
<p n="7"><lb n="6"/><w xml:id="w016_0251"> <norm>Endementres</norm> <dipl>ENdementres</dipl> <facs><mdv_dropcap letter="E" color="blue" size="2" sizeAct="2"> E</mdv_dropcap>Ndementre&slong;</facs></w><w aggl="elision" xml:id="w016_0252"> <norm>qu</norm> <dipl>qu</dipl> <facs>qu</facs></w>
Punctuation Project 4/12
Encoding choices
• “Menota-style” TEI extension– Multiple representation at a word level
(norm, dipl, facs, pal?)
• Additional elements– punct, mdv_dropcap, mdv_lb…
• Additional attributes– w/@aggl, punct/@force...
Punctuation Project 5/12
Workflow• Compact syntax transcription
– xml + “shortcut” characters (cf. Wiki)
• Text description using Access Database– Ms Description– Text typology
• Expanding to a standard XML format using a Perl script
• Export to tabular format for annotation• Re-integration of annotation to XML documents• Export and analysis using Weblex software
Punctuation Project 6/12
Compact syntaxPunctuation Project 7/12
Manuscript descriptionPunctuation Project 8/12
Expanded XMLPunctuation Project 9/12
AnnotationPunctuation Project 10/12
WeblexPunctuation Project 11/12
Results
• 25 fragments of manuscripts transcribed and described
• Encoding guidelines• Integrated database of text
descriptors (editions and transcriptions)
• Perl scripts for conversions• XSLT stylesheets
Punctuation Project 12/12
Thank You!