Top Banner
Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev [email protected] Ecole Normale Supérieure Lettres et Sciences humaines, Lyon, France University of Kentucky, October 24 2007
32

Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev [email protected] Ecole Normale.

Jan 05, 2016

Download

Documents

Allison Foster
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Processing Textual Sources for Linguistic and Literary Research:

What a 'Solitary Scholar' Can Do

Alexei Lavrentiev

[email protected]

Ecole Normale Supérieure Lettres et Sciences humaines, Lyon, France

University of Kentucky, October 24 2007

Page 2: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Two projects

• Scholarly re-edition of a 1861 “Anonymous” folklore collection

• Corpus of Medieval French manuscript transcriptions for the study of punctuation

Page 3: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Folklore Project 1/14

Page 4: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Project Team

• Vera Kuznetsova– Senior Researcher, Institute of

Philology SB RAS

– Specialist in Russian folklore

• Olga Laguta– Professor, Novosibirsk State University

– Linguist

• Alexei Lavrentiev

Folklore Project 2/14

Page 5: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Objectives

• Verify the authenticity of folklore texts in the collection

• Analyze linguistic features of the texts

• Learn more about the author of the collection

• Make these texts available to scholarly community

Folklore Project 3/14

Page 6: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Challenges

• Encode data in a sustainable format (TEI XML) using available tools– Microsoft office (Word, Access)

– XML processing software (XML Spy)

– Perl

• Configure the tools for the users with virtually no experience in IT

Folklore Project 4/14

Page 7: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Workflow

Word Documents

Perl script

Tokenized

XML-TEIdocuments

XSL Stylesheets

AccessDatabase

Printededition

Lemmatized

XML-TEIdocuments

Vocabularywith contexts

Linguistic analysis

Metadata

Folklore Project 5/14

Page 8: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Word

document

Folklore Project 6/14Жил был старичек уединенно в своей избушечке, сидел он [r] старик [/r] в одно

время и думал думу. [i0] Думает он [r] старик [/r] #: «Говорится же, что человек, чего ни

захотел бы, все ему будет, все он достать может. Нет, неправда это. Вздумал [g] бы [/g] я

[r] старик [/r] взять себе в замужество дочь княжескую. Этого быть не может, [c] потому

что [/c] я [r] старик [/r] ничего не значу, [c] да и [/c] стар…, а испытать нужно». [/i0]

Вот и приходит он [r] старик [/r] к князю, и говорит ему [r] князю [/r] #:«Отдай ты

[rk] старик князю [/rk] мне [r] старику [/r], [k] князь [/k], свою дочь в замужество». - « [k]

Изволь [/k] , - говорит князь, смеясь, - достань ты [rk] князь старику [/rk] мне [r] князю [/r]

только самоцветный камень, тогда я [r] князь [/r] отдам тебе [rk] князь старику [/rk] дочь

мою». [i0] Поклонился старик князю, [c] да и [/c] пошел домой, говоря сам про себя #: «

[c] Вот и [/c] выходит, что быть не может того, чтобы я [r] старик [/r] захотел. Где я [r]

старик [/r] такой камень возьму? Его [r] камень [/r], кажись, и во сто лет не отыщешь».

[/i0]

Так он [r] старик [/r] рассуждал, да рассуждал, да вдруг и услыхал, что кто-то в

рукомойнике плещется. Взглянул - а там и сидит чертенок. Старичек тотчас догадался, что

делать нужно было, - он [r] старик [/r] разом и закрестил чертенка в рукомойнике. [i0] Тот

[r] чертенок [/r] бился, бился, как бы вырваться, - нет, не может, и стал он [r] чертенок [/r]

просить старичка#: «Выпусти, - говорит, - [k] сделай милость [/k] ». - «Нет, не выпущу, -

говорит старичек. - А если хочешь, чтобы я [r] старик [/r] тебя [rk] старик чертенку [/rk]

выпустил, то обещай мне [r] старику [/r] достать самоцветный камень». - « [k] Изволь [/k],

достану, только выпусти». Старик тотчас выпустил его [r] чертенка [/r], а чертенок и

говорит#: «Садись на меня [r] чертенка [/r], полетим со мною [r] чертенком [/r] ». [/i0]

[i0] Сел старик на чертенка, а тот и поднялся с ним [r] стариком [/r] на воздух, да

так быстро, что с головы старика и шапка свалилась. «Постой, - говорит старик чертенку,

- шапку я [r] старик [/r] уронил, поднять надо». - «Нет, - говорит чертенок, - уж мы [r]

старик и чертенок [/r] десять тысяч верст отлетели», - и полетел дальше. [/i0]

Летел, летел он [r] чертенок [/r] и спустился в ад. Старику же у ворот ада велел [a]

чертенок [/a] себя подождать, а сам в ад пошел. [i0] Приходит чертенок назад к старику,

отдает ему [r] старику [/r] камень, [c] да и [/c] говорит#: «Украсть-то я [r] чертенок [/r]

камень украл, но нелегко мне [r] чертенку [/r] было пронести его [r] камень [/r], поймали,

Page 9: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Metadata file[1. File name] chtochelovekzakhochet ;

[номер] 20 ;[2. Заглавие текста (в источнике)] Что человек захочет, то и сделает ;[3. Заглавие текста (рабочее)] Что человек захочет ;[4. Коллектив - редактор электронной версии] Сектор русского языка в Сибири, Институт филологии СО РАН ;[5. Ответственные исполнители] :

[функция] Ввод текста и предварительная разметка ;[ФИО] Кузнецова Вера Станиславовна, Алешина Ольга Николаевна ;[функция] Конвертирование в формат XML-TEI, валидация ;[ФИО] Лаврентьев Алексей Михайлович .

[6. Информация о проекте] : Корпус текстов русской фольклорной прозы (легенды) ;[7. Информация об источнике] :

[Информация о редакторе(ах), составителе(ях) и т.п.] :[функция] подготовка к изданию ;[ФИО] Кузнецова Вера Станиславовна ;[функция] составитель сборника ;[ФИО] аноним ;[функция] автор записи ;[ФИО] не указан .

[Место записи] не указано ;[Издательство] типография Ф. Иванова;[Место издания] Санкт-Петербург ;[Год издания] 1861 ;[ISBN] ???? .

Folklore Project 7/14

Page 10: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Perl script

• Takes Word document saved in HTML (filtered) format

• Takes the metadata

• Produces an XML-TEI document– Tokenizes and gives ID to <w> and <s>

– Transforms analytical markup into <seg type=“…”> elements

Folklore Project 8/14

Page 11: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

XML DocumentFolklore Project 9/14

Page 12: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

XSLT Stylesheets

• Produce legible text for proofreading

• Produce tables to be exported to the database

Folklore Project 10/14

Page 13: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Access DatabaseFolklore Project 11/14

Page 14: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Access DatabaseFolklore Project 12/14

Page 15: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Access DatabaseFolklore Project 13/14

Page 16: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Results• Printed edition

– Texts– linguistic analysis supplement– indexes

• XML-TEI lemmatized text corpus• XSLT stylesheets• Access database

– morphological table, – forms for lemmatization and dictionary

• Problem: no direct connection between the printed edition and the XML texts

Folklore Project 14/14

Page 17: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Challenges

• Create an adequate representation of linguistically relevant data from a medieval manuscript– Multiple visualizations according to

various editing traditions

• Annotate and analyze the use of punctuation marks

Punctuation Project 1/12

Page 18: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Project “History”

• 1994-1999: first transcriptions using ASCII special characters

• 2001: first annotation using Excel

• 2003: XML-TEI (Charrette-style) transcriptions

• 2005-2007: XML-TEI (Menota-style) transcriptions

Punctuation Project 2/12

Page 19: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

“Special” data to be encodedPunctuation Project 3/12

Page 20: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

“Special” data to be encoded• Variant character

glyphs

Punctuation Project 3/12

Page 21: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

“Special” data to be encoded• Variant character

glyphs• Abbreviations

Punctuation Project 3/12

Page 22: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

“Special” data to be encoded• Variant character

glyphs• Abbreviations• Large initials• “Abnormal” word

spacing

Punctuation Project 3/12

Page 23: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

“Normalized” Presentation

[ § 7]  Endementres qu'il parloient einsi si entra laienz uns vaslez qui dist au roi: « Sire noveles vos aport mout merveilleuses. – Queles ?

Multiple visualizations

Extract from Ms.Lyon BM, P.A. 77, Queste del saint Graal, Photo: BM Lyon, Transcription: Graal Project

“Diplomatic” Presentation

[ § 7]  ENdementres qu'il parloient einsi si entra

laienz uns uaslez qui dist au roi. Sire

noueles uos aport mout merueilleuses. Queles

“Imitative” Presentation

[ § 7]  ENdementreſ quıl parloıent eínſı ſı en tͣlaıenz unſ uaſlez quı dıſt au roı . Sıre

noueleſ uoſ apo t mout merueılleuſeſ . Queleſ

XML Transcription

<p n="7"><lb n="6"/><w xml:id="w016_0251"> <norm>Endementres</norm> <dipl>ENdementres</dipl> <facs><mdv_dropcap letter="E" color="blue" size="2" sizeAct="2"> E</mdv_dropcap>Ndementre&slong;</facs></w><w aggl="elision" xml:id="w016_0252"> <norm>qu</norm> <dipl>qu</dipl> <facs>qu</facs></w>

Punctuation Project 4/12

Page 24: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Encoding choices

• “Menota-style” TEI extension– Multiple representation at a word level

(norm, dipl, facs, pal?)

• Additional elements– punct, mdv_dropcap, mdv_lb…

• Additional attributes– w/@aggl, punct/@force...

Punctuation Project 5/12

Page 25: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Workflow• Compact syntax transcription

– xml + “shortcut” characters (cf. Wiki)

• Text description using Access Database– Ms Description– Text typology

• Expanding to a standard XML format using a Perl script

• Export to tabular format for annotation• Re-integration of annotation to XML documents• Export and analysis using Weblex software

Punctuation Project 6/12

Page 26: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Compact syntaxPunctuation Project 7/12

Page 27: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Manuscript descriptionPunctuation Project 8/12

Page 28: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Expanded XMLPunctuation Project 9/12

Page 29: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

AnnotationPunctuation Project 10/12

Page 30: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

WeblexPunctuation Project 11/12

Page 31: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Results

• 25 fragments of manuscripts transcribed and described

• Encoding guidelines• Integrated database of text

descriptors (editions and transcriptions)

• Perl scripts for conversions• XSLT stylesheets

Punctuation Project 12/12

Page 32: Processing Textual Sources for Linguistic and Literary Research: What a 'Solitary Scholar' Can Do Alexei Lavrentiev Alexei.Lavrentev@ens-lsh.fr Ecole Normale.

Thank You!