Top Banner
Codex Calistinus, livro V séc. XII
195

e-Dictor: Histórico e perspectivas (2015)

Jan 29, 2018

Download

Science

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: e-Dictor: Histórico e perspectivas (2015)

Codex Calistinus,

livro V

séc. XII

Page 2: e-Dictor: Histórico e perspectivas (2015)

Gallæcia

Santiago de Compostela

27 a 30 de julho 2015

III Congresso Internacional de Linguística Histórica

Page 3: e-Dictor: Histórico e perspectivas (2015)

Coordenação:

Charlotte M.C. Galves

Xavier G. Guinovart

SimpósioCorpus linguísticos e gramática histórica

Page 4: e-Dictor: Histórico e perspectivas (2015)

Maria Clara Paixão de SousaUniversidade de São Paulo

Universidade de São Paulo

dictor:histórico e perspectivas

e

Page 5: e-Dictor: Histórico e perspectivas (2015)

dictor:histórico e perspectivas

O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos

especialmente voltado ao trabalho filológico e à análise lingüística automática.

Combinando um editor de XML a um etiquetador morfossintático, o software

permite a geração automática de versões correspondentes a edições

diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação

morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e

grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.

Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da

computação, o desenvolvimento da ferramenta tem sido orientado pela

demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa

et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de

Veronesi (2014), uma proposta independente e inovadora está colocada para o

futuro desse desenvolvimento, em ambiente de rede, e em um formato que

subverte em grande parte o inicialmente concebido. Nesta comunicação,

apresentaremos uma avaliação dessa nova proposta de desenvolvimento,

comparando-a conceitualmente à ferramenta original, e pesando suas vantagens

e desvantagens conforme observáveis já na fase inicial de sua implementação.

Resumo

e

Page 6: e-Dictor: Histórico e perspectivas (2015)

dictor:histórico e perspectivas

O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos

especialmente voltado ao trabalho filológico e à análise lingüística automática.

Combinando um editor de XML a um etiquetador morfossintático, o software

permite a geração automática de versões correspondentes a edições diplomáticas,

semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.

Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de

pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado

de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o

desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,

como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de

Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma

proposta independente e inovadora está colocada para o futuro desse

desenvolvimento, em ambiente de rede, e em um formato que subverte em

grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma

avaliação dessa nova proposta de desenvolvimento, comparando-a

conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens

conforme observáveis já na fase inicial de sua implementação.

Resumo

e

Page 7: e-Dictor: Histórico e perspectivas (2015)

O que é?

edictore

Page 8: e-Dictor: Histórico e perspectivas (2015)

De onde veio?

O que é?

edictore

Page 9: e-Dictor: Histórico e perspectivas (2015)

De onde veio?

Para onde vai?

O que é?

edictore

Page 10: e-Dictor: Histórico e perspectivas (2015)

>De onde veio?

Para onde vai?

O que é?

edictore

Page 11: e-Dictor: Histórico e perspectivas (2015)

> Uma ferramenta para

edição filológica eletrônica

e análise linguística

automática

edictore

Page 12: e-Dictor: Histórico e perspectivas (2015)

>

O que me importa?

A principal finalidade do eDictor

é oferecer uma interface amigável

aliada a um alto nível de controle

e flexibilidade na codificação de

textos eletrônicos com finalidade

de pesquisa linguística.

dictore

Page 13: e-Dictor: Histórico e perspectivas (2015)

> É um software livre,

atualmente com duas

versões:

edictore

Page 14: e-Dictor: Histórico e perspectivas (2015)

>Versão 1.0 Beta 10

Versão Web – em teste

edictor

Page 15: e-Dictor: Histórico e perspectivas (2015)

Versão 1.0 Beta 10

Versão Web – em teste

“O que é”

“Para onde vai”

edictore

Page 16: e-Dictor: Histórico e perspectivas (2015)

> Versão 1.0 Beta 10

Versão Web – em teste

edictore

Page 17: e-Dictor: Histórico e perspectivas (2015)

> Versão 1.0 Beta 10

Disponível para windows,

por download em

http://edictor.net

edictore

Page 18: e-Dictor: Histórico e perspectivas (2015)

http://edictor.net

Page 19: e-Dictor: Histórico e perspectivas (2015)

http://edictor.net

Page 20: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10

Page 21: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Transcrição

Page 22: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo "Transcrição"

Aba "Transcrição"

Page 23: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Edição

Aba "Edição"

Page 24: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Etiquetação

Aba "Morfologia"

Page 25: e-Dictor: Histórico e perspectivas (2015)

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo senhor

D. Fr. Antonio [...].Rio de Janeiro :

Na Segunda Oficina de Antonio

Isidoro da Fonseca, 1747.

Page 26: e-Dictor: Histórico e perspectivas (2015)

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo senhor

D. Fr. Antonio [...].Rio de Janeiro :

Na Segunda Oficina de Antonio

Isidoro da Fonseca, 1747.

O primeiro

livro impresso

no Brasil !

Page 27: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo "Transcrição"

Page 28: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Edição

Page 29: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Edição

Page 30: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Configuração de preferências

Page 31: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Configuração de preferências

Page 32: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Configuração de preferências

Page 33: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Configuração de preferências

Page 34: e-Dictor: Histórico e perspectivas (2015)

>eDictor 1.0 Beta 10 – Exportação de Versões

Page 35: e-Dictor: Histórico e perspectivas (2015)

Apresentação Diplomática

Page 36: e-Dictor: Histórico e perspectivas (2015)

Apresentação Modernizada

Page 37: e-Dictor: Histórico e perspectivas (2015)

Apresentação Modernizada

Page 38: e-Dictor: Histórico e perspectivas (2015)

RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID

COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID

RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID

Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID

Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID

Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID

Texto

anotado:

P.O.S.

Page 39: e-Dictor: Histórico e perspectivas (2015)

Léxico das edições

Page 40: e-Dictor: Histórico e perspectivas (2015)

Por trás disso…>

dictore

Page 41: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Configuração de preferências

Page 42: e-Dictor: Histórico e perspectivas (2015)

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos

>

dictore

Page 43: e-Dictor: Histórico e perspectivas (2015)

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos?

dictore

Page 44: e-Dictor: Histórico e perspectivas (2015)

XML tended

arkup

anguage

e

>

Page 45: e-Dictor: Histórico e perspectivas (2015)

> XML Código-base do

eDictor 1.0 Beta 10

Page 46: e-Dictor: Histórico e perspectivas (2015)

>

Page 47: e-Dictor: Histórico e perspectivas (2015)

> Versão 1.0 Beta 10

Usada atualmente por seis

grupos de pesquisa no

Brasil e em Portugal

dictore

Page 48: e-Dictor: Histórico e perspectivas (2015)

Corpus Anotado do Português

Histórico Tycho Brahe,

(Universidade Estadual de Campinas)

Grupo de Pesquisas

Humanidades Digitais

(Universidade de São Paulo)

P.S. Arquivo Digital de Escrita Quotidiana em

Portugal e Espanha na Época Moderna

(Universidade de Lisboa)

Corpus Eletrônico de

Documentos Históricos do Sertão,

CEDOHS (Universidade Federal de Feira de Santana)

Laboratório de História do Português Brasileiro

(Universidade Federal do Rio de Janeiro)

Memória Conquistense

(Universidade Estadual do Sudoeste da Bahia)

Page 49: e-Dictor: Histórico e perspectivas (2015)

Corpus Anotado do Português

Histórico Tycho Brahe,

(Universidade Estadual de Campinas)

Grupo de Pesquisas

Humanidades Digitais

(Universidade de São Paulo)

P.S. Arquivo Digital de Escrita Quotidiana em

Portugal e Espanha na Época Moderna

(Universidade de Lisboa)

Corpus Eletrônico de

Documentos Históricos do Sertão,

CEDOHS (Universidade Federal de Feira de Santana)

Laboratório de História do Português Brasileiro

(Universidade Federal do Rio de Janeiro)

Memória Conquistense

(Universidade Estadual do Sudoeste da Bahia)

Page 50: e-Dictor: Histórico e perspectivas (2015)

>Versão 1.0 Beta 10

Exemplos de aplicação

dictore

Page 51: e-Dictor: Histórico e perspectivas (2015)

>Versão 1.0 Beta 10

1) Preparação de textos em

corpora anotados

(Corpus Tycho Brahe)

dictore

Page 52: e-Dictor: Histórico e perspectivas (2015)

O Corpus Tycho Brahe

http://www.tycho.iel.unicamp.br/corpus/index.html

Page 53: e-Dictor: Histórico e perspectivas (2015)

O Corpus Tycho Brahe

Exemplo de um texto em versão “original”

Page 54: e-Dictor: Histórico e perspectivas (2015)

O Corpus Tycho Brahe

Exemplo de um texto em versão “modernizada”

Page 55: e-Dictor: Histórico e perspectivas (2015)

[ prologue (author: P.M. Gandavo)]

[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]

[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco

entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade

alguma parte do muito que se deve à ínclita fama de vosso heróico nome.

[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,

como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente

em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à

menor parte de seus louvores .

[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa

deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os

segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,

determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .

[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :

assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição

Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras

, que o das armas.

[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta

pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito

ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .

[ end prologue ]

O Corpus Tycho Brahe

Exemplo de um texto em versão para ferramentas

Page 56: e-Dictor: Histórico e perspectivas (2015)

O Corpus

Tycho Brahe

Exemplo de

um código-

base XML

Page 57: e-Dictor: Histórico e perspectivas (2015)

> Versão 1.0 Beta 10

2) edição de manuscritos

(LaborHistórico e CEDOHS)

dictore

Page 58: e-Dictor: Histórico e perspectivas (2015)

LaborHistorico

Laboratório de História do Português Brasileiro

Universidade Federal do Rio de Janeiro.

Coord. Célia Lopes

http://www.letras.ufrj.br/laborhistorico/

>

Page 59: e-Dictor: Histórico e perspectivas (2015)

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

Page 60: e-Dictor: Histórico e perspectivas (2015)

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

Page 61: e-Dictor: Histórico e perspectivas (2015)

CEDOHS

Corpus Eletrônico de Documentos

Históricos do Sertão,

Coord. Zenaide Carneiro

http://www2.uefs.br/cedohs/

>

Page 62: e-Dictor: Histórico e perspectivas (2015)

CEDOHS

Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))

http://www2.uefs.br/cedohs/

Page 63: e-Dictor: Histórico e perspectivas (2015)
Page 64: e-Dictor: Histórico e perspectivas (2015)

64

Documentos editados com o eDictor

em diferentes corpora

(2005-2013)

Número total de documentos:

1.398Número de palavras:

2.856.127

dictore

Page 65: e-Dictor: Histórico e perspectivas (2015)

65

Problemas da atual versão

Page 66: e-Dictor: Histórico e perspectivas (2015)

66

Há muitos!

…vamos escolher dois:( )

Problemas da atual versão

Page 67: e-Dictor: Histórico e perspectivas (2015)

Problemas

67

1. Baixa interoperabilidade - O código XML do eDictor

não segue padrões internacionais estabelecidos, desde

meados dos anos 2000, para corpora eletrônicos -

notadamente, o nenhuma das diferentes versões do TEI

(Text Encoding Initiative). Com isso, os textos trabalhados

no editor não são facilmente compartilháveis com outros

corpora. Alguns grupos desenvolveram scripts para essa

adaptação. Mas o ideal seria que a própria ferramenta

seguisse um código-standard, ou, ao menos, oferecesse essa

transição.

2. Alta dependência do código à estrutura lógica do

texto. As categorias básicas da marcação XML do eDictor

seguem uma hierarquia: seção > parágrafo > sentença >

palavra, que “prende” a anotação à hierarquia do texto. Isso

vem impedindo que a anotação se expanda para a anotação

da estrutura sintática dos textos (que era um importante

da atual versão

Page 68: e-Dictor: Histórico e perspectivas (2015)

Problemas

68

1. Baixa interoperabilidade - O código XML do eDictor

não segue padrões internacionais estabelecidos, desde meados

dos anos 2000, para corpora eletrônicos - notadamente, o

nenhuma das diferentes versões do TEI (Text Encoding

Initiative). Com isso, os textos trabalhados no editor não são

facilmente compartilháveis com outros corpora. Alguns

grupos desenvolveram scripts para essa adaptação. Mas o

ideal seria que a própria ferramenta seguisse um código-

standard, ou, ao menos, oferecesse essa transição.

2. Alta dependência do código à estrutura lógica do

texto. As categorias básicas da marcação XML do eDictor

seguem uma hierarquia: seção > parágrafo > sentença >

palavra, que “prende” a anotação à hierarquia do texto. Isso

vem impedindo que a anotação se expanda para a anotação da

estrutura sintática dos textos (que era um importante objetivo

inicial, até hoje frustrado).

da atual versão

Page 69: e-Dictor: Histórico e perspectivas (2015)
Page 70: e-Dictor: Histórico e perspectivas (2015)

Problemas

70

Estes dois problemas principais estão estritamente

ligados à história do desenvolvimento do eDictor - a

trajetória entre seus objetivos iniciais e a ampliação

desses objetivos sempre no sentido de absorver

demandas de novos usuários.

da atual versão

Page 71: e-Dictor: Histórico e perspectivas (2015)

> De onde veio?

Para onde vai?

O que é?

dictore

Page 72: e-Dictor: Histórico e perspectivas (2015)

2004-2006Primeiras Ideias

Page 73: e-Dictor: Histórico e perspectivas (2015)

http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html

PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos

na construção de um corpus histórico do português. Post-doc Research

Project, 2004-2007. Unicamp/Fapesp.

Page 74: e-Dictor: Histórico e perspectivas (2015)

>

PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of

Historic corpora for diverse uses.

In: Proceedings of the Association for Literary and Linguistic

Computing (ALLC) Annual Conference, 2004.

Page 75: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus

Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V

Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre

Léxico, São Carlos, 2005.

Page 76: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de

dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,

2005.

Published in 2006 as:

PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.

Page 77: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.

Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade

Complutense, setembro de 2006.

Published in 2007 as:

PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores

Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge

Scholarly, 2007.

Page 78: e-Dictor: Histórico e perspectivas (2015)

http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html

Electronic Editions and Tycho Brahe Text Preparation Manual

June 2006

Page 79: e-Dictor: Histórico e perspectivas (2015)

TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards

at work: a corpus repository of Historical Portuguese texts. V International

Conference on Language Resources and Evaluation (LREC), 2006.

Page 80: e-Dictor: Histórico e perspectivas (2015)

TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards

at work: a corpus repository of Historical Portuguese texts. V International

Conference on Language Resources and Evaluation (LREC), 2006.

Page 81: e-Dictor: Histórico e perspectivas (2015)

I Oficina de Anotação – Projeto CorPorA.

Salvador, 19-21 de abril, 2006.

Page 82: e-Dictor: Histórico e perspectivas (2015)

I Oficina de Anotação – Projeto CorPorA.

Salvador, 19-21 de abril, 2006.

Page 83: e-Dictor: Histórico e perspectivas (2015)

2007Lançamento

(Versão Beta 1.0 000)

Page 84: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma

ferramenta integrada para a anotação de edição e classe de palavras.

VI Encontro de Lingüística de Corpus, São Paulo, 2007.

Page 85: e-Dictor: Histórico e perspectivas (2015)

Interface do eDictor 1.0 beta 01

Page 86: e-Dictor: Histórico e perspectivas (2015)

Interface do eDictor 1.0 beta 01

Page 87: e-Dictor: Histórico e perspectivas (2015)

2008-2014Crescimento para novos usos

(Versões Beta 1.0 002 a 010)

Page 88: e-Dictor: Histórico e perspectivas (2015)

> Versão 1.0 Beta 10

3) edição de obras raras

digitalizadas

- Projeto Edições Filológicas na

Brasiliana Digital, 2009-2013

dictore

Page 89: e-Dictor: Histórico e perspectivas (2015)

Bibioteca Brasiliana Guita e José Mindlin, doada

à Universidade de São Paulo em 2006:

40.000 obras dos séculos XVI a XXI…

Page 90: e-Dictor: Histórico e perspectivas (2015)
Page 91: e-Dictor: Histórico e perspectivas (2015)

imagem

=

“digitalizado...”

Page 92: e-Dictor: Histórico e perspectivas (2015)

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E

REVERENDÍSSIMO SENHORD. F

RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em o

primeiro dia defle prtzente Anno de

1747,havendo fidoſeis Annos Biſpo do B,

eyno de Angola, donde por no-miacaõ de

Sua Mageftade, e Bulla Pontificia, foy

promovidopara ella Diocefi. COMPOSTA

PELO DOUTORLÜIZ ANTONIO

ROSADODA CUNHA£ fm\ de Fora, e

Provedor dos defuntos, e au-Z$nte$ y

Capella*, c ReJĩdos do Rio de Janeiro. RIO

DE JANEIRO tía Segunda Officina de

ANTONIO ISID. ORO DAĩONCECA,

Anno de M. CC. XLVII. Com licenças do

Senhor Bijfo,

OCR “Optical

Character

Recognition”

texto

imagem

Page 93: e-Dictor: Histórico e perspectivas (2015)

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E REVERENDÍSSIMO

SENHORD. F RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em o primeiro

dia defle prtzente Anno de 1747,havendo fidoſeis

Annos Biſpo do B, eyno de Angola, donde por no-

miacaõ de Sua Mageftade, e Bulla Pontificia, foy

promovidopara ella Diocefi. COMPOSTA PELO

DOUTORLÜIZ ANTONIO ROSADODA

CUNHA£ fm\ de Fora, e Provedor dos defuntos, e

au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.

RIO DE JANEIRO tía Segunda Officina de

ANTONIO ISID. ORO DAĩONCECA, Anno de

M. CC. XLVII. Com licenças do Senhor Bijfo,?

Page 94: e-Dictor: Histórico e perspectivas (2015)

Relação da entrada que fez o excelentíssimo, e

reverendíssimo senhor Dom Frei Antonio do

Desterro Malheiro, Bispo do Rio de Janeiro,

em o primeiro dia deste presente Ano de 1747

havendo sido seis Anos Bispo do Reino de

Angola, donde por nomeação de Sua

Majestade, e Bula Pontifícia, foi promovido

para esta Diocese. Composta pelo doutor Luiz

Antonio Rosado da Cunha Juiz de Fora, e

Provedor dos defuntos, e ausentes, Capelas, e

Residos do Rio de Janeiro. Rio de Janeiro, Na

Segunda Oficina de Antonio Isidoro da

Fonseca, Ano de MCCXLVII. Com licenças

do Senhor Bispo.

!

Page 95: e-Dictor: Histórico e perspectivas (2015)

>O Projeto Edições Filológicas na

Brasiliana Digital (2009-2013)

criou, com o eDictor, edições

corrigidas e modernizadas para

algumas obras do acervo, além de

um banco de dados de erros de

reconhecimento automático

(OCR).

Page 96: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

Page 97: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento

automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus

do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.

Page 98: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

Page 99: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

(Abbyy Finereader 10.0 training module)

Page 100: e-Dictor: Histórico e perspectivas (2015)

Apresentação Diplomática

Page 101: e-Dictor: Histórico e perspectivas (2015)
Page 102: e-Dictor: Histórico e perspectivas (2015)

texto imagem

Page 103: e-Dictor: Histórico e perspectivas (2015)

Apresentação Modernizada

Page 104: e-Dictor: Histórico e perspectivas (2015)

Apresentação Modernizada

Page 105: e-Dictor: Histórico e perspectivas (2015)

RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID

COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID

RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID

Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID

Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID

Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID

Texto

anotado:

P.O.S.

Page 106: e-Dictor: Histórico e perspectivas (2015)

<w id="s_6#86">

<o> amiſjade</o>

<e t="ocr">amiſſade</e>

<e t="gra">amissade</e>

<e t="mod">amizade </e>

<m v="N"/>

</w>

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

Page 107: e-Dictor: Histórico e perspectivas (2015)

<w id="s_6#86">

<o> amiſjade</o>

<e t="ocr">amiſſade</e>

<e t="gra">amissade</e>

<e t="mod">amizade </e>

<m v="N"/>

</w>

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

Page 108: e-Dictor: Histórico e perspectivas (2015)

>

Page 109: e-Dictor: Histórico e perspectivas (2015)

Interface of eDictor in 2009 – Edition Module

Page 110: e-Dictor: Histórico e perspectivas (2015)

em todo esse processo de

adaptação ao uso por novos

projetos foi que

“Edição” passou a ser

uma categoria aberta, que

pode ser configurada por cada

grupo.

> O mais importante…

Page 111: e-Dictor: Histórico e perspectivas (2015)

em todo esse processo de

adaptação ao uso por novos

projetos foi que

“Edição” passou a ser

uma categoria aberta, que

pode ser configurada por cada

grupo.

> O mais importante…

Page 112: e-Dictor: Histórico e perspectivas (2015)

“Edição” passa a ser uma categoria aberta

Page 113: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas

perspectivas na codificação e edição de corpora de textos históricos. In: VIII

Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.

Page 114: e-Dictor: Histórico e perspectivas (2015)

First Version of eDictor’s Manual (2010)

Page 115: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas

perspectivas na codificação e edição de corpora de textos históricos. In: Tania

Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da

linguística de corpus. Campinas: Mercado de Letras, 2010.

Page 116: e-Dictor: Histórico e perspectivas (2015)

116

Workshop:

Construction and use of large annotated corporaUnicamp, Setembro de 2013

Page 117: e-Dictor: Histórico e perspectivas (2015)

Nova página, manual e interface do e-Dictor,

Setembro de 2013

Page 118: e-Dictor: Histórico e perspectivas (2015)

> Em resumo…

Page 119: e-Dictor: Histórico e perspectivas (2015)

desde 2007 foram lançadas

10 versões ('builds')

do eDictor 1.0 beta,

cada uma refletindo

modificações e

acrescentamentos

solicitados pelos novos

projetos que

adotaram a ferramenta.

Em resumo…

>

Page 120: e-Dictor: Histórico e perspectivas (2015)

2015

Page 121: e-Dictor: Histórico e perspectivas (2015)

2015e agora?

Page 122: e-Dictor: Histórico e perspectivas (2015)

>De onde veio?

Para onde vai?

O que é?

dictore

Page 123: e-Dictor: Histórico e perspectivas (2015)

>Versão 1.0 Beta 10

Versão Web – em teste

edictore

Page 124: e-Dictor: Histórico e perspectivas (2015)

Versão Web – em testehttp://www.tycho.iel.unicamp.br/workflow/index.action

Page 125: e-Dictor: Histórico e perspectivas (2015)

125

Luiz Henrique Lima Veronesi:

e-Dictor: da plataforma para a nuvem.Dissertação de Mestrado em Filologia e Língua Portuguesa, Universidade de São Paulo, 2014.

Page 126: e-Dictor: Histórico e perspectivas (2015)

Versão Web – em teste

Page 127: e-Dictor: Histórico e perspectivas (2015)

Versão Web – em teste

Page 128: e-Dictor: Histórico e perspectivas (2015)

> XML Código-base do

eDictor Web

Page 129: e-Dictor: Histórico e perspectivas (2015)

> XML Código-base do

eDictor Web

Page 130: e-Dictor: Histórico e perspectivas (2015)

> XML Código-base do

eDictor Web

Page 131: e-Dictor: Histórico e perspectivas (2015)

>

Page 132: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 133: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 134: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 135: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 136: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

Page 137: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

Page 138: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

Page 139: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

Page 140: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

“considerar os tokens 69 a 73 como uma unidade"

Page 141: e-Dictor: Histórico e perspectivas (2015)

>O que me importa?

Vantagens e

Problemasda nova versão web

Page 142: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

142

1. A primeira vantagem da nova

versão é “libertar” o código do

eDictor de sua dependência à

estrutura gráfica do texto.

Page 143: e-Dictor: Histórico e perspectivas (2015)

Problemas

143

(lembrando….)

1. Alta dependência do código à estrutura gráfica do

texto. As categorias básicas da marcação XML do

eDictor seguem uma hierarquia: seção >

parágrafo > sentença > palavra, que “prende” a

anotação à hierarquia do texto. Isso vem

impedindo que a anotação se expanda para a

anotação da estrutura sintática dos textos (que era

um importante objetivo inicial, até hoje frustrado).

da atual versão

Page 144: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

144

1. A primeira vantagem da nova versão é “libertar” o

código do eDictor de sua dependência à estrutura

gráfica do texto.

Com o novo código, finalmente nos

aproximamos do objetivo de incluir a

anotação sintática entre as

tarefas que podem ser cumpridas no

interior da ferramenta.

Pois, nas palavras de Veronesi (2014:52),

“O texto passa a ser compreendido por listas

Page 145: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

145

1. A primeira vantagem da nova versão é “libertar” o código

do eDictor de sua dependência à estrutura gráfica do texto.

Com o novo código, finalmente nos aproximamos do

objetivo de incluir a anotação sintática entre as

tarefas que podem ser cumpridas no interior da ferramenta.

Pois, nas palavras de Veronesi (2014:52),

“O texto passa a ser compreendido por

listas que se relacionam logicamente em

função da posição linear que os tokens

ocupam após o processo de tokenização”.

Page 146: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

146

Page 147: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

147

“Luiz Antonio Rosado da Cunha” <chunk/>

Page 148: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

148

“Luiz Antonio Rosado da Cunha” <chunk/>

[Luiz Antonio Rosado da Cunha] Sintagma

Page 149: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

149

“Luiz Antonio Rosado da Cunha” <chunk/>

[Luiz Antonio Rosado da Cunha] Sintagma

Page 150: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

150

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Page 151: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

151

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Sintagmas

“Palavras” >

>

Page 152: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

152

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Sintagmas

“X” >

>

Page 153: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

153

Ilustração da interface para anotação sintática

(versão interna para testes, ainda não publicada)

Page 154: e-Dictor: Histórico e perspectivas (2015)

Primeira vantagem

154

Em resumo:

Anotação fundada na

estrutura gráfica

Anotação fundada em

“listas logicamente relacionadas”

Page 155: e-Dictor: Histórico e perspectivas (2015)

Segunda vantagem

155

Page 156: e-Dictor: Histórico e perspectivas (2015)

Segunda vantagem

156

2. A segunda vantagem da nova versão está

ligada a sua disponibilização em ambiente de

nuvem.

Em tese, uma ferramenta que não precisa ser

“baixada” por cada usuário permite que as

novas versões e melhoramentos sejam

imediatamente disponíveis para todos os

usuários, entre outras vantagens apontadas

por Veronesi 2014.

Page 157: e-Dictor: Histórico e perspectivas (2015)

Primeiro problema

157

Page 158: e-Dictor: Histórico e perspectivas (2015)

Primeiro problema

158

1. O primeiro problema está ligado à segunda

vantagem. Nem todos os usuários sentem-se

confortáveis com uma ferramenta que nunca

está disponível localmente - a dependência de

todo um projeto ao acesso a um servidor

remoto, muitas vezes em outro continente,

passível de problemas e quedas, etc., não é

desejada pela maioria. Do outro lado, o

funcionamento “em nuvem” traz à equipe de

desenvolvedores da ferramenta uma grande

responsabilidade, pois precisam manter e

tornar disponível algo que forma a base das

pesquisas de muitos grupos. A solução desse

problema, em princípio, não parece complexa:

Page 159: e-Dictor: Histórico e perspectivas (2015)

Primeiro problema

159

1. O primeiro problema está ligado à segunda vantagem.

Nem todos os usuários sentem-se confortáveis com uma

ferramenta que nunca está disponível localmente - a

dependência de todo um projeto ao acesso a um servidor

remoto, muitas vezes em outro continente, passível de

problemas e quedas, etc., não é desejada pela maioria. Do

outro lado, o funcionamento “em nuvem” traz à equipe

de desenvolvedores da ferramenta uma grande

responsabilidade, pois precisam manter e tornar

disponível algo que forma a base das pesquisas de muitos

grupos. A solução, em princípio, não

parece complexa: seria possível

implementar uma ferramenta híbrida,

com versão em nuvem e local. Mas isso

nos leva ao segundo problema.

Page 160: e-Dictor: Histórico e perspectivas (2015)

Segundo problema

160

Page 161: e-Dictor: Histórico e perspectivas (2015)

Segundo problema

161

1.O segundo problema está fortemente

ligado ao primeiro. Para que o

funcionamento “em nuvem” seja

garantido, é preciso haver uma equipe de

desenvolvedores dedicados; mesmo para

se fazer uma ferramenta híbrida, com

versão em nuvem e local, é necessário

termos uma equipe.

O fato, entretanto, é que o eDictor nunca

contou com uma equipe dedicada.

Page 162: e-Dictor: Histórico e perspectivas (2015)

Segundo problema

162

1.O segundo problema está fortemente

ligado ao primeiro. Para que o

funcionamento “em nuvem” seja

garantido, é preciso haver uma equipe de

desenvolvedores dedicados; mesmo para

se fazer uma ferramenta híbrida, com

versão em nuvem e local, é necessário

termos uma equipe.

O fato, entretanto, é que o eDictor nunca

contou com uma equipe dedicada.

Page 163: e-Dictor: Histórico e perspectivas (2015)

Possível solução

163

Page 164: e-Dictor: Histórico e perspectivas (2015)

Possível solução

164

A meu ver há uma medida que pode solucionar todos os

problemas do eDictor.

Deveríamos abrir o código-fonte tanto da versão 1.0 como

da nova-versão web, enviá-lo a um portal de

desenvolvedores, transformando o eDictor em uma

ferramenta de construção colaborativa, por

meio do uso de plataformas do tipo CSD -

Collaborative Software Development Platforms.

Esta sempre foi, de fato, a vocação dessa ferramenta.

Page 165: e-Dictor: Histórico e perspectivas (2015)

Possível solução

165

Desde o início, o eDictor foi construído em pequenas etapas,

por diferentes pesquisadores vindos de diferentes formações,

e com diferentes objetivos.

Como vimos, isso trouxe problemas para as diferentes versões.

Entretanto, é também daí que vem a força

da ferramenta.

A proposta, agora, seria assumir definitivamente a vocação

“múltipla” dessa forma de desenvolvimento, e lançar a

criança no mundo, esperando que ela construa agora seus

próprios caminhos.

Page 166: e-Dictor: Histórico e perspectivas (2015)

Possível solução

166

Desde o início, o eDictor foi construído em pequenas etapas,

por diferentes pesquisadores vindos de diferentes formações,

e com diferentes objetivos.

Como vimos, isso trouxe problemas para as diferentes versões.

Entretanto, é também daí que vem a força

da ferramenta.

A proposta, agora, seria assumir definitivamente a vocação

“múltipla” dessa forma de desenvolvimento, e lançar a

criança no mundo, esperando que ela construa agora seus

próprios caminhos.

Page 167: e-Dictor: Histórico e perspectivas (2015)

Desde o início, o eDictor foi construído em pequenas

etapas, por diferentes pesquisadores vindos de diferentes

formações, e com diferentes objetivos.

Como vimos agora, isso trouxe problemas para as

diferentes versões.

Entretanto, é também daí, a meu ver, que vem a força da

ferramenta.

A proposta, agora, seria assumir definitivamente essa

vocação “múltipla”, e digamos, “ bastarda” dessa forma de

desenvolvimento, e

Page 168: e-Dictor: Histórico e perspectivas (2015)

Obrigada!

Page 169: e-Dictor: Histórico e perspectivas (2015)

Maria Clara Paixão de SousaUniversidade de São Paulo

[email protected]

eDictor:

histórico e perspectivas

Page 170: e-Dictor: Histórico e perspectivas (2015)

PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances

and perspectives”. Workshop Construction and use

of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação

e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.

(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]

FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating

Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting

of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.

(Congresso). [PDF (poster)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos

antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do

Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana

Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.

(Comunicação).

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.

Resumos, 2009. [PDF (slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição

e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]

Page 171: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Transcrição

Page 172: e-Dictor: Histórico e perspectivas (2015)

> XML

Page 173: e-Dictor: Histórico e perspectivas (2015)

XML tended

arkup

anguage

e

>

Page 174: e-Dictor: Histórico e perspectivas (2015)

XML tended

arkup

anguage

e

>

Page 175: e-Dictor: Histórico e perspectivas (2015)

XML tended

arkup

anguage

e

>

Page 176: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 177: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 178: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"

... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 179: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 180: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

Page 181: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"

pos="NPR"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

Page 182: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 183: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 184: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"

... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 185: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

Page 186: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

Page 187: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"

pos="NPR"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

Page 188: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

Page 189: e-Dictor: Histórico e perspectivas (2015)

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

Page 190: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Transcrição

Page 191: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Transcrição

Page 192: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Edição

Page 193: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Etiquetação

Page 194: e-Dictor: Histórico e perspectivas (2015)

eDictor 1.0 Beta 10 – Módulo Edição

Page 195: e-Dictor: Histórico e perspectivas (2015)

<page data-uid="1">

RELAÇÃO DA ENTRADA QUE FEZ O

EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR

DOM FREI ANTONIO DO DESTERRO MALHEYRO

Bispo do Rio de Janeiro, em o primeiro dia deste presente

Ano de 1747 havendo sido seis Anos Bispo do Reino de

Angola, donde por nomeação de Sua Magestade, e Bula

Pontifícia, foi promovido para esta Diocese. COMPOSTA

PELO DOUTOR LUIZ ANTONIO ROSADO DA

CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,

Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na

Segunda Oficina de ANTONIO ISIDORO DA FONCECA.

Ano de M. CC. XLVII. Com licenças do Senhor Bispo.

</page>

Versão Web – em teste