e-dictor - uma ferramenta para as humanidades digitais

Post on 04-Jul-2015

315 Views

Preview:

Click to see full reader

DESCRIPTION

Slides da palestra "e-dictor - uma ferramenta para as humanidades digitais", na Semana do Libolo. Universidade de São Paulo, 24 de abrril de 2014 - Maria Clara Paixão de Sousa.

Transcript

São Paulo, 24 de abril de 2014

Semana do Projeto LiboloCEA | Universidade de São Paulo

Semana do Projeto LiboloCentro de Estudos Africanos

Universidade de São Paulo

São Paulo, 24 de abril de 2014

Maria Clara Paixão de SousaGrupo de Pesquisas Humanidades Digitais

Departamento de Letras Clássicas e Vernáculas

Uma Ferramenta para as

Humanidades Digitaisdictore

dictore

Como se faz?

>

Para que serve?

O que me importa?

O que é?

dictore

Como funciona?>Para que serve?

O que me importa?

O que é?

dictore

Como funciona?

> Para que serve?

O que me importa?

O que é?

dictore

Como funciona?

>

Para que serve?

O que é?

dictore

> Uma ferramenta para

edição filológica eletrônica

e análise linguística

automática

dictore

> É um software livre,

atualmente com duas

versões:

dictore

> Versão 1.0 Beta 10

dictore

>Versão 1.0 Beta 10

dictoreVersão Web – em teste

> Versão 1.0 Beta 10

dictoreVersão Web – em teste

> Versão 1.0 Beta 10

dictoreDisponível para windows,

por download em

http://edictor.net

http://edictor.net

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Etiquetação

> Versão 1.0 Beta 10

dictoreUsada atualmente por seis

grupos de pesquisa no

Brasil e em Portugal

> Versão 1.0 Beta 10

dictoreUsada atualmente por seis

grupos de pesquisa no

Brasil e em Portugal

Corpus Anotado do Português

Histórico Tycho Brahe,

(Universidade Estadual de Campinas)

Grupo de Pesquisas

Humanidades Digitais

(Universidade de São Paulo)

P.S. Arquivo Digital de Escrita Quotidiana em

Portugal e Espanha na Época Moderna

(Universidade de Lisboa)

Corpus Eletrônico de

Documentos Históricos do Sertão,

CEDOHS (Universidade Federal de Feira de Santana)

Laboratório de História do Português Brasileiro

(Universidade Federal do Rio de Janeiro)

Memória Conquistense

(Universidade Estadual do Sudoeste da Bahia)

> Versão 1.0 Beta 10

dictoreExemplo de aplicação: edição

de obras raras digitalizadas

- Projeto Edições Filológicas na

Brasiliana Digital, 2009-2013

Bibioteca Brasiliana Guita e José Mindlin,

doada à Universidade de São Paulo em 2006:

40.000 obras dos séculos XVI a XXI…

Oba!

Tudo

“digitalizado...”

“digitalizado...”

imagem

=

“digitalizado...”

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E

REVERENDÍSSIMO SENHORD. F

RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em

o primeiro dia defle prtzente Anno de

1747,havendo fidoſeis Annos Biſpo do B,

eyno de Angola, donde por no-miacaõ de

Sua Mageftade, e Bulla Pontificia, foy

promovidopara ella Diocefi.

COMPOSTA PELO DOUTORLÜIZ

ANTONIO ROSADODA CUNHA£

fm\ de Fora, e Provedor dos defuntos, e

au-Z$nte$ y Capella*, c ReJĩdos do Rio

de Janeiro. RIO DE JANEIRO tía

Segunda Officina de ANTONIO ISID.

ORO DAĩONCECA, Anno de M. CC.

XLVII. Com licenças do Senhor Bijfo,

OCR “Optical

Character

Recognition”

texto

imagem

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E REVERENDÍSSIMO

SENHORD. F RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em o

primeiro dia defle prtzente Anno de 1747,havendo

fidoſeis Annos Biſpo do B, eyno de Angola, donde

por no-miacaõ de Sua Mageftade, e Bulla Pontificia,

foy promovidopara ella Diocefi. COMPOSTA

PELO DOUTORLÜIZ ANTONIO ROSADODA

CUNHA£ fm\ de Fora, e Provedor dos defuntos, e

au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.

RIO DE JANEIRO tía Segunda Officina de

ANTONIO ISID. ORO DAĩONCECA, Anno de

M. CC. XLVII. Com licenças do Senhor Bijfo,?

Relação da entrada que fez o excelentíssimo,

e reverendíssimo senhor Dom Frei Antonio

do Desterro Malheiro, Bispo do Rio de

Janeiro, em o primeiro dia deste presente

Ano de 1747 havendo sido seis Anos Bispo

do Reino de Angola, donde por nomeação de

Sua Majestade, e Bula Pontifícia, foi

promovido para esta Diocese. Composta pelo

doutor Luiz Antonio Rosado da Cunha Juiz

de Fora, e Provedor dos defuntos, e ausentes,

Capelas, e Residos do Rio de Janeiro. Rio de

Janeiro, Na Segunda Oficina de Antonio

Isidoro da Fonseca, Ano de MCCXLVII.

Com licenças do Senhor Bispo.

!

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo

senhor D. Fr. Antonio [...].Rio de

Janeiro : Na Segunda Oficina de

Antonio Isidoro da Fonseca,

1747.

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo

senhor D. Fr. Antonio [...].Rio de

Janeiro : Na Segunda Oficina de

Antonio Isidoro da Fonseca,

1747.

O primeiro

livro impresso

no Brasil !

>O Projeto Edições Filológicas na

Brasiliana Digital (2009-2013)

criou, com o eDictor, edições

corrigidas e modernizadas para

algumas obras do acervo, além de

um banco de dados de erros de

reconhecimento automático

(OCR).

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Etiquetação

Apresentação Diplomática

texto imagem

Apresentação Modernizada

Apresentação Modernizada

RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID

COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID

RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID

Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID

Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID

Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID

Texto

anotado:

P.O.S.

Léxico das edições

> Versão 1.0 Beta 10

dictoreOutro exemplo de aplicação:

edição de manuscritos

(LaborHistórico e CEDOHS)

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

CEDOHS

Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))

http://www2.uefs.br/cedohs/

>Versão 1.0 Beta 10

dictoreVersão Web – em teste

http://www.tycho.iel.unicamp.br/workflow/index.action

<page data-uid="1">

RELAÇÃO DA ENTRADA QUE FEZ O

EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR

DOM FREI ANTONIO DO DESTERRO MALHEYRO

Bispo do Rio de Janeiro, em o primeiro dia deste presente

Ano de 1747 havendo sido seis Anos Bispo do Reino de

Angola, donde por nomeação de Sua Magestade, e Bula

Pontifícia, foi promovido para esta Diocese. COMPOSTA

PELO DOUTOR LUIZ ANTONIO ROSADO DA

CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,

Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO

Na Segunda Oficina de ANTONIO ISIDORO DA

FONCECA. Ano de M. CC. XLVII. Com licenças do

Senhor Bispo.

</page>

Como funciona?>Para que serve?

O que é?

dictore

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos

>

dictore

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos?

dictore

> XML

XML tended

arkup

anguage

e

>

XML tended

arkup

anguage

e

>

XML tended

arkup

anguage

e

>

XML tended

arkup

anguage

e

>

>

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

> XML Código-base do

eDictor 1.0 Beta 10

> XML Código-base do

eDictor Web

> XML Código-base do

eDictor Web

XML - Código-base do eDictor Web

XML - Código-base do eDictor Web

XML - Código-base do eDictor Web

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos!

dictore

Como funciona?

> Para que serve?

O que me importa?

O que é?

dictore

> Para que serve?

O que me importa?

dictore

>

O que me importa?

dictoreA principal finalidade do eDictor

é oferecer uma interface amigável

aliada a um alto nível de controle

e flexibilidade na codificação de

textos eletrônicos com finalidade

de pesquisa linguística.

?

O que me importa?

dictoreA principal finalidade do eDictor

é oferecer uma interface amigável

aliada a um alto nível de controle

e flexibilidade na codificação de

textos eletrônicos com finalidade

de pesquisa linguística.

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

1 É bom lembrar que

todo editor de textos é uma

ferramenta de anotação…

… a diferença é que nós não

temos nenhum controle sobre a

anotação dos editores comuns!

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

1 É bom lembrar que

todo editor de textos é uma

ferramenta de anotação…

… a diferença é que nós não

temos nenhum controle sobre a

anotação dos editores comuns!

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

É bom lembrar que

todo editor de textos é uma

ferramenta de anotação…

… a diferença é que nós não

temos nenhum controle sobre a

anotação dos editores comuns!

1

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

mas... pra que a gente

precisa de “controle”

mas... pra que a gente

precisa de “controle”

Ou seja – o “texto digital”, i.e., o

arquivo eletrônico de texto, é

sempre um banco de dados, um

objeto lógico codificado por

alguma linguagem artificial.

1

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Ou seja – o “texto digital”, i.e., o

arquivo eletrônico de texto, é

sempre um banco de dados, um

objeto lógico codificado por

alguma linguagem artificial.

1

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Para algumas disciplinas, os

textos em sua materialidade são o

objeto de estudo; e nesses casos,

depender de codificações sobre

as qual não se tem controle pode

ser prejudicial à pesquisa.

1

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Além disso, construir a própria

anotação abre um leque de

possibilidades impensáveis nos

processadores comuns.

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

De fato, isso proporciona novas

abordagens sobre a língua e

sobre o texto

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

De fato, isso proporciona novas

abordagens sobre a língua e

sobre o texto – ou seja,

abordagens que seriam

impossíveis fora do meio digital.

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Um exemplo de abordagem

exclusiva do meio digital é a

análise linguística automática,

objeto da Linguística

Computacional.

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Um exemplo de abordagem

exclusiva do meio digital é a

análise linguística automática,

objeto da Linguística

Computacional. A próxima

palestra falará sobre isso!

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

2

Há vários outros exemplos de

abordagens próprias do meio digital,

e elas vem sendo exploradas em

corpora construídos desde a década

de 1970.

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

Há vários outros exemplos de

abordagens próprias do meio digital,

e elas vem sendo exploradas em

corpora construídos desde a década

de 1970. Vamos ver alguns casos

interessantes.

2

mas... pra que a gente

precisa de “controle”

e “flexibilidade” ?

esse exemplo é para

animar filólogos ...( )

Projeto DigiPal – Digital Paleography

http://www.digipal.eu/

Projeto DigiPal – Digital Paleography

http://www.digipal.eu/

esse exemplo é para

animar latinistas ...( )

Corpus Thomisticum

http://www.corpusthomisticum.org/

Corpus Thomisticum

http://www.corpusthomisticum.org/

Corpus Thomisticum

http://www.corpusthomisticum.org/

esse exemplo é para

animar o pessoal de

linguística histórica( )

Anglo Saxon Cluster: Projeto LangScape

http://www.langscape.org.uk

Anglo Saxon Cluster: Projeto LangScape

http://www.langscape.org.uk

Anglo Saxon Cluster: Projeto LangScape

http://www.langscape.org.uk

Anglo Saxon Cluster: Projeto Anglo Saxon Charters

http://www.aschart.kcl.ac.uk

Anglo Saxon Cluster: Projeto Anglo Saxon Charters

http://www.aschart.kcl.ac.uk

Anglo Saxon Cluster: Projeto Anglo Saxon Charters

http://www.aschart.kcl.ac.uk

Anglo Saxon Cluster: Projeto Anglo Saxon Charters

http://www.aschart.kcl.ac.uk

esse exemplo é para

animar o pessoal da

língua falada ! ( )

British National Corpus

http://www.natcorp.ox.ac.uk/XMLedition/

British National Corpus

http://www.natcorp.ox.ac.uk/XMLedition/

Um ponto em comum liga todos

os exemplos mostrados:>

Um ponto em comum liga todos

os exemplos mostrados:

todos tem por base uma

anotação XML, adaptada caso

a caso, segundo as diferentes

necessidades das pesquisas.

>

Era isso o que eu queria dizer sobre

“controle” e “flexibilidade”. >

Era isso o que eu queria dizer sobre

“controle” e “flexibilidade”. >

Ah, tá!

Ah, tá!

Mas... E as tais das

Humanidades Digitais?

Todos esses projetos que vimos são

característicos desse campo

difusamente conhecido como

“Humanidades Digitais”…

>

Há muitas definições para esse

termo, e muito debate sobre elas. >

Aqui, nos interessam dois pontos:

essa incursão das humanidades pelo

reino da técnica digital não refluirá

para as próprias humanidades?

>

Nunca é demais lembrar que as

Humanidades Digitais são uma

maneira de fazer Humanidades – ou

seja, não se trata de uma invasão

tecnógica nas ciências humanas,

mas sim de uma incursão das

ciências humanas pelo reino da

computação.

1

Os projetos em Humanidades

Digitais pretendem continuar

fazendo o que as humanidades

sempre fizeram, mas com novas

ferramentas.

1

Assim, a anotação digital cumpre, na

base, a mesma função da anotação

não-digital:

1

Assim, a anotação digital cumpre, na

base, a mesma função da anotação

não-digital: é a aplicação de uma

camada de representação sobre o

texto.

1

Assim, a anotação digital cumpre, na

base, a mesma função da anotação

não-digital: é a aplicação de uma

camada de representação sobre o

texto. Nesse sentido, a anotação é a

explicitação da interpretação de um

texto.

1

Assim, a anotação digital cumpre, na

base, a mesma função da anotação

não-digital: é a aplicação de uma

camada de representação sobre o

texto. Nesse sentido, a anotação é a

explicitação da interpretação de um

texto.

1

de uma

O texto anotado eletronicamente,

entretanto, abre a possibilidade de

inúmeras novas formas de

representação, como vimos.

1

O texto anotado eletronicamente,

entretanto, abre a possibilidade de

inúmeras novas formas de

representação, como vimos. De fato,

os elementos que anotamos se

transformam em dados, que podem

passar a fazer parte de bases de

dados abertas a diferentes cálculos e

visualizações.

1

Isso é muito poderoso…1

Isso é muito poderoso…

e nos leva a uma última observação,

em forma de pergunta:

1

A incursão das humanidades pelo

reino da técnica digital não acabará

refluindo para as próprias

humanidades?

2

Não poderá transformar,

lentamente, nossa abordagem do

texto, nos obrigando a tecer com

novos fios os tecidos das nossas

perguntas e interpretações?

2

E, se isso acontecer… 2

E, se isso acontecer…

– será bom ou ruim? 2

Era isso...

Era isso...Obrigada!

Era isso.Obrigada!

Universidade de São PauloMaria Clara Paixão de Sousa

humanidadesdigitais.org

mariaclara@usp.br

PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances

and perspectives”. Workshop Construction and use

of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação

e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.

(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]

FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating

Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual

Meeting of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.

(Congresso). [PDF (poster)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos

antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do

Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana

Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.

(Comunicação).

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.

Resumos, 2009. [PDF (slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de

edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]

top related