Linguística de Corpus e ferramentas computacionais para ...

Linguística de Corpus e ferramentas computacionais para análise do léxico

Profa. Dra. Liliane Barreiros

(DLA-UEFS)

Linguística computacional e Linguística de Corpus

Linguística ComputacionalA Linguística Computacional é a parte da ciência

linguística que se preocupa com o tratamento computacional

da linguagem. Pode ser entendida como “a área de

conhecimento que explora as relações entre a linguística e a

informática, tornando possível a construção de sistemas com

capacidade de reconhecer e produzir informação apresentada

em linguagem natural” (VIEIRA; LIMA, 2001).

A Linguística Computacional pode ser didaticamente dividida em duas subáreas:

Linguística de Corpus; e

Processamento de Linguagem Natural (PLN).

Essa divisão nem sempre é nítida, uma vez que hámuitos trabalhos que envolvem as duas áreas.

Linguística de CorpusA Linguística de Corpus preocupa-se basicamente com o

trabalho a partir de corpora eletrônicos que contenham

amostras de linguagem natural. Essas amostras podem ser de

diferentes fontes. Por isso, podemos encontrar os mais

variados bancos de corpora eletrônicos: há corpora de

linguagem falada, corpora de linguagem escrita literária,

corpora com textos de jornal, corpora compostos

exclusivamente por falas de crianças em estágio de

desenvolvimento linguístico etc.

Linguística de CorpusOs trabalhos envolvendo corpora linguísticos nem

sempre têm como objetivo produzir algum software ou

aplicativo. Normalmente, eles estão voltados para o estudo de

determinados fenômenos linguísticos e sua ocorrência em

grandes amostras de uma determinada língua (ou de uma

variedade, dialeto ou modalidade dela).

Processamento de Linguagem Natural (PLN)

A área de Processamento de Linguagem Natural, por

outro lado, preocupa-se diretamente com o estudo da

linguagem voltado para a construção de softwares, aplicativos

e sistemas computacionais específicos, como tradutores

automáticos, reconhecedores automáticos de voz, geradores

automáticos de resumos etc.

Processamento de Linguagem Natural (PLN)

Cabe à área de PLN justamente a construção de

programas capazes de interpretar e/ou gerar informações em

linguagem natural. Além disso, de acordo com Vieira (2002, p.

20), “para o processamento da língua natural, vários

subsistemas são necessários para dar conta dos diferentes

aspectos da língua: sons, palavras, sentenças e discurso nos

níveis estruturais, de significado e de uso”.

Áreas de conhecimento Linguística

Computacional

Lexicologia Lexicografia

Terminologia Terminografia

Tradução

Análise do Discurso

Sociolinguística Psicolinguística

Linguística Histórica

Estilística

Ensino de Línguas

Sintaxe Semântica Pragmática

A Linguística Computacional

envolve as diferentes áreas

de pesquisa

tradicionalmente conhecidas

em Linguística Teórica e

Aplicada. Todo esse

conhecimento é utilizado

para tentar processar, ou

seja, “compreender e

produzir” as línguas naturais

em corpora linguísticos.

CORPUS

O que é?

Para que serve?

Como organizar?

Diferentes tipos de corpus/corpora

Para a linguística, um corpus é...

“Conjunto finito de dados linguísticos tomados como ponto de

partida da descrição linguística ou como meio de verificação

de hipóteses sobre a língua a estudar, e que poderão

eventualmente conduzir à elaboração de um modelo

explicativo dessa língua. Segundo a investigação pretendida,

trata-se de uma coleção de documentos, quer orais

(registrados e/ou transcritos), quer escritos, quer orais e

escritos. As dimensões do corpus e o conjunto de enunciados

característicos do fenômeno a estudar variam com o objetivo

do investigador” (XAVIER; MATEUS, 1992, p.116).

O corpus para a Linguística de Corpus

Conjunto de dados linguísticos

(orais ou escritos) sistematizados segundo

determinados critérios, representativos

do uso linguístico, dispostos de tal modo

que possam ser processados por

computador (BERBER SARDINHA, 2004).

Uso de corpus/corpora em língua portuguesa

Vocabulário Portuguez e Latino

Elaborado pelo Pe. Rafael Bluteau

Publicado entre 1712-1728

10 volumes (caráter enciclopédico)

Abonações com indicação da referência

1º Utilizou um corpus de uso linguístico - cerca de 406

obras de autores dos séculos XV a XVII.

Bluteau em seu Prólogo ao leitor :

“[...] não temos outra prova da propriedade das

palavras, que o uso delas, e deste uso não há

evidência mais certa, e permanente, que a que

nos fica nas obras dos Autores, ou manuscritos

ou impressos”.

Dicionário da Língua Portuguesa, de1789

Elaborado por Antonio de Moraes Silva

Baseou-se em 203 autores dos séculos XV aXVIII

1º Dicionário de língua que registrou ovocabulário mais usual na língua escrita e oralda época, indicando os diferentes níveis delinguagem e a área de conhecimento

• 2ª edição (1813) – considerada como um

modelo básico da Lexicografia Portuguesa

• Estrutura do verbete do dicionário (entrada,

classe gramatical, definição com exemplos

tirados de autores, com indicação da

referência: obra, capítulo, tomo, página etc.)

Quando começouo uso de ferramentas

computacionais para análise da língua

portuguesa?

Roberto Busa (1949)No âmbito das ciências humanas, o

primeiro pesquisador a utilizar recursos da

informática foi o padre italiano Roberto

Busa. Em 1949, ele realizou um trabalho

monumental com a obra de Santo Tomás

de Aquino que somente foi possível com o

auxílio dos primeiros computadores. Até

então, as máquinas recém inventadas

pela International Business

Machines (IBM) não tinham nenhuma

aplicação no campo das humanidades.

Em 1960...Pesquisadores do Brasil, Estados Unidos e França;

Linhas de interesse:

1) fins literários e/ou estilísticos;

2) fins linguísticos e

3) Informáticos.

Geralmente, eram voltadas para o ensino

da língua.CDC 6600, lançado em 1964.

O primeiro corpus linguístico eletrônico foi lançado em 1964, o corpus Brown, que

continha uma quantidade invejável de dados para a época: 1 milhão de palavras.

Em 1980... Popularização dos computadores pessoais

Desenvolvimento da Linguística de Corpus > Linguística Computacional

Tratamento computacional dos dados linguísticos

Teoria Método LC

Criação de

softwares para o estudo de

fenômenos linguísticos e a sua ocorrência, a partir da constituição de grandes bancos de dados eletrônicos.

Engenheiros da

computação

Linguistas

As pesquisas passam a priorizar a descrição da língua e a

análise de grande quantidade de dados torna-se mais

confiável.

Confronto da teoria com os dados empíricos da língua.

Os benefícios:

Permite coletar, selecionar, registrar, analisar, aperfeiçoar,

recuperar os dados e gerar documentos publicáveis com

baixo custo;

Velocidade na execução das atividades;

Ampla capacidade de armazenamento de dados;

Favorece o progresso das pesquisas linguísticas de

diversas áreas, atrelando produtividade, com qualidade e

acessibilidade.

Linguística de corpus serve para...

Explorar estatisticamente elementos lexicais

Observar combinatórias de palavras

Caracterizar gêneros textuais

Identificar perfis de práticas textuais

Localizar padrões de uso (leitura vertical)

Compreender sentidos (leitura horizontal)

Ao revelar uma quantidade surpreendente de

evidências linguísticas provindas de corpora

eletrônicos, a Linguística de Corpus questiona os

paradigmas estabelecidos dos estudos linguísticos

e mostra novos caminhos para o linguista, o

tradutor, o lexicógrafo, e muitos outros profissionais

(BERBER SARDINHA, 2004).

COMO UTILIZARAS FERRAMENTAS COMPUTACIONAIS

PARA ANÁLISE LINGUÍSTICA?

1º Passo – definir o corpus

O formato eletrônico do corpus (pode ser

manipulado de forma mais rápida e enriquecido com

informações extras); e

A disponibilização para outras pesquisas (reutilização

do corpus).

Pré-requisitos para a formação de um corpus eletrônico:

Origem – textos em linguagem natural(não devem ser produzidos para a análise)

Autenticidade – textos escritos por falantes nativos

Conteúdo – deve corresponder às características desejadas

Representatividade – deve ter uma extensão representativa

Representatividade do corpus

(BERBER SARDINHA, 2004).

Conclusão: Tamanho não é documento!

Finalidadedo trabalho

Objetivosda

pesquisa

Perguntas/

Respostas

Tipos de CORPUS/CORPORA

Modo

Falado

Escrito

Tempo

Sincrônico:

um período

Diacrônico:

vários períodos

Contemporâneo:

tempo corrente

Histórico:

Um período de tempo passado

Conteúdo

Especializado

Regional ou Dialetal

Monolíngue

Multilíngue

Autoria

Aprendiz

Falante nativo

Tradutor

Finalidade

De estudo

De referência

Corpus

paralelo

O que é um corpus de referência?

Também conhecido como corpus de controle, funciona como

termo de comparação para a análise;

Sua função é fornecer uma norma com a qual se fará a

comparação das frequências do corpus de estudo;

As palavras com frequências significativas no corpus de

estudo são consideradas chave.

Características de um corpus de referência

Não deve conter o corpus de estudo;

Um corpus de um gênero específico, igual ao do corpus deestudo, tende a filtrar os elementos comuns;

Um corpus de referência geral, incluindo vários gêneros,não excluirá as palavras genéricas (relativas a um gênero);

Tamanho mínimo necessário para resultados significativos(mínimo de 2 a 5 vezes o corpus de estudo).

2º passo – compilação do corpus

Compilação – consiste noarmazenamento em arquivosde todos os textos relevantespara a pesquisa.

3º passo – conversão DO corpus

Conversão – converter osarquivos em formato .doc,.html ou .pdf para o formatode extensão .txt (= bloco denotas).

COMO CONVERTER:

Disponível em: <http://www.laurenceanthony.net/software/antfileconverter/>.

1

2

3

AntFileConverter Salva o arquivo em .txt direto na pasta de origem, otimizando ainserção dos mesmos no programa de análise.

4º passo – limpeza e formatação do corpus

Limpeza – excluir tabelas, gráficos, fórmulas, cálculos, imagens e

legendas, números de página, referências, ou seja, toda a informação

que não esteja no corpo do texto.

Formatação – formatar cada texto no modo desejado para a pesquisa.

Arquivo pronto! Próximo passo,

analisar!

Como usar o AntConc

Foi desenvolvido pelo pesquisador Laurence Anthony daFaculdade de Ciências e Engenharia da Universidade deWaseda no Japão.

É executável em versões para o Windows, Linux eMacintocsh. Seu arquivo tem aproximadamente

4Mb, por isso é considerado leve e

dispensa a necessidade de instalação.

1ª versão publicada em 22 dezembro de

2014

Disponível em: <http://www.laurenceanthony.net/software/antconc/>.

Versão atualizada em 23 de abril de 2018

O que o AntConc permite fazer: Listas de palavras (Word List);

Listas de concordâncias (Concordance);

Listas de palavras-chaves (KeyWord); e

Gerar gráficos com os dados analisados.

É possível descobrir como umapalavra ocorre, o quanto ocorre,em que contextos e quais aacompanha;

Encontrar padrões e variáveis deuso na escrita; e

Levantamento terminológico.

Os usos semânticos e gramaticais atestam o que está ocorrendo de fato na língua.

Funcionalidade do AntConc

1º - Carregar os arquivos que serão analisados

Fechar

Limpar

Salvar

Restaurar

2º - Antes de ativar qualquer função de análise, é preciso configurar a língua

Marcar a opção (tratar todos

os dados como minúsculas)

nas categorias Clusters/N-

Grams, Collocates, Word

List e Keyword List, para

evitar exaustividade nos

resultados, gerando duas

entradas.

3º - Configurar Tool Preferences > Treat all data as lowercase

Menu principal

Concordance: mostra os resultados da pesquisa em um formato KeyWord In Context

39 ocorrências

Eulálio Motta

assinou como Liota

no período de

1931, 1932 e 1933,

nos jornais Mundo

Novo e O Lidador.

Concordance Plot: é uma ferramenta de plotografia de concordância

Ao clicar em cada linha do

gráfico, o usuário é remetido

ao contexto da ocorrência.

Após correção no arquivo do

computador, o programa corrigiu

automaticamente o seu arquivo,

consequentemente alterou os

dados.

File View: mostra o texto bruto de arquivos individuais

Clusters/N-Grams: gera uma lista

com o resultado da pesquisa,

conforme a ordem escolhida

(alfabética, de frequência, de

probabilidade ou de terminações).

Search Term: opções de filtros

Outras opções:

• Busca por ‘sequência de caracteres’ desativando a opção Words;

• Busca ‘sensível a maiúsculas e minúsculas’, ativando a opção Case;

• Busca por expressões regulares cheias (com caracteres) ativando a opção Regex.

Busca

padrão

Collocates: pesquisa padrões não sequenciais na língua e gera listas das palavras

próximas ao termo pesquisado, chamadas de colocados

Média estatística, que mede o nível de relação

entre o termo pesquisado e o colocado.

Mantém o tamanho mínimo e

máximo do intervaloBase da

colocação

Visualizando os Resultados

Word List:Lista de palavras por

ordem de frequência

Word List:Lista de palavras

por ordem

alfabética

Keyword List:gera uma lista de palavras-

chave, comparando a frequência

das palavras do arquivo em

análise com a frequência das

palavras do corpus de referência

Keyness > Chavicidade

Permite identificar palavras

características no corpus de

estudo como parte de um

gênero ou de uma variedade

linguística.

FINALIDADE DA LISTA DE PALAVRAS-CHAVE (análise da chavicidade)

Identificar os campos semânticos que apontem para atemática do corpus de estudo;

Descrever a organização interna dos textos;

Localizar marcas indicativas de posicionamento ideológico ea possibilidade de traçar um perfil lexical de um autor(BERBER SARDINHA, 2009).

1º passo para gerar uma Keyword list

Definir um corpus de referência

Opção: Novo Diccionário da Língua Portuguesa, de Cândido de

Figueiredo (1913), disponível online no formato PDF > conversão em

TXT.

12

3

4

56

7

8

9

Como inserir um

corpus de referência

Configuração padrão (log de probabilidade)

Limite para exibição do nº de palavras-chave

‘Palavras-chave negativas’ – são as palavras do arquivo

em análise com uma frequência baixa em comparação

com a frequência no corpus de referência

Clone Results: cópia dos resultados

O botão Clone Results permite criar uma cópia dos resultados para que possam

ser comparados, em janelas independentes. Essa função é importante, quando se

tem interesse em confrontar o conjunto dos dados obtidos.

Clone results

Reiniciando a análise

Limpa

r

Mais informações sobre o AntConc No site da ferramenta, tem um canal de suporte para o

usuário com manual, tutoriais em vídeo e grupos de discussão

traduzidos do japonês para o inglês.

Referências básicasBARBOSA, Maria Aparecida. Dicionário, vocabulário, glossário: concepções. In: ALVES,Ieda Maria. (Org.). A constituição da normalização terminológica no Brasil. 2. ed. SãoPaulo: FFLCH/CITRAT, 2001, p. 23-45.

BARREIROS, Liliane L. S. O uso de ferramentas computacionais na elaboração doVocabulário de Eulálio Motta: AntConc e FLEx. A Cor das Letras. Feira de Santana:UEFS, v. 18, n. 2, p. 216-241, maio-ago. 2017.

BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004.

BIDERMAN, Maria Tereza C. Teoria lingüística: teoria lexical e lingüísticacomputacional. 2 ed. São Paulo: Martins Fontes, 2001.

HAENSCH, Günther. Tipología de las obras lexicográficas. In: HAENSCH, G. et al. Lalexicografia: de la linguística teórica a la lexicografia práctica. Madrid: Gredos, 1982, p.95-187.

OTHERO, Gabriel de A.; MENUZZI, Sérgio de M. Linguística computacional: teoria eprática. São Paulo: Parábola, 2005.

Linguística de Corpus e ferramentas computacionais para ...

Documents