Linguística de Corpus e ferramentas computacionais para análise do léxico Profa. Dra. Liliane Barreiros (DLA-UEFS)
Linguística de Corpus e ferramentas computacionais para análise do léxico
Profa. Dra. Liliane Barreiros
(DLA-UEFS)
Linguística computacional e Linguística de Corpus
Linguística ComputacionalA Linguística Computacional é a parte da ciência
linguística que se preocupa com o tratamento computacional
da linguagem. Pode ser entendida como “a área de
conhecimento que explora as relações entre a linguística e a
informática, tornando possível a construção de sistemas com
capacidade de reconhecer e produzir informação apresentada
em linguagem natural” (VIEIRA; LIMA, 2001).
A Linguística Computacional pode ser didaticamente dividida em duas subáreas:
Linguística de Corpus; e
Processamento de Linguagem Natural (PLN).
Essa divisão nem sempre é nítida, uma vez que hámuitos trabalhos que envolvem as duas áreas.
Linguística de CorpusA Linguística de Corpus preocupa-se basicamente com o
trabalho a partir de corpora eletrônicos que contenham
amostras de linguagem natural. Essas amostras podem ser de
diferentes fontes. Por isso, podemos encontrar os mais
variados bancos de corpora eletrônicos: há corpora de
linguagem falada, corpora de linguagem escrita literária,
corpora com textos de jornal, corpora compostos
exclusivamente por falas de crianças em estágio de
desenvolvimento linguístico etc.
Linguística de CorpusOs trabalhos envolvendo corpora linguísticos nem
sempre têm como objetivo produzir algum software ou
aplicativo. Normalmente, eles estão voltados para o estudo de
determinados fenômenos linguísticos e sua ocorrência em
grandes amostras de uma determinada língua (ou de uma
variedade, dialeto ou modalidade dela).
Processamento de Linguagem Natural (PLN)
A área de Processamento de Linguagem Natural, por
outro lado, preocupa-se diretamente com o estudo da
linguagem voltado para a construção de softwares, aplicativos
e sistemas computacionais específicos, como tradutores
automáticos, reconhecedores automáticos de voz, geradores
automáticos de resumos etc.
Processamento de Linguagem Natural (PLN)
Cabe à área de PLN justamente a construção de
programas capazes de interpretar e/ou gerar informações em
linguagem natural. Além disso, de acordo com Vieira (2002, p.
20), “para o processamento da língua natural, vários
subsistemas são necessários para dar conta dos diferentes
aspectos da língua: sons, palavras, sentenças e discurso nos
níveis estruturais, de significado e de uso”.
Áreas de conhecimento Linguística
Computacional
Lexicologia Lexicografia
Terminologia Terminografia
Tradução
Análise do Discurso
Sociolinguística Psicolinguística
Linguística Histórica
Estilística
Ensino de Línguas
Sintaxe Semântica Pragmática
A Linguística Computacional
envolve as diferentes áreas
de pesquisa
tradicionalmente conhecidas
em Linguística Teórica e
Aplicada. Todo esse
conhecimento é utilizado
para tentar processar, ou
seja, “compreender e
produzir” as línguas naturais
em corpora linguísticos.
CORPUS
O que é?
Para que serve?
Como organizar?
Diferentes tipos de corpus/corpora
Para a linguística, um corpus é...
“Conjunto finito de dados linguísticos tomados como ponto de
partida da descrição linguística ou como meio de verificação
de hipóteses sobre a língua a estudar, e que poderão
eventualmente conduzir à elaboração de um modelo
explicativo dessa língua. Segundo a investigação pretendida,
trata-se de uma coleção de documentos, quer orais
(registrados e/ou transcritos), quer escritos, quer orais e
escritos. As dimensões do corpus e o conjunto de enunciados
característicos do fenômeno a estudar variam com o objetivo
do investigador” (XAVIER; MATEUS, 1992, p.116).
O corpus para a Linguística de Corpus
Conjunto de dados linguísticos
(orais ou escritos) sistematizados segundo
determinados critérios, representativos
do uso linguístico, dispostos de tal modo
que possam ser processados por
computador (BERBER SARDINHA, 2004).
Uso de corpus/corpora em língua portuguesa
Vocabulário Portuguez e Latino
Elaborado pelo Pe. Rafael Bluteau
Publicado entre 1712-1728
10 volumes (caráter enciclopédico)
Abonações com indicação da referência
1º Utilizou um corpus de uso linguístico - cerca de 406
obras de autores dos séculos XV a XVII.
Bluteau em seu Prólogo ao leitor :
“[...] não temos outra prova da propriedade das
palavras, que o uso delas, e deste uso não há
evidência mais certa, e permanente, que a que
nos fica nas obras dos Autores, ou manuscritos
ou impressos”.
Dicionário da Língua Portuguesa, de1789
Elaborado por Antonio de Moraes Silva
Baseou-se em 203 autores dos séculos XV aXVIII
1º Dicionário de língua que registrou ovocabulário mais usual na língua escrita e oralda época, indicando os diferentes níveis delinguagem e a área de conhecimento
• 2ª edição (1813) – considerada como um
modelo básico da Lexicografia Portuguesa
• Estrutura do verbete do dicionário (entrada,
classe gramatical, definição com exemplos
tirados de autores, com indicação da
referência: obra, capítulo, tomo, página etc.)
Quando começouo uso de ferramentas
computacionais para análise da língua
portuguesa?
Roberto Busa (1949)No âmbito das ciências humanas, o
primeiro pesquisador a utilizar recursos da
informática foi o padre italiano Roberto
Busa. Em 1949, ele realizou um trabalho
monumental com a obra de Santo Tomás
de Aquino que somente foi possível com o
auxílio dos primeiros computadores. Até
então, as máquinas recém inventadas
pela International Business
Machines (IBM) não tinham nenhuma
aplicação no campo das humanidades.
Em 1960...Pesquisadores do Brasil, Estados Unidos e França;
Linhas de interesse:
1) fins literários e/ou estilísticos;
2) fins linguísticos e
3) Informáticos.
Geralmente, eram voltadas para o ensino
da língua.CDC 6600, lançado em 1964.
O primeiro corpus linguístico eletrônico foi lançado em 1964, o corpus Brown, que
continha uma quantidade invejável de dados para a época: 1 milhão de palavras.
Em 1980... Popularização dos computadores pessoais
Desenvolvimento da Linguística de Corpus > Linguística Computacional
Tratamento computacional dos dados linguísticos
Teoria Método LC
Criação de
softwares para o estudo de
fenômenos linguísticos e a sua ocorrência, a partir da constituição de grandes bancos de dados eletrônicos.
Engenheiros da
computação
Linguistas
As pesquisas passam a priorizar a descrição da língua e a
análise de grande quantidade de dados torna-se mais
confiável.
Confronto da teoria com os dados empíricos da língua.
Os benefícios:
Permite coletar, selecionar, registrar, analisar, aperfeiçoar,
recuperar os dados e gerar documentos publicáveis com
baixo custo;
Velocidade na execução das atividades;
Ampla capacidade de armazenamento de dados;
Favorece o progresso das pesquisas linguísticas de
diversas áreas, atrelando produtividade, com qualidade e
acessibilidade.
Linguística de corpus serve para...
Explorar estatisticamente elementos lexicais
Observar combinatórias de palavras
Caracterizar gêneros textuais
Identificar perfis de práticas textuais
Localizar padrões de uso (leitura vertical)
Compreender sentidos (leitura horizontal)
Ao revelar uma quantidade surpreendente de
evidências linguísticas provindas de corpora
eletrônicos, a Linguística de Corpus questiona os
paradigmas estabelecidos dos estudos linguísticos
e mostra novos caminhos para o linguista, o
tradutor, o lexicógrafo, e muitos outros profissionais
(BERBER SARDINHA, 2004).
COMO UTILIZARAS FERRAMENTAS COMPUTACIONAIS
PARA ANÁLISE LINGUÍSTICA?
1º Passo – definir o corpus
O formato eletrônico do corpus (pode ser
manipulado de forma mais rápida e enriquecido com
informações extras); e
A disponibilização para outras pesquisas (reutilização
do corpus).
Pré-requisitos para a formação de um corpus eletrônico:
Origem – textos em linguagem natural(não devem ser produzidos para a análise)
Autenticidade – textos escritos por falantes nativos
Conteúdo – deve corresponder às características desejadas
Representatividade – deve ter uma extensão representativa
Representatividade do corpus
(BERBER SARDINHA, 2004).
Conclusão: Tamanho não é documento!
Finalidadedo trabalho
Objetivosda
pesquisa
Perguntas/
Respostas
Tipos de CORPUS/CORPORA
Modo
Falado
Escrito
Tempo
Sincrônico:
um período
Diacrônico:
vários períodos
Contemporâneo:
tempo corrente
Histórico:
Um período de tempo passado
Conteúdo
Especializado
Regional ou Dialetal
Monolíngue
Multilíngue
Autoria
Aprendiz
Falante nativo
Tradutor
Finalidade
De estudo
De referência
Corpus
paralelo
O que é um corpus de referência?
Também conhecido como corpus de controle, funciona como
termo de comparação para a análise;
Sua função é fornecer uma norma com a qual se fará a
comparação das frequências do corpus de estudo;
As palavras com frequências significativas no corpus de
estudo são consideradas chave.
Características de um corpus de referência
Não deve conter o corpus de estudo;
Um corpus de um gênero específico, igual ao do corpus deestudo, tende a filtrar os elementos comuns;
Um corpus de referência geral, incluindo vários gêneros,não excluirá as palavras genéricas (relativas a um gênero);
Tamanho mínimo necessário para resultados significativos(mínimo de 2 a 5 vezes o corpus de estudo).
2º passo – compilação do corpus
Compilação – consiste noarmazenamento em arquivosde todos os textos relevantespara a pesquisa.
3º passo – conversão DO corpus
Conversão – converter osarquivos em formato .doc,.html ou .pdf para o formatode extensão .txt (= bloco denotas).
COMO CONVERTER:
Disponível em: <http://www.laurenceanthony.net/software/antfileconverter/>.
1
2
3
AntFileConverter Salva o arquivo em .txt direto na pasta de origem, otimizando ainserção dos mesmos no programa de análise.
4º passo – limpeza e formatação do corpus
Limpeza – excluir tabelas, gráficos, fórmulas, cálculos, imagens e
legendas, números de página, referências, ou seja, toda a informação
que não esteja no corpo do texto.
Formatação – formatar cada texto no modo desejado para a pesquisa.
Arquivo pronto! Próximo passo,
analisar!
Como usar o AntConc
Foi desenvolvido pelo pesquisador Laurence Anthony daFaculdade de Ciências e Engenharia da Universidade deWaseda no Japão.
É executável em versões para o Windows, Linux eMacintocsh. Seu arquivo tem aproximadamente
4Mb, por isso é considerado leve e
dispensa a necessidade de instalação.
1ª versão publicada em 22 dezembro de
2014
Disponível em: <http://www.laurenceanthony.net/software/antconc/>.
Versão atualizada em 23 de abril de 2018
O que o AntConc permite fazer: Listas de palavras (Word List);
Listas de concordâncias (Concordance);
Listas de palavras-chaves (KeyWord); e
Gerar gráficos com os dados analisados.
É possível descobrir como umapalavra ocorre, o quanto ocorre,em que contextos e quais aacompanha;
Encontrar padrões e variáveis deuso na escrita; e
Levantamento terminológico.
Os usos semânticos e gramaticais atestam o que está ocorrendo de fato na língua.
Funcionalidade do AntConc
1º - Carregar os arquivos que serão analisados
Fechar
Limpar
Salvar
Restaurar
2º - Antes de ativar qualquer função de análise, é preciso configurar a língua
Marcar a opção (tratar todos
os dados como minúsculas)
nas categorias Clusters/N-
Grams, Collocates, Word
List e Keyword List, para
evitar exaustividade nos
resultados, gerando duas
entradas.
3º - Configurar Tool Preferences > Treat all data as lowercase
Menu principal
Concordance: mostra os resultados da pesquisa em um formato KeyWord In Context
39 ocorrências
Eulálio Motta
assinou como Liota
no período de
1931, 1932 e 1933,
nos jornais Mundo
Novo e O Lidador.
Concordance Plot: é uma ferramenta de plotografia de concordância
Ao clicar em cada linha do
gráfico, o usuário é remetido
ao contexto da ocorrência.
Após correção no arquivo do
computador, o programa corrigiu
automaticamente o seu arquivo,
consequentemente alterou os
dados.
File View: mostra o texto bruto de arquivos individuais
Clusters/N-Grams: gera uma lista
com o resultado da pesquisa,
conforme a ordem escolhida
(alfabética, de frequência, de
probabilidade ou de terminações).
Search Term: opções de filtros
Outras opções:
• Busca por ‘sequência de caracteres’ desativando a opção Words;
• Busca ‘sensível a maiúsculas e minúsculas’, ativando a opção Case;
• Busca por expressões regulares cheias (com caracteres) ativando a opção Regex.
Busca
padrão
Collocates: pesquisa padrões não sequenciais na língua e gera listas das palavras
próximas ao termo pesquisado, chamadas de colocados
Média estatística, que mede o nível de relação
entre o termo pesquisado e o colocado.
Mantém o tamanho mínimo e
máximo do intervaloBase da
colocação
Visualizando os Resultados
Word List:Lista de palavras por
ordem de frequência
Word List:Lista de palavras
por ordem
alfabética
Keyword List:gera uma lista de palavras-
chave, comparando a frequência
das palavras do arquivo em
análise com a frequência das
palavras do corpus de referência
Keyness > Chavicidade
Permite identificar palavras
características no corpus de
estudo como parte de um
gênero ou de uma variedade
linguística.
FINALIDADE DA LISTA DE PALAVRAS-CHAVE (análise da chavicidade)
Identificar os campos semânticos que apontem para atemática do corpus de estudo;
Descrever a organização interna dos textos;
Localizar marcas indicativas de posicionamento ideológico ea possibilidade de traçar um perfil lexical de um autor(BERBER SARDINHA, 2009).
1º passo para gerar uma Keyword list
Definir um corpus de referência
Opção: Novo Diccionário da Língua Portuguesa, de Cândido de
Figueiredo (1913), disponível online no formato PDF > conversão em
TXT.
12
3
4
56
7
8
9
Como inserir um
corpus de referência
Configuração padrão (log de probabilidade)
Limite para exibição do nº de palavras-chave
‘Palavras-chave negativas’ – são as palavras do arquivo
em análise com uma frequência baixa em comparação
com a frequência no corpus de referência
Clone Results: cópia dos resultados
O botão Clone Results permite criar uma cópia dos resultados para que possam
ser comparados, em janelas independentes. Essa função é importante, quando se
tem interesse em confrontar o conjunto dos dados obtidos.
Clone results
Reiniciando a análise
Limpa
r
Mais informações sobre o AntConc No site da ferramenta, tem um canal de suporte para o
usuário com manual, tutoriais em vídeo e grupos de discussão
traduzidos do japonês para o inglês.
Referências básicasBARBOSA, Maria Aparecida. Dicionário, vocabulário, glossário: concepções. In: ALVES,Ieda Maria. (Org.). A constituição da normalização terminológica no Brasil. 2. ed. SãoPaulo: FFLCH/CITRAT, 2001, p. 23-45.
BARREIROS, Liliane L. S. O uso de ferramentas computacionais na elaboração doVocabulário de Eulálio Motta: AntConc e FLEx. A Cor das Letras. Feira de Santana:UEFS, v. 18, n. 2, p. 216-241, maio-ago. 2017.
BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004.
BIDERMAN, Maria Tereza C. Teoria lingüística: teoria lexical e lingüísticacomputacional. 2 ed. São Paulo: Martins Fontes, 2001.
HAENSCH, Günther. Tipología de las obras lexicográficas. In: HAENSCH, G. et al. Lalexicografia: de la linguística teórica a la lexicografia práctica. Madrid: Gredos, 1982, p.95-187.
OTHERO, Gabriel de A.; MENUZZI, Sérgio de M. Linguística computacional: teoria eprática. São Paulo: Parábola, 2005.