Relaes Anafricas no Portugus Falado: Uma Abordagem Baseada em
Corpus
Relaes Anafricas no Portugus Falado: Uma Abordagem Baseada em
Corpus(A Corpus-based Approach to Anaphora in Spoken
Portuguese)
Marco ROCHA (Universidade Federal de Santa Catarina)
ABSTRACT: This paper describes corpus-based research on
anaphoric relations in spoken Portuguese, relying on data collected
in dialogues recorded in real-life situations. The essential
analitycal tool is a corpus annotation which classifies each case
of anaphora according to four attributes described in the paper.
The research project as a whole is concerned with possible
applications in natural language processing, particularly regarding
natural language interfaces to databases. KEY-WORDS: Anaphora;
Corpus annotation; Corpus linguistics; Natural language
processing.
RESUMO: O trabalho descreve pesquisa baseada em corpus sobre
relaes anafricas no portugus falado, desenvolvida a partir de dados
coletados em dilogos gravados em situaes da vida real. A ferramenta
de anlise essencial da pesquisa uma anotao de corpus que classifica
cada caso de anfora segundo quatro atributos descritos no trabalho.
O projeto de pesquisa como um todo est relacionado ao
desenvolvimento de possveis aplicaes no processamento de linguagens
naturais em sistemas computacionais, particularmente no que diz
respeito a interfaces em linguagem natural para acesso a bancos de
dados. PALAVRAS-CHAVE: Anfora; Anotao de corpus; Lingstica de
corpus; Processamento de linguagens naturais.
Introduo
A investigao das relaes anafricas exige sempre uma definio
inicial daquilo que se pretende analisar, uma vez que, em meio
vasta quantidade de estudos produzidos sobre o assunto, o termo
anfora muitas vezes utilizado para significar fenmenos distintos.
Conforme assinala Bosch (1983), a palavra anfora foi, em certo
sentido, uma soluo hbil para os problemas causados pelo termo
pronominalizao, pois o sentido literal da palavra pronome pode
levar a interpretaes inadequadas. Pronomes so mais do que um
substituto para um substantivo ou sintagma nominal que poderia ser
utilizado em seu lugar. O enfoque baseado na substituio tambm
encontra dificuldades para lidar com referncias pronominais a
entidades do discurso que no foram explicitamente introduzidas ou
cujos referentes so passagens inteiras de discurso (ver Hirst 1981,
o prprio Bosch 1983 e Carter 1987 para levantamentos detalhados dos
enfoques em questo).
As abordagens que permaneceram dentro dos limites da gramtica
sentencial notadamente a gramtica gerativa desenvolveram estudos
sobre anforas sintaticamente controladas. Com isto, um grande nmero
de casos foram desconsiderados como anforas "pragmaticamente
controladas", que no tinham lugar na teoria lingstica. Alm disto,
desenvolveu-se, como parte integrante destas abordagens, um hbito
de criar exemplos, ao invs de extra-los de dados observveis no uso
cotidiano da lngua. Esta prtica foi justificada com base na crena
de que o verdadeiro conhecimento lingstico deveria ser procurado
fora da linguagem cotidiana conforme usada em contexto para fins de
comunicao.
Uma consequncia positiva da mudana de terminologia foi a
possibilidade de associar aos pronomes fenmenos que no constituem
referncia pronominal, utilizando, no obstante, uma nomenclatura
adequada. Sob o nome de anfora, os pronomes podem ser analisados
como uma manifestao de um processo muito mais amplo: o uso de uma
variedade de mecanismos lingsticos para gerar coeso, conforme
definida em Halliday e Hasan (1976). Embora os pronomes permaneam
sendo o objeto de anlise mais freqente das pesquisas relacionadas s
relaes anafricas, diversos estudos buscam discutir outras formas de
referncia anafrica, tais como sintagmas nominais anafricos
no-pronominais e elipses verbais ver , por exemplo, Webber (1979) e
Hoey (1991).
Esta expanso do conceito aconteceu em grande parte atravs de
pesquisas que focalizavam fenmenos discursivos, como Fox (1987), as
quais foram realizadas no apenas por lingistas, mas tambm por
pesquisadores nas reas de psicolingstica e processamento
computacional de linguagens naturais (doravante, PLN). A
necessidade de apresentar alternativas de explicao para problemas
ainda difceis de tratar dentre eles a resoluo de referncias
anafricas , aliada dificuldade de mapear os modelos abstratos da
lingstica de base sentencial at as enunciaes da lngua cotidiana,
com os quais estes campos do conhecimento tm necessariamente que
lidar, motivou o esforo tanto para incorporar aspectos textuais
anlise dos fenmenos estudados, quanto para fortalecer a base
emprica das investigaes.
Diante destas variaes no arcabouo terico e metodolgico no qual
as pesquisas se inserem, no surpreendente que a literatura
produzida a respeito das relaes anafricas utilize o termo para
significar uma gama varivel de fenmenos lingsticos1.
Especificamente, as diferenas mais freqentes nas investigaes em
questo dizem respeito incluso ou no de referncias anafricas
intersentenciais; utilizao ou no de amostras de uso real da lngua;
e incluso ou no de uma variedade maior de termos anafricos, embora
o pronome de terceira pessoa permanea sendo o termo anafrico
prototpico e mais freqentemente estudado.
A metodologia da lingstica de corpus oferece uma alternativa
para aqueles pesquisadores que resistem ao distanciamento da teoria
lingstica em relao lngua usada no cotidiano. As gramticas e
teorias, nas pesquisas baseadas em corpus, so desenvolvidas a
partir de um levantamento abrangente de um nmero significativo de
ocorrncias de um fenmeno dado, em amostras de uso da lngua em
situaes da vida real. Exemplos criados so a exceo, e no a regra.
Todos os casos do fenmeno estudado so includos na anlise, e noes de
estatstica, tais como freqncia e probabilidade, desempenham um
papel central na formulao da teoria.
Alm disto, as abordagens baseadas em corpus podem ser associadas
aos modelos conexionistas em PLN, uma vez que estes modelos
pressupem habitualmente um corpus de treinamento. As redes
conexionistas so atualmente uma alternativa de abordagem
relativamente estabelecida em inteligncia artificial, em parte
devido s srias dificuldades enfrentadas pelos sistemas precedentes
de PLN ao lidar com a linguagem natural irrestrita. Segundo os que
advogam a adoo de modelos conexionistas ou baseados em corpus em
PLN, parte do problema a preocupao excessiva, at ento, com a
formulao de regras de base lgica para lidar com as linguagens
naturais, com uma contrapartida de descaso pela coleta e anlise de
dados e exemplos de uso da lngua para comunicao (ver Harris
1992).
A quantidade de pesquisa produzida com uso de abordagens
baseadas em corpus tem crescido ininterruptamente nos ltimos anos,
embora seja ainda pequena em termos de estudos orientados para as
relaes discursivas, como o caso das relaes anafricas. A metodologia
da lingstica de corpus no exatamente uma abordagem nova, como
demonstrado em Francis (1992). Contudo, o advento do computador
digital alterou radicalmente as possibilidades deste tipo de
abordagem, uma vez que o armazenamento de enormes quantidades de
dados, sob a forma de corpora de grande porte, tornou-se
relativamente fcil, particularmente com o barateamento do custo das
mquinas nos ltimos anos. A eficincia com que os computadores
realizam operaes de busca e recuperao permite que uma grande
quantidade de ocorrncias de um dado fenmeno seja analisada com
rapidez e preciso.
Deste modo, a lingstica de corpus est intimamente relacionada
lingstica computacional, um termo genrico utilizado para abranger
praticamente qualquer uso de computadores para a anlise e gerao de
lnguas humanas. Compreende-se, portanto, que uma parcela
substancial da pesquisa produzida segundo abordagens baseadas em
corpus venha da rea de inteligncia artificial, muitas vezes em
projetos conjuntos com lingistas. As abordagens baseadas em corpus
constituem-se em uma alternativa importante para a soluo de
problemas de PLN que as abordagens baseadas em regras tm
dificuldade de resolver. Este trabalho busca contribuir para este
esforo de pesquisa e, portanto, discute sucintamente a
possibilidade de utilizar os resultados aqui descritos em aplicaes
tais como interfaces em linguagem natural para acesso a banco de
dados, traduo de mquina e aprendizado de lnguas com ajuda de
computador.
O estudo descrito em seguida teve como objetivo fundamental
investigar as relaes anafricas em dilogos na lngua portuguesa, de
maneira a estabelecer padres de ocorrncia baseados no uso cotidiano
da lngua para comunicao. A fonte de dados utilizada o Corpus de
Dilogos Clnicos do Rio de Janeiro (doravante, CDC-RJ), cujas
caractersticas sero descritas no decorrer do trabalho. O processo
de formulao das concluses partiu de um mnimo de noes tericas a
priori, buscando evoluir no sentido de uma gramtica das relaes
anafricas baseada na observao (Aarts 1991).
O estudo dos fenmenos anafricos em dilogos reais envolve uma
variedade de formas de referncia, realizadas por pronomes,
sintagmas nominais e formas verbais, muitas vezes organizados em
cadeias de referncia. Alm disso, a interpretao correta do discurso
falado requer o controle dos diferentes referentes em tempo real.
Os fenmenos anafricos so, na verdade, to ubquos, e aparecem sob
formas to diversas, que a definio do objeto de estudo de fato
bastante difcil. Ainda mais importante, as exigncias de
processamento que a resoluo destas referncias requer tambm so
diferentes e no variam de maneira simtrica em relao aos diversos
termos anafricos2. Sendo assim, ocorrncias distintas do mesmo
pronome podem requerer processamento diferente, com uso
diferenciado dos meios de resoluo de anforas que o discurso e o
conhecimento lingstico dos participantes fornecem. Por outro lado,
ocorrncias de termos anafricos de tipo diferente podem ser
resolvidas por meio de processos semelhantes.
Uma descrio dos fenmenos anafricos adequada a uma abordagem
baseada em corpus, e, portanto, to desprovida de pressupostos
tericos quanto possvel, parte da existncia de elementos do discurso
que estabelecem uma relao especial com um outro elemento deste
mesmo discurso. A interpretao semntica, em seu aspecto textual,
depende no apenas do reconhecimento da existncia desta relao, mas
tambm da identificao do antecedente correto, uma operao complexa
que ultrapassa o estabelecimento de uma correspondncia trivial
entre os elementos em questo. Esta operao chamada freqentemente de
resoluo da anfora.
Neste enfoque, portanto, anfora o nome dado a esta relao ou
processo no qual um termo anafrico, em uma instncia de discurso
dada, se vincula a um elemento identificvel chamado de antecedente
para que a interpretao semntica seja realizada com xito3. Estes
elementos tm que estar presentes no discurso ou ser inferveis do
que foi dito. O ambiente fsico circundante e a situao em que o
discurso ocorre so tambm fontes cruciais de informao para que a
interpretao correta se concretize, sobretudo nos casos de dixis4 na
lngua falada. Esta ser a definio adotada neste trabalho.
Os casos de anfora foram analisados com base no que estava
foneticamente realizado, sem pressupor qualquer processo de resoluo
da referncia em questo. Deste modo, as noes de pronome zero e
categoria vazia no foram a priori consideradas necessrias para a
construo do modelo de classificao utilizado nesta pesquisa para a
anlise de fenmenos anafricos5. Conseqentemente, a noo de verbo
anafrico foi utilizada para classificar o termo anafrico nas
ocorrncias de anfora em que a estrutura argumental do verbo requer
a recuperao de um elemento do discurso. Sintagmas preposicionais e
adverbiais foram tambm analisados como anafricos em ocorrncias em
que a estrutura sintagmtica incompleta de uma enunciao requer a
recuperao de elementos do discurso para a interpretao semntica. A
classificao de termos anafricos, juntamente com os demais atributos
associados a cada caso de anfora, ser descrita em maior detalhe na
seo que aborda o modelo de classificao.
A forma de discurso na qual a pesquisa se concentra o dilogo de
obteno de informaes ou orientado para a realizao de uma tarefa de
qualquer tipo. No caso da lngua portuguesa, dois aspectos das
relaes anafricas em dilogos chamam a ateno do analista. O primeiro
aspecto a omisso do sujeito ou do objeto, ou ainda de ambos, uma
caracterstica comum do portugus falado. A referncia a uma entidade
do discurso a ser identificada detectada atravs da estrutura
argumental, a qual estabelece o conjunto de argumentos essenciais
aos diferentes verbos da lngua. Uma vez que o sujeito no esteja
realizado, preciso identific-lo no discurso ou inferi-lo com base
nas informaes transmitidas atravs deste contexto discursivo, sejam
elas de natureza estritamente lingstica ou relacionadas ao
conhecimento que decorre da experincia de mundo e da situao em que
a conversao se passa.
O segundo aspecto digno de nota o fenmeno das cadeias de
referncia, isto , de termos anafricos vinculados a outros termos
anafricos que os precedem em cadeia. Em ltima anlise, a resoluo
ocorre atravs de um termo anafrico no incio da cadeia. Estas
cadeias so de extrema importncia na lngua falada, sobretudo em
dilogos, onde so muito mais freqentes. Se comparados lngua escrita
ou lngua falada expositiva formal, os dilogos tipicamente lidam com
um nmero bem menor de referentes aos quais se faz referncia
repetidamente (ver Biber 1992 para um anlise comparativa dos
sistemas de referncia no discurso escrito e falado na lngua
inglesa). No caso do portugus, porm, estas cadeias so em parte
construdas tambm com base na estrutura argumental.
Se comparado com lnguas como o ingls e outras do ramo germnico,
possvel obervar que o portugus no possui um pronome neutro que
possa ser utilizado como termo anafrico nos casos em que o
referente um ser inanimado ou abstrao. Ainda que a funo de pronome
neutro sobreviva em portugus, em certa medida, nos pronomes
demonstrativos isto, isso e aquilo, a repetio sistemtica destes
pronomes soaria no mnimo estranha e intuitivamente inadequada em
muitos contextos. Pode-se observar, deste modo, que o controle
constante da estrutura argumental um aspecto fundamental da
interpretao semntica relacionada s referncias anafricas, permitindo
a identificao de sujeitos e objetos que no estejam foneticamente
realizados.
Ainda explorando a anlise comparativa com a lngua inglesa,
poder-se-ia dizer que esta ltima se baseia em pronomes (como he,
she, it and they) e operadores (os verbos auxiliares de modo geral)
para sinalizar a necessidade de recuperar elementos no discurso
anterior, possibilitando a interpretao semntica. Em conseqncia, a
omisso de elementos apresentados na pergunta torna as respostas uma
forma de referncia anafrica, uma vez que sua interpretao depende da
recuperao destes elementos6. Em portugus, esta mesma funo realizada
por formas verbais com argumentos omitidos.
Os dois aspectos mencionados acima e sua realizao no sistema de
referncias do portugus falado foram sistematicamente explorados no
estudo. O restante do artigo est organizado da seguinte maneira: na
prxima seo, descrita a metodologia empregada na coleta de dados e
na anlise propriamente dita; a seo subseqente apresenta o modelo de
classificao utilizado na anlise dos casos de anfora encontrados no
corpus; a quarta seo discute os resultados do estudo e aponta
possveis desdobramentos significativos a serem desenvolvidos a
partir destes resultados. A ltima seo resume a investigao realizada
e sugere aplicaes possveis.
1. Metodologia
A descrio da metodologia utilizada no estudo est dividida em
duas subsees. Na primeira, descreve-se o corpus coletado para os
propsitos da pesquisa e o processo de coleta. Na segunda subseo, os
fundamentos das abordagens de base em corpus so definidos em maior
detalhe.
1.1. O corpus
Uma vez decidido que a pesquisa utilizaria uma abordagem baseada
em corpus, concentrando-se no portugus falado, o prximo passo foi
selecionar um corpus adequado aos propsitos da pesquisa. A idia de
um corpus como fonte de material para pesquisa sobre linguagem no
nova para os pesquisadores brasileiros. Sob a influncia de
abordagens orientadas para a investigao sociolingstica, pelo menos
uma iniciativa nacional de coleta de material da lngua falada o
Norma Urbana Culta (NURC) foi implementada e levada a cabo em vrias
capitais brasileiras. Diversos outros projetos de carter local
foram tambm realizados.
A maior parte das pesquisas, tanto no Brasil como em outras
partes do mundo, se concentra em fenmenos fonticos, morfolgicos e
sintticos. O nvel do discurso menos freqentemente enfocado. Vrias
razes contribuem para esta tendncia, entre elas o grau muito menor
de consenso em relao s teorias explicativas relacionadas aos
fenmenos do discurso. Um segundo fator, diretamente relacionado aos
corpora de dilogos, que as exigncias habituais de autenticidade no
so to facilmente atendidas quanto na lngua escrita. A autenticidade
de dados extrados de um jornal, enquanto amostras de lngua escrita,
por exemplo, praticamente garantida, uma vez que o texto no
produzido em conseqncia de uma iniciativa de pesquisa lingstica.
Isto tambm verdade para a quantidade enorme de textos escritos
diariamente em muitas lnguas, criando assim um montante substancial
de dados disponveis para os lingistas.
A fim de atingir o mesmo nvel de autenticidade em um corpus de
lngua falada, necessrio registrar dilogos que ocorram naturalmente
em interaes entre pessoas enquanto se dedicam a suas atividades
dirias. As dificuldades que isto implica no so de pequena monta. A
primeira deciso crucial escolher hora e local apropriados para
realizar as gravaes. Isto geralmente exige negociaes, j que as
pessoas tendem a no aceitar muito facilmente a idia de serem
gravadas em situaes que digam respeito a seu trabalho. As condies
de gravao podem ser desfavorveis ou mesmo imprevisveis. Dependendo
do ambiente onde as gravaes ocorram, pode ser inteiramente
impossvel controlar interferncias potencialmente desastrosas na
rotina das gravaes.
Deste modo, no surpreendente que os pesquisadores que tentam
coletar dados da lngua falada prefiram mtodos menos arriscados, o
que geralmente significa gravar em ambientes protegidos, tais como
estdios ou dependncias das universidades. Os informantes recebem
algum tipo de tarefa, a qual gera uma interao mediada pela fala, ou
so simplesmente entrevistados por um pesquisador sobre algum tpico
considerado adequado. Este , sem dvida, um mtodo vlido de obter
dados da lngua falada, mas as limitaes, para propsitos de pesquisa
que incluem a investigao de fenmenos do discurso, so inegveis. Os
dados coletados desta maneira no so autnticos stricto sensu, uma
vez que as conversaes no teriam ocorrido se uma iniciativa de
pesquisa dada no estivesse em curso.
Neste sentido, o CDC-RJ um corpus autntico. As gravaes foram
feitas nas dependncias da UnATI (Universidade Aberta da Terceira
Idade), um projeto de tratamento holstico, pesquisa e formao de
pessoal qualificado para a terceira idade, ligado Universidade do
Estado do Rio de Janeiro.A UnATI opera em um dos andares do edifcio
principal da Universidade do Estado do Rio de Janeiro. Suas
atividades institucionais incluem vrios cursos tais como yoga, dana
de salo, oficina de poesia e lnguas estrangeiras psicoterapia,
recreao e aconselhamento alimentar e legal. No aspecto clnico, h
consultas com mdicos e enfermeiros, fisioterapia e entrevistas com
os assistentes sociais. Estas ltimas so geralmente voltadas para a
seleo de novos alunos-pacientes para admisso na UnATI, segundo uma
variedade de critrios em sua maioria relacionados impossibilidade
de obter tratamento de outro modo.
As gravaes foram feitas em ambos os locais e contm dilogos entre
pacientes ou parentes de pacientes e a equipe, incluindo
profissionais de assistncia de sade de todos os nveis, assim como
alguns dilogos entre membros da equipe. Os gravadores foram
operados pelos prprios membros da equipe, de modo que, uma vez que
os procedimentos bsicos haviam se tornado claros, o pesquisador
nada fez, alm de trazer os gravadores e fitas pela manh e
recolh-los ao final do dia. Em conseqncia do esprito altamente
cooperativo da equipe da UnATI, muitas horas de dilogos foram
gravadas durante aproximadamente duas semanas.
Devido s limitaes habituais de tempo e financiamento, a maior
parte deste material no foi sequer transcrito, uma vez que excede
em muito as exigncias da pesquisa para a qual foi coletado, em
termos de dados, assim como do estudo apresentado aqui. Cerca de
dez dilogos j foram de fato digitalizados. Seis deles foram
suficientes para suprir os 3045 casos de anfora analisados no
presente estudo.
1.2. A abordagem
A lingstica de corpus no se constitui em um ramo da lingstica,
no sentido que o so disciplinas como a sociolingstica ou a
psicolingstica. Trata-se, na verdade, de uma metodologia de anlise
lingstica, e no de uma rea de pesquisa. possvel, portanto, estudar
fontica, sintaxe ou semntica, alm dos prprios ramos acima citados,
por meio de um corpus, uma vez que este seja adequado para a
iniciativa de pesquisa em questo (ver Leech 1992, McEnery e Wilson
19967). Uma vez que a ferramenta fundamental para a investigao de
um corpus qualquer o computador (ver Leech 1992), fica pressuposto
que o corpus seja legvel por mquina, e a rea comum entre a
lingstica de corpus e a lingstica computacional torna-se
naturalmente ampla e em constante expanso.
Em relao dicotomia chomskyana entre competncia e desempenho ou
seus desenvolvimentos mais recentes, a lingstica de corpus se
concentra no desempenho lingstico e no na competncia. Em termos
sucintos (ver Sampson 1987 e Leech 1992 para um tratamento mais
completo), a metodologia de base em corpus no considera a
competncia como o assunto por excelncia da lingstica, e, na
verdade, v a separao entre a competncia mental de um falante da
lngua e sua manifestao no uso cotidiano como superdimensionada nas
abordagens gerativistas. Por isso mesmo, a nfase das investigaes
baseadas em corpus recai sobre a descrio lingstica, ao invs de
sobre a busca de universais lingsticos.
A tendncia a encarar a descrio e anlise da lngua, conforme usada
na vida real, como uma atividade menor ou de cunho "no-terico" da
mesma maneira como se poderia separar lepidopterologistas de
colecionadores de borboletas inteiramente rejeitada na lingstica de
corpus. A anlise do corpus envolve o processamento mental da
linguagem investigada, trazendo consigo, portanto, a necessidade de
desenvolver modelos psicolgicos do processamento. Estes modelos,
porm, so desenvolvidos a partir da observao da linguagem em uso, e
no revelia desta linguagem.
Vale destacar que a maioria das aplicaes do conhecimento
lingstico seja em educao, traduo ou PLN dizem respeito a lnguas
especficas e no a universais. Desta forma, as abordagens de base em
corpus associam a lingstica, como cincia, tecnologia e verificao
independente de resultados, como j verdadeiro h sculos nas cincias
naturais. Encarar resultados como um aspecto menor da investigao
cientfica compromete gravemente qualquer iniciativa no sentido da
avaliao da qualidade dos modelos e teorias construdos.
Ainda dentro da mesma vertente de anlise, termos como
"quantitativa" ou "empirista", quando associados a uma metodologia,
parecem trazer, desde a ascenso e subseqente predomnio da gramtica
gerativista, algum tipo de conotao pejorativa cuja validade no
mnimo discutvel. O uso de noes como freqncia e probabilidade no
exclui a anlise qualitativa, nem muito menos o uso de regras e
modelos, apenas fundamenta estes construtos com nmeros, o que, em
si, dificilmente pode ser encarado como metodologicamente
inadequado.
Na realidade, a questo da freqncia faz invariavelmente parte da
seleo de material a ser includo em atividades didticas relacionadas
a lnguas, como fcil verificar em qualquer mtodo de ensino de lngua
estrangeira. No h, portanto, nenhuma razo para desprezar os mtodos
estatsticos bastante teis que j foram desenvolvidos em outras reas
para fazer previses quanto ao comportamento lingstico de, por
exemplo, usurios de um sistema computacional capacitado a processar
linguagem natural. Na verdade, isto j sistematicamente praticado, e
seria positivo que os lingistas participassem com maior intensidade
neste florescente ramo da pesquisa cientfica.
Em suma, a lingstica de corpus baseia-se no desenvolvimento de
gramticas a partir da observao da linguagem em uso. Nas pginas que
se seguem, espera-se poder exemplificar como esta abordagem lida
com um fenmeno reconhecidamente difcil de tratar como as relaes
anafricas, e que alternativas de soluo tem a oferecer para as
aplicaes mais comuns do conhecimento lingstico, onde as relaes
anafricas continuam a colocar dificuldades considerveis para
professores, tradutores e projetistas de sistemas.
2. O modelo de classificao
Os fenmenos anafricos foram classificados segundo quatro
atributos, a saber: o tipo de termo anafrico; o tipo de
antecedente; o papel topical do antecedente; e a estratgia de
processamento. Cada caso de anfora encontrado na amostra foi
classificado segundo estes atributos, de acordo com as categorias
possveis para cada um deles. O processo de desenvolvimento deste
modelo de classificao ser apresentado aqui como algo acabado, mas
foi, na verdade, desenvolvido a partir do processo de anlise dos
casos de anfora encontrados no corpus, e, assim, reiteradamente
corrigido e aperfeioado at que tivesse sido alcanado um padro
considerado satisfatrio para a anlise coerente dos dados do corpus
(ver Rocha 1998 para uma descrio completa).
2.1. O tipo de termo anafrico
Os termos anafricos foram classificados em trs grandes grupos, a
saber:
pronomes;
verbos e adjuntos adverbiais;
nomes.
No primeiro grupo, foram includos todos os pronomes pessoais de
terceira pessoa, invariavelmente considerados como termos
anafricos, assim como: todos os pronomes possessivos substantivos;
os pronomes possessivos adjetivos de terceira pessoa; todos os
pronomes demonstrativos substantivos; todos os pronomes reflexivos
de terceira pessoa; os pronomes indefinidos algum, nenhum, todo,
muito, pouco, vrios, tanto e quanto, em todas as suas flexes,
quando usados como pronomes substantivos; e os numerais empregados
com funo de ncleo de sintagma nominal.
Na categoria dos verbos e adjuntos adverbiais foram agrupados os
verbos anafricos, abrangendo as formas verbais de terceira pessoa
sem sujeito explcito, inclusive os verbos de ligao; todas as formas
verbais de verbos transitivos sem objeto explcito; todas as formas
verbais de verbos de ligao sem predicativo do sujeito explcito;
todos os advrbios utilizados em enunciaes onde o sintagma verbal a
que se relacionam no est explcito, inclusive os sinais de resposta
sim e no; todos os sintagmas preposicionais utilizados em enunciaes
onde o sintagma verbal a que se relacionam no est explcito; e
alguns outros casos raros envolvendo oraes subordinadas que exigem
a recuperao da principal a que esto vinculadas. Abaixo dado um
exemplo de sintagma preposicional anafrico8.
(1) A: mas a senhora continua com a mesma com o mesmo sintoma?
B: com o mesmo problema
No fragmento de conversao acima, o sintagma preposicional com o
mesmo problema s pode ser interpretado se for vinculado enunciao
precedente adequadamente. Deste modo, tanto os sintagmas
preposicionais quanto os advrbios anafricos so muitas vezes
respostas a perguntas ou reaes a declaraes feitas pelo
interlocutor. O terceiro grupo dos nomes inclui sintagmas nominais
anafricos, inclusive as repeties literais, e adjetivos que
qualificam ncleos omitidos de sintagmas nominais, os quais tm que
ser recuperados no contexto do discurso.
Em relao aos pronomes, algumas opes foram feitas no que diz
respeito ao caso oblquo dos pronomes pessoais de terceira pessoa.
Embora os pronomes tonos do caso oblquo de primeira e segunda
pessoa sejam utilizados regularmente no portugus falado, o mesmo no
verdade em relao s formas de terceira pessoa. Os pronomes retos so
empregados com freqncia, mesmo quando se trata de um objeto direto.
Estas ocorrncias foram includas como pronomes objetos na amostra de
casos de anfora, sem qualquer distino em relao s demais formas. Um
exemplo mostrado abaixo.
(2) B: eu consegui matricular ele no INPS perto de casa
Nos usos de pronomes de terceira pessoa em contrao com a
preposio de, as ocorrncias foram invariavelmente classificadas como
casos do tipo de termo anafrico pronome objeto, mesmo quando a funo
semntica da contrao , claramente, de possessivo, como no exemplo
abaixo:
(3) A: quais so as queixas dele?
A posse, no portugus falado, quase que invariavelmente denotada
atravs destas contraes nos casos de terceira pessoa. Isto resultou
em freqncias muito baixas de termos anafricos classificados como
qualquer dos dois tipos de pronomes possessivos mencionados acima,
uma vez que os pronomes de primeira e segunda pessoa, onde a
incidncia maior, no foram, de modo geral, includos na amostra, j
que, na maioria dos casos, no sinalizam referncia anafrica, exceto
nos casos de discurso relatado.
Em relao aos verbos anafricos, tambm foi necessrio rever a
definio estabelecida inicialmente para que ocorrncias cuja
classificao se mostrou problemtica pudessem ser includas na
amostra. Os verbos anafricos foram descritos acima como uma forma
verbal que exige a recuperao de elementos da sua estrutura
argumental no contexto do discurso para sua interpretao semntica.
Conforme assinalado anteriormente, isto requer, para fins de
processamento, que a presena de argumentos essenciais dos verbos
seja constantemente verificada em relao a um padro de estrutura
argumental incorporado a um lxico pr-existente em uma mquina ou na
mente de um usurio da lngua.
Ao realizar a coleta de casos de anfora no corpus, o analista
utilizou um procedimento bsico: verificar a presena de um sujeito
em todos os sintagmas verbais, e dos objetos necessrios em todos os
verbos transitivos, alm dos predicativos nos verbos de ligao.
Sempre que um dos argumentos essenciais no era encontrado, a
ocorrncia era classificada como um verbo anafrico. O contexto
discursivo era ento analisado para identificar o antecedente e a
estratgia de processamento, conforme classificao apresentada mais
adiante. Um exemplo de verbo anafrico mostrado abaixo.
(4) A: a senhora sabe se tem algum exame de sangue da senhora?
de colesterol, de glicdio? B: 'tava ... foi a foi a a doutora
pediu, n? A: pediu?
A primeira ocorrncia da forma verbal pediu tem um sujeito
explcito, mas no h objeto direto na enunciao. Entretanto, pedir um
verbo transitivo que requer um objeto direto e, muitas vezes, um
objeto indireto tambm, embora, neste caso, parea ser desnecessrio
incluir este ltimo na anlise. A ocorrncia ento analisada como um
verbo anafrico, o que significa que o discurso foneticamente
realizado no fornece os argumentos essenciais do verbo conforme
esperado. O objeto direto tem que ser recuperado no turno
precedente, embora o verbo da enunciao no seja pedir, mas sim ter
em seu sentido existencial, o qual no requer um sujeito, mas
necessita de um objeto.
A ocorrncia subseqente de pediu no explicita nenhum dos dois
argumentos, e por isso analisada como um caso de referncia anafrica
dupla por meio de um nico termo anafrico, j que preciso recuperar
dois antecedentes no discurso anterior. Casos como este no so
incomuns. Contudo, h sentenas do portugus que so analisadas,
segundo Cunha (1985), como no tendo sujeito, identificadas por
certos verbos e usos tpicos de formas verbais, listados abaixo:
sintagmas verbais que expressam fenmenos naturais
o verbo haver quando denota existncia
os verbos haver, fazer e ir quando se referem a tempo
transcorrido
o verbo ser quando se refere a tempo
A esta lista devem ser acrescentadas as ocorrncias do verbo ter
que tambm denotem existncia, j que so bastante comuns no portugus
falado. A inexistncia de sujeito nestas formas verbais no foi
considerada um caso de anfora. As ocorrncias destes verbos em que o
objeto ou o predicativo do sujeito estavam omitidos foram, porm,
includas na amostra como casos de anfora, j que estes argumentos so
necessrios interpretao semntica. Um problema de soluo mais difcil
se relaciona s formas verbais que tm funo de marcadores do
discurso, seja em perguntas de confirmao ou em respostas a
perguntas. Estas ocorrncias no podem ser tratadas de maneira
uniforme, uma vez que elas, em muitos casos, desempenham funes
discursivas simultaneamente ao papel esperado determinado pelo
sentido lexical do verbo, como no exemplo abaixo.
(5) A: e ele, como que ele 't de sade, Joana? quais so as
queixas dele? B: olha sade ele no ... no 't bem, n? ele aposentado,
mas continua trabalhando, entendeu?
O sentido literal de entendeu no se adequa muito claramente ao
contexto, j que a enunciao precedente declarativa e transmite
informaes simples, que no exigem nenhuma forma especial de
entendimento. A forma verbal em questo cumpre, principalmente, a
funo pragmtica de certificar-se da ateno do ouvinte e mant-la
focalizada no que est sendo dito. No obstante, o verbo entender,
nesta acepo, um transitivo direto que exige um objeto. Nada nos
verbetes de dicionrios da lngua portuguesa (ver Hollanda 1986)
sugere a possibilidade deste tipo de ocorrncia como intransitivo, e
tambm no h qualquer comentrio em Cunha (1985). Porm, estas
ocorrncias so muito freqentes, e extremamente difcil, e, em certos
casos, impossvel especificar o objeto direto destas formas
verbais.
Uma maneira de lidar com estas ocorrncias seria deix-las tambm
de fora da amostra, como ocorrncias do verbo entender com sentido
alterado, as quais no incluiriam um objeto direto em sua estrutura
argumental. O primeiro problema com este tipo de soluo ,
evidentemente, que no existe nenhum precedente deste tipo de anlise
na literatura de referncia, diferena dos verbos sem sujeito
discutidos anteriormente. O segundo problema decorre do fato de que
possvel detectar pelo menos parte do sentido lexical do verbo ainda
preservado. O terceiro problema deriva da existncia de ocorrncias
muito semelhantes no corpus em que a interpretao semntica pode ser
muito mais "referencial". Na realidade, parece existir um continuum
de referencialidade (ver Schiffrin 1987) neste tipo de ocorrncia,
variando desde o sentido lexical estrito do verbo at o uso para
funes exclusivamente pragmticas, em que o sentido lexical da forma
verbal praticamente irrelevante.
No decorrer da anlise dos dados do corpus, foi possvel observar
a rica complexidade da interao entre relaes anafricas, estrutura
argumental, marcadores do discurso e perda de sentido lexical, com
a contrapartida de um aumento do peso da funo pragmtica das formas
verbais. Em muitos casos envolvendo perguntas de confirmao ou
respostas com os argumentos omitidos, formas verbais dos verbos
entender e saber so utilizadas com variados graus de preservao do
sentido e de contrapartida em termos de reforo do papel
pragmtico.
Estas ocorrncias apresentam complexidade ainda maior se forem
consideradas tambm as ocorrncias dos verbos de ligao ser e estar,
cuja estrutura argumental exige a identificao de um sujeito e de um
predicativo do sujeito. Em termos de processamento, torna-se
necessrio especificar quais as situaes em que um determinado verbo
ser considerado com sua estrutura argumental padro e quais exigem
solues em que esta estrutura descartada em favor de uma interpretao
como marcador discursivo. O problema semelhante ao do tratamento de
termos como pronomes demonstrativos que, embora tipicamente
anafricos, ocorrem como no-referenciais em colocaes especficas,
ainda que, no caso destes ltimos, o levantamento dos ambientes que
propiciam as alteraes no tenha que lidar com uma complexidade to
grande de graus de referencialidade.
A soluo encontrada para o problema ser apresentada mais adiante,
uma vez que extrapola o mbito da classificao dos tipos de termo
anafrico, envolvendo tambm o tipo de antecedente e a estratgia de
processamento.
3.2. O tipo de antecedente
A classificao do tipo de antecedente diz respeito basicamente
dicotomia implcito/explcito, sendo que o segundo tipo predomina
fortemente, pelo menos em dilogos. Abaixo h dois exemplos de
anfora. No exemplo (6), o antecedente no sinto sede durante o dia
est explcito na enunciao anterior. A variao de pessoa no foi
considerada no estudo como suficiente para que a classificao do
antecedente oracional fosse classificada de maneira diferente.
(6) A: e sede, a senhora sente muita sede durante o dia? B:
nenhuma
No exemplo (7), o antecedente acar est implcito devido forte
ligao semntica com glicose. Parece razovel afirmar que, em termos
de processamento, a ativao de elementos prximos do campo semntico
tem participao importante na identificao de referncias deste
tipo.
(7) A: mas a senhora alguma vez j fez algum exame de glicose
para ver se tem algum problema B: bom, quando eu fiz estava
passando uns dez pontinhos mas o mdico falou que era tambm da idade
e no ia passar remdio s suspender o acar
H ocorrncias, porm, em que a classificao do antecedente difcil,
tais como a expresso por isso ou por aquilo no exemplo (8)
abaixo.
(8) B: sobre a urina? A: B: no, eu nunca prestei ateno se era
por isso ou por aquilo que eu comesse, entendeu
A expresso cristalizada no se refere especificamente a nenhum
alimento em particular, embora seja composta por dois pronomes
demonstrativos, ambos tipicamente empregados na funo de termo
anafrico. Tendo em vista o processamento automtico de relaes
anafricas, para o qual o estudo pretende contribuir, importante
incluir todas as ocorrncias de palavras tipicamente anafricas, de
modo a estabelecer os padres de ocorrncia. No caso em questo, no h
um antecedente stricto sensu para os termos anafricos. Casos como
este receberam a classificao de no-referencial.
certamente relevante assinalar que estes casos no constituem
relao anafrica propriamente dita, uma vez que no h antecedente a
ser identificado. Por outro lado, sua incluso permite avaliar com
que freqncia palavras tipicamente utilizadas como termos anafricos,
como o caso dos demonstrativos em questo, so empregadas em situaes
em que a relao anafrica no se concretiza conforme esperado, e,
sobretudo, permite estudar estas situaes de modo a estabelecer em
que contextos ocorrem. Isto pode ser da maior importncia para o
processamento automtico de anforas, uma vez que um interpretador de
anafras em um sistema qualquer no persistiria em tentativas inteis
de identificar um antecedente especfico.
Tambm verdade que a anlise destes padres de ocorrncia contribui
para o esclarecimento inclusive do aspecto psicolingstico do
processamento de relaes anafricas, ao levantar a questo das
expresses cristalizadas e outras formas mais complexas de
processamento com base em esquemas, geralmente discutidas na
literatura da lingstica de corpus sob a denominao de colocaes. A
noo de colocao pode ser definida como a co-ocorrncia sistemtica de
itens lexicais, com a possibilidade de um tratamento estendido para
abranger as estruturas lxico-gramticas propostas na lingstica
sistmica. A questo voltar a ser discutida na subseo relativa s
estratgias de processamento.
A anlise dos dados do corpus revelou, gradativamente, que seria
necessrio criar uma quarta possibilidade de classificao de
antecedentes para lidar com casos como o do exemplo (9) abaixo.
Segundo o critrio estabelecido para a determinao do carter anafrico
de um verbo qualquer, verifica-se a presena dos argumentos
essenciais em forma explcita na enunciao. Caso haja omisso, fica
caracterizada a anfora. No caso da forma de terceira pessoa do
singular do verbo ser abaixo, o sujeito est omitido e precisa ser
recuperado no contexto do discurso para que a interpretao semntica
se complete com xito.
(9) A: a senhora prefere fazer o exame num hospital aqui no
Hospital Carlos Pinto B: no, no preferncia, eu fui fazer a, mas
teve esses problemas, A: teve esses problemas
A anlise do contexto aponta para um antecedente implcito de
difcil especificao. A melhor soluo est provavelmente em uma
expresso genrica, tal como o problema ou a questo, que se referem
quilo que est sendo discutido ou falado no momento de maneira
relativamente vaga. Contudo, preciso que haja alguma maneira
pr-definida de lidar com ocorrncias como estas, j que elas no so
particularmente incomuns. Foi criada a categoria do antecedente
implcito no discurso para classificar este tipo de ocorrncia. Tais
situaes demonstram a importncia das abordagens baseadas em corpus,
uma vez que a anlise dos dados do corpus coloca questes autnticas
que provavelmente no seriam lembradas. A confiana na prpria intuio,
sem o confronto com dados da lngua conforme utilizada para
comunicao, tem conseqncias sobre o processamento automtico de
linguagens naturais, tornando os sistemas construdos excessivamente
frgeis diante da enorme variedade de situaes possveis da vida
cotidiana.
2.3. O papel topical do antecedente
Este atributo constitui uma tentativa de incorporar a relao
freqentemente mencionada entre topicalidade e anfora ao modelo de
classificao. Utilizando informaes estatsticas simples, tais como
freqncia e distribuio, juntamente com dados tais como a posio da
primeira ocorrncia no texto e a classificao do constituinte como
sintagma nominal, foi especificado um tpico do discurso para cada
dilogo, alm de um tpico de segmento para cada passagem de dilogo em
que se verificasse continuidade de tpico. Foram definidos tambm
elementos temticos do discurso e elementos temticos de segmento, a
fim de classificar entidades do discurso (no sentido utilizado em
Weber 1979) importantes que no fossem tpicos.
A anlise do corpus demonstrou que, em muitos casos, uma diviso
em subsegmentos se faz necessria, e cada um dos subsegmentos
recebeu um tpico, chamado de tpico de subsegmento. Algumas outras
categorias foram utilizadas para casos raros de difcil classificao
que no necessrio analisar aqui. Estas categorias foram utilizadas
para definir um papel topical para cada antecedente detectado em
todos os casos de anfora includos na amostra. Esta definio de papis
topicais resulta, em ltima anlise, numa especificao da estrutura da
topicalidade de um dilogo dado.
Uma discusso completa desta estrutura da topicalidade impossvel
dentro dos limites deste trabalho. No obstante, vale destacar que
estas informaes desempenham papel fundamental na resoluo de casos
de anfora particularmente complexos e difceis de resolver, onde o
termo anafrico est distante o suficiente de seu antecedente para
que existam vrias alternativas de antecedentes sintaticamente
viveis entre o termo anafrico e o antecedente correto.
2.4. A estratgia de processamento
A estratgia de processamento foi considerada como uma varivel
necessria para a anlise das relaes anafricas, j que o tipo de termo
anafrico e o tipo de antecedente no so suficientes para definir com
exatido o caminho a ser percorrido para a resoluo de uma referncia
anafrica. Uma vez que o estudo pretende contribuir para o
processamento automtico de relaes anafricas em sistemas
computacionais capacitados a lidar com linguagens naturais, foi
considerada essencial uma maior preocupao com definies relativas ao
processamento, investigando as associaes entre o termo anafrico, o
antecedente e o processamento, de modo a estabelecer padres de
ocorrncia que pudessem orientar um interpretador de anforas em um
sistema atuante no mundo real.
Foram estabelecidas quatro categorias abrangentes para definir
as possveis estratgias de processamento empregadas na resoluo de
anforas. A primeira delas foi chamada de processos sintticos, e diz
respeito a resolues de referncias anafricas baseadas em concordncia
e proximidade, isto , o antecedente o primeiro candidato adequado
encontrado no discurso precedente, levando em conta gnero e nmero
do termo anafrico empregado. Tais solues podem ser implementadas
com relativa facilidade em um sistema de computadores atravs de um
algoritmo "ingnuo", isto , uma seqncia de procedimentos que ignora
toda a informao de natureza semntica, como o descrito em Hobbs
(1986). Um exemplo deste tipo de resoluo para anfora dado
abaixo.
(10) B: fiz a ... aquele negcio que anda na esteira A: uhum foi
o teste ergomtrico, n? B: , fiz aquilo
As cadeias de referncia foram tambm consideradas como um
processo sinttico, uma vez que o algoritmo "ingnuo" localizaria um
outro termo anafrico, o qual, em princpio, j teria sido previamente
analisado e resolvido. Embora as cadeias de referncia apresentem
problemas de soluo no to simples quanto a simples escolha do
primeiro candidato adequado para o processamento, no parece
excessivo pressupor que as informaes de natureza sinttica seriam
suficientes para garantir o xito da interpretao. Porm, no exemplo
abaixo, h trs ocorrncias de pronome demonstrativo anafrico, sendo
que a terceira faz parte de uma contrao com a preposio de. Esta
ocorrncia no faz parte de uma cadeia de primeiros candidatos e
seria resolvida incorretamente com uso do algoritmo "ingnuo".
(11) B: eu tinha assim um pelgio A: sei, aquilo que cai assim
embaixo do olho B: no, filha, um ... do colesterol d assim feito
umas gordurinhas A: aham B: ento, eu tinha demais A: uhum B: a eles
tiraram A: isso em funo do colesterol? B: o mdico diz que A: nossa
B: do colesterol A: e a voc fez uma uma pequena cirurgia B: , ele
aproveitou, tirou pele tambm e A: aham B: e tirou a A: mas voc
ficou legal disso, depois controlou o colesterol e ficou, ficou, no
volta no n? no reincide no?
O pronome demonstrativo na ltima enunciao do fragmento acima
refere-se a pelgio, mas o primeiro candidato adequado seria pele,
uma vez que o demonstrativo isso no discrimina o gnero do
referente. Mesmo que elementos de semntica lexical fossem
utilizados, a expresso ficar legal no eliminaria a possibilidade do
referente ser pele com base em restries selecionais. Somente
fatores de natureza discursiva podem garantir o processamento com
xito deste tipo de referncia, onde necessrio ignorar um ou mais
candidatos adequados mais prximos e localizar um antecedente mais
distante. Este tipo de estratgia de processamento, e algumas
variantes dela, foi denominada como conhecimento discursivo, uma
vez que preciso incluir fatores do contexto do discurso para
viabilizar o processamento. As referncias diticas tambm esto
includas nesta categoria.
O terceiro tipo de estratgia de processamento diz respeito a um
fenmeno j mencionado, as colocaes, e recebeu o nome de conhecimento
de colocaes. Imagine-se que o lxico mental possua uma lista de
expresses cristalizadas cujo processamento est pr-determinado em
conseqncia da experincia acumulada no uso da lngua. Esta lista pode
incluir combinaes entre itens lexicais, traos semnticos comuns a um
grupo de itens lexicais e estruturas sintticas (ver Rocha 1998 para
uma lista detalhada). O levantamento realizado no corpus, atravs da
classificao da estratgia de processamento, permitiria, portanto,
que esta mesma lista hipottica fosse construda e, potencialmente,
incorporada ao interpretador de anforas como conhecimento essencial
para o xito do processamento.
Sendo assim, a colocao por isso ou por aquilo estaria associada
a uma resoluo em que a ocorrncia no-referencial. Vale frisar que
todos os exemplos discutidos at agora so de pronomes
demonstrativos, o que demonstra a importncia de incluir uma varivel
como a estratgia de processamento, evitando, assim, que fenmenos
anafricos to diversos fossem agrupados sob a mesma classificao sem
maiores especificaes.
O quarto tipo de estratgia de processamento diz respeito ao uso
de informaes de natureza lexical e recebeu, portanto, o nome de
conhecimento lexical. O exemplo (7) um caso tpico deste tipo de
estratgia, onde o antecedente acar pode ser identificado devido
ativao anterior causada pela meno da glicose. As referncias
anafricas por meio de repetio lexical foram includas nesta
categoria. Embora esta estratgia de processamento esteja fortemente
associada aos sintagmas nominais anafricos no-pronominais, a anlise
dos dados do corpus revelou que o conhecimento lexical tambm
importante para a resoluo de referncias por meio de sintagmas
preposicionais e advrbios anafricos.
O processo de anlise foi feito atravs do exame dos dilogos do
CDC-RJ. Cada caso de anfora includo na amostra foi anotado
manualmente com a classificao definida por estas quatro variveis.
Foram analisados 3045 casos de anfora em seis dilogos do CDC-RJ.
Alguns resultados da anlise sero discutidos na prxima seo.
3. Os resultados do estudo
A Tabela 1 abaixo resume as freqncias dos tipos de termo
anafrico na amostra coletada.
Pode-se observar, na Tabela 1, que o tipo de termo anafrico mais
freqente na amostra de portugus falado analisada o verbo9. Uma vez
que este estudo presume ter conseguido coletar uma amostra autntica
de dilogos em portugus, parece seguro afirmar que o verbo anafrico
a forma predominante de referncia anafrica da lngua. Vale frisar
que uma anlise de dilogos em ingls segundo a mesma classificao
registrou uma pequena variao na percentagem de nomes anafricos, e
percentagens diametralmente opostas de pronomes e verbos (ver Rocha
1998). Isto refora a observao, feita anteriormente, de que o
sistema de referncia, em ingls, baseia-se fundamentalmente em
sinais explcitos da necessidade de recuperar um elemento do
discurso para a interpretao semntica, enquanto a lngua portuguesa
utiliza a estrutura argumental dos verbos para detectar argumentos
essenciais omitidos que sinalizam a referncia anafrica. A Tabela 2
abaixo mostra os nmeros relativos ao tipo de antecedente.
A predominncia dos antecedentes explcitos indiscutvel. Isto
demonstra que a resoluo de referncias anafricas depende
fundamentalmente de um processamento adequado dos elementos
diretamente introduzidos no discurso, e no de inferncias a partir
de informaes no discurso, em busca de antecedentes implcitos. A
percentagem relativamente alta de ocorrncias no-referenciais
provavelmente conseqncia do grande nmero de marcadores do discurso
com funes estritamente pragmticas. A Tabela 3 resume os resultados
da amostragem em termos de estratgia de processamento.
A importncia do conhecimento de colocaes fica bastante
evidenciada nos nmeros relativos estratgia de processamento, ainda
que os processos sintticos predominem como forma de resolver as
referncias anafricas que integram a amostra. O conhecimento
lexical, onde a repetio lexical a forma predominante de sinalizar o
caminho para a identificao do antecedente, tambm atinge um
percentual bastante alto de estratgias de processamento. O
conhecimento discursivo, onde se concentram os casos difceis, cuja
soluo exige um processamento conjunto de diversos elementos do
contexto discursivo, concentra o menor nmero de casos, mas, ainda
assim, suficientes para inviabilizar a interpretao semntica global
de uma instncia de discurso, caso no se obtenha xito em sua
resoluo.
A Tabela 4 apresenta o cruzamento dos nmeros relativos ao tipo
de termo anafrico com o tipo de antecedente. Os antecedentes
implcitos no discurso foram agrupados aos implcitos em geral, de
modo a facilitar os testes de chi-quadrado e associao descritos em
seguida (ver Walsh 1990 para uma discusso dos problemas gerados por
clulas com valores muito baixos para os testes de
chi-quadrado).
As clulas com os nmeros mais interessantes se concentram na
coluna dos no-referenciais. Em forte contraste com resultados do
estudo realizado com dilogos em lngua inglesa em Rocha (1998),
utilizando a mesma classificao, o nmero de pronomes no-referenciais
muito baixo, enquanto o de verbos e adjuntos adverbiais muito alto.
Isto parece revelar que os verbos anafricos, particularmente os
verbos de ligao anafricos, so mais freqentes quando suas formas
equivalentes em lngua inglesa so pronomes neutros ao invs das
formas usadas para referentes humanos, j que estes nunca so
no-referenciais. Fica assim delineado, mais uma vez, o contraste
entre dois sistemas de referncia que utilizam, respectivamente,
pronomes e verbos como suas formas de termo anafrico por
excelncia.
Os testes de chi-quadrado para estas duas variveis demonstraram
alta significncia de sua relao, do ponto de vista estatstico, uma
vez que a possibilidade de sua relao se dever ao acaso menor do que
p < 0.00005. No entanto, a medida de associao, usando o tau de
Goodman e Kruskal, revelou um nvel de associao baixo, com uma reduo
proporcional do erro de 0.4. Isto significa que a probabilidade de
prever com acerto o tipo de antecedente, uma vez que se saiba o
tipo de termo anafrico, aumenta apenas em 4%, se comparada ao
acaso. A Tabela 5 apresenta o cruzamento dos nmeros do tipo de
termo anafrico com as estratgias de processamento.
Apesar da predominncia dos processos sintticos por pequena
margem, pode ser observado que as resolues baseadas em conhecimento
de colocaes atingem um nvel muito alto. Isto se deve influncia de
um grande nmero de verbos de ligao anafricos no-referenciais, cuja
estratgia de processamento fundamentalmente o conhecimento de
colocaes, conforme discutido anteriormente. As ocorrncias de
resolues com base em conhecimento lexical se concentram nos nomes,
o que seria de se esperar. As ocorrncias de resolues com base em
conhecimento discursivo tambm predominam entre os verbos, mas,
considerando a quantidade muito maior de ocorrncias de verbos
anafricos do que de pronomes, o nvel das ocorrncias de pronomes com
este tipo de resoluo alto, uma vez que atinge cerca de trinta por
cento dos casos, enquanto os pronomes chegam apenas a 17.4% dos
casos no cmputo geral.
Os testes de chi-quadrado com estas duas variveis tiveram
resultados semelhantes aos feitos com as duas variveis da Tabela 4.
Contudo, o nvel de associao medido pelo tau de Goodman e Kruskal
chega a 0.36, o que significa que a possibilidade de prever a
estratgia de processamento com acerto aumenta em 36% quando se
conhece o tipo de termo anafrico. Isto significa que, dado um
dilogo onde so conhecidos os termos anafricos, as estratgias de
processamento a serem utilizadas tm boa possibilidade de serem
previstas com preciso, sobretudo se informaes contextuais coletadas
atravs da observao dos tipos de termo anafrico especficos puderem
ser utilizadas.
Sabe-se que, atualmente, j existem programas capazes de atribuir
classes gramaticais s palavras de um texto legvel por mquina
automaticamente. Estes programas so geralmente chamados de
etiquetadores de estruturas morfossintticas. Embora o nvel de
exatido que obtm em transcries de dilogos tenha que ser verificado,
a perspectiva de obter informaes efetivas sobre estratgias de
processamento de termos anafricos a partir de sua classe gramatical
parece real, ainda que este estudo no seja em absoluto suficiente
para concluses mais definitivas. Finalmente, a Tabela 6 mostra os
resultados do cruzamento dos dados entre as estratgias de
processamento e os tipos de antecedente.
Fica claro aqui que a associao entre colocaes e no-referenciais
absoluta. Deste modo, os termos aparentemente anafricos que na
realidade no se referem a um antecedente identificvel podem ser
detectados atravs de uma lista de colocaes, ainda que as formas
verbais discutidas anteriormente possam aparecer tanto como
colocaes, ou seja, com seu sentido alterado, quanto como ocorrncias
com seu sentido lexical esperado.
Os testes de chi-quadrado realizados com estas duas variveis
obtiveram significncia em nvel idntico aos registrados nas duas
outras tabulaes cruzadas. O nvel de associao registrado para estas
duas variveis foi razoavelmente alto, chegando a 0.22, o que
sinaliza um aumento de 22% em relao ao acaso na possibilidade de
prever o tipo de antecedente, uma vez que a estratgia de
processamento seja conhecida. Parece razovel concluir destas medies
de associao que a estratgia de processamento age como um elo de
ligao entre as duas outras variveis, uma vez que apresenta nvel de
associao alto com o tipo de termo anafrico, como a varivel
dependente, e tambm nvel de associao alto com o tipo de
antecedente, desta vez com este ltimo como a varivel
dependente.
Estes nmeros no apenas justificam a incluso da varivel na
classificao de termos anafricos, mas parecem sinalizar que possvel
aumentar a eficincia de interpretadores de anforas em sistemas de
PLN atravs desta abordagem, ainda que o estudo tenha limitaes bvias
de dimenso e abrangncia. Quando a interao entre as quatro variveis
foi medida atravs da anlise loglinear, somente foram consideradas
estatisticamente significativas as interaes entre trs variveis nas
quais uma delas era a estratgia de processamento, o que torna ainda
mais clara a tendncia detectada atravs das medidas de associao.
5. Concluso
A classificao criada para a anlise das relaes anafricas no
portugus falado parece ter possibilidades de tornar-se uma
contribuio real para a compreenso deste complexo fenmeno do
discurso. Espera-se, igualmente, que o estudo possa representar um
primeiro passo para uma maior eficincia na resoluo de referncias
anafricas em sistemas de processamento de linguagens naturais.
Pressupondo um sistema com a capacidade de realizar a rotulao de
estruturas morfossintticas em tempo real, medida em que um usurio
fala, por exemplo, poderia ser possvel aprimorar a resoluo de
anforas em interfaces em linguagens naturais para acesso a banco de
dados, uma das aplicaes mais desejveis do processamento de
linguagens naturais em computadores. A utilizao destas mesmas
capacidades em sistemas de traduo de mquina e aprendizado de lnguas
com ajuda de computadores tambm apresenta perspectivas
atraentes.
No processo geral de investigao cientfica relacionada linguagem,
as abordagens baseadas em corpus desempenham um papel fundamental
na renovao da pesquisa lingstica e em suas diversas aplicaes,
introduzindo um elemento de realidade da lngua que vinha sendo
deixado de lado e mesmo condenado. No se pretende, com isso,
menosprezar abordagens de natureza mais formal ou abstrata, mas
lembrar que a anlise do uso da lngua no contexto da vida real ,
pelo menos, to importante quanto estas ltimas.
REFERNCIAS BIBLIOGRFICAS
AARTS, J. (1991) Intuition-based and observation-based grammars.
In: K. Aijmer e B. Altenberg (org.) English corpus linguistics:
Studies in honour of Jan Svartvik. Harlow: Longman.
BIDER, D. (1992) Using computer-based corpora to analyse the
referential strategies of spoken and written texts. In: Jan
Svartvik (org.) Directions in corpus linguistics. Berlim: Mouton de
Gruyter:215-252.
CARTER, D. (1987) Interpreting anaphora in natural language
texts. Bognor Regis: Ellis Horwood.
BOSCH, P. (1983) Agreement and anaphora. Nova York:Academic
Press.
CUNHA, C. & CINTRA, L. (1985) Nova gramtica do portugus
contemporneo. Rio de Janeiro: Nova Fronteira.
FOX, B. (1987) Discourse structure and anaphora. Cambridge:
CUP.
FRANCIS, N. (1992) Language corpora B.C. In: Jan Svartvik (org.)
Directions in corpus linguistics. Berlim:Mouton de Gruyter:
215-252.
HALLIDAY, M.A.K. e HASAN, R. (1976) Cohesion in English.
Londres:Longman.
HARRIS, C. (1992) Connectionism and cognitive linguistics. In:
Noel Sharkey (org.) Connectionist natural language processing.
Oxford: Intellect.
HIRST, G. (1981) Anaphora in natural language understanding.
Berlim: Springer-Verlag.
HOEY, M. (1991) Patterns of lexis in text. Oxford: OUP.
HOBBS, J. (1986) Resolving pronoun references. In: B.L. Webber;
B. Grosz e K. Sparck-Jones (org.) Readings in natural language
processing. Palo Alto: Morgan Kaufmann.
HOLLANDA, A. (1986) Novo dicionrio da lngua portuguesa. Rio de
Janeiro:Nova Fronteira.
KOCH, I.V. & MARCUCHI, L.A. (1998) Processos de referenciao
na produo discursiva. D.E.L.T.A, 14 especial. So Paulo:
EDUC:169-190.
LEECH, G. (1992) Corpora and theories of linguistic performance.
In: Jan Svartvik (org.) Directions in corpus linguistics. Berlim:
Mouton de Gruyter:105-22.
MC ENERY, T. & WILSON, A. (1996) Corpus linguistics.
Edinburgo: Edinburgh University Press.
QUIRK, R.; GREENBAUM, S.; SVARTVIK, J. e LEECH, G. (1985) A
comprehensive grammar of the English language. Londres:
Longman.
ROCHA, M. (1998) A corpus-based study of anaphora in dialogues
in English and Portuguese. Tese de doutorado. Falmer: University of
Sussex.
SAMPSON, G. (1987) Probabilistic models of analysis. In: R.
Garside, G. Leech and G.Sampson (orgs.) The computational analysis
of English. Harlow: Longman.
SCHIFFRIN, D. (1987) Discourse markers. Londres: Cambridge
University Press.
WALSH, A. (1990) Statistics for the social sciences. Nova York:
Harper e Row.
WEBBER, B.L. (1979) A formal approach to discourse anaphora.
Nova York: Garland.
1 Isto tambm verdade no que diz respeito a outras noes
importantes em lingstica.
2 Ver, a esse respeito, Koch e Marcuschi (1998).
3 Termo anafrico e antecedente so comumente usados tambm na
anlise de catforas e dixis, uma prtica igualmente adotada neste
estudo.
4 Ver Bosch (1983) para uma discusso da distino entre anafra e
dixis.
5 A observao dos dados do corpus acabou por demonstrar,
posteriormente, que tais noes no seriam teis ou mesmo plausveis
para os propsitos em questo.
6 Esta interpretao da combinao pronome-operador tpica das
respostas na lngua inglesa discutida em detalhe em Quirk et al.
(1985), sees 6.12-16.
7 "Corpus linguistics is a methodology that may be used in
almost any area of linguistics, but it does not truly delimit an
area of linguistics itself."(McEnery e Wilson 1996)
8 Todos os exemplos foram extrados do CDC-RJ.
9 Embora os adjuntos adverbiais anafricos estejam agregados ao
total, os verbos constituem 81,55% (1229) dos casos.