Avaliações Conjuntas: Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics
Feb 10, 2016
Avaliações Conjuntas:Visão Geral
Alexsandro Santos Soares
Projecto Processamento Computacional do PortuguêsSINTEF Telecom and Informatics
Junho de 2002 SINTEF 2
O que é avaliação conjunta?
• Compara os resultados de vários sistemas participantes usando:– Tarefas de controle iguais ou similares;– Mesma coleção de dados;– Mesmas métricas.
• Todos os itens acima são baseados em concordância prévia entre os participantes.
Junho de 2002 SINTEF 3
Objetivos
• Encorajar a pesquisa baseada em dados reais;• Aumentar a comunicação entre a indústria, a academia e o
governo através da criação de um fórum aberto de discussões;• Acelerar a transferência de tecnologia entre os laboratórios de
pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais;
• Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais.
Junho de 2002 SINTEF 4
Elementos da avaliação conjunta
• Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada.
• Requisitos genéricos para a tarefa de controle:– Pode ser facilmente realizada por um operador humano;– Não precisa ser identificada com a funcionalidade específica de
um componente numa arquitetura de PLN;• Requisitos genéricos para as métricas:
– Deve existir concordância em um formalismo de referência comum a todos os participantes;
– As métricas devem ser diretas e de fácil entendimento.
Junho de 2002 SINTEF 5
Fases da Avaliação Conjunta
Participantes: pesquisa, indústria e governo
Organização: governo, pesquisa e indústria
Tarefas de controleMétricasColeção de teste
Treinamento
Ensaio
Avaliação
Resultados
Artigos
Conferência
Junho de 2002 SINTEF 6
Evolução
AvaliaçãoConjunta
Tarefas
Métricas
Coleção
Discussãosobre
metodologia
Tarefas
MétricasNovaAvaliaçãoConjunta
Coleção- Treinamento- Teste- Respostas certas
Junho de 2002 SINTEF 7
Tipos de avaliação em geral
• Avaliação de pesquisa básica– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a
outros métodos.
• Avaliação de tecnologia– Medir a performance e a adequação de uma tecnologia na resolução de um
problema bem definido, simplificado e abstraido.
• Avaliação de uso– Medir a usabilidade de uma tecnologia na resolução de um problema real.
• Avaliação de impacto– Avaliação de consequências sócio-econômicas de uma tecnologia.
• Avaliação de programa– Determinar quanto de benefício um programa de financiamento trouxe para uma
dada tecnologia.
Junho de 2002 SINTEF 8
Avaliações conjuntas realizadas
• ATIS• MUC• TREC• SUMMAC• DUC• CLEF
• ARC• GRACE• Morpholympics• Senseval/Romanseval• Parseval• NTCIR
http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html
Junho de 2002 SINTEF 9
ATIS - Air Travel Information System
• Duração: de 1989 a 1995.• Tarefa: Responder a perguntas faladas pelo usuário sobre
determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de
trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados.
• A portabilidade dos sistemas de compreensão de línguas não avaliada.– Não estava claro como desenvolver ferramentas robustas que
permitiriam a rápida construção destes tipos de sistemas em novos domínios
Junho de 2002 SINTEF 10
MUC - Message Understanding Conference
• Duração: 1987 a 1998.• Tarefa: Simulação de um analista do serviço de inteligência
procurando informações a respeito de um tópico particular.– Ex: Atividades terroristas nas Américas.
• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.
• Avaliação baseada em preenchimento de gabaritos (templates)– Identificação de entidades citadas: pessoa, organização, localização, tempo, data,
percentuais e expressões monetárias.– Template elements: uma lista de entidades com seus atributos associados, tais
como formas alternativas de um nome.– Identificação de coreferência: ligar as várias menções da mesma entidade.
Junho de 2002 SINTEF 11
TREC - Text REtrieval Conference
• Início: 1992 • Tarefas principais:
– Routing: Mesmas questões perguntadas a uma base de dados dinâmica.– Ad hoc: Novas questões são perguntadas a uma base de dados estática.
• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:– Contendo entre 500.000 e 1.000.000 de documentos completos– Formado principalmente de textos jornalísticos e de agências de
notícias. – Também possui documentos oficiais e resumos de artigos sobre
computação.
Junho de 2002 SINTEF 12
Julgamentos de Relevância nas TRECs
• Método de pooling:– Os participantes enviam para cada tópico uma lista contendo os
100 primeiros documentos encontrados, ordenados por relevância.– Reúne-se por tópico todas as respostas enviadas e remove-se as
duplicações.– Cada lista resultante por tópico é levada para um analista humano
para que este decida sobre a relevância de tais documentos para o tópico em questão.
• A lista final do método de pooling será considerada a resposta correta.
Junho de 2002 SINTEF 13
SUMMAC - TIPSTER Text Summarization Evaluation
• Início: 1997• Tarefas principais:
– Ad hoc• Criação de sumários indicativos e focados no usuário para um tópico
particular. • Determinar se estes sumários são efetivos na determinação da relevância de
texto fonte completo para um dado tópico.– Categorização
• Criação de sumários genéricos• Determinar se estes sumários são efetivos na captura de qualquer
informação no documento fonte que permita corretamente categorizar este documento.
• Os dados usados são das TRECs.
Junho de 2002 SINTEF 14
DUC - Document Understanding Conference
• Início: 2001• Tarefas principais:
– Sumário individual: Produzir um resumo de 100 palavras para cada documento;
– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.
• Os dados utilizados vieram da TREC-9 (question-answering track).
Junho de 2002 SINTEF 15
Criação de Sumários por Humanos
400
200
10050
Documentos
Sumários individuais
Sumários coletivos
A B
C
D
E
F
A: Ler os documentos em papel.
B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento.
C: Criar um sumário de 400 palavras a partir de um conjuntode 10 documentos escritos na forma de um relatório paraum leitor adulto de jornais.
D,E,F: Recortar, colar e reformular para reduzir o tamanhodo sumário pela metade.
Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm
Junho de 2002 SINTEF 16
CLEF - Cross-Language Evaluation Forum
• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.
• Objetivos:– Auxiliar a avaliação de sistemas em recuperação translinguística de
informação (cross-language retrieval)– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação
monolíngue de informação (não baseada no Inglês).– Atrair mais participantes europeus para este tipo de tarefa de avaliação
• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)
• Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente.
Junho de 2002 SINTEF 17
ARC - Actions de Recherche Concertées
• Início: 1994• Possui 7 tarefas de controle organizadas como segue:
– Linguística, Informática e Corpora escritos (ILEC)• Recuperação de Informação• Alinhamento de corpus bi e multilíngues• Construção automática de terminologia e de relações semânticas a partir de corpora• Compreensão de textos
– Linguística, Informática e Corpora orais (ILOR)• Ditado vocal• Diálogo oral• Síntese de fala
• Cada tarefa de controle possui a mesma estrutura organizacional– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros
são os participantes, um ou mais fornecedores de corpus e os participantes.
Junho de 2002 SINTEF 18
GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation
• Início: 1995• Objetivos iniciais:
– Etiquetadores morfossintáticos para o francês;– Analisadores sintáticos para francês (abandonado)
• Corpus de treinamento– Tamanho em torno de 10 milhões de palavras;– Distribuido entre trabalhos literários e artigos jornalísticos.
Junho de 2002 SINTEF 19
Senseval/Romanseval
• Início: 1998• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito
a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas.• A meta do Romanseval é similar a do Senseval mas voltada para línguas
românicas (francês e italiano).• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco,
basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra
de textos.– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no
contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias.– Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma
outra língua.
Junho de 2002 SINTEF 20
Parseval
• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.
• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica.
• A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes.
• A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.
Junho de 2002 SINTEF 21
NTCIR - NII-NACSIS Test Collection for IR Systems
• Início: 1998• Projetado para fomentar a pesquisa em recuperação de
informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas.
• Fortemente baseada no modelo das TRECs• Tarefas:
– Recuperação de informação em textos em chinês.– Recuperação de informação em textos em japonês e inglês.– Sumarização de textos: sumarização de artigos japoneses de vários
tipos