Top Banner
PUCRS CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima [email protected] [email protected]
25

PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

Apr 17, 2015

Download

Documents

Internet User
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

PUCRS

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Desenvolvimento e Avaliação de umaEstrutura Multitesauro para

Recuperação de Informações

Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima [email protected] [email protected]

Page 2: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Introdução

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

Recuperação de Informações

• Tesauro • Estrutura Multitesaural• Recuperação de Informações (RI)• Resultados obtidos

Page 3: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Tesauro?

"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)

Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento

Page 4: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Relações Semânticas da ISO 2788

• Relação de Equivalência – Sinonímia, Quase-sinonímia, Equivalentes Lexicais

• Computação USE Informática

• Relações Hierárquicas– Hiponímia (Narrower Term)

• Mamífero NT Leão

– Hiperonímia (Broader Term)• Leão BT Mamífero

• Relações Associativas– Termos Relacionados

• Passageiro RT Automóvel

Page 5: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Multitesauro

• LDPUCRS – Lista de descritores da Biblioteca Ir. José Otão – PUCRS;

• VCUSP– Vocabulário Controlado da USP – Tesauro em CDROM;

• VCBS– Vocabulário Controlado Básico do Senado;

• LTOCSS– Tesauro construído automaticamente através do corpus do NILC

da “Folha de São Paulo” do ano de 1994. – Relações obtidas por cálculo de similaridade sintática através das

técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001).

Page 6: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Características

• Tesauros LDPUCRS, VCUSP e VCBS: – São facilmente convertidos para a uma estrutura baseada na ISO

2788;– Apresentam informações que podem podem ser descartadas

• Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática

• Tesauro LTOCSS– Como os significados das relações não são conhecidos, elas são

associadas à relação RT da ISO 2788.– As relações semânticas apresentam uma medida de similaridade

entre os termos.

Page 7: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

LTOCSS

ISO 2788

<THESAURUS><TERM term=“Eletroeletrônicos”>

<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador” value=“0.99”/>

</TERM><NT term=“Videocassete”/>

</TERM><TERM term=“Videocassete”>

<SN>Utilize este termo quando for um aparelho

com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>

</TERM><TERM term=“Audiência”/>

</THESAURUS>

Estrutura Multitesauro

Page 8: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Recuperação de Informações

• Desenvolvimento de uma Heurística de Expansão de Consultas– Utilizar a estrutura em uma aplicação de RI;– Demonstrar que, através de uma estrutura padrão é

possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.

Page 9: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Expansão de consulta?

• A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.

DocumentosRelevantes

Termo A

Termo B

Termo C

Page 10: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.

O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.

O que é o QET?

Page 11: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Heurística de Expansão de Consultas

Acidente de Carro

Automóvel

UF (0.8)

Relação Semântica com pesos em [0,1)

Acidente de Trânsito

RT (0.2)

β = 0.8

β = 0.16

Direção Perigosa

RT (0.2)β = 0.032 < σ (0.1)

XXXXXXXXX

Page 12: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Heurística de Expansão de Consultas

Acidente de Carro

Automóvel

UF (0.8)

Acidente de Trânsito

RT (0.2)

β = 0.6

β = 0.16NT (0.6)

δ = 0.76 > λ (0.7)

Page 13: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Medidas de avaliação

• Precisão:

• Recall:

• F-Measure:

c

bP

Corpus

a cb

Documentos Relevantes

Documentos Recuperados

a

bR

RP

PRF

2

Page 14: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

• Testes em corpus– Corpus do NILC de artigos diversos da folha de São

Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.

– Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.

• Verificação manual de relevância.• Geração semi-automática de estatísticas.

– Marcação de relevância para 13 assuntos.

Avaliação

Page 15: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Definição dos pesos para as relações

Peso de RT altos diminuem a precisão

Peso de BT elevado aumenta o recall mas reduz a precisão

Page 16: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Ab

ran

nci

a

Consulta Original Consulta Expandida

Recall

Page 17: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Pre

cis

ão

Consulta Original Consulta Expandida

Precisão

Page 18: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Me

did

a-F

Consulta Original Consulta Expandida

F-Measure

Page 19: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Avaliação

• Médias das 13 consultas

Médias Precisão Recall F-Measure

Consulta Normal 0,4563 0,2336 0,3090

Consulta Expandida 0,3867 0,5247 0,4452

-15,25% +124,61% +44,08%

Page 20: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Considerações

• A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.

• O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.

Page 21: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Trabalhos Futuros

• Indexação e recuperação de documentos no QET;

• Utilizar outros tipos de tesauros construídos automaticamente;

• Descobrir melhores valores para os parâmetros da heurística;

Page 22: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

• O desenvolvimento da estrutura multitesauro;• A heurística utilizada na expansão de consulta

implementada na ferramenta QET.• Uma avaliação da utilização da estrutura na RI.

Foco do estudo

Page 23: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Agradecimentos

• Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS

• Conselho Nacional de Pesquisa Científica

• Departamento Técnico do Sistema Integrado de Bibliotecas da USP

• Subsecretaria de Biblioteca do Senado Federal

• Biblioteca Ir. José Otão da PUCRS

• Núcleo Interinstitucional de Lingüística Computacional

Page 24: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.

GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers. 1994. 305 p.

ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.

RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.

Referências

Page 25: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações.

PUCRS

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

Recuperação de Informações

Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima

[email protected] [email protected]

http://www.inf.pucrs.br/~pizzato