Top Banner
Universidade Federal de Santa Catarina Programa de Pós-Graduação em Ciência da Computação Similaridade semântica entre instâncias de dados semi-estruturadas Rodrigo Gonçalves Orientador: Prof. Dr. Ronaldo dos Santos Mello Novembro de 2006
67

Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Feb 08, 2019

Download

Documents

phamdang
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Universidade Federal de Santa CatarinaPrograma de Pós-Graduação em Ciência da Computação

Similaridade semântica entre instâncias de dados semi-estruturadas

Rodrigo Gonçalves

Orientador: Prof. Dr. Ronaldo dos Santos Mello

Novembro de 2006

Page 2: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 3: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

1. O problema

2. Métricas

3. Objetivos

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 4: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Grande quantidade de informação

� Várias fontes disponíveis

� Informações duplicadas

� Integração

� Consolidar informações

� Facilitar o acesso à informação

� Etapas

Page 5: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Integração - etapas

0. Identificar as fontes de informação e tratá-las

1. Identificar dados equivalentes nas e entre as fontes

2. Integrar os dados� Quais dados integrar e como integrar?

Page 6: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Dados equivalentes

� Similaridade� Grau de semelhança� Métricas

� Diferentes domínios

� Dados semi-estruturados

� XML

� Desafios adicionais

Page 7: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� XML

� Padrão para troca de informações

� Adoção em larga escala

� Fontes de dados na WEB

� DBLP, Citeseer, Sigmod

� Representação de forma organizada e dinâmica das informações

� Não há padronização entre as fontes

Page 8: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� XML & Integração - Dificuldades

� Dinamismo do XML

� Estruturas distintas para representar a mesma informação

� Domínio

� Conceitos e representação das informações variam

Page 9: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação<livro ano=“1978”>

<autor>Rodrigo Gonçalves</autor>

<autor>Paulo Soares</autor>

<titulo>Similaridade</titulo>

</livro>

<livro>

<autores>Rodrigo Gonçalves, Paulo Soares</autores>

<titulo>Similaridade</titulo>

<publicacao>1978</publicacao>

</livro>

Page 10: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

<peca>

<autor>João Carlos</autor>

<titulo>Um conto de sábado</titulo>

</peca>

<apresentacao>

Um Conto de Sábado. João Carlos, 1990

</apresentação>

Page 11: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

1. O problema

2. Métricas

3. Objetivos

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 12: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Métricas� Determinam o grau de semelhança

� Um valor numérico

� Conforme a natureza dos dados

� Exemplos� Em Espaço Vetorial� Focadas em Strings� Voltadas para Árvores� Baseadas em séries temporais� Consideram freqüência de elementos

Page 13: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

1. O problema

2. Métricas

3. Objetivos

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 14: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Objetivo Geral da Dissertação

� Elaborar métricas para determinar a equivalência entre instâncias semi-estruturadas através da análise de suas estruturas e conteúdos.

� Foco em instâncias

� Conteúdo

Page 15: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Motivação

� Objetivos Específicos da Dissertação� Estabelecer métricas para a

determinação da similaridade entre instâncias XML

� Considerar a semântica das informações nos documentos comparados

� Possibilitar o uso de ontologias para auxiliar a comparação

� Buscar um processo automatizado

Page 16: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

2. Trabalhos relacionados

1. Taxonomia

2. Comparativo

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 17: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

� Organizam-se em quatro categorias básicas

� Conforme a natureza dos dados manipulados

1. Dados simples

2. Dados complexos

3. Comparação estrutural

4. Comparação completa

Page 18: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

� Categorias� Dados simples

� Valores atômicos

� Palavras, números, datas, etc.

� Suporte à métricas mais complexas

� Dados complexos� Compostos por dados simples e/ou dados

complexos

� Listas, coleções, tuplas

� Base dos documentos XML

Page 19: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

� Categorias

� Comparação estrutural

� Semelhança estrutural

� Documentos similares na apresentação

� Não considera-se o conteúdo

� Utilizado em clusterização de dados

Page 20: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

� Categorias

� Comparação completa

� Leva em conta a estrutura e o conteúdo dos documentos

� Documentos similares pela informação, não apenas pela forma

� Custo elevado

� Dependente da natureza dos dados

Page 21: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

2. Trabalhos relacionados

1. Taxonomia

2. Comparativo

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 22: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

EstruturaGrafos“Path shingle”

AmbosDocumentos XML“Detecting duplicate objects in XML documents”

Estrutura e/ou dadosGrafos“Similarity flooding”

AmbosDados estruturados“Meaningfull change detection in structured data”

EstruturaDocumentos XML“Evaluating structural similarity in XML documents”

EstruturaDocumentos XML“Detecting structural similarity between XML documents”

DadosObjetos complexos“Finding similar identities among objects from multiple WEB sources”

DadosFrases e blocos de texto“On the resemblance and containment of documents”

AmbosDados estruturados e semi-estruturados

“Measuring similarity between collections of values”

Considera estrutura e/ou

dados?FocoTrabalho

Page 23: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

ShinglesNão faz uso“Path shingle”

IDF, distância de edição

Não faz uso“Detecting duplicate objects in XML documents”

Similarity floodingNão faz uso“Similarity flooding”

Cobertura de arestasNão faz uso“Meaningfull change detection in structured data”

Séries temporaisNão faz uso“Evaluating structural similarity in XML documents”

Distância de edição entre árvores

Não faz uso“Detecting structural similarity between XML documents”

Espaço vetorialNão faz uso. Um fator de relevância pode ser associado aos atributos dos elementos.

“Finding similar identities among objects from multiple WEB sources”

Shingsem, shingconNão faz uso“On the resemblance and containment of documents”

tupleSim, listSim, setSim

Considera o tipo de estrutura (tupla, coleção, lista)

“Measuring similarity between collections of values”

MétricasUso de semânticaTrabalho

Page 24: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Trabalhos relacionados

Protótipo para experimentos“Path shingle”

Protótipo para experimentos“Detecting duplicate objects in XML documents”

Implementação e testes com usuários“Similarity flooding”

Implementação no projeto “Tsimmis and C³” na Universidade de Stanford

“Meaningfull change detection in structured data”

Protótipo para experimentos“Evaluating structural similarity in XML documents”

Protótipo para experimentos“Detecting structural similarity between XML documents”

Protótipo para experimentos“Finding similar identities among objects from multiple WEB sources”

Não apresenta“On the resemblance and containment of documents”

Protótipo para experimentos“Measuring similarity between collections of values”

Teste e validaçãoTrabalho

Page 25: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 26: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Proposta

� Definir métricas para comparação entre instâncias XML� Considerando estrutura e dados

� Buscando combinar e suprir as deficiências de trabalhos existentes� Semântica

� Uso de ontologias

� Automatização� Usuário especialista quase inexistente

� Adaptativa � Plugins

Page 27: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Proposta

� Definir métricas para comparação entre instâncias XML

� Priorizando a qualidade da comparação

� Focando em um ambiente de documentos e artigos científicos

� Bibliotecas digitais

Page 28: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Proposta

� Este trabalho faz parte de um projeto financiado pelo programa CNPq/CTInfo

� Projeto em convênio com o grupo de Banco de Dados da UFRGS

� Consiste de uma Plataforma de Editoração, Indexação e Busca Personalizada em Bibliotecas Digitais

Page 29: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Sumário

1. Motivação

2. Trabalhos relacionados

3. Proposta

4. Projeto

5. Atividades atuais e futuras

Page 30: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Abordagem adotada

� Trabalhos atuais

� Adotam abordagens que “generalizam” a comparação

� Não há uma preocupação com a semântica dos dados

� A performance da comparação é um dos fatores mais considerados

� Sugere-se uma abordagem mais procedural, baseada em heurísticas

Page 31: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Abordagem adotada� Dividir a comparação em várias etapas

� Um trabalho mais detalhado

� Permite considerar melhor a semântica dos dados

� Facilita uma abordagem adaptativa

� Cada etapa analisada de forma independente e em estágios� Várias abordagens por processo

Page 32: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

ProjetoInstância 1

Instância 2

ThesaurusMatcher

String SimilarityMatcher

Tags Renamer

Tags Relation Matcher

Tags Ontology Matcher

Tags MatchesElector

Tags MatchesChooser

Tags LexicalMatcher

Tags Extractor

Tags ContentMatcher

Tags Cleaner

Fim do processo

NovaInstância 1

Nova Instância 2

Page 33: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Etapas sugeridas

1. Preparação de nomes de elementos

2. Transformações nas estruturas das instâncias� Torná-las mais homogêneas

Page 34: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Etapas sugeridas

3. Cálculo da similaridade pontual� Comparação de elementos simples

� Atribuição de pesos

� Comparação de elementos complexos

4. Cálculo da similaridade global� Similaridade entre as instâncias analisadas

Page 35: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes de elementos� Tratamentos léxicos� Comparação� Escolha dos melhores representantes� Substituição nas estruturas originais

Page 36: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes de elementos� Tratamentos léxicos

� Remoção de caracteres especiais� Heurísticas para padronizar os nomes

� DataDeNascimento <-> Data de nascimento� Data_De_Nascimento <-> Data de nascimento� Remoção de numerais ao final de palavras� etc.

Page 37: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes de elementos� Comparação

� Métricas de similaridade para strings� Thesaurus� Ontologias� Conteúdo das instâncias (elementos

simples)

Page 38: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas<livro>

<autor>Rodrigo Gonçalves</autor><titulo>Similaridade entre documentos semi-estruturados - Uma nova abordagem</titulo><assuntos>

<assunto1>Similaridade</assunto1><assunto2>Inteligencia Artificial</assunto2><assunto3>Banco de dados</assunto3><assunto4>XML</assunto4>

</assuntos><publicacao>2006</publicacao><edicao>1</edicao>

</livro>

<obra><autor>

<nome>Rodrigo Gonçalves</nome></autor><titulo>

<principal>Similaridade entre documentos semi-estrurados</principal><secundario>Uma nova abordagem</secundario>

</titulo><assuntos>Similaridade, Inteligencia Artificial, XML</assuntos><publicacao>2007</publicacao>

</obra>

{livro, obra}{publicacao}

{autor}{titulo}

{assuntos, assunto}{edicao}

{primario}{secundario}

Page 39: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes de elementos� Escolha dos melhores representantes

� Dois ou mais nomes de elementos dados como equivalentes

� Ontologia / thesaurus ajudam a decidir qual o melhor

� Se não for possível, adota-se o exemplar do conjunto que mais assemelha-se aos demais na média

Page 40: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes dos elementos� Substituição nas estruturas originais

� Nomes substituídos pelos representantes escolhidos no passo anterior.

Page 41: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas<obra>

<autor>Rodrigo Gonçalves</autor><titulo>Similaridade entre documentos semi-estruturados - Uma nova abordagem</titulo><assunto>

<assunto>Similaridade</assunto><assunto>Inteligencia Artificial</assunto><assunto>Banco de dados</assunto><assunto>XML</assunto>

</assunto><publicacao>2006</publicacao><edicao>1</edicao>

</livro>

<obra><autor>

<nome>Rodrigo Gonçalves</nome></autor><titulo>

<principal>Similaridade entre documentos semi-estrurados</principal><secundario>Uma nova abordagem</secundario>

</titulo><assunto>Similaridade, Inteligencia Artificial, XML</assunto><publicacao>2007</publicacao>

</obra>

{obra}{publicacao}

{autor}{titulo}

{assuntos}{edicao}

{primario}{secundario}

Page 42: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

� Preparação dos nomes de elementos� Questões em aberto

� Métricas a utilizar para comparar strings

� Eficiência do processo

� Testes para validá-la

� Impacto do pré-processamento na qualidade da comparação

Page 43: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Transformações nas estruturas das instâncias� Deslocar atributos para subelementos

� Semânticamente indiferente� Reduz diferenças estruturais

Page 44: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Transformações nas estruturas das instâncias

� Compatibilizar estrutura dos elementos

� Elementos que são simples e complexos

� Elementos simples e listas

� Tornar o elemento simples complexo

� Análise do conteúdo dos elementos

� Semanticamente desejável

� Tornar o elemento complexo simples

Page 45: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Transformações nas estruturas das instâncias

� Extrair estruturas dos elementos

� Todos os exemplos existentes

� Agrupar as estruturas dos elementos de mesmo nome encontradas

Page 46: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Transformações nas estruturas das instâncias

� Com os subelementos não comuns entre as estruturas de um elemento

� Buscar casar pelos dados

� Transformar em listas

� Ignorar

� Plugins?

Page 47: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

<autor> <autor> <autor> <autor><nome> <nome> <nome> <nome><idade> <lingua> <editora> <pais><lingua> </autor> <lingua> <lingua><principalObra> </autor> </autor>

</autor>

<autor> <autor> <autor> <autor><nome> <nome> <nome> <nome><idade> <lingua> <editora> <pais><lingua> </autor> <lingua> <lingua><principalObra> </autor> </autor>

</autor>

<autor> <autor> <autor> <autor><nome> <nome> <nome> <nome><idade> <lingua> <editora> <pais><lingua> </autor> <lingua> <lingua><principalObra> </autor> </autor>

</autor>

<autor> <autor> <autor> <autor><nome> <nome> <nome> <nome><lista> <lingua> <lista> <lista><lingua> </autor> <lingua> <lingua>

</autor> </autor> </autor>

Page 48: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Transformações nas estruturas das instâncias

� Reestruturar as instâncias

� Com base nas transformações definidas nos passos anteriores

� Instâncias prontas para uma comparação dos dados

Page 49: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

<obra><autor>Rodrigo Gonçalves</autor><titulo>Similaridade entre documentos semi-estruturados - Uma nova abordagem</titulo><assunto>

<assunto>Similaridade</assunto><assunto>Inteligencia Artificial</assunto><assunto>Banco de dados</assunto><assunto>XML</assunto>

</assunto><publicacao>2006</publicacao><edicao>1</edicao>

</livro>

<obra><autor>

<nome>Rodrigo Gonçalves</nome></autor><titulo>

<principal>Similaridade entre documentos semi-estrurados</principal><secundario>Uma nova abordagem</secundario>

</titulo><assunto>Similaridade, Inteligencia Artificial, XML</assunto><publicacao>2007</publicacao>

</obra>

Page 50: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - Etapas

<obra><autor>Rodrigo Gonçalves</autor><titulo>Similaridade entre documentos semi-estruturados - Uma nova abordagem</titulo><assunto>Similaridade, Inteligencia Artificial, Banco de dados, XML</assunto><publicacao>2006</publicacao>

</obra>

<obra><autor>Rodrigo Gonçalves</autor><titulo>Similaridade entre documentos semi-estrurados | Uma nova abordagem</titulo><assunto>Similaridade, Inteligencia Artificial, XML</assunto><publicacao>2007</publicacao>

</obra>

Page 51: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Cálculo de similaridade pontual

� Atribuição de pesos aos elementos

� Importante para uma comparação que preza pelo aspecto semântico

� Critérios para definir os pesos individualmente e a interação entre os mesmos nas estruturas das instâncias.

� Plugins

Page 52: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Pesos dos elementos

� Diferentes formas de comparação

� Definem a importância dos elementos na comparação

� Esclarecem a “confiança” que têm-se nos elementos para definir a similaridade

� Várias heurísticas foram definidas para ajudar a definir o peso de um elemento

Page 53: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Pesos dos elementos

� Heurísticas

� Aspectos sintáticos e semânticos

� Combinação

� Melhor aproveitamento das informaçoes disponíveis

Page 54: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

Page 55: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

Page 56: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Pesos dos elementos

� Heurísticas

� Aspectos sintáticos considerados

� Posição dos elementos

� Freqüência dos elementos

� Forma de apresentar a informação

� Organização dos dados

� Elementos direta e indiretamente relacionados

� etc.

Page 57: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Pesos dos elementos

� Heurísticas

� Aspectos semânticos considerados

� Relacionados à ontologia do domínio adotada

� Características dos dados extraídas das instâncias analisadas.

Page 58: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto

� Pesos dos elementos

� Heurísticas

� Aspectos semânticos considerados

� Similaridade/existência dos elementos na ontologia

� Cardinalidades e importância

� Completude dos elementos

� Elementos que não estão faltando dados

� etc.

Page 59: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Cálculo de similaridade pontual

� Comparação de elementos simples

� Comparação dos dados

� Métricas para strings

� Heurísticas para identificação e tratamento de diferentes representações dos dados

� etc.

� Conforme o domínio dos dados

Page 60: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Cálculo de similaridade pontual

� Comparação de elementos complexos

� Não restringida pela estrutura

� Elementos em lugares distintos nas instâncias podem ser equivalentes

� Similaridade dos elementos complexos como resultado dos elementos simples que o compõe

� Aspectos estruturais devem influenciar no peso de seus componentes

Page 61: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Projeto - etapas

� Similaridade global

� Produto final do processo

� Considera

� Pesos definidos aos elementos

� Valores de similaridade encontrados

� Razão entre lembrança e precisão � Origem a diferentes valores de similaridade

Page 62: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Atividades atuais e futuras

� Implementação e testes do algorítimo.

� Etapa de tratamento de nomes implementada

� Etapa de transformações na estrutura jácom 60% da implementação feita

� Etapa de cálculo de similaridade sendo iniciada a implantação

Page 63: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Atividades atuais e futuras

� Ontologia

� Definição de qual ontologia será adotada

� Como a mesma será gerada/alimentada

� Que informações deverá conter para ser utilizada pelo processo de definição de pesos e para a comparação.

� Ontologia básica para o domínio literário desenvolvida

Page 64: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Atividades atuais e futuras

� Ontologia

Page 65: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Atividades atuais e futuras

� Estabelecimento das fórmulas e como será feito o cálculo que irá definir os pesos dos elementos.

� Fórmulas e cálculo da similaridade em vias de definição

� Aspectos levantados e algorítimo básico elaborado

� Testes para assegurar qualidade e validade

Page 66: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Atividades atuais e futuras

� Finalização da implementação e testes para obter dados para a preparação de artigos

� CaiSE'07

� XATA2007

� WWW2007

� Escrita do texto da dissertação

� Estrutura e corpo básico elaborados

Page 67: Universidade Federal de Santa Catarina Programa de Pós ... fileSimilaridade Grau de semelhança Métricas Diferentes domínios Dados semi-estruturados XML Desafios adicionais. Motivação

Referências

� http://www.inf.ufsc.br/~rodrigog/artigos/rg_erbd2006.pdf

� http://www.inf.ufsc.br/~rodrigog/artigos/SimilaritySurvey.pdf