DSC/CCT/UFCG 1 Inteligência Artificial Inteligência Artificial Recuperação da Informação Recuperação da Informação (Conceitos Básicos) (Conceitos Básicos) Prof. Prof. a a Joseana Macêdo Fechine Régis de Araújo Joseana Macêdo Fechine Régis de Araújo [email protected][email protected]Universidade Federal de Campina Grande Universidade Federal de Campina Grande Departamento de Sistemas e Computação Departamento de Sistemas e Computação Curso de Pós-Graduação em Ciência da Curso de Pós-Graduação em Ciência da Computação Computação
28
Embed
DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
DSC/CCT/UFCG
DSC/CCT/UFCG
1
Inteligência ArtificialInteligência Artificial
Recuperação da Informação Recuperação da Informação (Conceitos Básicos)(Conceitos Básicos)
Prof.Prof.aa Joseana Macêdo Fechine Régis de Araújo Joseana Macêdo Fechine Régis de Araújo
Universidade Federal de Campina GrandeUniversidade Federal de Campina Grande
Departamento de Sistemas e Computação Departamento de Sistemas e Computação
Curso de Pós-Graduação em Ciência da Curso de Pós-Graduação em Ciência da ComputaçãoComputação
2DSC/CCT/UFCGDSC/CCT/UFCG
2
Recuperação da Informação
Tópico
Conceitos Básicos e IA
3DSC/CCT/UFCGDSC/CCT/UFCG
Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário.
O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário.
Recuperação da Informação
4DSC/CCT/UFCGDSC/CCT/UFCG
SRI – Etapas Principais
Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação
Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados
5DSC/CCT/UFCGDSC/CCT/UFCG
SRI – Tarefas e Modelos
(FERNEDA, 2003)
6DSC/CCT/UFCGDSC/CCT/UFCG
Baseado na lógica booleana.
Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT.
Sua estratégia de recuperação é baseada no critério de decisão binária.
SRI – Modelo Booleano
7DSC/CCT/UFCGDSC/CCT/UFCG
(FERNEDA, 2003)
SRI – Modelo Booleano ...
8DSC/CCT/UFCGDSC/CCT/UFCG
Associa pesos aos termos de indexação e aos termos da expressão de busca.
O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca.
Cada elemento do vetor é normalizado para assumir valores entre 0 e 1.
Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos.
SRI – Modelo Vetorial
9DSC/CCT/UFCGDSC/CCT/UFCG
A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se:
SRI – Modelo Vetorial ...
10DSC/CCT/UFCGDSC/CCT/UFCG
Se for utilizada uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, tem-se a representação gráfica a seguir:
SRI – Modelo Vetorial ...
11DSC/CCT/UFCGDSC/CCT/UFCG
Grau de similaridade: cosseno do ângulo entre documentos ou entre consultas e documentos:
wi,x é o peso do i-ésimo elemento do vetor x e wi,y é o peso do i-ésimo elemento do vetor y.
SRI – Modelo Vetorial ...
12DSC/CCT/UFCGDSC/CCT/UFCG
SRI – Modelo Vetorial ...
13DSC/CCT/UFCGDSC/CCT/UFCG
SRI – Modelo Vetorial ...
Cálculo dos Pesos:
Método TF-IDF
Term Frequency (TF)- Frequência do termo no documento- Quanto maior, mais relevante é o termo para descrever o
documento Inverse Document Frequency (IDF)- Inverso da frequência do termo entre os documentos da
coleção- Termo que aparece em muitos documentos não é útil para
distinguir relevância
Peso associado ao termo tenta balancear os dois fatores
14DSC/CCT/UFCGDSC/CCT/UFCG
É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade.
Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%.
SRI – Modelo Vetorial ...
15DSC/CCT/UFCGDSC/CCT/UFCG
O Modelo Probabilístico representa o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta.
SRI – Modelo Probabilístico
16DSC/CCT/UFCGDSC/CCT/UFCG
Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos:
• o conjunto dos documentos relevantes (Rel)
• o conjunto dos documentos recuperados (Rec)
• o conjunto dos documentos relevantes e recuperados (RR) e
• o conjunto dos documentos não relevantes e não
recuperados.
SRI – Modelo Probabilístico ...
17DSC/CCT/UFCGDSC/CCT/UFCG
O resultado ideal de uma busca é o conjunto que contenha todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel.
SRI – Modelo Probabilístico ...
18DSC/CCT/UFCGDSC/CCT/UFCG
Após obter os resultados da primeira busca, é possível melhorar os resultados a partir de interações com o usuário.
Seja Rel o conjunto de documentos relevantes, e o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d).
lRe
SRI – Modelo Probabilístico ...
19DSC/CCT/UFCGDSC/CCT/UFCG
A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como:
SRI – Modelo Probabilístico ...
20DSC/CCT/UFCGDSC/CCT/UFCG
Sistemas Especialistas
Algoritmos Genéticos
Redes Neurais
SRI – Outros Modelos
21DSC/CCT/UFCGDSC/CCT/UFCG
A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto.
SRI – Sistemas Especialistas ...
Exemplo: Sistema IOTA
Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras.
Se duas palavras aparecerem próximas em vários documentos do corpus então elas possuem um certo relacionamento.
22DSC/CCT/UFCGDSC/CCT/UFCG
Exemplo: Sistema RUBRIC
Rule-Basic Retrieval of Information by Computer
O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto a partir da especificação e organização de conceitos na forma de uma rede de frames.
SRI – Sistemas Especialistas ...
23DSC/CCT/UFCGDSC/CCT/UFCG
Exemplo: Sistema RUBRIC
Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito.
Ex:
Se “recuperação” e “informação” então “recuperação de informação” (0.5)
Aparecendo as palavras”recuperação” e “informação” no mesmo documento, a probabilidade de se tratar de “recuperação de informação” é de 50%.
SRI – Sistemas Especialistas ...
24DSC/CCT/UFCGDSC/CCT/UFCG
As representações dos documentos podem ser vistas como um tipo de um “código genético”.
Nesse código genético um cromossomo é representado por um vetor binário, em que cada elemento armazena o valor 0 ou 1 (presença ou ausência de um determinado termo na representação do documento).
SRI – Algoritmos Genéticos
25DSC/CCT/UFCGDSC/CCT/UFCG
SRI – Algoritmos Genéticos ...
26DSC/CCT/UFCGDSC/CCT/UFCG
Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca a partir dos termos de indexação.
Essa organização pode ser comparada a uma estrutura de uma rede neural.
SRI – Redes Neurais
27DSC/CCT/UFCGDSC/CCT/UFCG
(FERNEDA, 2003)
Entrada da rede neuralSaída da rede neural
SRI – Redes Neurais ...
28DSC/CCT/UFCGDSC/CCT/UFCG
Recuperar informação implica operar seletivamente um estoque de informação, o que envolve processos cognitivos que dificilmente podem ser formalizados através de um algoritmo.
Mesmo que um modelo computacional de recuperação da informação tenha como base algum tipo de vocabulário e organização lógica, a equiparação dos significados supostamente implícitos depende de uma análise intelectual.