Top Banner
1 Corso di Web Mining & Retrieval Introduzione all’Information Retrieval (a.a. 2008-2009) Roberto Basili
39

Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

Feb 21, 2019

Download

Documents

phungthuy
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

1

Corso di

Web Mining & Retrieval

Introduzione all’Information Retrieval

(a.a. 2008-2009)

Roberto Basili

Page 2: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

2

Outline

• Accesso e Ricerca delle informazioni distribuite

• Il processo di base dell’IR

– Rilevanza

• Applicazioni dell’IR:

– Classification

– Inf. Filtering & Routing

– Text Clustering

– Inf. Extraction, Question Answering

• Web search

Page 3: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

3

Parte II: Information Retrieval

Introduzione

Page 4: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

4

Informazione Automatizzata

DATI TESTI IMMAGINI SUONI MULTIMEDIALI

Sw libraries

Basi di DatiBasi di

Conoscenza

Lettere Grafici

Immagini

Video

Video

Clips

Campioni Chioschi

Elettronici

Pubblicazioni

Multimediali

Internet

Portals

Web pages

Videotex

Interne

Esterne

Pub

bliche

Thesaura,

Ontologie

Blogs

Personal

Spaces

Page 5: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

5

Applicazioni

DATI TESTI IMMAGINI SUONI MULTIMEDIALI

Mid

wa

re P

rofe

ssiona

li Gestio

nali Te

cniche

Decisionali

OperativeControllo

Robotica

Misure

Commutazione

Gestione

Documentazione

Sistemi

di Supporto Individuale

Sound Editing

Hard Disk Recording

Telerilevamento

Controllo

Ambientale

Sistemi di

Pagamento Elettronico

Posta Elettronica Commercio Elettronico

BibliotecheDigitali

E-Government

CRM

KM

Page 6: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

6

Reperimento della Informazione

• Se la memorizzazione (mediante dispositivi di

memoria di massa) e’ massiva (testi, immagini,

suoni, …) si pone il problema di ricercare tale

informazione

• Il livello di astrazione consentito dai Sistemi

Operativi (File System) e’ solo un primo livello:

– e’ insufficiente in molti casi (ad es. anagrafica)

– non e’ ottimale (riguardo alla velocità della ricerca)

Page 7: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

7

Reperimento della Informazione

• Ricercare in generale significa

– definire i propri bisogni informativi

– memorizzare i risultati

– raffinare la propria selezione

• ridefinire i requisiti informativi

• “navigare” attraverso i dati trovati

• elaborare, cioè combinare i dati di diverse ricerche

Page 8: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

8

Reperimento della Informazione (IR):

Strumenti

• determinano (a priori) una strutturazione

dell’informazione da ricercare che

– rifletta il linguaggio di interrogazione

– rifletta la natura (cioe’ il contenuto) dei dati da

ricercare (vd. JPEG, BMP, WAV!!)

– faciliti le operazioni interne di ricerca

• forniscono un linguaggio per la definizione dei

bisogni informativi, detto linguaggio di

interrogazione (Query language)

Page 9: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

9

Tipico processo di IR

• Dati:

– Una collezione di documenti in linguaggio

naturale.

– Una interrogazione utente (in genere una

stringa di testo)

• Trovare:

– Un elenco ordinato di documenti rilevanti per

la interrogazione (l’ordinamento e’

decrescente)

Page 10: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

10

Sistema di IR

IR

System

Query

Documenti

Docs

ordinati

1. Doc1

2. Doc2

3. Doc3

.

.

Page 11: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

11

Rilevanza (Attinenza)

• La attinenza di un documento ad una

interrogazione (query) e’ soggettiva e dipende

da:

– appartenenza ad un campo semantico (soggetto)

– puntualità (essere recente ed al momento giusto)

– autorità (provenienza sicura)

– vicinanza agli obbiettivi dell’utente ed al suo

utilizzo dell’informazione

Page 12: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

12

Relevance

da Stefano Mizzaro, "Relevance: The Whole History“ in Journal of the

American Society of Information Science, volume 48, (9), 810-832, 1997,

URL ="citeseer.ist.psu.edu/mizzaro96relevance.html"

Page 13: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

13

Keyword (Parole chiave)

• Una keyword e’ costituita di una o piu’ parole

– rugby, Scozia, Italia

– 6 Nazioni, Istituto di Fisica Matematica

• Costituiscono la nozione piu’ semplice di

attinenza, i.e.

– Occorrenza letterale nel testo

• Unico compromesso:

– Le parole definite come keyword debbono apparire

frequentemente nel documento, indipendentemente

del loro ordine (bag of words).

Page 14: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

14

Limitazioni delle keywords

• (Silenzio) non vengono trovati documenti che

includano (solo) termini sinonimi

– “imposta” vs. “tassa”, “basket” vs. “pallacanestro”

– “Stati Uniti” vs. “USA”

• (Rumore) vengono ritrovati documenti che

includono termini ambigui

– “imposta” (finestra vs. tassa)

– “Apple” (company vs. frutta)

– “operare” (in mercato vs. chirurgia)

– “Jaguar” (macchina vs. software)

Ambiguità

Variabilità

Page 15: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

15

… oltre le keywords

• Le tecniche keyword-based e soprattutto …

• … estensioni e sviluppi recenti più espressivi

• Cenni alle implementazione di sistemi IR

• Modelli e metodi piuttosto che sistemistica

• Apprendimento automatico per il sostegno allo sviluppo su larga scala

• Legami con altre discipline: AI, SW e SE

Page 16: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

16

IR intelligente

• Rendere sensibile il sistema al significato delle

parole

– Es. imposta/tassa, imposta/finestra

• Considerare l’ordinamento delle parole della

interrogazione

– Es. computer science vs. science and computers

• Considerare l’utente sulla base di un “feedback”

esplicito o implicito

• Considerare informazioni sulla sorgente (ad es.

autorità/affidabilità delle fonti)

Page 17: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

17

Architettura di un sistema di IR

OPERAZIONI sul testo

Testo

ORDINAMENTODocs

Ordinati

OPERAZIONI

sulla Query

RICERCA

Documenti

Trovati

Query

Database

Testi

Database

Manager

User

Feedback

User

Need

INDICIZZAZIONE

INDICI

Inverted

file

INTERFACCIA Utente

Page 18: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

18

Sistemi di IR: Componenti

• Operazioni sui Testi

– Selezione degli indici.

– Rimozione delle Stopword

– Stemming/Lemmatizzazione

Page 19: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

19

Operazioni sui Testi.

Page 20: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

20

Sistemi di IR: Componenti (2)

• INDICIZZAZIONE

– Costruisce l’indice inverso:

parole riferimenti ai documenti

• RICERCA: trova i documenti che includono

un elemento della interrogazione (usando

l’indice inverso)

• ORDINAMENTO dei documenti trovati

secondo i valori di attinenza.

Page 21: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

21

Sistemi di IR: Componenti (3)

• Interfacce utente: gestiscono le interazioni

– Inserimento interrogazione e visualizzazione dei documenti.

– Relevance feedback.

– Visualizzazione dei risultati.

• Operazioni sulla Query: trasformano la query per migliorare le prestazioni:

– Espansione (Query expansion), per es. mediante un thesaurus.

– Trasformazione (pesatura) mediante relevance feedback.

Page 22: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

24

IR: Ulteriori task

• Categorizzazione Automatica di Documenti

• Information filtering (spam filtering)

• Information routing

• Document clustering

• Recommending information or products

• Information extraction and Summarisation

• Question answering

• Opinion Mining

Page 23: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

25

IR: Storia

• 1960-70’s:

– Esplorazione iniziale per piccole collezioni

(abstract scientifici, leggi e documenti

commerciali).

– Sviluppo del modello booleano di base e del

Vector-Space Model

– Salton et al. @ Cornell University

Page 24: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

26

IR: Storia (2)

• 1980’s:

– Database documentali di enormi dimensioni

– Alcuni gestiti da imprese:

• Lexis-Nexis

• MEDLINE

Page 25: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

27

IR: Storia

• 1990’s:

– Ricerca di documenti attraverso Internet (FTP)

• Archie

• WAIS

– Ricerca nel World Wide Web

• Lycos

• Yahoo

• Altavista

Page 26: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

28

IR: Storia

• 1990’s continued:

– Competizioni

• NIST TREC

– Sistemi di raccomandazione

• Amazon

• NetPerceptions (collaborative filering)

– Categorizzazione automatica di documenti e &

document clustering

Page 27: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

29

Storia Recente

• 2000’s

– Link analysis

• Google

– Information Extraction

• MUC conferences (80’s-90’s)

• Portali (WonderPort, Radiocor)

• Content Management (NetOWL, TREVI, NAMIC)

– Question Answering

• TREC Q/A track

Page 28: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

30

IR : Storia recente

• 2000’s:

– Multimedia IR

• Immagini

• Video

• Audio e music

– Cross-Language IR

• DARPA Tides

– Sommarizzazione di Documenti

Page 29: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

31

IR: Contiguita’ Disciplinare

• Database Management

• Library and Information Science

• Artificial Intelligence

• Natural Language Processing

• Machine Learning

Page 30: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

32

Database Management

• Focus su dati strutturati memorizzati in tabelle

relazionali non in testo libero.

• Focus su elaborazione efficiente di interrogazioni

in linguaggi formali non ambigui (SQL).

• Semantica chiara di dati ed interrogazioni.

• DB distribuiti: interoperabilità

• Trend verso dati semi-strutturati (XML) cioe’

verso problemi simili a quelli di IR/AI.

Page 31: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

33

Library and Information Science

• Focus sugli aspetti di utilizzabilità dell’IR (interazione uomo-macchina, interfacce e visualizzazione).

• Centralità della conoscenza umana (categorizzazione e accessibilità)

• Focus su bibliometria (e.g. citation analysis)

• Trend relativo alle digital librariesavvicina a CS e IR.

Page 32: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

34

Artificial Intelligence

• Focus sulla rappresentazione, gestione ed uso della conoscenza e sul ragionamento.

• Formalismi per rappresentare conoscenze ed interrogazioni :

– Logica dei predicati del primo ordine

– Reti bayesiane

• Semantic Web: ontologie e acceso all’informazione intelligente (interoperabilita’ semantica).

Page 33: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

35

Natural Language Processing

• Focus sul trattamento automatico della

lingua (analisi sintattica, semantica e

pragmatica nei testi e nel dialogo).

• Sintassi (cioè struttura sintagmatica dei

testi) e semantica come strumenti di

approssimazione del significato di un testo

Page 34: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

36

NLP: verso l’IR

• Word Sense Disambiguation

• Information Extraction

• Question Answering.

• NL Learning vs. Learning for IR

Page 35: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

37

Machine Learning

• Focus sullo sviluppo di sistemi software che migliorano le proprie prestazioni tramite l’esperienza.

• Classificazione Automatica mediante apprendimento supervisionato da esempi (supervised learning).

• Metodi automatici di clustering di documenti in classi significative (unsupervised learning for KM).

Page 36: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

38

Machine Learning:

direzioni verso l’IR

• Categorizzazione dei Testi

– Classificazione Automatica Gerarchica (es. Yahoo).

– Filtering/Routing/Reccomendation Adattivi

– Automated spam filtering.

• Clustering dei Testi

– Clustering dei risultatio di IR queries.

– Sviluppo automatico di gerarchie di classi (Yahoo).

• Appprendimento Automatico per l’Information Extraction

• Text Mining

• Analisi dei dati del Web 2.0 (Social Web Mining)

Page 37: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

Text Clustering: Vivisimo

39

Page 38: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

WSD

40

TOPICS

Page 39: Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

41

Sommario

• Perche’ l’IR è importante

• Cos’e’ l’IR

– Breve storia

• Come funziona un sistema generico di IR

• Cosa significa IR “intelligente”

• Quali sono le relazioni di questa tecnologia

con altre aree della CS