Top Banner
STaR: a Social Tag Recommender @ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09 Cataldo Musto mercoledì 16 settembre 2009
32

Seminario IBM - 17 set 09

Jan 15, 2015

Download

Technology

Cataldo Musto

Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppo
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

@ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09

Cataldo Musto

mercoledì 16 settembre 2009

Page 2: Seminario IBM - 17 set 09

ECML/PKDD Discovery Challenge 2009

• Discovery Challenge

• Competizione collaterale alla conferenza

• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation

• Dominio: www.bibsonomy.org

• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma

mercoledì 16 settembre 2009

Page 3: Seminario IBM - 17 set 09

Social Tagging• Nel contesto del Web 2.0 si sta assistendo a una

sempre maggiore diffusione dei sistemi di Tagging Collaborativo

• es) Flickr (www.flickr.com) , Delicious (http://del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc.

• Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale

• Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia

mercoledì 16 settembre 2009

Page 4: Seminario IBM - 17 set 09

Tag Cloud

mercoledì 16 settembre 2009

Page 5: Seminario IBM - 17 set 09

Folksonomie

• Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo

• Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione

• Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica

• Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione

• es) Oggetti annotati con il tag “Apple” o “Rinascimento”

mercoledì 16 settembre 2009

Page 6: Seminario IBM - 17 set 09

Tag Recommender

• Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa

• Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc.

• Modello di raccomandazione:

• Analisi del comportamento dell’utente

• Analisi del comportamento della comunità

• Analisi del contenutomercoledì 16 settembre 2009

Page 7: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

• Concetti chiave

• Risorse “simili” possono essere modellate con tag simili

• I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione

mercoledì 16 settembre 2009

Page 8: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

• Modello di raccomandazione

• Preprocessing

• Indicizzazione di contenuti precedentemente taggati

• Filtraggio

• Ritrovamento di contenuti “simili” a quello da taggare

• Estrazione delle folksonomie sulle risorse simili

• Fusione delle folksonomie e pesatura dei tag

• Ordinamento e filtraggio dei tag candidati

mercoledì 16 settembre 2009

Page 9: Seminario IBM - 17 set 09

Architettura

mercoledì 16 settembre 2009

Page 10: Seminario IBM - 17 set 09

Preprocessing• Indexer

• basato su Apache Lucene

• costruisce un indice personale per ciascun utente e un indice della comunità

• Query Processor

• si prende carico della risorsa da taggare

• processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.)

• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.)

• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità

mercoledì 16 settembre 2009

Page 11: Seminario IBM - 17 set 09

• Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25

• Interpretazione “probabilistica” del modello di pesatura TF/IDF

Scenario, step 1

mercoledì 16 settembre 2009

Page 12: Seminario IBM - 17 set 09

Architettura

mercoledì 16 settembre 2009

Page 13: Seminario IBM - 17 set 09

Filtering• Tag Extractor

• estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale

• fonde le folksonomie assegnando a ciascun tag uno score

• direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente

• pesato a seconda che il tag provenga dalla componente personale o sociale

• Filter

• filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni

mercoledì 16 settembre 2009

Page 14: Seminario IBM - 17 set 09

Scenario, step 2

mercoledì 16 settembre 2009

Page 15: Seminario IBM - 17 set 09

Discovery Challenge• Test Set

• sorgente: www.bibsonomy.org

• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti

• 48 ore per produrre i risultati

• Metriche di riferimento: Precision, Recall, F1-Measure

• calcolate sui primi cinque tag

• 16 diversi partecipanti

• 13 nazioni

mercoledì 16 settembre 2009

Page 16: Seminario IBM - 17 set 09

Risultati

http://www.kde.cs.uni-kassel.de/ws/dc09/results/mercoledì 16 settembre 2009

Page 17: Seminario IBM - 17 set 09

Conclusioni• Lo sviluppo di STaR è nato per scopi puramente didattici

• Confronto con gli altri partecipanti della Challenge

• Viaggio in Slovenia :)

• La validità del primo prototipo permette di delineare degli sviluppi futuri

• Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto.

• Applicazioni di STaR

• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali

• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente

• Migliore accuratezza in componenti di personalizzazione tag-based

• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori

mercoledì 16 settembre 2009

Page 18: Seminario IBM - 17 set 09

Recommender System e Personalizzazione

Sviluppi futuri

Cataldo Musto

mercoledì 16 settembre 2009

Page 19: Seminario IBM - 17 set 09

Sviluppi futuri

• Miglioramento dei modelli di filtraggio

• Utilizzo di Linked Data

• Analisi dei Social Media per la personalizzazione

• Interoperabilità di Profili Utente

mercoledì 16 settembre 2009

Page 20: Seminario IBM - 17 set 09

Miglioramento dei modelli di filtraggio

• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere

• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti

• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti

• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica)

• L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare

mercoledì 16 settembre 2009

Page 21: Seminario IBM - 17 set 09

Utilizzo di Linked Data

• Termine coniato da Tim Berners-Lee

• Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati

• Garantisce interoperabilità e reasoning tra dati

• L’esempio più importante è DBPedia

• Un piccolo passo verso il Semantic Web

mercoledì 16 settembre 2009

Page 22: Seminario IBM - 17 set 09

Linked Data

mercoledì 16 settembre 2009

Page 23: Seminario IBM - 17 set 09

Linked Data e Recommender Systems• Gli approcci più comuni alla raccomandazione sono legati

a interpretazioni di tipo probabilistico/frequentista

• es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo

• Problemi tipici: ridotta serendipità nelle raccomandazioni

• L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte

mercoledì 16 settembre 2009

Page 24: Seminario IBM - 17 set 09

Analisi dei Social Media

• L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio

• L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film)

• I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi

• La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche

mercoledì 16 settembre 2009

Page 25: Seminario IBM - 17 set 09

Analisi dei Social Media (2)

mercoledì 16 settembre 2009

Page 26: Seminario IBM - 17 set 09

Analisi dei Social Media (3)

mercoledì 16 settembre 2009

Page 27: Seminario IBM - 17 set 09

Analisi dei Social Media (4)

• I dati disponibili su queste piattaforme rappresentano un buon compromesso

• Sono dati reali, perchè prodotti liberamente dagli utenti

• Forniscono informazioni esplicite sulle preferenze

• Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide

mercoledì 16 settembre 2009

Page 28: Seminario IBM - 17 set 09

Interoperabilità tra profili utente

• I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale”

• Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti

• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio

• es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori

• Cross-Domain Personalization

mercoledì 16 settembre 2009

Page 29: Seminario IBM - 17 set 09

Cross-Domain Personalization

• Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID)

• L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni

• In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi

• Costruzione di profili analoghi

• Utilizzo di Standard per la Profilazione

mercoledì 16 settembre 2009

Page 30: Seminario IBM - 17 set 09

APML (www.apml.org)

• APML (www.apml.org)

• Attention Profiling Markup Language

• Linguaggio di modellazione XML-based

• Orientato alla costruzione di “profili di attenzione”

• Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete

• Molto utile per scopi di filtraggio e personalizzazione

mercoledì 16 settembre 2009

Page 31: Seminario IBM - 17 set 09

APML (www.apml.org)

mercoledì 16 settembre 2009

Page 32: Seminario IBM - 17 set 09

fine

mercoledì 16 settembre 2009