From Bits to Information — Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University (Founder, CEO & Chief Scientist, RecomMind Inc., Berkeley & Rheinbach (!)) In Kollaboration mit : David Cohen, CMU & Burning Glass Jan Puzicha, UC Berkeley & RecomMind David Gondek & Ioannis Tsochantaridis, Brown University
59
Embed
From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
From Bits to Information —Maschinelle Lernverfahren in
Information Retrieval und Web MiningThomas HofmannDepartment of Computer ScienceBrown University(Founder, CEO & Chief Scientist,RecomMind Inc., Berkeley & Rheinbach (!))
In Kollaboration mit:
David Cohen, CMU & Burning GlassJan Puzicha, UC Berkeley & RecomMindDavid Gondek & Ioannis Tsochantaridis, Brown University
2University of Bonn, 17. Juli 2001
Vortragsüberblick
1. Einleitung2. Vektorraum-Modell für Textdokumente3. Informationstheoretisches Retrieval
Modell4. Probabilistic Latent Semantic Analysis5. Informationssuche und
Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext
UStrade
economic
development
Beijing
human rights
free imports
China
UStrade
economic
intellectual property
development
Beijinghuman rights
free
negotiations
imports
?
Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind.
Semantic model
Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt
18University of Bonn, 17. Juli 2001
Informationsquellen-Modell des Information Retrievals
Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage
)d(P)d|q(P)q|d(P A priori Relevanz-Wahrscheinlichkeit
Generatives Query Modell
• Wahrscheinlichkeit daß q von d „erzeugt wurde”
qw
)d|w(P)d|q(P
Sprach- modell
J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.
4. Probabilistic Latent Semantic Analysis
19
20University of Bonn, 17. Juli 2001
Probabilistic Latent Semantic Analysis
Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel!
Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen
Variablen) Faktoren Konzepten / Themengebieten
z
d)|P(zz)|P(wd)|P(w
(Topic) Faktor-“quellen”
DokumentspezifischeMischproportionen
Dokument-“quellen” Latente Variable
z (“small” #states)
T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999.Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.
z
)z(P)z|P(dz)|P(w)dP(w,
21University of Bonn, 17. Juli 2001
docu
men
tco
llect
ion
single documentin collection
word occurrences
in a document
pLSA: Graphisches Modell
z
wc(d)
P(w|d) P(w|z) P(z|d)z
colle
ctio
n
N
wc(d)
P(z|d)
z
N
wc(d)
P(z|d)
z
P(w|z)
N
wc(d)
P(z|d)
z
shared by all words in a document
shared by all documents in
collection
P(w|z)
Graphische Darstellung mittels „Plates”
22University of Bonn, 17. Juli 2001
pLSA: „Bottleneck“ Parametrisierung
Dokumente
Termed)|P(w
)1|W(||D|
23University of Bonn, 17. Juli 2001
pLSA: „Bottleneck“ Parametrisierung
Dokumente
TermeLatente Konzepte
d)|zP( )z|wP(
)1|Z(||D| )1|W(||Z| |}W||,Dmin{||Z|
24University of Bonn, 17. Juli 2001
pLSA: Positive Matrix-Zerlegung
Mischverteilung in Matrixnotation
CPPC~t
wd diag(P( ),..., P( ))z zK1
)z|dP()( kik,id P
)z|wP()( kjk,jw P
Randbedingungen (constraints) Nicht-negativität aller Matrizen
Normalisierung gemäß der L1-Norm
(keine Orthogonalität gefordert!)
T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999.D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.
z
)z(P)z|P(dz)|P(w)dP(w,
25University of Bonn, 17. Juli 2001
Singulärwert-Zerlegung, Definition
: orthonormale Spalten : Diagonal mit Singulärwerten (geordnet)
Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in
einer niederdimensionalen Approximation (im Sinne der Frobenius Norm)
Vergleich: SVD
VU,
tVUC = X Xn X m n X n n X n n X m
tˆˆ VUC = X Xn X m n X k k X k k X m
S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990
26University of Bonn, 17. Juli 2001
Expectation-Maximization-Algorithmus
Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen
E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen)
M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken”
d
),w,d|zP()w,d(c)z|wP(
Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird
w
) w, d| z P( ) w, d(c ) d| z P(
'z
))'z|wP()d|'zP(
)z|wP()d|zP()w,d|zP(
j,i z
ijijj,i
ijij )d|z(P)z|w(Plogcc~logcL
27University of Bonn, 17. Juli 2001
Beispiel: TDT1 News Stories
TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95)
Resultate basierend auf einer Zerlegung mit 128 Konzepten
2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter)
“love”
homefamilylikejustkidsmotherlifehappyfriendscnn
film moviemusicnewbesthollywoodloveactorentertainmentstar
Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen
qualitativ hoch- und niederwertigen Web-Sites/Seiten
40University of Bonn, 17. Juli 2001
Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite
PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers
Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“
Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt
Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)
41University of Bonn, 17. Juli 2001
HITS (Hyperlink Induced Topic Search)
HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten
unter Verwendung der Adjazenzmatrix des Kontextgraphen
(Lösung: Linke/rechte Eigenvektoren (SVD))
J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.
E)p,q(:p
)t(p
)1t(q
E)p,q(:q
)t(q
)t(p
xy
yxAuthority-Gewichte
Hub Gewichte
pq
…
…)t(qy )t(
px
qp
…
…)t(px )1t(
qy
42University of Bonn, 17. Juli 2001
Semantisches Modell des WWW
Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und
Themengebieten.
Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives
Modell für zusätzliche Links basierend auf vorhandenem Graph
Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses)
Basierend auf „Web communities” Probabilistische Version von HITS
43University of Bonn, 17. Juli 2001
Latente Web Communities
)z|s(P )z|t(P
z
)z|t(P)z|s(P)z(P)t,s(P
Probabilistisches Modell
Source Knoten Target Knoten
st
evtl. identisch
Web Community: dichter bipartiter Teilgraph
D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.
44University of Bonn, 17. Juli 2001
Dekomposition des Web-Graphen
Web Teilgraph Links gehören zu genau einer Web Community (im probab. Sinne)
Web Seiten können zu mehreren Communities gehören
Community 1
Community 2 Community 3
45University of Bonn, 17. Juli 2001
Linking Hyperlinks and Content
Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell
w
z
P(z|s)
P(w|z)
Konzept/Topic
P(t|z)
t
Web Community
46University of Bonn, 17. Juli 2001
“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!)
Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll
Vorhersagegenauigkeit
53University of Bonn, 17. Juli 2001
EachMovie Data Set (II)
Mittlere Absolute Abweichung
Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste
1.09
0.95 0.94
0.910.9
0.95
1
1.05
1.1
Baseline
Memory
PLSA, K=20
PLSA, K=200
26.95 27.89
44.64 45.98
0
10
20
30
40
50
Baseline
Memory
PLSA, K=20
PLSA, K=200
54University of Bonn, 17. Juli 2001
Interessengruppen, Each Movie
55University of Bonn, 17. Juli 2001
Des-Interessengruppen, Each Movie
7. Ausblick
56
57University of Bonn, 17. Juli 2001
Zusammenfassung
Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval
Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen
Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen
Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für
Information Portals
58University of Bonn, 17. Juli 2001
Laufende Forschungsprojekte
Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002]
Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003]
Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002]