Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 14.12.2014 / 15.12.2013 / 5.12.2011
Jan 05, 2016
Evaluierung von Information Retrieval Systemen
Minimal Test Collection (MTC)- Verfahren
Karin Haenelt
14.12.2014 / 15.12.2013 / 5.12.2011
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
2© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
BeurteilungsmethodeMinimal Test Collection (MTC)
Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst
Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf
James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800
auch UMass-Verfahren genannt (University of Massachusetts Amherst)
3© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection Verfahren (MTC)Grundgedanken
Genaue Schätzung der Information Retrieval Evaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen
Eine neue Sicht auf die durchschnittliche Präzision (average precision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren
Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen
4© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
5© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Abkürzungen
6© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
A, B, C Dokumente s1, s2 System 1, System 2 s1(i) Rang von Dokument i in System 1 R Relevanz N Nichtrelevanz |R| Anzahl der relevanten Dokumente r Rang n Anzahl der Dokumente xi ∊ {0,1} boolescher Indikator für Relevanz von Dokument i i, k Laufvariabeln
Menge der beurteilten Dokumente (judged)
Beispiel für diese Folien
2 Systeme: System 1 (S1) und System 2 (S2)
3 Dokumente: A, B, C Ausgabelisten der beiden Systeme:
7© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System 1 System 2 Rang Dokument Relevanz Rang Dokument Relevanz 1 A N 1 C R 2 B R 2 A N 3 C R 3 B R
Beispiel für diese FolienÜbersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße
8© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
Rang prec@r SP AP Relevanz x1=0 x2=1 x3=1 1 x1=0 0/1 0 0 2 x2=1 0/2 1/2 1/2 + 1/2 3 x3=1 0/3 1/3 1/3 2/3 + 2/3 = 7/6
7/6 : 2 = 7/12
prec@r Precision auf Rang rSP sum precisionAP average precision
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
9© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Anforderungen an Information Retrieval-Evaluierungsmaße
Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten Das System setzt relevante Systeme auf die oberen Ränge
(precision) Das System findet viele relevante Dokumente (recall)
Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems
10© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Evaluierungsmaß: Präzision auf Rang r
11© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Rang Relevanz 1 N 2 R 3 R
Ausgabeliste
50.02
12@ precision
r
rrprecision
| Rangbis Dokumenterelevante|@
66.03
23@ precision
nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)
Evaluierungsmaß: Durchschnittliche Präzision(average precision – AP)
12© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Ausgabeliste
Rd
rprecR
AP @||
1
58.012
7
2
3/22/1
AP
Rang Relevanz precision 1 N 2 R 1/2 3 R 2/3
nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)
58.02/)66.050.0( AP
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
13© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Evaluierungsmaße: Präzision und durchschnittliche PräzisionDarstellung als Zufallsexperimente
Darstellung als Gleichungen über Bernoulli Experimente Xi für die Relevanz von Dokument i
xi Boolescher Indikator der Relevanz von Dokument i
14© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Rang Relevanz Wert der Zufallsvariablen Xi 1 N x1=0 2 R x2=1 3 R x3=1
Rang Relevanz Wert der Zufallsvariablen Xi 1 N x1=0 2 R x2=1 3 R x3=1
Evaluierungsmaß: PräzisionDarstellung als Zufallsexperiment
Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r ≤ t Ausgabe der binären Dokumentrelevanz auf diesem Rang Formel und Beispiel
15© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Ausgabeliste
3
2)110(
3
13@ prec
r
iix
rrprec
1
1@
nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)
Evaluierungsmaß: Durchschnittliche PräzisionDarstellung als Zufallsexperiment
16© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
xxxx ir
n
r
r
i
r
i
in
rr rRrR
AP
1 111
1
||
1
||
1
multipliziert mit
binäre Dokumentrelevanzauf Rang r
precision auf dem Rangder relevanten Dokumente
Darstellungen der Evaluierungsmaße
17© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
r
rbis RangDokumente relevante rprecision
| |@
Rd
rprecR
AP @||
1
50.02
12@ precision 58.0
12
7
2
3/22/1
AP
oder: 58.02/)66.050.0( AP
r
iix
rrprec
1
1@ xxxx ir
n
r
r
i
r
i
in
rr rRrR
AP
1 111
1
||
1
||
1
0)0(1
11@ prec
2
1)10(
2
12@ prec
3
2)110(
3
13@ prec
Standard
Zufallsexperiment
18© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Beispiel zu
r
i
in
rr rR
AP xx11||
1
r 1 2 3 i 1 1 2 1 2 3 xr x1 x2 x3 xi x1 x1 x2 x1 x2 x3
r
i
in
rr rR
AP xx11||
1
=
( + + + + + )
(
+
+
+
+
+
)
( 0 +
+
+
) =
Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1
Beispiel zu
19© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
r 1 2 3 i 1 1 2 1 2 3 xr x1 x2 x3 xi x1 x1 x2 x1 x2 x3
( + + + + + )
(
+
+
+
+
+
) =
xx ir
n
r
r
i rRAP
1 1
1
||
1
Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1
Precision auf Rang 1
Precision auf Rang 2 Precision auf Rang 3
Evaluierungsmaß: Durchschnittliche PräzisionFormel für beliebige Dokumentreihenfolge
für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten aij:
20© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
ij
jiij
n
i
xxaR
AP1
1
)}(),(max{
1
jrankirankaij
r
1
(Carterette, Allan, Sitamaran, 2006)
Beispiel Variante 1
21© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
)}(),(max{
1
||
1
1
jrankirank
RAP
a
xxa
ij
ji
n
i ijij
i = 1 2 3 j = 1 2 3 2 3 3 Rang (xi) 1 1 1 2 2 3 Rang(xj) 1 2 3 2 3 3
(
+
+
+
+
+
)
(
+
+
+
+
+
)
(
+
+
) =
Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1
Beispiel Variante 2
22© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
)}(),(max{
1
||
1
1
jrankirank
RAP
a
xxa
ij
ji
n
i ijij
Doc i Doc j max {rank(i), rank(j)} = Rang 1
max {rank(i), rank(j)} = Rang 2
max {rank(i), rank(j)} = Rang 3
*
x1 x1 1
* 0
x2 2
* 0
x3 3
* 0
x2 x2 2
* 1
x3 3
* 1
x3 x3 3
* 1
Rang Relevanz Xi 1 N x1=0 2 R x2=1 3 R x3=1
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
23© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection Verfahren (MTC)Ziele und Methode
Ziel vergleichende Evaluierung zweier oder mehrerer Systeme Durchführung eines Minimums an Relevanzbewertungen
Methode neue Sicht auf durchschnittliche Präzision (AP) ermöglicht
Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP
Abbruchkriterium für die Evaluierung Schätzung des Grades der Konfidenz auf der Basis einer
Verteilung möglicher Dokumentbeurteilungen
24© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection Verfahren (MTC)Grundstruktur des Dokumentselektionsalgorithmus
Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes1)
Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments
Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente
Wiederholung bis zum Erreichen der Abbruchbedingung
1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarage precision
25© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Carterette, Kanoulas, Yilmaz (2010:77/1)
Minimal Test Collection (MTC) MethodeDifferenz der durchschnittlichen Präzision zweier Systeme
26© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
)}(),(max{
1
||
1
1
jrankirank
RAP
a
xxa
ij
ji
n
i ijij
n
i ijjiij xxc
RAPAPAP
121
1
ijijij bac
Die Differenz der durchschnittlichen Präzision zweier Systeme ist
Die durchschnittliche Präzision eines Systems ist
Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen
Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen wenn das Dokument auf Rang 1 relevant ist, erhöht sich der
Beitrag jedes folgenden relevanten Dokuments wenn das Dokument auf Rang 1 nicht relevant ist, verringert
sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments
27© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen
Sei SP (sum precision) = AP ∙ |R| Wenn Dokument A relevant ist, ist sein
Gesamtbeitrag zu SP :1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden
Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3
Beurteilungen als „nicht relevant“ sind also informativ für AP
28© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System 1 Rang Dokument 1 A 2 B 3 C
Carterette, Kanoulas, Yilmaz (2010:93/1)
Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel
Angenommen, alle Dokumente gelten als nicht relevant
wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung:
29© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System 1 System 2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
x1: SP1 = 1/1, SP2 = 1/2 SP = 0.50 x2: SP1 = 1/2, SP2 = 1/3 SP = 0.16 x3: SP1 = 1/3,SP2 = 1/1 SP = -0.66
Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)
Rd
rrankprecSP )(@
nPräzisionederSummeSP
Rd
rrankprecR
AP )(@1
RAPSP
Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel
Angenommen, alle Dokumente gelten als relevant
wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung:
30© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System 1 System 2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010)
x1: SP1 = 1/2 + 2/3 SP2 = 1 + 2/3
SP = -0.50
x2: SP1 = 1 + 2/3 SP2 = 1 + 1
SP = -0.33
x3: SP1 = 1 + 1 SP2 = 1/2 + 2/3
SP = 0.83
Beurteilung vonDokument C hat den nächstgrößten Einfluss
Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP
31© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
⟵ ø
< 0 < ⟵ +
⟵ + +
⟵ ⟵ ⟵ ⟵
(Carterette, 2008:42)
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
32© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte
33© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
⟵ +
⟵ + +
Basis-Effekt
Zusammenwirkenmit beurteiltenDokumenten
zusätzliche Basis für nonrel-Gewichte 1)
1) zusätzliche Basis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: xk=0 zusätzliche Basis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: xk=1
(Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010)
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
34© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
Minimal Test Collection (MTC) Dokumentgewichte Start Detail wA
R, wBR, wC
R
35© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
wiR ⟵ cii
cii = aii - bii i doci cii =
-
ø wAR 1 A cAA =
-
ø wBR 2 B cBB =
-
ø wCR 3 C CCC =
-
System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
Minimal Test Collection (MTC) Dokumentgewichte Start Detail wA
N
36© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
wiN ⟵
cik = aik - bik i doci k dock cik =
-
ø wAN 1 A 1 A cAA =
-
cii
- + 0
1 A 2 B cAB +
-
1 A 3 C CAC +
-
(max {rank(A),rank(C)}in System s1) = 3 (max {rank(A),rank(C)}in System s2) = 2
Annahme, alle nicht-betrachteten Dokumente seien relevantBewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
37© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection (MTC)Selektionsalgorithmus Start
38© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
⟵ cii +
ø ⟵ cAA
ø ⟵ cBB
ø ⟵ cCC
Minimal Test Collection (MTC)Selektionsalgorithmus Start
39© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
System s1 System s2 Xi Dokument Dokument Xi x1 A C x3 x2 B A x1 x3 C B x2
⟵ cii + +
ø ⟵ cAA + - + cAB + cAC
ø ⟵ cBB + - + cBA + cBC
ø ⟵ cCC + - + cCA + cCB
Minimal Test Collection (MTC) Selektionsalgorithmus Start
40© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
wi = max {|wiR|, |wi
N|} = 0.83 i* = arg maxi wi = 3 (Dokument C) xi*= judgement on document i* (im Beispiel ist Dok C relevant) : x3 = 1
= ∪ i* = {3}
System s1 System s2 Xi Dokument Dokument Xi x1 A C + x3 x2 B A x1 x3 C + B x2
Minimal Test Collection (MTC)Selektionsalgorithmus 1.Iteration
41© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
⟵ cii +
{3} ⟵ cAA + cAC
{3} ⟵ cBB + cBC
- C als relevant beurteilt: x3 = 1- neue Dokumentgewichte für die übrigen Dokumente:
System s1 System s2 Xi Dokument Dokument Xi x1 A C + x3 x2 B A x1 x3 C + B x2
Minimal Test Collection (MTC)Selektionsalgorithmus 1.Iteration
42© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
- C als relevant beurteilt: x3 = 1- neue Dokumentgewichte für die übrigen Dokumente:
wN
⟵ cii + +
{3} ⟵ cAA + cAC + cAB
{3} ⟵ cBB + cBC + cBA
Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration
43© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
wi = max {|wiR|, |wi
N|} = 0.50 i* = arg maxi wi = 1 (Dokument A) xi*= judgement on document i* (im Beispiel ist Dok A nicht relevant) : x1 = 0
= ∪ i* = {1,3}
System s1 System s2 Xi Dokument Dokument Xi x1 A - C + x3 x2 B A - x1 x3 C + B x2
Minimal Test Collection (MTC)Selektionsalgorithmus 2.Iteration
44© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
⟵ cii +
{1,3} ⟵ cBB + cBC
- C als relevant beurteilt: x3 = 1- A als nicht-relevant beurteilt: x1 = 0- neue Dokumentgewichte für die übrigen Dokumente:
⟵ cii + +
{1,3} ⟵ cBB + cBC + -
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
45© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung
Abbruch: wenn feststeht, ob AP1 > AP2 oder umgekehrt
ein Dokument, das die Hypothese Δ AP > 0 unterstützt ist relevant und hat ein „positives Gewicht“ (d.h. es hat einen höheren Rang in
System 1) ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein
„negatives Gewicht“
46© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung
wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0
Sei S die Menge der beurteilten relevanten DokumenteT die Menge der unbeurteilten Dokumente,
dann ist ein hinreichendes Abbruchkriterium
47© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
LHS: Δ AP berechnet über beurteilte relevante Dokumente
RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung
48© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Carterette,Kanoulas,Yilmaz, 2010: S. 98a)
Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung
49© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
Carterette,Kanoulas,Yilmaz, 2010: S. 98b)
Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung
50© Karin Haenelt, Evaluierung von IR-Systemen: MTC 15.12.2013
Carterette,Kanoulas,Yilmaz, 2010: S. 99a
Dokument-Selektions-Algorithmus zum Nachweis von ΔSP
Minimal Test Collection (MTC) MethodeEin optimaler Algorithmus
Wir wollen jeweils das Dokument finden, das auf einer der beiden Seiten (LHS bzw. RHS) den größten Einfluss hat:
jedes Dokument erhält ein
das nächste zu beurteilende Dokument, ist das Dokument, das max {piwi
R,(1 - pi)wiN} , pi = P(xi = 1) maximiert
51© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Relevanzgewicht wiR Betrag, den Dokument i
(falls relevant) zu LHS hinzufügen würde
Nicht-Relevanzgewicht wiN Betrag, den Dokument i
(falls nicht relevant) von RHS abziehen würde
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeEin optimaler Algorithmus
Stand bevor ein Dokument beurteilt wurde LHS = 0 RHS Summe aller negativen Koeffizienten
Optimierungsziel Erhöhung der LHS durch Auffinden relevanter Dokumente Erniedrigung der RHS durch Auffinden nicht-relevanter
Dokumente
52© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
53© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection (MTC) MethodeKonfidenz
Betrachtung der Differenz der durchschnittlichen PräzisionΔ AP zwischen zwei Systemen s1 und s2
AP ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt
Ebenso ist Δ AP normalverteilt Normalverteilung ermöglicht Angabe einer Konfidenz für das
beim jeweiligen Fortschritt der Beurteilung erreichte Ergebnis
54© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeDurchschnittspräzision ist über alle möglichen Relevanzzuordnungen zu allen unbeurteilten Dokumente normalverteilt
Testbeispiel: 2 Ranglisten mit je 100 Dokumenten
erzeugt pi = P(xi = 1) auf .5 gesetzt
zufällig 5000 Mengen vonRelevanzbeurteilungen erzeugt
Δ AP für jede Menge von Relevanz-beurteilungen für die beiden Ranglistenberechnet
55© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeKonfidenz
75% Konfidenz, dass System A besser ist als System B bedeutet: die Wahrscheinlichkeit, dass die Bewertung der relativen Qualität der verglichenen Systeme sich ändert, wenn weitere Dokumente in die Beurteilung einbezogen werden, beträgt maximal 25%.
Berechnung der Konfidenz beruht auf einer Annahme der Wahrscheinlichkeit der Relevanz unbeurteilter Dokumente: jedes unbeurteilte Dokument ist mit gleicher Wahrscheinlichkeit relevant oder nicht relevant
56© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, 2007)
Minimal Test Collection (MTC) MethodeKumulative Dichtefunktion zum Auffinden von
Gegeben eine Menge von Relevanzbeurteilungen Verwendung der normalen kumulativen Dichtefunktion zum
Auffinden von Bei ergeben mindestens 95% der
möglichen Relevanzzuordnungen 95 % Konfidenz für die Folgerung
(Signifikanzniveau α = 0.05)
Neue Abbruchbedingung
Annahme: pi = 0.5 für unbeurteilte Dokumente
57© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014
)0( APP
)0( APP05.)0( APP
0AP0AP
(Carterette, Allan, Sitamaran, 2006)
Inhalt
Einführung des MTC-Verfahrens Vorbetrachtungen
Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision Darstellung von Präzision und durchschnittlicher Präzision als
Zufallsexperiment MTC-Verfahren, Spezifikation Erläuterung des Dokument-Selektionsalgorithmus
Formeln für die Dokumentgewichte Berechnung des (Nicht-)Relevanzeffekts eines Dokuments Tracing des Selektionsalgorithmus für das Folienbeispiel
Abbruchkriterium für den Algorithmus Konfidenz Evaluierungsergebnisse
58© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
Minimal Test Collection (MTC) MethodeTestsysteme
59© Karin Haenelt, Evaluierung von IR-Systemen: MTC 14.12.2014
(Carterette, Allan, Sitamaran, 2006)
• http://www.lemurproject.org/indri • http://www.lemurproject.org • http://lucene.apache.org • http://www.cs.mu.oz.au/mg • ftp://ftp.cs.cornell.edu/pub/smart • http://www.seg.rmit.edu.au/zettair
Minimal Test Collection (MTC) MethodeErgebnisse
60© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeErgebnisse
61© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Carterette, Allan, Sitamaran, 2006)
Minimal Test Collection (MTC) MethodeErgebnisse TREC 2007
Vergleich der Ergebnisse TREC-Standardmethode über Terabyte-Corpus MTC über MillionQueries-Corpus statMap über MillionQueries-Corpus
Übereinstimmung in der relativen Ordnung der Systeme statMap vermutlich bessere Schätzung der mean average
precision (MAP) MTC vermutlich ein korrektes Ranking der Systeme MTC bessere Konfidenz
62© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011
(Allan, Carterette, Aslam, Pavlu, Dachev, Kanoulas, 2007)
Literatur
James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, Blagovest Dachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800
Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst
Ben Carterette (2007). Robust Test Collections for Retrieval Evaluation. IN: Proceedings of SIGIR’07, July 23–27, 2007
Ben Carterette, Evangelos Kanoulas, Emine Yilmaz (2010). Low-Cost Evaluation in information Retrieval. Tutorial of the 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. http://ir.cis.udel.edu/SIGIR10tutorial/slides.pdf
Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR’06, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf
Eliah Ninyo, Keren Kenzi (o.J.). Minimal Test Collections for Retrieval Evaluation. B. Carterette et al. http://cs.haifa.ac.il/courses/infor/students/Minimal Test Collections for Retrieval Evaluation-Eli+Keren.ppt
63© Karin Haenelt, Evaluierung von IR-Systemen: MTC 5.12.2011