Top Banner
A.Kaiser; WU-Wie n 1 Information Retrieval Syst Suchverfahren im Web
67

A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Apr 06, 2015

Download

Documents

Cundrie Boerst
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 1

Information Retrieval Systeme

Suchverfahren im Web

Page 2: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 2

Information Retrieval Systeme

Komponenten eines IR-Systems

• Informationserschließung

• Informationswiedergewinnung (Retrieval)

• Informationsaufbereitung

Page 3: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker

Informationsmanagement I 3

Grundmodell: Information Retrieval

Texte

Match

Anfrage

Analyse

Ergebnis

1.Dok.62.Dok.83.Dok. 784.Dok.99

Repräsentationen

term1, term2,term3, term4...

Repräsentation

text text texttext text texttext text texttext text texttext text text

Page 4: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 4

Textmodellierung

Die Veranstaltungen aus MIS werden an der Wirtschaftsuni von zwei verschiedenen Abteilungen angeboten. Die Inhalte decken sich nur zu einem kleinen Prozentsatz

Veranstaltung

MIS

Wirtschaftsuni

verschiedene

Abteilungen

anbieten

Inhalte

decken

klein

Prozentsatz

Transfor-mation

Stoppwörter

Page 5: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 5

Informationserschließung

Ein Beispiel für eine Methode der Informa-tionserschließung ist der invertierte Index.

Erzeugung einer „Tabelle“, die in der 1.Spalte alle möglichen Suchbegriffe beinhaltet und in der 2.Spalte die Verweise auf diejenigen Dokumente (Adressen, etc.), die diese Suchbegriffe beinhalten.

Page 6: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 6

invertierter Index

Datenbank D1,D4,D7,D9

SQL D2,D4,D7,D8

Internet D5,D6,D7,D8,D9

Computer D3,D4,D9

Textverarbeitung D1

Berücksichtigung von Stoppwortlisten, d.s. Listen von Begriffen ohne Informationsgehalt (der, die, ...)

Vorteil: Massive Beschleunigung des Suchprozesses

Page 7: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 7

Informationserschließung

Indexierung

• Manuelle Indexierung

• Automatische Indexierung

• Computer-unterstützte Indexierung

Die Dokumente werden “aufbereitet”, um effizient nach Informationen suchen zu können.

Page 8: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme

8

Das Matching-Paradigma des klassischen IR

• Klassisches Boolesches Retrieval

• Benutzer drücken ihr Suchproblem in einer exakten Retrievalsprache aus

• Verbindung von Termen und Boolescher Logik

• search (mess? OR pruef?) AND laser

Page 9: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 9

Boolesche Logik

Term1

• AND, OR, NOT

Term2

Term3

Page 10: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme

10

Nachteile der Booleschen Systeme

• Disjunkte Unterteilung in relevant und nicht-relevant

• Erwünschter Umfang schwer kontrollierbar

• Benutzer haben Probleme mit der Booleschen Logik

• Visualisierbarkeit

Page 11: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme

11

Ranking-Systeme

• Anordnung des Ergebnisses in einer nach Relevanz sortierten Reihenfolge

• notwendige Voraussetzung: gewichtete Indexierung

• cut-off kann vom Benutzer bestimmt werden

Page 12: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 12

Grundprinzip Ranking

Einfacher Match Gewichteter MatchAnfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 1 (1 1 0 1 0 1 0) Dok. 1 (2 3 0 5 0 3 0)

(1 1 0 1 0 1 0)=4 (2 3 0 5 0 3 0)=13

Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 2 (1 0 1 1 0 0 1) Dok. 2 (2 0 4 5 0 0 1)

(1 0 0 1 0 0 1)=3 (2 0 0 5 0 0 1)=8

Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 3 (1 0 0 0 1 0 1) Dok. 3 (2 0 0 0 2 0 1)

(1 0 0 0 0 0 1)=2 (2 0 0 0 0 0 1)=3

human factors in informa-tion retrieval systems(1 1 0 1 0 1 1)

factors information help human operation retrieval systems

Index

Anfrage

human, factors, information, retrieval(1 1 0 1 0 1 0)

human, factors, help, systems(1 0 1 1 0 0 1)

Dok. 2

factors, operation, systems(1 0 0 0 1 0 1)

Dok. 3

Dok. 1

Page 13: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 13

Boolesche Beispielrecherche

• „Intelligentes Information Retrieval im Internet“

• 1.Anfrage Information Retrieval 12.345

• 2.Anfrage IR 20.811

• 3.Anfrage Intelligent 45.123

• 4.Anfrage 1 AND 3 421

• 5.Anfrage 4 AND Internet 61

Page 14: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 14

Suche in Ranking-Systemen

• Anfrage Gewicht D1 D2 D3

• Information Retrieval 5 x x x• Intelligent 5 x• Internet 1 x x

Gewicht 5 11 6

Anordnung: 1. D2 2.D3 3. D1

-

Page 15: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme

15

Vorteile von Ranking-Verfahren

• Die Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge

• Der Benutzer bestimmt den Abbruch selbst, d.h. keine Mengenprobleme

• Experimente zeigen bessere Retrieval-qualität (bereits für sehr einfache Verfahren) cf. Salton et al. 1983

Page 16: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme

16

Systemunterschiede

• Indexierungs- und Retrievalmodell

• Behandlung der Dokumente und Anfragen– Indexierungsvokabular– Gewichtung– Dokumentstruktur

• Ähnlichkeitsmaß

• Outputform: Ranking, Relevance Feedback

Page 17: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 17

Einsatz von IR-Systemen

• Literaturrecherche

• Suchmaschinen im Internet

• Suchverfahren im Multimediabereich

• ...

Page 18: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 18

Formatierte DBS vs IR-Systeme

formatierte DBS IR-Systeme

strukturierte, unformatierteformatierte Daten Daten

direkte Suche indirekte Suche

“Erfolg” ist objektiv “Erfolg” ist bestimmbar subjektiv (Nutzen)

Page 19: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 19

Ein konkretes Beispiel

XBIBSUCHE an der Abteilung für Informationswirtschaft:

Inhaltsverzeichnisse der Werke der Bibliotheken der Abteilung

Einscannen, Abspeichern als ASCII-DateiInformationserschließung mit GLIMPSEErzeugung eines invertierten IndexSuche über das WWW in allen Inhaltsverzeichnissen

Page 20: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 20

Xbibsuche

Die Adresse für Xbibsuche

http://wwwai.wu-wien.ac.at/~kaiser/xbibsuche/

Page 21: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 21

Suchverfahren im WWW

Page 22: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 22

Internet und WWW• Linearer Text - Hypertext - Multimedia

Hypermedia• World Wide Web: weltweit verteiltes

multimediales Informationssystem• HTTP (Hypertext Transfer Protocol)

– Connection - Request - Response - Close

• Caching: Zwischenspeicherung– Hauptspeicher/Platte - Proxy; Archivierung

• Client-Server Prinzip

Page 23: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 23

WWW vs. konventionelle, datenbankbasierte IS

• Verteilte Datenhaltung

• hohe Dynamik bezüglich neuer, entfernter und geänderter Inhalte

• heterogene Datenformate und unheitlich strukturierte Inhalte

• hohe Anzahl von Dokument-Dubletten

• gigantische Menge von Dokumenten

alle Eigenschaften erschweren die Suche und Lokalisierung von Infos im WWW

Page 24: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 24

Suchverfahren im WWW

• Suche in lokalen WWW-Servern

• Katalog- und verzeichnisbasierte Suche

• Roboterbasierte Suche

• Metasuchmaschinen

• Intelligente Agenten

Page 25: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 25

Suche in lokalen WWW-Servernund Datenbanken

• HTML

• Gateways zu Datenbanken– Literaturrecherche in Bibliotheken– ALEPH: österreichweiter Bibliotheksverbund– http://aleph.wu-wien.ac.at:4505/ALEPH– Web-Server (Oracle)

Page 26: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 26

Matching - Browsing

• Matching: Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden umschreiben, mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden.

• Browsing: (zielgerichtete) Navigation von einem Hyperlink zum anderen, so dass sich ein zurückgelegter Pfad von besuchten Seiten ergibt.

Page 27: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 27

Matching

• Matching: Vorgehensweise der klassischen Suchmaschine. Zwingt den Suchenden sein

Informationsproblem zu durchdenken und zu strukturieren

Suchender muß über Problemgebiet und Vokabular Bescheid wissen und auch wissen was sein/ihr Problem ist.

Page 28: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 28

Browsing• Browsing wird erst möglich mit dem Vorhanden-sein

von Hyperlinks. Ist das Suchverfahren in Katalogen– gerichtetes Browsing

– ungerichtetes Browsing

– assoziatives Browsing sukzessive Eingrenzung des Problembereichs, keine

exakte Beschreibung des Problembereichs notwendig weniger zielorientiert, oft aufwendig,

Risiko(? ) der Ablenkung

Page 29: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 29

Katalog- und verzeichnisbasierte Suche

• (manuell) aufgebaute Linksammlungen

• Navigation in hierarchisch aufgebauten Sachgebieten

• Eignen sich dann, wenn man zu einem bestimmten Gebiet einen (guten) Einstieg finden will.

• Yahoo, Dino, ...

Page 30: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 30

Kataloge

• Aufbau durch Betreiber (oftmals manuell)

• Anmelden eigener Webseiten durch Benutzer (Begutachtung und/oder Klassifikation durch Betreiber)

• Beispiel: VU (virtuelle Universität)

• http://vu.wu-wien.ac.at

Page 31: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 31

Kataloge

• Weitere Beispiele für Kataloge– Yahoo: http://yahoo.com– Dino: http://www.dino-online.de/– Euroseek:

http://www.euroseek.com/page?ilang=de– WWW Virtual Library:

http://vlib.org/Overview.html

Page 32: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 32

Portale vs. Kataloge

• Portale: Einstiegspunkt für den vereinfachten Zugang zu einer großen Menge an Informationen. Sie verwenden Informationsquellen und Suchwerkzeuge, den den wirtschaftlichen Interessen der Portal-Anbieter entsprechen (Suchmaschinen, Kataloge, Spezialsuchdienste, ...)

• Oftmals Möglichkeiten der Personalisierung = persönliche Anpassung der Seiten des Portals an Interessen und Präferenzen

Page 33: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 33

Portale

• Beispiele für Portale:– EXCITE: http://www.excite.de– NETSCAPE: http://my.netscape.de

Page 34: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 34

Roboterbasierte Suche / Suchmaschinen

• Roboter, Spider, Wanderer, Worm• rekursive Inhaltserschließung (über

Referenzen des gerade bearbeiteten Dokuments)

• Erschließung weiterer Dokumentformate (PDF, Word, Postscript, ...)

• Aufbau einer Indexdatenbank • “klassisches IR”

Page 35: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 35

Reichweite von Suchmaschinen

http://www.searchenginewatch.com

http://www.searchenginewatch.com/reports/sizes.html

Google (1,346,966.000 URLs),Alta Vista (350 Mio URLs), Excite (250 Mio URLs), HotBot (110 Mio URLs), Lycos (340 Mio URLs), WebCrawler (2 Mio URLs)

Page 36: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 36

Systemaufbau von Suchmaschinen

Page 37: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 37

Systemaufbau von Suchmaschinen

Page 38: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 38

Aufbau der Datenbank von Suchmaschinen

• bekannte WWW-Seiten (Startpunkt Kataloge, etc.)

• rekursive Erschließung

• explizit durch Benutzer

Page 39: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 39

Probleme beim Aufbau der DB

• WWW-Seiten mit Frames• Link-Bilder über CGI-Schnittstelle• Aktualisierung (neu erstellte / aktualisierte

Dokumente)• Nicht-verlinkte Dokumente• Zugriffsgeschützte Dokumente• Dynamische Dokumente• Geschützte Seiten nach dem Roboter-Exclusion-

Standard

Page 40: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 40

Indexierung von Dokumenten

• Oftmals unklar, Kernkompetenz der Anbieter

• Methoden des klassischen Information Retrievals– Wortextraktion mit mehrsprachigen Stoppwortlisten

– Position der Wörter

– Berechnung der Dokumentähnlichkeiten

– Funktion der Wörter (URL, Titel, Überschrift, Link, etc.)

– HTML-Elemente

– Verweisstrukturen

Page 41: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 41

Indexierung von Dokumenten

• Volltext-Indexierung– die gesamte HTML-Seite wird unter

Berücksichtigung von mehrsprachigen Stoppwortlisten indexiert

• Teilindex– nur ein Teil der Seite (meist URL, Titel,

Überschriften) werden indexiert

• Spezielle inhaltsbeschreibende Bereiche– META-Tags in HTML

Page 42: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 42

Anfragebearbeitung

• Verschiedene Suchmodi (einfache / erweiterte Suche)

• Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten

• Voreinstellungen werden tw. Über Buttons, Menüs und Listen ausgewählt

• Java-basierte Suchmasken (selten)

Page 43: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 43

Relevanzberechnung

• Anzahl gefundener Suchbegriffe• Position der gefundenen Begriffe• Statistische Häufigkeit des Begriffs innerhalb eines

Dokuments• Nähe der Suchbegriffe untereinander innerhalb des Textes• Gesamtanzahl eines Suchbegriffs in der Datenbank• Popularität eines Dokuments• Anzahl und Qualität von Hyperlinks, die auf ein

Dokument verweisen und von einem Dokument ausgehen.

Page 44: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 44

Suchmaschinen

Beispiele für Suchmaschinen

• Google: http://www.google.com

• Altavista: http://www.altavista.com

Page 45: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 45

Metasuchmaschinen

• Gleichzeitige Suche bei mehreren Suchmaschinen über ein einziges Suchformular

• Die verschiedenen Suchdienste werden vorgegeben, tw. auch Auswahlmöglichkeiten für Benutzer

• Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Anpassung der Anfrage an die Metamaschine auf die einzelnen Suchdienste wird vorgenommen.

• Die spezifischen Eigenschaften der einzelnen Suchdienste bleiben dem Benutzer verborgen

Page 46: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 46

Metasuchmaschinen• Metasuchmaschinen die Duplikate eliminieren und eine fusionierte

Relevanzbeurteilung vornehmen– entweder Weiterführen des Rankings im Ursprungssuchdienst oder

komplette Neubeurteilung der Relevanz basierend auf den Worthäufigkeiten der Suchbegriffe in Angaben wie Titel, URL, Kurzbeschreibung)

• Metasuchmaschinen die Duplikate eliminieren, aber keine fusionierte Relevanzbeurteilung vornehmen

• Problem: Ranking der gemischten Treffermenge• Treffermenge meist nach Suchdiensten gruppiert• Duplikateliminierung lediglich über URL-Vergleich

Page 47: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 47

Metasuchmaschinen

• Sequentielle Suche in mehreren Suchdiensten– Ausgabe erst nach der Befragung des letzten

Suchdienstes

• Parallele Suche in mehreren Suchdiensten– Ausgabe, sobald einer der befragten

Suchdienste die Anfrage abgearbeitet hat

Page 48: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 48

Metasuchmaschinen

Erspart das Laden der Homepages einzelner Suchdienste

Guter Überblick über unterschiedliche DiensteZeitersparnis und größerer DokumentenraumBeschränkung bei der Formulierung der Suchanfrage,

weil Syntax der einzelnen Maschinen unterschiedlich (vgl. Informationsbedürfnis und Informationsnachfrage)

Page 49: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 49

Metasuchmaschinen

Beispiele für Metasuchmaschinen• MetaGer

http://meta.rrzn.uni-hannover.de/• Highway 61

http://www.highway61.com/• Metacrawler

http://www.metacrawler.com/index.html

Page 50: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 50

Eigene Webseiten und Suchmaschinen

• Wichtiger Text im oberen Bereich• Schlüsselbegriffe im TITLE-Element und

Überschrift (ev.auch in der Adresse)• Keine Frames bzw. alternative Seiten zu

Frames• Regelmäßige Überprüfung der eigenen Seiten• Verwendung von Metatags in HTML

Page 51: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 51

Eigene Webseiten und Suchmaschinen

Hilfswerkzeuge

• Webmasterplan.comhttp://de.webmasterplan.com/

• Makemetophttp://makemetop.com/

• Searchenginecheck.comhttp://searchenginecheck.com/

Page 52: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 52

Vorgehensweise bei der Suche

1) „Klärung“ des Informationsbedarfs

2) Auswahl der „richtigen“ Suchbegriffe

3) Auswahl geeigneter Suchverfahren

4) Durchführung der Recherche

Page 53: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 53

Klärung des Informationsbedarfs

• Gesamtüberblick über ein Thema?– Wahrscheinlich geringe Vorinformationen– Ziel: hohe Anzahl gefundener Web-Seiten

• Detailinformationen – wahrscheinlich gewisse Vorkenntnisse

vorhanden– Ziel: hohe Anzahl relevanter Web-Seiten

Page 54: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 54

Auswahl der Suchbegriffe

• Sprache der Suchbegriffe (eine oder mehrere)

• spezielle und allgemeinere Suchbegriffe verwenden

• Synonyme zu den Suchbegriffen überlegen

Page 55: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 55

Auswahl der Suchverfahren

Informationsbedürfnis

Allgemeines Interesse

Überblick über Thema

Detailinformationenüber ein Thema(man kennt die

Suchbegriffe)

Suchverfahren

Surfen,spezielle Seiten mit aktuellen

und interessanten Links

Kataloge

Suchmaschinen, Datenbanken

Page 56: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 56

Intelligente Agenten

• Programme, die Aufträge eines Benutzers oder eines anderen Programmes ausführen und dabei Wissen über die Ziele und Wünsche des Benutzers anwenden

• vgl. Intelligentes IR, Letizia, etc.

Page 57: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 57

Intelligentes Information Retrieval

Page 58: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 58

Konventionelles vs intelligentes IR

Konventionelles IR

• Informationsbedürfnis kann vor Recherche klar definiert werden

• Benutzer weiß was er/sie will

• Informationsbedürfnis ändert sich nicht im Dialog mit dem IR-System

Intelligentes IR• Benutzer weiß nicht

genau nach welchen Informationen er/sie sucht

• Benutzer lernt im Dialog mit dem IR-System über Informationsbedürfnis dazu

Page 59: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 59

Intelligentes Information Retrieval

• vergleiche Vorgehensweise beim Erstellen einer Diagnose beim Arzt

• Weg um in Kooperation mit dem IR-System („=Arzt“), das wahre Informationsbedürfnis zu eruieren und die relevanten Informationen zu finden („=Therapie“)

• „Es sind (oft) nicht die Antworten die erhellen, sondern die Fragen

Page 60: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 60

Intelligentes Information Retrieval

• Ziel: Angleich bzw. Annäherung Informationsbedürfnis und Informationsbedarf

• unterschiedliche Ansätze um dieses Ziel zu erreichen– Computerunterstütztes Indexieren mit Relevance

Feedback– Fallbasiertes Schließen– Intelligente Agenten– ...

Page 61: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 61

Dynamischer Dokumentenraum - Ziele

– Eliminierung von falschen Deskriptoren– Dokumente, die als relevant eingestuft wurden,

sollen der Suchanfrage ähnlicher gemacht werden– Dokumente, die als nicht relevant eingestuft

wurden, sollen der Suchanfrage unähnlicher gemacht werden

– Anpassung des Dokumentenraums an die Sprachentwicklung

– Anpassung des Dokumentenraums an die Benutzer

Page 62: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 62

Prototypen

• Guided Information Exploration

• Letizia

Page 63: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 63

Guided Information Exploration

• System als Assistent der dem Anwender „über die Schultern schaut“, was er tut, welche Informationen er verarbeitet und welche Informationen er übergeht.

• Basierend auf diesen Informationen stellt das System Hypothesen über das Informationsbedürfnis des Anwenders auf.

• Retrieval von relevanten Informationen basierend auf den aufgestellten Hypothesen

• Kein explizites Relevance-Feedback sondern implizites Ableiten dieser wichtigen Informationen durch Interpretation der Anwender-Aktionen

Page 64: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 64

Guided Information Exploration

• Das System schätzt die Relevanz jedes Dokuments in Bezug auf die aufgestellten Hypothesen

• iterativer und dynamischer Aspekt von GIE

• Präsentation der durch GIE ''gefundenen'' Dokumente sollte ''unaufdringlich'' sein.

• Der Anwender soll nicht unnötig in seinem Suchprozeß unterbrochen werden. Trotzdem sollte es das Interface dem Benutzer erlauben sich die angebotenen Dokumente schnell durchzusehen um deren Relevanz beurteilen zu können.

• Implementation mit neuronalen Netzen

Page 65: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 65

Letizia

• Software-Agent der einen Anwender beim Browsing assistiert

• verfolgt die Gewohnheiten des Benutzers und versucht basierend auf den gewonnenen Erfahrungen jeweils ausgehend von der aktuellen Position des Benutzers, weitere passende Links selbständig zu finden.

• Suche nach Information ist cooperatives Unternehmen zwischen dem Anwender und einem intelligenten Software-Agenten

Page 66: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 66

Letizia

• Schnelleres Erkunden möglicher relevanter Informationsknoten.

• Orientierung an den ''Bewegungen'' des Anwenders• einfache Heuristiken• Verknüpfung von Konzepten des Information Retrievals• und des Information Filterings• Nutzung der Idle-Time• Anwendung dann, wenn sich der Anwender unsicher ist,

welchen Schritt er als nächstes setzen soll.

Page 67: A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

A.Kaiser; WU-Wien 67

Letizia

• http://lieber.www.media.mit.edu/people/ lieber/Lieberary/Letizia/Letizia.html