1 Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet- Suchmaschinen Prof. Dr. Dirk Lewandowski [email protected]Programm heute • 14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag) – Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen – kurze Pause – Überblick Recherchemöglichkeiten • 16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen – Recherchieren in der Gruppe – Vorstellung der Recherchen im Plenum – Was Sie schon immer über Suchmaschinen wissen wollten...
23
Embed
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen
• 14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag)
– Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen – kurze Pause – Überblick Recherchemöglichkeiten
• 16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen – Recherchieren in der Gruppe – Vorstellung der Recherchen im Plenum – Was Sie schon immer über Suchmaschinen wissen wollten...
2
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
3
5 |
Bedeutung der Suchmaschinen
• Suchmaschinen sind der Zugang zu Informationen im Netz. – Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. – Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. – Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
Informationssysteme).
6 |
Suchmaschinenmarkt (D)
4
7 |
8 |
Suchmaschinen-Indizes
Suchmaschinen mit eigenem Index – Google, Yahoo, MSN (Live.com; Kumo?) – Ask – Exalead – Cuil
Ohne eigenen Index – Alle Portale: T-Online, Web.de, AOL, ... – „Klassiker“: Altavista, All the Web, ... – „Neue Suchmaschinen“: Wikia Search
5
9 |
Warum sind Alternativen notwendig?
• Qualität der Ergebnisse
• Vielfalt – „Zweite Meinung“
• Trefferpräsentation
• Nutzerbindung – Verknüpfung von Nutzungsdaten mit Nutzerprofilen
• Innovation
Alternativen
• Andere Universalsuchmaschinen
• Spezielle Kollektionen
• Spezialsuchmaschinen
• Kommerzielle Datenbanken
• Freie Datenbanken im Invisible Web
6
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
• Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.
• Nutzer sind meist mit ihren Suchergebnissen zufrieden.
• Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
(Machill et al. 2003)
7
13 |
Google groß
14 |
8
15 |
Shortcuts
16 |
Selektionsverhalten (Top11 Treffer)
(Granka et al. 2004)
9
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
18 |
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen
• Qualität des Index – Größe des Datenbestands, Abdeckung des Web – Abdeckung bestimmter Bereiche (Sprachräume, Länder) – Überschneidungen der Indices – Aktualität des Datenbestands
• Qualität der Suchresultate – Retrievaleffektivität – Zufriedenheit der Nutzer – Überschneidungen der (Top-)Ergebnisse
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
20 |
Web-Abdeckung
Keine Suchmaschine deckt das gesamte Web ab! – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. – Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
Milliarden Dokumente indexiert. – Wenig erforschter Bereich: Invisible Web.
Definitionen Invisible/Deep Web – “Text pages, files, or other often high-quality authoritative information available
via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001).
– “The deep Web - those pages do not exist until they are created dynamically as the result of a specific search“ (Bergman 2001).
11
21 |
Taxonomie der digitalen Online-Information
(Stock 2003)
22 |
Country Bias
12
23 |
Überschneidung der Datenbestände
• Überschneidung der Indices – Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.
• Überschneidung der Suchergebnisse – Sehr gering innerhalb der Top10, 20.
24 |
Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert.
13
25 |
Aktualität der Datenbestände
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
14
27 |
Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereiche
• Such-Sessions – Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)
werden angesehen. – In der Regel werden maximal fünf Dokumente angesehen. – Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde. Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern
angepasst werden?
• Zusammensetzung der Trefferlisten – Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten. Wie kann in der Evaluierung auf Facetten eingegangen werden?
• Interaktion – Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess
anzusehen. Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?
18
Welche Suchmaschinen sind wichtig?
Wie suchen Nutzer im Web?
Wie kann man die Qualität von Suchmaschinen messen?
Qualität des Index
Qualität der Treffer
Recherchemöglichkeiten
Gliederung
36 |
Katholisch? Evangelisch? Ja, was denn nun?
19
37 |
Neonazis informieren über schwarzen Bürgerrechtler
Grundlegende Suchfunktionen
• Boolesche Operatoren – Yahoo, MSN, Ask: vollständige Unterstützung. – Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,
Klammerung funktioniert nicht.
• Phrasensuche – funktioniert bei allen
• Abstandsoperatoren – nur bei Exalead
20
Suche über Felder
in der erweiterten Suche oder über Befehle
• Titel: – title:
• Dateityp: – filetype:
• URL: – inurl:
• bestimmter Server: – site:
• Land (über Top-Level-Domain) – site:
• Verlinkung: – link:
• Sprache
• Datum
40 |
Funktionsfähigkeit der Datumsbeschränkung
Quelle: Lewandowski 2004
21
41 |
Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)
Weitere Suchmöglichkeiten
• Ähnliche Seiten
• Cache Copies – Google, Yahoo, MSN – bei Ask teilweise
• Alte Versionen von Websites – Wayback Machine: www.archive.org