Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). Vorlesung Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2010/11 Semantic Web Technologien Blog zur Vorlesung: http://web-flakes.blogspot.com/
63
Embed
14 Semantische Suche - Semantic Web Technologien WS2010/11
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
VorlesungDr. Harald Sack
Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Wintersemester 2010/11
Semantic Web Technologien
Blog zur Vorlesung: http://web-flakes.blogspot.com/
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
2
Joseph Wright of Derby:The Alchymist, In Search of the Philosopher’s Stone, 1771
Linked
Data
&
Semant
ic Web
Applic
ations
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
3
Semantic Web Technologien
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4 1. Einführung
2. Semantic Web BasisarchitekturDie Sprachen des Semantic Web - Teil 1
3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2
4. Ontology Engineering
5. Linked Data und Semantic Web Anwendungen
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
5
Semant
ic
Search
Albrecht Dürer: Melancholia I, 1514
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.2.Semantische Suche
5.2.1.Klassisches Information Retrieval und Multimedia Retrieval
5.2.2.Semantisch unterstütztes Information Retrieval
5.2.3.Explorative Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
6
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
7
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Wie findet man etwas im WWW?
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
8
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Das ,Google-Dilemma‘
• Eingabe einer Suchphrase
• Boolesche Verknüpfung einzelner Suchbegriffe
• Volltextsuche
• Normalisierung (Stemming)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
9
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Das ,Google-Dilemma‘
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
10
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Das ,Google-Dilemma‘
• Erzeugung einer linearen (nach Relevanz
gewichteten) Ergebnisliste
• TFIDF / PageRank
• Personalisierung (Logdatenanalyse)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
11
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
“Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und
Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte
Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der
Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.”
(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)
Menge von Anfragen
informationrequests
Menge von Dokumenten
files of records
Indexierungs-sprache
similarityIndexierungAnfrage-
formulierung
Klassisches Information Retrieval
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
12
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Klassisches Information RetrievalInformationRetrieval
Bereitstellenvon
Informationen
Suchfunktionenund
Navigationsformen
Interne Wissens-repräsentationen
Verfahren derWissensrekonstruktion
Analyse/Modellierungder im Objektbereich
festgelegtenWissensobjekte
mit dem Zielberuht auf
durch Anwendung von durch Anwendung von
operieren überErgebnisse abgelegt alsAllgemeines Modell des Information Retrievalnach [Kuhlen 1995]
Informations-aufbereitung
Retrieval
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
13
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Information Retrieval Modelle
Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004.
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
14
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Information Retrieval Modelle
• Boolean Retrieval
• Vector Space Model
• Probabilistic ModelA B
C(A ∧ ¬B) ∧ C
•verwendet Aussagenlogik als Retrievalsprache•erlaubt Selektion und Verknüpfung beliebiger
Dokumentenmengen aus einer einer Dokumentenkollektion•mit Hilfe Boolescher Junktoren (Suchoperatoren) •einfache Implementierung•keine differenzierte Termgewichtung möglich•keine Rangreihenfolge der Ergebnisse (Ranking)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
15
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Information Retrieval Modelle
• Boolean Retrieval
• Vector Space Model
• Probabilistic Model
Deskriptor1
Deskriptor2
Deskriptor3
Dokument = (2,4,2)Suchabfrage = (1,0,0)
Dokument
Suchanfrage
2
2
4
Bsp.: n = 3
ρ
•Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert
•Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor verwendet
•Relevanzbewertung (Ranking) erfolgt nach der ermittelten Distanz
•Differenzierte Termgewichtung möglich• lineare Termanordnung im Dokument geht
verloren •mangelnde semantische Sensitivität
(Vokabularabhängigkeit)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
16
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Information Retrieval Modelle
• Boolean Retrieval
• Vector Space Model
• Probabilistic Model
• Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet
• IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab
Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988.
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
17
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Evaluation von Information Retrieval Systemen
relevante Dokumente gefundene Dokumente
relevante Dokumente, die gefunden wurden
R P
Recall=| R ∩ P |
|R|
Precision=| R ∩ P |
|P|
Text REtrieval Conference (TREC, seit 1992)veröffentlicht jährlich Challenges in unterschiedlichen Gebieten des Information Retrievals mit zugehörigen Testdaten
Suchmaschinen im WWW
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
18
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
• World Wide Web ist ein verteiltes Hypermediasystem
• multimediale Dokumente
• über Hyperlinks miteinander vernetzt
• WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben
• Erstellung und Pflege eines Indexes (Web Crawler + Indexing)
• Verarbeitung von Suchabfragen (Retrieval + Ranking)
• Aufbereitung der Ergebnisse (Visualisierung)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
19
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
34 Entity Mapping
Text: „Diego zu Bayern?“
Diego Ribas da Cunha
Determine possible Entity Mapping Candidates
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
Diego Kolumbus (Vizekönig)
Diego Kolumbus (Seefahrer)
Diego Alberto Milito
Diego von Österreich
Diego Giacometti
Diego Carlone
Diego Baldenweg
Diego Galeri
Diego Barreto
Diego Hypolito
Diego Morais Parcheco
Diego Hostettler
San Diego
Diego Maradonna
San Diego Mariners
USS San Diego
+ 200 mehr...
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
35 Entity Mapping
Text: „Diego zu Bayern?“
Determine possible Entity Mapping Candidates
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
We have to examine the Context...
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
36 Entity Mapping
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes (Begriffes) bzw. dessen Zusammenhang mit umgebenden Worten (Begriffen) gebildet.
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
37 Entity Mapping
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
Context Analysis
Diego zu Bayern?Ich will nicht den gleichen Fehler wie Klose machen!
Extract Text Data
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
38 Entity Mapping
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
Diego zu Bayern?Ich will nicht den gleichen Fehler wie Klose machen!
Determine Named Entities from Text
Diego
Bayern
Fehler
Klose
Create all possible Sets of Mapping Candidates
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
39Entity Mapping
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?
Diego Bayern Fehler Klose
Create all possible Sets of Mapping Candidates
Diego Ribas da Cunha
Diego Kolumbus (Vizekönig)
Diego Kolumbus (Seefahrer)
Diego Alberto Milito
Diego von Österreich
Diego Giacometti
Diego Carlone
Diego Baldenweg
Diego Galeri
Diego Barreto
Diego Hypolito
Diego Morais Parcheco
Diego Hostettler
San Diego
Diego Maradonna
San Diego Mariners
USS San Diego
BayernKönigreich Bayern
Herzogtum Bayern
F.C. Bayern München
FDP Bayern
SPD Bayern
Landtag Bayern
Maximilian I. von BayernAltbayern
Albrecht V. von BayernBayern (Volk)
Bayernliga
Fehler
Sytematischer Fehler
Menschlicher FehlerProgrammfehler
Messfehler
Erratum
Ausnahmebehandlung
Absoluter Fehler
Fehler 1. ArtRelativerFehler
Byzantinischer Fehler
Adolf Fehler
Logischer Fehler
Mittlerer Fehler
Adolf Klose
Miroslav Klose
Hans Helmut Klose
Sepp Klose
MargareteKlose
Bob Klose
Hans Klose
Oscar Klose
Josef Klose
Peter Klose
Walter Klose (Maler)
Senat Klose
Dennie Klose
Alfred Klose
Carl Klose
Hans-Ulrich Klose (CDU)
Wilhelm Klose
Kai Klose
Alfred Klose (Politologe)
Entity Mapping
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
40
5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?