Top Banner
Vorlesung Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2011/12 Semantic Web Technologien Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/ Mittwoch, 25. Januar 12
82
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

VorlesungDr. Harald Sack

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Wintersemester 2011/12

Semantic Web Technologien

Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/

Mittwoch, 25. Januar 12

Page 2: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

2

Linked

Data

& Sema

ntic

Web Ap

plicat

ions

Semantic Web Technologien Wiederholung

Mittwoch, 25. Januar 12

Page 3: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

1. Einführung 2. Semantic Web Basisarchitektur

Die Sprachen des Semantic Web - Teil 1

3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2

4. Semantic Web Anwendungen

3

Semantic Web Technologien Vorlesungsinhalt

Mittwoch, 25. Januar 12

Page 4: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4

Semant

ic

Search

Albrecht Dürer: Melancholia I, 1514

Mittwoch, 25. Januar 12

Page 5: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer

Semantic Web Technologien Vorlesungsinhalt

Mittwoch, 25. Januar 12

Page 6: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

6

4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche

Mittwoch, 25. Januar 12

Page 7: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

7

Das ,Google-Dilemma‘Mittwoch, 25. Januar 12

Page 8: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

8

Das ,Google-Dilemma‘Mittwoch, 25. Januar 12

Page 9: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

9

• Erzeugung einer linearen (nach Relevanz gewichteten) Ergebnisliste

• TFIDF / PageRank

• Personalisierung (Logdatenanalyse)

• multimodale Ergebnisse

• Facetierung

Mittwoch, 25. Januar 12

Page 10: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

10

Klassisches Information Retrieval

(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)

Menge von Dokumenten

files of records

Menge von Anfragen

Information requests

Indexierungssprache

similarity

IndexierungAnfrage-formulierung

Mittwoch, 25. Januar 12

Page 11: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

11

Klassisches Information Retrieval

“Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und

Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte

Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der

Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.”

(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)

Menge von Anfragen

informationrequests

Menge von Dokumenten

files of records

Indexierungs-sprache

similarityIndexierungAnfrage-

formulierung

Mittwoch, 25. Januar 12

Page 12: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

12

Klassisches Information Retrieval(vereinfachte Variante....)

Menge von Dokumenten

Suchindex

SUCHEN, vb. , in allen ger n sprachen bezeugt: got.sokjan, ags. sēcan, as. sokian, an. Soekj

[Bd. 20, Sp. 835]

sēza, ahd. suohhan. aus idg. sprachen steht am nächsten lat. sāgiospüre, air. saigim gehe

einer sache nach, suche; zur weiteren verwandtschaft vgl. Walde-Pokorny 2, 449.

der umlaut des stammvokals erscheint im nd., er wird im md. verzeichnet vonCrecelius

oberhess. wb. 827; Spiess henneb. id. 248; Hertel Thüringen240; Gerbet Vogtland 425

und auf kolonialem boden bei Schröerdeutsche mundarten des ungrischen

berglandes 225. neben eigentlichem suchen 'einer sache

nachspüren, sich bemühen, sie aufzufinden' (dann auch 'jemanden

aufsuchen, ihn bedrohen, angreifen') steht eine reich bezeugte bedeutungsgruppe mehr

Schlüsselwörter

„Suchen“Suchterm(e) ?

Suchanfrage

Mittwoch, 25. Januar 12

Page 13: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

13

Klassisches Information Retrieval

InformationRetrieval

Bereitstellenvon

Informationen

Suchfunktionenund

Navigationsformen

Interne Wissens-repräsentationen

Verfahren derWissensrekonstruktion

Analyse/Modellierungder im Objektbereich

festgelegtenWissensobjekte

mit dem Zielberuht auf

durch Anwendung von durch Anwendung von

operieren überErgebnisse abgelegt alsAllgemeines Modell des Information Retrievalnach [Kuhlen 1995]

Informations-aufbereitung Retrieval

Mittwoch, 25. Januar 12

Page 14: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

14

Klassisches Information Retrieval

Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004.

Mittwoch, 25. Januar 12

Page 15: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

15

Information Retrieval Modelle

• Boolean Retrieval• Vector Space Model• Probabilistic Model

A B

C(A ∧ ¬B) ∧ C

• verwendet Aussagenlogik als Retrievalsprache• erlaubt Selektion und Verknüpfung beliebiger

Dokumentenmengen aus einer einer Dokumentenkollektion• mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung• keine differenzierte Termgewichtung möglich• keine Rangreihenfolge der Ergebnisse (Ranking)

Mittwoch, 25. Januar 12

Page 16: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

16

Information Retrieval Modelle

• Boolean Retrieval• Vector Space Model• Probabilistic Model

Deskriptor1

Deskriptor2

Deskriptor3

Dokument = (2,4,2)Suchabfrage = (1,0,0)

Dokument

Suchanfrage

2

2

4

Bsp.: n = 3

ρ

•Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert

•Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor verwendet

•Relevanzbewertung (Ranking) erfolgt nach der ermittelten Distanz

•Differenzierte Termgewichtung möglich•lineare Termanordnung im Dokument geht

verloren •mangelnde semantische Sensitivität

(Vokabularabhängigkeit)

Mittwoch, 25. Januar 12

Page 17: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

17

Information Retrieval Modelle• Boolean Retrieval• Vector Space Model• Probabilistic Model

• Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet

• IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab

Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988.

Mittwoch, 25. Januar 12

Page 18: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

18

Probabilistic Retrieval Modelle

Termgewichtungen für Terme ti bzgl. Suchanfrage

Für neues Dokument dm kann Relevanz bzgl. Suchanfrage mit Hilfe der Termgewichte bestimmt werden

Mittwoch, 25. Januar 12

Page 19: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

19

Evaluation von Information Retrieval Systemen

relevante Dokumente gefundene Dokumente

relevante Dokumente, die gefunden wurden

RP

Recall=| R ∩ P |

|R|

Precision=| R ∩ P |

|P|

Recall: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit aller positiven Dokumente (Trefferquote)Precision: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit der als positiv klassifizierten Dokumente (Genauigkeit)F-Measure: gewichtetes harmonisches Mittel aus Trefferquote und Genauigkeit

Fα=(1+α)⋅(Recall ⋅ Precision )

α⋅(Recall + Precision )

Mittwoch, 25. Januar 12

Page 20: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

20

Suchmaschinen im WWW

• World Wide Web ist ein verteiltes Hypermediasystem• multimediale Dokumente• über Hyperlinks miteinander

vernetzt

• WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben• Erstellung und Pflege eines Indexes

(Web Crawler + Indexing)• Verarbeitung von Suchabfragen (Retrieval + Ranking)• Aufbereitung der Ergebnisse (Visualisierung)

Mittwoch, 25. Januar 12

Page 21: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

21

URL Liste

http://www.xxxx.de/1234...http://www.xxxx.de/2234...http://www.xxxx.de/3234...http://www.xxxx.de/4234...http://www.xxxx.de/5234...http://www.xxxx.de/6234...http://www.xxxx.de/7234......

<a href=“...“ .../>

<a href=“...“ .../>

HTMLDokumente

WWW-ServerHTTP Request

WWW-Server liefert angefragteHTML-Dokumente an denWeb-Crawler zurück

1

2

3

4

Web-Crawler (Web Robot)

Mittwoch, 25. Januar 12

Page 22: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

22

Datennormalisierung

Web Crawler

Datenanalyseund Anlegender Index-

Datenstrukturen

Preprocessing und IndexierungSuchmaschinen im WWW

Wortidentifikation

Sprachidentifikation

Word Stemming

POS-Tagging

Deskriptorengenerierung

Mittwoch, 25. Januar 12

Page 23: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

23

Effiziente IndexdatenstrukturenSuchmaschinen im WWW

Aachen

Altavista

Ananas

……

Zustand

Zypern

Indexdatei

AnanasDocID Pos Frequenz Gewicht

D123 1;13;77;132 4 9.4D456 22;38 2 6.7 … … … …D998 15 1 1.2

Location List D123Frequenz URL <H1> … <H6> <title> … text

4 1 1 0 1 … 1

D123 http://producers.ananas.org/index.htm

<html><head><title=“Ananas around the World“></head><body> … </body></html>

Invertierte Datei

Direkte DateiMittwoch, 25. Januar 12

Page 24: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

24

Relevanzbewertung (Ranking)Suchmaschinen im WWW

• Linkpopularität (Google PageRank)

A

1.0

D

1.0

B

1.0

C

1.0

Ausgangssituation

Nr. PR(A) PR(B) PR(C) PR(D)1 1,0 1,0 1,0 1,02 1,0 0,575 2,275 0,153 2,083 0,575 1,191

20,15

… … … … …n 1,49 0,7833 1,577 0,15

Iteration der PageRank Berechnung A

1.49

D

0,15

B

0,78

C

1.57

resultierender PageRank

Mittwoch, 25. Januar 12

Page 25: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

25

Aber...Das WWW ist ziemlich groß

•ca. 25 x 109 in Suchmaschinen indizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005)

•Web Crawler: > 1012 Dokumente(The Official Google Blog: We knew the Web was Big....., Juli 25, 2008)

•Google Search Index Caffeine umfasst ca.100 Million Gigabytes i.e. 1017 Byte (SMX Video: Google’s Matt Cutts On Caffeine Launch, June 9, 2010,http://searchengineland.com/smx-video-googles-matt-cutts-on-caffeine-launch-43933)

•DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001)

Mittwoch, 25. Januar 12

Page 26: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

26

und damit nicht genug...

Mittwoch, 25. Januar 12

Page 27: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Problemfeld Informationssuche

Mittwoch, 25. Januar 12

Page 28: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

28

Problemfeld Informationsextraktion

Mittwoch, 25. Januar 12

Page 29: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

29

4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche

Mittwoch, 25. Januar 12

Page 30: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

30

Google und MultimediasucheMittwoch, 25. Januar 12

Page 31: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

31

How does Google find Multimedia?Mittwoch, 25. Januar 12

Page 32: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12

Page 33: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

...<a href="/mission_pages/shuttle/shuttlemissions/sts134/multimedia/index.html">

<IMG WIDTH="100" ALT="Close-up view of Endeavour's crew cabin prior to docking with the International Space Station" TITLE="Close-up view of Endeavour's crew cabin prior to docking with the International Space Station" SRC="/images/content/549665main_2011-05-18_1600_100-75.jpg" HEIGHT="75" ALIGN="Bottom" BORDER="0" /></a><p><a href="/mission_pages/shuttle/shuttlemissions/sts134/multimedia/index.html">&rsaquo;&nbsp;STS-134 Multimedia</a></p>

...

‣Google Multimedia Search relies on link context

How does Google find Multimedia?

Mittwoch, 25. Januar 12

Page 34: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

Google Image Searchmakes use of visual similarity

Mittwoch, 25. Januar 12

Page 35: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

How to Search in Multimedia Archives?

Mittwoch, 25. Januar 12

Page 36: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

Step 1: Digitalization of analog data

Step 2: Annotation with (text based) metadata

How to Search in Multimedia Archives?

Step 3: Content based search on textual metadata

Mittwoch, 25. Januar 12

Page 37: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

How to Search in Multimedia Archives?• manual annotation with text based

descriptive metadata

...how to extract metadatain an automated way?

Mittwoch, 25. Januar 12

Page 38: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

Automated Audiovisual Analysis

Face DetectionIdentification

TrackingClustering

overlay text

Logo Detection

VisualConcept Analysis

Classification:StudioIndoorPerson

News Show

scenetext

Audio-Mining

structuralanalysis

AutomatedSpeech

Recognitionspeaker

identification

Mittwoch, 25. Januar 12

Page 39: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

• Result: Multimedia data with spatiotemporal Annotations

Metadata (e.g. MPEG-7) ... <Video> <TemporalDecomposition> <VideoSegment> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <MediaTime> <MediaTimePoint> T00:05:05:0F25 </MediaTimePoint> <MediaDuration> PT00H00M31S0N25F </MediaDuration> </MediaTime> ... </VideoSegment> </TemporalDecomposition> </Video> ...

time

Automated Audiovisual Analysis

Mittwoch, 25. Januar 12

Page 40: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

Automated Audiovisual Analysis

Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...

• Result: Multimedia data with spatiotemporal Annotations

Mittwoch, 25. Januar 12

Page 41: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12

Page 42: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

But what about semantic metadata..?

... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...

Mittwoch, 25. Januar 12

Page 43: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4242 42 4224424242 42 424243

4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche

Mittwoch, 25. Januar 12

Page 44: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

44

BegriffsbestimmungSemantische Suche

4242244242 • Verknüpfung von (textuellen) Metadaten mit semantischen Entitäten

• Entitätenzentriertes Information Retrieval• Ausnutzung von semantischen Relationen, wie z.B.

inhaltliche Ähnlichkeiten bzw. Verwandschaften• Interoperable Metadaten durch Semantik• zur inhaltlichen Beschreibung• zur struturellen/technischen Beschreibung

(Multimedia Ontologien)

• Ziel: quantitative und qualitative Verbesserung der im Information Retrieval erzielten Suchergebnisse

Mittwoch, 25. Januar 12

Page 45: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

• MPEG-7 has been re-engineered to become an OWL-DL ontology (2007: Arndt et al., COMM model)

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

45

Multimedia OntologienSemantische Metadaten

4242244242

• Localize a region → Draw a bounding box

• Annotate the content → Interpret the content → Tag ,Astronaut‘

Mittwoch, 25. Januar 12

Page 46: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

46

Multimedia OntologienSemantische Metadaten

Example: Tagging with an MPEG-7 Ontology

Reg1

mpeg7:image

mpeg7:depicts

Man on the Moon

mpeg7:spatial_decomposition Reg1

mpeg7:StillRegion

rdf:type

mpeg7:depicts

dbpedia:Astronaut

mpeg7:SpatialMask

mpeg7:polygon

mpeg7:Coords

Mittwoch, 25. Januar 12

Page 47: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

47

Named Entity Recognition

Astronaut Person

Neil Armstrong

Science Occupation

Employment

is a is a

is a

is a

Entities

Classes

Named Entity Recognition„locating and classifying atomic elements...intopredefined categories such as names, persons, organizations, locations, expressions of time,quantities, monetary values, etc.“C.J.Rijsbergen, Information Retrieval (1979)

Mittwoch, 25. Januar 12

Page 48: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

48

Named Entity Recognition

Astronaut Person

Neil Armstrong

Science Occupation

Employment

is a is a

is a

is a

Mittwoch, 25. Januar 12

Page 49: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

49

Semantic Multimedia Retrieval

Video Analysis /Metadata Extraction

timemetadata

metadatametadata

metadatametadata

e.g., person xylocation yzevent abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Entity Recognition/ Mapping

Mittwoch, 25. Januar 12

Page 50: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

50

Named Entity Recognition

Astronaut Person

Neil Armstrong

Science Occupation

Employment

is a is a

is a

is a

„Armstrong betrat als erster Mensch den Mond.“ Text

Entity Mapping

Mittwoch, 25. Januar 12

Page 51: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

51

Astronaut

Named Entity Recognition

Person

Neil Armstrong

Science Occupation

Employment

is a is a

is a

is a

Text

rdfs:label Neil Armstrong

rdf:type dbpedia-owl:Astronaut

rdf:type foaf:Person

Mittwoch, 25. Januar 12

Page 52: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

52

Named Entity Recognition

Text

http://dbpedia.org/resource/Neil_Armstrong

„Armstrong betrat als erster Mensch den Mond.“ Text

Entity Mapping

Aber wie finde ich die passende Entität ?

Mittwoch, 25. Januar 12

Page 53: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

53

Named Entity Recognition

Text

„Armstrong betrat als erster Mensch den Mond.“ Text

Armstrong, Florida

Determine possible Entity Mapping Candidates

Aber wie finde ich die passende Entität ?

Armstrong, Ontario

Armstrong County, Texas

Armstrong Tunnel

Louis Armstrong

Armstrong Tools

Armstrong (Mondkrater)

Armstrong (Automobile)

The Armstrongs

Craig Armstrong

Anton Armstrong

Edward Armstrong

Gary Armstrong

George Armstrong

The Armstrong Twins

Ian Armstrong

+ 200 mehr...Mittwoch, 25. Januar 12

Page 54: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

54

Named Entity Recognition

Text

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine possible Entity Mapping Candidates

Aber wie finde ich die passende Entität ?

We have to examine the Context...

Mond

Weltraum

Flagge

Mondfähre „Eagle“Mittwoch, 25. Januar 12

Page 55: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

55

Text

Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes bzw. Begriffes und dessen Zusammenhang mit umgebenden Worten bzw. Begriffen gebildet und legt dessen Bedeutung (Semantik) fest.

Mittwoch, 25. Januar 12

Page 56: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

56

Named Entity Recognition

Text

„Armstrong betrat als erster Mensch den Mond.“ Text

Determine Named Entities from Text

Armstrong

Mensch

MondCreate all possible Sets of Mapping Candidates

Mittwoch, 25. Januar 12

Page 57: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

57

Named Entity Recognition

Text„Armstrong betrat als erster Mensch den Mond.“ Text

Create all possible Sets of Mapping Candidates

Armstrong Mensch MondGeorge Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe Armstrong

Armstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

HumanBill Mensch

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Peter van Mensch

Daniel Mensch

Mensch (album)

Der Mond (Oper)

MOND

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Violet MondMOND Technologies

Robert Mond

Henry Mond

Alfred Mond

Chava Mond

Mittwoch, 25. Januar 12

Page 58: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

58

Named Entity Recognition

Armstrong Mensch Mond

(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning

Armstrong, Florida Mensch (Album) MOND Technologies

‣For all possible Combinations do:‣Determine the probability of the co-occurence of a

term combination in an arbitrary text document corpus‣Select the combination with the maximum probability

Mittwoch, 25. Januar 12

Page 59: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59

Named Entity Recognition

Armstrong Mensch Mond

(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning

George Armstrong Custer

Neil Armstrong

Armstrong, Florida

Armstrong, Ontario

Armstrong Gun

Craig Armstrong

Armstrong (Mondkrater)

Louis Armstrong

Sir Thomas Armstrong

Human

Bob Mensch

David Mensch

Homer Mensch

Louise Mensch

Halber Mensch

Mensch ärgere Dich nichtMensch Computer

Mensch (album)

Der Mond (Oper)

Mond (Erdtrabant)

Mond Nickel CompanyBrunner Mond

Bernard Mond

Peter Mond

Julian Mond

Ludwig Mond

Henry Mond

Alfred Mond

Chava Mond

Mittwoch, 25. Januar 12

Page 60: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

Wie kann ich semantische Metadaten im Retrieval nutzen?

Mittwoch, 25. Januar 12

Page 61: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

Semantische Metadaten ermöglichen eine Verbesserung der traditionellen Schlüsselwort-basierten Suche durch(1) Erweiterung / Präzisierung der Suchergebnisse

(Query String Refinement)(2) Herstellung von Querverweisen

(Cross Referencing)(3) Nutzung von semantischen Beziehungen zur

• Visualisierung und • Navigation durch den Suchraum (Explorative Suche)

(4) Herleitung von impliziten Informationen (Reasoning)

Mittwoch, 25. Januar 12

Page 62: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

62

Erweiterung / Präzisierung der Suchergebnisse• Keyword-basierte Suche liefert nicht alle inhaltlich relevanten

Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben.

• Erweiterung der ursprünglichen Suchphrase (Query Refinement)• Nutzung von Wörterbüchern und Thesauri

• Synonyme, Ober- und Unterbegriffe• Nutzung von Domain Ontologien

• Meronyme, Holonyme, Assoziationen

Ursprüngliche Suchphrase: Bank

Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ...

Mittwoch, 25. Januar 12

Page 63: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

63

Präzisierung der Suchergebnisse• Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante

Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden.

• Verfeinerung der ursprünglichen Suchphrase (Query Refinement)

• Nutzung von Wörterbüchern und Thesauri• Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren

• Nutzung von Domain Ontologien• Meronyme, Holonyme

Ursprüngliche Suchphrase: Bank

Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment

Mittwoch, 25. Januar 12

Page 64: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

4242244242

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

64

Herstellung von Querverweisen□ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff

nicht notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen□Nutzung von Domain Ontologien□Nutzung von Thesauri und Kookurrenzanalysen

repräsentativer Dokumentenkorpora

Suchphrase: Neil Armstrongermittelter Oberbegriff: Apollo 11Ausweitung der Suche auf andere Crewmitglieder

dbpedia:Neil_Armstrong

dbpedia:Apollo_11

dbprop:mission

Neil Armstrong

NER

dbpedia:Buzz_Aldrin

dbprop:mission

dbpedia:Michael_Collinsdbprop:mission

Mittwoch, 25. Januar 12

Page 65: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

65

4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche

Mittwoch, 25. Januar 12

Page 66: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

66

Searching is not always just searching

Mittwoch, 25. Januar 12

Page 67: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

67

Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...

Brave New World. - Aldous H U X L E Y.

- The Albatros Continental Library, 47

(Hamburg usw., Albatros Verlag, 1933)

257 S. 8“

II 1, 2506, 34548

Mittwoch, 25. Januar 12

Page 68: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

68

Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....

Mittwoch, 25. Januar 12

Page 69: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

69

Exploratory Search• What, if the user does not know, which query string to use?• What, if the user is looking for complex answers ?• What, if the user does not know the domain he/she is looking for?• What, if the user wants to know all(!) about a specific topic?

• ...,Browsing‘ instead of ,Searching‘• ...to find something by chance -> Serendipity• ...to get an overview• ...enable content based navigation

Mittwoch, 25. Januar 12

Page 70: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

70

What facts for dbpedia:Brave_New_Worldare relevant?

http://dbpedia.org/page/Brave_New_World

...use heuristicsMittwoch, 25. Januar 12

Page 71: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

71

dbpedia:Brave_New_World

dbpedia-owl:author

dbpedia:Aldous_Huxley

dbpe

dia-

owl:a

utho

r

dbpedia-owl:au

thor

dbpedia-owl:author

Mittwoch, 25. Januar 12

Page 72: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

72

dbpedia:Brave_New_World

dbpedia-owl:author

dbpedia:Aldous_Huxley

dbpe

dia:

onto

logy

/influ

ence

s

dbpedia:H._G._Wells

dbpedia:ontology/in

fluences

dbpedia:George_Orwell

dbpedia:ontology/influences

dbpedia:Michel_Houellebecq

Mittwoch, 25. Januar 12

Page 73: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

73

dbpedia:H._G._Wells dbpedia:George_Orwell dbpedia:Michel_Houellebecq

dbpedia-owl:notableWork

dbpedia:Les_Particules_élémentaires

dbpedia-owl:notableWork

dbpedia:Nineteen_Eighty-Four

dbpedia-owl:notableWork

dbpedia:The_Time_Machine

Mittwoch, 25. Januar 12

Page 74: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

74

Problem: Was ist eigentlich wichtig?

http://dbpedia.org/page/Aldous_Huxley

Aldous Huxley

•z.B.., Aldous Huxley•> 400 Fakten (RDF-triples)•> 70 Eigenschaften (properties)•keine Reihenfolge•keine Relevanzbewertungen

•Linked Data beinhaltet ungewichtetes Wissen•ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig

•Entwicklung von Heuristischen Verfahren zur Relevanz-Bewertung von Linked Data Fakten•semantische Graphenanalyse•statistische Verfahren

Mittwoch, 25. Januar 12

Page 75: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

75

Explorative Suche - ein einfaches Beispiel

• Suche im Grunddatenbestand nach ,Aldous Huxley‘• Identifikation einer Entität dbpedia:Aldous_Huxley• Bestimmung eines geeigneten Properties

dbpedia:Aldous_Huxley foaf:name “Aldous Huxley“ .dbpedia:Aldous_Huxley rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:Aldous_Huxley dbpedia:ontology/influences dbpedia:H._G._Wells .dbpedia:H._G._Wells rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:George_Orwell dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:George_Orwell rdfs:type yago:EnglishScienceFictionWriters .

Mittwoch, 25. Januar 12

Page 76: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

76

Explorative Suche - ein einfaches Beispiel

• Suche im Grunddatenbestand nach ,Aldous Huxley‘• Identifikation einer Entität dbpedia:Aldous Huxley• Bestimmung eines geeigneten Properties• Nutzung der gefundenen Properties zur Navigation des Suchraums

Aldous Huxley

Yago:EnglishScienceFictionWriters

rdfs:type

dbpedia:ontology/influences

George Orwell

rdfs:type

dbpedia:ontology/influences

H.G. Wells

rdfs:type

Mittwoch, 25. Januar 12

Page 77: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

77

4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche

Mittwoch, 25. Januar 12

Page 78: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer

Semantic Web Technologien Vorlesungsinhalt

Mittwoch, 25. Januar 12

Page 79: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

79

Explorative Suche mit yovisto

Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

http://mediaglobe.yovisto.com:8080/

Mittwoch, 25. Januar 12

Page 80: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

80

http://mediaglobe.yovisto.com:8080/mggui/#start

Mittwoch, 25. Januar 12

Page 81: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer

Semantic Web Technologien Vorlesungsinhalt

Mittwoch, 25. Januar 12

Page 82: 13 - Semantic Search - Semantic Web Technologien WS 2011/12

Materialien

□Bloghttp://wwwsoup2011.blogspot.com/

□Webseitehttp://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/semantic_web_technologien.html

□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1112_14

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

82

4. Semantic Web Anwendungen4.3 Semantic Search

Mittwoch, 25. Januar 12