Top Banner
Inhaltsanalyse und semantische Verknüpfungen in semantische Verknüpfungen in CONTENTUS
29

Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Jul 04, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in

CONTENTUS

Page 2: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Überblick

• Hintergrund und Motivation

• Der CONTENTUS‐Ansatz

• Inhaltsanalyse y

• Semantische Verknüpfung

• Zusammenfassung• Zusammenfassung

2

Page 3: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Hintergrund

• XN T h l i fü d I t t d Di t “– „Neue Technologien für das Internet der Dienste“

– Gefördert durch das Bundesministerium für Wirtschaft und Technologie

– Konsortium von ca. 60 Partnern aus Industrie und Forschungg

• X NTENTUSCONTENTUSCO

– „Use Case“ in THESEUS

– Technologien für multimediale Archive der nächsten Generation

3

Page 4: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Motivation

• Viele, umfangreiche multimediale Archive, z.B. in:– Bibliotheken, Museen

Sendeanstalten Medienarchiven– Sendeanstalten, Medienarchiven– Onlinearchive

• Großes Potential: Inhalte…– nachzunutzen, an Kunden zu verkaufen– Interessierten bereitstellen

• Typische Probleme bei der Nutzungyp g– Medien analoger Form kaum nachnutzbar– Medien vom Zerfall bedroht– Qualitätsprobleme – Inhalte schlecht beschrieben– Zum Teil gewaltiger Umfang der Archive erschwert Suche– Sinnzusammenhänge zwischen Inhalten sind unklar

4

Page 5: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Medienzerfall 

• UrsachenU h äß L– Unsachgemäße Lagerung

– Materialermüdung

• Auswirkungen (Beispiele)– Print: Ausbleichen, Zersetzung durch Säure

– Film: Kratzer, Verschmutzungen, Verzerrungen

– Magnetbänder: Drop‐outs

– Optische Medien: Zersetzung der Beschichtungen

5

Page 6: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Herausforderung Digitalisierung

• Möglicher QualitätsverlustU i t H d– Ungeeignete Hardware

– Fehlerhafte Einstellungen

– Mangelndes Qualitätsbewusstseing Q

• Ziele– Rationalisierung des Digitalisierungsvorgangs durch Teilautomatisierung der Qualitätsüberwachung

K ti i li h Q lität üf äh d d A ft– Kontinuierliche Qualitätsprüfung während des Auftrags

6

Page 7: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Metadaten

• Für die spätere Nutzung entscheidendS h– Suche

– Abgrenzung von Medien

– Semantische Verknüpfungenp g

• Mögliche Probleme– Metadaten nicht immer vorhanden / vollständig

– Erschließung zeitaufwändig und fehleranfällig

– Interkompatibilität von Metadatenquellen• Vokabular, Datenformate, Methodik / Regelwerk

7

Page 8: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Zugriff und Nutzung

• Einschränkungen gegenwärtiger Suchansätze N b di t i t fü lti di l I h lt– Nur bedingt geeignet für multimediale Inhalte

– Suche und Zugriff oft getrennt

– Zusammenhänge zwischen Medien oft nicht transparentg p

• Zusätzliche Herausforderungeng– Rechtliche Probleme

– Daten ohne Metadaten kaum zu finden

8

Page 9: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

9

Page 10: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

1 2 3 4 5 6

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadata

OpenKnowledge

SemanticMultimediag Q y

Control Analysis Linkingg

Networks Search

medienspezifisch medienübergreifend

10

Page 11: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

1 2

DigitizationAutomatic

Qualityg Q yControl

11

Page 12: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Qualitätskontrolle

• Oftmals notwendigAusgangsmedien sind u U schon im Verfall– Ausgangsmedien sind u.U. schon im Verfall

– Digitalisierung kann selbst Qualitätsprobleme verursachen– Entscheidend für weitere Verarbeitung (Inhaltsanalyse)Entscheidend für weitere Verarbeitung (Inhaltsanalyse)

• Ziele: Automatisierung und EffizienzZiele: Automatisierung und Effizienz– Manuelle Qualitätskontrolle ist teuer (Zeit/Kosten)– Archive sind u.U. zu groß für manuelle Verarbeitung

12

Page 13: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Quality Control: De‐Warping

13

Page 14: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Quality Control: Scratch Removal Defect automatically

detected

Defect automatically removed

14

Page 15: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

1 2 3

DigitizationAutomatic

QualityAutomaticContentg Q y

Control Analysis

medienspezifisch

15

Page 16: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse

• Digitalisierung reicht nicht– Was enthalten die Medien?Was enthalten die Medien?

• Beschreibende Metadaten helfen bei Suche und Zugriff– Zielgerichtete Suche – Für Unterscheidung ähnlicher Inhalte wichtig

• Ziel: Automatisierung– Manuelle Analyse ist aufwändig: Manuelle Analyse ist aufwändig:

ca. 4-10 Stunden Arbeit für 1 Stunde audiovisuellen Inhalts

16

Page 17: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse: Ablauf am Beispiel Print

Digitalisat Struktur-erkennung

OCR Entitäten-erkennung &g gKlassifikation

17

Page 18: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse: Segmentierung von Seiten

• Automatische Identifikation von– Artikeln

– Überschriften

– Bildern, Bildunterschriften

– Lesereihenfolge

• Wichtig für die Suche

18

Page 19: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse: Entity Recognition

• Identifikation von Bedeutungen, Unterscheidung von Entitäten

Über Kohl höhnte Strauß: „Er wird nie Kanzler werden“. Die Zeit, 18.7.08

AutomatischeKlassifikation durch Vergleich

it t Q ll

Genauigkeit Trefferquote F-Maß

Personen 92.06% (89.4%) 88.85% (88.4%) 90.42% (88.9%)

Orte 90.74% (80.2%) 86.21% (71.6%) 88.42% (75.7%)

» Analyse der Wortumgebung und -kontext“Kohl” in einem Satz mit “Kanzler” → vermutlich eine Person

mit externen Quellen (z.B. Wikipedia)Organisationen 85.81% (79.4%) 74.59% (54.5%) 78.71% (64.6%)

» Kohl” in einem Satz mit Kanzler” → vermutlich eine Person» “Kohl” in einem Satz mit “kochen” → eher ein Gemüse

19

Page 20: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse: Disambiguierung

Michael Müller (SPD)

SPD-Fraktionschef Michael Müller ist erneut in seinem Amt bestätigt worden. (www.berlinonline.de)

Michael Müller (Handballspieler)

Handball-Nationalspieler Michael Müller vom TV Großwallstadt hat sich für einen Wechsel entschieden. (www.br-online.de)

(wikipedia.de)

( p )

Das Sachverständigenbüro Michael Müller ist ein Familienunternehmen. (www.presseecho.de) Michael Müller

(wikipedia.de)

Genauigkeit Trefferquote F-MaßGenauigkeit Trefferquote F Maß

Performanz 92.64% 92.93% 92.79%

20

Page 21: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

1 2 3 4

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadatag Q y

Control Analysis Linking

medienspezifisch medienübergreifend

21

Page 22: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Semantische Verknüpfungen von Metadaten

• Integration und Verknüpfung aus verschiedenen QuellenI t ll kt ll f t– Intellektuell erfasst 

– Automatisch erzeugt

– Aus externen Quellen (Internet)Q ( )

• Motivation– Integrierte Präsentation von relevanten Informationen

– Verdeutlichung der Beziehungen zwischen Medien und Entitäten

22

Page 23: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

LübeckExterne Datenquellen

NormdatenPND

Wikipedia

2:28Von der Taufschale und vom Großvater in …5MusicBrainz

3:08Ehrbare Verfinsterung7

3:45Bei Tienappels. Und von Hans Castorps …6

23

Page 24: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

1 2 3 4 5 6

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadata

OpenKnowledge

SemanticMultimediag Q y

Control Analysis Linkingg

Networks Search

medienspezifisch medienübergreifend

24

Page 25: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

25

Page 26: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

26

Page 27: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Anzeige von erkannten Entitäten

27

Page 28: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

CONTENTUS

• Technologien für Multimedia‐Archive der nächsten GenerationArchive der nächsten Generation

• Fokus auf automatische Verfahrenund Semantikund Semantik

• Abdeckung der gesamten Prozesskette von der Digitalisierung bis zur NutzungProzesskette von der Digitalisierung bis zur Nutzung

Automatic Automatic Semantic Open SemanticDigitization Quality

ControlContentAnalysis

MetadataLinking

KnowledgeNetworks

MultimediaSearch

28

Page 29: Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus › contentus.pdf · Semantic Metadata Open Knowledge Semantic Qy Multimedia Control Analysis Linking

Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in

CONTENTUS