Top Banner
Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
27

Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Apr 05, 2015

Download

Documents

Hedy Altenhofen
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Knowledge Discovery mit Wordnet und Alembic

Workbench

(Julia Faion)

(Markus Reiter)

Page 2: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Überblick

• 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können :

• Wordnet, ein erweitertes Lexikon

• Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten

Page 3: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Input : unbekannte Texte

Alembic : untestützt

Wissensextraktionaus Texten

Wordnet:lexikalische Datenbank

Output:Mit SGML annotierte

Texte

Page 4: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

• Datenbank mit lexikalischen Informationen (englische Sprache)

• entwickelt an der Princeton University – (URL : www.cogsci.princeton.edu/~wn )

• angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses

Page 5: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

• traditionelle Wörterbücher– Informationen alphabetisch gespeichert– keine Querverweise auf Synonyme, verwandte

Begriffe , ...– Suche sehr zeitaufwendig

Wordnet

Page 6: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets

– Beispiel : { tree, plant,@ conifer,~ alder,~ ...}• @ : steht für Hypernym-Relation

( Verallgemeinerung )

• ~ : steht für Hyponym-Relation ( Spezialisierung )

Page 7: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert)

– Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen

Page 8: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– Nomen :• werden in Hierarchien abgespeichert

• wichtige Relation : Hypernymität

– Verben : • 15 Kategorien von Verben

• wichtige Relation : Entailment

Page 9: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

• Adjektive : • Unterteilung : deskriptive und relationale Adjektive

• wichtige Relation : Antonymität

• ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt

Wordnet

Page 10: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

damp

dried-upsoggy

wet

humid

dry

parched

anhydrous

sere

arid

watery

Cluster

moist

Page 11: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Wordnet

– umfaßt ca. 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) gespeichert sind

– bietet bei der Suche ein breites Spektrum an Optionen wie

• Synonyme

• Antonyme

• Hyper-/Hyponyme

• Meronyme/Holonyme

Page 12: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 13: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 14: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 15: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– wird zur Information Extraction (IE) verwendet– entwickelt am MITRE, USA– URL : http://www.mitre.org/technology/alembic-workbench

• Projektübersicht, Download

Page 16: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Sammlung von Tools zur Verbesserung des „tagging-Prozesses“ von Texten

– tags = Markierungen im Text, die Informationen charakterisieren

– Beispiel : <ENAMEX TYPE=PERSON>Bill Clinton</TYPE>

Page 17: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Entwicklungsziele :• reichhaltige Möglichkeiten zur Analyse eines

getagten Textes

• Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann

• Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen

Page 18: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

• Komponenten : – Editor– Process-Text-Utility– Rule Learner– weitere Analyse-Tools

Page 19: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm

– Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine

– mixed-initiative Ansatz

Page 20: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

Page 21: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 22: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 23: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Page 24: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– bietet verschiedene Möglichkeiten zur Analyse der getagten Texte

– Phrase Extraction : • extrahiert alle mit Tags markierten Begriffe aus dem

Text

• kann gewünschte Tags farblich markieren

• eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext

Page 25: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

– Resultate : (basierend auf Untersuchung von MITRE)

– signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor

Page 26: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Alembic Workbench

Page 27: Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Ausblick

– Ziele :• Alembic mit einem unbekannten Text trainieren

und Ergebnisse analysieren

• eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet :

• möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen