WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.

WS 05/06 Automatische Akquisition linguistischen Wissens 1

Automatische Akquisition linguistischen Wissens

Musterbasierte Extraktion spezifischer Relationen

(Identifying/detecting/extracting thesaurus relations)

1. Ziele

2. Aktuelle Ansätze1. Clustertechniken

2. Wildcardmuster

3. Semantische Ausrichtung von Adjektiven

Referat: Meronyme (Berland, Charniak) oder Adjektivausrichtung (Hatzivassiliglou)


1. Ziele

• Design von möglichst stabilen Algorithmen

• Halb-automatischen Extraktion genau spezifizierter Relationen mit Belegstellen

• Ebenfalls (gleiche Methoden) Extraktion von konkretem Wissen (Information Extraction)

• Unterstützung manueller Annotation

• Information Retrieval statt Text Retrieval, welches normalerweise IR genannt wird– So können z.B. alle Firmennamen in einer Sammlung von

Dokumenten automatisch gesammelt werden

– Feine Extraktion z.B. nur von Firmennamen, die irgend etwas mit Medizin zu tun haben


1.1. Eigenschaften

• Zu extrahierendes Wissen oder Relationen müssen sprachliche Regelmäßigkeiten aufweisen:– Teil-von: X ist ein Teil von Y

– Oberbegriffe: X ist ein Y

– Synonyme ungünstig, da keine deutlichen sprachlichen Repräsentationen

– Allerdings auch ungewöhnliche Dinge wie Adjektivausrichtung möglich (Hatzivassiliglou 97)

• Idealerweise lassen sich Muster möglichst abstrakt ausdrücken– Nicht einfach nur Muster, sondern auch syntaktische

Konstruktionen

– aber auch nicht zu komplex, um möglichst Sprachneutralität zu behalten


1.2. Ausblicke

Ultimativ derartiger Algorithmus anschließend an automatische Extraktion von auffälligen Mustern.

• Dazu sollte Algorithmus möglichst Fehlertolerant sein, bzw. Verifizierung der erhaltenen Ergebnisse beinhalten

• Dabei je strukturierter die extrahierten Daten, umso mehr Verifizierung kann stattfinden:– Titel, Beruf, Name und Vorname für Personenextraktion

– Dann können Widersprüche automatisch aufgelöst werden, denn was Name ist, ist meist nicht gleichzeitig Titel.

– Widersprüche dabei nicht im streng logischen Sinne sondern lediglich Wahrscheinlichkeiten, bzw. „Unwahrscheinlichkeiten“


1.3. Verwandtheit mit Information Extraction

• http://gate.ac.uk/ie/ (siehe Beispiel nächste Folie)

• http://www.itl.nist.gov/iaui/894.02/related_projects/muc/

Allerdings hat Information Extraktion den Vorteil, größtenteils mit sehr strukturierten Daten zu arbeiten.

• Namen sind dabei die einfachste Variante

• Bestimmte gut definierbare Sorten von Ereignissen

• Entitäten aller Arten (Firmen, Produkte, Neuerungen, Technologien) haben alle eigene Strukturen– Firma: X Inc., Chief Executive of X, X Association, …

– Produkte: Our newly designed X, problems with the X, …

– Technologien: this new technology X will help us …

• Extraktion von Relationen jedoch meist genereller und nicht sehr domänenspezifisch (Meronyme kommen in technischen Artikeln natürlich häufiger vor)

http://gate.ac.uk/ie/

http://www.itl.nist.gov/iaui/894.02/related_projects/muc/


1.3.1. Beispiel

Die Aufgabe lautet, ein Template mit Information über Nachfolgeereignisse auszufüllen

Folgender Key vorgegeben:<ORGANIZATION-1>

NAME : "New York Times Co."

<ORGANIZATION-2>

NAME : "New York Times"

<PERSON-1>

NAME : "Russell T. Lewis"

<PERSON-2>

NAME : "Lance R. Primis"

<DOC><DOCID> wsj93_050.0203 </DOCID><DOCNO> 930219-0013. </DOCNO><HL> Marketing Brief:@ Noted.... </HL><DD> 02/19/93 </DD><SO> WALL STREET JOURNAL (J), PAGE B5

</SO><CO> NYTA </CO><IN> MEDIA (MED), PUBLISHING (PUB) </IN><TXT><p>

New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

</p></TXT></DOC>


1.3.2. Beispiel fortgesetzt

SUCCESSION-1>ORGANIZATION : <ORGANIZATION-2>POST : "president"WHO_IS_IN : <PERSON-1>WHO_IS_OUT: <PERSON-2>

<SUCCESSION-2>ORGANIZATION : <ORGANIZATION-2>POST : "general manager"WHO_IS_IN : <PERSON-1>WHO_IS_OUT: <PERSON-2>

<SUCCESSION-3>ORGANIZATION : <ORGANIZATION-2>POST : "executive vice president"WHO_IS_IN :WHO_IS_OUT : <PERSON-1>

<SUCCESSION-4>ORGANIZATION : <ORGANIZATION-2>POST : "deputy general manager"WHO_IS_IN :WHO_IS_OUT : <PERSON-1>

<SUCCESSION-5>ORGANIZATION : <ORGANIZATION-1>POST : "president"WHO_IS_IN : <PERSON-2>WHO_IS_OUT :

<SUCCESSION-6>ORGANIZATION : <ORGANIZATION-1>POST: "chief operating officer"WHO_IS_IN : <PERSON-2>WHO_IS_OUT :


1.3.3. Beispiel strukturiert

<DOC><DOCID> wsj93_050.0203 </DOCID><DOCNO> 930219-0013. </DOCNO><HL> Marketing Brief:@ Noted.... </HL><DD> 02/19/93 </DD><SO> WALL STREET JOURNAL (J), PAGE B5

</SO><CO> NYTA </CO><IN> MEDIA (MED), PUBLISHING (PUB) </IN><TXT><p>

New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

</p></TXT></DOC>

Vorgegebene und dem System vermutlich bekannte Elemente sind markiert

Dadurch Struktur des Artikels: • Es wird deutlich, dass

derartige Artikel Formularhaftigen Charakter haben

• Dadurch mit Hilfe einfacher regulärer Ausdrücke interpretierbar

• Speziell: He succeeds X• Einfache Auflösung des

nächsten Personennamens zurück im Text (welcher auch noch vorgegeben war)

• Zusätzliche Verifizierung durch named vs. was named


2. Aktuelle Ansätze

• Teilen sich grob in mehrere verschiedene:– Clustertechniken von Head-Modifier Strukturen (z.B. Ruge 97)

– „Echte“ Muster, ausgedrückt per reguläre Ausdrücke (z.B. Berland & Charniak 99)

– Clustern anhand von vorgegebenen Punkten, optional mit Tagging (Hatzivassiloglou 97)

– Hybride Verfahren (Hearst 92)

• Gemeinsam ist, dass alle Verfahren jeweils für eine sehr spezielle, aber allgemeine Relation ausgelegt sind: – Hyperonymie (Hearst 92)

– Ausrichtung von Adjektiven (Hatzivassiloglou 97)

– Synonyme (bzw. ähnliche Wörter) (Ruge 97)

– Meronyme (Berland & Charniak 99)


2.1. Was ist „Bambara ndang“?

… oder der „Hearst“-Ansatz, welcher aus zwei Teilen besteht:

• Zunächst wird halbautomatisch eine Menge von lexiko-syntaktischen Mustern identifiziert, welche– häufig,

– über mehrere Genres hinweg auftreten,

– und unzweifelbare Indikatoren für die gewünschte Relation sind

• Diese Menge von Mustern wird dann zur Extraktion von Wortpaaren, die in der Relation stehen genutzt– Und dabei gleich noch die Struktur eines manuell erstellten

Thesaurus analysiert und kritisiert

• Wichtiger Unterschied zu klassischen linguistischen Parsern und dergleichen ist, dass nicht jeder Satz im Detail geparst wird


2.1.1. Beispiel• Im Detail muss auch gar nicht immer geparst werden, da

Information oft offensichtlich da steht:The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string.

• Ohne „bow lute“ würde ein Mensch dennoch eine Ahnung bekommen, dass es sich evtl. um ein musikalisches Gerät handelt

• Allerdings steht die Definition viel Einfacher erklärend direkt im Satz.

• Interessanterweise haben Menschen zusätzlich eine Vorstellung davon, was eine „bow lute“ ist, obwohl sie diesen Begriff oder ein entsprechendes Objekt vermutlich nie vorher gesehen haben– Aber das ist nicht unser Gebiet…– Wichtig für uns ist, dass „bow lute“ vermutlich eine spezielle „lute“

ist und „Bambara ndang“ nach diesem Satz offenbar eine spezielle „bow lute“


2.1.2. Generierung von Mustern

• Aus dem gegebenen Beispiel ließe sich folgendes Muster ableiten (getaggter Korpus vorausgesetzt):

NP0 such as {NP1, NP2 , … , NPn-1 (and | or)} NPn

• Aus diesem Muster folgt dann die Implikation, dass

für alle NPi,1≤i≤n, Unterbegriff(NPi, NP0)

• Dieses und andere derartige Muster erfüllen neben den bereits genannten Eigenschaften noch eine weitere:– Wenn das POS-tagging bereits gegeben ist, lassen sie sich ohne

komplizierte und fehleranfällige Parser oder ähnliches erkennen

– Dies wiederum umgeht das zirkuläre Problem, dass der Algorithmus sonst ein Tool bräuchte, welches es eigentlich helfen würde zu erstellen

– Und das impliziert wiederum, dass die evtl. zu groben Ergebnisse dieses Algorithmus in den Bau komplexerer Parser u.ä. für feinere Extraktionsmechanismen gesteckt werden können


2.1.3. Die Menge der Muster

• Angefangen wird mit einer kleinen Menge von per Hand definierten Mustern:1. such NP as {NP ,} * {or|and} NP

… works by such authors as Herrick, Goldsmith, and Shakespeare

→ Unterbegriff(”Herrick”,“author(s)”)

Unterbegriff(”Goldsmith”,“author(s)”)

Unterbegriff(”Shakespeare”,“author(s)”)

2. NP {, NP} * {,} or|and other NP

… bruises, wounds, broken bones or other injuries …

→ Unterbegriff(“bruises”,”injury(ies)”)

Unterbegriff(“wound”,”injury(ies)”)

Unterbegriff(“broken bone”,”injury(ies)”)


2.1.4. Auswertung der Muster

• Weitere Muster:3. NP {, NP} * {,} and other NP

temples, treasuries and other important civic buildings

4. NP {,} including {NP ,} * {or | and} NPAll common-law countries, including Canada and England

5. NP {,} especially {NP ,} *most European countries, including France, England and Spain.

• Wenn eine Relation zwischen zwei NPs gefunden wurde, wird zwar– Lemmatisierung durchgeführt,

– Aber keine weitere Analyse

• Das führt dazu, dass broken bone ebenfalls ein neuer Eintrag in das Thesaurus wäre, aber auch important civic buildings


2.1.5. Erweiterung der Mustermenge

• Initiale Mustermenge (1-2) wird genutzt, um Menge von Wortpaaren zu finden, die in der gesuchten Relation stehen

• Danach wir diese Menge von Wörtern wieder genutzt, um die Muster zu erweitern, indem beobachtet, in welchen Konstruktionen diese vorkommen. So wurden Regeln 3-5 gefunden.

• Hearst haben diesen Bootstrappingprozess nicht implementiert, sondern teilweise manuell gelassen, da speziell das Erkennen von gleichen oder relevanten Konstruktionen gegenüber ambigen problematisch war


2.1.6. Vergleichen der Resultate mit WordNet

Es können drei Situationen eintreten:

• Verifizieren: Wenn sowohl N0 als auch N1 in WordNet sind und (evtl. durch transitives schliessen) sie in der Unterbegriff() Relation stehen

• Kritik: Wenn sowohl N0 als auch N1 in WordNet vorhanden sind, aber nicht in Relation Unterbegriff() stehen

• Verändern: Wenn N0 oder N1 nicht in WordNet vorkommen

Beispiel für Kritik:

• Other input-output devices, such as printers, color plotters, …

→ Unterbegriff(“printer”,”input-output device”)

• In WordNet jedoch:


2.1.7. Generierte Kritik

• Hier ist aber I/O device keinesfalls Überbegriff zu printer, überhaupt Unterschied zwischen mechanism und device

artifact, article, artefact

devicemechanism

machine I/O_device mechanical_device

machine, simple_machine

computer printer, printing_machine

line_printer laser_printer typeprinter


2.1.8. Hearsts Versuchsaufbau

• Benutze Enzyklopädie (Groliers American Academic Enzyclopedia), um Text mit vielen Definitionen zu erhalten

• Insgesamt 152 verschiedene Wortpaare, die allen Bedingungen entsprachen und mit „such as“ verbunden waren

• Dabei 180 von 226 unterschiedlichen Wörtern waren in WordNet und 61 von 106 gutartige Relationen (wo beide Wörter in WordNet vorkamen

• Dabei manches problematisch:– king, institution (Metonymie)

– Steatornis, species (Unterspezifizierung)

– Washington, nationalist

– Aircraft, target (recht… domänenspezifisch)


2.2. Head-modifier oder (Ruge 97) Ansatz

• Dependenzgrammatik hat als zentralen Bestandteil das head-modifier Prinzip.

• Dabei ist head ein Term, der durch weitere Ausdrücke modifiziert werden kann:– thesaurus construction

– construction of a complete domain independent monolingual thesaurus

– automatic thesaurus generation or construction

• Allerdings kann ein Modifier auch mehrere heads haben (automatic)

• Dependency Grammatik ist sprachunabhängiger als Chomsky Grammatik


2.2.1. Berechnung von Synonymie

• Head-Modifier Relation kann auch als Baumstruktur dargestellt werden.

• Durch weglassen von Stopwörtern kann mehr oder weniger sprachunabhängige Grammatik von Sätzen erreicht werden:– Peter drinks sweet hot coffee.

– Peter drinks a coffee which is sweet and hot.

• Diverse einfache Tagger können genutzt werden, um head-modifier Bäume in rohem Text zu taggen mit 85% Genauigkeit

• Synonyme sollen dann als Ähnlichkeitüber Modifier berechnet werden:– Je mehr modifier und heads ein Term mit einem anderen

meistens gemeinsam hat, umso ähnlicher sind sie

drink

Peter coffee

sweet hot


2.2.2. Berechnung von Synonymie II

• Ruge verwendet ein logarithmisch „gesmoothstes“ cosinus Mass, in welchem heads und modifier gleiches Gewicht haben, um gerankte Liste von Ähnlichen Wörtern zu berechnen

• Performanz leider kaum gemessen, allerdings angeblich im Schnitt 70% Wörter, die für querz expansion genutzt werden konnten.

• In einem anderen Paper wurde eine Ähnliche Technik verwendet und eine Verbesserung der Retrieval Qualität um 20% erreicht.

• Bei diesem Ansatz ist vor allem der zweistufige Ansatz zur Ähnlichkeitsberechnung interessant und wie nächstes Seminar deutlich wird, ist die Extraktion von head-modifiern evtl. nicht so wichtig. – da sie zu gleichen Gewichten in cosinus eingehen, ist Unterscheidung

unwichtig– Und durch Entfernung der Stoppwörter ist das Finden von head-modifiern

in diesem Fall vermutlich äquivalent zu einem richtigen Signifikanzmaß bei Satzkookkurrenzen


Referat:

• Auswahl aus mehreren Veröffentlichungen

• Meronyme: Berland & Charniak 99

• Adjektivorientierung: Hatzivassiloglou 97

• Ober- Unterbegriffe: Hearst 92

• Oder allgemein Ruge 97

WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.

Documents

automatische extraktion

new technology x

chief executive of x

executive vice president

x association

designed x

deputy general manager

publishing pub new york