This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Allerdings hat Information Extraktion den Vorteil, größtenteils mit sehr strukturierten Daten zu arbeiten.
• Namen sind dabei die einfachste Variante
• Bestimmte gut definierbare Sorten von Ereignissen
• Entitäten aller Arten (Firmen, Produkte, Neuerungen, Technologien) haben alle eigene Strukturen– Firma: X Inc., Chief Executive of X, X Association, …
– Produkte: Our newly designed X, problems with the X, …
– Technologien: this new technology X will help us …
• Extraktion von Relationen jedoch meist genereller und nicht sehr domänenspezifisch (Meronyme kommen in technischen Artikeln natürlich häufiger vor)
</SO><CO> NYTA </CO><IN> MEDIA (MED), PUBLISHING (PUB) </IN><TXT><p>
New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.
</SO><CO> NYTA </CO><IN> MEDIA (MED), PUBLISHING (PUB) </IN><TXT><p>
New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.
</p></TXT></DOC>
Vorgegebene und dem System vermutlich bekannte Elemente sind markiert
Dadurch Struktur des Artikels: • Es wird deutlich, dass
derartige Artikel Formularhaftigen Charakter haben
• Dadurch mit Hilfe einfacher regulärer Ausdrücke interpretierbar
• Speziell: He succeeds X• Einfache Auflösung des
nächsten Personennamens zurück im Text (welcher auch noch vorgegeben war)
• Zusätzliche Verifizierung durch named vs. was named
… oder der „Hearst“-Ansatz, welcher aus zwei Teilen besteht:
• Zunächst wird halbautomatisch eine Menge von lexiko-syntaktischen Mustern identifiziert, welche– häufig,
– über mehrere Genres hinweg auftreten,
– und unzweifelbare Indikatoren für die gewünschte Relation sind
• Diese Menge von Mustern wird dann zur Extraktion von Wortpaaren, die in der Relation stehen genutzt– Und dabei gleich noch die Struktur eines manuell erstellten
Thesaurus analysiert und kritisiert
• Wichtiger Unterschied zu klassischen linguistischen Parsern und dergleichen ist, dass nicht jeder Satz im Detail geparst wird
2.1.1. Beispiel• Im Detail muss auch gar nicht immer geparst werden, da
Information oft offensichtlich da steht:The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string.
• Ohne „bow lute“ würde ein Mensch dennoch eine Ahnung bekommen, dass es sich evtl. um ein musikalisches Gerät handelt
• Allerdings steht die Definition viel Einfacher erklärend direkt im Satz.
• Interessanterweise haben Menschen zusätzlich eine Vorstellung davon, was eine „bow lute“ ist, obwohl sie diesen Begriff oder ein entsprechendes Objekt vermutlich nie vorher gesehen haben– Aber das ist nicht unser Gebiet…– Wichtig für uns ist, dass „bow lute“ vermutlich eine spezielle „lute“
ist und „Bambara ndang“ nach diesem Satz offenbar eine spezielle „bow lute“
• Aus dem gegebenen Beispiel ließe sich folgendes Muster ableiten (getaggter Korpus vorausgesetzt):
NP0 such as {NP1, NP2 , … , NPn-1 (and | or)} NPn
• Aus diesem Muster folgt dann die Implikation, dass
für alle NPi,1≤i≤n, Unterbegriff(NPi, NP0)
• Dieses und andere derartige Muster erfüllen neben den bereits genannten Eigenschaften noch eine weitere:– Wenn das POS-tagging bereits gegeben ist, lassen sie sich ohne
komplizierte und fehleranfällige Parser oder ähnliches erkennen
– Dies wiederum umgeht das zirkuläre Problem, dass der Algorithmus sonst ein Tool bräuchte, welches es eigentlich helfen würde zu erstellen
– Und das impliziert wiederum, dass die evtl. zu groben Ergebnisse dieses Algorithmus in den Bau komplexerer Parser u.ä. für feinere Extraktionsmechanismen gesteckt werden können
• Initiale Mustermenge (1-2) wird genutzt, um Menge von Wortpaaren zu finden, die in der gesuchten Relation stehen
• Danach wir diese Menge von Wörtern wieder genutzt, um die Muster zu erweitern, indem beobachtet, in welchen Konstruktionen diese vorkommen. So wurden Regeln 3-5 gefunden.
• Hearst haben diesen Bootstrappingprozess nicht implementiert, sondern teilweise manuell gelassen, da speziell das Erkennen von gleichen oder relevanten Konstruktionen gegenüber ambigen problematisch war
• Ruge verwendet ein logarithmisch „gesmoothstes“ cosinus Mass, in welchem heads und modifier gleiches Gewicht haben, um gerankte Liste von Ähnlichen Wörtern zu berechnen
• Performanz leider kaum gemessen, allerdings angeblich im Schnitt 70% Wörter, die für querz expansion genutzt werden konnten.
• In einem anderen Paper wurde eine Ähnliche Technik verwendet und eine Verbesserung der Retrieval Qualität um 20% erreicht.
• Bei diesem Ansatz ist vor allem der zweistufige Ansatz zur Ähnlichkeitsberechnung interessant und wie nächstes Seminar deutlich wird, ist die Extraktion von head-modifiern evtl. nicht so wichtig. – da sie zu gleichen Gewichten in cosinus eingehen, ist Unterscheidung
unwichtig– Und durch Entfernung der Stoppwörter ist das Finden von head-modifiern
in diesem Fall vermutlich äquivalent zu einem richtigen Signifikanzmaß bei Satzkookkurrenzen