This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
• Sämtliche Algorithmen sind darauf ausgerichtet, möglichst viel Wissen zu extrahieren
• Einschränkung: Möglichst wenig Handarbeit soll investiert werden– Bisher stets in Form von Tagging, Mustern usw.
• Ultimatives Ziel: Sprachunabhängige Algorithmen, die 100% Recall und Precision haben, also alles herausfinden und dabei keine Fehler machen, ohne das die jeweils neue Sprache überhaupt (vom Menschen) angeschaut wird.
• In der Praxis: Je weniger Handarbeit hineingesteckt wird (kleinere Trainingsmengen, weniger Regeln, weniger Hypothesen), umso schlechter die ohnehin schlechten Ergebnisse
• Fast jeder Algorithmus geht von einem Grundformreduzierten und Wortartmarkierten Korpus aus:– Tagger (Brill, TNT, …): benötigt (grosse) Trainingsmengen:
PennTreeBank, Negra, Susanne, …
– Grundformreduzierer: benötigt Morphologieregeln für die Sprache
• Manche Algorithmen würden ohne getaggten Korpus gar nicht funktionieren: Hyperonyme (Hearst 92), Vergleiche von Wörtern (Resnik 99), Meronyme: (Berland & Charniak 99) uvm., da sie explizit Tripel wie z.B. (x,subj-of,y) untersuchen
• Bootstrapalgorithmen sind an der Grenze:– benötigen zwar oft sprachspezifisches Wissen, aber
– in so geringen Mengen, dass es im Grunde nichts ausmacht
• Ausser den Standardquellen gibt es weitere Quellen, die für “automatische” Verfahren genutzt werden, wie– Wortähnlichkeiten mit Hilfe von WordNet (Jiang & Conrath 97)
– Disambiguierung mit Hilfe von WordNet, Wörterbüchern und anderen Nachschlagewerken (Lesk 86) und fast alle nachfolgenden Autoren
– Automatische Uebersetzung anhand von Wörterbüchern
– Komplexe Lexikale Netze für klassische Computerlinguistik (DRT, RST, usw.)
– Umfangreiche Grammatikregelsammlungen zum Parsin usw.
• Erst wenn es gelingt, die entsprechenden Ressourcen auch automatisch zu extrahieren, können diese Verfahren vollautomatisch genannt werden.
Es kann eine einfach Einteilung beim Betrachten eines Satzes vorgenommen werden:
• lokale Information: Mit diesem Satz soll irgendwas konkretes gesagt werden– Es werden Wörter in einem teils ungewöhnlichen Zusammenhang
gebraucht
• globale Information: Dieser Satz soll verständlich sein– Es werden erklärende, verschönernde, Bedeutungsähnliche (falls
Zuhörer das eine oder andere nicht kennt, oder um Stimmung besonders gut auszumalen) usw. Wörter eingefügt:
All was sweet and mellow and peaceful in the golden evening light, and yet as I looked at them my soul shared none of the peace of nature but quivered at the vagueness and the terror of that interview which every instant was bringing nearer. (A. C. Doyle: The hound of Baskervilles)
• reine Information: It is evening, I feel terror in anticipation of the interview.
• t-score, Chi-square-test müssen nun als nächstes benutzt werden, um festzustellen, ob jedes Wort A von jedem anderem Wort B unabhängig sind
• Da jedoch in Wirklichkeit kein einziges Wort unabhängig von allen anderen ist, ist viel mehr interessant,– welche Wörter signifikant abhängig sind voneinander (associated)
– welche von Ihnen wie stark signifikant abhängig sind -> ranking
• Optional nach dem Signifikanztest wird in der Statistik noch berechnet, um wie viel die beobachteten Daten von der theoretisch im Falle der Unabhängigkeit angenommenen Wahrscheinlichkeit (und damit konkret erwarteten Häufigkeit) abweichen
• Für np(1-p)>5 (die Varianz) nähert sich diese Verteilung der Normalverteilung
• Der Vorschlag ist, den generellen likelihood-test zu benutzen, der daraus besteht, den Quotienten zu bestimmen:– Quotient zwischen dem maximalen Wert der likelihood Funktion unter
der Nullhypothese und dem maximalen Wert der likelihood Funktion mit den beobachteten Werten:
– Es gibt zwei binomiale Verteilungen, für Wort A und B jeweils, also sind die beobachteten Werte (für gemeinsames Auftreten miteinander multipliziert):
– während die Nullhypothese p1=p2 setzt und der Quotient demzufolge lautet:
• (Quasthoff & Wolff 02) beschreiben ein Verfahren, welches statt der Binomialverteilung die Poissonverteilung zur Beschreibung gemeinsamer Auftreten nimmt.
• (Holtsberg & Willners 01) geben einen Beweis, dass die Poissonverteilung die Binomialverteilung approximiert
• Dieses Verfahren testet nicht, sondern geht direkt davon aus, dass es signifikante gemeinsame Auftreten gibt
• Es berechnet nur, (wie auch likelihood) das Mass der Abweichung vom erwarteten gemeinsamen Auftreten gemäß der Unabhängigkeitshypothese
• Der negative Logarithmus wird genommen, um aus einer Wahrscheinlichkeit (eine bestimmte Anzahl von Auftreten zu beobachten) einen Signifikanzwert zu erhalten
• Das einfachste Mittel, zwei Wörter A und B über ihre Kontexte miteinander zu vergleichen, ist, zu untersuchen, wie viele Wörter ihre Kontexte jeweils gemeinsam haben
• Die Vektorschreibweise führt zu folgender Formalisierung:
mit
• Probleme: – Signifikanzen der Kookkurrenzen, bzw. das Profil des Kontexts
wird nicht berücksichtigt
– Häufigere Wörter haben mehr Kookkurrenzen, sind somit ähnlicher zu allen andere Wörtern
• Da Abstand = 1-Ähnlichkeit und Vektoren eigentlich Punkte in einem n-dimensionalen Raum darstellen, kann entweder Winkel zwischen Vektoren oder Abstand zwischen Punkten als Ähnlichkeit berechnet werden, daher:
• Winkel zwischen den Vektoren:
• L1-norm-abstand zwischen den zwei Punkten (City-Block-Metrik):
• L2-norm-abstand zwischen den zwei Punkten (euklidischer Abstand):
• Wenn es so viele (und noch mehr) Möglichkeiten gibt, Kookkurrenzen zu berechnen und jeweils die derart erhaltenen Kontextinformationen miteinander zu vergleichen – welche ist besser?
• Andere Frage – Welche macht was?
• Evaluierungsmöglichkeiten:– Psycholinguistische Tests (Miller & Charles 91)
• Gerechnet wurde ein Korpus mit 100Mio laufenden Wörtern, das ergibt ca. 7 Mio Sätze
• Grundform reduziert– Da sonst Vergleichbarkeit mit prinzipiell Grundformreduzierten Daten in
GermaNet nicht gewährleistet
• Zum Evaluieren wurden nur Wörter genommen, die in allen Kombinationen mindestens 50 Kookkurrenzen, bzw. ähnliche Wörter besaßen, Beispiele:– … Grad Graf Graffe Graffiti Grafik Grafs Grafschaft Graham Gral Gram
• Größere Fenster bevorzugen eher länger wirkende Abhängigkeiten, die entsprechend eher inhaltlicher Natur sind– Ein Elefant, welcher gewöhnlicherweise mit anderen Tieren im
Zoo zu finden ist, …
• Kleinere Fenster bevorzugen grammatische Eigenschaften und resultieren in Grammatischen Gemeinsamkeiten– Ein Elefant, welcher gewöhnlicherweise mit anderen Tieren im
Zoo zu finden ist, …
• Bislang keine Tests, die dieses vergleichend aufzeigen würden