Automatische Akquisition linguistischen Wissens. Automatisches Taggen von Wortklassen, bzw. Part of Speech (POS) Induction Definition Wortklassen, klassischer Konstituententest (Grewendorf) Anwendungen Algorithmen Evaluierungen Referat: (Rapps Algorithmus). 1. Problemstellung. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
• Die meisten bisher behandelten halb-automatischen Algorithmen sind nur deshalb halb-automatisch, da sie Informationen über Wortklassen zum Funktionieren benötigen
• Wenn diese Information vollautomatisch extrahierbar wäre, würden eine Menge Algorithmen als vollautomatisch klassifizierbar sein
• Aus vergangenem Seminar wissen wir, dass einfache Modellierung des Konstituententests bereits sehr Wortklassenhomogene Wörter zu einem Eingabewort liefert
• Teilketten, die in gleicher syntaktischer Position in einer gegebenen Kette austauschbar sind, ohne dass die neu entstandene Kette ungrammatisch ist, können gegebenenfalls Konstituenten sein– Für sich genommen reicht der Substitutionstest nicht aus, um eine
befriedigende Satzanalyse zu erzeugen.
– Beim Substitutionstest wird auch darauf geachtet, wie viele Syntagmen ein Paradigma umfasst und in wie vielen verschiedenen Umgebungen ein Paradigma vorkommen kann .
– In der tatsächlichen Anwendung muss er von der Intuition überprüft und vor allen Dingen durch andere Verfahren ergänzt werden.
• Ergebnis der Klassifizierung der Wörter einer Sprache nach grammatischen und/oder semantischen Merkmalen; je nach den zugrunde liegenden Klassifizierungskriterien unterscheidet sich die Zahl der Wortarten in einer Sprache. (Kim Kluckhohn, Leipzig)
• Frage: Was sind die grammatischen und/oder semantischen Merkmale (außer wenn der Intuition entnommen)
3. Algorithmen• Der intuitiv erste Ansatz ist der, Features zu definieren
– grammatische/semantische Merkmale– Oder auch praktisch Satz- oder Nachbarschaftskookkurrenzen
• Anschließend ein beliebiges Clusterverfahren– Allerdings Komplexität problematisch:
• Finde ähnlichstes Paar, fasse zusammen: n^2• Wiederhole so oft, wie es Elemente gibt: n*n^2=n^3• N = Anzahl der Wörter = 500.000 für BNC, 200.000 für unseren
Studentenkorpus, • also 8.000.000.000.000.000 Operationen, bei 2 GHz (also grob 2Mio
Operationen pro Sekunde) sind das 126 Jahre! Und nur für eine Parametereinstellung…
– Daher oft stark vereinfachte Clusterverfahren (Buckshot, Single Pass), so dass nicht klar, ob mangelnde Performanz nicht nur am Clusterverfahren liegt
– Plausibel, weil auch bei Sprachlernern Sprache nicht plötzlich auf einmal gelernt wird, sondern Stückchenweise
• Nutzbare Features wären idealerweise grammatische Informationen, wie sie rund um das Wort auftreten:– Dass „Fisch“ als Argument von „schwimmt“ verwendet werden
kann
– Dass „schwimmt“ mindestens ein Argument benötigt (Wer schwimmt), aber auch z.B. zwei möglich (Wer schwimmt wohin) oder drei (Wer schwimmt wie/warum wohin)
– Allerdings unterliegt das dem acquisition bottleneck: Wenn diese Information bereits vorliegt, brauchen wir nichts mehr zu tun
• Optimal vermutlich: weiter gefasste Nachbarschaftskookkurrenzen mit leichten Verallgemeinerungen– Vorclustern z.B. dass alle Fischrelevanten Dingen zusammen zu
kleiner Gruppe und daher statt
• Der Hering schwimmt durch das Wasser
• Der Fisch schwimmt durch den Fluss
– Besser wäre
• Der <Gruppe4563> schwimmt durch <Gruppe9873>
– Daraus dann Nachbarschaftskookkurrenzen
– Evtl. nicht direkte Nachbarschaftskookkurrenzen, ein wenig mehr Struktur vermutlich hilfreich
• Offensichtlich sollten Wörter wie glückliche, glücklicher, unglückliche, glücklichster, usw. zu einer Wortgruppe gehören, – aber nicht glückte!
• Morphologie spielt also vermutlich eine wichtige Rolle, einfach Grundformreduzierung zur Vorclusterung reicht allerdings nicht
• Offenbar gibt es auch verschiedene syntaktische Bedeutungen eines Wortes: „may“ (could, would, should) oder (april, june, july)– Würde Disambiguierungsalgorithmus helfen?
– Unterscheidet dieser denn zwischen syntaktischen Klassen?
• Nur dann, wenn sie sich auch thematisch unterscheiden, also bei may ja, aber bei „walk“ (to have a walk, to walk away) aber leider nicht.
• Perplexity ist das maß, wie perplex etwas ist, wenn es etwas entscheiden soll.
• Falls ich die Tag-Sequenz DET ADJ NN VVFIN PP vorliegt und das nächste tag DET ist, – Dann prüfen, mit welcher Wahrscheinlichkeit Modell DET
vorhersagt
– z.B. 0.2, perplexity ist dann 1/p = 5
• Allerdings kann das natürlich nicht auf globale Cluster gemessen werden, sondern auf konkreten Anwendungen in Sätzen, für welche vorher ein entsprechendes Modell angelernt wurde.