Top Banner
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
39

Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Oct 14, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Wortarten-Tagging(auch Part-of-Speech(PoS)-Tagging)

Ein erster Schritt zur syntaktischen Annotation

Page 2: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Übersicht

• Allgemeines zur Ambiguität• Einführung Wortarten-Tagging• Tagsets• Automatisches Taggen eines Korpus

Page 3: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Ambiguität• verschiedene Arten der Ambiguität

(Mehrdeutigkeit)– syntaktische– lexikalische– phonologische– orthografische

Mehrdeutigkeit tritt in echten Kommunikations-situationen sehr selten auf.

Sprachwissenschaftliche Beispiele sind meist konstruiert.

Page 4: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Ambiguität

Beispiel (1) ist ein typisches konstruiertes Beispiel.

(1) Der Mann sieht den Jungen mit dem Teleskop.

Beispiele (2) und (3) sind im echten Kontext sicher nicht mehrdeutig.

(2) Klaus hat ein(en) Laster.(3) Klara isst im Garten.

Page 5: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Ambiguität

• Für Rechner gibt es kaum Strukturen, die nicht mehrdeutig sind.

• Grund: mangelnde Informationen über– Semantik– Wahrscheinlichkeit– Weltwissen– Kontext

Page 6: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Ambiguität

(1) Diese Brause trinkt sie am Liebsten.(2) Die Mutter liebt die Tochter.(3a) Klaus hat lange Nudeln gegessen.(3b) Klaus hat lange Äpfel gegessen.• Aufgrund reiner morpho-syntaktischer

Informationen sind diese Sätze für Maschinen nicht disambiguierbar.

Page 7: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• explizite Annotierung von syntaktischen Informationen dient der maschinellen Bearbeitung

• z.B.:– Suche in Korpora (für uns wichtig!)– maschinelle Übersetzung– weitere maschinelle Annotation

• z.B. Parsing• z.B. morphologische Annotation

Page 8: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• Auflösung unterschiedlicher Funktion bei orthografischer Ambiguität

(1) Ohne/KOUI den Applaus abzuwarten, ging der Künstler.

(2) Ohne/APPR den Applaus ging der Künstler.

• Wortartentags disambiguieren (vereindeutigen) verschiedene Lesarten

Page 9: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• in einigen Fällen wird die Motivation für Wortarten-Tagging noch deutlicher

• Fragestellung: Welches zweier aufeinanderfolgender Adjektive im Dativ (mask./neut.) endet auf ``m´´?

(1) in einem schönem großen Garten(2) in einem schönen großem Garten(3) in einem schönem großem Garten

Page 10: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• wenn nicht explizit vermerkt ist, welche Wortart ein Wort hat, kann man nur nach Buchstaben-folgen suchen

Hier:``Wort auf -en gefolgt von Wort auf –em gefolgt

von groß geschriebenem Wort´´Diese Suche unterscheidet nicht nach WortartenErgebnis auf folgender Folie zeigt viele nicht

gewollte Resultate

Page 11: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Suchausdruck: [word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

mit einem deutlich erhöhten gesundheitslichem Risiko . Sie seien. Für Deutschland nehmen außerdem Bundestagspräsidentin Rita Süssmuth ,

an . Es werden außerdem Projekte und Institutionen besuchtwurde halboffiziell mit dessen mangelhaftem Französisch begründet . Ein

gleichsam eine Schnittstelle zwischen reinem Klangstück und Diskurs ., eine Welt zwischen enttäuschtem Sturm und Drang und

zu Kunden in dessen angestammtem Versorgungsgebiet . Wirtschaftsminister GünterNur wenige Jordanier trauen seinem Bruder und designierten Nachfolger

, die Gratwanderung zwischen eigenem Umfeld und etablierten Machtstrukturenund Dorothea Schrade kommen diesem Bedürfnis nach . Seit

Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen ,weiter die Schere zwischen gewerkschaftlichem Forderungskatalog und Alltag in

Page 12: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• wenn man versucht die Treffermenge einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht

Beispiel:Suche ``Artikel gefolgt von Wort auf -en

gefolgt von Wort auf -em gefolgt von groß geschriebenem Wort´´

Ergebnis auf folgender Folie

Page 13: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

[word="einem|dem|seinem|ihrem|diesem|dem"][word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

der Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen ,

Page 14: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

Fazit• zu ``weite´´ Kriterien liefern zu viele

Ergebnisse – d.h. zu viele falsche Treffer

• zu ``enge´´ Kriterien liefern zu wenige Ergebnisse– d.h. zu viele richtige Treffer werden nicht

gefunden

Page 15: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• Und mit Wortarten-Tags?Suchausdruck:[pos="ADJA" & word=".+en"][pos="ADJA" & word=".+em"]

mit einem deutlich erhöhten gesundheitslichem Risiko . SieFrauen mit seinem gewohnten nachrichtlichem Blick zu erfassen

Page 16: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

• ohne Wortarten-Tags umfasst die Menge der Ergebnisse entweder– alle richtigen Ergebnisse, aber auch viele

falsche (Übergenerierung)– nur richtige Ergebnisse, aber nicht alle

richtigen (Untergenerierung)

Page 17: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

Übergenerierung

Menge der gesuchten Strukturen

Menge der Treffer

Page 18: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Motivation für Wortarten-Tagging

Untergenerierung

Menge der gesuchten Strukturen

Menge der Treffer

Page 19: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Definition Wortarten-Tagging

• Wortarten-Tagging ist die Zuweisung von Wortarten-Kennungen (Tags) an Wortformen (Tokens) im Text

• ein Token ist eine typischerweise durch Leerzeichen abgegrenzte Buchstaben-folge im Text– ein Token kommt also immer nur ``einmal´´

vor

Page 20: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Definition Wortarten-TaggingJohn/NEMack/NEträgt/VVFINseinen/PPOSATSpitznamen/NN"/$(das/ARTMesser/NN"/$(zu/APPRRecht/NN./$.

links Tokensrechts Tags

zwei Tokens,ein Type

Page 21: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Tagsets

• Zuweisung der Wortarten-Tags erfolgt durch eine endliche Menge von Tags, die eine Wortart oder Unterwortart beschreiben

• diese Menge nennt man Tagsets• Tagsets müssen

– Tags eindeutig definieren– jedes Token definieren können– Konventionen für Zweifelsfälle bereithalten

Page 22: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

STTS

• einen Quasi-Standard beim Wortarten-Tagging stellt das STTS dar

• STTS = Stuttgart-Tübingen-Tagset• das STTS umfasst in seiner ``kleinen´´

Version 54 Tags• das STTS wird in einer Tagset-

Beschreibung (Guidelines) definiert

Page 23: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Hauptwortarten im STTS• 1. Nomina (N) Hund, Katze, Maus, Peter

• 2. Verben (V) arbeiten, beten, sollen, sein

• 3. Artikel (ART) der, die, das, ein

• 4. Adjektive (ADJ) schön, blöd, töfte

• 5. Pronomina (P) er, sie, es, sich, irgendein

• 6. Kardinalzahlen (CARD) zwei, 231.456, III

• 7. Adverbien (ADV) sehr, üblicherweise

• 8. Konjunktionen (KO) und, oder, dass, weil

• 9. Adpositionen (AP) mit, ohne, an ... entlang

• 10. Interjektionen (ITJ) oh weh, zapperlot

• 11. Partikeln (PTK) zu, wider, bitte

Page 24: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Kriterien für Definition von Tags

• Einteilung nach unterschiedlichen Kriterien– distributionelle: über/APPR die Straße

die Straße entlang/APPO– morphologische: findet/VVFIN,

gefunden/VVPP– semantische: Klaus/NE, Maus/NN

• Mischung der Kriterien kann zu unterschiedlichen Ergebnissen führen

• Einteilung ist theorieabhängig

Page 25: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Konventionen für Tagging

• Konventionen halten Vorgehen für strittige Fälle fest

• Sie müssen – eindeutig sein– intersubjektiv sein– möglichst vollständig sein

Page 26: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Beispiele für Konventionen

• einige Wörter tragen Merkmale verschiedener Wortarten ins sich

• Konventionen legen eindeutige Annotierung fest(1) eine gute/ADJA Idee(2) Das ist das Gute/NN daran.(3) der angemalte/ADJA Zaun(4) Man hat den Zaun angemalt/VVPP.

Page 27: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Umsetzung der KonventionenDie korrekte händische Annotation eines Korpus

erfordert die Einhaltung der Konventionen und folgender Regeln:

• Korpus wird zunächst unabhängig von zwei verschiedenen Annotatoren annotiert

• Ergebnisse werden gegeneinander abgeglichen und Inter Annotator Agreement gemessen(d.i. die Übereistimmung zwischen den Entscheidungen der unterschiedlichen Annotatoren)

• erst bei hinreichender Übereinstimmung wird nur noch von einem Linguisten annotiert

Page 28: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf
Page 29: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

AnwendbarkeitFür ein Tagset müssen immer die Argumente des

linguistisch Wünschenswerten gegen die des technisch Machbaren abgewogen werden.

• hohes Inter Annotator Agreement muss erreichbar sein

• Einteilung der Klassen muss automatische Annotation mit niedriger Fehlerrate ermöglichen, d.h.– Klassen müssen auch automatisch klar

gegeneinander abgrenzbar sein– Klassen dürfen nicht zu selten auftreten, da sonst zu

geringe Trainingsdatenmenge für automatisches Lernen

Page 30: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Beispiel für KompromissEin Standardbeispiel für einen Kompromiss ist das Tag

ADJD im Standard-Tagset STTS.• Wörter, die sowohl als prädikatives Adjektiv als auch als

Adverb fungieren können, werden ADJD getaggt -losgelöst von ihrer jeweiligen Verwendung.

(1) Maria singt schön/ADJD. --> adverbial

(2) Maria ist schön/ADJD. --> prädikativ

Eine Aufteilung der beiden Lesarten wäre sowohl mit stochastischen als auch mit regelbasierten Verfahren nicht möglich.

Page 31: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Automatisches Tagging

Es gibt zwei Arten des automatischen Taggings:

• regelbasiertes Tagging– benötigt (handgeschriebene) Grammatik

• stochastisches Tagging– benötigt (handannotiertes) Trainings-Korpus

Page 32: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Regelbasiertes Tagging

• typischerweise zwei Ebenen für regelbasierte Tagger– Lexikon-Nachschlag weist Ambiguitätsklasse

zu– Grammatik-Regeln disambiguieren

Eine Ambiguitätsklasse ist die Menge aller Tags, die ein Wort losgelöst vom Kontext haben kann.

Page 33: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Regelbasiertes Tagging

Die/ART-PRELS-PDS Hose/NN sitzt/VVFIN schlecht/ADJD ./$.

• ``Constraints´´ schränken die Lesarten ein, z.B.:– kein Relativpronomen am Satzanfang– kein (substituierendes) Demonstrativ-

pronomen vor Nomen

Page 34: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Regelbasiertes Tagging

• Probleme regelbasierten Taggings:– Lexikon ist nie vollständig– es gibt kaum echte Constraints– Interaktion der Regeln schlecht überschaubar

Selten/ADJD trinkt/VVFIN die/ART-PRELS-PDS Milch/NN.

Page 35: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Stochastisches Tagging

• benötigt nur getaggtes Korpus als Trainingsdaten

• berechnet Übergangswahrscheinlichkeiten• weist wahrscheinlichstes Tag zu• kann auch Rangfolge zuweisen

Page 36: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Stochastisches Tagging

• zwei Arten von Wahrscheinlichkeiten1. Wahrscheinlichkeit für Tag in Bezug auf

vorausgehende(s) Tag(s) (distributionell)2. Wahrscheinlichkeit für Wort in Bezug auf

Tag (lexikalisch)

P (Tag|vorhergehende(s) Tag(s)) * (Wort|Tag)

Page 37: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Stochastisches Tagging(1) Ich/PPER bügle/VVFIN meine/PPOSAT-VVFIN

Hose/NN ./\$.(2) Ich/PPER meine/PPOSAT-VVFIN ,\$. das/PDS

ist/VAFIN falsch/ADJD .\$.• Es wird die Wahrscheinlichkeit, dass VVFIN

oder PPOSAT `meine' ist, multipliziert mit der Wahrscheinlichkeit, dass VVFIN oder PPOSAT entweder VVFIN (1) oder PPER (2) folgen.

• Höhere lexikalische Wahrscheinlichkeit von `meine' für PPOSAT wird in (2) durch höhere distributionelle Wahrscheinlichkeit von VVFIN nach PPER ausgeglichen.

Page 38: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Probleme stochastischen Taggings

• Wahrscheinlichkeit bedeutet nicht unbedingt Sicherheit

• Tagger sehr abhängig von Trainingskorpus

• Entscheidungen – typischerweise auf engen Kontext begrenzt– Entscheidungen des Taggers nicht

nachvollziehbar

Page 39: Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

Wortarten-Tagging

Besondere Relevanz für Korpuslinguistik• Korpora meist nicht hand-annotiert• daher können Tags fehlerhaft sein• dies muss in Interpretation der

Suchergebnisse berücksichtigt werden