Top Banner
Einführung in die Computerlinguistik Grundkonzepte Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-10-16 Sprache Das Wort Weitere linguistische Grundbegriffe Zangenfeind: Grundkonzepte 1 / 38
35

Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Nov 01, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Einführung in die ComputerlinguistikGrundkonzepte

Alex Fraser / Robert Zangenfeind

Center for Information and Language Processing

2019-10-16

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 1 / 38

Page 2: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Die Grundfassung dieses Foliensatzes wurde von Dr. BenjaminRoth erstellt. Fehler und Mängel sind ausschließlich meineVerantwortung.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 2 / 38

Page 3: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Outline

1 Sprache

2 Das Wort

3 Weitere linguistische Grundbegriffe

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 3 / 38

Page 4: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Natürliche Sprache

In der Computerlinguistik beschreiben, modellieren,verarbeiten wir natürliche Sprache.Nicht: Programmiersprachen, Logiksprachen, Kunstsprachen(z.B. Boeing manuals)

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 5 / 38

Page 5: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Definition “Natürliche Sprache”?

Gebärdensprache?Kommunikation unter Tieren (Menschenaffen, Delphine)?Latein, Sumerisch (?)Esperanto (?)Ein System von Zeichen (Wortschatz) und Regeln(Grammatik) zur Mitteilung von Bedeutungen (?)Hier kein Versuch der Definition …Im Wesentlichen (in CL):Englisch, Deutsch und etwa 100 weitere SprachenTypologisch sehr schlechte Abdeckung!

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 6 / 38

Page 6: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Begriffsklärung “Wort”

Der Begriff “Wort” ist ungenau, wenn nicht weiter spezifiziert.Meinen wir das abstrakte Wort oder ein konkretesVorkommen?Unterscheidungen:

Wortform vs. LexemToken vs. Type

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 8 / 38

Page 7: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Wortform vs. Lexem

Wortform: flektierte Form eines Wortes, so wie sie im Textoder in (geschriebener) Sprache vorkommt.Beispiele: schönes, engl. singsEin Lexem ist eine Klasse lexikalisch äquivalenter Wortformen.Diese Wortformen repräsentieren das Lexem in verschiedenenUmgebungen.Beispiel: L1 = {“sing”, “sings”, “singing”, “sang”, “sung”}Oft wird auf ein Lexem mit seiner Zitierform Bezuggenommen, z.B. Infinitiv oder erste Person Singular fürVerben und Nominativ Singular für Nomen.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 9 / 38

Page 8: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Token vs. Type

Token / Wortvorkommnis: Konkretes Vorkommen z.B. einesWortes (z.B. vor oder nach einem anderen Token).Type / Worttyp:Ein Type bezeichnet eine Klasse von Token ...

..., die nicht unterschieden werden

..., die als Kopien wahrgenommen werden

..., die gleich sindGleichheit: verschiedene Kriterien der Unterscheidung, siehenächste Folieeine Rose ist eine Rose ⇒ 5 Token, 3 TypesVerhältnis von Types zu Tokens (type-to-token ratio) ist einewichtige Kennzahl zur Charakterisierung von Texten.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 10 / 38

Page 9: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Gleichheitskriterien für Token

Für die Anzahl der Types in einem Text macht es einenUnterschied, ob wir uns auf Wortformen oder Lexemebeziehen.Beispiel: eine Rose ist eine Rose und viele Rosen ergebeneinen StraußWortformen:⇒ 11 Token, 9 TypesLexeme:⇒ 11 Token, 7 Types

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 11 / 38

Page 10: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Bestimmungskriterien für die Einheit “Wort”

orthographisch/graphematischphonologischmorphologischmorphosyntaktischsemantisch“Intuition”(Literatur: Heringer, H.-J.: Morphologie. Paderborn 2009.)

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 12 / 38

Page 11: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Orthographisches Kriterium

“Wörter sind sprachliche Einheiten, die als Folgen vonBuchstaben zwischen Leerzeichen geschrieben werden.”aber:Sprachen ohne Buchstabenschriftweitere Trennzeichenabtrennbare Präfixe bei zusammengesetzten Verbenzirkuläre Definition!

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 13 / 38

Page 12: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Phonologisches Kriterium

“Wörter sind durch eine spezielle einheitliche Akzentstrukturgekennzeichnet, die sich von der entsprechenderWortgruppen/Phrasen unterscheidet.”unterscheidbar: Wíenerwald vs. Wiener Wáldaber:präzisere Beschreibung der Intonationsmuster nötig

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 14 / 38

Page 13: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Morphologische Kriterien

a) “Ein morphologisches Wort ist eine grammatische Einheit,die nicht von Lexikoneinheiten unterbrochen werden kann.”aber:Im- und Export“Lexikoneinheit” → unbestimmt bzw. zirkuläre Definitionb) “Wörter sind solche flektierbaren grammatische Einheiten,die über eine einheitliche Flexion verfügen.”aber:nicht flektierbare Wörter?!

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 15 / 38

Page 14: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

“klein”: Starke Adjektivflexion

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 16 / 38

Page 15: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Morphologische Kriterien

a) “Ein morphologisches Wort ist eine grammatische Einheit,die nicht von Lexikoneinheiten unterbrochen werden kann.”aber:Im- und Export“Lexikoneinheit” → unbestimmt bzw. zirkuläre Definitionb) “Wörter sind solche flektierbaren grammatische Einheiten,die über eine einheitliche Flexion verfügen.”aber:nicht flektierbare Wörter?!

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 17 / 38

Page 16: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Morphosyntaktisches Kriterium

“Wörter sind die kleinsten sprachlichen Einheiten, dieinnerhalb des Satzes permutierbar sind.”aber:syntaktische Regeln lassen oft keine Permutation zudas kleine Haus ⇒ *das Haus kleine

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 18 / 38

Page 17: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Semantische Kriterien

“[...] kleinste Einheiten des Inhalts oder der Bedeutung.”“[...] satzfähiges Lautsymbol mit der Eignung, ein StückWirklichkeit zu meinen.”aber:Funktionswörter, z.B. Partikel zuIdiome, mehrere “Wörter” für einen Begriff! z.B. roter FadenTeilweise ist unklar, wie weit Bezeichner zerlegt werdensollten: Frankfurter Straßennamen Büchlein

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 19 / 38

Page 18: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Symptom der Schwierigkeit der Definition:Rechtschreibregeln

Getrennt vs. zusammen schreibenRad fahren vs. radfahrenDas war nicht zu sehen vs. Das war nicht einzusehen

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 20 / 38

Page 19: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Kriterium: Intuition des Muttersprachlers (1)

Wort = durch Muttersprachler intuitiv erkennbare Basiseinheitdes LexikonsZirkulär!

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 21 / 38

Page 20: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Kriterium: Intuition des Muttersprachlers (2)

Dixon and Aikhenvald (2007):[...] the vast majority of languages spoken by small tribalgroups [...] have a lexeme meaning ‘(proper) name’, but nonehave the meaning ‘word’.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 22 / 38

Page 21: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Das Konzept “Wort”

Der intuitive Begriff “Wort” ist kein eindeutig definiertesKonzept.Die Intuition wird mehr oder weniger gut anhandorthographischer/graphemischer, phonologischer,morphologischer und semantischer Kriterien beschrieben.Viele Wörtern erfüllen alle Kriterien, es gibt aber immerAusnahmen, die mit einigen Kriterien nicht übereinstimmen(vgl. Prototypen- oder Familienähnlichkeit).Wir wir sahen: teilweise ist unsere Intuition nicht eindeutig:Rad fahren vs. radfahrenWortkonzept ist auch kulturabhängig (bei gleicher Bedeutungund syntaktischer Funktion): business trip vs. DienstreiseTheorien, die das Konzept “Wort” unzweideutig definieren(wollen), weichen teils stark vom intuitiven Verständnis desKonzeptes ab.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 23 / 38

Page 22: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Token vs. Type

Token / Wortvorkommnis: Konkretes Vorkommen z.B. einesWortes (z.B. vor oder nach einem anderen Token).Type / Worttyp:Ein Type bezeichnet eine Klasse von Token ...

..., die nicht unterschieden werden

..., die als Kopien wahrgenommen werden

..., die gleich sindGleichheit: verschiedene Kriterien der Unterscheidung, siehenächste Folieeine Rose ist eine Rose ⇒ 5 Token, 3 TypesVerhältnis von Types zu Tokens (type-to-token ratio) ist einewichtige Kennzahl zur Charakterisierung von Texten.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 24 / 38

Page 23: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

ÜbungWie viele Tokens und Types gibt es jeweils in folgenden Sätzenentsprechend dem (i) Wortformkriterium, bzw. (ii)Lexemkriterium?

1 Der Nachrichtensprecher versprach sich.2 New York ist nicht die Hauptstadt der Vereinigten Staaten.3 Er kauft gerne am Samstag ein.4 Sie konnten weder vor- noch zurückgehen.5 Hans war ganz aus dem Häuschen.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 25 / 38

Page 24: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

W:To W:Ty L:To L:Ty5 5 5 5 Der Nachrichtensprecher versprach sich .10 10 10 9 New York ist nicht die Hauptstadt der Vereinigten Staaten .7 7 7 7 Er kauft gerne am Samstag ein .7 7 7 7 Sie konnten weder vor- noch zurückgehen .7 7 7 7 Hans war ganz aus dem Häuschen .

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 26 / 38

Page 25: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

W:To W:Ty L:To L:Ty5 5 5 5 Der Nachrichtensprecher versprach sich .8 8 8 7 New_York ist nicht die Hauptstadt der Vereinigten_Staaten .6 6 6 6 Er [ein]kauft gerne am Samstag _ .7 7 7 7 Sie konnten weder vor- noch zurückgehen .5 5 5 5 Hans war ganz aus_dem_Häuschen .

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 27 / 38

Page 26: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Syntagmatische und paradigmatische Sprachachsesyntagmatische Sprachachse:

Syntagma: Segmentierbare komplexe sprachliche Einheit;Ebene der KombinationSyntagmatische Relationen drücken die Beziehungen zwischenaufeinanderfolgenden Teilen eines Satzes aus, z.B. von einemZeichen (Token) zu einem anderen Zeichen in seinem Kontext.⇒ Grundlage zur Beschreibung der sprachlichen Struktur(Syntax)

paradigmatische Sprachachse:Paradigma: Menge von austauschbaren Zeichen bzw.Elementen derselben Kategorie;Ebene der ErsetzungParadigmatische Relationen fassen sprachliche Einheitenaufgrund ihrer Ähnlichkeit in Kategorien (z.B. Wortarten)zusammen.z.B. Beziehung von einem Zeichen (Lexem oder Wortform) zuanderen Zeichen des gleichen Paradigmas.⇒ Grundlage zur Beschreibung der sprachlichen Einheiten

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 29 / 38

Page 27: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Syntagmatische & paradigmatische Sprachachse: Beispiel

Syntagmatische Relationen im Beispiel:Hans ist Subjekt zu liest.in der Vorlesung ist adverbiale Ergänzung zu sitztusw.

Paradigmatische Relationen im Beispiel:sitzt, lernt, liest sind Verben (3. Person Singular Präsens)die Studentin, ein Student, Hans sind Nominalphrasen(Nominativ Singular)usw.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 30 / 38

Page 28: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Distribution eines Zeichens Z

= Verteilung eines Zeichens ZMenge der Kontexte, in denen Z vorkommtz.B. zwischen kommt fast nur in Kontexten vor, deren rechterTeil eine Nominalphrase ist: zwischen den Pflanzen, zwischenden Seiten

Distributionsanalyse: Verfahren zur Ermittlung sprachlicherStrukturen (amerikanischer Strukturalismus)

1 Segmentierung in Einheiten (Intuition, morphologischeAnhaltspunkte)

2 Überprüfen der Segmente und zusammenfassen inparadigmatische Klassen anhand der Ersetzungsprobe.

3 Finden von syntagmatischen Relationen zwischen denparadigmatischen Klassen.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 31 / 38

Page 29: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Wohlgeformtheit

Ein sprachlicher Ausdruck A aus einer Sprache L heißtwohlgeformt, wenn er (laut Intuition der Sprecher von L) eingültiger Ausdruck von L ist.alternative Herangehensweise: Ein sprachlicher Ausdruck Aaus einer Sprache L heißt wohlgeformt, wenn er (laut Intuitionder Sprecher von L) Sinn ergibt.Noam Chomsky (1957):Colorless green ideas sleep furiously.*Ideas green sleep colorless furiously.nicht wohlgeformte Sätze (Ausdrücke) werden mit Sterngekennzeichnet

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 32 / 38

Page 30: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Deskriptivität vs. Präskriptivität

deskriptive Theorie:beschreibt, was der Fall istHauptinteresse der Linguistik

präskriptive Theorie:schreibt vor, was der Fall sein sollz.B. Rechtschreibreformen, nützlich beim Lernen einerFremdsprache

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 33 / 38

Page 31: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Semiotisches Dreieck

Aspekte der Kommunikation mit sprachlichen Zeichen:symbol: Ausdrucksseite des sprachlichen Zeichens(das Wort “Baum”)thought: Inhaltsseite des sprachlichen Zeichens(das Konzept “Baum”, die Eigenschaften eines Baumes)referent: Gegenstand, Ereignis etc. in der außersprachlichenWirklichkeit. (Menge aller Bäume / ein bestimmter Baum)

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 34 / 38

Page 32: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Arbitrarität und Konventionalität

Bedeutung B eines Ausdrucks A (der Ausdrucksseite einesZeichens) ist im Allgemeinen nicht aufgrund vonEigenschaften von A vorhersagbar (vgl. z.B. Baum)In der Sprechergruppe hat sich die Konvention (Regel,Übereinkunft) durchgesetzt, A zu gebrauchen, wenn man Bmeint (vgl. z.B. Konvention, rechts zu fahren, nicht aber inEngland)Der Ausdruck A ist (in den meisten Fällen) willkürlich(arbiträr) der Bedeutung B zugeordnet

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 35 / 38

Page 33: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Arbitrarität und Konventionalität: Ausnahmen

Ausnahme von der (völligen) Arbitrarität (aber nicht von derKonventionalität): Lautmalereiz.B. Bezeichnung für Gebell von Hunden wird in der Sprachenachgeahmtdt. wau wau (Kindersprache auch für Hund)engl. bow-wowruss. gav gavfranz. ouah ouahThai hoang hoangjapan. kyankyanindones. gongong⇒ ist also nicht (bzw. nur sehr wenig) arbiträr, weil am realenEreignis orientiert (Konvention ist aber dennoch vorhanden)

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 36 / 38

Page 34: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

ÜbungWelche Schwierigkeiten können bei der Distributionsanalyseauftreten, insbesondere in Schritt 2?Wdh.: Distributionsanalyse: Verfahren zur Ermittlung sprachlicherStrukturen (amerikanischer Strukturalismus)

1 Segmentierung in Einheiten (Intuition, morphologischeAnhaltspunkte)

2 Überprüfen der Segmente und zusammenfassen inparadigmatische Klassen anhand der Ersetzungsprobe.

3 Finden von syntagmatischen Relationen zwischen denparadigmatischen Klassen.

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 37 / 38

Page 35: Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Zum Schluss: Besonders klausurrelevant

Wortform, Lexem, Token, TypeDefinitionsversuche des Wortkonzepts

Orthographisch, phonologisch, morphologisch,morphosyntaktisch, semantisch, intuitiv

Paradigmatische vs. syntagmatische SprachachseDistribution bzw. DistributionsanalyseWohlgeformtheit, Deskriptivität vs. PräskriptivitätSemiotisches DreieckArbitrarität

Sprache Das Wort Weitere linguistische GrundbegriffeZangenfeind: Grundkonzepte 38 / 38