Was ist ein Wort?
Wie ist ein einzelnes Wort gegenüber einer Wortgruppe oder
einem Wortteil abzugrenzen? Segmentierungsproblem
Wann liegt dasselbe Wort vor, wann verschiedene Wörter?
Identifizierungsproblem
Was ist ein Wort?
Orthographische KriterienDistributionelle
Kriterien I: Isolierbarkeit
Distributionelle
Kriterien II: Kohäsion
Phonologische KriterienSemantische Kriterien
Orthographische Kriterien
„Ein oberflächliches, aber recht brauchbares Kriterium ist die
Orthographie: Wörter sind Einheiten, die zwischen Abständen
geschrieben werden.“
(Bühler u.a. 1972:87)
Aufgabe: im folgenden Text betrachten Sie diejenigen Einheiten,
die zwischen Abständen stehen.
Aus: Lewis Carrol, Alice‘s Adventures in Wonderland
1.
There was nothing so very remark‐2.
able in that; nor did Alice think it so very3.
much out of the way to hear the Rabbit say4.
to itself, »Oh dear! Oh dear! I shall be5.
too late!«
(when she thought it over after‐6.
wards, it occurred to her that she ought7.
to have wondered at this, but at the time8.
It all seemed quite natural); but when the9.
Rabbit actually took a watch out its waist‐10.
coat‐pocket, and looked at it, and then hur‐11.
ried
on, Alice started to her feet, for it12.
flashed across her mind that she had never13.
before seen a rabbit with either a waistcoat‐14.
pocket, or a watch to take out of it, and15.
burning with curiosity, she ran across the16.
field after it, and fortunately was just17.
in time to see it pop down a large rabbit‐18.
hole under the hedge.
Aus: Lewis Carrol, Alice‘s Adventures in Wonderland
1.
There was nothing so very remark‐2.
able in that;
nor did Alice think it so very3.
much out of the way to hear the Rabbit say4.
to itself, »Oh
dear! Oh dear! I shall be5.
too late!«
(when she thought it over after‐6.
wards, it occurred to her that she ought7.
to have wondered at this, but at the time8.
It all seemed quite natural);
but when the9.
Rabbit actually took a watch out its waist‐10.
coat‐pocket, and looked at it, and then hur‐11.
ried
on, Alice started to her feet, for it12.
flashed across her mind that she had never13.
before seen a rabbit with either a waistcoat‐14.
pocket, or a watch to take out of it, and15.
burning with curiosity, she ran across the16.
field after it, and fortunately was just17.
in time to see it pop down a large rabbit‐18.
hole under the hedge.
Aus: Lewis Carrol, Alice‘s Adventures in Wonderland
1.
There was nothing so very remark‐2.
able in that; nor did Alice think it so very3.
much out of the way
to hear the Rabbit say4.
to itself, »Oh dear! Oh dear! I shall be5.
too late!«
(when she thought it over after‐6.
wards, it occurred to her that she ought7.
to have wondered at this, but at the time8.
It all seemed quite natural); but when the9.
Rabbit actually took a watch out its waist‐10.
coat‐pocket, and looked at it, and then hur‐11.
ried
on, Alice started to her feet, for it12.
flashed across her mind that she had never13.
before seen a rabbit with either a waistcoat‐14.
pocket, or a watch to take out of it, and15.
burning with curiosity, she ran across the16.
field after it, and fortunately was just17.
in time to see it pop down a large rabbit‐18.
hole under the hedge.
Orthographische Kriterien
Verbesserte Fassung der Definition:
„Ein Wort ist eine Folge von Schriftzeichen, die zwischen einem
Zwischenraum oder Interpunktionszeichen und dem nächsten
Zwischenraum oder Interpunktionszeichen steht.“
Aber damit sind noch nicht alle Schwierigkeiten beseitigt.
Orthographische Kriterien
Der Punkt
Wenn der Punkt immer als Interpunktionszeichen gilt, werden
Abkürzungen wie d.h.
oder F.D.P.
in zwei oder drei Wörter aufgelöst.
Der Abkürzungspunkt in usw.
oder vgl.
ist zudem nicht vom Punkt am
Satzende zu unterscheiden.
Der Bindestrich
Schreibungen mit Bindestrich: ein Wort oder mehrere Wörter?
Beide Lösungen haben Vor‐
und Nachteile (s. Textbeispiele)
Eine zusätzliche Erschwerung: dient zur Silbentrennung am Zeilenende
Aus: Lewis Carrol, Alice‘s Adventures in Wonderland
1.
There was nothing so very remark‐2.
able
in that; nor did Alice think it so very3.
much out of the way to hear the Rabbit say4.
to itself, »Oh dear! Oh dear! I shall be5.
too late!«
(when she thought it over after‐6.
wards, it occurred to her that she ought7.
to have wondered at this, but at the time8.
It all seemed quite natural); but when the9.
Rabbit actually took a watch out its waist‐10.
coat‐pocket, and looked at it, and then hur‐11.
ried
on, Alice started to her feet, for it12.
flashed across her mind that she had never13.
before seen a rabbit with either a waistcoat‐14.
pocket, or a watch to take out of it, and15.
burning with curiosity, she ran across the16.
field after it, and fortunately was just17.
in time to see it pop down a large rabbit‐18.
hole
under the hedge.
co‐existout‐of‐the‐way [things]vorbegrifflich‐symbolischEx‐NationalspielerDehnungs‐hCarl und Lily Pforzheimer‐Stiftung
Vor‐
und NachteileSpracherwerb und ‐entwicklungGepäckannahme‐
und ‐ausgabestelle
Orthographische Kriterien
Der Apostroph
die Festlegung ist keineswegs leicht:
En. I‘ve
Mary‘ll
Ma‘am
didn‘t
Dt. ew‘ger
Sorg‘
war‘s
Überdies dient er auch als Einführungszeichen! Auch hier ergeben sich unauflösbare Mehrdeutigkeiten.
Zu klären:
Ob Zahlen und Sonderzeichen als Wörter gelten sollen?
1 2 3 1001 & % $ £
Wie sind solche Segmente zu werten?
S.3‐5
§88a 23.1.1978
½ 5%ig
Römische Zahlen unterscheiden sich nicht von Großbuchstaben (
Paul VI
Manche Zechen erfühlen mehrere Aufgaben
. / ‐
Orthographische Kriterien
„Es ist nicht wahr, dass jeder weiß, was ein Wort ist, und selbst
wenn es wahr wäre, sollte man „jeder“
nicht so verstehen, dass
dazu auch Computer zählen. Einer Ansammlung von Drähten,
Magneten und Transistoren fehlt selbst das elementarste
Sprachgefühl. […] Was immer der Einsatz eines Computers sonst
für uns leistet, so zwingt er uns doch wenigstens, unsere
stillschweigenden Annahmen offenzulegen.“
(Wachal
1966:16)
Orthographische Kriterien
Unterschiede in der Getrennt‐
und Zusammenschreibung
und der Verwendung der InterpunktionszeichenDt.
zu Hause
|
zuhause
Konzert‐Debüt
| Konzertdebüt
d.h.
| d. h.
zugrundegelegt
| zugrunde gelegt
| zu Grunde gelegt
En.
to‐day
| today
head master
| headmaster
pay roll
| payroll
| pay‐roll
Manche Rechtschreibregeln scheinen oft ungenau oder in sich
widersprüchlich zu sein.
Orthographische Kriterien
Das orthographische Kriterium liefert selbst keine Rechtfertigung
für die Setzung von Zwischenräumen und Interpunktionszeichen, es orientiert sich an einer Praxis, die wiederum in anderen
Kriterien begründet sein muss.Viele Sprachen haben überhaupt keine SchrifttraditionEs gibt Schriftsysteme, die keineswegs den Anspruch erheben,
Wörter besonders zu kennzeichnen
Das orthographische Kriterium kann somit kaum zur Grundlage
einer wissenschaftlichen Definition des Worts gemacht werden,
wenn es auch für die Praxis (besonders in der maschinellen
Sprachverarbeitung) und für das Bewusstsein de Sprachbenutzer
von großer Bedeutung ist.
Distributionelle
Kriterien I: Isolierbarkeit
“[Das Wort] kann durch Pausen isoliert werden, so wie in der
geschriebenen Sprache die Wörter durch Zwischenräume
voneinander getrennt sind.“
(Funk‐Kolleg 1973:I, 152)
Charles Hocket (1958:166f) betont,
dass die Wortgrenzen Punkte sind, an denen pausiert werden kann,
dass Wörter also durch potentielle Pausen
definiert sind,
und nicht durch die Pausen, die in einer einzelnen Äußerung auftreten.
Wie lässt sich aber feststellen ob an einem bestimmten Punkt in
einer Äußerung eine Pause gemacht werden kann?
Distributionelle
Kriterien I: Isolierbarkeit
Test durch mehrfache Wiederholung (Pausen, Räuspern, äh
usw.):
durchzwischenräumevoneinandergetrenntdurchzwischenräume…voneinandergetrenntdurch…zwischenräumevoneinander…getrenntErgenbis
durch…zwischenräume…voneinander…getrennt
Auch durchaus denkbar:
von…einander, zwischen…räume, ge…trennt
Obwohl es gemeinhin nicht
als einziges Wort gilt, ist andererseits
keine Unterbrechung zu beobachten bei einem Segment wie
alldiese
oder undsoweiter.
Distributionelle
Kriterien I: Isolierbarkeit
Einige grundsätzliche Einwände gegen das geschilderte Verfahren
Wie lässt sich entscheiden, ob ein Segment eine Wiederholung eines
anderen ist?
Kann man also z.B. mit haben…wir
begründen, dass auch hamwer
zwei
Wörter sind?
Welche Erscheinungen sollen als Pausen gelten?
Wie groß
muss eine Verzögerung im Redefluss sein, um als Wortgrenze
anerkannt werden zu können?
Hocket selbst schlägt eine andere Methode zur Ermittlung der
potentiellen Pausen vor:„Der erste Schritt bei der Bestimmung der Wörter in einer
Äußerung besteht darin, dass wir Sprecher bitten, die Äußerungen
langsam und sorgfältig zu wiederholen.“
(1958:166)
Distributionelle
Kriterien I: Isolierbarkeit
Der Verdacht ist nicht unbegründet, dass das Pausenkriterium auf
einer ungerechtfertigte Parallele zwischen gesprochener und
geschriebener Sprache beruht.„Der Einfluss des Geschriebenen ist so groß, dass viele Menschen
in gesprochener Sprache tatsächlich „hören“, was sie beim
Schreiben sehen.“
(Palmer dt.1974:40;=1971:42)
Distributionelle
Kriterien I: Isolierbarkeit
„Ein Wort […] ist eine freie Form, die nicht vollständig aus (zwei
oder mehr) kleineren freien Forme besteht; kurz, ein Wort ist eine
minimale freie Form.“
(Bloomfield 1933:178)
nach Bloomfield:
Eine sprachliche Form ist eine Folge von Phonemen, die eine konstante und
bestimmte Bedeutung hat. (1933:158)
Eine freie Form ist eine solche, die als Satz auftritt, d.h. für sich allein
gesprochen werden kann (1933:160,179)
Kriterien: Freiheit und Minimalität
Distributionelle
Kriterien I: Isolierbarkeit
Sätze, die nur aus einem Wort bestehen, treten im Gespräch
typischerweise als Antworten auf.
Bist du schon in dem neuen Visconti‐Film gewesen? ‐
Vorgestern.
Zur Bestimmung von Wörter dürfen aber keine Dialoge
herangezogen werden, in denen über sprachliche Elemente
gesprochen wird.
Did
you
say
révise
or
dévise? ‐
Re.
(Mathews 1974:161)
Gebrauch vs. Zitieren
„Im Kontext des „Zitierens“
können Spracheinheiten jeden Ranges
und jeder Ebene als ganze Äußerungen vorkommen.“
(Lyons dt.1971:205;=1968:201).
Distributionelle
Kriterien I: Isolierbarkeit
Gewisse Formen, die man üblicherweise für Wörter hält,
werden nie oder nur unter ungewöhnlichen Bedingungen
als Sätze verwendet.„Die Form the
wird zwar selten für sich allein gesprochen, spielt
aber in unserer Sprache in etwa dieselbe Rolle wie die Formen this
und that, die ohne weiteres als Sätze auftreten; diese Parallele
veranlasst uns , the
als Wort zu klassifizieren: this
thing
: that
thing: the
thing
this: that: (the).“
(Bloomfield 1933:179)
Problematische Argumentation, denn
un‐
(unmöglich) wie nicht
‐er
(En. brighter) wie more
(more
brilliant)
auch fragwürdig:
zum
vertrete zwei Wörter (weil es eine Variante von zu dem
sei)
Distributionelle
Kriterien I: Isolierbarkeit
Jedes präzise Kriterium zur Abgrenzung von Wörtern liefert nicht
durchgängig Ergebnisse, die dem intuitiven Urteil oder der
Gesichtspunkten der Nützlichkeit entsprechen.Eine Reihe von Formen, die man gewöhnlich als Wörter
bezeichnet, nicht
frei auftreten.
Spezielle Formen(in Isolation)
(nicht frei)
En.
mine
my
Fr. (ich)
moi
je
Distributionelle
Kriterien I: Isolierbarkeit
Bei der Definition des Worts als „minimale freie Form“
bereitet
auch die Minimalität einige Schwierigkeiten.
Großvater
( Betonung!) •
≠
groß
Vater
thirty‐seven
(Unmittelbare Bestandteile)•
thirty‐seventh
= [thirty‐seven]th
(1 Wort)
heavy
smoker
(Unmittelbare Bestandteile)•
[heavy
smok]er
„jemand, der viel raucht“
1 Wort•
Ambiguität: heavy
[smoker] „ein Raucher, der schwer ist“
2 Wörter
japanisch
vs. [seine Angst ist] ja panisch
Distributionelle
Kriterien II: Kohäsion
“Eine der charakteristischen Eigenschaften des Wortes ist
einerseits seine Neigung zur inneren Stabilität […] und
andererseits zur positionellen Mobilität (d.h. es ist mit anderen
Wörtern in demselben Satz vertauschbar).“
(Lyons dt.1971:207=1968:203)Die Reihenfolge der Teile innerhalb eines Wortes ist fest, während
die Reihenfolge der Wörter im Satz verändert werden kann.
du‐studier‐st‐fremd‐sprache‐n
(Aussage)
studier‐st‐du‐fremd‐sprache‐n
(Frage)
fremd‐sprache‐n‐studier‐st‐du
(Ausruf)
[wenn] du‐fremd‐sprache‐n‐studier‐st
(Nebensatz)
Ergebnis:
du, studier‐st, fremd‐sprache‐n
*st‐studier, *fremd‐n‐sprache, *sprache‐fremd‐n, *n‐fremd‐sprache
Distributionelle
Kriterien II: Kohäsion
Umstellung
d‐ie‐modern‐e‐lingu‐ist‐ik‐brauch‐t‐ein‐eigen‐es‐fach‐vokabul‐ar
brauch‐t‐d‐ie‐modern‐e‐lingu‐ist‐ik‐ein‐eigen‐es‐fach‐vokabul‐ar
usw.
aber nicht inerhalb:
d‐ie‐modern‐e‐lingu‐ist‐ik
ein‐eigen‐es‐fach‐vokabul‐ar
obwohl es sich nach herkömmlichen Verständnis
jeweils um drei Wörter handelt
Also: die verschiebbare Teile sind häufig größer als „Wörter“.Sprachübergreifend
erhebliche Unterschiede in der Freiheit der Wortstellung
im Lateinischen wird der Permutationstest weit eher zu Wörtern im üblichen
Sinn als etwa im Französischen.
Distributionelle
Kriterien II: Kohäsion
Auch die Annahme, dass die Reihenfolge der Elemente innerhalb
eines Worts fest sei, ist nicht durchgängig haltbar.
Türflügel, Flügeltür
shotgun
(Schießgewehr), gunshot
(Gewehrschuß)
verunziert, unverziert
Vertauschbarkeit lässt sich auf mehreren Ebenen beobachten
Satz (Phrasen)
innerhalb Phrasen
Bestandteile von „Wörtern“
Mit der Vertauschungen gehen häufig Bedeutungsveränderungen
einher.Es gibt aber auf jeder Ebene Fälle, wo die Bedeutung nicht von der
Anordnung der Element abhängt.
Distributionelle
Kriterien II: Kohäsion
d‐ie‐wand‐d‐er‐neu‐en‐groß‐en‐schule‐ist‐weder‐ver‐un‐zier‐t‐noch‐be‐schäd‐ig‐t
Phrasen1.
d‐ie‐wand‐d‐er‐neu‐en‐groß‐en‐schule2.
ist3.
weder‐ver‐un‐zier‐t‐noch‐be‐schäd‐ig‐t
mögliche Reihenfolgen
1‐2‐3
3‐2‐1
2‐1‐3 (als Frage)
1‐3‐2 (als Nebensatz)
innerhalb Phrasen1.
neu‐en‐groß‐en
& groß‐en‐neu‐en3.
ver‐un‐zier‐t
& un‐ver‐zier‐t
Distributionelle
Kriterien II: Kohäsion
“[Das Prinzip,] dass ein Wort nicht von anderen Formen
unterbrochen werden kann, hat beinahe universale Gültigkeit. […]
Die Ausnahmen von diesem Prinzip sind so selten, dass sie fast
pathologisch scheinen.”
(Bloomfield 1933:180)
zwei Wörter
die‐sprache
die‐englische‐sprache, die‐deitsche‐sprache
ein Wort
fremd‐sprache
*fremd‐deutsche‐sprache
Distributionelle
Kriterien II: Kohäsion
Tmesis
(typisch für Dt.)
fremd‐‐oderoder‐‐muttermutter‐‐sprache
ein‐‐undund‐‐ausaus‐‐schalt‐en
Portugiesisch
comprar‐ei
(ich werde kaufen)
comprar‐‐tete‐‐ei
(ich werde dir kaufen)
Beispiele
modern‐e
modern‐‐stst‐‐e
modern‐‐ee‐‐undund‐‐tradtrad‐‐itionition‐‐ellell‐‐e
Wenn man WWöörterrter
als solche Einheiten bezeichnet, zwischen deren
Bestandteile keine WWöörterrter
eingefügt werden können, so wird die Definition
zirkulär.