Page 1
Die extrinsische und intrinsische Vokalnormalisierung
Welche Beweise gibt es, dass Vokal-Normalisierung extrinsisch ist?
Hauptseminar: Phonetische Modelle des SpracherwerbsDozent: Prof. Dr. Jonathan Harrington
Referentin: Veronika NeumeyerInstitut für Phonetik und SprachverarbeitungLudwig-Maximilians-Universität München
5.Juni 2007
Page 2
Problematik im Alltag
„cat“ gesprochen von einer Frau und einem Mann im Sonagramm unterschiedliche Formantfrequenzen Warum wird das Wort trotzdem richtig identifiziert???
Page 3
Problematik in der Phonetik
Vokale gesprochen von Frauen, Männern und Kindern
unterschiedliche Frequenzen bei F1 und F2
Wie werden die Vokale trotzdem richtig identifiziert???
Peterson & Barney, 1952
Page 4
ÜBERBLICK
Grundfrage Begriffserklärungen Experimente
Überblick Experimente mit Kontext Experimente mit F0 Experimente mit Algorithmen
Vergleich verschiedener Vokal-Normalisations-Methoden
Fazit
Page 5
Grundfrage
Welche Beweise gibt es, dass
Vokal-Normalisierung
extrinsisch ist?
Page 6
Begriffserklärung„Normalisierung“
Einordnung eines Vokals in eine bei dem Hörer bereits angelegte Vokalnorm
→ Herausfiltern von Variationen aufgrund von anatomischen Unterschieden von Sprechern
Problem: Ausmaß der Unterschiede zwischen Sprechern abhängig von der Vokalkategorie
Page 7
Begriffserklärung„intrinsisch“
ausreichende Information zur Vokalidentifikation im spektralen Muster des Vokals
z.B. das Verhältnis der Formanten zueinander
sprecherunabhängige Strategie - außer dem Vokal selbst wir keine Information benötigt
Page 8
Begriffserklärung„extrinsisch“
Basis für die Identifikation unklarer Vokale:
Informationen über die Größe, Alter und Geschlecht des Sprechers in der laufenden Aussage
sprecherabhängige Strategie - außer dem Vokal wird noch weitere Information benötigt
Page 9
Begriffserklärung„extrinsisch“
Analyse der durchschnittlichen Formantwerte eines Sprechers
Hörer legt intern Kategorien von Vokalen dieses Sprechers an
Festlegung der Grenzen des Referenzbereiches durch die „point vowels“ /a,i,u/
Vokale des Sprechers werden in die Kategorien eingeordnet
Page 10
Experimente
1. Experimente mit Kontext
2. Experimente mit F0
3. Experimente mit Algorithmen
Page 11
Experimente mit Kontext
Ladefoged & Broadbent (1957) Wahrnehmung des synthetisierten
Testworts abhängig von der vorausgehenden synthetisierten Phrase
F1 in der vorausgehenden Phrase nach unten verschoben → /bIt/ → /bεt/
F1 in der vorausgehenden Phrase nach oben verschoben → /bæt/ → /bεt/
Page 12
Experimente mit Kontext
Dechovitz (1977) Mann und Junge sprechen mit der selben
Betonung, Geschwindigkeit und Grundfrequenz
unterschiedliche Formantfrequenzen /bVt/-Silbe eines Mannes in einen Satz
eines 9-jährigen Jungen eingefügt Vokalwahrnehmung verändert sich
Page 13
Experimente mit Kontext
Assmann, Nearey &Hogan (1982) Liste von /CVC/-Silben
Mixed-Speaker-Test: Sprecher wechselt Blocked-Speaker-Test: ein Sprecher
Blocked-Speaker-Test: weniger Fehler bei der Vokalidentifikation
Page 14
Experimente mit Kontext
Creelman (1957) Mixed-Speaker-Test: Fehlerfreiheit bei der
Worterkennung bei Lärm geringer
Summerfield &Haggard (1973) Mixed-Speaker-Test: Reaktionszeit bei der
Worterkennung länger
Page 15
Experimente mit Kontext
Verbrugge et al. (1976) im Mixed-Speaker-Test werden Silben
präsentiert geringe Fehlerrate →Vermutung, dass die Silbe genug
Information enthält Trotzdem: Ergebnisse beim Blocked-
Speaker-Test besser
Page 16
Experimente mit F0
Johnson: Hörer verwendet F0 als Schlüssel zur Identität des Sprechers
an F0 kann der Hörer ungefähr anschätzen wie groß der Vokaltrakt des Sprechers ist
Abschätzung hilfreich für die Erstellung des „Frame of Reference“
Page 17
Experimente mit F0Lehiste & Meltzer (1973)
Vokalwahrnehmung schlecht wenn F0 eines Kindes mit den Formantfrequenzen eines Mannes vorgespielt wird
umgekehrt noch schlechter
Gottfried & Chew (1986) Vokalwahrnehmung schlecht, wenn F0 von
einem Kontratenor produziert wird
Page 18
Experimente mit F0
Was passiert bei geflüsterten Lauten ohne F0?
Eklund & Traunmüller (1997) Vokalwahrnehmungsexperiment Fehlerrate bei stimmhaften Vokalen: 4,5% Fehlerrate bei geflüsterten Vokalen: 12%
Page 19
Experimente mit F0
Fujisaki & Kawashima (1968)
Grundfrequenz beeinflusst Vokalidentität wenn Formantfrequenzen fixiert sind
Page 20
Experimente mit Algorithmen
Experimente von Gerstman (1968), Lobanov (1971) und Nearey (1978) basieren auf:
Fn‘ = ( Fn – a ) / b
Fn = Wert des Formant Nummer n
Fn‘ = normalisierter Wert des selben Formanten
a und b sind Konstanten
Page 21
Experimente mit Algorithmen
Gerstman (1968) a ist Minimum von Fn
b ist Intervall von Fn
Lobanov (1971) Normalverteilung a ist Mittlewert b ist Standartabweichung
Page 22
Experimente mit Algorithmen
Nearey (1978)
Fn‘ = log ( Fn ) – a
a = sprecherabhängige Konstante a = Mittel des Logarithmus von F1 und des
Logarithmus von F2 aller Vokale eines Sprechers
Page 23
Experimente mit Algorithmen
Miller (1989) dreidimensionaler Normalisationsraum
Dn ( n = 1,2,3 )
Dn = log10 ( Fn ) – log10 ( Fn-1 ); ( n = 2,3 )
D1 = log10 ( F1 ) – log10 ( SR )
SR = „sensorische Referenz“ SR = k ( GMf0 / k) GMf0 = geometrische Mitte von allen F0-Werten k = 168Hz
Page 24
Experimente mit AlgorithmenAnalyse
Disner (1980) Vergleich von extrinsischen Normalisationsmethoden
mit Vokaldaten aus 6 Sprachen
am effektivsten: Nearey (1977) vor allem bei dänisch und holländisch
Syrdal (1984) Analyse von 8 Normalisationsmethoden Neareys Methode am besten
Page 25
Vergleich von Vokal-Normalisations-Methoden
Adank, Smits, van Hout (2004) 3 Kriterien
wie effektiv wird: phonemische Information konserviert Information über den regionalen Hintergrund
und soziologische Information konserviert anatomische und physiologische Variationen
minimiert
Page 26
Vergleich von Vokal-Normalisations-Methoden
80 weibliche und 80 männliche professionelle holländische Sprecher
Einteilung nach Geschlecht und Herkunftsregion
Produktion der neun holländische Vokale /αaεIiouүy/ jeweils 2x Kontext: /sVs/
Page 27
Vergleich von Vokal-Normalisations-Methoden
Sprachmaterial aus „soziologischem Interview“
Vielzahl von Aufgaben Trägersatz mit Silbe in Interview 2x
wiederholt unterschiedliche Aufnahmebedingungen
z.T. in einem leeren Klassenzimmer z.T. beim Sprecher zu Hause
Page 28
Vergleich von Vokal-Normalisations-Methoden
Page 29
Vergleich von Vokal-Normalisations-Methoden
Ergebnis: am besten:
LOBANOV NEAREY1 GERSTMAN
die drei schlechtesten waren intrinsische Methoden
Page 30
Vergleich von Vokal-Normalisations-Methoden
Fazit der Studie: Vokal-extrinsisch besser wie Vokal-intrinsisch Formant-intrinsisch besser wie Formant-
extrinsisch beste Lösung:
Vokal-extrinisch, Formant-intrinsisch
Page 31
Fazit
nicht eindeutig, ob Vokal-Normalisierung extrinsisch oder intrinsisch ist
es gibt Beweise für extrinische und für intrinsische Theorien
Fazit vieler Studien ist, dass wahrscheinlich beides eine Rolle spielt
Page 32
Vielen Dank für Ihre
Aufmerksamkeit!!!