Page 1
SPEZIELLE MUSTERANALYSESYSTEMESchrift- und Spracherkennung mit
Hidden-Markov-Modellen
Vorlesung im Wintersemester 2017
Prof. E.G. Schukat-Talamazzini
Stand: 15. Dezember 2017
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Teil V
Hidden Markov Modelle
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Erkennung isoliert gesprochener Wörter
GEGEBEN:• Erkennungswortschatz: V = W1, . . . ,WL• Merkmalstrom X = x1, . . . , xT des Eingabeschalls
GESUCHT:• das mutmaßlich gesprochene Wort W` ∈ V
ZIELVORGABE:• Minimierung der Wortfehlerrate• Echtzeitverarbeitung
Page 2
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time WarpingEinzelworterkenner · Minimum-Abstand-Klassifikation ·DTW-Algorithmus
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Einzelworterkennung durch Referenzmustervergleich
Minimum-Abstand-Klassifikation:
`∗(X ) = argmin`=1..L
D(X ,Y `)
Multireferenz-Worterkenner:
`∗(X ) = argmin`=1..L
minm=1..M`
D(X ,Y `,m)
MIN
IMU
M
X
Referenzmuster
Abstands-
Y 1, . . . ,Y L
D(X ,Y l)
MerkmaleWl∗
Vektorquant.
berechnung
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Skalenausrichtung zwischen Sequenzdaten
Referenzmuster
Te
stm
uste
r
Referenzmuster
Te
stm
uste
r
Referenzmuster
Te
stm
uste
r
Referenzmuster
Te
stm
uste
r
links rechts mittig linear
Akkumulation lokaler Distanzenentlang einem Gitterpfad (Skalenverzerrungsfunktion):
Dφ(X ,Y ) =
Tφ∑τ=1
d(xφ1(τ), yφ2(τ)) , φ : [1,Tφ] → [1,TX ]× [1,TY ]
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Mustervergleich zwischen SequenzdatenTestmuster
Refe
renz
mus
ter
Skalenverzerrung φ
• Start in (1, 1)
• Stop in (TX ,TY )
• von links nach rechts
• von oben nach unten
• keine Sprünge
Dynamic Time WarpingKumulative Distanz bezüglich optimaler Zeitverzerrungsfunktion
D(X ,Y )def= min
φ∈ΦDφ(X ,Y )
Kombinatorische Suche — Aufwand O(3T )
Page 3
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Levenshtein-AbstandMustervergleich zwischen Zeichenketten
Elementaroperationen auf Zeichenketten• Ersetzung eines Zeichens durch ein anderes substitution
• Löschung eines Zeichens deletion
• Einfügung eines Zeichens insertion
T I G E R
T
R
I
E
BTRIEB
TRIER
TRIGER
Substitution
Insertion
Deletion
TIGER T I G E R
T R I E B
DefinitionIst A ein endliches Alphabet und sind v , w zwei Zeichenfolgen aus A?,so bezeichnet der Levenshtein-Abstand d lev(v ,w) die minimale Anzahlvon Elementaroperationen, mit denen v in w überführt werden kann.
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Dynamic Time Warping AbstandRekursives Berechnungsschema (Itakura 1975 und Sakoe 1978)
x1
x2
x3
y1 y2 y3 y4
x1
x2
x3
y1 y2 y3 y4
x1
x2
x3
x1
x2
x3
y1 y2 y3 y4 y1 y2 y3 y4
1 4 5 8
4 3 2 7
7 4 9 0
lokale Distanzen
1 5 10 18
5 4 6 13
12 8 13 6
kumulative Distanzen
lokale TransitionenRückwärtszeiger
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Lokale vs. kumulative Abstände & optimale Ausrichtung
lokale Distanzen:
dst = ‖x s − y t‖
kumulative Distanzen:
dst = D(X s1,Y
t1)
Beispielwort: „Edmund Stoiber“ (2×) / ’tmVnt’Mt=]b/
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Zulässige SkalenverzerrungsfunktionenVerbot unerwünschter Ausrichtungen — Einsparung von Zeit und Speicher
verboten!
verboten!
Referenzmuster
Testm
uste
r
ε
beschränkte Diagonalabweichung
Referenzmuster
Testm
uste
r
verboten!
verboten!
beschränktes Gitterpfadgefälle
Globale EinschränkungenWelche Gitterpunkte werden für denφ-Verlauf gesperrt?
Lokale EinschränkungenWelche Nachbarkonfigurationen einesPfadknotens φ(τ) sind erlaubt?
asymmetrischsymmetrisch
(0,1)
(1,1)
(1,0)
(1,2), (0,1)
(1,1)
(2,1), (1,0)
(0,1)
(1,1)
(2,1)
(1,2), (0,1)
(1,1)
(1,0)
Page 4
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Gewichtete Skalenverzerrungsfunktionen
1
11 2
1
12
2
2
1
1
1
1
1 1
1
22
ProblemDiagonalferneAusrichtungen φbesitzen größereLauflänge Tφ;ihreDistanzsummenimmt tendenziellhöhere Werte an.
LösungMinimiere Distanzmittel statt Distanzsumme
Optimalitätsprinzip ( DP)nicht gültig für Mittelwertbildung !
Lokal gewichtete kumulative DistanzDie Gewichtsumme aller Pfade ist konstant:
Dφ(X ,Y ) =
Tφ∑τ=1
wφ(τ),φ(τ−1) ·d(xφ1(τ), yφ2(τ))
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov ModellEinzelworterkenner · Definition eines HMM · Topologien für dieASE
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Einzelworterkennung mit Wort-HMMs
Erkennung mit der Bayesregel:
`∗ = argmax`=1..L
P(W`|X ) = argmax`=1..L
P(W`) · P(X |λ`)P(X )
MA
XIM
UM
· · ·
schätzung
Parameter- Markovmodelle
Dichtewert-berechnung
λ1, . . . ,λL
P(X | λl)
Merkmale
Vektorquant.Wl∗
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Das HMM als Wortaussprachemodell
[=] 0.1
[a] 0.9[m] 0.3[n] 0.7[][b][h]
0.2
0.6 0.9 0.5 0.7 0.8
/h/ /b/ // /n//a/
· Modellzustände = Artikulationsgesten· Zustandswiederholung = längere Lautdauer· Zustand überspringen = Lautereignis elidieren· zufallsgesteuerte Ausgabe = Ausspracheverschleifung
Page 5
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Was ist eigentlich verborgen im Hidden Markov Modell ?
• ... die Folge q1, q2, . . . , qt , qt+1, . . .(die inneren „Systemzustände“)
Und was ist beobachtbar im Hidden Markov Modell ?• ... die Folge o1, o2, . . . , ot , ot+1, . . .
(die „Ausgabezeichen“ des Zufallsprozesses)
t=2 t=3t=1 t=...
Zus
tand
1Z
usta
nd 2
1 122 1
verborgen beobachtbar
FaktJeder Zustand kann grundsätzlich jedes Zeichen erzeugen !
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Markovkette = einfache stationäre Markovquelle
TRANSITIONENZUSTÄNDE
s1 s2
s3 s4
a12
a21
a11 a22
• Endliches Zustandsalphabet S = s1, . . . , sN• Diskreter stochastischer Prozess q1, q2, . . . , qt , . . . qt ∈ S• Erste Markoveigenschaft P(qt | q1, . . . , qt−1) = P(qt |qt−1)
• Stationäre Übergangswahrscheinlichkeiten aijdef= P(qt = sj | qt−1 = si )
• Anfangswahrscheinlichkeiten πidef= P(q1 = si )
Parameter (π,A) ∈ IRN × IRN×N
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Verbindungsstruktur einer Markovkette
Links−Rechts−Modell
Bakis−Modell
Lineares Modell
A
A
A
a44a33a22a11
a44a33a22a11
a44a33a22a11
a34a23a12 4321a24a13
a14
a24a13
a34a23a12 4321
a34a23a12 4321
aij 6= 0 ⇒ i ≤ j
aij 6= 0⇒ j− i ∈ 0, 1, 2
aij 6= 0 ⇒ j − i ∈ 0, 1
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Ausgabeverteilungen eines HMM
Modellierung
kontinuierliche
Modellierung
diskrete
Links−Rechts
HMM s1 s2 s3 s4
p(x)
xxx x
p(x) p(x) p(x)
p(zk) p(zk) p(zk)
k k k k
p(zk)
Page 6
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Diskrete Ausgabeverteilungen• Endliches Zeichenalphabet
K = v1, . . . , vK
• Folge beobachteter Ausgabezeichen
o1, o2, . . . , ot , . . . ot ∈ K
• Zweite Markoveigenschaft
P(ot | q1, . . . , qt , o1, . . . , ot−1) = P(ot |qt)
• Stationäre Ausgabewahrscheinlichkeiten
bjkdef= P(ot = vk | qt = sj)
Parameter (π,A,B) ∈ IRN × IRN×N × IRN×K
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Stetige (kontinuierliche) Ausgabeverteilungen
• Folge beobachteter Ausgabevektoren
x1, x2, . . . , x t , . . . x t ∈ IRD
• Zweite Markoveigenschaft
P(x t | q1, . . . , qt , x1, . . . , x t−1) = P(x t |qt)
• Stationäre Ausgabewahrscheinlichkeiten
bj(y)def= P(Xt = y | qt = sj)
Parameter (π,A, [bj ]) ∈ IRN × IRN×N × (IRD → IR)N
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Stochastische NormierungsbedingungenAnfangswahrscheinlichkeiten
N∑i=1
πi = 1
ÜbergangswahrscheinlichkeitenN∑
j=1
aij = 1 , i = 1, . . . ,N
Diskrete AusgabewahrscheinlichkeitenN∑
k=1
bjk = 1 , j = 1, . . . ,N
Kontinuierliche Ausgabedichtefunktionen∫IRD
bj (x)dx = 1 , j = 1, . . . ,N
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Drei offene Fragen zum Thema HMM
? Berechnung der Datenerzeugungswahrscheinlichkeit
P(o|λ) =∑q
P(q, o | λ)
? Aufdeckung der wahrscheinlichsten Zustandsfolge
P(q, o | λ) !→ MAX
? Schätzung der bestpassenden Modellparameter
P(o|λ) = maxλ
P(o|λ)
Page 7
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
ProduktionswahrscheinlichkeitenVorwärtsalgorithmus · Rückwärtsalgorithmus
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Berechnung der Erzeugungswahrscheinlichkeiten• Modellbedingte Verteilung der Zustandsfolgen
P(q|λ) = P(q1, . . . , qT | λ) = πq1 ·T∏
t=2
aqt−1,qt
• Zustandsbedingte Verteilung der Ausgabezeichenfolgen
P(o | q,λ) = P(o1, . . . , oT | q1, . . . , qT ,λ) =T∏
t=1
bqt (ot)
• Gemeinsame Wahrscheinlichkeitsverteilung
P(o,q | λ) = P(q|λ)·P(o | q,λ) = πq1bq1(o1)·T∏
t=2
aqt−1,qtbqt (ot)
• Randverteilung für die Ausgabezeichenfolge
P(o|λ) =∑
q∈ST
P(o,q | λ) =∑
q∈ST
πq1bq1(o1) ·T∏
t=2
aqt−1,qtbqt (ot)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Berechnung der Vorwärtswahrscheinlichkeiten
αt(j)def= P(o1, . . . , ot , qt = j | λ) , t = 1..T , j = 1..N
〈Algorithmus〉
1 INITIALISIERUNGFür alle j = 1, . . . ,N setze
α1(j) = πj · bj(o1)
2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze
αt(j) =
(N∑
i=1
αt−1(i) · aij
)· bj(ot)
3 TERMINIERUNGBerechne die Summe
P(o|λ) =N∑
j=1
αT (j)〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Rechenschema für den Vorwärtsalgorithmus
O1 OT
s1
s2
s3
s4
s5
Ot−1 Ot
spaltenweise zeilenweise
BemerkungRechenaufwand O(N2 · T ) statt O(NT · T )Speicheraufwand O(NT ) bzw. O(N)Rechenaufwand für Bakismodelle O(NT )Speicheraufwand für Links-Rechts-Modelle O(min(N,T ))
Page 8
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Berechnung der Rückwärtswahrscheinlichkeiten
βt(i)def= P(ot+1, . . . , oT | qt = i ,λ) , t = 1..T , i = 1..N
〈Algorithmus〉
1 INITIALISIERUNGFür alle i = 1, . . . ,N setze
βT (i) = 1
2 REKURSIONFür t < T und alle i = 1, . . . ,N setze
βt(i) =N∑
j=1
aij · bj(ot+1) · βt+1(j)
3 TERMINIERUNGBerechne die Summe
P(o|λ) =N∑
i=1
πi · bi (o1) · β1(i)〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Beweis.(zum Vorwärtsalgorithmus)
• Initialisierung — Anwenden der Definition
α1(j) = P(o1, q1 = j | λ) = P(q1 = j |λ)·P(o1 | q1 = j ,λ) = πj ·bj (o1)
• Rekursion — Kettenregel und totale Wahrscheinlichkeit
αt(j) = P(o1 . . . ot , qt = j | λ)= P(o1 . . . ot−1, qt = j | λ) · P(ot | o1 . . . ot−1, qt = j ,λ)
=
(N∑
i=1
P(o1 . . . ot−1, qt = j , qt−1 = i | λ)
)· bj (ot)
Jeder Summand läßt sich nach der Kettenregel als Produkt schreiben:
P(o1 . . . ot−1, qt−1 = i | λ)︸ ︷︷ ︸αt−1(i)
·P(qt = j | o1 . . . ot−1, qt−1 = i ,λ)︸ ︷︷ ︸aij
• Terminierung — Formel für die totale Wahrscheinlichkeit
P(o1 . . . oT | λ) =N∑
j=1
P(o1 . . . oT , qT = j | λ)︸ ︷︷ ︸αT (j)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Beweis.(zum Rückwärtsalgorithmus)
• Initialisierung — Anwenden der Definition
βT (i) = P(leere Folge | qT = i ,λ) = 1
• Rekursion — Formel für die totale Wahrscheinlichkeit
βt(i) = P(ot+1 . . . oT | qt = i ,λ) =N∑
j=1
P(ot+1 . . . oT , qt+1 = j | qt = i ,λ)
Jeder Summand läßt sich nach der Kettenregel in ein Produkt aus denfolgenden drei Wahrscheinlichkeiten zerlegen:P(qt+1 = j | qt = i ,λ) = aij
P(ot+1 | qt+1 = j , qt = i ,λ) = bj (ot+1)P(ot+2 . . . oT | ot+1, qt+1 = j , qt = i ,λ) = βt+1(j)
• Terminierung — totale Wahrscheinlichkeit, dann Kettenregel
P(o1 . . . oT | λ) =N∑
j=1
P(o1 . . . oT , q1 = j | λ)
=N∑
j=1
P(o1, q1 = j | λ)︸ ︷︷ ︸πj ·bj (o1)
·P(o2 . . . oT | o1, q1 = j ,λ)︸ ︷︷ ︸β1(j)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen ZustandsfolgeMaximum a posteriori Zustände · Viterbi-Algorithmus ·Viterbi-Training
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Page 9
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Die verborgene Zustandsfolge
GEGEBEN:ein HMM mit dem Parametern λ = (π,A,B)
eine Beobachtungssequenz o der Dauer T ∈ IN
GESUCHT:(die Folge der) a posteriori wahrscheinlichsten Zustände
q∗t ∈ S , t = 1, 2, . . . ,T
die a posteriori wahrscheinlichste Zustandsfolge
q∗ ∈ ST
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Maximum a posteriori Klassifikation von Zuständen• Maximiere die globale a posteriori Zustandswahrscheinlichkeit
P(qt = j | o,λ)︸ ︷︷ ︸γt(j)
=P(o, qt = j | λ)
P(o|λ)=
αt(j) · βt(j)N∑
i=1
αt(i) · βt(i)
• Maximiere die kausale a posteriori Zustandswahrscheinlichkeit
P(qt = j | o1 . . . ot ,λ) =P(o1 . . . ot , qt = j | λ)
P(o1 . . . ot | λ)=
αt(j)N∑
i=1
αt(i)
GLOBALPROSPEKTIV
KAUSAL
o1 oTot+τoto2
qt =?
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Datenerzeugung & Optimale Zustandsfolge(n)• Ausgabebezogene a posteriori Zustandsfolgewahrscheinlichkeit
P(q | o,λ) =P(o,q | λ)
P(o|λ)
• Für optimale Zustandsfolgen q∗ gilt die Identität
P(o,q∗ | λ) = maxq∈ST
P(o,q | λ)︸ ︷︷ ︸P∗(o|λ)
• Der Viterbi-Algorithmus berechnet die Wahrscheinlichkeiten
ϑt(j)def= max
q∈St
qt=j
P(o1 . . . ot , q1 . . . qt | λ) , t = 1..T , j = 1..N
BemerkungFür die Viterbi-Bewertung P∗(o|λ) einer Datensequenz gilt die Ungleichung
P∗(o|λ) ≤ P(o|λ)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Der Viterbi-Algorithmus〈Algorithmus〉
1 INITIALISIERUNGFür alle j = 1, . . . ,N setze
ϑ1(j) = πj · bj (o1), ψ1(j) = 0
2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze
ϑt(j) = maxi=1..N
(ϑt−1(i) · aij )·bj (ot), ψt(j) = argmaxi=1..N
(ϑt−1(i) · aij )
3 TERMINIERUNGBerechne das Maximum
P∗(o|λ) = maxj=1..N
ϑT (j), q∗T = argmaxj=1..N
ϑT (j)
4 RÜCKVERFOLGUNGRekonstruiere eine optimale Folge q∗t = ψt+1(q∗t+1), t < T
〈Algorithmus〉
Page 10
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Viterbi-Ausrichtung & Entscheidungsüberwachtes LernenSind die Viterbi-Ausrichtungen der Sequenzen einer Probe bekannt, so lassensich verbesserte HMM-Parameter als relative aus absoluten Häufigkeitengewinnen („Viterbi-Training“):
aij ∝ #(i → j) def= t | qt−1 = si , qt = sj
bjk ∝ #(j ↓ k) def= t | qt = sj , ot = vk
s
o
s
s
s
s
o o o o o o o o o o o o o
q q q q q q q q q q q q q q
1 2 3 4 5 6 7 8 9 11 12 13 1410
1 2 3 4 5 6 7
1
3
8 9 10 11 12 13 14
2
4
5
Viterbi−Ausrichtung
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche MischverteilungenMultivariate NormalverteilungsdichtenIdentifikation von Mischverteilungsdichten
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Univariate Normalverteilungsdichten
N (x | µ, σ2) def=
1σ√2π· exp
−12· (x − µ)
2
σ2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-4 -2 0 2 4 6 8 10 12
gauss(x,3,1)gauss(x,3,2)gauss(x,3,3)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Bivariat unkorrelierte Normalverteilungsdichten
N (x | µ,σ) def=
12πσ1σ2
· exp−12·((x1 − µ1)2
σ21+
(x2 − µ2)2
σ22
)
gauss(x,y,3,2,4)
-4 -2 0 2 4 6 8 10 12-4
-2 0
2 4
6 8
10 12
0 0.002 0.004 0.006 0.008 0.01
0.012 0.014 0.016 0.018 0.02
Page 11
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Multivariate Normalverteilungsdichten
DefinitionEin Zufallsvektor X = (X1, . . . ,XD)
> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion
N (x | µ,S) def=
1√det(2πS)
· exp−12· (x − µ)>S−1(x − µ)
gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor der Verteilung;die positiv-definite, symmetrische Matrix S ∈ IRD×D heißtKovarianzmatrix der Normalverteilung.
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Parameterreduzierte Normalverteilungsdichten
µ
Normalverteilung
µ
Unabhängige Merkmale Euklidischer Abstand
µ
Symmetrischpositiv-definit
Diagonalmatrix Einheitsmatrix
σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...
. . ....
σD1 σD2 . . . σDD
σ2
1 0 . . . 00 σ2
2 . . . 0...
. . ....
0 0 . . . σ2D
1 0 . . . 00 1 . . . 0...
. . ....
0 0 . . . 1
allgemeinesHyperellipsoid
Trägheitsachsenparallel zuKoordinatenachsen
normierteHypersphäre
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Mischverteilungsdichtefunktionen
DefinitionEin Zufallsvektor X = (X1, . . . ,XD)
> heißt (multivariat normal)mischverteilt mit der Ordnung K , falls er einerVerteilungsdichtefunktion
f (x) =K∑
k=1
ck · fk(x) =K∑
k=1
ck · N (x | µk ,Sk)
mit ck ≥ 0 und∑
ck = 1 gehorcht. Die Koeffizienten ck heißenMischungsgewichte, die Dichtefunktionen fk(·) heißenMischungskomponenten von f (·).
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Mischung von univariaten Normalverteilungsdichten
0
0.05
0.1
0.15
0.2
0.25
-4 -2 0 2 4 6 8 10 12
0.01 + 0.3*N(x,8,1)+0.5*N(x,5,1)+0.2*N(x,0,1)0.3*N(x,8,1)0.5*N(x,5,1)0.2*N(x,0,1)
Page 12
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Identifikation von Mischverteilungen
ProblemAngenommen, obige Daten sind gemäß
∑Kk=1 ck fk(x) mischverteilt. Wie
lauten die bestpassenden Parameter (Maximum-Likelihood) ?
K ∈ IN, (c1,µ1,S1), (c2,µ2,S2), . . . , (cK ,µK ,SK )
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
EM-Algorithmus zur Identifikation gaußscher Mischungen〈Algorithmus〉
1 INITIALISIERUNGWähle eine geeignete Mischungsordnung K ∈ INWähle Startparameter (c (0)
k ,µ(0)k ,S (0)
k ), k = 1..K ; setze i = 12 ERWARTUNGSWERT-SCHRITT
Bestimme die T · K a posteriori Auswahlwahrscheinlichkeiten
γ(i)t (k)
def= P(i−1)(Ωk | xt) =
c(i−1)k · N (xt | µ(i−1)
k ,S(i−1)k )∑
l c(i−1)l · N (xt | µ(i−1)
l ,S(i−1)l )
3 MAXIMIERUNGS-SCHRITTBerechne neue Parameter mit maximaler Kullback-Leibler-Statistik
c(i)k =
∑γ
(i)t (k) / T
µ(i)k =
∑γ
(i)t (k) · xt
/ ∑γ
(i)t (k)
S(i)k =
∑γ
(i)t (k) · xtx>t
/ ∑γ
(i)t (k) −
(µ
(i)k
)(µ
(i)k
)>4 TERMINIERUNG
Weiter mit i←i + 1 oder gehe ENDE〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-ParameterBaum-Welch-Algorithmus · DDHMM, CDHMM, GMHMM,SCHMM
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
EM-Prinzip & Baum-Welch-Trainingsalgorithmus
DefinitionFür ein HMM mit Parametern λ (bzw. λ) und eine Lernsequenz o ∈ KT
bezeichne`ML(λ)
def= logP(o|λ) = log
∑q∈ST
P(o, q | λ)
die logarithmierte Likelihood-Zielgröße und
Q(λ, λ)def= E[logP(o, q | λ) | o,λ]
die Kullback-Leibler-Statistik.
Satz (Expectation-Maximization-Prinzip)Für alle HMM-Parameterfelder λ, λ gilt
Q(λ, λ) ≥ Q(λ,λ) `ML(λ) ≥ `ML(λ)
mit Gleichheit nur an stationären Stellen λ von `ML(·).
Page 13
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Architekturen von HMM-Spracherkennungssystemen
Merkmal− Vektor−
quantisierung HMM’s
Semikontinuierl.
Merkmal−
berechnung HMM’s
Kontinuierliche
Merkmal−
berechnung
Vektor−
quantisierung
Diskrete
HMM’s
berechnung
diskret · normalverteilt · mischverteilt · semikontinuierlich
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
HMMs mit diskreten Ausgabeverteilungen
verteilungenAusgabe−diskrete
Zustände
Ausgabealphabet
a11 a22 a33 a44
1 2 3 4a23 a34
b1 b2 b3 b4
v1 v2 v3 vK· · ·
a12
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Baum-Welch-Algorithmus für diskrete Ausgabeverteilungen〈Algorithmus〉
1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION
A posteriori Übergangswahrscheinlichkeiten für si → sj in t
ξt(i , j)def= P(qt = i , qt+1 = j | o,λ) =
αt(i) · aij · bj(ot+1) · βt+1(j)∑Ni=1 αt(i) · βt(i)
A posteriori Zustandswahrscheinlichkeiten für si in t
γt(i)def= P(qt = i | o,λ) =
αt(i) · βt(j)∑Nj=1 αt(j) · βt(j)
3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter
πi = γ1(i) , aij =
∑T−1t=1 ξt(i , j)∑T−1t=1 γt(i)
, bjk =
∑Tt=1 Iot=vk · γt(j)∑T
t=1 γt(j)
〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
HMMs mit stetigen Ausgabeverteilungena11 a22 a33 a44
kontinuierliche
verteilungenAusgabe-
Zustände1 2 3 4a12 a23 a34
b1 b2 b3 b4
Multivariat normalverteilte Zustandsausgabe
bj(y) = N (y | µj ,S j)
Page 14
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Baum-Welch-Algorithmus für normalverteilte Ausgaben〈Algorithmus〉
1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN
2 EXPECTATIONA posteriori Zustandswahrscheinlichkeiten undÜbergangswahrscheinlichkeiten
γt(i) , ξt(i , j) , t = 1..T , i = 1..N, j = 1..N
3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und
µj =
T∑t=1
γt(j) · x t
T∑t=1
γt(j)
, S j =
T∑t=1
γt(j) · (x t − µj)(x t − µj)>
T∑t=1
γt(j)
〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
HMMs mit Mischverteilungen
gauss(x,y,3,2,4)
-4-2
0 2
4 6
8 10
12-4
-2 0
2 4
6 8
10 12
0 0.002 0.004 0.006 0.008 0.01
0.012 0.014 0.016 0.018 0.02
NV−Dichte MerkmalvektorHMM−Zustand
Multivariat normal mischverteilte Zustandsausgabe
bj(y) =
M(j)∑m=1
cjm · N (y | µjm,S jm)
BemerkungNM bzw
∑j M(j) Mischungskoeffizienten
NMD bzw NMD2/2 Normalverteilungsparameter
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Baum-Welch-Algorithmus für mischverteilte Ausgaben〈Algorithmus〉
1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION
A posteriori Zustandswahrscheinlichkeiten γt(i),Übergangswahrscheinlichkeiten ξt(i , j) sowieSelektionswahrscheinlichkeiten
ζt(j ,m) = P(qt = j , kt = m | X ,λ) = γt(j) · cjmNjm(x t)
/ M(j)∑l=1
cjlNjl (x t)
3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und
cjm =T∑
t=1
ζt(j ,m)
/ M(j)∑m=1
T∑t=1
ζt(j ,m) =T∑
t=1
ζt(j ,m)
/ T∑t=1
γt(j)
µjm =T∑
t=1
ζt(j ,m) · xt
/ T∑t=1
ζt(j ,m)
S jm =T∑
t=1
ζt(j ,m) · xtx>t
/ T∑t=1
ζt(j ,m) − µjmµ>jm
〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Semikontinuierliche HMMs
CodebuchSCHMM−
komponentenMischungs−
g3k
g2k
g1k
s1 s2 s3 s3s2s1
gk
Multivariat normalverteilte gemeinsame Dichten (’tied mixtures’)
bj(y) =K∑
k=1
cjk · N (y | µk ,Sk)
BemerkungNK MischungskoeffizientenKD bzw KD2/2 Normalverteilungsparameter
Page 15
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Baum-Welch-Algorithmus für semikontinuierliche Ausgaben〈Algorithmus〉
1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION
A posteriori Übergangswahrscheinlichkeiten γt(i),Zustandswahrscheinlichkeiten ξt(i , j) sowie Selektionswahrscheinlichkeiten
ζt(j , k) = P(qt = j , kt = k | X ,λ) = γt(j) · cjkNk(x t)
/K∑
l=1
cjkNk(x t)
3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und
cjk =T∑
t=1
ζt(j , k)
/ T∑t=1
γt(j)
µk =N∑
j=1
T∑t=1
ζt(j , k) · xt
/ N∑j=1
T∑t=1
ζt(j , k)
Sk =N∑
j=1
T∑t=1
ζt(j , k) · xtx>t
/ N∑j=1
T∑t=1
ζt(j , k) − µk µ>k
〈Algorithmus〉
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste SchätzverfahrenMehrfachheit · Verklebung · Interpolation · Dauer
BeispielaufbauMotivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Robuste Parameterschätzung ?
zu viele
Wortmodelle
HMM-Zuständefreie Parameter
zu wenige
Äußerungen
WortvorkommenLautereignisse
Problematik des Parameterlernens aus Daten:
• zu große Varianz der geschätzten Parameterwerte
• starke Zerklüftung der Zielfunktion `ML(λ)
• systematisches Verschwinden der Statistiken γt(i), ξt(i , j), ζt(j , k)
• nullwertige Parameter aij , bjk , Sk etc.
• Nullwertigkeit ist reproduzierend !
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Mehrfache Modelle — mehrfache Probemuster
0
0
o(1) o(2) o(M)
λ(1)
λ(2)
λ(M)
α(1)
P(1)α(2)
M−1∏m=1
P(m)α(M)
. . .
Modifizierte Schätzformel (exemplarisch):
aij =
L∑`=1
M∑m=1
T`,m−1∑t=1
ξ(`,m)t (i , j)
L∑`=1
M∑m=1
T`,m−1∑t=1
γ(`,m)t (i)
Page 16
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Parameterverklebung (Gleichschaltung, ’tying’)
Paarweise Identifikation von Verteilungsparametern• ... erzwingt fortdauernde Wertegleichheit• ... reduziert Anzahl der Freiheitsgrade des Modells• ... realisiert via gemeinsam genutzter (’pooled’) Statistiken
Schwein
Stein
/v/ /t/ /a/ /*/ /n//M/
/t/ /n//*//a//M/
/n//*//a//v//M/
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Strukturinterpolation
• Interpolation zweier HMMs
• Interpolation zweier Zustände
VerklebungModellpaare
Zustandspaare
/M//f/
/*/
/M/ /f/
rS
rR
P(o | λ`, r`) =`max∑`=1
r` · P(o|λ`) ,`max∑`=1
r` = 1
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Zustandsdauerverteilung im HMMHMMs sind lausig schlechte Dauermodelle !
di (τ)def= P(„noch genau (τ − 1)-mal in si bleiben“ | qt−τ = si ,λ)= aτ−1ii · (1− aii )
ReplikantenmodellZeitschrankenSemi-Markovmodell
ajj
ajj
ajj
dj(1)
dj(2)
dj(3)
dj(4) 1
1
11
• Semi-HMM — explizite Dauerverteilung innerhalb [1 : `]
• Min-Max-HMM — Dauergleichverteilung innerhalb [`0 : `]
• Replikanten-HMM — implizite Dauerverteilung innerhalb [` :∞)
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
ReplikantenmodelleFür die Dauerverteilung eines `-fachen Zustandes(Original zzgl. `− 1 Kopien)gilt die Faltungsdarstellung
di ,`(τ) =
(τ − 1`− 1
)· aτ−`ii · (1− aii )
`
00.020.040.060.080.10.120.14
5 10 15 20 25 30Verweildauer τ
` = 1` = 2` = 5
Page 17
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
Motivation
Dynamic Time Warping
Hidden Markov Modell
Produktionswahrscheinlichkeiten
Aufdeckung der verborgenen Zustandsfolge
Gaußsche Mischverteilungen
Lernen der HMM-Parameter
Robuste Schätzverfahren
Beispielaufbau
Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ
An Stelle einer Zusammenfassung
EXEMPLARISCHE BERECHNUNGSFOLGE ZUM HMM-TRAINING
Cepstrum · LDA · VQ · SCHMM
Klassen
VQ/HMM-
P(λl | Y )fn
gk(y t)y tx t
λl =(πl ,Al ,C l )
µ1,...,µKΣ1,...,ΣKΦ ∈ IRD×D′
matrixEigenvektor-
Merkmal-berechnung
LDA LBG Baum-Welch
Orthogonal-transformation
Codebuch
quantisierungVektor-
WortmodelleHMM
AlgorithmusViterbi-