SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

SPEZIELLE MUSTERANALYSESYSTEMESchrift- und Spracherkennung mit

Hidden-Markov-Modellen

Vorlesung im Wintersemester 2017

Prof. E.G. Schukat-Talamazzini

Stand: 15. Dezember 2017

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Teil V

Hidden Markov Modelle


Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau


Erkennung isoliert gesprochener Wörter

GEGEBEN:• Erkennungswortschatz: V = W1, . . . ,WL• Merkmalstrom X = x1, . . . , xT des Eingabeschalls

GESUCHT:• das mutmaßlich gesprochene Wort W` ∈ V

ZIELVORGABE:• Minimierung der Wortfehlerrate• Echtzeitverarbeitung


Motivation

Dynamic Time WarpingEinzelworterkenner · Minimum-Abstand-Klassifikation ·DTW-Algorithmus







Beispielaufbau


Einzelworterkennung durch Referenzmustervergleich

Minimum-Abstand-Klassifikation:

`∗(X ) = argmin`=1..L

D(X ,Y `)

Multireferenz-Worterkenner:

`∗(X ) = argmin`=1..L

minm=1..M`

D(X ,Y `,m)

MIN

IMU

M

X

Referenzmuster

Abstands-

Y 1, . . . ,Y L

D(X ,Y l)

MerkmaleWl∗

Vektorquant.

berechnung


Skalenausrichtung zwischen Sequenzdaten

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

links rechts mittig linear

Akkumulation lokaler Distanzenentlang einem Gitterpfad (Skalenverzerrungsfunktion):

Dφ(X ,Y ) =

Tφ∑τ=1

d(xφ1(τ), yφ2(τ)) , φ : [1,Tφ] → [1,TX ]× [1,TY ]


Mustervergleich zwischen SequenzdatenTestmuster

Refe

renz

mus

ter

Skalenverzerrung φ

• Start in (1, 1)

• Stop in (TX ,TY )

• von links nach rechts

• von oben nach unten

• keine Sprünge

Dynamic Time WarpingKumulative Distanz bezüglich optimaler Zeitverzerrungsfunktion

D(X ,Y )def= min

φ∈ΦDφ(X ,Y )

Kombinatorische Suche — Aufwand O(3T )


Levenshtein-AbstandMustervergleich zwischen Zeichenketten

Elementaroperationen auf Zeichenketten• Ersetzung eines Zeichens durch ein anderes substitution

• Löschung eines Zeichens deletion

• Einfügung eines Zeichens insertion

T I G E R

T

R

I

E

BTRIEB

TRIER

TRIGER

Substitution

Insertion

Deletion

TIGER T I G E R

T R I E B

DefinitionIst A ein endliches Alphabet und sind v , w zwei Zeichenfolgen aus A?,so bezeichnet der Levenshtein-Abstand d lev(v ,w) die minimale Anzahlvon Elementaroperationen, mit denen v in w überführt werden kann.


Dynamic Time Warping AbstandRekursives Berechnungsschema (Itakura 1975 und Sakoe 1978)

x1

x2

x3

y1 y2 y3 y4

x1

x2

x3

y1 y2 y3 y4

x1

x2

x3

x1

x2

x3

y1 y2 y3 y4 y1 y2 y3 y4

1 4 5 8

4 3 2 7

7 4 9 0

lokale Distanzen

1 5 10 18

5 4 6 13

12 8 13 6

kumulative Distanzen

lokale TransitionenRückwärtszeiger


Lokale vs. kumulative Abstände & optimale Ausrichtung

lokale Distanzen:

dst = ‖x s − y t‖

kumulative Distanzen:

dst = D(X s1,Y

t1)

Beispielwort: „Edmund Stoiber“ (2×) / ’tmVnt’Mt=]b/


Zulässige SkalenverzerrungsfunktionenVerbot unerwünschter Ausrichtungen — Einsparung von Zeit und Speicher

verboten!

verboten!

Referenzmuster

Testm

uste

r

ε

beschränkte Diagonalabweichung

Referenzmuster

Testm

uste

r

verboten!

verboten!

beschränktes Gitterpfadgefälle

Globale EinschränkungenWelche Gitterpunkte werden für denφ-Verlauf gesperrt?

Lokale EinschränkungenWelche Nachbarkonfigurationen einesPfadknotens φ(τ) sind erlaubt?

asymmetrischsymmetrisch

(0,1)

(1,1)

(1,0)

(1,2), (0,1)

(1,1)

(2,1), (1,0)

(0,1)

(1,1)

(2,1)

(1,2), (0,1)

(1,1)

(1,0)


Gewichtete Skalenverzerrungsfunktionen

1

11 2

1

12

2

2

1

1

1

1

1 1

1

22

ProblemDiagonalferneAusrichtungen φbesitzen größereLauflänge Tφ;ihreDistanzsummenimmt tendenziellhöhere Werte an.

LösungMinimiere Distanzmittel statt Distanzsumme

Optimalitätsprinzip ( DP)nicht gültig für Mittelwertbildung !

Lokal gewichtete kumulative DistanzDie Gewichtsumme aller Pfade ist konstant:

Dφ(X ,Y ) =

Tφ∑τ=1

wφ(τ),φ(τ−1) ·d(xφ1(τ), yφ2(τ))


Motivation


Hidden Markov ModellEinzelworterkenner · Definition eines HMM · Topologien für dieASE






Beispielaufbau


Einzelworterkennung mit Wort-HMMs

Erkennung mit der Bayesregel:

`∗ = argmax`=1..L

P(W`|X ) = argmax`=1..L

P(W`) · P(X |λ`)P(X )

MA

XIM

UM

· · ·

schätzung

Parameter- Markovmodelle

Dichtewert-berechnung

λ1, . . . ,λL

P(X | λl)

Merkmale

Vektorquant.Wl∗


Das HMM als Wortaussprachemodell

[=] 0.1

[a] 0.9[m] 0.3[n] 0.7[][b][h]

0.2

0.6 0.9 0.5 0.7 0.8

/h/ /b/ // /n//a/

· Modellzustände = Artikulationsgesten· Zustandswiederholung = längere Lautdauer· Zustand überspringen = Lautereignis elidieren· zufallsgesteuerte Ausgabe = Ausspracheverschleifung


Was ist eigentlich verborgen im Hidden Markov Modell ?

• ... die Folge q1, q2, . . . , qt , qt+1, . . .(die inneren „Systemzustände“)

Und was ist beobachtbar im Hidden Markov Modell ?• ... die Folge o1, o2, . . . , ot , ot+1, . . .

(die „Ausgabezeichen“ des Zufallsprozesses)

t=2 t=3t=1 t=...

Zus

tand

1Z

usta

nd 2

1 122 1

verborgen beobachtbar

FaktJeder Zustand kann grundsätzlich jedes Zeichen erzeugen !


Markovkette = einfache stationäre Markovquelle

TRANSITIONENZUSTÄNDE

s1 s2

s3 s4

a12

a21

a11 a22

• Endliches Zustandsalphabet S = s1, . . . , sN• Diskreter stochastischer Prozess q1, q2, . . . , qt , . . . qt ∈ S• Erste Markoveigenschaft P(qt | q1, . . . , qt−1) = P(qt |qt−1)

• Stationäre Übergangswahrscheinlichkeiten aijdef= P(qt = sj | qt−1 = si )

• Anfangswahrscheinlichkeiten πidef= P(q1 = si )

Parameter (π,A) ∈ IRN × IRN×N


Verbindungsstruktur einer Markovkette

Links−Rechts−Modell

Bakis−Modell

Lineares Modell

A

A

A

a44a33a22a11

a44a33a22a11

a44a33a22a11

a34a23a12 4321a24a13

a14

a24a13

a34a23a12 4321

a34a23a12 4321

aij 6= 0 ⇒ i ≤ j

aij 6= 0⇒ j− i ∈ 0, 1, 2

aij 6= 0 ⇒ j − i ∈ 0, 1


Ausgabeverteilungen eines HMM

Modellierung

kontinuierliche

Modellierung

diskrete

Links−Rechts

HMM s1 s2 s3 s4

p(x)

xxx x

p(x) p(x) p(x)

p(zk) p(zk) p(zk)

k k k k

p(zk)


Diskrete Ausgabeverteilungen• Endliches Zeichenalphabet

K = v1, . . . , vK

• Folge beobachteter Ausgabezeichen

o1, o2, . . . , ot , . . . ot ∈ K

• Zweite Markoveigenschaft

P(ot | q1, . . . , qt , o1, . . . , ot−1) = P(ot |qt)

• Stationäre Ausgabewahrscheinlichkeiten

bjkdef= P(ot = vk | qt = sj)

Parameter (π,A,B) ∈ IRN × IRN×N × IRN×K


Stetige (kontinuierliche) Ausgabeverteilungen

• Folge beobachteter Ausgabevektoren

x1, x2, . . . , x t , . . . x t ∈ IRD

• Zweite Markoveigenschaft

P(x t | q1, . . . , qt , x1, . . . , x t−1) = P(x t |qt)

• Stationäre Ausgabewahrscheinlichkeiten

bj(y)def= P(Xt = y | qt = sj)

Parameter (π,A, [bj ]) ∈ IRN × IRN×N × (IRD → IR)N


Stochastische NormierungsbedingungenAnfangswahrscheinlichkeiten

N∑i=1

πi = 1

ÜbergangswahrscheinlichkeitenN∑

j=1

aij = 1 , i = 1, . . . ,N

Diskrete AusgabewahrscheinlichkeitenN∑

k=1

bjk = 1 , j = 1, . . . ,N

Kontinuierliche Ausgabedichtefunktionen∫IRD

bj (x)dx = 1 , j = 1, . . . ,N


Drei offene Fragen zum Thema HMM

? Berechnung der Datenerzeugungswahrscheinlichkeit

P(o|λ) =∑q

P(q, o | λ)

? Aufdeckung der wahrscheinlichsten Zustandsfolge

P(q, o | λ) !→ MAX

? Schätzung der bestpassenden Modellparameter

P(o|λ) = maxλ

P(o|λ)


Motivation



ProduktionswahrscheinlichkeitenVorwärtsalgorithmus · Rückwärtsalgorithmus





Beispielaufbau


Berechnung der Erzeugungswahrscheinlichkeiten• Modellbedingte Verteilung der Zustandsfolgen

P(q|λ) = P(q1, . . . , qT | λ) = πq1 ·T∏

t=2

aqt−1,qt

• Zustandsbedingte Verteilung der Ausgabezeichenfolgen

P(o | q,λ) = P(o1, . . . , oT | q1, . . . , qT ,λ) =T∏

t=1

bqt (ot)

• Gemeinsame Wahrscheinlichkeitsverteilung

P(o,q | λ) = P(q|λ)·P(o | q,λ) = πq1bq1(o1)·T∏

t=2

aqt−1,qtbqt (ot)

• Randverteilung für die Ausgabezeichenfolge

P(o|λ) =∑

q∈ST

P(o,q | λ) =∑

q∈ST

πq1bq1(o1) ·T∏

t=2

aqt−1,qtbqt (ot)


Berechnung der Vorwärtswahrscheinlichkeiten

αt(j)def= P(o1, . . . , ot , qt = j | λ) , t = 1..T , j = 1..N

〈Algorithmus〉

1 INITIALISIERUNGFür alle j = 1, . . . ,N setze

α1(j) = πj · bj(o1)

2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze

αt(j) =

(N∑

i=1

αt−1(i) · aij

)· bj(ot)

3 TERMINIERUNGBerechne die Summe

P(o|λ) =N∑

j=1

αT (j)〈Algorithmus〉


Rechenschema für den Vorwärtsalgorithmus

O1 OT

s1

s2

s3

s4

s5

Ot−1 Ot

spaltenweise zeilenweise

BemerkungRechenaufwand O(N2 · T ) statt O(NT · T )Speicheraufwand O(NT ) bzw. O(N)Rechenaufwand für Bakismodelle O(NT )Speicheraufwand für Links-Rechts-Modelle O(min(N,T ))


Berechnung der Rückwärtswahrscheinlichkeiten

βt(i)def= P(ot+1, . . . , oT | qt = i ,λ) , t = 1..T , i = 1..N

〈Algorithmus〉

1 INITIALISIERUNGFür alle i = 1, . . . ,N setze

βT (i) = 1

2 REKURSIONFür t < T und alle i = 1, . . . ,N setze

βt(i) =N∑

j=1

aij · bj(ot+1) · βt+1(j)

3 TERMINIERUNGBerechne die Summe

P(o|λ) =N∑

i=1

πi · bi (o1) · β1(i)〈Algorithmus〉


Beweis.(zum Vorwärtsalgorithmus)

• Initialisierung — Anwenden der Definition

α1(j) = P(o1, q1 = j | λ) = P(q1 = j |λ)·P(o1 | q1 = j ,λ) = πj ·bj (o1)

• Rekursion — Kettenregel und totale Wahrscheinlichkeit

αt(j) = P(o1 . . . ot , qt = j | λ)= P(o1 . . . ot−1, qt = j | λ) · P(ot | o1 . . . ot−1, qt = j ,λ)

=

(N∑

i=1

P(o1 . . . ot−1, qt = j , qt−1 = i | λ)

)· bj (ot)

Jeder Summand läßt sich nach der Kettenregel als Produkt schreiben:

P(o1 . . . ot−1, qt−1 = i | λ)︸︷︷︸αt−1(i)

·P(qt = j | o1 . . . ot−1, qt−1 = i ,λ)︸︷︷︸aij

• Terminierung — Formel für die totale Wahrscheinlichkeit

P(o1 . . . oT | λ) =N∑

j=1

P(o1 . . . oT , qT = j | λ)︸︷︷︸αT (j)


Beweis.(zum Rückwärtsalgorithmus)

• Initialisierung — Anwenden der Definition

βT (i) = P(leere Folge | qT = i ,λ) = 1

• Rekursion — Formel für die totale Wahrscheinlichkeit

βt(i) = P(ot+1 . . . oT | qt = i ,λ) =N∑

j=1

P(ot+1 . . . oT , qt+1 = j | qt = i ,λ)

Jeder Summand läßt sich nach der Kettenregel in ein Produkt aus denfolgenden drei Wahrscheinlichkeiten zerlegen:P(qt+1 = j | qt = i ,λ) = aij

P(ot+1 | qt+1 = j , qt = i ,λ) = bj (ot+1)P(ot+2 . . . oT | ot+1, qt+1 = j , qt = i ,λ) = βt+1(j)

• Terminierung — totale Wahrscheinlichkeit, dann Kettenregel

P(o1 . . . oT | λ) =N∑

j=1

P(o1 . . . oT , q1 = j | λ)

=N∑

j=1

P(o1, q1 = j | λ)︸︷︷︸πj ·bj (o1)

·P(o2 . . . oT | o1, q1 = j ,λ)︸︷︷︸β1(j)


Motivation




Aufdeckung der verborgenen ZustandsfolgeMaximum a posteriori Zustände · Viterbi-Algorithmus ·Viterbi-Training




Beispielaufbau


Die verborgene Zustandsfolge

GEGEBEN:ein HMM mit dem Parametern λ = (π,A,B)

eine Beobachtungssequenz o der Dauer T ∈ IN

GESUCHT:(die Folge der) a posteriori wahrscheinlichsten Zustände

q∗t ∈ S , t = 1, 2, . . . ,T

die a posteriori wahrscheinlichste Zustandsfolge

q∗ ∈ ST


Maximum a posteriori Klassifikation von Zuständen• Maximiere die globale a posteriori Zustandswahrscheinlichkeit

P(qt = j | o,λ)︸︷︷︸γt(j)

=P(o, qt = j | λ)

P(o|λ)=

αt(j) · βt(j)N∑

i=1

αt(i) · βt(i)

• Maximiere die kausale a posteriori Zustandswahrscheinlichkeit

P(qt = j | o1 . . . ot ,λ) =P(o1 . . . ot , qt = j | λ)

P(o1 . . . ot | λ)=

αt(j)N∑

i=1

αt(i)

GLOBALPROSPEKTIV

KAUSAL

o1 oTot+τoto2

qt =?


Datenerzeugung & Optimale Zustandsfolge(n)• Ausgabebezogene a posteriori Zustandsfolgewahrscheinlichkeit

P(q | o,λ) =P(o,q | λ)

P(o|λ)

• Für optimale Zustandsfolgen q∗ gilt die Identität

P(o,q∗ | λ) = maxq∈ST

P(o,q | λ)︸︷︷︸P∗(o|λ)

• Der Viterbi-Algorithmus berechnet die Wahrscheinlichkeiten

ϑt(j)def= max

q∈St

qt=j

P(o1 . . . ot , q1 . . . qt | λ) , t = 1..T , j = 1..N

BemerkungFür die Viterbi-Bewertung P∗(o|λ) einer Datensequenz gilt die Ungleichung

P∗(o|λ) ≤ P(o|λ)


Der Viterbi-Algorithmus〈Algorithmus〉

1 INITIALISIERUNGFür alle j = 1, . . . ,N setze

ϑ1(j) = πj · bj (o1), ψ1(j) = 0

2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze

ϑt(j) = maxi=1..N

(ϑt−1(i) · aij )·bj (ot), ψt(j) = argmaxi=1..N

(ϑt−1(i) · aij )

3 TERMINIERUNGBerechne das Maximum

P∗(o|λ) = maxj=1..N

ϑT (j), q∗T = argmaxj=1..N

ϑT (j)

4 RÜCKVERFOLGUNGRekonstruiere eine optimale Folge q∗t = ψt+1(q∗t+1), t < T

〈Algorithmus〉


Viterbi-Ausrichtung & Entscheidungsüberwachtes LernenSind die Viterbi-Ausrichtungen der Sequenzen einer Probe bekannt, so lassensich verbesserte HMM-Parameter als relative aus absoluten Häufigkeitengewinnen („Viterbi-Training“):

aij ∝ #(i → j) def= t | qt−1 = si , qt = sj

bjk ∝ #(j ↓ k) def= t | qt = sj , ot = vk

s

o

s

s

s

s

o o o o o o o o o o o o o

q q q q q q q q q q q q q q

1 2 3 4 5 6 7 8 9 11 12 13 1410

1 2 3 4 5 6 7

1

3

8 9 10 11 12 13 14

2

4

5

Viterbi−Ausrichtung


Motivation





Gaußsche MischverteilungenMultivariate NormalverteilungsdichtenIdentifikation von Mischverteilungsdichten



Beispielaufbau


Univariate Normalverteilungsdichten

N (x | µ, σ2) def=

1σ√2π· exp

−12· (x − µ)

2

σ2

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-4 -2 0 2 4 6 8 10 12

gauss(x,3,1)gauss(x,3,2)gauss(x,3,3)


Bivariat unkorrelierte Normalverteilungsdichten

N (x | µ,σ) def=

12πσ1σ2

· exp−12·((x1 − µ1)2

σ21+

(x2 − µ2)2

σ22

)

gauss(x,y,3,2,4)

-4 -2 0 2 4 6 8 10 12-4

-2 0

2 4

6 8

10 12

0 0.002 0.004 0.006 0.008 0.01

0.012 0.014 0.016 0.018 0.02


Multivariate Normalverteilungsdichten

DefinitionEin Zufallsvektor X = (X1, . . . ,XD)

> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion

N (x | µ,S) def=

1√det(2πS)

· exp−12· (x − µ)>S−1(x − µ)

gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor der Verteilung;die positiv-definite, symmetrische Matrix S ∈ IRD×D heißtKovarianzmatrix der Normalverteilung.


Parameterreduzierte Normalverteilungsdichten

µ

Normalverteilung

µ

Unabhängige Merkmale Euklidischer Abstand

µ

Symmetrischpositiv-definit

Diagonalmatrix Einheitsmatrix

σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...

. . ....

σD1 σD2 . . . σDD

σ2

1 0 . . . 00 σ2

2 . . . 0...

. . ....

0 0 . . . σ2D

1 0 . . . 00 1 . . . 0...

. . ....

0 0 . . . 1

allgemeinesHyperellipsoid

Trägheitsachsenparallel zuKoordinatenachsen

normierteHypersphäre


Mischverteilungsdichtefunktionen

DefinitionEin Zufallsvektor X = (X1, . . . ,XD)

> heißt (multivariat normal)mischverteilt mit der Ordnung K , falls er einerVerteilungsdichtefunktion

f (x) =K∑

k=1

ck · fk(x) =K∑

k=1

ck · N (x | µk ,Sk)

mit ck ≥ 0 und∑

ck = 1 gehorcht. Die Koeffizienten ck heißenMischungsgewichte, die Dichtefunktionen fk(·) heißenMischungskomponenten von f (·).


Mischung von univariaten Normalverteilungsdichten

0

0.05

0.1

0.15

0.2

0.25

-4 -2 0 2 4 6 8 10 12

0.01 + 0.3*N(x,8,1)+0.5*N(x,5,1)+0.2*N(x,0,1)0.3*N(x,8,1)0.5*N(x,5,1)0.2*N(x,0,1)


Identifikation von Mischverteilungen

ProblemAngenommen, obige Daten sind gemäß

∑Kk=1 ck fk(x) mischverteilt. Wie

lauten die bestpassenden Parameter (Maximum-Likelihood) ?

K ∈ IN, (c1,µ1,S1), (c2,µ2,S2), . . . , (cK ,µK ,SK )


EM-Algorithmus zur Identifikation gaußscher Mischungen〈Algorithmus〉

1 INITIALISIERUNGWähle eine geeignete Mischungsordnung K ∈ INWähle Startparameter (c (0)

k ,µ(0)k ,S (0)

k ), k = 1..K ; setze i = 12 ERWARTUNGSWERT-SCHRITT

Bestimme die T · K a posteriori Auswahlwahrscheinlichkeiten

γ(i)t (k)

def= P(i−1)(Ωk | xt) =

c(i−1)k · N (xt | µ(i−1)

k ,S(i−1)k )∑

l c(i−1)l · N (xt | µ(i−1)

l ,S(i−1)l )

3 MAXIMIERUNGS-SCHRITTBerechne neue Parameter mit maximaler Kullback-Leibler-Statistik

c(i)k =

∑γ

(i)t (k) / T

µ(i)k =

∑γ

(i)t (k) · xt

/ ∑γ

(i)t (k)

S(i)k =

∑γ

(i)t (k) · xtx>t

/ ∑γ

(i)t (k) −

(µ

(i)k

)(µ

(i)k

)>4 TERMINIERUNG

Weiter mit i←i + 1 oder gehe ENDE〈Algorithmus〉


Motivation






Lernen der HMM-ParameterBaum-Welch-Algorithmus · DDHMM, CDHMM, GMHMM,SCHMM


Beispielaufbau


EM-Prinzip & Baum-Welch-Trainingsalgorithmus

DefinitionFür ein HMM mit Parametern λ (bzw. λ) und eine Lernsequenz o ∈ KT

bezeichne`ML(λ)

def= logP(o|λ) = log

∑q∈ST

P(o, q | λ)

die logarithmierte Likelihood-Zielgröße und

Q(λ, λ)def= E[logP(o, q | λ) | o,λ]

die Kullback-Leibler-Statistik.

Satz (Expectation-Maximization-Prinzip)Für alle HMM-Parameterfelder λ, λ gilt

Q(λ, λ) ≥ Q(λ,λ) `ML(λ) ≥ `ML(λ)

mit Gleichheit nur an stationären Stellen λ von `ML(·).


Architekturen von HMM-Spracherkennungssystemen

Merkmal− Vektor−

quantisierung HMM’s

Semikontinuierl.

Merkmal−

berechnung HMM’s

Kontinuierliche

Merkmal−

berechnung

Vektor−

quantisierung

Diskrete

HMM’s

berechnung

diskret · normalverteilt · mischverteilt · semikontinuierlich


HMMs mit diskreten Ausgabeverteilungen

verteilungenAusgabe−diskrete

Zustände

Ausgabealphabet

a11 a22 a33 a44

1 2 3 4a23 a34

b1 b2 b3 b4

v1 v2 v3 vK· · ·

a12


Baum-Welch-Algorithmus für diskrete Ausgabeverteilungen〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION

A posteriori Übergangswahrscheinlichkeiten für si → sj in t

ξt(i , j)def= P(qt = i , qt+1 = j | o,λ) =

αt(i) · aij · bj(ot+1) · βt+1(j)∑Ni=1 αt(i) · βt(i)

A posteriori Zustandswahrscheinlichkeiten für si in t

γt(i)def= P(qt = i | o,λ) =

αt(i) · βt(j)∑Nj=1 αt(j) · βt(j)

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter

πi = γ1(i) , aij =

∑T−1t=1 ξt(i , j)∑T−1t=1 γt(i)

, bjk =

∑Tt=1 Iot=vk · γt(j)∑T

t=1 γt(j)

〈Algorithmus〉


HMMs mit stetigen Ausgabeverteilungena11 a22 a33 a44

kontinuierliche

verteilungenAusgabe-

Zustände1 2 3 4a12 a23 a34

b1 b2 b3 b4

Multivariat normalverteilte Zustandsausgabe

bj(y) = N (y | µj ,S j)


Baum-Welch-Algorithmus für normalverteilte Ausgaben〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN

2 EXPECTATIONA posteriori Zustandswahrscheinlichkeiten undÜbergangswahrscheinlichkeiten

γt(i) , ξt(i , j) , t = 1..T , i = 1..N, j = 1..N

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und

µj =

T∑t=1

γt(j) · x t

T∑t=1

γt(j)

, S j =

T∑t=1

γt(j) · (x t − µj)(x t − µj)>

T∑t=1

γt(j)

〈Algorithmus〉


HMMs mit Mischverteilungen

gauss(x,y,3,2,4)

-4-2

0 2

4 6

8 10

12-4

-2 0

2 4

6 8

10 12

0 0.002 0.004 0.006 0.008 0.01

0.012 0.014 0.016 0.018 0.02

NV−Dichte MerkmalvektorHMM−Zustand

Multivariat normal mischverteilte Zustandsausgabe

bj(y) =

M(j)∑m=1

cjm · N (y | µjm,S jm)

BemerkungNM bzw

∑j M(j) Mischungskoeffizienten

NMD bzw NMD2/2 Normalverteilungsparameter


Baum-Welch-Algorithmus für mischverteilte Ausgaben〈Algorithmus〉


A posteriori Zustandswahrscheinlichkeiten γt(i),Übergangswahrscheinlichkeiten ξt(i , j) sowieSelektionswahrscheinlichkeiten

ζt(j ,m) = P(qt = j , kt = m | X ,λ) = γt(j) · cjmNjm(x t)

/ M(j)∑l=1

cjlNjl (x t)


cjm =T∑

t=1

ζt(j ,m)

/ M(j)∑m=1

T∑t=1

ζt(j ,m) =T∑

t=1

ζt(j ,m)

/ T∑t=1

γt(j)

µjm =T∑

t=1

ζt(j ,m) · xt

/ T∑t=1

ζt(j ,m)

S jm =T∑

t=1

ζt(j ,m) · xtx>t

/ T∑t=1

ζt(j ,m) − µjmµ>jm

〈Algorithmus〉


Semikontinuierliche HMMs

CodebuchSCHMM−

komponentenMischungs−

g3k

g2k

g1k

s1 s2 s3 s3s2s1

gk

Multivariat normalverteilte gemeinsame Dichten (’tied mixtures’)

bj(y) =K∑

k=1

cjk · N (y | µk ,Sk)

BemerkungNK MischungskoeffizientenKD bzw KD2/2 Normalverteilungsparameter


Baum-Welch-Algorithmus für semikontinuierliche Ausgaben〈Algorithmus〉


A posteriori Übergangswahrscheinlichkeiten γt(i),Zustandswahrscheinlichkeiten ξt(i , j) sowie Selektionswahrscheinlichkeiten

ζt(j , k) = P(qt = j , kt = k | X ,λ) = γt(j) · cjkNk(x t)

/K∑

l=1

cjkNk(x t)


cjk =T∑

t=1

ζt(j , k)

/ T∑t=1

γt(j)

µk =N∑

j=1

T∑t=1

ζt(j , k) · xt

/ N∑j=1

T∑t=1

ζt(j , k)

Sk =N∑

j=1

T∑t=1

ζt(j , k) · xtx>t

/ N∑j=1

T∑t=1

ζt(j , k) − µk µ>k

〈Algorithmus〉


Motivation







Robuste SchätzverfahrenMehrfachheit · Verklebung · Interpolation · Dauer

BeispielaufbauMotivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Robuste Parameterschätzung ?

zu viele

Wortmodelle

HMM-Zuständefreie Parameter

zu wenige

Äußerungen

WortvorkommenLautereignisse

Problematik des Parameterlernens aus Daten:

• zu große Varianz der geschätzten Parameterwerte

• starke Zerklüftung der Zielfunktion `ML(λ)

• systematisches Verschwinden der Statistiken γt(i), ξt(i , j), ζt(j , k)

• nullwertige Parameter aij , bjk , Sk etc.

• Nullwertigkeit ist reproduzierend !


Mehrfache Modelle — mehrfache Probemuster

0

0

o(1) o(2) o(M)

λ(1)

λ(2)

λ(M)

α(1)

P(1)α(2)

M−1∏m=1

P(m)α(M)

. . .

Modifizierte Schätzformel (exemplarisch):

aij =

L∑`=1

M∑m=1

T`,m−1∑t=1

ξ(`,m)t (i , j)

L∑`=1

M∑m=1

T`,m−1∑t=1

γ(`,m)t (i)


Parameterverklebung (Gleichschaltung, ’tying’)

Paarweise Identifikation von Verteilungsparametern• ... erzwingt fortdauernde Wertegleichheit• ... reduziert Anzahl der Freiheitsgrade des Modells• ... realisiert via gemeinsam genutzter (’pooled’) Statistiken

Schwein

Stein

/v/ /t/ /a/ /*/ /n//M/

/t/ /n//*//a//M/

/n//*//a//v//M/


Strukturinterpolation

• Interpolation zweier HMMs

• Interpolation zweier Zustände

VerklebungModellpaare

Zustandspaare

/M//f/

/*/

/M/ /f/

rS

rR

P(o | λ`, r`) =`max∑`=1

r` · P(o|λ`) ,`max∑`=1

r` = 1


Zustandsdauerverteilung im HMMHMMs sind lausig schlechte Dauermodelle !

di (τ)def= P(„noch genau (τ − 1)-mal in si bleiben“ | qt−τ = si ,λ)= aτ−1ii · (1− aii )

ReplikantenmodellZeitschrankenSemi-Markovmodell

ajj

ajj

ajj

dj(1)

dj(2)

dj(3)

dj(4) 1

1

11

• Semi-HMM — explizite Dauerverteilung innerhalb [1 : `]

• Min-Max-HMM — Dauergleichverteilung innerhalb [`0 : `]

• Replikanten-HMM — implizite Dauerverteilung innerhalb [` :∞)


ReplikantenmodelleFür die Dauerverteilung eines `-fachen Zustandes(Original zzgl. `− 1 Kopien)gilt die Faltungsdarstellung

di ,`(τ) =

(τ − 1`− 1

)· aτ−`ii · (1− aii )

`

00.020.040.060.080.10.120.14

5 10 15 20 25 30Verweildauer τ

` = 1` = 2` = 5


Motivation








Beispielaufbau


An Stelle einer Zusammenfassung

EXEMPLARISCHE BERECHNUNGSFOLGE ZUM HMM-TRAINING

Cepstrum · LDA · VQ · SCHMM

Klassen

VQ/HMM-

P(λl | Y )fn

gk(y t)y tx t

λl =(πl ,Al ,C l )

µ1,...,µKΣ1,...,ΣKΦ ∈ IRD×D′

matrixEigenvektor-

Merkmal-berechnung

LDA LBG Baum-Welch

Orthogonal-transformation

Codebuch

quantisierungVektor-

WortmodelleHMM

AlgorithmusViterbi-

SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Documents