Robuste Mehrsprecher-Spracherkennung mit ICA

Aktivitäten des Instituts

Signaltrennung

Independent Component Analysis Zeit-Frequenzmaskierung

Robuste Spracherkennung

Missing-Data Techniken zur Erkennung gestörter Sprachsignale

Anwendung zur Fehlerdetektion

Signalaufbereitung + HMM- oder DTW-Klassifikation

Überblick

Spracherkennung in gestörten Umgebungen leidet besonders unter Überlagerung des erwünschten Sprachsignals mit anderen Sprechersignalen

Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf

Ziel: Rekonstruktion einzelner Sprechersignale

Mischungen

Independent Component Analysis

Sprechertrennung mit ICA

Independent Component Analysis (ICA) schätzt optimale Entmischungsmatrix im Sinn der maximalen statistischen Unabhängigkeit der Signale

Rekonstruktionen mit linearen ICA-Methoden

A()-1A()

gefalteteMischung

S1()

S2()

X1()

X2()

Y1()

Y2()

Max. Unab-hängigkeit für

alle

Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal

Sprachsignale

Mischung

Maskierungs-funktion

Zeit-Frequenzmaskierung

ICA + Zeit-Frequenzmaskierung

Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und um die Berechnung einer zusätzlichen Zeit-Frequenz-Maske zu ermöglichen.

Ohne Maskierung:

Mit Maskierung:

Zeit-Frequenzmaskierung verbessert ICA-Ergebnisse und bietet

Durchschnittliche Verbesserung des Signal-Störverhältnisses von

3.4dB gegenüber ICA allein

Geringen Rechenaufwand

Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig

Das liegt wahrscheinlich an veränderten

Merkmalen, aber die menschliche Erkennung

von zeigt, dass auch im gestörten Signal

genug Information für die Erkennung präsent ist.

Mögliche Lösung: Einsatz von Missing-Data Techniken

Zeit-Frequenzmaskierung

Eingesetzte Methoden zur Verwendung der Unsicherheitsinformation:

Uncertainty Decoding

„Data Imputation“

Modified Imputation

S()

Quellen-Trennung

HMM-Spracherkennung

Punkt-schätzungx1(t)

x2(t)

Quellen-Trennung

HMM-Spracherkennung

Unsicherheits-informationx1(t)

x2(t) S(), S())

Missing-Data Techniken

Doko

applied mainly by greene, barker and cookebut droppo, acero and deng have done it for their splice algorithm, also

Ergebnisse Spracherkennung

0

10

20

30

40

Fehlerrate 32,5 15,4 16 8,4 6,8

Aufnahme nur ICAICA +

MaskeMissing

DataReferenz

Doko

masking changes energy,therefore, using rec without c0 feature profits much more from masking.what this also showed was that variance computation was really too ad hoc

Anwendung zur Fehlerdetektion

Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und die Berechnung einer optionalen Zeit-Frequenz-Maske zu ermöglichen.

Anschliessende Erkennung kann sowohl mit DTW als auch mit HMMs zur Musterklassifikation und Fehlererkennung eingesetzt werden.

Vielen Dank!

Robuste Mehrsprecher-Spracherkennung mit ICA

Technology