This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Missing-Data Techniken zur Erkennung gestörter Sprachsignale
Anwendung zur Fehlerdetektion
Signalaufbereitung + HMM- oder DTW-Klassifikation
Überblick
Spracherkennung in gestörten Umgebungen leidet besonders unter Überlagerung des erwünschten Sprachsignals mit anderen Sprechersignalen
Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf
Ziel: Rekonstruktion einzelner Sprechersignale
Mischungen
Independent Component Analysis
Sprechertrennung mit ICA
Independent Component Analysis (ICA) schätzt optimale Entmischungsmatrix im Sinn der maximalen statistischen Unabhängigkeit der Signale
Rekonstruktionen mit linearen ICA-Methoden
A()-1A()
gefalteteMischung
S1()
S2()
X1()
X2()
Y1()
Y2()
Max. Unab-hängigkeit für
alle
Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal
Sprachsignale
Mischung
Maskierungs-funktion
Zeit-Frequenzmaskierung
ICA + Zeit-Frequenzmaskierung
Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und um die Berechnung einer zusätzlichen Zeit-Frequenz-Maske zu ermöglichen.
Ohne Maskierung:
Mit Maskierung:
Zeit-Frequenzmaskierung verbessert ICA-Ergebnisse und bietet
Durchschnittliche Verbesserung des Signal-Störverhältnisses von
3.4dB gegenüber ICA allein
Geringen Rechenaufwand
Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig
Das liegt wahrscheinlich an veränderten
Merkmalen, aber die menschliche Erkennung
von zeigt, dass auch im gestörten Signal
genug Information für die Erkennung präsent ist.
Mögliche Lösung: Einsatz von Missing-Data Techniken
Zeit-Frequenzmaskierung
Eingesetzte Methoden zur Verwendung der Unsicherheitsinformation:
Uncertainty Decoding
„Data Imputation“
Modified Imputation
S()
Quellen-Trennung
HMM-Spracherkennung
Punkt-schätzungx1(t)
x2(t)
Quellen-Trennung
HMM-Spracherkennung
Unsicherheits-informationx1(t)
x2(t) S(), S())
Missing-Data Techniken
Doko
applied mainly by greene, barker and cookebut droppo, acero and deng have done it for their splice algorithm, also
Ergebnisse Spracherkennung
0
10
20
30
40
Fehlerrate 32,5 15,4 16 8,4 6,8
Aufnahme nur ICAICA +
MaskeMissing
DataReferenz
Doko
masking changes energy,therefore, using rec without c0 feature profits much more from masking.what this also showed was that variance computation was really too ad hoc
Anwendung zur Fehlerdetektion
Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und die Berechnung einer optionalen Zeit-Frequenz-Maske zu ermöglichen.
Anschliessende Erkennung kann sowohl mit DTW als auch mit HMMs zur Musterklassifikation und Fehlererkennung eingesetzt werden.