Top Banner
2 Overzicht Overzicht • Inleiding • Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
40

Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

Jun 08, 2015

Download

Documents

Christina Boer
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

22

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 2: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

33

OverzichtOverzicht

• Inleiding

� Situering en toepassingen

� Probleemstelling

� Bijdragen

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 3: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

44

• Opname van spraak in ongunstige akoestische omgeving

SitueringSituering

• Spraakcommunicatietoepassingen: handenvrije mobieletelefonie, spraakgestuurde systemen, hoorapparaten

Achtergrondlawaai:- ventilator, radio- andere personen- meestal ongekend

Reverberatie (nagalm)- reflecties van signaal tegen muur, objecten

• Lage signaalkwaliteit• Spraakverstaanbaarheid en spraakherkenning

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 4: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

55

Signaalverbetering

DoelstellingDoelstelling

• Signaalverbeteringstechnieken:� Ruisonderdrukking : verminderen van

achtergrondlawaai zonder spraak te vervormen� Dereverberatie : effect van nagalm verminderen� Gecombineerde ruisonderdrukking en dereverberatie

• Akoestische bronlokalisatie: camera of volgspot

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 5: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

66

• Video-conferencing:� Microfoonrooster voor bronlokalisatie :

– richten van camera op actieve spreker– signaalverbetering door sturen van microfoonrooster

ToepassingenToepassingen

• Handenvrije mobiele telefonie:

� Belangrijkste toepassing vanuit economisch standpunt

� Handenvrije kit in wagen verplicht

� Meeste huidige systemen: 1 directionele microfoon

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 6: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

77

• Hoorapparaten en cochleaire implantaten:� meeste slechthorenden lijden aan perceptueel

gehoorverlies versterking

verzwakking van ruis tov gewenst signaal

ToepassingenToepassingen

• Spraakgestuurde systemen:� consumentenelektronica (HiFi, PC software)� voordeel wanneer spraakherkenning betrouwbaar werkt in

alle omstandigheden � signaalverbetering als voorverwerking

� meerdere microfoons + DSP in hoorapparaat� huidige systemen: eenvoudige bundelvorming � robuustheid zeer belangrijk wegens kleine afstand microfoons

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 7: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

88

Algoritmische vereistenAlgoritmische vereisten

• ‘Blinde’ technieken: ongekende ruisbronnen en omgeving

• Adaptief: tijdsvariante signalen en akoestische omgeving

• Robuustheid:

� Microfoonkarakteristieken (versterking, fase, positie)

� Andere afwijkingen van veronderstelde

signaalmodel

• Integratie van verschillende technieken

• Berekeningscomplexiteit

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 8: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

Probleemstelling en bijdragenProbleemstelling en bijdragen

99

Eénkanaals-technieken

– spectrale subtractie [Boll 79, Ephraim 85, Xie 96]

•Signaalonafhankelijke transformatie

•Problemen met residuele ruis

– deelruimte-gebaseerd [Dendrinos 91, Ephraim 95, Jensen 95]

•Signaalafhankelijke transformatie

•signaalruimte + ruisdeelruimte

2. Meerkanaals optimale filtering

spatiale informatie

robuustheid

3. Blinde kanaalschatti

ng dereverberati

e

1. Robuuste breedband- bundelvormi

ng

Meerkanaals-technieken

– vaste bundelvorming [Dolph 46, Cox 86, Ward 95, Elko 00]

•Vast directiviteitspatroon

– adaptieve bundelvorming [Frost 72, Griffiths 82, Gannot 01]

•aanpassen aan verschillende omgevingen performantie

•`Generalised Sidelobe Canceller’ (GSC)

– inverse, ‘matched’ filtering [Myoshi 88, Flanagan 93, Affes 97]

enkel spectrale informatie

a-priori veronderstellingen

Page 9: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1010

OverzichtOverzicht

• Inleiding

• Basisprincipes

� Signaalmodel

� Karakteristieken van signalen en akoestische omgeving

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 10: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1111

SignaalmodelSignaalmodel

• Model voor microfoonsignalen in tijdsdomein: gefilterde versie van zuiver spraaksignaal + additieve gekleurde ruis

][0 ky

][1 ky

][1 kyN

][][][ kvkxky nnn ][kvn][khn ][ks

Akoestischeimpulsresponsie

][ks

Spraak-signaal

Additieveruis

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 11: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1212

SignaalmodelSignaalmodel

• Meerkanaals-signaalverbetering: microfoonsignalen worden gefilterd met filters wn[k] en gesommeerd

� f [k] = totale transferfunctie voor spraakcomponent

� zv[k] = residuele ruiscomponent

][0 ky

][1 ky

][1 kyN

][ks

][0 kw

][1 kw

][1 kwN

][kz

][

][][][

][

][][][][][1

0

1

0

1

0

kz

kvkwks

kf

khkwkykwkz

v

N

nnn

N

nnn

N

nnn

• Technieken verschillen in berekening van filters:

� Ruisonderdrukking : minimaliseer residuele ruis zv[k] en

beperk spraakvervorming

� Dereverberatie : f [k]=δ [k] door schatten van akoestische impulsresponsies hn[k]

� Gecombineerde ruisonderdrukking en dereverberatie

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 12: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1313

Karakteristieken van signalenKarakteristieken van signalen

• Spraak:

� Breedbandig (300-8000 Hz)

� Aan/uit-karakteristiek

Spraakdetectie-algoritme (VAD)

� Lineair lage-rangmodel: lineairecombinatie van basisfuncties

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

Am

plit

ud

e

Tijd (sec)

][][1

kak i

R

ii

ss (R=12…20)

• Ruis:

� ongekende signalen zonder referentie

� traag-variërend (ventilator) niet-stationair (radio, spraak)

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 13: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1414

Akoestische omgevingAkoestische omgeving

• Reverberatietijd T60 : globale karakteristiek

• Akoestische impulsresponsies:

� Akoestische filtering tussenspreker en microfoons

� FIR-filter (K=1000…2000 taps)

� Niet-minimum-fasesysteem geen stabiele inverse

• Microfoonrooster:

� Veronderstelling: puntsensoren met ideale karakteristiek

� Afwijkingen: versterking, fase, positie

Auto Kamer Kerk

70 ms 250 ms 1500 ms

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Tijd (sec)

Am

plit

ud

e

Impulsresponsie PSK rij 9

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 14: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1515

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

� Nieuwe ontwerpprocedures voor breedband-bundelvorming

� Robuuste bundelvorming tegen afwijkingen inversterking en fase

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 15: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1616

Vaste bundelvormingVaste bundelvorming

• Ruis- en spraakbronnen met zelfde spectrum op verschillende posities

Benut spatiale diversiteit door meerdere microfoons

• Originele techniek uit radartoepassingen:

� Smallband : compensatie van vertraging breedband

� ‘Far-field’ : vlakke golven ‘near-field’ : sferische golven

� Gekende karakteristieken van sensoren afwijkingen

- Lage complexiteit- Robuustheid bij lage signaal-ruisverhouding

- A-priori kennis over posities en microfoonkarakteristieken- Signaal-onafhankelijk

FIR ‘filter-and-sum’ structuur: willekeurig directiviteits-patroon voor willekeurige microfoonconfiguratie

Onderdrukken ruis en reverberatie uit bepaalde richtingen

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 16: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1717

‘‘Filter-and-sum’ configuratie Filter-and-sum’ configuratie

• Doelstelling: bereken filters wn[k] zodat bundelvormer

gewenste vaste spatiale en spectrale filtering uitvoert

Far-field: - vlakke golven- gelijke verzwakking

2D-filterontwerp in hoek en frequentie

Directiviteitspatroon:

),()(

),(),(

gwT

S

ZH

Gewenst directiviteitspatroon:

),( D

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 17: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1818

OntwerpproceduresOntwerpprocedures

• Ontwerp filter w zodat directiviteitspatroon zo dicht mogelijk benadert over volledig frequentie-hoek- gebied minimalisatie van kostfunctie

� Niet-lineare kostfunctie iteratieve optimalisatie = complex!

� Gewogen-kleinste-kwadraten kwadratische functie

� Eigenfilter gebaseerd op TLS-criterium GEVD

• Besluit: TLS-eigenfilter beste niet-iteratieve procedure

),( H),( D

ddDHFJ LS

2),(),(),()(w

ddDHFJ NL

222),(),(),()(w

ddDH

FJTTLS 1

),(),(),()(

2

www

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 18: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1919

Niet-lineaire procedure TLS-Eigenfilter

SimulatiesSimulaties

Angle (deg) Freq (Hz)

dB

Angle (deg) Freq (Hz)

dB

Parameters:-N=5, d=4cm-L=20, fs=8kHz-Pass: 40o-80o

-Stop: 0o-30o + 90o-180o

Delay-and-sum

Angle (deg) Freq (Hz)

dB

Page 19: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2020

• Kleine afwijkingen van veronderstelde karakteristieken (versterking, fase, positie) grote afwijkingen in directiviteits-patroon, zeker voor microfoonroosters met kleine afmeting

• In de praktijk zijn microfoonkarakteristieken nooit exact gekend

• Beschouw alle mogelijke microfoonkarakteristieken en optimaliseer

� gemiddelde performantie met waarschijnlijkheid als gewicht

� ‘worst-case’ performantie minimax-optimalisatieprobleem

Robuuste breedband Robuuste breedband bundelvormingbundelvorming

101010 )()(),,(0 1

NNN

A A

mean dAdAAfAfAAJJN

Breng specifieke (willekeurige) afwijkingen in rekening

positie

/cos

fase

),(

gversterkin

),(),( cfjjnn

snn eeaA

Meet- of kalibratieprocedure

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 20: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2121

SimulatiesSimulaties

• Niet-lineaire ontwerpprocedure

• N=3, posities: [-0.01 0 0.015] m, L=20, fs=8 kHz

• Passband = 0o-60o, 300-4000 Hz (endfire)Stopband = 80o-180o, 300-4000 Hz

• Robuust ontwerp voor gemiddelde performantie:Uniforme pdf = (0.85-1.15) en (-5o-10o)

• Afwijking = [0.9 1.1 1.05] en [5o -2o 5o]

Ontwerp J Jdev

Niet-robuust 0.1585 87.131

Gemiddelde kost

0.2196 0.2219

Maximumkost

0.1707 0.1990

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 21: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2222

Niet-robuust ontwerp Robuust ontwerp

Geen a

fwijkin

gen

Afw

ijkingen

(verste

rking/fa

se)

SimulatiesSimulaties

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 22: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2323

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

� GSVD-gebaseerde optimaal-filtertechniek

� Verminderen van berekeningscomplexiteit

� Simulaties

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 23: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2424

Meerkanaals optimale filteringMeerkanaals optimale filtering

Doel: optimale schatting van spraakcomponenten in microfoonsignalen

Minimaliseer MSE 2][][ kzkxE n

Vertraagde spraakcomponent

in microfoonsignaal

Uitgangssignaal

Geen veronderstellingen

Standaard (adaptieve) bundelvorming: LCMV bCw tosubject,][2 kzE Lineaire beperkingen:

a-priori veronderstellingenover microfoon + positie

2

][

2

][][][][min][][min kkkEkkE T

kkyWxzx

WW

][][][ 1 kkk yxyyWF RRW

Meer-kanaals Wiener Filter

][][][][ 1 kkkk vvyyyyWF RRRW

-Spraak en ruis onafhankelijk-2e orde statistiek ruis stationair schatten tijdens ruisperiodes (VAD)

Meerkanaals Signaal-afhankelijk

Robuustheid

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 24: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2525

Meerkanaals optimale filteringMeerkanaals optimale filtering

• Implementatietechniek:

� gebaseerd op Veralgemeende-Singuliere-Waarde-Ontbinding (GSVD)

– in rekening brengen van lage-rangmodel spraak

– afweging tussen ruisonderdrukking en spraakvervorming

� QRD [Rombouts 2002] , subband [Spriet 2001] lagere complexiteit

• Spraakdetectie-mechanisme is enige a-priori veronderstelling: nodig voor schatting van correlatiematrices

- =1 : MMSE (gelijk belang)

- <1 : minder spraakvervorming, minder ruisonderdrukking

- >1 : meer spraakvervorming, meer ruisonderdrukking

][][)1(][

][][diag][][

22

22

kkηk

kηkkk T

ii

iiTWF QQW

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 25: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2626

• Opsplitsing in spatiaal en spectraal gedeelte

• Gewenst directiviteitspatroon voor eenvoudige scenario’s

Analyse in het frequentiedomeinAnalyse in het frequentiedomein

WFW

vx

x

PP

P

1

11 eΓΓ xy

spectrale filtering(PSD)

spatiale filtering

(coherentie)

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Spraak Ruis

Page 26: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2727

Verminderen van complexiteitVerminderen van complexiteit

• Recursieve versie: elke tijdsstap berekening GSVD + filter

• Complexiteitsreductie door:

� Recursieve technieken voor herberekening GSVD [Moonen 90]

� Sub-bemonstering (stationaire akoestische omgevingen)

Hoge berekeningscomplexiteit

‘Batch’ Recursief QRD [Rombouts]

sub = 1 7504 Gflops 2.1 Gflops 358 Mflops

sub = 20 375 Gflops 105 Mflops 18 Mflops

(N = 4, L = 20, M=80, fs = 16 kHz, P = 4000, Q = 20000)

)(316 23 QPMM 25.20 M 25.3 M

Real-time implementatie mogelijk

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 27: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2828

Verminderen van complexiteitVerminderen van complexiteit

• Integratie in ‘Generalised Sidelobe Canceller’ (GSC) structuur: adaptieve bundelvorming

� Creatie van ‘spraakreferentie’ en ‘ruisreferentie’

� Standaard meerkanaals adaptief filter (LMS, APA)

][0 ky

][1 ky

][1 kyN

Spraak-referenti

e

][0 kw

][1 kw

][1 kwN

Optimaalfilter

Ruis-referentie(

s) +

][0 kwa

Adaptief filter

delay

Blocking matrix

Ruis-referenties

][0 ky

][1 ky

][1 kyN

Spraak-referenti

ef [k]

0

1

1N

Delay-sum bundelvorm

er

][1 kwa

][2 kwa

][1 kw Na

Meer-kanaals adaptief

filter

Verhogen van performantie

Verminderen van complexiteit door korte filters

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 28: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2929

SimulatiesSimulaties

• N=4, SNR=0 dB, 3 ruisbronnen (wit, spraak, muziek), fs=16 kHz

• Performantie: verbetering van signaal-ruisverhouding (SNR)

0 500 1000 15000

5

10

15

Reverberatietijd (msec)

Unb

iase

d S

NR

(dB

)Delay-and-sum bundelvormerrGSC (LANC=400, ruisref=Griffiths-Jim)

Recursieve GSVD (L=20, LANC=400, alle nref)Recursieve GSVD (L=20, geen ANC)

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 29: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3030

ConclusiesConclusies

• GSVD-gebaseerde optimaal-filtertechniek:

� Meerkanaals-uitbreiding van éénkanaals deelruimte-gebaseerde technieken

� Signaal-afhankelijk lage-rangmodel spraak

� Geen a-priori veronderstellingen over sprekerpositie en microfoons

• SNR-verbetering beter dan GSC voor alle reverberatietijden en beschouwde akoestische scenario’s

• Grotere robuustheid tegen afwijkingen in signaalmodel:

� Microfoonkarakteristieken

� Sprekerpositie

� VAD: enige a-prori informatie!

– Geen effect op SNR-verbetering

– Beperkt effect op spraakvervorming

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 30: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3131

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

� Technieken in tijdsdomein

� Technieken in frequentiedomein

� Gecombineerde ruisonderdrukking en dereverberatie

• Besluit en verder onderzoek

Page 31: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3232

DoelstellingDoelstelling

][0 ky

][1 ky

][1 kyN

][1 kh

][0 kw

][1 kw

][1 kwN

][kz

Blinde schatting van akoestische impulsresponsies

Tijdsdomein

Frequentiedomein

Ruisonderdrukking en dereverberatie

Dereverberatie

Bronlokalisatie

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 32: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3333

• Signaalmodel voor N=2 en geen achtergrondruis

• Deelruimte-gebaseerde techniek: impulsresponsies kunnen berekend uit nulruimte van spraakcorrelatiematrix � (Veralgemeende) eigenvector behorend bij kleinste

(veralgemeende) eigenwaarde� Problemen van techniek in tijdsdomein:

– gevoeligheid aan onderschatting van kanaallengte – lage-rangmodel in combinatie met achtergrondruis

Technieken in tijdsdomeinTechnieken in tijdsdomein

S(z)

H0(z)

H1(z) Y1(z)

Y0(z)

Signalen

][kyyR

-H1(z)

H0(z)

Nulruimte

0

±α

±α

E(z)

E(z)

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 33: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3434

• Niet-adaptieve techniek vormt basis voor afleiding van adaptief stochastich-gradiëntalgoritme

• Gebruik : schatting van gedeeltelijke impulsresponsies schatting van tijdsvertraging voor bronlokalisatie

Stochastisch-gradiëntalgoritmeStochastisch-gradiëntalgoritme

1][ subject to,][min uRuuRuu

kk vvT

yyT

]1[][]1[

]1[]1[

][][][][][][]1[

][][][

kkk

kk

kkkekkekk

kkke

vvT

vv

T

uRu

uu

uRyuu

yu

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 34: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3535

Technieken in frequentiedomeinTechnieken in frequentiedomein

)(

1

1

0

)(

1

1

0

1

1

0

)(

)(

)(

)(

)(

)(

)(

)(

)(

)(

)(

VH

Y

NNN V

V

V

S

H

H

H

Y

Y

Y

)(yyR )(vvR

)(H

• Problemen technieken in tijdsdomein frequentiedomein

• Signaalmodel:

• Schatting van akoestische transferfunctievector H() uit GEVD van correlatiematrices en

� Behorend bij grootste veralgemeende eigenwaarde geen stochastisch-gradiëntalgoritme beschikbaar

� Onbekende schaleringsfactor in elke frequentiebin:

kan bepaald worden indien norm gekend is

enkel toepasbaar wanneer positie van bron vrij vast is (bv. desktop, wagen)

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 35: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3636

• Filteroperatie in frequentiedomein:

• Dereverberatie: genormaliseerd ‘matched filter’

• Gecombineerde ruisonderdrukking en dereverberatie:Z() is optimale schatting van S()

� integratie van meer-kanaals Wiener-filter met genormaliseerd ‘matched filter’

� Afweging tussen beide doelstellingen

Gecombineerde Gecombineerde ruisonderdrukking ruisonderdrukking en dereverberatieen dereverberatie

)()()()()()()()()(

VWHWYW H

F

HH SZ

1)( F

Residuele ruis

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 36: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3737

SimulatiesSimulaties

• N=4, d=2 cm, fs=16 kHz, SNR=0 dB, T60=400 msec

• FFT-grootte L=1024, overlap R=16

• Performantiecriteria:

� Signaal-ruisverhouding (SNR)

� Dereverberatie-index (DI) :

SNR (dB) DI (dB)

Origineel microfoonsignaal 2.88 4.74

Ruisonderdrukking 16.82 4.73

Dereverberatie 2.30 0.86

Gecombineerde ruisonderdrukkingen dereverberatie

10.12 1.35

dH )()(log20

2

110 HW

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 37: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3838

BesluitBesluit

• Lage signaalkwaliteit door achtergrondruis en reverberatie signaalverbetering om spraakverstaanbaarheid en

performantie te verhogenEénkanaals-technieken: spectrale informatie

Standaard bundelvorming: a-priori veronderstellingen

Geen a-priori veronderstelling

en

Meerkanaals Signaal-afhankelijk

Blinde kanaalschatti

ng dereverberati

e

Robuuste breedband- bundelvormi

ng

Meerkanaals optimale filtering

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 38: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3939

BijdragenBijdragen

• Robuuste breedband-bundelvorming:� nieuwe kostfuncties voor breedband ‘far-field’-ontwerp

(niet-lineair, eigenfilter)

� uitbreiding naar ‘near-field’ en ‘mixed near-far field’

� 2 procedures voor robuust ontwerp tegen afwijkingen in versterking en fase

• GSVD-gebaseerde optimaal-filtertechniek voor meerkanaals-ruisonderdrukking:� uitbreiding éénkanaals deelruimte-gebaseerde

technieken meerdere microfoons

� integratie in GSC-structuur

� betere performantie en robuustheid dan bundelvorming

• Akoestische-kanaalschatting en dereverberatie:� stochastisch-gradiëntalgoritme voor schatten van

tijdsvertraging en bronlokalisatie (gekleurde ruis)

� gecombineerde ruisonderdrukking en dereverberatiein frequentiedomein

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 39: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

4040

Verder onderzoekVerder onderzoek

• Combinatie van meerkanaals Wiener-filter en vaste bundelvorming:

� Lage SNR: VAD faalt lage performantie Wiener-filter

� Gecombineerde techniek: robuuster wanneer VAD faalt, betere performantie dan vaste bundelvorming in andere scenario’s

• Akoestische-kanaalschatting en dereverberatie:

� Tijdsdomein: onderliggende reden gevoeligheid

� Frequentiedomein: onbekende schalingsfactor BSS ?

� andere blinde identificatietechnieken (LP, NL Kalman-filtering)

• Verdere vermindering van complexiteit van meerkanaals optimaal-filtertechniek:

� Stochastische-gradiëntalgoritmes

� Subband/frequentie-domein

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 40: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

4141

Publicaties en projectenPublicaties en projecten

• Publicaties:

� Journals: 1 gepubliceerd, 4 aanvaard

� Conferenties: 11 artikels voorgesteld

� Hoofdstuk in Boek ‘Microphone Arrays: Signal Processing Techniques and Applications’ (Eds. M. Brandstein, D. Ward)

� Best Student Paper Award IWAENC-2001

• Financiering:

� IWT (Instituut voor de aanmoediging van Innovatie door Wetenschap en Technologie in Vlaanderen) : 1998-2002

• Industriële projecten:

� Philips-ITCL: ‘Multi-microphone signal enhancement techniques for hands-free telephony and voice-controlled systems’ (MUSETTE I-II)

� Cochlear CTCE: `Performance improvement of cochlear implants by innovative speech processing algorithms’

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit