音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Post on 24-Jul-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

Transcript

埼玉大学大学院

理工学研究科教授

島村徹也

音声分野におけるMATLABの利用と先端研究紹介

Outline 自己紹介

MATLABと音声処理

音声強調

骨伝導

最後に

1986年慶應義塾大学理工学部電気工学科卒

高橋・浜田研究室(回路と信号処理)

1988年 同大学院修士課程修了

1991年 同博士課程修了 工学博士

同年 埼玉大学工学部助手

現在 同大学院理工学研究科教授

MATLABについて 1990年頃

IEEE ICASSP 1990でMATLABデモ

日本ではほとんど出回っていなかった

MATLABについて(続き) 制御分野でより早く

Control System Toolbox

System Identification Toolbox

これまではいったい何だったんだ?

MATLABについて(続き) 埼玉大学で(1991年)

日本では大阪大学が早かった

日本語解説書はなかった

MATLABの利用拡大

制御 信号処理・通信 音声

・音声分野は出遅れた ・ユーザは増大している ・未だに専用ツールを用いる場合も多い

MATLABによる音声処理サイト 「MATLABによる音声信号処理入門」Web資料

早稲田大学 宮澤幸希http://www.ite.or.jp/data/journal/passed_issues/tool1202/

MATLAB音声信号処理

http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/

関連図書

音響信号全般を扱うツール WaveSurfer(編集や可視化)

Audacity (編集や可視化)

Ardour (編集や可視化)

HTK(隠れマルコフモデルを利用するキット)

Weka(機械学習用でデータマイニングソフト)

MATLAB

後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,”コンピュータソフトウェア, 2009

専用ツールによる音声処理 「音声工房」

NTTアドバンステクノロジ株式会社

「アコースティックコア」

株式会社アルカディア

音声強調

音声強調処理のイメージ

雑音の混入した音声から音声のみを強調して聞き取りやすくする

多分野に応用可能 音声認識、音声符号化・特徴抽出など

音声強調処理

雑音+音声 強調音声

→ 短時間(20~50ミリ秒程度)のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築

Time

Time

入力音声(約10秒)

出力音声

フレーム処理

くし形フィルタ

・原理的に魅力的な手法

音声+雑音 有声/無声 判別

基本周期 抽出 フィルタ

×

音声

係数 無声音は減衰させて 出力する

くし形フィルタで 雑音を抑圧する

J.Lim, A.Oppenheim, L.Braida(1978)

|)(| kX 2|)(|1

)( kXN

kP

音声パワースペクトル

|)(| kX

くし形フィルタとは?

Frequency

スペクトル引き算法

・広く用いられている手法

雑音 窓

音声+雑音 窓

FFT

FFT

位相情報

||

/1||

||

×

+ +

音声

IFFT

スペクトル引き算法の原理 )()()( nwnxny 時間領域:

周波数領域:

雑音信号:

音声信号:

雑音混入音声信号:

)(

)(

)(

nw

nx

ny

)()()( fWfXfY

|)(~

| |)(| |)(~

| fWfYfX

スペクトル引き算法のブロック図

)( fY

|)(| fY

※ 1つのフレーム内での処理

)(~

fX

|)(~

| fW

2 の場合

“パワースペクトル引き算”

22 |)(~

||)(| fWfY

0|)(~

| 2fX

のとき

それ以外のとき

222 |)(~

||)(||)(~

| fWfYfX

1 の場合: Boll(1979)が検討

4/1,2/1,1,2 を比較検討: Lim(1978)

残留雑音問題 雑音推定誤差により引き去りきれない雑音成分が残る

不快な成分が含まれることがしばしばある

ミュージカルノイズ

短時間分析フレームごとの変化が激しい

実際の雑音 推定雑音 残留雑音

孤立したピーク ↓ 不快感

(スペクトル振幅イメージ図)

Freq.

Power

最近の動向

スペクトル引き算法の改善

スペクトル引き算法 Musical Noise

たいへん聞きざわり

いかにこれを抑圧するか?

非定常雑音環境対策の必要性

いかに雑音を追跡するか?

|)(~

||)(| fWfY のとき

|)(~

||)(||)(~

| fWfYfX

スペクトル引き算法の一般化表現

トレードオフ

小 SN比改善小、明瞭度向上(Musical Noise小)

大 SN比改善大、明瞭度低下(Musical Noise大) 大

Musical Noise低減小、スペクトル引きすぎなし 小

Musical Noise低減大、スペクトル引きすぎ 大

適当なスペクトル引き算の後の事後処理が有効

スペクトログラム上で音声部分とMusical Noise部分を見分ける

音声スペクトルを保持し、Musical Noise部分を抑圧する

Goh(1998)

スペクトル引き算を反復的に処理する

緒方(2005)

反復スペクトル引き算

スペクトル引き算

反復

)()()( nwnxny )(ˆ nx

Noise Estimation Method

Noise Estimation Using Low Frequency Regions

*Human speech information mostly exists between 50Hz and 3.5KHz

*At 0Hz~50Hz, noisy speech spectra have only noise information

Track the variance of noise spectra by using the low frequency regions

)()( fYfW Low

k

Low

k

Yamashita(2005)

Long-term Spectrum (Male Speech)

Use this region

Proposed Method

otherwisebfWfYa

b

afY

fYfWfY

fX

fD

fY

kkk

k

kkk

k

f

Low

f

Low

k

k

:)(,)(~

)(:)(

)(0

)()(

)()(

~)(

)(~

)(ˆ

)(

  

            

    

事前雑音推定

Behavior of the Proposed Method

Parameters for Experiments

Speaker : Japanese male and female

Speech Length : about 10 seconds

Sampling Rate : 10KHz (except for Yamauchi’s

Method)

Band Limitation : 3.4KHz(except for Yamauchi’s

Method)

Noise : 3 kinds of noise

*For Yamauchi’s Method : 30KHz sampling

No band limitation

Noise Characteristics

Time

-Varying

White Noise

Train Noise

at Railroad

Crossing

Babble

Noise

Improved Segmental SNR

いくつかのデモ

各種マイクの性質

咽喉マイク使用例

骨導マイク

咽喉マイク

イヤマイク

接話マイク

周波数特性

平坦

LPF的

LPF的

トランスデューサ

LPF的

骨伝導とは?

気導音

骨導音

(空気伝導による音)

(骨伝導による音)

発声経路

耳を塞いで発声しても、 音が聞こえる

骨導音声 空気を介さず声帯の振動が骨を伝わり、その振動が直接聴覚器官に伝達される

高騒音環境における通信に利用可能

骨導音声は気導音声に比べ、自然性、了解性に欠ける

音声導出のブロック図

骨導音声 復元音声 フィルタ

Normal Speech and Bone-Conducted Speech

Speech Production and Bone Conduction Model

)(nd

)(ns

)(zB

)(zV)(ne

Vocal Tract

Bone Conduction

Transforming Bone-Conducted Speech into Normal Speech

)(nd )(ns)(

1

zB )(zV

)(zH

Reconstruction Filtering

Direct design of H(z) is difficult

)(nd )(ˆ ns)(ˆ zH

|)(|

|)(|)(ˆ

fD

fSfH

Filter Design

Long-term spectrum of s(n)

Long-term spectrum of d(n)

Direct design of H(z) is difficult

音声収録の手続き 20歳前後の男性2名(A,B)、女性2名(C,D)

5母音,5つの文

気導音声収録用マイク

(パナソニックRP-VK25)

骨導音声収録用マイク

(テムコHG-17ヘッドギア)

サンプリング周波数44.1kHzで収録し、11.025kHzまでダウンサンプリングして実験に使用

量子化ビット数16bit

骨導マイク 骨などを介して音声波形信号が伝わる

Body vibrationをピックアップする特殊マイク

テムコ HG-17ヘッドギア

実験の様子

試聴実験概要

試聴者 20名

評価対象 無処理の骨導音声と3種類の導出音声

評価基準 「明瞭度」

評価方法 一対比較法、「どちらが気導音声の明瞭度に近いか」

近い方を選択

評価値 3文の選択率を平均化し、評価

試聴実験結果 (サーストン心理尺度)

話者A

-2 -1 0 1 2

話者B 話者C 話者D :骨導 :同一 :母音 :長文 明瞭度試験結果

いくつかのデモ

最後に MATLABを利用した音声処理の進展

複雑な関数を簡単にプログラミング

top related