Top Banner
埼玉大学大学院 理工学研究科教授 島村徹也 音声分野におけるMATLABの利用と 先端研究紹介
51

音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Jul 24, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

埼玉大学大学院

理工学研究科教授

島村徹也

音声分野におけるMATLABの利用と先端研究紹介

Page 2: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Outline 自己紹介

MATLABと音声処理

音声強調

骨伝導

最後に

Page 3: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

1986年慶應義塾大学理工学部電気工学科卒

高橋・浜田研究室(回路と信号処理)

1988年 同大学院修士課程修了

1991年 同博士課程修了 工学博士

同年 埼玉大学工学部助手

現在 同大学院理工学研究科教授

Page 4: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

MATLABについて 1990年頃

IEEE ICASSP 1990でMATLABデモ

日本ではほとんど出回っていなかった

Page 5: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

MATLABについて(続き) 制御分野でより早く

Control System Toolbox

System Identification Toolbox

これまではいったい何だったんだ?

Page 6: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

MATLABについて(続き) 埼玉大学で(1991年)

日本では大阪大学が早かった

日本語解説書はなかった

Page 7: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

MATLABの利用拡大

制御 信号処理・通信 音声

・音声分野は出遅れた ・ユーザは増大している ・未だに専用ツールを用いる場合も多い

Page 8: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

MATLABによる音声処理サイト 「MATLABによる音声信号処理入門」Web資料

早稲田大学 宮澤幸希http://www.ite.or.jp/data/journal/passed_issues/tool1202/

MATLAB音声信号処理

http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/

Page 9: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

関連図書

Page 10: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

音響信号全般を扱うツール WaveSurfer(編集や可視化)

Audacity (編集や可視化)

Ardour (編集や可視化)

HTK(隠れマルコフモデルを利用するキット)

Weka(機械学習用でデータマイニングソフト)

MATLAB

後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,”コンピュータソフトウェア, 2009

Page 11: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

専用ツールによる音声処理 「音声工房」

NTTアドバンステクノロジ株式会社

「アコースティックコア」

株式会社アルカディア

Page 12: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

音声強調

Page 13: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

音声強調処理のイメージ

雑音の混入した音声から音声のみを強調して聞き取りやすくする

多分野に応用可能 音声認識、音声符号化・特徴抽出など

音声強調処理

雑音+音声 強調音声

Page 14: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

→ 短時間(20~50ミリ秒程度)のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築

Time

Time

入力音声(約10秒)

出力音声

フレーム処理

Page 15: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

くし形フィルタ

・原理的に魅力的な手法

音声+雑音 有声/無声 判別

基本周期 抽出 フィルタ

×

音声

係数 無声音は減衰させて 出力する

くし形フィルタで 雑音を抑圧する

J.Lim, A.Oppenheim, L.Braida(1978)

Page 16: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

|)(| kX 2|)(|1

)( kXN

kP

音声パワースペクトル

Page 17: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

|)(| kX

くし形フィルタとは?

Frequency

Page 18: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

スペクトル引き算法

・広く用いられている手法

雑音 窓

音声+雑音 窓

FFT

FFT

位相情報

||

/1||

||

×

+ +

音声

IFFT

Page 19: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

スペクトル引き算法の原理 )()()( nwnxny 時間領域:

周波数領域:

雑音信号:

音声信号:

雑音混入音声信号:

)(

)(

)(

nw

nx

ny

)()()( fWfXfY

|)(~

| |)(| |)(~

| fWfYfX

Page 20: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

スペクトル引き算法のブロック図

)( fY

|)(| fY

※ 1つのフレーム内での処理

)(~

fX

|)(~

| fW

Page 21: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

2 の場合

“パワースペクトル引き算”

22 |)(~

||)(| fWfY

0|)(~

| 2fX

のとき

それ以外のとき

222 |)(~

||)(||)(~

| fWfYfX

1 の場合: Boll(1979)が検討

4/1,2/1,1,2 を比較検討: Lim(1978)

Page 22: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

残留雑音問題 雑音推定誤差により引き去りきれない雑音成分が残る

不快な成分が含まれることがしばしばある

ミュージカルノイズ

短時間分析フレームごとの変化が激しい

実際の雑音 推定雑音 残留雑音

孤立したピーク ↓ 不快感

(スペクトル振幅イメージ図)

Freq.

Power

Page 23: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

最近の動向

スペクトル引き算法の改善

スペクトル引き算法 Musical Noise

たいへん聞きざわり

いかにこれを抑圧するか?

非定常雑音環境対策の必要性

いかに雑音を追跡するか?

Page 24: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

|)(~

||)(| fWfY のとき

|)(~

||)(||)(~

| fWfYfX

スペクトル引き算法の一般化表現

トレードオフ

小 SN比改善小、明瞭度向上(Musical Noise小)

大 SN比改善大、明瞭度低下(Musical Noise大) 大

Musical Noise低減小、スペクトル引きすぎなし 小

Musical Noise低減大、スペクトル引きすぎ 大

Page 25: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

適当なスペクトル引き算の後の事後処理が有効

スペクトログラム上で音声部分とMusical Noise部分を見分ける

音声スペクトルを保持し、Musical Noise部分を抑圧する

Goh(1998)

スペクトル引き算を反復的に処理する

緒方(2005)

Page 26: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

反復スペクトル引き算

スペクトル引き算

反復

)()()( nwnxny )(ˆ nx

Page 27: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Noise Estimation Method

Noise Estimation Using Low Frequency Regions

*Human speech information mostly exists between 50Hz and 3.5KHz

*At 0Hz~50Hz, noisy speech spectra have only noise information

Track the variance of noise spectra by using the low frequency regions

)()( fYfW Low

k

Low

k

Yamashita(2005)

Page 28: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Long-term Spectrum (Male Speech)

Use this region

Page 29: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Proposed Method

otherwisebfWfYa

b

afY

fYfWfY

fX

fD

fY

kkk

k

kkk

k

f

Low

f

Low

k

k

:)(,)(~

)(:)(

)(0

)()(

)()(

~)(

)(~

)(ˆ

)(

  

            

    

事前雑音推定

Page 30: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Behavior of the Proposed Method

Page 31: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Parameters for Experiments

Speaker : Japanese male and female

Speech Length : about 10 seconds

Sampling Rate : 10KHz (except for Yamauchi’s

Method)

Band Limitation : 3.4KHz(except for Yamauchi’s

Method)

Noise : 3 kinds of noise

*For Yamauchi’s Method : 30KHz sampling

No band limitation

Page 32: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Noise Characteristics

Time

-Varying

White Noise

Train Noise

at Railroad

Crossing

Babble

Noise

Page 33: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Improved Segmental SNR

Page 34: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

いくつかのデモ

Page 35: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

各種マイクの性質

咽喉マイク使用例

骨導マイク

咽喉マイク

イヤマイク

接話マイク

周波数特性

平坦

LPF的

LPF的

トランスデューサ

LPF的

Page 36: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

骨伝導とは?

気導音

骨導音

(空気伝導による音)

(骨伝導による音)

Page 37: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

発声経路

耳を塞いで発声しても、 音が聞こえる

Page 38: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

骨導音声 空気を介さず声帯の振動が骨を伝わり、その振動が直接聴覚器官に伝達される

高騒音環境における通信に利用可能

骨導音声は気導音声に比べ、自然性、了解性に欠ける

Page 39: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

音声導出のブロック図

骨導音声 復元音声 フィルタ

Page 40: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Normal Speech and Bone-Conducted Speech

Page 41: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Speech Production and Bone Conduction Model

)(nd

)(ns

)(zB

)(zV)(ne

Vocal Tract

Bone Conduction

Page 42: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Transforming Bone-Conducted Speech into Normal Speech

)(nd )(ns)(

1

zB )(zV

)(zH

Page 43: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

Reconstruction Filtering

Direct design of H(z) is difficult

)(nd )(ˆ ns)(ˆ zH

Page 44: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

|)(|

|)(|)(ˆ

fD

fSfH

Filter Design

Long-term spectrum of s(n)

Long-term spectrum of d(n)

Direct design of H(z) is difficult

Page 45: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

音声収録の手続き 20歳前後の男性2名(A,B)、女性2名(C,D)

5母音,5つの文

気導音声収録用マイク

(パナソニックRP-VK25)

骨導音声収録用マイク

(テムコHG-17ヘッドギア)

サンプリング周波数44.1kHzで収録し、11.025kHzまでダウンサンプリングして実験に使用

量子化ビット数16bit

Page 46: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

骨導マイク 骨などを介して音声波形信号が伝わる

Body vibrationをピックアップする特殊マイク

テムコ HG-17ヘッドギア

Page 47: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

実験の様子

Page 48: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

試聴実験概要

試聴者 20名

評価対象 無処理の骨導音声と3種類の導出音声

評価基準 「明瞭度」

評価方法 一対比較法、「どちらが気導音声の明瞭度に近いか」

近い方を選択

評価値 3文の選択率を平均化し、評価

Page 49: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

試聴実験結果 (サーストン心理尺度)

話者A

-2 -1 0 1 2

話者B 話者C 話者D :骨導 :同一 :母音 :長文 明瞭度試験結果

Page 50: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

いくつかのデモ

Page 51: 音声分野におけるMATLABの利用と 先端研究紹介 - MathWorks · 音声収録の手続き 20歳前後の男性2 ø(A,B)、女性2 ø(C,D) 5母音,5つの文 気導音声収録用マイク

最後に MATLABを利用した音声処理の進展

複雑な関数を簡単にプログラミング