Discriminative SNMF EA201603

半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法

Effective Basis Learning for Sound Source Separation by Semi-Supervised Nonnegative Matrix Factorization

東京大学国立情報学研究所 / 総合研究大学院大学

東京大学ヤマハ株式会社ヤマハ株式会社

北村大地小野順貴猿渡洋高橋祐

近藤多伸

東京大学， NII ， SOKENDAI ， YAMAHA

2

発表内容• 研究背景

– 音源分離技術と非負値行列因子分解（ NMF ）• 従来手法

– 全教師あり NMF と半教師あり NMF– 音源成分のスプリット問題– 罰則条件付き半教師あり NMF と識別的全教師あり NMF

• 提案手法– 再現用基底と分離用基底– 識別用基底の学習アルゴリズム

• 実験– 識別用基底学習の基礎実験– 音楽信号を用いた音源分離実験

• まとめ

3






• まとめ

4

• 音源分離技術– 複数の音源が混ざった信号を個々の音源に分離する信号処

理– 音声と雑音の分離，個々の音源の編集，音拡張現実感等

• 音源分離の基本的な処理– 時間 - 周波数表現されたスペクトログラム上で音源ごとに

分解

音源分離技術とは？

特定音源の分離・抽出

Time

Freq

uency

2 つの音が存在

最初の音

2 番目の音

分離

5

非負値行列因子分解 [Lee, 1999]

Amplitude

Amplitu

de

観測行列( スペクトログラム )

基底行列( 頻出スペクトルパターン )

アクティベーション行列( 時間的なゲイン変化 )

Time

: 周波数ビン数: 時間フレーム数: 基底ベクトル数

Time

Freq

uency

Freq

uency

基底ベクトル

• 非負値行列因子分解 (nonnegative matrix factorization: NMF)

– 非負制約条件付き次元圧縮，有用な特徴量抽出法– 非負制約によって暗にスパースな解が得られる傾向

6






• まとめ

7

• 全ての音源のスペクトル基底（音色の辞書）を事前学習– 分離ステージでは各音源のアクティベーションのみを最

適化– 教師音は音源毎に必要

全教師あり NMF (full-supervised NMF) [Smaragdis, 2007]

分離ステージ

最適化

学習ステージ

固定目的音 1 目的音 2観測（混合）音

，

固定

ピアノの基底サックスの基底

8

• 分離したい音源のみの教師基底を事前学習– 分離ステージでは非目的音用の基底と各成分のアクティ

ベーションを同時に最適化

半教師あり NMF (semi-supervised NMF) [Smaragdis, 2007]

最適化

教師音から作成した目的音基底分離目的音の教師音

目的音非目的音固定観測（混合）音

分離ステージ

学習ステージ

9

教師あり NMF における音源分離の根本的な問題

• 教師あり NMF の分離ステージのコスト関数は「混合音をどれだけよく表現できるか」であり「各音源をどれだけよく分離できるか」とはなっていない

• 非目的音基底に目的音成分が混入する例

赤色が目的音の成分

Freq

uenc

y

Basis index

Freq

uenc

y

Basis index

非目的音基底には何の制約もないため，目的音成分の一部を　含んでしまうことがある

10

半教師あり NMF における効果的な基底学習• Penalized semi-supervised NMF [Kitamura, et al., 2013]

– 半教師あり NMF において，非目的音用の基底が教師基底と出来るだけ無相関となる罰則条件を追加

– 分離精度を大きく向上（目的信号成分のスプリットを防ぐ）

コスト関数 :直交化罰則項

事前学習した目的音基底（固定）

最適化変数

依然として，教師基底がその他の音源成分（非目的音）を表現する問題は解決されていない

11

• 分離ステージには「音源をできるだけ分離する」というコストがない

• 学習ステージの段階で，できるだけ他の音源の成分を表さない教師基底を得ることが望ましい

本研究のモチベーション

「目的音源は表現するが他の音源は表現しない」ような識別的な基底の学習が必要（半教師あり NMF にも全教師あり NMF にも必要）

「目的音源をよく表現する基底」しか学習できない

「混合信号の表現度合」しか考慮されない

12

従来手法：識別的な目的音基底の学習• 全教師あり NMF においては識別的基底の学習が既

に提案されている [Sprechmann, et al., 2014], [Weninger, et al., 2014]

– 学習ステージで仮の混合信号を作成しそれを分離するアクティベーションを用いて基底を学習する

– 最適化の制約条件の中に最適化（ bilevel optimization ）– 各音源の基底は「目的音の正確な表現」と「他音源との識

別性能の最大化」の二つの目的を満たすように学習される– 従来手法は，上記の二段階最適化を提案しながらも解けな

いので，交互最適化での近似や簡略化した目的関数を解く

s.t.

13






• まとめ

14

本研究のアプローチ• アプローチ

– 「目的音成分の正確な表現」と「他音源との識別性能を最大化」の二つの目的を別の基底でそれぞれ実現

– 一つの目的音源に対して再現用基底と識別用基底の二種類の教師基底を学習ステージで用意する

– 分離ステージでは識別用基底を用いて分離– 推定されたアクティベーションと再現用基底で分離音を再構成

15

• 提案手法のアイデア

再現用基底と識別用基底の違い

Amp.

Freq

uenc

y

Time

Freq

uenc

y（赤は目的音，青は非目的音を表す）

混合信号

として

Amp.

Freq

uenc

y

Amp.

Freq

uenc

y

Time

Freq

uenc

y

Time

Am

p.

Time

Am

p.

混合信号

を推定すると目的音と非目的音間で重複する成

分が識別性能劣化の原因

Amp.

Freq

uenc

y

Time

Freq

uenc

y

分離信号

Am

p.

として分離する

と

16

• 提案手法のアイデア

再現用基底と識別用基底の違い

Time

Freq

uenc

y

混合信号

としてを推定する

と

重複成分を他の基底に任せて目的音源固有の周波数成分だけ持てば識別的（アクティベーションは変わらない）

Amp.

Freq

uenc

y

Time

Freq

uenc

y

分離信号

Am

p.

として分離する

と

Amp.

Freq

uenc

y

Am

p.A

mp.Amp.

Freq

uenc

y

Amp.

Freq

uenc

y

Time

Freq

uenc

y

Time

Time

Am

p.

Amp.

Freq

uenc

y

Time

（赤は目的音，青は非目的音を表す）

17

提案法の利点と半教師あり NMFへの応用• 提案法の利点

– 「目的音の正確な表現」と「他音源との識別性能の最大化」の両立を一つの教師基底で試みている

– 変数が複雑に絡む二段階最適　　困難– 実用的なことを考えると，目的音の教師信号だけを用いる

「半教師あり NMF 」の方が望ましい• 半教師あり NMFへの適用

– 目的音の教師信号に対して混合しうる信号（非目的音の候補信号）を用意• 両者の混合で目的音のスペクトルのどの帯域が他音源

と重なりやすいかを学習し識別用目的音基底を作成• 混合候補信号は観測信号内の（真の）非目的音と同種の

音源でなくても良い• 「同じ調の楽曲の別の楽器音による旋律や和音」等が好適

18

アルゴリズム• 学習ステージ

• 分離ステージ

識別用教師基底を固定

固定再現用基底

識別用基底

19






• まとめ

20

識別用基底学習の基礎実験• MIDI 音源（ Garritan Personal Orchestra 4 ）で生成

した Pf. 音（ C5 ）と Fl. 音（ C6 ）の 2 音を時間差付きで混合

• Pf. 音（ C5 ）をとして再現用基底を学習– 基底数は 1 本のみ

-100-80-60-40-20020

Pow

er [d

B]

543210Frequency [kHz]

学習された再現用教師基底（ Pf. ）

21

分離用基底学習の基礎実験• Pf. 音（ C5 ）を， Fl. 音（ C6 ）をとして

識別用教師基底を学習（反復 50回）– 基底の基底数は 2 本

-100-80-60-40-20020

Pow

er [d

B]


-100-80-60-40-20020

Pow

er [d

B]


学習された識別用目的音基底（ Pf. ）

その他の基底（ Fl. ）

スペクトルがぶつかる成分にノッチが生じており，識別的な学習が進んだことが確認できる

22

• データセット（ SiSEC201１，プロ音楽信号）

• 4-fold cross-validation を行う

SiSEC201１の楽曲の実験 : 条件

楽曲名混合される目的音源

混合される非目的音源

非目的音の候補信号（楽曲名 / 音源）

roadsAcoustic guitar Drums The ones we love / Drums

Drums Acoustic guitar The ones we love / Acoustic guitar

Que pena tanto faz

Classic guitar Female vocals Remember the name / Male vocals

Female vocals Classic guitar Ultimate NZ tour / Electric guitar

Ultimate NZ tour

Electric guitar Synthesizer Remember the name / Synthetic violins

Synthesizer Electric guitar Roads / Acoustic guitar

音源 1

音源 2

（がテスト区間の例）

別の楽曲

23

• その他の実験条件– 短時間フーリエ変換（ STFT ）の設定

• 92 ms のハミング窓，シフト量 46 ms– NMF は振幅スペクトログラムの一般化 KLD 基準– 再現用基底学習ステップと分離ステージの反復回数は

1000回– 識別用基底学習ステップは 0～ 20回でそれぞれの性能を確認

– NMF の基底数は全て 35 本

MUS100 の楽曲の実験 : 条件

再現用基底学習ステッ

プ識別用基底学習ステッ

プ分離　　　　　ステー

ジ

学習　　　　　ス

テージ

24

20181614121086420

SD

R im

prov

emen

t [dB

]

20181614121086420Number of iterations in discriminative

basis learning step

• 楽曲 1 の結果

SiSEC201１の楽曲の実験 : 結果

音源1 （ A.Gt. ）

音源2 （ Dr. ）

0回目が従来手法（通常の半教師ありNMF ）

0回目が従来手法（通常の半教師ありNMF ）

5 dB の改善

2.3 dB の改善

25

131211109876543210

SD

R im

prov

emen

t [dB

]


basis learning step



音源1 （ C.Gt. ）

音源2 （ Vo. ）

1.7 dB の改善

3.7 dB の改善

26

109876543210

SD

R im

prov

emen

t [dB

]


basis learning step



音源1 （ E.Gt. ）

音源2 （ Sy. ）

3 dB の改善

27

まとめ• 目的 : 半教師あり NMF における分離精度向上

– 識別的な教師基底の学習法– （但し，提案法は全教師ありにも応用可）

• 一つの音源に対して再現用基底と識別用基底の 2種の基底を学習– 再現用基底 : 全スペクトル成分を保持– 識別用基底 : 対象となる音源固有の成分のみを保持

• いくつかの実験例において分離精度の向上を確認– 「目的音源を正確に表現する基底が最高の分離性能を与え

るとは限らない」という事実を実証• 現状の問題 : アルゴリズムの収束時が最高性能でな

い– Stopping criteria の検討 or 別の識別用基底学習アルゴリ

ズムの検討

Discriminative SNMF EA201603

Science