歌唱における表現意図を考慮した 歌声F 0 生成過程とその統計的モデリング 大石康智, 亀岡弘和,持橋大地,柏野邦夫 NTT コミュニケーション科学基礎研究所 統計数理研究所,東京大学情報理工学系研究科
•深い青を基にメタル調の雰囲気をだしてみました。
•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。
•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold
• Presentation title: 32pt りょうゴシック PlusN H
• Presentation title: 28pt orange DFP華康ゴシック体W5
歌唱における表現意図を考慮した 歌声F0生成過程とその統計的モデリング
大石康智, 亀岡弘和,持橋大地,柏野邦夫
NTT コミュニケーション科学基礎研究所
統計数理研究所,東京大学情報理工学系研究科
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
2人の歌声を聴いてください
楽譜
2
歌唱者A 歌唱者B
は
4 #
4 れ た る あ お ぞ ら た だ よ う く も よ
基本周波数(F0)
時間
周波数
基本周波数(F0)
時間
喜びの歌(ベートーベン:第九)
発声器官の物理的制約による成分
(オーバーシュートやプレパレーション,微細変動成分)
⇒ 人間らしさ・自然性
⇒ 巧拙感・習熟度 意図的表現に起因する成分
(特定の音符における,ビブラートやポルタメント)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
意図的表現に起因する成分(表現成分)の特徴抽出による,歌唱者の歌い方や個性の学習
音楽からのボーカル抽出,マイナスワン作成
歌声,特に「歌い方」の認識,識別,認証,
歌唱力評価・支援,歌声合成,歌声変換
研究の目指すところ
3
表現成分の特徴抽出
F0軌跡
提案法
・・・
楽譜
音符①
表現成分
音符②
表現成分
歌い方,個性テーブル
音高 音長 表現成分
ラ
ラ
ラ#
4分音符
2分音符
パターン3
パターン1
パターン2 8分音符
・・・
・・・
・・・
歌唱者A
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
隠れマルコフモデル(HMM)
表現成分の例
表現成分の特徴抽出に向けた方針
4
ポルタメント ビブラート
1 2 3 4 0 [s] 5000
5400
5800
[cent]
1 2 3 0 [s] 5000
5400
5800 [cent]
⇒ 汎化処理(過剰な平滑化) により,表現成分の消失
歌声F0軌跡生成過程
制御系
F0軌跡 指令信号
⇒ 表現成分を陽にモデル化.制御系を含むため複雑となる.
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
微細変動成分
時間
対数周波数
提案する歌声F0軌跡生成過程
ノート指令信号:音符の発音指令
表現指令信号:音楽的な表現意図を表す矩形指令
5
ノート指令信号
対数周波数
表現指令信号
時間
時間
対数周波数
F0軌跡
対数周波数
ノート 制御機講
ノート成分
時間
表現
制御機構
表現成分
時間 対数周波数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
微細変動成分
時間
対数周波数
提案する歌声F0軌跡生成過程
ノート指令信号:音符の発音指令
表現指令信号:音楽的な表現意図を表す矩形指令
6
ノート指令信号
対数周波数
表現指令信号
時間
時間
対数周波数
F0軌跡
対数周波数
ノート 制御機講
ノート成分
時間
表現
制御機構
表現成分
時間 対数周波数
オーバーシュート
ノート変化
ビブラート
ポルタメント
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
微細変動成分
時間
対数周波数
提案する歌声F0軌跡生成過程
ノート指令信号:音符の発音指令
表現指令信号:音楽的な表現意図を表す矩形指令
7
ノート指令信号
対数周波数
表現指令信号
時間
時間
対数周波数
F0軌跡
対数周波数
ノート 制御機講
ノート成分
時間
表現
制御機構
表現成分
時間 対数周波数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
F0軌跡生成過程を新しく提案する動機
動機1:話声F0軌跡生成過程 [Fujisaki, 1969]
− 甲状軟骨の二つの独立な運動(平行移動と回転)
動機2:歌声F0軌跡生成過程 [Saitou et al., 2005]
8
フレーズ指令
アクセント指令
F0軌跡
ベースライン成分
フレーズ制御
アクセント制御 時間
対数周波数
ビブラート:周期信号
ノート指令 F0軌跡
微細変動成分
ノート制御
時間
対数周波数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
F0軌跡生成過程を新しく提案する動機
動機1:話声F0軌跡生成過程 [Fujisaki, 1969]
− 甲状軟骨の二つの独立な運動(平行移動と回転)
動機2:歌声F0軌跡生成過程 [Saitou et al., 2005]
9
フレーズ指令
アクセント指令
F0軌跡
ベースライン成分
フレーズ制御
アクセント制御 時間
対数周波数
ビブラート:周期信号
ノート指令 F0軌跡
微細変動成分
ノート制御
時間
対数周波数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
表現成分を特徴抽出する手順
① 歌声F0軌跡生成過程の確率モデル化
② EMアルゴリズムに基づくパラメータ推定法の導出
− 各指令信号,制御機講,各成分をパラメータとして抽出する
10
ノート指令信号 ノート
制御機講 F0軌跡
微細
変動成分 表現指令信号 表現
制御機講
ノート成分
表現成分
確率モデル化
パラメータ推定
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
指令信号モデル:隠れマルコフモデル(HMM)
ノート・表現制御機講:2次系モデル
各成分の独立性
① 歌声F0軌跡生成過程の確率モデル化
11
ノート指令信号 ノート
制御機講 F0軌跡
微細
変動成分 表現指令信号 表現
制御機講
ノート成分
表現成分
出力分布: Gauss分布
2次系モデル HMM
Gauss分布
ノート成分:Gauss分布
表現成分:Gauss分布
微細変動成分:Gauss性雑音
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
Eステップ:ノート,表現,微細変動成分への分解
Mステップ:HMMパラメータ,2次系制御パラメータ,
微細変動成分パラメータの更新
② EMアルゴリズムによるパラメータ推定法
12
F0軌跡
ノート指令信号 ノート
制御機講
表現指令信号 表現
制御機講
微細
変動成分
ノート成分
表現成分
ノート成分
表現成分
微細変動成分
パラメータ更新
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
ノート成分と表現成分の推定の様子
RWC研究用音楽データベース:ポピュラー音楽
− 歌手名:緒方智美,曲番号:No.07,曲名:PROLOGUE
− ボーカルのF0をラベル付けした結果 (AIST annotation DB)
13
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
ポルタメントの推定
14
5000
5400
5800
[cent] 実測F0軌跡 ノート指令信号
0
-100
100
表現指令信号
5000
5400
5800
[cent]
[cent]
1 2 3 4 0 時間 [sec.]
楽譜(MIDI)
1 2 3 4 0 時間 [sec.]
ノート+表現成分
5000
5400
5800
[cent]
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
ビブラートの推定
15
5000
5400
5800
[cent] 実測F0軌跡 ノート指令信号
0
-100
100
表現指令信号 [cent]
1 2 3 0 時間 [sec.]
5000
5400
5800
[cent]
楽譜(MIDI)
1 2 3 0 時間 [sec.]
ノート+表現成分
5000
5400
5800
[cent]
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
抽出された表現成分を人間は知覚できるか?
− Vocaloid3(VY1)の利用,歌詞はすべて「な」で発声
抽出結果の主観評価(聴取実験)
16
2 s 2 s 4 s(評価)
時間
A
刺激の提示順序
B A
ノート指令信号 ノート成分 ノート+表現成分 実測F0軌跡
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
抽出された表現成分を人間は知覚できるか?
− Vocaloid3(VY1)の利用,歌詞はすべて「な」で発声
抽出結果の主観評価(聴取実験)
17
ノート指令信号 ノート成分 ノート+表現成分 実測F0軌跡
向上
被験者:成人男性5人,
各被験者の試行回数:50回
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
抽出された表現成分を人間は知覚できるか?
− Vocaloid3(VY1)の利用,歌詞はすべて「な」で発声
抽出結果の主観評価(聴取実験)
18
ノート指令信号 ノート成分 ノート+表現成分 実測F0軌跡
向上
被験者:成人男性5人,
各被験者の試行回数:50回
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
抽出された表現成分を人間は知覚できるか?
− Vocaloid3(VY1)の利用,歌詞はすべて「な」で発声
抽出結果の主観評価(聴取実験)
19
ノート指令信号 ノート成分 ノート+表現成分 実測F0軌跡
変化なし
被験者:成人男性5人,
各被験者の試行回数:50回
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
まとめ
表現意図を特徴抽出するための歌声F0軌跡生成過程
− 生成過程の確率モデル化,パラメータ推定アルゴリズム
− ポルタメントとビブラートの推定結果
− 抽出された表現成分の聴取実験
20
ノート指令信号 ノート
制御機講 F0軌跡
微細
変動成分 表現指令信号 表現
制御機講
ノート成分
表現成分
提案法の動作確認
音符の発音指令
音楽的な表現意図を表す矩形指令
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
今後の課題
表現指令のパターンの学習(歌い方,個性の学習) − 同一音符区間から推定された表現指令信号
認識・合成の観点から従来法との比較実験
− 歌い方,個性に関する情報がどこまで貢献できるか?
− 歌唱者識別実験,類似歌声検索実験,歌声合成実験
話声F0軌跡生成過程の確率モデル [Kameoka et al., 2010]
21
①
②
③
④
⑤
⑥
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
ありがとうございました
22
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
予備スライド
23
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
2次系の説明
インパルス応答
− 減衰率: ,固有周波数:
ステップ応答
24
インパルス応答
(畳み込み)
ステップ信号
指数減衰 臨界制動
減衰振動 定常振動
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
25
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
26
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
27
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
28
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
29
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
30
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
31
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
32
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
33
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
34
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
35
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
36
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
37
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
時間
時間
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
指令信号モデルのパラメータ
楽譜既知の下,HMMを構成する
38
S1,1
S1,2
S1,3
S2,1
S2,2
S2,3
S3,1
S3,2
S3,3
Start End
状態系列
状態 における各指令信号の出力確率分布 Si, j
楽譜上の音符の音高 ズレ 分散 表現指令の大きさ 分散
ノート指令: 表現指令:
音符1
「ソ」 音符2
「シ」 音符3
「ラ」
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
HMMを利用した指令信号モデル
楽譜既知の下,HMMを構成する
39
S1,1
S1,2
S1,3
Si,1
Si,2
Si,3
SI,1
SI,2
SI,3
Start End
ノート指令信号
(平均値系列)
表現指令信号
(平均値系列)
ソ ラ
シ
音符1 音符2 音符3
時間
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
聴取実験結果
被験者:成人男性5人,各被験者の聴取回数:50回
40
ノート指令 ノート成分 +表現成分 実測F0軌跡
ノート指令 0.151 0.479 0.434
ノート成分 -0.106 0.560 0.632
+表現成分 -0.621 -0.524 0.123
実測F0軌跡 -0.679 -0.540 0.091
刺激A 刺激B
被験者ごとに評価結果を「正規化」した後の平均値
ノート指令,ノート成分 ⇒ 実測F0軌跡,+表現成分
実測F0軌跡≒表現成分