Unsupervised Learning for Physical Interaction through Video Prediction Chelsea Finn@UC Berkeley Ian Goodfellow@OpenAI Sergey Levine@Google Barin, UC Berkeley チチチチチチチチチ チチチ NIPS2016 チチチ @Preferred Networks 2017/01/19
Jan 24, 2017
Unsupervised Learning for Physical Interaction through
Video PredictionChelsea Finn@UC Berkeley
Ian Goodfellow@OpenAISergey Levine@Google Barin, UC Berkeley
チームラボ株式会社 山本遼NIPS2016 読み会 @Preferred Networks
2017/01/19
概要2
簡単に言うと
3
現在のカメラ画像
ロボットの現在の姿勢 ロボットが行う行動
次の 1 秒を動画として予測する
4
背景• 自律的に行動するエージェントが外界との相互作用を学習することは大きな課題
– ロボット、自律走行車、ドローンなど• 多くの手法はラベル付き学習データを必要とするが様々な問題に十分なラベル付きデータは用意できない• エージェントが自律的に収集するラベルなしデータから外界との相互作用を学習できれば、この限界を超えられる
5
動画予測の既存研究• CNN や LSTM で、前のフレーム画像から次のフレーム画像を構成する手法が中心• ゲーム動画( ATARI )の予測では成功例あり 1
– 前フレームとユーザの入力をもとに予測• 実世界動画では難しく、未知物体がある条件で
2 フレーム以上の予測を行った研究はない
1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.
6
提案手法• 次のフレームの予測画像を CNN で生成するのではなく、
フレーム間のピクセルの移動をモデル化する– 動画の時間的連続性の制約による精度向上の期待– 移動方向による画像からのオブジェクト抽出などの発展性
• 入力 = 現在の画像 + ロボットの姿勢 + アクション出力 = 次フレームの画像• 畳み込み LSTM による3つのモデルを提案し検証
– DNA (Dynamic Neural Advection)– CNDA (Convolutional DNA)– STP (Spatial Transformer Predictors)
7
畳み込み LSTM 1
• LSTM ブロックで画像が扱えるように、入出力を3次元テンソル(画像)に、各重みの掛け算を畳み込みにしたもの
1. Xingjian, et. al. “Convolutional LSTM network: Amachine learning approach for precipitation nowcasting,” NIPS 2015.
畳み込み LSTM は 部分の入出力が画像になったLSTM ブロック
ピクセル移動のモデル8
9
モデル① Dynamic Neural Advection (DNA)
• 各ピクセルごとの移動を推定する• 時刻 t のフレームにおける各ピクセル (A) について時刻 t-1 においてどの位置にあったか (A’) を該当ピクセル近傍の分布として、ピクセルごとに推定
時刻 t-1 時刻 t
AA’
10
この値が、各ピクセルの移動分布の推定値 (5x5 近傍 ) 。これを用いて時刻 t の画像を合成
モデル① DNA のネットワーク構成
64 x 64 x 3
時刻 t-1 の画像
32 x 32 x 32
5x5conv1
32 x 32 x 32
5x5 convLSTM 1
32 x 32 x 32
5x5 convLSTM 2
16 x 16 x 64
5x5 convLSTM 3
16 x 16 x 64
5x5 convLSTM 4
8 x 8 x 128
5x5 convLSTM 5
16 x 16 x 64
5x5 convLSTM 6
32 x 32 x 32
5x5 convLSTM 7
64 x 64 x 25
1x1conv1
stride 2 stride 2 stride 2 deconv2 deconv2 deconv2
skip connection
5アクション
5ロボットの姿勢8 x 8 x 10
tile
conc
aten
ate
Skip connection のある畳み込み LSTM で入力画像から各ピクセルの移動分布を推定
11
モデル② Convolutional DNA (CDNA)
• ピクセルごとではなく、画像の部分ごとに共通した平行移動量を分布で推定– オブジェクトがまとまりとして動くことをモデル化
時刻 t-1 時刻 t
※ 正確には「時刻 t の画像の」マスクと、各マスクが時刻 t-1 ではどれだけズレていたかを推定
︙
推定したマスク
推定背景マスク
各マスクごとの推定平行移動量
背景は移動なし
12
モデル② CDNA のネットワーク構成
64 x 64 x 3
時刻 t-1 の画像
32 x 32 x 32
5x5conv1
32 x 32 x 32
5x5 convLSTM 1
32 x 32 x 32
5x5 convLSTM 2
16 x 16 x 64
5x5 convLSTM 3
16 x 16 x 64
5x5 convLSTM 4
8 x 8 x 128
5x5 convLSTM 5
16 x 16 x 64
5x5 convLSTM 6
32 x 32 x 32
5x5 convLSTM 7
64 x 64 x 11
1x1conv1
stride 2 stride 2 stride 2 deconv2 deconv2 deconv2
skip connection
5アクション
5ロボットの姿勢8 x 8 x 10
tile
conc
aten
ate
channel softmax
マスク・背景マスク各マスクの移動分布
fully connected,reshape & normalize
Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれの移動分布を推定
13
モデル③ Spatial Transformer Predictors (STP)
• 画像の部分ごとに共通した2次元アフィン変換を推定– 回転や拡大縮小をモデル化できる
時刻 t-1
︙
推定したマスク
推定背景マスク
各マスクのアフィン変換行列
時刻 t
背景は移動なし
M
M
14
モデル③ STP のネットワーク構成
64 x 64 x 3
時刻 t-1 の画像
32 x 32 x 32
5x5conv1
32 x 32 x 32
5x5 convLSTM 1
32 x 32 x 32
5x5 convLSTM 2
16 x 16 x 64
5x5 convLSTM 3
16 x 16 x 64
5x5 convLSTM 4
8 x 8 x 128
5x5 convLSTM 5
16 x 16 x 64
5x5 convLSTM 6
32 x 32 x 32
5x5 convLSTM 7
64 x 64 x 11
1x1conv1
stride 2 stride 2 stride 2 deconv2 deconv2 deconv2
skip connection
5アクション
5ロボットの姿勢8 x 8 x 10
tile
conc
aten
ate
channel softmax
マスク・背景マスク
各マスクのアフィン変換行列
fully connected
100
FC1
FC
MM
Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれのアフィン変換行列を推定
15
3つのモデルのまとめ• DNA (ピクセル単位の移動推定)– 汎用性が高い
• CDNA (マスクごとの平行移動推定)STP (マスクごとのアフィン変換推定)– 内部的にオブジェクト抽出が行われるため応用可能性が高い
16
複数フレームの生成• 次フレーム画像の推定とは別に、次の時刻のロボット姿勢を一層の NN で推定する
– 推定した画像とロボット姿勢を、その次のフレームの推定に用いる
画像 t-1
ロボット姿勢 t-1
アクション t-1
DNA / CDNA / STP
FC
画像 t
ロボット姿勢 t
アクション t
DNA / CDNA / STP
FC
recurrent
評価実験17
18
データセット• ロボットアームが箱の中のオブジェクトを押すタスク• カメラ画像、ロボットアーム角度、アクション の時系列データを収集• 学習セット: 57k シーケンス( 150k フレーム)• 評価セット: 1250 シーケンス x 2
– 学習セットに含まれるオブジェクトのセット– 学習セットに含まれないオブジェクトのセット
19
学習条件• 入力
– 動画シーケンスの最初の2フレーム– 最初のロボットの姿勢– 各フレームでロボットに与えるアクション
• 出力– 3フレーム目以降、8フレームの動画を生成し学習
• 詳細– 最適化手法は ADAM– Scheduled Sampling 1 を使用– CDNA と STP のマスクは 10個(背景含め 11個)
1. Bengio, et. al. “Scheduled sampling for sequence prediction with recurrentneural networks,” NIPS 2015
20
評価実験① 既存手法との比較• 以下の既存手法と比較
– FC LSTM 1
• ATARI のゲーム画面を、アクション条件付きで予測• 畳み込み層と LSTM 層に分かれた
DNN でフレーム画像を直接推定
– FF, ms 2
• アクション条件なしで、現在のフレームから次のフレームを予測• マルチスケールの CNN• 2乗誤差ではないロス関数により画像がボケにくい
1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.
2. Mathieu, et. al. “Deep multi-scale video prediction beyond mean square error,” ICLR 2016
評価実験① 既存手法との比較:結果例
21
Ground Truthアームが左に動き青いオブジェクトが押されて左に動く
提案手法 (CDNA)アームが左に動きオブジェクトも左に動いている
既存手法1モデルの表現力不足で背景を取り出すだけで終わっている
既存手法2複数フレームの予測がほとんどできていない
(実験は 10fps )
22
評価実験① 既存手法との比較:定量評価
• 既存手法を大きく超える精度– 提案3モデルは同等の性能
• 学習データにない未知オブジェクトでも性能劣化が小さい
ピークS
/N比
()
※
フレーム
学習データに含まれるオブジェクトの場合
ピークS
/N比
フレーム
学習データに含まれないオブジェクトの場合
入力の最後のフレームをそのまま予測とした場合
※ ピーク S/N比は、画像圧縮の評価などに使われる指標
23
評価実験② モデルのバリエーション比較ピー
クS/N比
フレーム
学習データに含まれるオブジェクトの場合
ピークS
/N比
フレーム
学習データに含まれないオブジェクトの場合
ピクセル移動ではなく、画像を直接推定ピクセル移動ではなく、画像のフレーム差分を推定
Skip connection をなくしたもの
• 画像を直接生成する場合は精度が低く、ピクセル移動によるモデル化が精度に大きく貢献している• Skip connection も精度に大きく貢献している
24
評価実験③ 学習方法の比較ピー
クS/N比
フレーム
学習データに含まれるオブジェクトの場合
ピークS
/N比
フレーム
学習データに含まれないオブジェクトの場合 • 学習時に長い予測フレームを用いると精度が上がる• アクション条件も予測精度に貢献
DNA (8フレーム予測で学習・アクション条件あり)DNA (1フレーム予測で学習・アクション条件あり)DNA (3フレーム予測で学習・アクション条件あり)DNA (8フレーム予測で学習・アクション条件なし)
25
評価実験④ アクションなしの予測実験• 入力を画像のみ(ロボット姿勢とアクションなし)とし同じモデルで動画予測を行う• Human 3.6M Dataset (人のモーションデータ)で動画予測実験
– 学習データにないモーションで評価• 既存手法よりも高い精度
ピークS
/N比
フレーム入力の最後のフレームをそのまま予測とした場合
26
評価実験④アクションなしの予測実験:結果例• 教師なし学習によって背景とオブジェクトが分離できている
まとめ27
28
結論• 直前フレーム画像、ロボット姿勢、アクション系列という、ラベルなしデータからの動画予測• 畳み込み LSTM により、ピクセルの動きをモデル化• 特に学習データに含まれない物体や動きに対して既存手法を大きく超える精度• 移動方向により内部的にオブジェクトの抽出が行われる
29
今後の発展• 特定のゴールを達成するアクションの計画
– 例: ▼ → ▽ 、● → ○ と移動する ようにアームを動かす (現在研究中)
• 将来に起こりうる問題や、面白い現象の予測