Top Banner
Unsupervised Learning for Physical Interaction through Video Prediction Chelsea Finn@UC Berkeley Ian Goodfellow@OpenAI Sergey Levine@Google Barin, UC Berkeley チチチチチチチチチ チチチ NIPS2016 チチチ @Preferred Networks 2017/01/19
29

論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

Jan 24, 2017

Download

Technology

Ryo Yamamoto
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

Unsupervised Learning for Physical Interaction through

Video PredictionChelsea Finn@UC Berkeley

Ian Goodfellow@OpenAISergey Levine@Google Barin, UC Berkeley

チームラボ株式会社 山本遼NIPS2016 読み会 @Preferred Networks

2017/01/19

Page 2: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

概要2

Page 3: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

簡単に言うと

3

現在のカメラ画像

ロボットの現在の姿勢 ロボットが行う行動

次の 1 秒を動画として予測する

Page 4: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

4

背景• 自律的に行動するエージェントが外界との相互作用を学習することは大きな課題

– ロボット、自律走行車、ドローンなど• 多くの手法はラベル付き学習データを必要とするが様々な問題に十分なラベル付きデータは用意できない• エージェントが自律的に収集するラベルなしデータから外界との相互作用を学習できれば、この限界を超えられる

Page 5: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

5

動画予測の既存研究• CNN や LSTM で、前のフレーム画像から次のフレーム画像を構成する手法が中心• ゲーム動画( ATARI )の予測では成功例あり 1

– 前フレームとユーザの入力をもとに予測• 実世界動画では難しく、未知物体がある条件で

2 フレーム以上の予測を行った研究はない

1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.

Page 6: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

6

提案手法• 次のフレームの予測画像を CNN で生成するのではなく、

フレーム間のピクセルの移動をモデル化する– 動画の時間的連続性の制約による精度向上の期待– 移動方向による画像からのオブジェクト抽出などの発展性

• 入力 = 現在の画像 + ロボットの姿勢 + アクション出力 = 次フレームの画像• 畳み込み LSTM による3つのモデルを提案し検証

– DNA (Dynamic Neural Advection)– CNDA (Convolutional DNA)– STP (Spatial Transformer Predictors)

Page 7: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

7

畳み込み LSTM 1

• LSTM ブロックで画像が扱えるように、入出力を3次元テンソル(画像)に、各重みの掛け算を畳み込みにしたもの

1. Xingjian, et. al. “Convolutional LSTM network: Amachine learning approach for precipitation nowcasting,” NIPS 2015.

畳み込み LSTM は 部分の入出力が画像になったLSTM ブロック

Page 8: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

ピクセル移動のモデル8

Page 9: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

9

モデル① Dynamic Neural Advection (DNA)

• 各ピクセルごとの移動を推定する• 時刻 t のフレームにおける各ピクセル (A) について時刻 t-1 においてどの位置にあったか (A’) を該当ピクセル近傍の分布として、ピクセルごとに推定

時刻 t-1 時刻 t

AA’

Page 10: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

10

この値が、各ピクセルの移動分布の推定値 (5x5 近傍 ) 。これを用いて時刻 t の画像を合成

モデル① DNA のネットワーク構成

64 x 64 x 3

時刻 t-1 の画像

32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 25

1x1conv1

stride 2 stride 2 stride 2 deconv2 deconv2 deconv2

skip connection

5アクション

5ロボットの姿勢8 x 8 x 10

tile

conc

aten

ate

Skip connection のある畳み込み LSTM で入力画像から各ピクセルの移動分布を推定

Page 11: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

11

モデル② Convolutional DNA (CDNA)

• ピクセルごとではなく、画像の部分ごとに共通した平行移動量を分布で推定– オブジェクトがまとまりとして動くことをモデル化

時刻 t-1 時刻 t

※ 正確には「時刻 t の画像の」マスクと、各マスクが時刻 t-1 ではどれだけズレていたかを推定

推定したマスク

推定背景マスク

各マスクごとの推定平行移動量

背景は移動なし

Page 12: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

12

モデル② CDNA のネットワーク構成

64 x 64 x 3

時刻 t-1 の画像

32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 11

1x1conv1

stride 2 stride 2 stride 2 deconv2 deconv2 deconv2

skip connection

5アクション

5ロボットの姿勢8 x 8 x 10

tile

conc

aten

ate

channel softmax

マスク・背景マスク各マスクの移動分布

fully connected,reshape & normalize

Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれの移動分布を推定

Page 13: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

13

モデル③ Spatial Transformer Predictors (STP)

• 画像の部分ごとに共通した2次元アフィン変換を推定– 回転や拡大縮小をモデル化できる

時刻 t-1

推定したマスク

推定背景マスク

各マスクのアフィン変換行列

時刻 t

背景は移動なし

M

M

Page 14: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

14

モデル③ STP のネットワーク構成

64 x 64 x 3

時刻 t-1 の画像

32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 11

1x1conv1

stride 2 stride 2 stride 2 deconv2 deconv2 deconv2

skip connection

5アクション

5ロボットの姿勢8 x 8 x 10

tile

conc

aten

ate

channel softmax

マスク・背景マスク

各マスクのアフィン変換行列

fully connected

100

FC1

FC

MM

Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれのアフィン変換行列を推定

Page 15: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

15

3つのモデルのまとめ• DNA (ピクセル単位の移動推定)– 汎用性が高い

• CDNA (マスクごとの平行移動推定)STP (マスクごとのアフィン変換推定)– 内部的にオブジェクト抽出が行われるため応用可能性が高い

Page 16: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

16

複数フレームの生成• 次フレーム画像の推定とは別に、次の時刻のロボット姿勢を一層の NN で推定する

– 推定した画像とロボット姿勢を、その次のフレームの推定に用いる

画像 t-1

ロボット姿勢 t-1

アクション t-1

DNA / CDNA / STP

FC

画像 t

ロボット姿勢 t

アクション t

DNA / CDNA / STP

FC

recurrent

Page 17: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

評価実験17

Page 18: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

18

データセット• ロボットアームが箱の中のオブジェクトを押すタスク• カメラ画像、ロボットアーム角度、アクション の時系列データを収集• 学習セット: 57k シーケンス( 150k フレーム)• 評価セット: 1250 シーケンス x 2

– 学習セットに含まれるオブジェクトのセット– 学習セットに含まれないオブジェクトのセット

Page 19: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

19

学習条件• 入力

– 動画シーケンスの最初の2フレーム– 最初のロボットの姿勢– 各フレームでロボットに与えるアクション

• 出力– 3フレーム目以降、8フレームの動画を生成し学習

• 詳細– 最適化手法は ADAM– Scheduled Sampling 1 を使用– CDNA と STP のマスクは 10個(背景含め 11個)

1. Bengio, et. al. “Scheduled sampling for sequence prediction with recurrentneural networks,” NIPS 2015

Page 20: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

20

評価実験① 既存手法との比較• 以下の既存手法と比較

– FC LSTM 1

• ATARI のゲーム画面を、アクション条件付きで予測• 畳み込み層と LSTM 層に分かれた

DNN でフレーム画像を直接推定

– FF, ms 2

• アクション条件なしで、現在のフレームから次のフレームを予測• マルチスケールの CNN• 2乗誤差ではないロス関数により画像がボケにくい

1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.

2. Mathieu, et. al. “Deep multi-scale video prediction beyond mean square error,” ICLR 2016

Page 21: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

評価実験① 既存手法との比較:結果例

21

Ground Truthアームが左に動き青いオブジェクトが押されて左に動く

提案手法 (CDNA)アームが左に動きオブジェクトも左に動いている

既存手法1モデルの表現力不足で背景を取り出すだけで終わっている

既存手法2複数フレームの予測がほとんどできていない

(実験は 10fps )

Page 22: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

22

評価実験① 既存手法との比較:定量評価

• 既存手法を大きく超える精度– 提案3モデルは同等の性能

• 学習データにない未知オブジェクトでも性能劣化が小さい

ピークS

/N比

()

フレーム

学習データに含まれるオブジェクトの場合

ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合

入力の最後のフレームをそのまま予測とした場合

※ ピーク S/N比は、画像圧縮の評価などに使われる指標

Page 23: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

23

評価実験② モデルのバリエーション比較ピー

クS/N比

フレーム

学習データに含まれるオブジェクトの場合

ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合

ピクセル移動ではなく、画像を直接推定ピクセル移動ではなく、画像のフレーム差分を推定

Skip connection をなくしたもの

• 画像を直接生成する場合は精度が低く、ピクセル移動によるモデル化が精度に大きく貢献している• Skip connection も精度に大きく貢献している

Page 24: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

24

評価実験③ 学習方法の比較ピー

クS/N比

フレーム

学習データに含まれるオブジェクトの場合

ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合 • 学習時に長い予測フレームを用いると精度が上がる• アクション条件も予測精度に貢献

DNA (8フレーム予測で学習・アクション条件あり)DNA (1フレーム予測で学習・アクション条件あり)DNA (3フレーム予測で学習・アクション条件あり)DNA (8フレーム予測で学習・アクション条件なし)

Page 25: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

25

評価実験④ アクションなしの予測実験• 入力を画像のみ(ロボット姿勢とアクションなし)とし同じモデルで動画予測を行う• Human 3.6M Dataset (人のモーションデータ)で動画予測実験

– 学習データにないモーションで評価• 既存手法よりも高い精度

ピークS

/N比

フレーム入力の最後のフレームをそのまま予測とした場合

Page 26: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

26

評価実験④アクションなしの予測実験:結果例• 教師なし学習によって背景とオブジェクトが分離できている

Page 27: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

まとめ27

Page 28: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

28

結論• 直前フレーム画像、ロボット姿勢、アクション系列という、ラベルなしデータからの動画予測• 畳み込み LSTM により、ピクセルの動きをモデル化• 特に学習データに含まれない物体や動きに対して既存手法を大きく超える精度• 移動方向により内部的にオブジェクトの抽出が行われる

Page 29: 論文紹介:Unsupervised Learning for Physical Interaction through Video Prediction(NIPS2016読み会)

29

今後の発展• 特定のゴールを達成するアクションの計画

– 例:            ▼ → ▽ 、● → ○ と移動する              ようにアームを動かす              (現在研究中)

• 将来に起こりうる問題や、面白い現象の予測