論文紹介：Unsupervised Learning for Physical Interaction through Video Prediction（NIPS2016読み会）

Unsupervised Learning for Physical Interaction through

Video PredictionChelsea Finn@UC Berkeley

Ian Goodfellow@OpenAISergey Levine@Google Barin, UC Berkeley

チームラボ株式会社　山本遼NIPS2016 読み会 @Preferred Networks

2017/01/19

概要2

簡単に言うと

3

現在のカメラ画像

ロボットの現在の姿勢ロボットが行う行動

次の 1 秒を動画として予測する

4

背景• 自律的に行動するエージェントが外界との相互作用を学習することは大きな課題

– ロボット、自律走行車、ドローンなど• 多くの手法はラベル付き学習データを必要とするが様々な問題に十分なラベル付きデータは用意できない• エージェントが自律的に収集するラベルなしデータから外界との相互作用を学習できれば、この限界を超えられる

5

動画予測の既存研究• CNN や LSTM で、前のフレーム画像から次のフレーム画像を構成する手法が中心• ゲーム動画（ ATARI ）の予測では成功例あり 1

– 前フレームとユーザの入力をもとに予測• 実世界動画では難しく、未知物体がある条件で

2 フレーム以上の予測を行った研究はない

1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.

6

提案手法• 次のフレームの予測画像を CNN で生成するのではなく、

フレーム間のピクセルの移動をモデル化する– 動画の時間的連続性の制約による精度向上の期待– 移動方向による画像からのオブジェクト抽出などの発展性

• 入力 = 現在の画像 + ロボットの姿勢 + アクション出力 = 次フレームの画像• 畳み込み LSTM による３つのモデルを提案し検証

– DNA (Dynamic Neural Advection)– CNDA (Convolutional DNA)– STP (Spatial Transformer Predictors)

7

畳み込み LSTM 1

• LSTM ブロックで画像が扱えるように、入出力を３次元テンソル（画像）に、各重みの掛け算を畳み込みにしたもの

1. Xingjian, et. al. “Convolutional LSTM network: Amachine learning approach for precipitation nowcasting,” NIPS 2015.

畳み込み LSTM は部分の入出力が画像になったLSTM ブロック

ピクセル移動のモデル8

9

モデル① Dynamic Neural Advection (DNA)

• 各ピクセルごとの移動を推定する• 時刻 t のフレームにおける各ピクセル (A) について時刻 t-1 においてどの位置にあったか (A’) を該当ピクセル近傍の分布として、ピクセルごとに推定

時刻 t-1 時刻 t

AA’

10

この値が、各ピクセルの移動分布の推定値 (5x5 近傍 ) 。これを用いて時刻 t の画像を合成

モデル① DNA のネットワーク構成

64 x 64 x 3

時刻 t-1 の画像

32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 25

1x1conv1

stride 2 stride 2 stride 2 deconv2 deconv2 deconv2

skip connection

5アクション

5ロボットの姿勢8 x 8 x 10

tile

conc

aten

ate

Skip connection のある畳み込み LSTM で入力画像から各ピクセルの移動分布を推定

11

モデル② Convolutional DNA (CDNA)

• ピクセルごとではなく、画像の部分ごとに共通した平行移動量を分布で推定– オブジェクトがまとまりとして動くことをモデル化

時刻 t-1 時刻 t

※ 正確には「時刻 t の画像の」マスクと、各マスクが時刻 t-1 ではどれだけズレていたかを推定

︙

推定したマスク

推定背景マスク

各マスクごとの推定平行移動量

背景は移動なし

12

モデル② CDNA のネットワーク構成

64 x 64 x 3


32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 11

1x1conv1


skip connection

5アクション


tile

conc

aten

ate

channel softmax

マスク・背景マスク各マスクの移動分布

fully connected,reshape & normalize

Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれの移動分布を推定

13

モデル③ Spatial Transformer Predictors (STP)

• 画像の部分ごとに共通した２次元アフィン変換を推定– 回転や拡大縮小をモデル化できる

時刻 t-1

︙

推定したマスク

推定背景マスク

各マスクのアフィン変換行列

時刻 t

背景は移動なし

M

M

14

モデル③ STP のネットワーク構成

64 x 64 x 3


32 x 32 x 32

5x5conv1

32 x 32 x 32

5x5 convLSTM 1

32 x 32 x 32

5x5 convLSTM 2

16 x 16 x 64

5x5 convLSTM 3

16 x 16 x 64

5x5 convLSTM 4

8 x 8 x 128

5x5 convLSTM 5

16 x 16 x 64

5x5 convLSTM 6

32 x 32 x 32

5x5 convLSTM 7

64 x 64 x 11

1x1conv1


skip connection

5アクション


tile

conc

aten

ate

channel softmax

マスク・背景マスク

各マスクのアフィン変換行列

fully connected

100

FC1

FC

MM

Skip connection のある畳み込み LSTM で入力画像から各マスクとそれぞれのアフィン変換行列を推定

15

３つのモデルのまとめ• DNA （ピクセル単位の移動推定）– 汎用性が高い

• CDNA （マスクごとの平行移動推定）STP （マスクごとのアフィン変換推定）– 内部的にオブジェクト抽出が行われるため応用可能性が高い

16

複数フレームの生成• 次フレーム画像の推定とは別に、次の時刻のロボット姿勢を一層の NN で推定する

– 推定した画像とロボット姿勢を、その次のフレームの推定に用いる

画像 t-1

ロボット姿勢 t-1

アクション t-1

DNA / CDNA / STP

FC

画像 t

ロボット姿勢 t

アクション t

DNA / CDNA / STP

FC

recurrent

評価実験17

18

データセット• ロボットアームが箱の中のオブジェクトを押すタスク• カメラ画像、ロボットアーム角度、アクションの時系列データを収集• 学習セット： 57k シーケンス（ 150k フレーム）• 評価セット： 1250 シーケンス x 2

– 学習セットに含まれるオブジェクトのセット– 学習セットに含まれないオブジェクトのセット

19

学習条件• 入力

– 動画シーケンスの最初の２フレーム– 最初のロボットの姿勢– 各フレームでロボットに与えるアクション

• 出力– ３フレーム目以降、８フレームの動画を生成し学習

• 詳細– 最適化手法は ADAM– Scheduled Sampling 1 を使用– CDNA と STP のマスクは 10個（背景含め 11個）

1. Bengio, et. al. “Scheduled sampling for sequence prediction with recurrentneural networks,” NIPS 2015

20

評価実験① 既存手法との比較• 以下の既存手法と比較

– FC LSTM 1

• ATARI のゲーム画面を、アクション条件付きで予測• 畳み込み層と LSTM 層に分かれた

DNN でフレーム画像を直接推定

– FF, ms 2

• アクション条件なしで、現在のフレームから次のフレームを予測• マルチスケールの CNN• ２乗誤差ではないロス関数により画像がボケにくい

1. Oh, et. al. “Action-conditional video prediction using deep networks in atari games,” NIPS 2015.

2. Mathieu, et. al. “Deep multi-scale video prediction beyond mean square error,” ICLR 2016

評価実験① 既存手法との比較：結果例

21

Ground Truthアームが左に動き青いオブジェクトが押されて左に動く

提案手法 (CDNA)アームが左に動きオブジェクトも左に動いている

既存手法１モデルの表現力不足で背景を取り出すだけで終わっている

既存手法２複数フレームの予測がほとんどできていない

（実験は 10fps ）

22

評価実験① 既存手法との比較：定量評価

• 既存手法を大きく超える精度– 提案３モデルは同等の性能

• 学習データにない未知オブジェクトでも性能劣化が小さい

ピークS

/N比

()

※

フレーム

学習データに含まれるオブジェクトの場合

ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合

入力の最後のフレームをそのまま予測とした場合

※ ピーク S/N比は、画像圧縮の評価などに使われる指標

23

評価実験② モデルのバリエーション比較ピー

クS/N比

フレーム


ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合

ピクセル移動ではなく、画像を直接推定ピクセル移動ではなく、画像のフレーム差分を推定

Skip connection をなくしたもの

• 画像を直接生成する場合は精度が低く、ピクセル移動によるモデル化が精度に大きく貢献している• Skip connection も精度に大きく貢献している

24

評価実験③ 学習方法の比較ピー

クS/N比

フレーム


ピークS

/N比

フレーム

学習データに含まれないオブジェクトの場合 • 学習時に長い予測フレームを用いると精度が上がる• アクション条件も予測精度に貢献

DNA （８フレーム予測で学習・アクション条件あり）DNA （１フレーム予測で学習・アクション条件あり）DNA （３フレーム予測で学習・アクション条件あり）DNA （８フレーム予測で学習・アクション条件なし）

25

評価実験④ アクションなしの予測実験• 入力を画像のみ（ロボット姿勢とアクションなし）とし同じモデルで動画予測を行う• Human 3.6M Dataset （人のモーションデータ）で動画予測実験

– 学習データにないモーションで評価• 既存手法よりも高い精度

ピークS

/N比

フレーム入力の最後のフレームをそのまま予測とした場合

26

評価実験④アクションなしの予測実験：結果例• 教師なし学習によって背景とオブジェクトが分離できている

まとめ27

28

結論• 直前フレーム画像、ロボット姿勢、アクション系列という、ラベルなしデータからの動画予測• 畳み込み LSTM により、ピクセルの動きをモデル化• 特に学習データに含まれない物体や動きに対して既存手法を大きく超える精度• 移動方向により内部的にオブジェクトの抽出が行われる

29

今後の発展• 特定のゴールを達成するアクションの計画

– 例：　　　　　　　　　　　 ▼ → ▽ 、● → ○ と移動する　　　　　　　　　　　　　ようにアームを動かす　　　　　　　　　　　　　（現在研究中）

• 将来に起こりうる問題や、面白い現象の予測

論文紹介：Unsupervised Learning for Physical Interaction through Video Prediction（NIPS2016読み会）

Technology