Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

ECCV2016Pedestrian Behavior understanding and Prediction with Deep Neural Networks

Shuai Yi, Hongsheng Li, Xaogang Wnag

2016/11/13石井

この論文でやりたいこと「固定カメラでの人の移動予測」赤：人が歩いてきた経路緑：本手法で予測した移動経路青：本手法で予測している未来の経路

既存手法• Optical Flowを使う方法

– 重なり後の復帰に曖昧性が残る

• Topic Modelを使う方法[18‐21]• Trajectoryをクラスタリングする方法[22,23]

– シーンの過去の統計的動きを学習

• Kataniの方法[24]– 静的シーンで単一物体経路計画

– ☓：複数人，シーン変化

• Agent‐based Method[12,15,17,25,26]– 個々の動き，インタラクションをモデル化

– ☓：事前のルール決めが必要でルール外のシーンでの保証無し

Deep Learningを使う方法

• 様々な画像認識で高精度な学習方法– 物体識別，検出，追尾，セグメンテーション

• Dense Optical Flowとの組合せ– 動きセグメンテーション，アクション認識

– ☓：Optical Flow → 人物交差時の曖昧性問題

• Dynamic Textureとの組合せ– フレーム間の動き情報を逐次利用

– ☓：長期予測ができない

本論から外れて．

• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]

• LSTM autoencoderで表現学習

• 画像再構成，画像予測

https://arxiv.org/pdf/1502.04681.pdf

本論から外れて．

• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]: 動画から再構成と予測

https://arxiv.org/pdf/1502.04681.pdf

基本的アイデア

• b)動きの座標列をチャネルに格納（Input）• c)動きの座標列特徴を学習

• d) (b)のM時刻後の動きを予測(Output)

動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

基本的アイデア

• b)動きの座標列をチャネルに格納（Input）• c)動きの座標列特徴を学習

• d) (b)のM時刻後の動きを予測(Output)

動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

順に見ていきます

入力データの作り方• b)人毎にM時刻後の位置を基準に各時刻のベクトルを生成

• c)生成ベクトルを並べ(di,dj…)，入力ボクセルのM時刻後の位置Ii,Ijに代入

同じ座標

同じ座標

M時刻後のベクトル生成と埋め込み• 人毎にM時刻後の位置を基準に各時刻のベクトルを生成

• 各時刻の座標からM時刻後の移動位置へのベクトル列を算出

Behavior‐CNN

• Conv(3x3)3つ→max pooling (2x2)• Location Bias mapをチャネル毎に加算

• Conv(3x3)3つ→Deconv(4x4)=>予測出力

Behavior‐CNN

• Loss関数

– ∗ : 予測データ

– ∗ : 正解データ

– M : バイナリマスク（diがある場所1, diが無い場所0)• 要素ごとに積 (○ : Hadamard product operator )

Behavior‐CNN

• 学習のコツ

– End‐to‐Endでは学習がうまくいかない

– 1) (b)までを初期値ランダムで学習

– 2) (b)を固定し，(c),(d),(e)を学習

– 3) (b)から(e)までをfine‐tuning

簡易評価（データセット）

• Dataset I: Pedestrian Walking Route Dataset – 4000sec, 12684 pedestrians (annotated)

• 4990 セットを利用：90%を学習に利用，残りをテスト

• Dataset2: 独自データ– 797 pedestrians (annotated)

• 550セットを利用：学習，テストは上記同様

• 20 frame毎にアノテーション

• 入力画像サイズ : 256x256• 5フレームを学習し，次の5フレームを予測

256

256

簡易評価（Bias Mapの効果）

• Bias Map (畳込みの途中で足し込む元画像):下図(黄)• 評価

– 効果の有り/無し

– テスト画像のみフリッピングによるロバスト性

Bias Map有りが効果有りフリッピングにロバスト

何故か急にロボットの移動実験

• 8x8グリッドに区切って，ロボットの移動予測

• 正解との相関が0.88, 0.91等高め

• (d)：障害物ありパタンでも相関高め 0.97

学習されたフィルタ調査

• 学習結果で入力を畳込み(Feature Map)• 反応の強い所を表示

– 上段：右上に行こうとしている特徴が33番フィルタに出現

– 下段：左下に行こうとしている特徴が59番フィルタに出現

学習フィルタを変えた評価

• 3x3で学習したものを1x1に変更

– 性能劣化

この４節は，査読後に追加した感満載

実験• 評価：Dataset I, Dataset II

– 手動アノテーションと自動追尾(KLT)で評価

– 特徴量学習が効果あり

– 一番性能が良い


– 手動アノテーションと自動追尾(KLT)で評価

– 特徴量学習が効果あり

– 一番性能が良い


– 長期予測：４秒後の動きを予測

• 先程までが何秒後の予測か記載無し．．．

５３％しかでていない．．．


– Tracking手法の事前情報として利用

– L2誤差で比較

まとめ

• 動きをスパースなボリュームデータとしてエンコード

• ロケーションマップを入れることで学習特徴の意味的特徴も学習

• 様々なアプリに利用可能

Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Technology