Cvpr2017事前読み会

CVPR2017事前読み会

2017/07/08 皆川卓也(@takmin)

本資料について

CVPR2017 paper on the web上のタイトルを眺めて、面白そうなやつを適当にピックアップ

http://www.cvpapers.com/cvpr2017.html

選んだ論文に共有のテーマとか一貫性とかは特にない。

今回は１本を深く読むよりも、広く浅く

と思ったら広くない。

最初は10本くらいやるつもりが、結局５本。。。

単純に読んだ順番で並べただけ

http://www.cvpapers.com/cvpr2017.html

自己紹介

3

テクニカル・ソリューション・アーキテクト

皆川卓也（みながわたくや）フリーエンジニア（ビジョン＆ITラボ）「コンピュータビジョン勉強会＠関東」主催博士（工学）

略歴：1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事

2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事

2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年）

2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事

http://visitlab.jp

http://visitlab.jp/

Network Dissection

Network Dissection: Quantifying

Interpretability of Deep Visual Representations

David Bau, Bolei Zhou,Aditya Khosla, Aude

Oliva, and Antonio Torralba

概要

画像解析を行うCNNの隠れ層がどのような

「意味」と関連付けられているかを解析するためのフレームワークを提案

Network Dissection

手法 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセプトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解析

Network Dissection 結果

AlexNet, GoogLeNet, VGG, ResNetを、ImageNetおよびPlaces205で学習

学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出

AlexNetの各層で最も強く反応したBroden画像

Network Dissection 結果

AlexNet, GoogLeNet, VGG, ResNetを、ImageNetおよびPlaces205で学習

学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出

Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した２つのユニットにおける検出結果例

Semantic Scene Completion

Semantic Scene Completion from a Single Depth Image

Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis

Savva,Thomas Funkhouser

概要

1枚の深度画像から、ボクセル空間を生成するScene

Completionと、各ボクセル

にラベル付けを行うSemantic Segmentationを「同時に」行うSemantic Scene

Completion Network

(SSCNet)を提案


手法

入力は１つの深度画像から生成したボクセル空間

各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、Surfaceまでの距離が近いほど絶対値が大きくなるような値を配置 (flipped TSDF)

Dilated filterでコンテクスト情報を取得

SUNCGデータセットから学習データを生成


実験

Scene CompletionとSemantic Segmentationを同時に行う方が個別に行うよりうまくいく

Context-Aware Correlation Filter Tracking


Matthias Mueller, Neil Smith, Bernard Ghanem

概要追跡対象の周辺の情報をNegative Sampleとして加えることで、

Contextも考慮したCorrelation Filterを作成するフレームワークを提案

従来のCorrelation Filterに関する関連研究は、より強力な特徴量を使用するものがほとんど


従来手法

Correlation Filter

目的関数

目的関数の解は周波数ドメインで以下のように求まる

目的画像𝒂0を巡回させた行列

求めるフィルタ

物体の場所

正則化項

入力画像𝒂0の複素共役𝒂0

∗を離散フーリエ変換

要素ごとの積


手法

Context-Aware Correlation Filter

目的関数

目的関数の解は周波数ドメインで以下のように求まる

背景パッチ画像の巡回行列

論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張しているが、ここでは割愛。


結果 4つの従来法にContext-Awareを追加してOTB-100データセットで比較


結果動画 https://www.youtube.com/watch?v=-mEkFAAag2Q

(1:24くらいから)

https://www.youtube.com/watch?v=-mEkFAAag2Q

Feature Pyramid Networks

Feature Pyramid Networks for Object Detection

Tsung-Yi Lin, Piotr Dollar, Ross Girshick

概要

Deep CNNに対しわずかな追加コストでFeature

Pyramidを生成する手法を提案

Hand-crafted特徴の物体検出では一般的

CNNによる物体検出で

は、計算コストとメモリの点からFeature Pyramid生成は避けられてきた


手法

Bottom-up pathway (左)

通常のCNN

Top-down pathway (右)

トップの最も表現力の高い層を単純にアップサンプルして、解像度を上げる

対応するBottom-up pathway

の層のfeature mapに1x1の畳み込みでfeature mapの数を合わせてから、足す。

マージされた各層に3x3の畳

み込みをして最終的なFeature mapを算出


実験

Bottom-upはResNets

各スケールのFeature Map上でFaster R-CNNで検出

COCO (single model)でstate-of-the-artを達成

Real-time tracking from depth-colour

imagery

Real-time tracking of single and multiple objects from depth-

colour imagery using 3D signed distance functions

C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray

概要

RGB-Dカメラを用いて物体を3Dでリアルタイム追跡


imagery

手法

ベイズモデルで物体の位置/姿勢をMAP推定

追跡対象周辺のボクセルを表面からの距離関数φでモデル化


imagery

手法（続き）


オブジェクトモデルと背景モデルをフレームごとに更新しながら


imagery

手法（続き）


Levenberg-Marquart法

前景モデル（色ヒストグラム）

背景モデル（色ヒストグラム）

モデルΩ上の点を姿勢pに

基づいて投影した位置に反応するデルタ関数

モデルΩ上の周辺の点を姿勢pに基づいて投影した位置に反応するデルタ関数


imagery

結果


imagery

結果（処理時間）

Cvpr2017事前読み会

Technology