CVPR2017事前読み会 2017/07/08 皆川卓也(@takmin)
本資料について
CVPR2017 paper on the web上のタイトルを眺めて、面白そうなやつを適当にピックアップ
http://www.cvpapers.com/cvpr2017.html
選んだ論文に共有のテーマとか一貫性とかは特にない。
今回は1本を深く読むよりも、広く浅く
と思ったら広くない。
最初は10本くらいやるつもりが、結局5本。。。
単純に読んだ順番で並べただけ
自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川 卓也(みながわ たくや)フリーエンジニア(ビジョン&ITラボ)「コンピュータビジョン勉強会@関東」主催博士(工学)
略歴:1999-2003年日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得(2014年)
2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp
Network Dissection
Network Dissection: Quantifying
Interpretability of Deep Visual Representations
David Bau, Bolei Zhou,Aditya Khosla, Aude
Oliva, and Antonio Torralba
概要
画像解析を行うCNNの隠れ層がどのような
「意味」と関連付けられているかを解析するためのフレームワークを提案
Network Dissection
手法 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセプトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解析
Network Dissection 結果
AlexNet, GoogLeNet, VGG, ResNetを、ImageNetおよびPlaces205で学習
学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
AlexNetの各層で最も強く反応したBroden画像
Network Dissection 結果
AlexNet, GoogLeNet, VGG, ResNetを、ImageNetおよびPlaces205で学習
学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した2つのユニットにおける検出結果例
Semantic Scene Completion
Semantic Scene Completion from a Single Depth Image
Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis
Savva,Thomas Funkhouser
概要
1枚の深度画像から、ボクセル空間を生成するScene
Completionと、各ボクセル
にラベル付けを行うSemantic Segmentationを「同時に」行うSemantic Scene
Completion Network
(SSCNet)を提案
Semantic Scene Completion
手法
入力は1つの深度画像から生成したボクセル空間
各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、Surfaceまでの距離が近いほど絶対値が大きくなるような値を配置 (flipped TSDF)
Dilated filterでコンテクスト情報を取得
SUNCGデータセットから学習データを生成
Context-Aware Correlation Filter Tracking
Context-Aware Correlation Filter Tracking
Matthias Mueller, Neil Smith, Bernard Ghanem
概要 追跡対象の周辺の情報をNegative Sampleとして加えることで、
Contextも考慮したCorrelation Filterを作成するフレームワークを提案
従来のCorrelation Filterに関する関連研究は、より強力な特徴量を使用するものがほとんど
Context-Aware Correlation Filter Tracking
従来手法
Correlation Filter
目的関数
目的関数の解は周波数ドメインで以下のように求まる
目的画像𝒂0を巡回させた行列
求めるフィルタ
物体の場所
正則化項
入力画像𝒂0の複素共役𝒂0
∗を離散フーリエ変換
要素ごとの積
Context-Aware Correlation Filter Tracking
手法
Context-Aware Correlation Filter
目的関数
目的関数の解は周波数ドメインで以下のように求まる
背景パッチ画像の巡回行列
論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張しているが、ここでは割愛。
Context-Aware Correlation Filter Tracking
結果動画 https://www.youtube.com/watch?v=-mEkFAAag2Q
(1:24くらいから)
Feature Pyramid Networks
Feature Pyramid Networks for Object Detection
Tsung-Yi Lin, Piotr Dollar, Ross Girshick
概要
Deep CNNに対しわずかな追加コストでFeature
Pyramidを生成する手法を提案
Hand-crafted特徴の物体検出では一般的
CNNによる物体検出で
は、計算コストとメモリの点からFeature Pyramid生成は避けられてきた
Feature Pyramid Networks
手法
Bottom-up pathway (左)
通常のCNN
Top-down pathway (右)
トップの最も表現力の高い層を単純にアップサンプルして、解像度を上げる
対応するBottom-up pathway
の層のfeature mapに1x1の畳み込みでfeature mapの数を合わせてから、足す。
マージされた各層に3x3の畳
み込みをして最終的なFeature mapを算出
Feature Pyramid Networks
実験
Bottom-upはResNets
各スケールのFeature Map上でFaster R-CNNで検出
COCO (single model)でstate-of-the-artを達成
Real-time tracking from depth-colour
imagery
Real-time tracking of single and multiple objects from depth-
colour imagery using 3D signed distance functions
C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray
概要
RGB-Dカメラを用いて物体を3Dでリアルタイム追跡
Real-time tracking from depth-colour
imagery
手法(続き)
ベイズモデルで物体の位置/姿勢をMAP推定
オブジェクトモデルと背景モデルをフレームごとに更新しながら
Real-time tracking from depth-colour
imagery
手法(続き)
ベイズモデルで物体の位置/姿勢をMAP推定
Levenberg-Marquart法
前景モデル(色ヒストグラム)
背景モデル(色ヒストグラム)
モデルΩ上の点を姿勢pに
基づいて投影した位置に反応するデルタ関数
モデルΩ上の周辺の点を姿勢pに基づいて投影した位置に反応するデルタ関数