2016/8/25 IEICE SIP研究会
Talk Contentsディープラーニングの勃興とその背景
ディープラーニング現況と歴史背景
コンピュータビジョンとディープラーニング
視覚モデルと DCNN (Neocognitron)
視覚野: DCNNの起源
DCNNの構造と動作
DCNNのびまん性肺疾患識別への応用
少数画像問題への適用: 転移学習の応用
中間層表現の評価
4
2016/8/25 IEICE SIP研究会
Alpha Go の躍進とディープラーニング
Nature 2016/01/28
From pixel to intelligence!
2016/8/25 IEICE SIP研究会
ソリューションビジネスの人工知能化@ヘルスケア
2016/8/25 IEICE SIP研究会
ディープラーニングは新技術か?答えはNO,歴史的には 1960 年代くらいまで遡れる
要素技術には新しいことはそれほどない(多分)
DeepMind (AlphaGo)は比較的枯れた技術で成功DCNN + 強化学習 + MCMC
第2世代のNNから大きく変化したもの
データの質と量: Internet, SNS, Cloud…
計算機環境: パッケージ化,GPU の勃興…
7
2016/8/25 IEICE SIP研究会
InternetGoogle
FacebookTwitter
人工知能(AI)の歴史的背景
201020001990198019701960
第1期
第2期 第3期(たぶん)
inspired from 岡谷貴之(東北大),麻生英樹(産総研),岡田真人(東大)
今ココPerceptron
(Rosenblatt 57)
Neocognitron(Fukushima 80)
Conv. net(LeCun+ 89)
Deep learning(Hinton+ 06)
“Linear Separable” (Minski & Papert 68)
Back Prop.(Rumelhart+ 86)
SVM (Vapnik 95)
脳型AI
第5世代コンピュータ“エキスパートシステム” “知識工学”1982~92
Watson(IBM)
記号処理的AIオントロジー semantic web
カーネル法の勃興
知識獲得の難しさ
特徴表現の難しさ理論的な限界
1st gen.
2nd gen. 3rd gen.
2016/8/25 IEICE SIP研究会
ディープラーニング(深層学習)とは?
神経回路(ニューラルネット)モデルを用いた人工知能技術
脳の働きを模した構造と学習方式
深い階層構造を持つことが特徴
9
Input RecognitionIt’ s “5”
It’ s “5”
2016/8/25 IEICE SIP研究会
ディープラーニング以前の画像認識課題画像特性(エッジ等)の特徴量構築+機械学習
Shallow Network model
10
Input
OutputLeopardCat
Feature Detector(Haar, SIFT, HOG...)
Machine Learning (SVM, Boosting...)
Pixel
Feature
特徴抽出器設計の難しさが顕在化 誤差低減率が 1 [%/years]
2016/8/25 IEICE SIP研究会
Computer Vision 業界でのDCNNComputer Vision 業界での特徴抽出の変遷
従来の機械学習(2000~2012)(ハンドデザインの)特徴抽出 + 学習可能な識別器
Deep learning以降(2012~)特徴表現の学習 + 学習可能な識別器
11
Feature extractor(SIFT, HOG, etc)
Classifier(SVM, Log.Reg, etc) “car”
Feature extractor Feedforward NN
Classifier(SVM, Log.Reg, etc) “car”
2012~
2016/8/25 IEICE SIP研究会
Talk Contentsディープラーニングの勃興とその背景
ディープラーニング現況と歴史背景
コンピュータビジョンとディープラーニング
視覚モデルと DCNN (Neocognitron)
視覚野: DCNNの起源
DCNNの構造と動作
DCNNのびまん性肺疾患識別への応用
少数画像問題への適用: 転移学習の応用
中間層表現の評価
12
2016/8/25 IEICE SIP研究会
視覚野モデルとしてのDCNN
視覚野: 階層構造を持ち,階層ごとに異なる視覚課題の解決
初期視覚(V1)野: 狭い受容野,単純な特徴抽出Simple Cell,Complex Cellの存在
高次視覚(IT)野: 広い受容野,中程度に複雑な特徴に選択的13
V1
V2
V4PIT
CIT
Ventral Pathway
AIT
TEO
TE
V1
V2
V3 VP
V4 MT VA/V4
PIT
AIT/CIT 8 TF
LIP MST DPL VIP
7a
V3A
V1
V4
V2
IT
Small receptive field
Edge, Line segmentdetector
Large receptive field
Face, Complex featuredetector
?
?
[Felleman & van Essen 91 を改変]
2016/8/25 IEICE SIP研究会
初期視覚野 (V1野) の細胞群1個の細胞の観えている範囲
(受容野)は狭い→ 情報処理範囲の制限
視覚野中の “エッジ” や “線分” といった成分に反応
単純型細胞(simple cell)と複雑型細胞(complex cell)に分けられる
14
http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf
2016/8/25 IEICE SIP研究会
初期視覚野の2種類の細胞
線分やエッジなどの成分に反応 Simple cell: 方位,位相に敏感
Complex cell: 位相には許容的
15
V1
V2
V4PIT
CIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Small receptive field
Edge, Line segmentdetector
Large receptive field
Face, Complex featuredetector
?
?
複雑型細胞 方位にのみ敏感
受容野
入力刺激
発火 非発火発火最適な入力刺激位相がずれた入力 方位がずれたの入力
単純型細胞 方位・位相に敏感
受容野
入力刺激
発火非発火 非発火最適な入力刺激位相がずれた入力 方位がずれたの入力
Simple cell Complex cell
2016/8/25 IEICE SIP研究会
Hubel-Wiesel の階層仮説
ハードウェアとしてComplex cell はSimple Cell の出力合成で説明可能[Hubel & Wiesel 59]
16
単純型細胞 方位・位相に敏感
受容野
入力刺激
発火非発火 非発火最適な入力刺激位相がずれた入力 方位がずれたの入力
Simple cell
複雑型細胞 方位にのみ敏感
受容野
入力刺激
発火 非発火発火最適な入力刺激位相がずれた入力 方位がずれたの入力
Complex cell
同じ受容野特性をもつ単純型細胞群
複雑型細胞
最適な入力刺激
Hubel & Wiesel の階層仮説
単純型細胞群
複雑型細胞
最適な入力刺激発火
単純型細胞群
複雑型細胞
最適な入力刺激
発火
2016/8/25 IEICE SIP研究会
高次視覚野の性質
巨大な受容野
中程度に複雑な特徴に反応“顔細胞”の存在
時空間的変化に許容的17
V1
V2
V4PIT
CIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Small receptive field
Edge, Line segmentdetector
Large receptive field
Face, Complex featuredetector
?
?
(Kobatake & Tanaka 94 を改変)
2016/8/25 IEICE SIP研究会
3次元物体と高次視覚野細胞の反応 [Logothetis+96]
ワイヤクリップ状の刺激の弁別問題
サルの高次視覚(TE)野での細胞反応target 物体の像 と その他の物体(distractor)に対する反応
18View tuned な細胞が存在
Rotation
Distractor
2016/8/25 IEICE SIP研究会
IT野細胞の回転に関する反応特性Target の回転に関する神経発火頻度(PSTH)
19
V1
V2
V4PIT
CIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Small receptive field
Edge, Line segmentdetector
Large receptive field
Face, Complex featuredetector
?
?
2016/8/25 IEICE SIP研究会
IT野細胞の拡大,並進移動に関する反応特性
20
2016/8/25 IEICE SIP研究会
高次視覚野細胞の特性の概要巨大な受容野物体が視野中の何処に提示されても反応 中程度に複雑な特徴に反応顔などに特異的に反応する細胞の存在
時空間的な変化に許容的物体の拡大,縮小,並行移動に対しても反応 分散表現
21
2016/8/25 IEICE SIP研究会
視覚システムの生理学な知見
https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception
細かい特徴 抽象特徴
Simple/Complex cellsHardware Architecture
2016/8/25 IEICE SIP研究会
DCNN の視覚野的解釈
受容野構造をもつ
V1野: Simple Cell→ Complex Cell の階層性
V2 ~ IT 野の構造が不明な領野→ V1野構造のアーキテクチャ外挿
視覚の物理特性(並進対称性)→畳込みで表現
学習によるチューニング可能性23
V1
V2
V4PIT
CIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Small receptive field
Edge, Line segmentdetector
Large receptive field
Face, Complex featuredetector
?
?
U0 Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5
Neocognitron [Fukushima 80]Visual System (Ventral Pathway)
2016/8/25 IEICE SIP研究会
受容野構造のNNへの導入受容野構造の導入→局所的な結合構造
24
全結合型
N
NL
N2L の自由度受容野構造
K
K
K2L の自由度スパースな結合構造
L
2016/8/25 IEICE SIP研究会
受容野構造のNNへの導入受容野構造の導入→局所的な結合構造
異なる受容野位置で同じ反応特性→重み共有構造(フィルタ演算で記述可)
25
全結合型
N
NL
N2L の自由度受容野構造
K
K
K2L の自由度スパースな結合構造
L
2016/8/25 IEICE SIP研究会
DCNN の動作原理局所特徴抽出+変形に対する不変性(プーリング)
視覚固有の物理特性(並進対称性)→畳込み表現
26
Preferred Feature
(Orientation): XInput: x
Convolution Layer
Blurring
Preferred
Orientation
S-cell responseInput: x
Subsampling Layer
ConvolutionsSubsampling
Convolutions Subsampling
Preferred feature
Simple cell Complex cell
+Max op.+ReLU op.
2016/8/25 IEICE SIP研究会
DCNN デモ
27http://yann.lecun.com/exdb/lenet/index.html
Rotation Scale
NoiseMultiple Input
2016/8/25 IEICE SIP研究会
蛇足: AlphaGo の構造(推測)
ARTICLEdoi:10.1038/nature169
Mastering the game of Go with deep neural networks and tree searchDavid Silver1*, Aja Huang1*, Chris J. Maddison1, Arthur Guez1, Laurent Sifre1, George van den Driessche1, Julian Schrittwieser1, Ioannis Antonoglou1, Veda Panneershelvam1, Marc Lanctot1, Sander Dieleman1, Dominik Grewe1, John Nham2, Nal Kalchbrenner1, Ilya Sutskever2, Timothy Lillicrap1, Madeleine Leach1, Koray Kavukcuoglu1, Thore Graepel1 & Demis Hassabis1
b
p (a⎪s) (s′)
Policy network Value network
s s′
Alpha Goの2種類のNN局所的な受容野を階層を経て徐々に統合
2016/8/25 IEICE SIP研究会
DCNN まとめ畳み込み演算を原理としたニューラルネットワーク
完全結合なNNに比べて,結合係数の自由度は低いでも視覚入力は並進対称なので構造としては妥当(多分)
特徴抽出層とプーリング層の階層構造
徴抽出層は学習で決定可能(ただし十分な学習データが必要)誤差逆伝播法またはクラスタリングで可能
プーリング層は空間的な位相ずれを許容
29
2016/8/25 IEICE SIP研究会
Talk Contentsディープラーニングの勃興とその背景
ディープラーニング現況と歴史背景
コンピュータビジョンとディープラーニング
視覚モデルと DCNN (Neocognitron)
視覚野: DCNNの起源
DCNNの構造と動作
DCNNのびまん性肺疾患識別への応用
少数画像問題への適用: 転移学習の応用
中間層表現の評価
30
2016/8/25 IEICE SIP研究会
びまん性肺疾患とその肺CT画像概観早期発見の為の診断支援ツール
広がった領域を3次元的に観察可能なモダリティ→CT 画像
CT画像の高解像度化,セカンドオピニオン制度→医師の負担増大
支援診断として Diffuse Lung Disease (DLD) パターンを分類したい
31Normal Lungs IIP Lungs (HCM, GGO)
2016/8/25 IEICE SIP研究会
パターン認識技術によるCADシステムDLD ROI (region of interest) パターン認識の確立
局所特徴量と識別器の組み合わせによるパターン認識[Gangeh+10][Sorensen+10][Xu+11]
Deep Convolutional Neural Networks: DCNN の適用[Shouno+15]
32
CT img.
ROI (input)
Class candidate(output) “NOR” “CON” “GGO” “HCM” “NOD” “EMP”
2016/8/25 IEICE SIP研究会
適用するDCNN概観既に確立しているDCNN [Krizhevsky+12] を用いる
特徴表現の為の DCNN(10 層) + MLP (3 層)
ImageNet LSVRC 2010 の勝者識別器 test error 17% for top-5 rate (2位の識別器は 26%)
33Feature representation Classification
conv1
pool1 pool2
conv2 conv3 conv4 conv5
pool5 loss(categorical)
fc6 fc7
2016/8/25 IEICE SIP研究会
びまん性肺疾患データセット
34
DCNN Training SVM Train/Evaluation
Conolication(CON) 143(13patients) 26(14patients)
GGO 609(14patients) 46(14patients)
Reticular(RET) 210(8patients) 66(9patients)
Honeycomb(HCM) 282(10patients) 73(9patients)
Emphysema(EMP) 4406(10patients) 296(11patients)
Nodular(NOD) 762(9patients) 65(10patients)
Normal(NOR) 5371(11patients) 355(11patients)
Total 11783 927大阪大学医学部病院から提供
ROI サイズ = 32x32 [pixels] ~ 16 x 16 [mm2]
頑張ってROIサンプルを取り出しても 1.1×104個程度
2016/8/25 IEICE SIP研究会
DCNN モデルのパラメータ数と訓練画像
LeCun+95 Fukushima+98 Fukushima+13
Krizhevsky+12 Simonyan+15 Ours [Krizhevsky+12]
Data typeHandwritten digits (MNIST)
Handwritten digits (ETL-1)
Natural images (ImageNet)
Natural images (ImageNet) DLD ROI
DB size 6×104 1.0×104 1.2×107 1.2×107 1.1×104
#layers 6 13 13 19 13
#weights 1.0×105 6.9×105 1.3×107 1.4×107 1.3×107
一般に NN を訓練するには十分な数の学習データが必要
データに合わせてDCNNをデザインするのは難しい(黒魔術)
既存の DCNN モデルを活用する方法は無いのか?35
2016/8/25 IEICE SIP研究会
小規模DBに対するDCNN学習への仮定不足情報を補うための(割と乱暴な)仮定
画像は何らかの共通構造を持っていて,DCNN はその構造を表現できそう.(ヒトは幼年期は自然画像のみで学習している)
自然画像はDLDパターンの構造表現に役立つかも.(特殊な画像は大人になってから学習)
ラベル無しの学習データを有効活用(転移学習的な手法)
36
2016/8/25 IEICE SIP研究会
小規模 DB で DCNN を学習させるには?
37
fc6 loss(categorical units)
pool1 pool2
Train with Back Prop.
Natural Images for feature representation
“bicycle”
Teacher
仮定したこと:
画像は何らかの共通構造を持っていて,DCNN はその構造を表現できそう(ヒトの幼年期で自然画像で学習することのは自然)
自然画像はDLDパターンの構造表現に役立つかも
2016/8/25 IEICE SIP研究会
小規模 DB で DCNN を学習させるには?
38
fc6 loss(categorical units)
pool1 pool2
Train with Back Prop.
DLD ROIs for feature representation
“Honeycomb” Teacher
仮定したこと:
画像は何らかの共通構造を持っていて,DCNN はその構造を表現できそう
自然画像はDLDパターンの構造表現に役立つかも(特殊な画像は大人になってから学習)
識別器部分を交換
2016/8/25 IEICE SIP研究会
小規模 DB での DCNN 識別精度の比較仮定したこと:
画像情報は共通構造を持っていて,DCNN はその構造を表現できそう
自然画像はDLDパターンの構造表現に役立つかも
識別評価
Leave-one-person out (LOPOCV)法 (leave one out 法はバイアスが乗る)
識別器は,ロジスティック回帰,ヒンジロス回帰,MLPで比較.1対1識別による多クラス分類
39
LOPOCV Score Log. Reg. Hindge MLP
DLD only 74.0% 76.7% 74.1%Proposed
Nat.Img + DLD 81.8% 81.6% 80.0%
2016/8/25 IEICE SIP研究会
中間層の表現で何がおこっているのか?
Manifold with raw data
class “dog”
class “horse”
Manifold with low level feature
class “horse”
class “dog”
Manifold with high level featureclass “dog”
class “horse”
ConvolutionsSubsampling
Convolutions Subsampling
2016/8/25 IEICE SIP研究会
中間層表現による識別能力DCNN表現のどこで差異がでてくるのか?
中間層 conv1層, pool1層, …, fc6層の各表現に関する識別能力を評価
評価には LOPOCV 法を用いた線形 SVM を使用
41
DLD ROIs for evaluation
SVM SVM SVM
fc6 loss(categorical units)
pool1 pool2pool1 pool2
conv1 conv2
SVM SVM
2016/8/25 IEICE SIP研究会
結果: DCNN表現の中間層表現の識別率DCNNの中間表現評価に用いた学習データセット3種類
DLD ROI のみ(conventional) ImageNet DB の自然画像のみ(zero-shot learning) 自然画像+DLD ROI (proposed)
42
Dataset conv1 pool1 conv2 pool2 … fc6
DLD only 50.96% 66.04% 67.57% 74.38% … 74.13%
Nat. Img only 52.27% 69.41% 68.15% 70.40% … 75.78%
Nat. Img+DLD 50.08% 70.07% 69.46% 70.24% … 80.04%
Random 52.10% 67.73% 64.57% 72.20% … 69.35%
7クラス分類問題のチャンスレベルは 14.29%
2016/8/25 IEICE SIP研究会
DCNN中間層の表現におけるパターンの分離度DCNN中間層は,どの程度クラス分離能力があるのか?
中間層でのデータ表現を SVM 分離平面の法線方向へ射影
テストデータがどのように見えるのかをヒストグラム表現
43
g(x) = wT x + w0 = 0
w
discrimination plane
2016/8/25 IEICE SIP研究会
SVM ヒストグラム: RET vs GGO case
• Pooling 層でのクラス内分散が縮小 • 自然画像で十分学習させた場合クラス内分散は小さい
Conv1 (CT Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Pool1 (CT Img.)
Frequency
-3 -2 -1 0 1 2 30
24
68
Conv2 (CT Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Pool2 (CT Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Fc6 (CT Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Conv1 (Nat.Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Pool1 (Nat.Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Conv2 (Nat.Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Pool2 (Nat.Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Fc6 (Nat.Img.)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Conv1 (Proposed)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Pool1 (Proposed)
di
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Conv2 (Proposed)Frequency
-3 -2 -1 0 1 2 3
02
46
8Pool2 (Proposed)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Fc6 (Proposed)
Frequency
-3 -2 -1 0 1 2 3
02
46
8
Conv1(DLD) Pool1(DLD) Conv2(DLD) Pool2(DLD) Fc6(DLD)
Conv1(Nat) Pool1(Nat) Conv2(Nat) Pool2(Nat) Fc6(Nat)
Conv1(Ours) Pool1(Ours) Conv2(Ours) Pool2(Ours) Fc6(Ours)
2016/8/25 IEICE SIP研究会
SVMヒストグラム分散の階層間の推移
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool5 fc6
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Proposed(CT+Nat)
●
●
conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool5 fc6
0.0
0.5
1.0
1.5
2.0
2.5
3.0
CT img.
●
●
●
●
●
●
●
●
●
●
●
conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool5 fc6
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Nat img.Nat. img. + DLD DLD only Nat. img. only
conv1 conv2 fc6
pool1 pool2 pool5
conv5 conv1 conv2 fc6
pool1 pool2 pool5
conv5 conv1 conv2 fc6
pool1 pool2 pool5
conv5
2016/8/25 IEICE SIP研究会
びまん性肺疾患画像識別へのDCNN応用医用画像の問題点は十分な学習データが確保出来ないこと
足りない情報を自然画像からもってくるDCNNを CT画像+自然画像で学習させ,CT画像識別性能が向上することを確認
DCNN の内部表現を確認中間層表現の SVM ヒストグラムから
クラス内の不変性 は Pooling 層で獲得されていそう
多数データを用いないとクラス内分散が小さく出来ない
46
2016/8/25 IEICE SIP研究会
全体まとめディープラーニングは脳に着想を得た神経回路モデル.既に
ソリューションビジネスが成立し始めている
ただし魔法の杖ではない.データはそれなりに必要.入力固有の特性をデザインするにも洞察力がいる
DCNNは視覚システムの特性を埋め込んだディープラーニング.工夫をすれば医用画像応用にも応用可能.
DCNN自体の働きを探るには,中間層の働きなどを解釈していく必要がある.様々な視点が重要
コミュニテイ活動は今後も重要.一過性のブームにならないように間口を拡げる努力が今後も必要
47