20160825 IEICE SIP研究会講演

2016/8/25 IEICE SIP研究会

ディープラーニングの画像診断応用へ向けて庄野逸（電気通信大学大学院情報理工学研究科）

[email protected]


Talk Contentsディープラーニングの勃興とその背景

ディープラーニング現況と歴史背景

コンピュータビジョンとディープラーニング

視覚モデルと DCNN (Neocognitron)

視覚野: DCNNの起源

DCNNの構造と動作

DCNNのびまん性肺疾患識別への応用

少数画像問題への適用: 転移学習の応用

中間層表現の評価

4


Alpha Go の躍進とディープラーニング

Nature 2016/01/28

From pixel to intelligence!


ソリューションビジネスの人工知能化＠ヘルスケア


ディープラーニングは新技術か？答えはNO，歴史的には 1960 年代くらいまで遡れる

要素技術には新しいことはそれほどない(多分)

DeepMind (AlphaGo)は比較的枯れた技術で成功DCNN + 強化学習 + MCMC

第2世代のNNから大きく変化したもの

データの質と量: Internet, SNS, Cloud…

計算機環境: パッケージ化，GPU の勃興…

7


InternetGoogle

FacebookTwitter

人工知能(AI)の歴史的背景

201020001990198019701960

第1期

第2期第3期(たぶん)

inspired from 岡谷貴之(東北大)，麻生英樹(産総研)，岡田真人(東大)

今ココPerceptron

(Rosenblatt 57)

Neocognitron(Fukushima 80)

Conv. net(LeCun+ 89)

Deep learning(Hinton+ 06)

“Linear Separable” (Minski & Papert 68)

Back Prop.(Rumelhart+ 86)

SVM (Vapnik 95)

脳型AI

第5世代コンピュータ“エキスパートシステム” “知識工学”1982～92

Watson(IBM)

記号処理的AIオントロジー semantic web

カーネル法の勃興

知識獲得の難しさ

特徴表現の難しさ理論的な限界

1st gen.

2nd gen. 3rd gen.


ディープラーニング(深層学習)とは？

神経回路(ニューラルネット)モデルを用いた人工知能技術

脳の働きを模した構造と学習方式

深い階層構造を持つことが特徴

9

Input RecognitionIt’ s “5”

It’ s “5”


ディープラーニング以前の画像認識課題画像特性（エッジ等）の特徴量構築＋機械学習

Shallow Network model

10

Input

OutputLeopardCat

Feature Detector(Haar, SIFT, HOG...)

Machine Learning (SVM, Boosting...)

Pixel

Feature

特徴抽出器設計の難しさが顕在化誤差低減率が 1 [%/years]


Computer Vision 業界でのDCNNComputer Vision 業界での特徴抽出の変遷

従来の機械学習(2000～2012)(ハンドデザインの)特徴抽出　＋　学習可能な識別器

Deep learning以降(2012～)特徴表現の学習　＋　学習可能な識別器　

11

Feature extractor(SIFT, HOG, etc)

Classifier(SVM, Log.Reg, etc) “car”

Feature extractor Feedforward NN

Classifier(SVM, Log.Reg, etc) “car”

2012～











12


視覚野モデルとしてのDCNN

視覚野: 階層構造を持ち，階層ごとに異なる視覚課題の解決

初期視覚(V1)野: 狭い受容野，単純な特徴抽出Simple Cell，Complex Cellの存在

高次視覚(IT)野: 広い受容野，中程度に複雑な特徴に選択的13

V1

V2

V4PIT

CIT

Ventral Pathway

AIT

TEO

TE

V1

V2

V3 VP

V4 MT VA/V4

PIT

AIT/CIT 8 TF

LIP MST DPL VIP

7a

V3A

V1

V4

V2

IT

Small receptive field

Edge, Line segmentdetector

Large receptive field

Face, Complex featuredetector

?

?

[Felleman & van Essen 91 を改変]


初期視覚野 (V1野) の細胞群1個の細胞の観えている範囲

(受容野)は狭い→ 情報処理範囲の制限

視覚野中の “エッジ” や “線分” といった成分に反応

単純型細胞(simple cell)と複雑型細胞(complex cell)に分けられる

14

http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf


初期視覚野の2種類の細胞

線分やエッジなどの成分に反応 Simple cell: 方位，位相に敏感

Complex cell: 位相には許容的

15

V1

V2

V4PIT

CIT

Ventral Pathway

AIT

TEO

TE

V1

V4

V2

IT





?

?

複雑型細胞方位にのみ敏感

受容野

入力刺激

発火非発火発火最適な入力刺激位相がずれた入力方位がずれたの入力

単純型細胞方位・位相に敏感

受容野

入力刺激

発火非発火非発火最適な入力刺激位相がずれた入力方位がずれたの入力

Simple cell Complex cell


Hubel-Wiesel の階層仮説

ハードウェアとしてComplex cell はSimple Cell の出力合成で説明可能[Hubel & Wiesel 59]

16

単純型細胞方位・位相に敏感

受容野

入力刺激

発火非発火非発火最適な入力刺激位相がずれた入力方位がずれたの入力

Simple cell

複雑型細胞方位にのみ敏感

受容野

入力刺激

発火非発火発火最適な入力刺激位相がずれた入力方位がずれたの入力

Complex cell

同じ受容野特性をもつ単純型細胞群

複雑型細胞

最適な入力刺激

Hubel & Wiesel の階層仮説

単純型細胞群

複雑型細胞

最適な入力刺激発火

単純型細胞群

複雑型細胞

最適な入力刺激

発火


高次視覚野の性質

巨大な受容野

中程度に複雑な特徴に反応“顔細胞”の存在

時空間的変化に許容的17

V1

V2

V4PIT

CIT

Ventral Pathway

AIT

TEO

TE

V1

V4

V2

IT





?

?

(Kobatake & Tanaka 94 を改変)


3次元物体と高次視覚野細胞の反応 [Logothetis+96]

ワイヤクリップ状の刺激の弁別問題

サルの高次視覚(TE)野での細胞反応target 物体の像とその他の物体(distractor)に対する反応

18View tuned な細胞が存在

Rotation

Distractor


IT野細胞の回転に関する反応特性Target の回転に関する神経発火頻度(PSTH)

19

V1

V2

V4PIT

CIT

Ventral Pathway

AIT

TEO

TE

V1

V4

V2

IT





?

?


IT野細胞の拡大，並進移動に関する反応特性

20


高次視覚野細胞の特性の概要巨大な受容野物体が視野中の何処に提示されても反応中程度に複雑な特徴に反応顔などに特異的に反応する細胞の存在

時空間的な変化に許容的物体の拡大，縮小，並行移動に対しても反応分散表現

21


視覚システムの生理学な知見

https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception

細かい特徴抽象特徴

Simple/Complex cellsHardware Architecture


DCNN の視覚野的解釈

受容野構造をもつ

V1野: Simple Cell→ Complex Cell の階層性

V2 ～ IT 野の構造が不明な領野→ V1野構造のアーキテクチャ外挿

視覚の物理特性（並進対称性）→畳込みで表現

学習によるチューニング可能性23

V1

V2

V4PIT

CIT

Ventral Pathway

AIT

TEO

TE

V1

V4

V2

IT





?

?

U0 Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5

Neocognitron [Fukushima 80]Visual System (Ventral Pathway)


受容野構造のNNへの導入受容野構造の導入→局所的な結合構造

24

全結合型

N

NL

N2L の自由度受容野構造

K

K

K2L の自由度スパースな結合構造

L


受容野構造のNNへの導入受容野構造の導入→局所的な結合構造

異なる受容野位置で同じ反応特性→重み共有構造（フィルタ演算で記述可）

25

全結合型

N

NL

N2L の自由度受容野構造

K

K

K2L の自由度スパースな結合構造

L


DCNN の動作原理局所特徴抽出＋変形に対する不変性(プーリング)

視覚固有の物理特性（並進対称性）→畳込み表現

26

Preferred Feature

(Orientation): XInput: x

Convolution Layer

Blurring

Preferred

Orientation

S-cell responseInput: x

Subsampling Layer

ConvolutionsSubsampling

Convolutions Subsampling

Preferred feature

Simple cell Complex cell

+Max op.+ReLU op.


DCNN デモ

27http://yann.lecun.com/exdb/lenet/index.html

Rotation Scale

NoiseMultiple Input


蛇足: AlphaGo の構造(推測）

ARTICLEdoi:10.1038/nature169

Mastering the game of Go with deep neural networks and tree searchDavid Silver1*, Aja Huang1*, Chris J. Maddison1, Arthur Guez1, Laurent Sifre1, George van den Driessche1, Julian Schrittwieser1, Ioannis Antonoglou1, Veda Panneershelvam1, Marc Lanctot1, Sander Dieleman1, Dominik Grewe1, John Nham2, Nal Kalchbrenner1, Ilya Sutskever2, Timothy Lillicrap1, Madeleine Leach1, Koray Kavukcuoglu1, Thore Graepel1 & Demis Hassabis1

b

p (a⎪s) (s′)

Policy network Value network

s s′

Alpha Goの2種類のNN局所的な受容野を階層を経て徐々に統合


DCNN まとめ畳み込み演算を原理としたニューラルネットワーク

完全結合なNNに比べて，結合係数の自由度は低いでも視覚入力は並進対称なので構造としては妥当(多分)

特徴抽出層とプーリング層の階層構造

徴抽出層は学習で決定可能（ただし十分な学習データが必要）誤差逆伝播法またはクラスタリングで可能

プーリング層は空間的な位相ずれを許容

29











30


びまん性肺疾患とその肺CT画像概観早期発見の為の診断支援ツール

広がった領域を３次元的に観察可能なモダリティ→CT 画像

CT画像の高解像度化，セカンドオピニオン制度→医師の負担増大

支援診断として Diffuse Lung Disease (DLD) パターンを分類したい

31Normal Lungs IIP Lungs (HCM, GGO)


パターン認識技術によるCADシステムDLD ROI (region of interest) パターン認識の確立

局所特徴量と識別器の組み合わせによるパターン認識[Gangeh+10][Sorensen+10][Xu+11]

Deep Convolutional Neural Networks: DCNN の適用[Shouno+15]

32

CT img.

ROI (input)

Class candidate(output) “NOR” “CON” “GGO” “HCM” “NOD” “EMP”


適用するDCNN概観既に確立しているDCNN [Krizhevsky+12] を用いる

特徴表現の為の DCNN(10 層) + MLP (3 層)

ImageNet LSVRC 2010 の勝者識別器 test error 17% for top-5 rate (2位の識別器は 26%)

33Feature representation Classification

conv1

pool1 pool2

conv2 conv3 conv4 conv5

pool5 loss(categorical)

fc6 fc7


びまん性肺疾患データセット

34

DCNN Training SVM Train/Evaluation

Conolication(CON) 143(13patients) 26(14patients)

GGO 609(14patients) 46(14patients)

Reticular(RET) 210(8patients) 66(9patients)

Honeycomb(HCM) 282(10patients) 73(9patients)

Emphysema(EMP) 4406(10patients) 296(11patients)

Nodular(NOD) 762(9patients) 65(10patients)

Normal(NOR) 5371(11patients) 355(11patients)

Total 11783 927大阪大学医学部病院から提供

ROI サイズ = 32x32 [pixels] ~ 16 x 16 [mm2]

頑張ってROIサンプルを取り出しても 1.1×104個程度


DCNN モデルのパラメータ数と訓練画像

LeCun+95 Fukushima+98 Fukushima+13

Krizhevsky+12 Simonyan+15 Ours [Krizhevsky+12]

Data typeHandwritten digits (MNIST)

Handwritten digits (ETL-1)

Natural images (ImageNet)

Natural images (ImageNet) DLD ROI

DB size 6×104 1.0×104 1.2×10７ 1.2×107 1.1×104

#layers 6 13 13 19 13

#weights 1.0×105 6.9×105 1.3×107 1.4×107 1.3×107

一般に NN を訓練するには十分な数の学習データが必要

データに合わせてDCNNをデザインするのは難しい（黒魔術）

既存の DCNN モデルを活用する方法は無いのか？35


小規模DBに対するDCNN学習への仮定不足情報を補うための(割と乱暴な)仮定

画像は何らかの共通構造を持っていて，DCNN はその構造を表現できそう．（ヒトは幼年期は自然画像のみで学習している）

自然画像はDLDパターンの構造表現に役立つかも．（特殊な画像は大人になってから学習）

ラベル無しの学習データを有効活用（転移学習的な手法）

36


小規模 DB で DCNN を学習させるには？

37

fc6 loss(categorical units)

pool1 pool2

Train with Back Prop.

Natural Images for feature representation

“bicycle”

Teacher

仮定したこと:

画像は何らかの共通構造を持っていて，DCNN はその構造を表現できそう（ヒトの幼年期で自然画像で学習することのは自然）

自然画像はDLDパターンの構造表現に役立つかも


小規模 DB で DCNN を学習させるには？

38


pool1 pool2

Train with Back Prop.

DLD ROIs for feature representation

“Honeycomb” Teacher

仮定したこと:

画像は何らかの共通構造を持っていて，DCNN はその構造を表現できそう

自然画像はDLDパターンの構造表現に役立つかも（特殊な画像は大人になってから学習）

識別器部分を交換


小規模 DB での DCNN 識別精度の比較仮定したこと:

画像情報は共通構造を持っていて，DCNN はその構造を表現できそう

自然画像はDLDパターンの構造表現に役立つかも

識別評価

Leave-one-person out (LOPOCV)法 (leave one out 法はバイアスが乗る)

識別器は，ロジスティック回帰，ヒンジロス回帰，MLPで比較．1対1識別による多クラス分類

39

LOPOCV Score Log. Reg. Hindge MLP

DLD only 74.0% 76.7% 74.1%Proposed

Nat.Img + DLD 81.8% 81.6% 80.0%


中間層の表現で何がおこっているのか？

Manifold with raw data

class “dog”

class “horse”

Manifold with low level feature

class “horse”

class “dog”

Manifold with high level featureclass “dog”

class “horse”

ConvolutionsSubsampling

Convolutions Subsampling


中間層表現による識別能力DCNN表現のどこで差異がでてくるのか？

中間層 conv1層, pool1層, …, fc6層の各表現に関する識別能力を評価

評価には LOPOCV 法を用いた線形 SVM を使用

41

DLD ROIs for evaluation

SVM SVM SVM


pool1 pool2pool1 pool2

conv1 conv2

SVM SVM


結果: DCNN表現の中間層表現の識別率DCNNの中間表現評価に用いた学習データセット3種類

DLD ROI のみ(conventional) ImageNet DB の自然画像のみ(zero-shot learning) 自然画像+DLD ROI (proposed)

42

Dataset conv1 pool1 conv2 pool2 … fc6

DLD only 50.96% 66.04% 67.57% 74.38% … 74.13%

Nat. Img only 52.27% 69.41% 68.15% 70.40% … 75.78%

Nat. Img+DLD 50.08% 70.07% 69.46% 70.24% … 80.04%

Random 52.10% 67.73% 64.57% 72.20% … 69.35%

7クラス分類問題のチャンスレベルは 14.29%


DCNN中間層の表現におけるパターンの分離度DCNN中間層は，どの程度クラス分離能力があるのか？

中間層でのデータ表現を SVM 分離平面の法線方向へ射影

テストデータがどのように見えるのかをヒストグラム表現

43

g(x) = wT x + w0 = 0

w

discrimination plane


SVM ヒストグラム: RET vs GGO case

• Pooling 層でのクラス内分散が縮小 • 自然画像で十分学習させた場合クラス内分散は小さい

Conv1 (CT Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Pool1 (CT Img.)

Frequency

-3 -2 -1 0 1 2 30

24

68

Conv2 (CT Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Pool2 (CT Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Fc6 (CT Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Conv1 (Nat.Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Pool1 (Nat.Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Conv2 (Nat.Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Pool2 (Nat.Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Fc6 (Nat.Img.)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Conv1 (Proposed)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Pool1 (Proposed)

di

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Conv2 (Proposed)Frequency

-3 -2 -1 0 1 2 3

02

46

8Pool2 (Proposed)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Fc6 (Proposed)

Frequency

-3 -2 -1 0 1 2 3

02

46

8

Conv1(DLD) Pool1(DLD) Conv2(DLD) Pool2(DLD) Fc6(DLD)

Conv1(Nat) Pool1(Nat) Conv2(Nat) Pool2(Nat) Fc6(Nat)

Conv1(Ours) Pool1(Ours) Conv2(Ours) Pool2(Ours) Fc6(Ours)


SVMヒストグラム分散の階層間の推移

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool5 fc6

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Proposed(CT+Nat)

●

●


0.0

0.5

1.0

1.5

2.0

2.5

3.0

CT img.

●

●

●

●

●

●

●

●

●

●

●


0.0

0.5

1.0

1.5

2.0

2.5

3.0

Nat img.Nat. img. + DLD DLD only Nat. img. only

conv1 conv2 fc6

pool1 pool2 pool5

conv5 conv1 conv2 fc6

pool1 pool2 pool5

conv5 conv1 conv2 fc6

pool1 pool2 pool5

conv5


びまん性肺疾患画像識別へのDCNN応用医用画像の問題点は十分な学習データが確保出来ないこと

足りない情報を自然画像からもってくるDCNNを CT画像+自然画像で学習させ，CT画像識別性能が向上することを確認

DCNN の内部表現を確認中間層表現の SVM ヒストグラムから

クラス内の不変性は Pooling 層で獲得されていそう

多数データを用いないとクラス内分散が小さく出来ない

46


全体まとめディープラーニングは脳に着想を得た神経回路モデル．既に

ソリューションビジネスが成立し始めている

ただし魔法の杖ではない．データはそれなりに必要．入力固有の特性をデザインするにも洞察力がいる

DCNNは視覚システムの特性を埋め込んだディープラーニング．工夫をすれば医用画像応用にも応用可能．

DCNN自体の働きを探るには，中間層の働きなどを解釈していく必要がある．様々な視点が重要

コミュニテイ活動は今後も重要．一過性のブームにならないように間口を拡げる努力が今後も必要

47

20160825 IEICE SIP研究会 講演

Engineering

20160825 IEICE SIP研究会講演