Top Banner
高次元非線形統計モデリング 山田 理研AIP, 高次元統計モデリングユニット ユニットリーダー RIKEN AIP, PREST JST
15

15min nov25

Mar 15, 2018

Download

Engineering

Ozawa Kensuke
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 15min nov25

高次元非線形統計モデリング

山田 誠理研AIP,高次元統計モデリングユニット

ユニットリーダーRIKENAIP,PRESTJST

Page 2: 15min nov25

特徴選択・変数選択• 入力•出力ベクトル:• 学習データ:

• ゴール: d次元の入力 から,出力 に関連するr個の特徴を選択する.

• 応用例:バイオマーカー検出

2

x 2 Rd, y 2 R

X = [x1, . . . ,xn] = [u1, . . . ,ud]>, y = [y1, . . . , yn]

>

x y

HSICの応用2:変数選択• Marginal Screening

𝑌が各変数 𝑋𝑎 (𝑎 = 1,… , 𝑝)に依存するか否かによって,変数選択を行う

Sure Independence Screening (Fan & Lv JASA2008)• 相関 Corr(𝑋𝑎, 𝑌)でランク付けして,トップ 𝑘 個を選択.• スクリーニングの一致性(真の非ゼロ線形回帰係数を「含む」集合を選択する確率が1に収束)

• HSICによるmarginal screening• HSIC(𝑋𝑎, 𝑌)のトップ 𝑘 個を選択 (Song et al JMLR2012; Balasubramanian et al AISTATS2013)• 𝑘個選んだ後さらに検定が可能(Post selection inference, Yamada et al 2016)

23

𝐺1, … , 𝐺𝑝

𝑆1

𝑆𝑛

𝑌

𝑋𝑖𝑎

0110

X

11010011

Features

Samples

{(xi, yi)}ni=1i.i.d.⇠ p(x, y)

Page 3: 15min nov25

研究分野

標本数

DeepLearning (CNN,RNN)画像、音声、テキスト

決定木(GBDT)ユーザーデータ

Lassoバイオデータ (医療,農業)(SNPs,マイクロアレイ,etc.)

Matrix/TensorFactorizationクリックデータグラフデータ

次元(

特徴数)

10^3

10^4

10^5

10^6

10^7

10^8

10^2 10^4 10^6 10^8

非線形超高次元データ解析解釈性!

3

非線形性を使うことが解釈性を高めるために重要?

Page 4: 15min nov25

解釈性

柔軟性 (非線形性)

ここ!

機械学習基盤手法の位置付け

AnintroductiontostatisticallearningSection2Fig2.7

4

Page 5: 15min nov25

Theleastabsoluteshrinkageandselectionoperator(Lasso)

5

• 最適化問題

がスパース

• 特徴–特徴数dが標本数より大きいとき有用–凸最適化–線形モデルL

↵ 2 Rd

Tibshirani.(JRSSB1996)

↵ =

0

0

0

min↵

ky �X>↵k22 + �k↵k1

Page 6: 15min nov25

高次元非線形特徴選択

• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)

– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)

– p値• 各特徴のp値がわかると嬉しい

– サブタイプ毎に特徴選択• チャレンジ

– 非線形モデルは複雑になりがち• よくわからないのであまり使われない?

– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.

• 単純&高性能(&凸最適化).

6

Page 7: 15min nov25

高次元非線形特徴選択

• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)

– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)

– p値• 各特徴のp値がわかると嬉しい

– サブタイプ毎に特徴選択• チャレンジ

– 非線形モデルは複雑になりがち• よくわからないのであまり使われない?

– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.

• 単純&高性能(&凸最適化).

7

• 非線形特徴選択手法– HSICLasso(NECO2014)(State-of-the-art手法)– LocalizedLasso(AISTATS2017)– LocalizedLogisticRegression(arXiv)– hsicInf (NIPS2016workshop)– mmdInf (NIPS2017workshop)

Page 8: 15min nov25

特徴スクリーニング(Pengetal.TPAMI2005,Fan, Lv, JRSSB 2008)

• 各特徴と出力の間の関連度を計算したあとで,関連度の高いm個の特徴を選択–相互情報量やカーネル法に基づいた独立性基準が用いられる.

–実装が簡単&大規模化が容易.–重複した特徴が選択されやすいL

8

...

Select top-rfeatures by

sorting

I(X1, Y )

I(X2, Y )

I(Xd, Y )

{(xi, yi)}ni=1

max

�2{0,1}d

dX

k=1

�kI(Xk, Y ),

s.t.

dX

k=1

�k = r

Page 9: 15min nov25

MinimumRedundancyMaximalRelevance (mRMR) (Peng &Ding,TPAMI2005)

• ゴール:– 出力と関連性の高い特徴を選択.– 選択された特徴同士は独立.

• 最適化問題:

• 実験的に高いパフォーマンス(Hawsetal.,PLOSone2015)

• 貪欲法を用いているL• dxdの相互情報量を計算する必要があるL

9

max

�2{0,1}d

dX

k=1

�kI(Xk, Y )�dX

k=1

dX

k=1

�k�k0I(Xk, Xk0),

s.t.

dX

k=1

�k = r

Page 10: 15min nov25

関連度:HilbertSchmidtIndependenceCriterion(HSIC) (Gretton,ALT2005)

• EmpiricalHSIC

:正規化グラム行列 (出力)HSICは確率変数XとYが独立だと0,それ以外の場合は非負値をとる.

–正規化HSIC(NHSIC):

HSIC(X,Y ) = tr(K̄L̄) K̄ = HKH,H = I � 1

n11

[K]ij = exp

✓� (xi � xj)

2

2�

2

L̄ 2 Rn⇥n

:ガウスカーネル

tr(K̄L̄)

kK̄kF kL̄kF2 [0, 1]

10

Page 11: 15min nov25

NHSIC 実験

NHSIC=0.0031相関係数=0.0343

NHSIC=0.2842相関係数 =0.1983

XとYが独立 XとYが従属

11

Page 12: 15min nov25

HSICLasso(Yamadaetal.NECO2014)

12

• mRMRの凸最適化版–大域的最適解がもとまる!

• アイディア:NHSICを相互情報量の代わりに利用

• NHSICはXとYの変数毎に分解可能

C �dX

k=1

↵kNHSIC(uk,y) +1

2

dX

k,k0=1

↵k↵k0NHSIC(uk,uk0)

NHSIC(X,Y ) = tr(fK eL) = vec(fK)>vec(eL)

y 2 Rn ! eL 2 Rn⇥n, eL =L̄

kL̄kF

uk 2 Rn ! fK(k)

2 Rn⇥n, fK =K̄

(k)

kK̄(k)kF

X = [x1, . . . ,xn] = [u1, . . . ,ud]>,y = [y1, . . . , yn]

>

Page 13: 15min nov25

HSICLasso(Yamadaetal.NECO2014)

13

• mRMRの凸最適化を提案する

:k番目の特徴のグラム行列.:出力のグラム行列.

• 大域的最適解が求まる!• (d>>n(n-1)/2)の時に特に有用• 非負Lassoを用いて簡単に解ける!

min↵2Rd

1

2keL�

dX

k=1

↵kfK

(k)k2F + �k↵k1, s.t. ↵1, . . . ,↵d � 0.

fK(k)

eL

min↵2Rd

1

2kvec(eL)� (vec(fK

(1)), . . . , vec(fK

(d)))↵k22 + �k↵k1

s.t. ↵1, . . . ,↵d � 0.

...

...

K̄(1)

K̄(2)

K̄(d)

↵1

↵2

↵d

Page 14: 15min nov25

実験結果:中規模14

• 前立腺癌分類.(270Kfeatures,400samples)

Page 15: 15min nov25

実験結果:大規模

• 酵素分類 (d>100万次元,n>1万標本,100G)

103

104

105

106

0

2

4

6

8x 10

4

Dimensionality (d)

Tim

e [

seco

nd

]

LANDMR−NHSICmRMR

15

0.75

0.80

0.85

0.90

Accuracy

A

0 20 40 60 80 100

0.600.650.700.750.800.850.90

B

Inde

pend

ence

rate

Number of extracted features