Boosting Algorithm の情報幾何 - Faculty of … の情報幾何村田昇集団学習集団学習の仕組み統計的推測の幾何モデルの拡大 Boosting U-divergence

BoostingAlgorithm の情報幾何

村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Boosting Algorithmの情報幾何九州大学コンソーシアム

マス・フォア・インダストリ第 1回フォーラム

村田昇

早稲田大学理工学術院

2008年 9月 17日


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Outline

1 集団学習とは何か

2 Boosting Algorithm

3 有限測度の空間と Bregman divergence

4 ピタゴラスの定理と直交葉層化

5 判別のためのモデル

6 Boostingの幾何学的描像


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

共同研究者:

竹之内高志(奈良先端科学技術大学院大学)

金森敬文(名古屋大学)

江口真透(統計数理研究所)


村田昇

集団学習集団学習の仕組み統計的推測の幾何モデルの拡大

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Outline

1 集団学習とは何か集団学習の仕組み統計的推測の幾何混合によるモデルの拡大


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

集団学習の仕組み (その 1)

三人組で様々なジャンル (歴史，政治，芸能，スポーツなど 10種類) の問題に答えるクイズ番組

そこそこできの良い三人組8種類のジャンルに対応できる皆，芸能とスポーツが苦手画一的な優等生

それほどできの良くない三人組6種類のジャンルしか正解しない苦手なジャンルはバラバラ個性的な劣等生


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに






村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに






村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに






村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

集団学習の仕組み (その 2)多数決多数決できの良い画一的な三人組できの良くない個性的な三人組

集団学習の要件できるだけ多様な人材を集める必要がある．少なくとも半分くらいは正解してくれないと困る．


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに




村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに




村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

確率モデルの推定

データを説明する最も尤もらしいモデルを求める問題．観測データを適切な方法で収集する．想定すべき適当な確率分布の集合を構成する．(この集合をモデル多様体と呼ぶ)観測データを用いて決められる経験分布から，最も近いモデル多様体上の一点を求める．

⇓幾何学的には “最短点”を求める問題


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに





村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに





村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに





村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

推定の幾何学的解釈


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間観測データのモデルによる近似


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間最適なモデル


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

混合によるモデルの拡大


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

混合によるモデルの拡大モデル多様体確率分布の空間基本モデル拡張されたモデル(モデル多様体には含まれない)


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点真の分布


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点真の分布真の分布?


村田昇


Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点真の分布真の分布


村田昇

集団学習

Boosting

Boosting の例U-BoostAlgorithm

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Outline

2 Boosting AlgorithmBoostingの例 (AdaBoost)U-Boost Algorithm


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

第 1巡

−2 −1 0 1 2

−2

−1

01

2

x1

x2

x1

x2

y

−2 −1 0 1 2

−2

−1

01

2

x1

x 2


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

第 2巡

−2 −1 0 1 2

−2

−1

01

2

x1

x2

x1

x2

y

−2 −1 0 1 2

−2

−1

01

2

x1

x 2


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

各巡の分布

−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2−2 −1 0 1 2

−2

−1

01

2

x1

x2

−2 −1 0 1 2

−2

−1

01

2

x1

x2


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

各巡の判別器

x1

x2

y

x1

x2

y

x1

x2

y

x1

x2

y

x1

x2

y

x1

x2

y

x1

x2

y

x1

x2

y


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Boostingの効果

−2 −1 0 1 2

−2

−1

01

2

x1

x 2

Boostingなし

−2 −1 0 1 2

−2

−1

01

2

x1

x 2Boostingあり


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

準備

判別問題: 特徴量 x ∈ X のラベル y ∈ Y を予測する判別器: 集合値関数 h

h : x ∈ X 7→ C ⊂ Y

決定関数: 判別器の別表現

f(x, y) =

{

1, if y ∈ h(x),

0, otherwise,

多数決判別器: 複数の判別器の決定関数の線形結合

H(x) = arg maxy∈Y

T∑

t=1

αtft(x, y)


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

U-Boost Algorithm (1)

入力:n個の例題 {(xi, yi);xi ∈ X , yi ∈ Y, i = 1, . . . , n},単調増加な凸関数 U .

初期化:分布 D1(i, y) = 1/n(|Y| − 1) (i = 1, . . . , n),結合決定関数 F0(x, y) = 0.


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに


繰り返し: t = 1, . . . , T

step 1: 分布Dtのもとでの決定関数 f (判別器 h)の誤差

ǫt(f) =

n∑

i=1

∑

y 6=yi

f(xi, y) − f(xi, yi) + 1

2Dt(i, y)

を (近似的に)最小化する決定関数を 1つ選ぶ．

ft(x, y) = arg minf∈F

ǫt(f).


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに


(繰り返しの中)

step 2: 信頼度 αtを計算する．

αt = arg minα

n∑

i=1

∑

y∈Y

U(

Ft−1(xi, y) − Ft−1(xi, yi)

+ α (ft(xi, y) − ft(xi, yi)))

.


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに



step 3: 結合決定関数 Ftと分布Dtを更新する．

Ft(x, y) = Ft−1(x, y) + αtft(x, y),

Dt+1(i, y) ∝ U ′ (Ft(xi, y) − Ft(xi, yi)) ,

ただしn

∑

i=1

∑

y 6=yi

Dt+1(i, y) = 1.


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに


出力:多数決判別器を構成する．

H(x) = arg maxy∈Y

FT (x, y) = arg maxy∈Y

T∑

t=1

αtft(x, y).


村田昇

集団学習

Boosting


U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

注意

U(z) = exp(z)の場合は AdaBoostに帰着step 2:

αt =1

2log

1 − ǫt(ft)

ǫt(ft),

step 3:

Dt+1(i, y) ∝ exp{Ft(xi, y) − Ft(xi, yi)}

0-1損失の代理 (surrogate loss)の最適化

LU (F ) =1

n

n∑

i=1

∑

y∈Y

U(F (xi, y) − F (xi, yi))


村田昇

集団学習

Boosting

U-divergence

有限測度の空間U -divergence

U -divergence の特徴関数 U の例

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Outline

3 有限測度の空間と Bregman divergence有限測度の空間U -divergenceU -divergenceの特徴関数 U の例


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

有限測度の空間

正値の条件付測度の空間

M =

{

m(y|x)∣

∣

∣

∑

y∈Y

m(y|x) < ∞ (a.e. x)

}

条件付確率の空間を含む

P =

{

m(y|x)∣

∣

∣

∑

y∈Y

m(y|x) = 1

}

M

S


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Bregman Divergence

tangent at ξ(p)

ξ(p) ξ(q)

U(ξ(p))

U(ξ(q))

d(ξ(p), ξ(q))

p(ξ(q) − ξ(p)) + U(ξ(p))


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

U-Divergence

U :R上の凸関数 (導関数 u = U ′,その逆関数 ξ = u−1)

µ(x)のもとでの pと qの U -cross-entropy:

HU (p, q;µ) =∫

X

∑

y∈Y

{U(ξ(q(y|x))) − p(y|x)ξ(q(y|x))}µ(x)dx

pから qへの U -divergence (Bregman divergenceの一種):

DU (p, q;µ) = HU(p, q;µ) − HU (p, p;µ)


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

特徴 (1)

Bregman divergenceの正値性より

HU (p, q;µ) ≥ HU (p, p;µ)

qに関する最小化の等価性

arg minq

DU (p, q;µ) = arg minq

HU (p, q;µ).

(KL-divergenceの最小化と最尤推定の関係と同様)


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

特徴 (2)

経験分布が直接代入できる

条件付: p(y|x) =

I(y = yi), if x = xi,1|Y|

, otherwise,

周辺: .µ(x) =1

n

n∑

i=1

δ(x − xi).

q = arg minq∈Q

HU(p, q; µ)

= arg minq∈Q

1

n

n∑

i=1

[

∑

y∈Y

U(ξ(q(y|xi))) − ξ(q(yi|xi))

]


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

関数Uの例 (1)

exponential (Kullback-Leibler):

U(z) = exp(z), u(z) = exp(z), ξ(z) = log(z)

β-type:

U(z) =(βz + 1)

β+1β

β + 1, u(z) = (βz+1)

1β , ξ(z) =

zβ − 1

β

η-type:

U(z) = exp(z)−ηz, u(z) = exp(z)−η, ξ(z) = log(z+η)


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

関数Uの例 (1)

exponential (Kullback-Leibler):

U(z) = exp(z), u(z) = exp(z), ξ(z) = log(z)

β-type:

U(z) =(βz + 1)

β+1β

β + 1, u(z) = (βz+1)

1β , ξ(z) =

zβ − 1

β

η-type:

U(z) = exp(z)−ηz, u(z) = exp(z)−η, ξ(z) = log(z+η)


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

関数Uの例 (2)

β-type (β = 1):

U(z) =1

2(z + 1)2, u(z) = z + 1, ξ(z) = z − 1

MadaBoost: (狭義の凸ではない)

U(z) =

{

z + 12 z ≥ 0,

12 exp(2z) z < 0,

u(z) =

{

1 z ≥ 0,

exp(2z) z < 0ξ(z) =

1

2log(z) (z ≤ 1)


村田昇

集団学習

Boosting

U-divergence



直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

関数Uの例 (3)

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

2.5

3.0

loss functions

z

U(z

)

KL(AdaBoost)β(0.5)η(0.2)MadaBoost

関数 U

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

2.5

3.0

loss functions

z

u(z)

KL(AdaBoost)β(0.5)η(0.2)MadaBoost

導関数 u


村田昇

集団学習

Boosting

U-divergence

直交葉層化ピタゴラスの定理平坦部分空間直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりに

Outline

4 ピタゴラスの定理と直交葉層化ピタゴラスの定理平坦部分空間直交葉層化


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

ピタゴラスの定理 (1)

3点 p, q, r ∈ Mを考えるp − q と ξ(r) − ξ(q) が µ のもとで直交する

∫

X

∑

y∈Y

(p(y|x) − q(y|x))

× (ξ(r(y|x)) − ξ(q(y|x))) µ(x)dx

= 〈p − q, ξ(r) − ξ(q)〉µ = 0

ならば

DU (p, r;µ) = DU (p, q;µ) + DU (q, r;µ)


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

ピタゴラスの定理 (2)

D(p, r)

D(p, q)

D(q, r)

p q

r

p − q

ξ(r) − ξ(q)


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

平坦性

m-測地線: m-表現による p, q ∈ Mの内分点の集合

r(x; t) = (1 − t) · p(x) + t · q(x), 0 ≤ t ≤ 1,

U -測地線: U -表現による p, q ∈ Mの内分点の集合

ξ(r(x; t)) = (1− t) · ξ(p(x))+ t · ξ(q(x)), 0 ≤ t ≤ 1,

2つの自然な部分空間m-平坦部分空間: m-測地線からなる集合．U -平坦部分空間: U -測地線からなる集合．


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

U-平坦部分空間

q0 ∈ Mと，Λを有限の添字の集合とする決定関数の集合F = {fλ(x, y);λ ∈ Λ} を用いて定義する

QU (q0,F) =

{

q ∈ M∣

∣

∣q(y|x) =

u(

ξ(q0(y|x)) +∑

λ∈Λ

αλfλ(x, y))

, αλ ∈ R

}


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

m-平坦部分空間

1点 p0 ∈ Mを通りQU に垂直なMの部分空間

T (p0, µ,F)

=

{

p ∈ M∣

∣

∣〈p − p0, fλ〉µ = 0, ∀λ ∈ Λ

}


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

平坦な部分空間の関係

T

Q

p0

q0

q∗ p

q


村田昇

集団学習

Boosting

U-divergence


判別モデル

幾何学的描像

統計的性質*

おわりに

直交葉層化

U-flat

m-flat m-flat

Q

T (q)T (q′)

p

q′

q


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル判別の不変性経験 U モデル正規化 U モデル

幾何学的描像

統計的性質*

おわりに

Outline

5 判別のためのモデル判別の不変性経験 U モデル正規化 U モデル


村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

判別の不変性

シフト不変性: b(x)は任意の xの関数

arg maxy∈Y

q(y|x) = arg maxy∈Y

{

ξ(

q(y|x))

− b(x)}

スケール不変性: c(x)は任意の xの正値関数

arg maxy∈Y


c(x)q(y|x)

アルゴリズム構成に適した b(x)や c(x)を選んでよい


村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

判別の不変性


arg maxy∈Y


{

ξ(

q(y|x))

− b(x)}


arg maxy∈Y


c(x)q(y|x)



村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

判別の不変性


arg maxy∈Y


{

ξ(

q(y|x))

− b(x)}


arg maxy∈Y


c(x)q(y|x)



村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

経験Uモデル

cross-entropyの第 2項が消えるように bを選んだモデル

QempU (q0,F) =

{

q ∈ M∣

∣

∣ξ(q(y|x))

= ξ(q0(y|x)) +T

∑

t=1

αt

(

ft(x, y) − ft(x))

}

.

(f は f の条件付経験分布による平均)

F = ξ(q)の関数として書き直した HU (p, q; µ):

LempU (F ) =

1

n

n∑

i=1

∑

y∈Y

U(

F (xi, y) − F (xi, yi))


村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

経験Uモデル

cross-entropyの第 2項が消えるように bを選んだモデル

QempU (q0,F) =

{

q ∈ M∣

∣

∣ξ(q(y|x))

= ξ(q0(y|x)) +T

∑

t=1

αt

(

ft(x, y) − ft(x))

}

.

(f は f の条件付経験分布による平均)


LempU (F ) =

1

n

n∑

i=1

∑

y∈Y

U(

F (xi, y) − F (xi, yi))


村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

正規化Uモデル

確率分布となるように b = φを選んだモデル

QnormU (q0,F) =

{

q ∈ P∣

∣

∣ξ(q(y|x))

= ξ(q0(y|x)) +

T∑

t=1

αtft(x, y) − φ(x,α)

}


LnormU (F ) =

1

n

n∑

i=1

[

∑

y∈Y

U(

F (xi, y) − φ(xi,α))

−{

F (xi, yi) − φ(xi,α)}

]


村田昇

集団学習

Boosting

U-divergence

直交葉層化


幾何学的描像

統計的性質*

おわりに

正規化Uモデル

確率分布となるように b = φを選んだモデル

QnormU (q0,F) =

{

q ∈ P∣

∣

∣ξ(q(y|x))

= ξ(q0(y|x)) +

T∑

t=1

αtft(x, y) − φ(x,α)

}


LnormU (F ) =

1

n

n∑

i=1

[

∑

y∈Y

U(

F (xi, y) − φ(xi,α))

−{

F (xi, yi) − φ(xi,α)}

]


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像幾何学的表現幾何学的描像まとめ

統計的性質*

おわりに

Outline

6 Boostingの幾何学的描像U-Boostの幾何学的表現U -Boostoの幾何学的描像ブースティングの仕組み


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


入力:n個の例題 {(xi, yi);xi ∈ X , yi ∈ Y, i = 1, . . . , n},単調増加な凸関数 U .

初期化:q0(y|x) (通常，簡単のため ξ(q0) = 0 とする)．


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


繰り返し: t = 1, . . . , T

step 1: f − b′ができるだけ qt−1 − pと同じ方向を向くように決定関数 ft(判別器 ht)を選ぶ．

ft(x, y) = arg maxf∈F

〈qt−1 − p, f − b′〉µ


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに



step 2: 1次元のモデル

Qt =

{

q∣

∣

∣ξ(q) = ξ(qt−1) + αft − bt(α), α ∈ R

}

と直交葉層化 {T (q); q ∈ Qt}を構成し，経験分布 pを含む葉とQtの交点から αt を求める．

αt = arg minq∈Qt

n∑

i=1

∑

y∈Y

U(

ξ(q(y|xi)))

− ξ(q(yi|xi))

.


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに



step 3: qt を更新する．

qt(y|x) = u(

ξ(qt−1(y|x)) + αtft(x, y) − bt(x, αt))

.


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


出力:多数決判別器を構成する．

H(x) = arg maxy∈Y

FT (x, y) = arg maxy∈Y

T∑

t=1

αtft(x, y).


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに

U-Boostの幾何学的描像


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

Qt-1経験分布時刻tに得られた学習機械=モデルを拡大する方向時刻t-1までに得られた多数決による判別機


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

FtQt

Qt-1

m-射影により最適解を求める信頼度αの大きさ


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

Qt

Qt-1Qtと接する空間=改善が望めない方向時刻t+1に得られた学習機械更新された重み=法線方向


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

Ft+1

Qt+1

Qt

Qt-1

Qt+1


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

Ft

Ft+1

Qt+1

Qt

Qt-1

Qt+1

ピタゴラスの定理


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに


P~

Qt

Ft

Ft+1

Qt+1

Qt

Qt-1

Qt+1


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに

ブースティングの仕組み

大域的なモデルの拡大逐次的に例題の重みを変化させながら学習を行い，改善が望める方向にモデルを逐次的に拡大している．確率分布の外側に探索範囲を広げることによって，効率的なアルゴリズムを構成している．

P~

Qt

Ft

Ft+1

Qt+1

Qt

Qt-1

Qt+1


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル


統計的性質*

おわりに

ブースティングの仕組み

大域的なモデルの拡大逐次的に例題の重みを変化させながら学習を行い，改善が望める方向にモデルを逐次的に拡大している．確率分布の外側に探索範囲を広げることによって，効率的なアルゴリズムを構成している．

P~

Qt

Ft

Ft+1

Qt+1

Qt

Qt-1

Qt+1


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

誤差の性質Bayes 最適性有効性頑健性

おわりに

誤差の性質

選択された決定関数と次時刻の誤差との関係

ǫt+1(ft) =1

2(∀t = 1, 2, . . . , T − 1)

時刻 tにおいて選ばれた決定関数 ftは，更新された分布Dt+1 のもとではランダムな判別と同等.1つ前に選ばれた判別器が最も不得意となるように分布の更新が進む．


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


おわりに

Bayes最適性 (2値判別の場合)

最小値を与える F は Bayes最適な判別器

{x|F (x) > 0} =

{

x

∣

∣

∣log

p(+1|x)

p(−1|x)> 0

}

関数 U が

logu(z)

u(−z)= 2z,

を満たすとき F は尤度比と一致する (Fisher一致性)．

F (x) =1

2log

p(+1|x)

p(−1|x)

U -Boostが一致性をもつのはU -モデルが真の分布を含むとき判別器の線形結合が十分な表現力をもつとき


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


おわりに

有効性

信頼度の漸近分散 α:

Cov(α) =1

nH−1GH−1 + o

(

1

n

)

,

H =

∫

X

∂2

∂α∂ατr(x,α∗)dµ(x),

G =

∫

X

∑

y∈Y

p(y|x)( ∂

∂αr(x,α∗) − f(x, y)

)2dµ(x)

r(x,α) =∑

y∈Y

U(

ξ(q0) +

T∑

t=1

αtft(x, y) − b(x,α))

+ b(x,α).

U モデルが一致性をもつ場合, LogitBoostが最小


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


おわりに

頑健性

頑健性の指標: gross error sensitivity (Hampel et al., 1986)

γ(U, p0) = sup(x,y)

{

limǫ→+0

1

ǫ

[

αU ((1 − ǫ) p0

+ ǫ δ(x, y)) − αU (p0)]

}2

Fisher一致性をもつ関数 U の中でMadaBoost

u(z) =

{

1, z ≥ 0,

exp(2z), z < 0,

は最小の gross error sensitivityを与える．


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


おわりに

-4

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4

A

A A A A A A A A A A A A

0 100 200 300 400 500 600

0.12

0.14

0.16

0.18

0.20

0.22

contamination: 0%

boost

test

err

L

LL L L L L L L L L L L

M

MM

M M M M M M M M M M

ALM

AdaBoostLogitBoostMadaBoost

A

AA A A A A A A A A A A

0 100 200 300 400 500 600

0.12

0.14

0.16

0.18

0.20

0.22

contamination: 1%

boost

test

err

L

L LL

L L L L L L L L L

M

MM

MM M M M M M M M M

ALM


A

A A A A A A A A A A A A

0 100 200 300 400 500 600

0.12

0.14

0.16

0.18

0.20

0.22

contamination: 2%

boost

test

err

L

LL

L L L L L L L L L L

M

MM

M MM M M M M M M M

ALM



村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*

おわりにまとめ

まとめ

アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点

アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小


村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


まとめ




村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


まとめ




村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


まとめ




村田昇

集団学習

Boosting

U-divergence

直交葉層化

判別モデル

幾何学的描像

統計的性質*


まとめ



Boosting Algorithm の情報幾何 - Faculty of … の 情報幾何 村田昇 集団学習 集団学習の仕組み 統計的推測の幾何 モデルの拡大 Boosting U-divergence

Documents

Boosting Algorithm の情報幾何 - Faculty of … の情報幾何村田昇集団学習集団学習の仕組み統計的推測の幾何モデルの拡大 Boosting U-divergence