Boosting Algorithm Boosting U-divergence * Boosting Algorithm 1 2008 9 17
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Boosting Algorithmの情報幾何九州大学 コンソーシアム
マス・フォア・インダストリ 第 1回フォーラム
村田 昇
早稲田大学 理工学術院
2008年 9月 17日
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Outline
1 集団学習とは何か
2 Boosting Algorithm
3 有限測度の空間と Bregman divergence
4 ピタゴラスの定理と直交葉層化
5 判別のためのモデル
6 Boostingの幾何学的描像
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
共同研究者:
竹之内 高志(奈良先端科学技術大学院大学)
金森 敬文(名古屋大学)
江口 真透(統計数理研究所)
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Outline
1 集団学習とは何か集団学習の仕組み統計的推測の幾何混合によるモデルの拡大
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 1)
三人組で様々なジャンル (歴史,政治,芸能,スポーツなど 10種類) の問題に答えるクイズ番組
そこそこできの良い三人組8種類のジャンルに対応できる皆,芸能とスポーツが苦手画一的な優等生
それほどできの良くない三人組6種類のジャンルしか正解しない苦手なジャンルはバラバラ個性的な劣等生
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 1)
三人組で様々なジャンル (歴史,政治,芸能,スポーツなど 10種類) の問題に答えるクイズ番組
そこそこできの良い三人組8種類のジャンルに対応できる皆,芸能とスポーツが苦手画一的な優等生
それほどできの良くない三人組6種類のジャンルしか正解しない苦手なジャンルはバラバラ個性的な劣等生
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 1)
三人組で様々なジャンル (歴史,政治,芸能,スポーツなど 10種類) の問題に答えるクイズ番組
そこそこできの良い三人組8種類のジャンルに対応できる皆,芸能とスポーツが苦手画一的な優等生
それほどできの良くない三人組6種類のジャンルしか正解しない苦手なジャンルはバラバラ個性的な劣等生
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 1)
三人組で様々なジャンル (歴史,政治,芸能,スポーツなど 10種類) の問題に答えるクイズ番組
そこそこできの良い三人組8種類のジャンルに対応できる皆,芸能とスポーツが苦手画一的な優等生
それほどできの良くない三人組6種類のジャンルしか正解しない苦手なジャンルはバラバラ個性的な劣等生
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 2)多数決 多数決できの良い画一的な三人組 できの良くない個性的な三人組
集団学習の要件できるだけ多様な人材を集める必要がある.少なくとも半分くらいは正解してくれないと困る.
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 2)多数決 多数決できの良い画一的な三人組 できの良くない個性的な三人組
集団学習の要件できるだけ多様な人材を集める必要がある.少なくとも半分くらいは正解してくれないと困る.
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
集団学習の仕組み (その 2)多数決 多数決できの良い画一的な三人組 できの良くない個性的な三人組
集団学習の要件できるだけ多様な人材を集める必要がある.少なくとも半分くらいは正解してくれないと困る.
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
確率モデルの推定
データを説明する最も尤もらしいモデルを求める問題.観測データを適切な方法で収集する.想定すべき適当な確率分布の集合を構成する.(この集合をモデル多様体と呼ぶ)観測データを用いて決められる経験分布から,最も近いモデル多様体上の一点を求める.
⇓幾何学的には “最短点”を求める問題
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
確率モデルの推定
データを説明する最も尤もらしいモデルを求める問題.観測データを適切な方法で収集する.想定すべき適当な確率分布の集合を構成する.(この集合をモデル多様体と呼ぶ)観測データを用いて決められる経験分布から,最も近いモデル多様体上の一点を求める.
⇓幾何学的には “最短点”を求める問題
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
確率モデルの推定
データを説明する最も尤もらしいモデルを求める問題.観測データを適切な方法で収集する.想定すべき適当な確率分布の集合を構成する.(この集合をモデル多様体と呼ぶ)観測データを用いて決められる経験分布から,最も近いモデル多様体上の一点を求める.
⇓幾何学的には “最短点”を求める問題
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
確率モデルの推定
データを説明する最も尤もらしいモデルを求める問題.観測データを適切な方法で収集する.想定すべき適当な確率分布の集合を構成する.(この集合をモデル多様体と呼ぶ)観測データを用いて決められる経験分布から,最も近いモデル多様体上の一点を求める.
⇓幾何学的には “最短点”を求める問題
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
推定の幾何学的解釈
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間観測データのモデルによる近似
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
推定の幾何学的解釈観測データ(経験分布)モデル多様体確率分布の空間最適なモデル
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
混合によるモデルの拡大
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
混合によるモデルの拡大モデル多様体 確率分布の空間基本モデル 拡張されたモデル(モデル多様体には含まれない)
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点 真の分布
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点 真の分布真の分布?
BoostingAlgorithm の情報幾何
村田 昇
集団学習集団学習の仕組み統計的推測の幾何モデルの拡大
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
混合によるモデルの拡大モデル多様体確率分布の空間拡張されたモデルでの最適な点 真の分布真の分布
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Outline
2 Boosting AlgorithmBoostingの例 (AdaBoost)U-Boost Algorithm
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
第 1巡
−2 −1 0 1 2
−2
−1
01
2
x1
x2
x1
x2
y
−2 −1 0 1 2
−2
−1
01
2
x1
x 2
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
第 2巡
−2 −1 0 1 2
−2
−1
01
2
x1
x2
x1
x2
y
−2 −1 0 1 2
−2
−1
01
2
x1
x 2
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
各巡の分布
−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2−2 −1 0 1 2
−2
−1
01
2
x1
x2
−2 −1 0 1 2
−2
−1
01
2
x1
x2
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
各巡の判別器
x1
x2
y
x1
x2
y
x1
x2
y
x1
x2
y
x1
x2
y
x1
x2
y
x1
x2
y
x1
x2
y
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Boostingの効果
−2 −1 0 1 2
−2
−1
01
2
x1
x 2
Boostingなし
−2 −1 0 1 2
−2
−1
01
2
x1
x 2Boostingあり
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
準備
判別問題: 特徴量 x ∈ X のラベル y ∈ Y を予測する判別器: 集合値関数 h
h : x ∈ X 7→ C ⊂ Y
決定関数: 判別器の別表現
f(x, y) =
{
1, if y ∈ h(x),
0, otherwise,
多数決判別器: 複数の判別器の決定関数の線形結合
H(x) = arg maxy∈Y
T∑
t=1
αtft(x, y)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Boost Algorithm (1)
入力:n個の例題 {(xi, yi);xi ∈ X , yi ∈ Y, i = 1, . . . , n},単調増加な凸関数 U .
初期化:分布 D1(i, y) = 1/n(|Y| − 1) (i = 1, . . . , n),結合決定関数 F0(x, y) = 0.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Boost Algorithm (2)
繰り返し: t = 1, . . . , T
step 1: 分布Dtのもとでの決定関数 f (判別器 h)の誤差
ǫt(f) =
n∑
i=1
∑
y 6=yi
f(xi, y) − f(xi, yi) + 1
2Dt(i, y)
を (近似的に)最小化する決定関数を 1つ選ぶ.
ft(x, y) = arg minf∈F
ǫt(f).
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Boost Algorithm (3)
(繰り返しの中)
step 2: 信頼度 αtを計算する.
αt = arg minα
n∑
i=1
∑
y∈Y
U(
Ft−1(xi, y) − Ft−1(xi, yi)
+ α (ft(xi, y) − ft(xi, yi)))
.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Boost Algorithm (4)
(繰り返しの中)
step 3: 結合決定関数 Ftと分布Dtを更新する.
Ft(x, y) = Ft−1(x, y) + αtft(x, y),
Dt+1(i, y) ∝ U ′ (Ft(xi, y) − Ft(xi, yi)) ,
ただしn
∑
i=1
∑
y 6=yi
Dt+1(i, y) = 1.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Boost Algorithm (5)
出力:多数決判別器を構成する.
H(x) = arg maxy∈Y
FT (x, y) = arg maxy∈Y
T∑
t=1
αtft(x, y).
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
Boosting の例U-BoostAlgorithm
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
注意
U(z) = exp(z)の場合は AdaBoostに帰着step 2:
αt =1
2log
1 − ǫt(ft)
ǫt(ft),
step 3:
Dt+1(i, y) ∝ exp{Ft(xi, y) − Ft(xi, yi)}
0-1損失の代理 (surrogate loss)の最適化
LU (F ) =1
n
n∑
i=1
∑
y∈Y
U(F (xi, y) − F (xi, yi))
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Outline
3 有限測度の空間と Bregman divergence有限測度の空間U -divergenceU -divergenceの特徴関数 U の例
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
有限測度の空間
正値の条件付測度の空間
M =
{
m(y|x)∣
∣
∣
∑
y∈Y
m(y|x) < ∞ (a.e. x)
}
条件付確率の空間を含む
P =
{
m(y|x)∣
∣
∣
∑
y∈Y
m(y|x) = 1
}
M
S
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Bregman Divergence
tangent at ξ(p)
ξ(p) ξ(q)
U(ξ(p))
U(ξ(q))
d(ξ(p), ξ(q))
p(ξ(q) − ξ(p)) + U(ξ(p))
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-Divergence
U :R上の凸関数 (導関数 u = U ′,その逆関数 ξ = u−1)
µ(x)のもとでの pと qの U -cross-entropy:
HU (p, q;µ) =∫
X
∑
y∈Y
{U(ξ(q(y|x))) − p(y|x)ξ(q(y|x))}µ(x)dx
pから qへの U -divergence (Bregman divergenceの一種):
DU (p, q;µ) = HU(p, q;µ) − HU (p, p;µ)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
特徴 (1)
Bregman divergenceの正値性より
HU (p, q;µ) ≥ HU (p, p;µ)
qに関する最小化の等価性
arg minq
DU (p, q;µ) = arg minq
HU (p, q;µ).
(KL-divergenceの最小化と最尤推定の関係と同様)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
特徴 (2)
経験分布が直接代入できる
条件付: p(y|x) =
I(y = yi), if x = xi,1|Y|
, otherwise,
周辺: .µ(x) =1
n
n∑
i=1
δ(x − xi).
q = arg minq∈Q
HU(p, q; µ)
= arg minq∈Q
1
n
n∑
i=1
[
∑
y∈Y
U(ξ(q(y|xi))) − ξ(q(yi|xi))
]
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
関数Uの例 (1)
exponential (Kullback-Leibler):
U(z) = exp(z), u(z) = exp(z), ξ(z) = log(z)
β-type:
U(z) =(βz + 1)
β+1β
β + 1, u(z) = (βz+1)
1β , ξ(z) =
zβ − 1
β
η-type:
U(z) = exp(z)−ηz, u(z) = exp(z)−η, ξ(z) = log(z+η)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
関数Uの例 (1)
exponential (Kullback-Leibler):
U(z) = exp(z), u(z) = exp(z), ξ(z) = log(z)
β-type:
U(z) =(βz + 1)
β+1β
β + 1, u(z) = (βz+1)
1β , ξ(z) =
zβ − 1
β
η-type:
U(z) = exp(z)−ηz, u(z) = exp(z)−η, ξ(z) = log(z+η)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
関数Uの例 (2)
β-type (β = 1):
U(z) =1
2(z + 1)2, u(z) = z + 1, ξ(z) = z − 1
MadaBoost: (狭義の凸ではない)
U(z) =
{
z + 12 z ≥ 0,
12 exp(2z) z < 0,
u(z) =
{
1 z ≥ 0,
exp(2z) z < 0ξ(z) =
1
2log(z) (z ≤ 1)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
有限測度の空間U -divergence
U -divergence の特徴関数 U の例
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
関数Uの例 (3)
−2 −1 0 1 2
0.0
0.5
1.0
1.5
2.0
2.5
3.0
loss functions
z
U(z
)
KL(AdaBoost)β(0.5)η(0.2)MadaBoost
関数 U
−2 −1 0 1 2
0.0
0.5
1.0
1.5
2.0
2.5
3.0
loss functions
z
u(z)
KL(AdaBoost)β(0.5)η(0.2)MadaBoost
導関数 u
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
Outline
4 ピタゴラスの定理と直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
ピタゴラスの定理 (1)
3点 p, q, r ∈ Mを考えるp − q と ξ(r) − ξ(q) が µ のもとで直交する
∫
X
∑
y∈Y
(p(y|x) − q(y|x))
× (ξ(r(y|x)) − ξ(q(y|x))) µ(x)dx
= 〈p − q, ξ(r) − ξ(q)〉µ = 0
ならば
DU (p, r;µ) = DU (p, q;µ) + DU (q, r;µ)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
ピタゴラスの定理 (2)
D(p, r)
D(p, q)
D(q, r)
p q
r
p − q
ξ(r) − ξ(q)
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
平坦性
m-測地線: m-表現による p, q ∈ Mの内分点の集合
r(x; t) = (1 − t) · p(x) + t · q(x), 0 ≤ t ≤ 1,
U -測地線: U -表現による p, q ∈ Mの内分点の集合
ξ(r(x; t)) = (1− t) · ξ(p(x))+ t · ξ(q(x)), 0 ≤ t ≤ 1,
2つの自然な部分空間m-平坦部分空間: m-測地線からなる集合.U -平坦部分空間: U -測地線からなる集合.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
U-平坦部分空間
q0 ∈ Mと,Λを有限の添字の集合とする決定関数の集合F = {fλ(x, y);λ ∈ Λ} を用いて定義する
QU (q0,F) =
{
q ∈ M∣
∣
∣q(y|x) =
u(
ξ(q0(y|x)) +∑
λ∈Λ
αλfλ(x, y))
, αλ ∈ R
}
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
m-平坦部分空間
1点 p0 ∈ Mを通りQU に垂直なMの部分空間
T (p0, µ,F)
=
{
p ∈ M∣
∣
∣〈p − p0, fλ〉µ = 0, ∀λ ∈ Λ
}
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
平坦な部分空間の関係
T
Q
p0
q0
q∗ p
q
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化ピタゴラスの定理平坦部分空間直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりに
直交葉層化
U-flat
m-flat m-flat
Q
T (q)T (q′)
p
q′
q
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
Outline
5 判別のためのモデル判別の不変性経験 U モデル正規化 U モデル
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
判別の不変性
シフト不変性: b(x)は任意の xの関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
{
ξ(
q(y|x))
− b(x)}
スケール不変性: c(x)は任意の xの正値関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
c(x)q(y|x)
アルゴリズム構成に適した b(x)や c(x)を選んでよい
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
判別の不変性
シフト不変性: b(x)は任意の xの関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
{
ξ(
q(y|x))
− b(x)}
スケール不変性: c(x)は任意の xの正値関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
c(x)q(y|x)
アルゴリズム構成に適した b(x)や c(x)を選んでよい
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
判別の不変性
シフト不変性: b(x)は任意の xの関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
{
ξ(
q(y|x))
− b(x)}
スケール不変性: c(x)は任意の xの正値関数
arg maxy∈Y
q(y|x) = arg maxy∈Y
c(x)q(y|x)
アルゴリズム構成に適した b(x)や c(x)を選んでよい
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
経験Uモデル
cross-entropyの第 2項が消えるように bを選んだモデル
QempU (q0,F) =
{
q ∈ M∣
∣
∣ξ(q(y|x))
= ξ(q0(y|x)) +T
∑
t=1
αt
(
ft(x, y) − ft(x))
}
.
(f は f の条件付経験分布による平均)
F = ξ(q)の関数として書き直した HU (p, q; µ):
LempU (F ) =
1
n
n∑
i=1
∑
y∈Y
U(
F (xi, y) − F (xi, yi))
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
経験Uモデル
cross-entropyの第 2項が消えるように bを選んだモデル
QempU (q0,F) =
{
q ∈ M∣
∣
∣ξ(q(y|x))
= ξ(q0(y|x)) +T
∑
t=1
αt
(
ft(x, y) − ft(x))
}
.
(f は f の条件付経験分布による平均)
F = ξ(q)の関数として書き直した HU (p, q; µ):
LempU (F ) =
1
n
n∑
i=1
∑
y∈Y
U(
F (xi, y) − F (xi, yi))
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
正規化Uモデル
確率分布となるように b = φを選んだモデル
QnormU (q0,F) =
{
q ∈ P∣
∣
∣ξ(q(y|x))
= ξ(q0(y|x)) +
T∑
t=1
αtft(x, y) − φ(x,α)
}
F = ξ(q)の関数として書き直した HU (p, q; µ):
LnormU (F ) =
1
n
n∑
i=1
[
∑
y∈Y
U(
F (xi, y) − φ(xi,α))
−{
F (xi, yi) − φ(xi,α)}
]
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル判別の不変性経験 U モデル正規化 U モデル
幾何学的描像
統計的性質*
おわりに
正規化Uモデル
確率分布となるように b = φを選んだモデル
QnormU (q0,F) =
{
q ∈ P∣
∣
∣ξ(q(y|x))
= ξ(q0(y|x)) +
T∑
t=1
αtft(x, y) − φ(x,α)
}
F = ξ(q)の関数として書き直した HU (p, q; µ):
LnormU (F ) =
1
n
n∑
i=1
[
∑
y∈Y
U(
F (xi, y) − φ(xi,α))
−{
F (xi, yi) − φ(xi,α)}
]
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
Outline
6 Boostingの幾何学的描像U-Boostの幾何学的表現U -Boostoの幾何学的描像ブースティングの仕組み
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boost Algorithm (1)
入力:n個の例題 {(xi, yi);xi ∈ X , yi ∈ Y, i = 1, . . . , n},単調増加な凸関数 U .
初期化:q0(y|x) (通常,簡単のため ξ(q0) = 0 とする).
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boost Algorithm (2)
繰り返し: t = 1, . . . , T
step 1: f − b′ができるだけ qt−1 − pと同じ方向を向くように決定関数 ft(判別器 ht)を選ぶ.
ft(x, y) = arg maxf∈F
〈qt−1 − p, f − b′〉µ
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boost Algorithm (3)
(繰り返しの中)
step 2: 1次元のモデル
Qt =
{
q∣
∣
∣ξ(q) = ξ(qt−1) + αft − bt(α), α ∈ R
}
と直交葉層化 {T (q); q ∈ Qt}を構成し,経験分布 pを含む葉とQtの交点から αt を求める.
αt = arg minq∈Qt
n∑
i=1
∑
y∈Y
U(
ξ(q(y|xi)))
− ξ(q(yi|xi))
.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boost Algorithm (4)
(繰り返しの中)
step 3: qt を更新する.
qt(y|x) = u(
ξ(qt−1(y|x)) + αtft(x, y) − bt(x, αt))
.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boost Algorithm (5)
出力:多数決判別器を構成する.
H(x) = arg maxy∈Y
FT (x, y) = arg maxy∈Y
T∑
t=1
αtft(x, y).
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
Qt-1経験分布時刻tに得られた学習機械=モデルを拡大する方向時刻t-1までに得られた多数決による判別機
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
FtQt
Qt-1
m-射影により最適解を求める信頼度αの大きさ
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
Qt
Qt-1Qtと接する空間=改善が望めない方向 時刻t+1に得られた学習機械更新された重み=法線方向
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
Ft+1
Qt+1
Qt
Qt-1
Qt+1
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
Ft
Ft+1
Qt+1
Qt
Qt-1
Qt+1
ピタゴラスの定理
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
U-Boostの幾何学的描像
P~
Qt
Ft
Ft+1
Qt+1
Qt
Qt-1
Qt+1
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
ブースティングの仕組み
大域的なモデルの拡大逐次的に例題の重みを変化させながら学習を行い,改善が望める方向にモデルを逐次的に拡大している.確率分布の外側に探索範囲を広げることによって,効率的なアルゴリズムを構成している.
P~
Qt
Ft
Ft+1
Qt+1
Qt
Qt-1
Qt+1
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像幾何学的表現幾何学的描像まとめ
統計的性質*
おわりに
ブースティングの仕組み
大域的なモデルの拡大逐次的に例題の重みを変化させながら学習を行い,改善が望める方向にモデルを逐次的に拡大している.確率分布の外側に探索範囲を広げることによって,効率的なアルゴリズムを構成している.
P~
Qt
Ft
Ft+1
Qt+1
Qt
Qt-1
Qt+1
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
誤差の性質Bayes 最適性有効性頑健性
おわりに
誤差の性質
選択された決定関数と次時刻の誤差との関係
ǫt+1(ft) =1
2(∀t = 1, 2, . . . , T − 1)
時刻 tにおいて選ばれた決定関数 ftは,更新された分布Dt+1 のもとではランダムな判別と同等.1つ前に選ばれた判別器が最も不得意となるように分布の更新が進む.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
誤差の性質Bayes 最適性有効性頑健性
おわりに
Bayes最適性 (2値判別の場合)
最小値を与える F は Bayes最適な判別器
{x|F (x) > 0} =
{
x
∣
∣
∣log
p(+1|x)
p(−1|x)> 0
}
関数 U が
logu(z)
u(−z)= 2z,
を満たすとき F は尤度比と一致する (Fisher一致性).
F (x) =1
2log
p(+1|x)
p(−1|x)
U -Boostが一致性をもつのはU -モデルが真の分布を含むとき判別器の線形結合が十分な表現力をもつとき
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
誤差の性質Bayes 最適性有効性頑健性
おわりに
有効性
信頼度の漸近分散 α:
Cov(α) =1
nH−1GH−1 + o
(
1
n
)
,
H =
∫
X
∂2
∂α∂ατr(x,α∗)dµ(x),
G =
∫
X
∑
y∈Y
p(y|x)( ∂
∂αr(x,α∗) − f(x, y)
)2dµ(x)
r(x,α) =∑
y∈Y
U(
ξ(q0) +
T∑
t=1
αtft(x, y) − b(x,α))
+ b(x,α).
U モデルが一致性をもつ場合, LogitBoostが最小
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
誤差の性質Bayes 最適性有効性頑健性
おわりに
頑健性
頑健性の指標: gross error sensitivity (Hampel et al., 1986)
γ(U, p0) = sup(x,y)
{
limǫ→+0
1
ǫ
[
αU ((1 − ǫ) p0
+ ǫ δ(x, y)) − αU (p0)]
}2
Fisher一致性をもつ関数 U の中でMadaBoost
u(z) =
{
1, z ≥ 0,
exp(2z), z < 0,
は最小の gross error sensitivityを与える.
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
誤差の性質Bayes 最適性有効性頑健性
おわりに
-4
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4
A
A A A A A A A A A A A A
0 100 200 300 400 500 600
0.12
0.14
0.16
0.18
0.20
0.22
contamination: 0%
boost
test
err
L
LL L L L L L L L L L L
M
MM
M M M M M M M M M M
ALM
AdaBoostLogitBoostMadaBoost
A
AA A A A A A A A A A A
0 100 200 300 400 500 600
0.12
0.14
0.16
0.18
0.20
0.22
contamination: 1%
boost
test
err
L
L LL
L L L L L L L L L
M
MM
MM M M M M M M M M
ALM
AdaBoostLogitBoostMadaBoost
A
A A A A A A A A A A A A
0 100 200 300 400 500 600
0.12
0.14
0.16
0.18
0.20
0.22
contamination: 2%
boost
test
err
L
LL
L L L L L L L L L L
M
MM
M MM M M M M M M M
ALM
AdaBoostLogitBoostMadaBoost
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりにまとめ
まとめ
アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点
アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりにまとめ
まとめ
アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点
アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりにまとめ
まとめ
アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点
アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりにまとめ
まとめ
アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点
アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小
BoostingAlgorithm の情報幾何
村田 昇
集団学習
Boosting
U-divergence
直交葉層化
判別モデル
幾何学的描像
統計的性質*
おわりにまとめ
まとめ
アルゴリズムと幾何学的描像情報の空間と Bregman divergenceピタゴラスの定理と直交葉層化判別の不変性による測度空間での探索統計的推定問題としての統一的な視点
アルゴリズムの理解と改善安定性解析頑健 (ロバスト)化高速化・簡略化モデルの拡大・縮小