論論論論: Optimal and Adaptive Algorithms for Online Boosting スススス スス :
論文紹介:Optimal and Adaptive
Algorithmsfor Online Boosting
スライド:楠本
論文概要Optimal and Adaptive Algorithms for Online Boosting (ICML2015 Best Paper)Alina Beygelzimer, Satyen Kale, and Haipeng Luo (Yahoo Lab & プリンストン大 )オンラインのブースティング手法を 2 つ提案する. 理論上最適な手法 Adaptive な手法
選んだ理由: 理論寄りの論文で ICML の Best paper に選ばれるようなものがどんなものか知りたかったため
なお解析部分は準備する時間がなかったのでほとんど説明しません…
目次 復習
ブースティングオンライン学習
問題設定 提案手法 ( おまけ ) 実験結果 感想
前置き: この発表では2 値分類だけを扱います
復習:ブースティング弱い学習器をいっぱい集めて強い学習器を作る手法
ランダムよりはちょっとマシくらいの分類器 精度が良い分類器
0/1 ロスが ≤ 0.5 - γ
0/1 ロスが ≤ ε
復習:ブースティング弱い学習器をいっぱい集めて強い学習器を作る手法
h1
h2
h3
h4
AdaBoost :次の反復を繰り返す:• 訓練データに対し重みを割り振る• 重みの付いた訓練データで弱い
学習器を学習• 訓練データに対する重みを更新
このとき今の分類器が大きく間違える訓練データを重くするようにする
出力は,今まで作った弱い学習器の( 重み付き ) の和
復習:バッチ学習 vs. オンライン学習
※ 「 Jubatus における大規模分散オンライン機械学習」より拝借
学習理論におけるエラー評価バッチ学習 :• データはある未知の分布から
i.i.d. にサンプリングされるとする
• エラーは汎化誤差で評価
オンライン学習 :• データは敵対者から渡される• エラーはリグレットで評価
ここから本題ですオンラインでブースティングしたい!!!!
前提: オンライン版の弱い学習器が与えられる
ある定数 γ, S があって,任意の T ≥ 1 に対し,データが何らかの分布から T 個オンラインで与えられた時に
(0/1 ロス ) ≤ (0.5 - γ)T + Sと ( 高確率で ) なるもの
T が小さい時にはどうやってもロスが発生するので余分に必要
逆に T が十分大きくなるとミス回数は (0.5-γ)T に近づいていく( 理由: ) T がでかいと S << (0.5 – γ)T みたいになる
アルゴリズム
(x1, y1)
(x2, y2)
(x3, y3)
ここから本題ですオンラインでブースティングしたい!!!!
前提: オンライン版の弱い学習器が与えられる目標 : オンライン版の強い学習器を作りたい
アルゴリズムの性能は,条件と目標 (γ, S, ε) に対し以下で評価する (N) 弱い学習器がいくつ必要か (T) サンプル数がいくつ必要か
ある定数 ε, S’ があって,任意の T ≥ 1 に対し,データが何らかの分布から T 個オンラインで与えられた時に
(0/1 ロス ) ≤ εT + S’と ( 高確率で ) なるもの
アルゴリズム
(x1, y1)
(x2, y2)
(x3, y3)
オンラインブースティング基本的には弱い学習器ごとの重み α(t, i) を逐次管理していく
重点サンプリング:各学習器の update 時に,ある確率 p(t, i) でしか訓練データを渡さないようにする
アルゴリズム:各 t = 1,…,T について:• 予測 = (Σi α(t, i) ・学習器 i(xt) ) の符号• 各学習器と α を update
(xi, yi)
p(t, i)
1 - p(t, i)
提案手法 Online BBM (Boost-By-Majority)
( ある常識的な条件下で ) N, T が共に最適なオンラインブースティング法 AdaBoost. OL
弱い学習器の精度 γ を入力に要求しないアルゴリズム弱い学習器の性能がばらついてる場合でも上手く処理できる
提案手法
既存手法
弱い学習器 サンプル数
提案手法 (Optimal な方 )大胆にも, α = 1 にセットする.
解析のふんいき次のポテンシャル関数 Φi(s) を考える ( 唐突 ?)
ここで p(t, i) をこのポテンシャル関数を使って決める ( 式が少しややこしいので略 ) と, 0/1 ロスを以下のように抑えられる
アルゴリズム ( 再掲 ) :各 t = 1,…,T について:• 予測 = (Σi α(t, i) ・学習器 i(xt) ) の符
号• 各学習器と α を update
p(t, i) に従い重点サンプリングする
Φ をいい感じに設計するとこの項が小さくなることが言える
( おまけ ) 実験結果理論の論文だが,ブースティング用のベンチマークで実験もしている
弱い学習器 提案手法
ほとんど僅差?
まとめ & 感想論文のまとめOnline boosting で理論的に最適な手法と, adaptive な手法の 2 つを提案下界も証明してる
感想 Online boosting という分野はこれでほぼやり尽くされた? どこからアイデアが出てきたのか素人には謎だった
魔法の重みが突然出てきて何故かいい感じに解析できるみたいに見える実際は様々な先行研究に基いて手法を考えてそう