Top Banner
6 章 章章章章章章 A/B 章章章 章章章章章章章章章章章章章章章章章章章章 章章章章章章章章章章章章章章章章章章章 「」 章章章章 VOYAGE GROUP 章章章章
19

6章 最適腕識別とA/Bテスト

Apr 13, 2017

Download

Science

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 6章 最適腕識別とA/Bテスト

6章 最適腕識別とA/Bテスト

 機械学習プロフェッショナルシリーズ勉強会「バンディット問題の理論とアルゴリズム」発表担当  VOYAGE GROUP 中野智文

Page 2: 6章 最適腕識別とA/Bテスト

自己紹介•中野智文• VOYAGE GROUP•広告データの分析

•その前は•質問応答システム•検索ランキングアルゴリズム•教育のための機械学習・統計•将棋

Page 3: 6章 最適腕識別とA/Bテスト

最適腕識別と A/Bテスト•最適腕識別 (best arm identification)•累積報酬の最大化ではなく、(将来の)報酬が最大の腕を識別すること

•最適腕識別において、 K=2 (腕の数が 2)のとき、• A/Bテストとよぶ

•ただし一般の「バンディット問題」では最適腕識別を含むことがある

Page 4: 6章 最適腕識別とA/Bテスト

6.1 A/Bテスト定式化腕の番号 :

報酬の期待値 :

期待値最大の腕 :

最大と二番手の差 :

Page 5: 6章 最適腕識別とA/Bテスト

固定予算時刻:

報酬:(最大腕 )推定:誤り確率(誤識別率 ):

時刻 tに引いた腕:

Page 6: 6章 最適腕識別とA/Bテスト

固定信頼度誤識別率が  δ 以内であると確信できるまで。

を満たしつつを最小化する

次を満たす停止規則を設定する必要がある

Page 7: 6章 最適腕識別とA/Bテスト

6.1.1 累積報酬最大化との違い•累積報酬最大化:•選択の殆どが期待大と推定される腕に•誤識別率は Tに対して多項式オーダー

• A/Bテスト:•全ての腕に同程度•誤識別率は Tに対して指数オーダー

例 6.1参照

Page 8: 6章 最適腕識別とA/Bテスト

例 6.1 メモ腕を均等に引く場合の誤識別率:

→多項式的な減衰KL-UCBの誤識別率 :

→指数的な減衰

Page 9: 6章 最適腕識別とA/Bテスト

6.1.2 ε-最適腕識別•本質的に解決不可能•例 : μ = 0.501, 0.5

• ε最適腕識別 :•期待値が↓以上の腕を識別する    

Page 10: 6章 最適腕識別とA/Bテスト

μ = 0.501, 0.5, 0.1 の例 メモ

0.501 と  0.5の誤識別率0.5 と  0.1のサンプルサイズ

n3は全体の

Page 11: 6章 最適腕識別とA/Bテスト

標本複雑度

必要なサンプルサイズ(本にはサンプル数とありますが…)

Page 12: 6章 最適腕識別とA/Bテスト

メモ•偶然           になる確率•ヘフディングの不等式によると、サンプルサイズが少なくとも

•ないと、               未満という仮説を棄却できない•それ以外も同様な話

Page 13: 6章 最適腕識別とA/Bテスト

6.3 最適腕識別の方策•信頼上限 (UCB; upper confidence bound)•信頼下限 (LCB; lower confidence bound)も使う•最も期待値の高い腕の信頼下限•よりそれ以外の全ての(信頼上限―

ε)が小さければ終了•より信頼上限が小さい腕は排除

•探索候補腕全試し

Page 14: 6章 最適腕識別とA/Bテスト

信頼上限と信頼下限信頼上限

信頼下限

Page 15: 6章 最適腕識別とA/Bテスト
Page 16: 6章 最適腕識別とA/Bテスト

6.3.2 スコアに基づく方法• 1番手の下限と、 2番手の上限の差が広がるように、 1番手と 2番手のみを引く。

Page 17: 6章 最適腕識別とA/Bテスト

UGapE方策では、期待値が大きい方ばかり選ばれる可能性があるので、サンプルサイズの小さい方を選ぶ。

Page 18: 6章 最適腕識別とA/Bテスト

6.4 固定予算の設定

もし           ならば、誤識別率を

で抑えることが出来るが、 Hεを知らない。つまり固定予算は未解決

Page 19: 6章 最適腕識別とA/Bテスト

雑感• LUCB方策で用いる信頼区間を変えたい•上下対称なので、修正Wald法や、Wilson score interval などにした方が良さそう

•動的な ABテストは現実的に厳しい•前の報酬が判明する前に次の腕を引く•ログの問題。広告であれば表示からクリックまでもタイムラグがある。

•開発コスト。Webであればクッキーを使った L7スイッチで実現したい。