1 多腕ィ問題における 漸近最適戦略について 本多淳也 東京大学 新領域創成科学研究科 山本-國廣研究室 数理助教の会 7/26
Jun 27, 2015
1
多腕バンディット問題における漸近最適戦略について
本多淳也
東京大学 新領域創成科学研究科
山本-國廣研究室
数理助教の会 7/26
2
多腕バンディット問題• 台のスロットマシンをプレイするギャンブラーのモデル
• 単位時間毎にいずれかのマシン1台をプレイ
• 得られる報酬の確率分布は台によって異なる
目標:
• 有限回数のプレイで報酬をなるべく大きくしたい
• 期待値最大の台を高確率で判別したい
問題:
・ある程度の回数プレイしないと台の良し悪しが分からない
・報酬の期待値の低い台を何度もプレイすると損
⊢⊢⊢
≋
3
応用例
• Web 上の広告表示
– 「まだデータが少なく購入率が未知の商品」 と
「今のところ購入率がそれなりに高い商品」 の選択
• 囲碁などのゲーム木探索
– 「あまり良くなさそうだけど深くは読んでいない手」 と
「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む?
• ネットワーク上に複数のパスがあるときに
どのパスを使えば通信時間を最小にできるか?
強化学習の一般的なテーマ:探索(exploration)と活用(exploitation)を
どうバランスさせるか?
4
問題の定式化:確率分布の集合(既知)
:台 からの報酬の確率分布(未知)
:台 の期待値 ( : の期待値)
:最大の期待値
: プレイ目までで台 を選んだ回数
≆≩ ∲ ≆
≆
≩
≩
⊹⊤ ∽ ≭≡≸≩ ⊹≩
≔≩∨≮∩ ≮ ≩
目標:
期待値最大でない台の を小さくすることで
regret を最小化したい≘
≩
∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩
≔≩∨≮∩
⊹≩ ∽ ≅∨≆≩∩
≩
≅∨≆ ∩ ≆
5
理論限界の準備
• ある戦略が consistent
任意のベストでない台 で
• あまり厳しい正則条件ではない
( となる戦略は比較的容易に構成可)
• :
– 分布 が期待値 以上の分布と
どれくらい紛らわしいか
≩
≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≩≮≦≇∲≆ ∺≅∨≇∩∾⊹
≄∨≆≫≇∩
⊹
KL divergence
≆
≇⊹
≆
≄≩≮≦∨≆∻ ⊹∻≆∩
≆
∬ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮⊮∩∻ ∸⊮ ∾ ∰
≅≛≔≩∨≮∩≝ ∽ ≏∨≬≯≧ ≮∩
6
理論限界
• Lai and Robbins (1985) が1次元パラメーターのモデルで導出
• Burnetas and Katehakis (1996) が一般モデルへ拡張
• 期待値最大でない台 をプレイしてしまう回数の下限:
• 分布 が期待値 以上の分布とどの程度紛らわしいかで
プレイ回数の下限が決まる
≩
≅≛≔≩∨≮∩≝ ⊸∱⊡ ≯∨∱∩
≄≩≮≦∨≆≩∻ ⊹⊤∻≆∩≬≯≧ ≮
≆≩ ⊹⊤
7
先行研究
• UCB (Upper Confidence Bound) 戦略
(Lai & Robbins (1985), Auer et al (2002), ……):
– 有意水準 で大きく見積もった各台の期待値 (UCB 値) が
最大となる台をプレイ
• DMED (Deterministic Minimum Empirical Divergence) 戦略
(Honda & Takemura (2010)):
– 期待値ベストである尤度が 以上の台をプレイ
• Thompson Sampling (Thompson (1933)):
– 期待値ベストな台の事後確率にしたがって台をランダムに選択
∱∽≮
∱∽≮
8
先行研究の比較
計算量 性能解析の容易さ
漸近最適性の示されたモデルの例
UCB △ ○ ○有限サポートモデル
指数型分布族(1変数)
DMED ◎ △ ◎有限サポートモデル有界サポートモデル
Thompson
Sampling
○(ただし事後分布の計算が必要)
◎ △ ベルヌーイ分布
• の項の漸近的な性能ではどの戦略も同等 (予想)≏∨≬≯≧ ≮∩
9
理論限界を達成可能なモデル
• コンパクトなモデル以外で最適性が示されているのは限定的
コンパクト 非コンパクト
1パラメータ ○ベルヌーイ分布
○指数型分布族の一部(平均が十分統計量)
[GC11]
?ワイブル分布
複数パラメータ○有限サポートモデル
[BK96]
?正規分布(平均・分散未知)
無限パラメータ○有界サポートモデル
[HT10]半有界サポートモデル
10
DMED 戦略
• 理論限界:
• DMED 戦略: 次の条件を満たす台をプレイ
標本分布
≅≛≔≩∨≮∩≝ ∦≬≯≧ ≮
≩≮≦≇∺≅∨≇∩∾⊹⊤
≄∨≆≩≫≇∩
≔≩∨≮∩ ⊷≬≯≧ ≮
≩≮≦≇∺≅∨≇∩∾≞⊹⊤
≄∨ ≞≆≩≫≇∩
≭≡≸≇∺≅∨≇∩∾≞⊹⊤
≥≸≰∨⊡≔≩∨≮∩≄∨ ≞≆≩≫≇∩∩ ⊸∱
≮
∬期待値 以上である尤度≞⊹⊤
11
DMED 戦略における計算
• DMED では試行ごとに次の計算が必要
(分散既知の正規分布の集合) の場合:
( [0,1] 上の分布全体の集合) の場合:
• 一方 UCB では を計算
≄≩≮≦∨ ≞≆≩∻ ≞⊹⊤∻≆∩ ∽ ≩≮≦
≇∲≆ ∺≅∨≇∩∾⊹⊤≄∨ ≞≆≩≫≇∩
≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹
≅≆ ≛≬≯≧∨∱ ⊡ ∨≘ ⊡ ⊹∩⊺∩≝
≆ ∽ ≆≛∰∻∱≝ ∽
≆ ∽ ≎ ∨⊵∻ ⊾∲∰∩ ∽
≳≵≰≇∲≆ ∺≄∨ ≞≆≩≫≇∩∼
≬≯≧≮≔≩∨≮∩
≅∨≇∩
≄≩≮≦∨⊵∻ ⊹∻≆∩ ∽∨⊹⊡ ⊵∩∲∫
∲⊾∲∰
• とりあえず の場合を考えれば OK
– ケース1: いずれも概ね収束 (寄与 )
– ケース2: は収束・台1が偶然悪い性能 (寄与 )
12
評価の方針
≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲
≏∨≬≯≧ ≮∩
≏∨∱∩
≞≆∱∻ ≞≆∲
≞≆∲
≆∱
≆⊹∲
≆∲
≆∱
⊹∲
≆∲
≆∱
⊹∲
≆∲
ケース1 ケース2 その他
≆
• 低確率でのみ発生する事象の確率を評価する理論
• Sanov の定理: 任意の(Lévy距離のもとでの)閉集合 に対して
• 分布 があたかも分布 であるかのように振る舞う確率は
概ね 程度
からのサンプル 個の経験分布
13
評価の道具:大偏差原理
≬≩≭ ≳≵≰≴∡∱
∱
≴≬≯≧≐≆ ≛ ≞≆≴ ∲ ≃≝ ⊷ ⊡ ≩≮≦
≇∲≃≄∨≇≫≆ ∩
≃
≴≆
≆ ≇
≥≸≰∨⊡≴≄∨≇≫≆ ∩∩
待ち時間の評価 (1パラメータの場合)
台1からのサンプル数が の場合:
• 推定値が となる確率は高々
• この場合の次のプレイまでの待ち時間は
– 平均待ち時間への寄与は
≔∱∨≮∩ ∽ ≴
≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩
≥≸≰∨≴≄∨⊵≫⊵∲∩∩
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
14
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≞⊵∱ ⊼ ⊵
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: 分散既知の正規分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
15
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰
≡⊹∱∻⊹∲ ∽∨⊹∱ ⊡ ⊹∲∩∲
∲⊾∲∰
≢⊹∱∻⊹∲ ∽⊹∱ ⊡ ⊹∲⊾∲∰
≞⊵∱ ⊼ ⊵
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: ラプラス分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
16
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰
≞⊵∱ ⊼ ⊵
≡⊹∱∻⊹∲ ∽ ≥⊹∱⊡⊹∲ ∫ ∨⊹∱ ⊡ ⊹∲∩⊡ ∱
≢⊹∱∻⊹∲ ∽ ∱⊡ ≥⊡∨⊹∱⊡⊹∲∩
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
• 全体の待ち時間は
• サンプル数 について和をとっても
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
17
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰
⊵ ⊷ ⊵∲≚ ⊵∲
⊡∱≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽
≥⊡≴≡
≢
≴ ≏∨∱∩
≞⊵∱ ⊼ ⊵
18
コンパクトなモデルの場合
• 標本分布が となる確率は高々≞≆∱ ⊼ ≆
≆
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩
≆∱
≆
≆∱
⊹∲
≄∨≆≫≆∱∩
19
コンパクトなモデルの場合
• 標本分布が となる確率は高々≞≆∱ ⊼ ≆
≆
≆∱
≆
≄≩≮≦∨≆∻ ⊹∱∩
≆∱
⊹∲
⊹∱
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩
20
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
≞≆∱ ⊼ ≆
≆
≆⊹∲
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩
21
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≄≩≮≦∨≆∻ ⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩
≞≆∱ ⊼ ≆
≆
22
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≄≩≮≦∨≆∻ ⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩
≞≆∱ ⊼ ≆
⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡
≆
23
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
• 領域 全体での期待値は ⊹∲
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩
≞≆∱ ⊼ ≆
⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
≆≭∨≆ ∻ ⊲∩ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
24
複数パラメータ・非コンパクトの場合
• スケールパラメータのようなものがある場合
となるケースが多い
– 例:正規分布(分散未知)の場合
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≄≩≮≦∨≆∻ ⊹∱∩
≆
≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲
≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰
≄≩≮≦∨∨⊹∻ ⊾∲∩∻ ⊹∱∩ ∽
∱
∲≬≯≧⊳
∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲
⊴
25
有界サポートモデルの拡張
• 上の分布モデル に対して DMED 戦略は漸近最適
• 実は任意の に対して
(⇒分布のサポートの下限は知らなくてもOK)
• 半有界サポートモデル に対しても漸近最適か?
– 所要時間を最小化するようなケースでは自然なモデル
• 期待値ベストな確率分布の積率母関数 が
(原点まわりで)存在すれば OK
≛≡∻ ∱≝ ≆≛≡∻∱≝
≡ ∲ ∨⊡∱∻ ∱∩
≄≩≮≦∨≆∻ ⊹∻≆≛≡∻∱≝∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹
≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝
≆∨⊡∱∻∱≝
≅≆ ≛≥⊸≘ ≝
26
理論限界の計算
• は次のように定式化される
• 無限次元ベクトル空間上の変数・有限個の(線形)制約
– Partially-finite convex programming とよばれる
(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))
≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚⊵
≬≯≧≤≆ ∨≸∩
≤≇∨≸∩
⊶
≤≆ ∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚
≤≇∨≸∩ ∽ ∱∻
≚
≸≤≇∨≸∩ ∾ ⊹∺
27
理論限界の計算
• は次のように定式化される
• 今回の場合は実行可能領域が非コンパクト
• 上の線形関数 が弱位相のもとで
非連続 (⇔ が有界な連続関数でない)
≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚⊵
≬≯≧≤≆ ∨≸∩
≤≇∨≸∩
⊶
≤≆ ∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚
≤≇∨≸∩ ∽ ∱∻
≚
≸≤≇∨≸∩ ∾ ⊹∺
≸ ∺ ≇ ∷∡
≚
≸≤≇∨≸∩≆∨⊡∱∻∱≝
≸ ∺ ≸ ∷∡ ≸
28
今回の方法
• おそらく
だろうという予想は既に出来ているので
– 両辺それぞれでの裾の影響を評価
– 等式が成り立つ , が存在することを確認
という手順で証明可能
≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹
≄∨≆ ≫≇∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹
≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝
≇ ⊺
29
(再掲) 期待値の評価
• スケールパラメータのようなものがある場合
となるケースが多い
– 例:正規分布(分散未知)の場合
≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲
≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰
≄≩≮≦∨∨⊵∻ ⊹∩∻ ⊹∱∩ ∽∱
∲≬≯≧⊳
∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲
⊴
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≄≩≮≦∨≆∻ ⊹∱∩
≆
≆∱
30
評価の改善
• 本当に知りたいのは
ではなく
•
(= 待ち時間が 以上になる確率)
を直接評価すればよい
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≄≩≮≦∨≆∻ ⊹∱∩
≆
≄∨≆≫≆∱∩
≳≵≰≇∺≅∨≇∩⊸⊹∱
≐≇≛ ≞≆∱ ⊼ ≆ ≝ ≐≆∱ ≛≞≆∱ ⊼ ≆ ≝
≥≴≸
≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝
31
期待値の評価
• 標本平均に関する大偏差原理 (Cramér の定理) を用いると
≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝
∽ ≐≆∱
⊷
≭≡≸∰⊷⊺⊷ ∱∱⊡⊹∲
≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸
⊸
∽ ≐≆∱
⊷
≓
∰⊷⊺⊷ ∱∱⊡⊹∲
≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸≧
⊸
∮ ≐≆∱
⊷
≓
⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩
∻∺∺∺∻ ∱∱⊡⊹∲≧≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡
≣≍≧
⊸
⊷≘
⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩
∻∺∺∺∻ ∱∱⊡⊹∲≧
≐≆∱
≨
≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡≣≍
≩
⊷ ≣∰≴ ≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽ ∱ ∫ ≏∨ ⊹∱⊡⊹∲≖≡≲∨≆∱∩∩∺
32
待ち時間の評価
•
• また実際は の場合を評価すれば十分で,この場合は
と指数を保証できる
• 事象 の寄与は高々
≆⊹∲
⊹∱
≄≩≮≦∨≆∻ ⊹∲∩
≆∱
≆
≄∨≆≫≆∱∩
≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝ ∮ ≥≸≰∨⊡≴⊸⊤≸∩
≞⊹∱ ⊷ ⊹∲
≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸∻ ≞⊹∱ ⊷ ⊹∲≝
∮ ≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧
≄≩≮≦∨ ≞≆∱∻ ⊹∲∩ ⊸ ≸
≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡ ∱∩≸∻ ⊤⊤∱ ⊡ ≸≧∩
⊷ ≥≸≰∨⊡≴∨≡∫ ≢≸∩∩
のキュムラント母関数の
Fenchel-Legendre 変換
≆∱
33
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 有界サポートモデル の場合:
– の平均 のみを既知とした場合の の下限は
– これを基準にすることで を
達成可能→KL-UCB (Garivier & Cappe, 2011)
≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹
≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝
≏∨≬≯≧ ≮∩
≞≆≩ ≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩
≭≩≮≆ ∺≅∨≆ ∩∽≞⊹≩
≄≩≮≦∨≆∻ ⊹∩ ∽ ≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩
≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮
≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩
≆≛∰∻∱≝
34
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 一般の有界サポートモデル の場合:
– スケール変換して KL-UCB を適用することで
を達成可能
– を保守的にとると bound が悪化・ で無意味に
≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹
≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝
≏∨≬≯≧ ≮∩
≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮
≄∨≂∨⊹≩⊡≡∱⊡≡ ∩≫≂∨⊹⊤⊡≡∱⊡≡ ∩∩
≡ ≡∡ ⊡∱
≆≛≡∻∱≝
35
計算の簡略化について
• 期待値 のみを既知としたとき を最小化するのは
がベルヌーイ分布のとき
• 一般に 次までのモーメントを指定したときに を
最小化するのは 個のサポートからなる離散分布
(Honda & Takemura, 2012)
– までは2次方程式の解の公式で計算可能
– 特に が偶数のときはサポート下限 には一切依存しない
– 次までのモーメントを用いると を
全ての で非零値で抑えられる
– の場合と異なり の regret を達成可能
≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩≞≆≩
≤ ≄≩≮≦∨ ≞≆≩∻ ⊹∩
≤≤∽∲≥∫ ∱
≤ ⊷ ∴
≤ ≡
≄≩≮≦∨ ≞≆≩∻ ⊹∩≤ ⊸ ∲
≞≆≩ ∲ ≆∨⊡∱∻∱≝
≤ ∽ ∱ ≏∨≬≯≧ ≮∩
36
まとめ
• 多腕バンディット問題における漸近最適戦略を紹介
– パラメータ空間の次元数・コンパクト性に応じて性能解析の
難しさが異なる
• 有界サポートモデルと全く同じ戦略により半有界サポートモデル
でも理論限界を達成可能であることを説明
– 2次以上のモーメントを用いることにより漸近最適ではなくとも
の regret は達成可能≏∨≬≯≧ ≮∩
37
数値例 1• , ベータ分布
台1 台2 台3 台4 台5
≋ ∽ ∵
38
数値例 1
• DMED では速やかに理論限界に収束
UCB2
UCB-tuned
漸近限界
DMED
期待値の損失
• , 紛らわしい分布の例
39
数値例 2
UCB2
UCB-tuned
漸近限界
DMED
≆∱∨∰∩ ∽ ∰∺∹∹∻ ≆∱∨∱∩ ∽ ∰∺∰∱∻ ⊹∱ ∽ ∰∺∰∱
≆∲∨∰∺∰∰∸∩ ∽ ∰∺∵∻ ≆∲∨∰∺∰∰∹∩ ∽ ∰∺∵∻ ⊹∲ ∽ ∰∺∰∰∸∵
≋ ∽ ∲