Asymptotically optimal policies in multiarmed bandit problems

1

多腕バンディット問題における漸近最適戦略について

本多淳也

東京大学新領域創成科学研究科

山本-國廣研究室

数理助教の会 7/26

2

多腕バンディット問題• 台のスロットマシンをプレイするギャンブラーのモデル

• 単位時間毎にいずれかのマシン１台をプレイ

• 得られる報酬の確率分布は台によって異なる

目標：

• 有限回数のプレイで報酬をなるべく大きくしたい

• 期待値最大の台を高確率で判別したい

問題：

・ある程度の回数プレイしないと台の良し悪しが分からない

・報酬の期待値の低い台を何度もプレイすると損

⊢⊢⊢

≋

3

応用例

• Web 上の広告表示

– 「まだデータが少なく購入率が未知の商品」と

「今のところ購入率がそれなりに高い商品」の選択

• 囲碁などのゲーム木探索

– 「あまり良くなさそうだけど深くは読んでいない手」と

「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む？

• ネットワーク上に複数のパスがあるときに

どのパスを使えば通信時間を最小にできるか？

強化学習の一般的なテーマ：探索(exploration)と活用(exploitation)を

どうバランスさせるか？

4

問題の定式化：確率分布の集合（既知）

：台からの報酬の確率分布（未知）

：台の期待値 ( ：の期待値)

：最大の期待値

：プレイ目までで台を選んだ回数

≆≩ ∲ ≆

≆

≩

≩

⊹⊤ ∽ ≭≡≸≩ ⊹≩

≔≩∨≮∩ ≮ ≩

目標：

期待値最大でない台のを小さくすることで

regret を最小化したい≘

≩

∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩

≔≩∨≮∩

⊹≩ ∽ ≅∨≆≩∩

≩

≅∨≆ ∩ ≆

5

理論限界の準備

• ある戦略が consistent

任意のベストでない台で

• あまり厳しい正則条件ではない

( となる戦略は比較的容易に構成可)

• :

– 分布が期待値以上の分布と

どれくらい紛らわしいか

≩

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≩≮≦≇∲≆ ∺≅∨≇∩∾⊹

≄∨≆≫≇∩

⊹

KL divergence

≆

≇⊹

≆

≄≩≮≦∨≆∻ ⊹∻≆∩

≆

∬ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮⊮∩∻ ∸⊮ ∾ ∰

≅≛≔≩∨≮∩≝ ∽ ≏∨≬≯≧ ≮∩

6

理論限界

• Lai and Robbins (1985) が１次元パラメーターのモデルで導出

• Burnetas and Katehakis (1996) が一般モデルへ拡張

• 期待値最大でない台をプレイしてしまう回数の下限：

• 分布が期待値以上の分布とどの程度紛らわしいかで

プレイ回数の下限が決まる

≩

≅≛≔≩∨≮∩≝ ⊸∱⊡ ≯∨∱∩

≄≩≮≦∨≆≩∻ ⊹⊤∻≆∩≬≯≧ ≮

≆≩ ⊹⊤

7

先行研究

• UCB (Upper Confidence Bound) 戦略

(Lai & Robbins (1985), Auer et al (2002), ……)：

– 有意水準で大きく見積もった各台の期待値 (UCB 値) が

最大となる台をプレイ

• DMED (Deterministic Minimum Empirical Divergence) 戦略

(Honda & Takemura (2010)):

– 期待値ベストである尤度が以上の台をプレイ

• Thompson Sampling (Thompson (1933)):

– 期待値ベストな台の事後確率にしたがって台をランダムに選択

∱∽≮

∱∽≮

8

先行研究の比較

計算量性能解析の容易さ

漸近最適性の示されたモデルの例

UCB △ ○ ○有限サポートモデル

指数型分布族（１変数）

DMED ◎ △ ◎有限サポートモデル有界サポートモデル

Thompson

Sampling

○（ただし事後分布の計算が必要）

◎ △ ベルヌーイ分布

• の項の漸近的な性能ではどの戦略も同等（予想）≏∨≬≯≧ ≮∩

9

理論限界を達成可能なモデル

• コンパクトなモデル以外で最適性が示されているのは限定的

コンパクト非コンパクト

１パラメータ ○ベルヌーイ分布

○指数型分布族の一部（平均が十分統計量）

[GC11]

？ワイブル分布

複数パラメータ○有限サポートモデル

[BK96]

？正規分布（平均・分散未知）

無限パラメータ○有界サポートモデル

[HT10]半有界サポートモデル

10

DMED 戦略

• 理論限界：

• DMED 戦略：次の条件を満たす台をプレイ

標本分布

≅≛≔≩∨≮∩≝ ∦≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾⊹⊤

≄∨≆≩≫≇∩

≔≩∨≮∩ ⊷≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾≞⊹⊤

≄∨ ≞≆≩≫≇∩

≭≡≸≇∺≅∨≇∩∾≞⊹⊤

≥≸≰∨⊡≔≩∨≮∩≄∨ ≞≆≩≫≇∩∩ ⊸∱

≮

∬期待値以上である尤度≞⊹⊤

11

DMED 戦略における計算

• DMED では試行ごとに次の計算が必要

(分散既知の正規分布の集合) の場合：

( [0,1] 上の分布全体の集合) の場合：

• 一方 UCB ではを計算

≄≩≮≦∨ ≞≆≩∻ ≞⊹⊤∻≆∩ ∽ ≩≮≦

≇∲≆ ∺≅∨≇∩∾⊹⊤≄∨ ≞≆≩≫≇∩

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱ ⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆ ∽ ≆≛∰∻∱≝ ∽

≆ ∽ ≎ ∨⊵∻ ⊾∲∰∩ ∽

≳≵≰≇∲≆ ∺≄∨ ≞≆≩≫≇∩∼

≬≯≧≮≔≩∨≮∩

≅∨≇∩

≄≩≮≦∨⊵∻ ⊹∻≆∩ ∽∨⊹⊡ ⊵∩∲∫

∲⊾∲∰

• とりあえずの場合を考えれば OK

– ケース１：いずれも概ね収束 (寄与 )

– ケース２：は収束・台１が偶然悪い性能 (寄与 )

12

評価の方針

≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲

≏∨≬≯≧ ≮∩

≏∨∱∩

≞≆∱∻ ≞≆∲

≞≆∲

≆∱

≆⊹∲

≆∲

≆∱

⊹∲

≆∲

≆∱

⊹∲

≆∲

ケース１ケース２その他

≆

• 低確率でのみ発生する事象の確率を評価する理論

• Sanov の定理：任意の(Lévy距離のもとでの)閉集合に対して

• 分布があたかも分布であるかのように振る舞う確率は

概ね程度

からのサンプル個の経験分布

13

評価の道具：大偏差原理

≬≩≭ ≳≵≰≴∡∱

∱

≴≬≯≧≐≆ ≛ ≞≆≴ ∲ ≃≝ ⊷ ⊡ ≩≮≦

≇∲≃≄∨≇≫≆ ∩

≃

≴≆

≆ ≇

≥≸≰∨⊡≴≄∨≇≫≆ ∩∩

待ち時間の評価 (１パラメータの場合)

台１からのサンプル数がの場合：

• 推定値がとなる確率は高々

• この場合の次のプレイまでの待ち時間は

– 平均待ち時間への寄与は

≔∱∨≮∩ ∽ ≴

≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩

≥≸≰∨≴≄∨⊵≫⊵∲∩∩

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

14

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≞⊵∱ ⊼ ⊵


• 推定値がとなることによる待ち時間への寄与は

• 大抵のモデルでは

となるようなが存在

– 例：分散既知の正規分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

15

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≡⊹∱∻⊹∲ ∽∨⊹∱ ⊡ ⊹∲∩∲

∲⊾∲∰

≢⊹∱∻⊹∲ ∽⊹∱ ⊡ ⊹∲⊾∲∰

≞⊵∱ ⊼ ⊵





– 例：ラプラス分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

16

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≞⊵∱ ⊼ ⊵

≡⊹∱∻⊹∲ ∽ ≥⊹∱⊡⊹∲ ∫ ∨⊹∱ ⊡ ⊹∲∩⊡ ∱

≢⊹∱∻⊹∲ ∽ ∱⊡ ≥⊡∨⊹∱⊡⊹∲∩





• 全体の待ち時間は

• サンプル数について和をとっても

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

17

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

⊵ ⊷ ⊵∲≚ ⊵∲

⊡∱≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽

≥⊡≴≡

≢

≴ ≏∨∱∩

≞⊵∱ ⊼ ⊵

18

コンパクトなモデルの場合

• 標本分布がとなる確率は高々≞≆∱ ⊼ ≆

≆

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩

≆∱

≆

≆∱

⊹∲

≄∨≆≫≆∱∩

19


• 標本分布がとなる確率は高々≞≆∱ ⊼ ≆

≆

≆∱

≆

≄≩≮≦∨≆∻ ⊹∱∩

≆∱

⊹∲

⊹∱

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

20


• 標本分布がとなる確率は高々

• 次に台１がプレイされるまでの待ち時間は

≞≆∱ ⊼ ≆

≆

≆⊹∲

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

21




• 期待値への寄与は

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

≆

22





≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡

≆

23





• 領域全体での期待値は ⊹∲

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

≆≭∨≆ ∻ ⊲∩ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

24

複数パラメータ・非コンパクトの場合

• スケールパラメータのようなものがある場合

となるケースが多い

– 例：正規分布（分散未知）の場合

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≆

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊹∻ ⊾∲∩∻ ⊹∱∩ ∽

∱

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

⊴

25

有界サポートモデルの拡張

• 上の分布モデルに対して DMED 戦略は漸近最適

• 実は任意のに対して

（⇒分布のサポートの下限は知らなくてもOK）

• 半有界サポートモデルに対しても漸近最適か？

– 所要時間を最小化するようなケースでは自然なモデル

• 期待値ベストな確率分布の積率母関数が

（原点まわりで）存在すれば OK

≛≡∻ ∱≝ ≆≛≡∻∱≝

≡ ∲ ∨⊡∱∻ ∱∩

≄≩≮≦∨≆∻ ⊹∻≆≛≡∻∱≝∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆∨⊡∱∻∱≝

≅≆ ≛≥⊸≘ ≝

26

理論限界の計算

• は次のように定式化される

• 無限次元ベクトル空間上の変数・有限個の（線形）制約

– Partially-finite convex programming とよばれる

(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

⊶

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≚

≸≤≇∨≸∩ ∾ ⊹∺

27

理論限界の計算

• は次のように定式化される

• 今回の場合は実行可能領域が非コンパクト

• 上の線形関数が弱位相のもとで

非連続 (⇔ が有界な連続関数でない)

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

⊶

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≚

≸≤≇∨≸∩ ∾ ⊹∺

≸ ∺ ≇ ∷∡

≚

≸≤≇∨≸∩≆∨⊡∱∻∱≝

≸ ∺ ≸ ∷∡ ≸

28

今回の方法

• おそらく

だろうという予想は既に出来ているので

– 両辺それぞれでの裾の影響を評価

– 等式が成り立つ , が存在することを確認

という手順で証明可能

≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹

≄∨≆ ≫≇∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≇ ⊺

29

（再掲）期待値の評価

• スケールパラメータのようなものがある場合

となるケースが多い

– 例：正規分布（分散未知）の場合

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊵∻ ⊹∩∻ ⊹∱∩ ∽∱

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

⊴

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≄≩≮≦∨≆∻ ⊹∱∩

≆

≆∱

30

評価の改善

• 本当に知りたいのは

ではなく

•

(= 待ち時間が以上になる確率)

を直接評価すればよい

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≆

≄∨≆≫≆∱∩

≳≵≰≇∺≅∨≇∩⊸⊹∱

≐≇≛ ≞≆∱ ⊼ ≆ ≝ ≐≆∱ ≛≞≆∱ ⊼ ≆ ≝

≥≴≸

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

31

期待値の評価

• 標本平均に関する大偏差原理 (Cramér の定理) を用いると

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

∽ ≐≆∱

⊷

≭≡≸∰⊷⊺⊷ ∱∱⊡⊹∲

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸

⊸

∽ ≐≆∱

⊷

≓

∰⊷⊺⊷ ∱∱⊡⊹∲

≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸≧

⊸

∮ ≐≆∱

⊷

≓

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡

≣≍≧

⊸

⊷≘

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧

≐≆∱

≨

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡≣≍

≩

⊷ ≣∰≴ ≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽ ∱ ∫ ≏∨ ⊹∱⊡⊹∲≖≡≲∨≆∱∩∩∺

32

待ち時間の評価

•

• また実際はの場合を評価すれば十分で，この場合は

と指数を保証できる

• 事象の寄与は高々

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≆

≄∨≆≫≆∱∩

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝ ∮ ≥≸≰∨⊡≴⊸⊤≸∩

≞⊹∱ ⊷ ⊹∲

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸∻ ≞⊹∱ ⊷ ⊹∲≝

∮ ≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧

≄≩≮≦∨ ≞≆∱∻ ⊹∲∩ ⊸ ≸

≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡ ∱∩≸∻ ⊤⊤∱ ⊡ ≸≧∩

⊷ ≥≸≰∨⊡≴∨≡∫ ≢≸∩∩

のキュムラント母関数の

Fenchel-Legendre 変換

≆∱

33

計算の簡略化について

• DMED で必要な計算：

– 目的関数の計算量は

• 有界サポートモデルの場合：

– の平均のみを既知とした場合のの下限は

– これを基準にすることでを

達成可能→KL-UCB (Garivier & Cappe, 2011)

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≞≆≩ ≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≭≩≮≆ ∺≅∨≆ ∩∽≞⊹≩

≄≩≮≦∨≆∻ ⊹∩ ∽ ≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩

≆≛∰∻∱≝

34


• DMED で必要な計算：

– 目的関数の計算量は

• 一般の有界サポートモデルの場合：

– スケール変換して KL-UCB を適用することで

を達成可能

– を保守的にとると bound が悪化・で無意味に

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩⊡≡∱⊡≡ ∩≫≂∨⊹⊤⊡≡∱⊡≡ ∩∩

≡ ≡∡ ⊡∱

≆≛≡∻∱≝

35


• 期待値のみを既知としたときを最小化するのは

がベルヌーイ分布のとき

• 一般に次までのモーメントを指定したときにを

最小化するのは個のサポートからなる離散分布

(Honda & Takemura, 2012)

– までは２次方程式の解の公式で計算可能

– 特にが偶数のときはサポート下限には一切依存しない

– 次までのモーメントを用いるとを

全てので非零値で抑えられる

– の場合と異なりの regret を達成可能

≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩≞≆≩

≤ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≤≤∽∲≥∫ ∱

≤ ⊷ ∴

≤ ≡

≄≩≮≦∨ ≞≆≩∻ ⊹∩≤ ⊸ ∲

≞≆≩ ∲ ≆∨⊡∱∻∱≝

≤ ∽ ∱ ≏∨≬≯≧ ≮∩

36

まとめ

• 多腕バンディット問題における漸近最適戦略を紹介

– パラメータ空間の次元数・コンパクト性に応じて性能解析の

難しさが異なる

• 有界サポートモデルと全く同じ戦略により半有界サポートモデル

でも理論限界を達成可能であることを説明

– ２次以上のモーメントを用いることにより漸近最適ではなくとも

の regret は達成可能≏∨≬≯≧ ≮∩

37

数値例 1• , ベータ分布

台1 台２台３台４台５

≋ ∽ ∵

38

数値例 1

• DMED では速やかに理論限界に収束

UCB2

UCB-tuned

漸近限界

DMED

期待値の損失

• , 紛らわしい分布の例

39

数値例 2

UCB2

UCB-tuned

漸近限界

DMED

≆∱∨∰∩ ∽ ∰∺∹∹∻ ≆∱∨∱∩ ∽ ∰∺∰∱∻ ⊹∱ ∽ ∰∺∰∱

≆∲∨∰∺∰∰∸∩ ∽ ∰∺∵∻ ≆∲∨∰∺∰∰∹∩ ∽ ∰∺∵∻ ⊹∲ ∽ ∰∺∰∰∸∵

≋ ∽ ∲

Asymptotically optimal policies in multiarmed bandit problems

Technology

dmed dmed

dmed ucb2 ucbtuned dmed

ucb dmed thompson sampling

dmed ok ok

ucb upper confidence

ucb garivier cappe

thompson sampling thompson

lai robbins