20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Unimodal Thompson Sampling for Graph–Structured Arms

ビッグデータ部田口正一


自己紹介

名前：田口正一

所属：R-tech ビッグデータ部ビジネスコンサルティングGr

趣味：ポケモン、ポケモンGo、筋トレ(ゆるふわ勢)


目次

概要

背景

前提

提案手法

Regret

テスト設計・結果

Appendix


概要

タイトル

– Unimodal Thompson Sampling for Graph–Structured Arms

– Multi-Armed Banditアルゴリズムにおける手法提案

著者

– Polytechnic University of Milanの人たち（イタリア最大の技術系大学、Ph.D.1人＋助手1人+助教2人。

結果

– 腕が1000以下のケースにおいて、Thompson Sampling、先行研究よりもRegretベースで10%以上の改善


概要

手法

– 腕がUnimodal設定のケースにおいてThompson Sampling(以下TS)+グラフでRegret最適化を目指す

• ベイジアン＋Unimodal Multi Armed Bandit問題(以下UMAB)＋グラフ理論はこれが初の論文（著者曰く）

• グラフのノードが腕、エッジが腕間の関係に該当• 仮定)最適腕にたどり着くパスが必ず存在する

• 仮定)ノードの移動をする際は期待値が減少しない


背景

先行研究(グラフ理論＋UMAB問題)

– GLSE(Jia and Mannor, 2011)

• 概要：時間経過とともに、腕のサンプリング範囲を狭めていく

• 最適Regret：O(√Tlog(T))

– OSUB(KLUCBの改良版、 Combes and Proutiere 2014a)

• 概要：グラフを用いて探索を最適腕＋それと接続されたものに絞る、その後はKLUCB

• 最適Regret：O(log(T))

→特に腕が少ないとGLSEを凌駕

→UCBベースでなく、TSベースだったら良くなるんでない？


前提

グラフ（既存手法(OSUB論文)と同一）

– 無向グラフ

– G =(A, E)

– A={a1,...,aK}

– (ai,aj)∈E

– ノード、エッジの存在(接続)は既知だが、接続している中で最大期待値のノードへの接続がどれかは不明

– 論文中のグラフは1959年の論文,”On Random Graphs Ⅰ” (ERDOS&RENYI)を使って作成(確率pでエッジが存在)

BA

E

GF

DC

エッジの存在は既知、内容は不明

ノードが各armに該当


前提

選択と報酬

– 制限時間：T

– 時刻tにおいて、腕a[i]を選択、報酬X[i,t]を観察

• 報酬は腕a[i]が持つ報酬の分布D[i]から抽出した1サンプル

• 腕iにおける期待値μ[i]:=E[Xi,t]

unimodality

– 最適腕が複数存在しない

– 最適腕(=最も期待報酬の高い腕)をa[i∗]と仮定

• μ[i∗]=max(μ[i])

• 以降は μ[i∗]をμ[∗.]と記述


前提

ノード

– 最適腕以外の腕(a[i ≠*])について、有限回数の移動で最適腕にたどり着けるパス、Pが存在する

– 期待報酬を下げずに、最適腕にたどり着けるパスがある

→Local optimaにはまらない

隣接腕

– 腕a[i]に隣接する腕をN[i]とする

– 腕j(複数)がエッジ(a[i]a[j])で接続

– 重要なのは最適腕の隣接腕に探索範囲が限定される点

• もし期待報酬の低い腕が隣接しているケースでも隣接腕＋時刻tの最適腕だけでTSをかけるので、期待値の低い腕は引かれづらい


提案手法

Unimodal Thompson sampling

→Regret計算簡便のために設定


提案手法


G(グラフ),T(制限時間),π(事前分布)を入れる

全腕で時刻Tまでの期待報酬を計算

通算報酬最大の腕(最適腕)を特定最適腕としての被選択回数 /( 接続ノード数+1)

最適腕をプレイ

最適腕+隣接腕でθだけサンプリング

報酬が最大になる腕をプレイ


提案手法


時刻tまでの累積報酬

時刻tまでにプレイされた回数

最適腕として選定された腕＋ノードで接続されている数

時刻tまでに最適腕として選定された回数

通常のトンプソンサンプリングにおける

報酬分布


提案手法

実際の動き（例）

– 前提

• Eがoptimal、期待報酬はE>C>B

– 挙動

• Eをリーダーとして選択→範囲を適切に絞ったTS、OK

• Cをリーダーとして選択→B,C,EでTS、Eの期待値の方がCより高いので、いずれEがリーダーとして選択される

• Bをリーダーとして選択→A,B,C,DでTS、いずれCがリーダーとして選択される。理由は同上

→Optimal Armに向かっての滝登り

BA

E

GF

DC


Regret

UTSのRegret

– ε = 腕の数K + 期待報酬{μ[1]…μ[K]}

– C > 0 = εに応じて決まる切片項

• ざっくり証明はAppendixをどうぞ

• 詳細は原典をどうぞ


テスト設計

グラフセッティング

– G =(A, E)

– A={a1,...,aK}

– (ai,aj)∈E

• (ai,aj)は確率pで発生させる

– K∈{5, 10, 20, 50, 100, 1000}

– p∈{1, 0.5, log(K)/K, l}

• p=1はノードが全結合されている状態、グラフの意味をなくしたケース(=通常のTSに一致)

• pの値を変えた時のUTSの挙動を確認するため

※pがどのケースにおいても、前提となる接続がうまくいっていないケースが存在する可能性がある

→いくつかグラフを作成、うまく接続されたものを用意

（著者談）


テスト設計

報酬

– 腕からの報酬はベルヌーイ分布に従う

– 最適腕の期待報酬は0.9

– 最適腕以外からの期待報酬は最適腕からの距離に比例して少なくなる

– d(i*)を腕a(i)から最適腕への最短パスだとする

– 最も遠くにいる腕を

• max(d*) = max(d(i*)) i ∈{1…k}

– としたとき、腕a(i)の期待値を

• μ(i) = 0.9 – d(i*)*(0.9-0.1)/ max(d*)

– とする

– max(d*)を持つ腕は期待報酬の値として0.1を持ち、その他腕は最適腕からの距離に応じて0.1~0.9の値をとる


テスト設計

その他

– T = 10**5

– K(腕の数)、p(腕間の接続確率)ごとに10個のグラフを使う

– グラフごとの試行回数は100

– regretは10グラフの平均


テスト結果

①

①：p=1のケース全て→TSとUTS、KLUCBとOSUBはほぼ同様の性能→全てのノードが繋がっており、グラフを使う意味がない→UTSの5,6行目(mod部分)があるおかげで、少しだけ性能はいい

②:腕の数が~20程度のケース→OSUBと比較して、TSの方が優れていると言える※TS、KLUCBのケースはpを減らす理由がないので、p=1だけを比較対象とするのが妥当→腕が少ないとグラフの利点を出しづらい

③：p=l(団子のように直線的に接続)かつKが多いケース

→OSUBと同等の性能→腕の数がさらに多いケースだと、優位性がなくなると想定される

→別途調査

③

regret

②


テスト結果

①：p=1のケース全て→TSとUTS、KLUCBとOSUBはほぼ同様の性能→全てのノードが繋がっており、グラフを使う意味がない

②-1:腕、ノードの接続数が少ないケース→TS系の手法がKLUCBベースの手法より優れている

②-2:腕、ノードの接続数が少ないケース→腕の数が10を超えるとRegretはOSUB＜TS

感想)→腕が少ないと素直にTSで良さそう→K=20〜でグラフを使う意味がありそう

①K=5,p=1

②-1K=5,p=log(K)/K ②-2 K=20,p=log(K)/K


テスト結果

p=l、K=1000だとOSUBに対するUTSの優位性が消える– 追加調査を実施(グラフなし)

• p=l,K=17,最大期待報酬を0.108,腕ごとに0.001の期待報酬の刻み

• p=l,K=129,最大期待報酬を0.165 ,腕ごとに0.001の期待報酬の刻み

→T=10**5だとOSUBに軍配、T=10**7だとUTSに軍配

→ただしRegretを示すグラフがTに到達するまで何度も交差している

→UTSの優位性低し

– さらに追加調査)

※以降本文中では数行でさらりと触れられているだけなので情報少

• 腕ごと期待報酬の刻みを{0.001,0.002,0.005}としたケース

→刻み幅が減るほどOSUBの方がいい

– さらに追加調査)

• p=c/Kとしたケース(c=5,10)

→UTSの方がいい

– p=lかつ腕ごと報酬の差分が少ないとUTSはOSUBと比較して悪化する


まとめ

腕が一定以上、一定以下(20~1000)であり

Unimodal構造を仮定でき

Multi Play Banditでなく

腕、報酬についてstaticな環境であり

グラフ構造を考慮(p != l)でき

腕間の報酬の差が大きいほど

<UTSで幸せになれそう>


Appendix:Regretの証明

証明(の一部)

– R[T](UTS) = R1 + R2

– R1 = リーダーに最適腕を選んだケースのRegret

– R2 = リーダーに最適腕以外を選んだケースのRegret



続き(R1)

– R1のRegretはTS＋探索範囲を接続腕に絞ったものと同等

= TSのRegretよりも小さくなる

– TSのRegretは既出の論文(※)にて提示されている

– C1はεに応じて決まる切片

• εは最適腕に接続されている腕だけで構成される

※Thompson sampling: An asymptotically optimal finite-time analysis(2012)



続き(R2)

– R2をRi1とRi2に分解 sub-optimal armをリーダーとしたケースのRegret

接続腕jを含めた中で、最も期待報酬の高い腕

最適腕を選択しなかったことによる期待損失



続き(Ri1)

ヘフディングの不等式

リーダーが引かれる最低限の回数



続き(Ri2)

TSを有限の腕{a(i)}、最適腕a(i’)に対して実施する時、

が満たされれば b ∈(0,1), Cb =< inf. が存在

TSによって最適腕が弾かれる回数 <= t**b



R1,Ri1,Ri2を全て足し合わせる

20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms

Data & Analytics