3.4 ベイズモデル比較 showyou(hatena, twitter:)
3.4 ベイズモデル比較
showyou(hatena, twitter:)
自己紹介● Twitter, hatena: showyou
● 横浜にある電機メーカーでソフトウェアの開発支援をしてます
● 大学:AI, 院:画像処理/アプリケーション● Python, C++, Javaは読めるけど・・● Twitterでha_maとかdonsukeとかyuka_とか作ってます
1章では過学習の問題と交差確認(cross-validation)による正則化パラメータの値の決定やモデルの選択法について述べた
ここではベイズの立場からモデル選択の問題を考える
● 最尤推定に関連した過学習
→モデルパラメータの値を点推定→周辺化することで回避
● モデル→確認データを用いることなく訓練データだけを使って直接比較できる
→すべての利用可能なデータを訓練用に使うことができ、交差確認による繰り返し学習を回避できる
→モデルの複雑さを決めるパラメータを複数導入でき、訓練課程の一部としてそれらの値を同時に決定することも出来る
例:関連ベクトルマシン(RVM)
p w∣=∏i=1
M
N wi∣0,ii
ベイズの立場からのモデル比較
モデル選択に関する不確かさを表すために確率を用い、確率の加法・乗法定理を使う
加法定理:
乗法定理:
pX =∑Y
p X ,Y
pX ,Y = pY∣X p X
条件:L個のモデル{Mi}(i=1,...L)を比較する場合
● モデルは観測されたD上の確率分布● モデルのどれかに従って生成されるが、どのモデ
ルかは分からない(多項式フィッティングの問題:分布は目標値tの集合上に定義,入力値の集合Xは既知/ Xとtの同時を定義するモデルもある)
● すべてのモデルの事前確率は等しい( p(M0), p(M1), … p(Mi)が等しい? )
訓練集合Dが与えられたとき、モデルの事後分布
p M i∣D∝ p M i p D∣M i−3.66
を評価
● p(D|M_i) はモデルエビデンスと呼ばれ、ベイズモデル比較で重要な働きをする(周辺尤度とも呼ばれる)
● p(D|Mi)/p(D|Mj)はベイズ因子と呼ばれる
● 一旦モデルの事後分布がわかれば、確率の加法・乗法定理より予測分布は
p t∣x , D=∑i=1
L
p t∣x ,M i , D p M i∣D−3.67
●これは混合分布の一種● 全体の予測分布が,個々のモデルの予測分布
p(t | x, Mi, D)の事後確率 p( Mi | D )に関する重み付き平均で得られる
p(t|x,D)=Σp(t, Mi | x,D) 加法定理=Σp(t|x, Mi, D)p(Mi|x,D) 乗法定理
例:2つのモデルの事後確率が等しく 一方はt=a近傍, 他方はt=b近傍を表す分布を予測する場合、全体の予測分布はt = a と t = b の二箇所にモードを持つ2山の分布
● モデル平均の単純な近似は、一番もっともらしいモデルを1つ選ぶ方法である
● これはモデル選択と呼ばれる● パラメータwを持つモデルに対して、モデルエ
ビデンスは
モデル選択
p D∣M i=∫ p D∣w ,M i p w∣M idw−3.68
p D∣M i=∫ p D ,w∣M idw 加法定理
それと乗法定理
● 標本化の観点から、周辺尤度(=モデルエビデンス)はパラメータを事前分布からランダムにサンプリングされた時に、手元にあるデータ集合Dが生成される確率
● モデルエビデンスはパラメータの事後確率を計算するときの分母に現れる正規化定数そのもの
つまりp w∣D ,M i=
p D∣w ,M i p w∣M ip D∣M i
−3.69
p D∣M i=∫ p D∣w ,M i p w∣M idw−3.68
● パラメータが一つしかないモデル(w)を考える● ベイズの定理よりパラメータに関する事後分布は
p(D|w)p(w)に比例 (Miは省略)
● 事後分布が最頻値(モード) wMAP の近傍で鋭く尖ってるとき、その幅をΔwposteriorで表せば、全体の積分は幅Δwposteriorと最大値の積で近似できる
モデルエビデンスの別の解釈
● さらに事前確率が平坦で幅がΔwprior( p(w) = 1/Δwprior)のとき
p D=∫ p D∣w p wdw≃ p D∣wMAPw posterior
w prior
−3.70
対数をとると
ln p D≃ln p D∣wMAPln w posterior
w prior −3.71
● 第1項p(D|wmap):一番もっともらしいパラメータ値によるデータへのフィッティング度● 事前分布が平坦なときの対数尤度
● 第2項:モデルの複雑さに対するペナルティ
ln p D≃ln p D∣wMAPln w posterior
w prior
●Δwposterior<Δwprior なので第2項は負●Δwposterior/Δwpriorが小さくなるにつれ第2項は小さくなる●モデルがデータに強くフィットするとペナルティは0に近づく
● モデルがM個のパラメータを含むとき、それぞれのパラメータに対し同様の近似が行える
● すべてのパラメータが同じ比Δwposterior/Δwprior
を持つとき
が得られる● すなわちモデルの適応パラメータ数Mが増える
と複雑なモデルに対するペナルティが強くなる
ln p D=ln p D∣wMAPM ln w posterior
w prior−3.72
● モデルの複雑さを増したとき● 第1項:モデルはデータにフィットしやすくなるた
め増加(0に近づく)
● 第2項:Mとの依存性のために減少(負)
● エビデンスを最大にする最適なモデルの複雑さ→相反する項をバランスよく小さくする
ベイズモデル比較の更なる解釈、及びなぜ周辺尤度最大化により中間程度の複雑さのモデルが選ばれるか
● 単純なモデルM1は自由度が少なく、分布p(D)は横軸の狭い領域に集中する
● 複雑なモデルM3は多様なデータを生成することができp(D)は広範囲に広がるが、データ集合のどれかに割り当てられる確率は小さくなる
ある集合D0に対しては中間の複雑さを持つモデル(この場合だとM2)のエビデンスが最大になる
期待ベイズ因子
● ベイズモデル比較では考えてるモデル集合の中にデータが生成される真の分布が含まれていると暗に仮定● この仮定が正しければベイズモデル比較によって平均的
に正しいモデルを示す事ができる
期待ベイズ因子● 2つのモデルM1, M2 (M1が正しい分布と仮定)
● ベイズ因子をデータ集合の分布に関して平均→期待ベイズ因子が得られる(期待値は真のデータ分布の生成に関して取得)
∫ p D∣M 1 lnp D∣M 1p D∣M 2
dD−3.73
● KLの例(-とln逆にすれば(1.113))
● 二つの分布が等しい時に0、それ以外は常に正
● 平均的には常に正しいモデルのベイズ因子の方が大
● ベイズの枠組み:過学習を回避できると共に訓練データだけに基づいてモデル比較が行える
● ベイズ的なアプローチではモデルの形に関する仮定を置く必要→正しくない場合:誤った結果を導くことがある
● モデルエビデンスは事前分布の様々な特性に強く依存● 変則事前分布:任意のスケーリング因子を持ち正規化定
数が定義できないためエビデンスを定義できない● まず変則的でない通常の事前分布→適当な極限● 二つのモデルのエビデンスの比を先に考えその後極限を
とることで意味ある値が取れることもある
● 実際の応用場面ではテスト用独立なデータ集合をとっておき、それを用いて最終的なシステムの全体性能を評価するのが賢明