Top Banner
PRML 読読読読 14 読 10.7 2010/5/8 twitter:ruto5
20

Prml14th 10.7

Jul 27, 2015

Download

Technology

ruto5
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Prml14th 10.7

PRML 読書会第 14 回10.7

2010/5/8twitter:ruto5

Page 2: Prml14th 10.7

目次

10.7 EP 法・・・決定性の近似推論法 , ガウス分布による近似の方法の1つ         アルゴリズムの導出と説明、変分ベイズ法との違い10.7.1 雑音データ問題・・・観測データと雑音データの混合ガウス分布から平均を推定 10.7.2 グラフィカルモデルと EP 法・・・因子グラフを使って分解し EP 法を適用する

10章:解析的な近似

ロジスティック回帰モデルは、正確な積分ができないので何らかの近似を導入する

11 章:数値的な近似

Page 3: Prml14th 10.7

KL ダイバージェンス最小化変分ベイズの使い方とは逆 , かなり異なった性質の近似

を固定された確率分布とした時、をについて最小化する問題を考える

が指数型分布族とすると(2.194) から

q (𝐳 )=h (𝐳 )g (𝜼 ) exp {𝜼T𝐮 (𝐳 )}この時の KL ダイバージェンスはの関数として考えると

KL

に関する勾配を0とおいて−𝛻 ln g (𝜼 )=𝔼{ p (𝐳 ) }[𝐮 (𝐳 )]

(10.185)

(10.186)

𝔼 {q (𝐳 )} [𝐮 (𝐳 ) ]=𝔼 {p (𝐳 )}[𝐮 (𝐳 )]

モーメント一致法:ガウス分布の平均と分散にあわせて近似する手法

(10.187)

Page 4: Prml14th 10.7

近似推論アルゴリズム導出

f 0 (𝜃 )=p(𝜃)

各因子がノードの持つ条件付き分布になっている場合

無効グラフで因子がクリークのポテンシャルになっている場合

p (𝒟 ,𝜽 )=∏i

f i(𝜽)f n (𝜃 )=p(x n∨𝜃)

データと隠れ変数の同時分布は因子の積の形で書ける

f n (𝜽 )=p (𝐱n∨𝜽)因子

事前分布に対応する因子

一般的には

(10.188)

Page 5: Prml14th 10.7

モデル比較予測を行うために事後分布や比較を行うためにモデルエビデンスが必要

事後分布

p (𝜽|𝒟 )= 1p (𝒟 ) ∏i f i(𝜽)

モデルエビデンス

p (𝒟)= ∫∏i

f i (𝜽 )d𝜽

上の式で与えられた隠れ変数に対する周辺化、予測のための事後分布に対する周辺化を厳密に行うのは不可能

何らかの近似が必要

(10.188) から以下の2式が与えられる

離散変数の場合は積分を和に置き換えれば OK

EP 法は、事後分布を同じように因子の積として与える近似に基づいている

(10.189)

Page 6: Prml14th 10.7

因子の積として与える近似

近似式

q (𝜽 )= 1Z∏i

~f i (𝜽 )

KL ¿この式は真の事後分布に関する平均操作を含むため、最小化は不可能

近似の各因子は、真の事後分布 (10.189) の因子の1つに対応

因子を指数型分布と仮定した場合、因子の積も指数型分布になり有限個の十分統計量を使って表すことができる

真の事後分布と近似分布の KL ダイバージェンスを最小化して求めたい

Page 7: Prml14th 10.7

近似精度粗い近似だけど、対応する因子のペアとの間の KL ダイバージェンスならできる

利点:簡単に解ける    アルゴリズムが繰り返しを使わない←モンテカルロ法みたいなイメージ欠点:各因子が独立に近似されるため、それらの積は近似精度落ちる

EP 法なら 各因子の最適化を、他の因子による近似すべてを条件として順番に行って 最適化するので、近似精度悪くならないのでは?

最初に各因子を初期化した後、各因子を巡回して、1つずつ近似を改良していく

Q. 因子をパラメータにするのか? そうではない。因子の数はモデルに依存するQ. 繰り返しはどういう方法? 因子 or パラメータ、データ点ではない分解できないものは変分ベイズ、分解するのは EP

十分統計量はパラメータを持たなくて良い

Page 8: Prml14th 10.7

改良した因子の決め方今、因子を改良したいとする

この因子を全体の積から取り除き、を得る

概念全体の積

ができるだけ

に近くなるように、改良した因子を決めることにする

ここでであるようなは、すべて固定したまま

この方法は、近似が残りの因子によって定まる高い確率の領域で、最も正確になることを保証している

この効果の例は「雑音データ問題」に適用する時に説明 (10.7.1)

(10.193)

Page 9: Prml14th 10.7

KL 最小化

最初に因子を現在の近似事後分布から除く正規化されていない分布を得る

除算したほうが簡単因子を掛けると以下の分布が得られる

ここでは正規化定数

KL ( f j (𝜽 )q j (𝜽 )Z j

qnew(𝜽 ))を最小化することで求められる

指数型分布族だから簡単に解ける

(10.196)

(10.195)

(10.197)

Page 10: Prml14th 10.7

改良後の近似分布パラメータ

(10.187) の結果からののパラメータは、十分統計量の期待値を (10.196) の対応するモーメントと一致させることで得られるはず

例をガウス分布と選べば、は正規化されていない分布の平均∑はその共分散にとる

一般的には どんな指数型分布族の分布についても、正規化さえできれば必要な期待値は簡単に得られる

理由 十分統計量の期待値は (2.226) で与えれているように、正規化係数を微分すれば 求められる

Page 11: Prml14th 10.7

EP 法による近似の例

赤:ラプラス近似緑:変分近似青: EP 法

Page 12: Prml14th 10.7

K の導出

(10.193) から改良された因子は、を残りの因子で割ることで得られる

~f j (𝜽 )=K q

new (𝜽 )q j (𝜽 )

この式の導出に (10.195) を使用した

K=∫~f j (𝜽 )q¿ j (𝜽 )d𝜽 ここでが正規化されていることが前提

K の値はゼロ次のモーメントを一致させることで以下の式が得られる

∫~f j (𝜽 )q¿ j (𝜽 )d 𝜽=∫ f j (𝜽 )q¿ j (𝜽 )d 𝜃これと (10.197) を合わせると、であることがわかり、 (10.197) の積分を求めるとK の値が得られる

Page 13: Prml14th 10.7

実際の推定

実際の推定において 因子全体について数個のパスの更新を行って各因子を順に改良していく このとき 事後分布は (10.191) で近似 モデルエビデンスは (10.190) を用いる 因子をその近似で置き換えて近似されることになる

Page 14: Prml14th 10.7

EP 法アルゴリズム まとめp (𝒟 ,𝜽 )=∏

i

f i(𝜽)同時分布

近似事後分布 q (𝜽 )= 1Z∏i

~f i(𝜽) 同様にモデルエビデンスも近似する

Page 15: Prml14th 10.7

1. 近似因子をすべて初期化する

2. 事後分布の近似をとする

3. while 近似が収束するまで

(a) 改良したい因子を選ぶ

(b) を事後分布から除算して取り除く q¿ j (𝜃 )= q (𝜃 )~f j(𝜃)

(c) 事後分布を次の十分統計量と一致させる

正規化定数を計算する

~f j (𝜃 )=Z j

qnew (𝜃 )q¿ j (𝜃 )

(d)新しい因子を求めて保存する

Z j= ∫ q¿ j (𝜃 ) f j (𝜃 )d 𝜃

4. モデルエビデンスの近似を求める p (D )≃ ∫∏i

~f i (𝜃 )d 𝜃

Page 16: Prml14th 10.7

EP 法の長所と短所長所 短所

オンライン学習、バッチ学習に適しているADF はオンライン学習に適しているバッチ学習は ADF よりも EPが適している

更新が収束する保証なし

ロジスティックモデルの場合変分法やラプラス近似よりも良い※

混合モデルの場合、結果が良くない

※ロジスティックモデルは単峰型の代表として扱われているとのこと   Kuss and Rasmussen,2006 の論文に MCMC でサンプリングした結果に  近いことが書かれているとのこと

Page 17: Prml14th 10.7

10.7.1 例:雑音データ問題

背景雑音分布からの観測データから多次元ガウス分布の平均を推論したい

p (𝐱|𝜽 )=(1−w ) 𝒩 (𝐱|𝜽 ,𝐈 )∗w𝒩 (𝐱|𝟎 , a𝐈 ¿

p (𝜽 )=𝒩 (𝜽|𝟎 ,b 𝐈¿

p (𝒟 ,𝜽 )=p (𝜽 )∏n

p(𝐱𝒏∨𝜽) 正確な解を得るのは不可能

Page 18: Prml14th 10.7

特定の因子近似例

青:赤:緑:

改良

Page 19: Prml14th 10.7

性能比較

真の値からみた関係 モデルエビデンスからみ見た関係

事後分布から予測された平均値に対する誤差と浮動小数点演算数( FLOPS)

→FLOPS と誤差の関係図は、論文でよく見かけるらしい

Page 20: Prml14th 10.7

10.7.2 グラフィカルモデルと EP法