PRML 10章 近似推論法 10.3-10.7 なりひら 1
PRML 10章 近似推論法 10.3-10.7
なりひら
1
目次
• 10.3 変分線形回帰
• 10.4 指数分布族
• 10.5 局所変分推論法
• 10.6 変分ロジスティック回帰
• 10.7 EP法
2
10.3 変分線形回帰
• 3.3 ベイズ線形回帰をさらにベイズ拡張
– 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼
– 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼
–あとは、10.9式に当てはめゴリゴリ計算
–大事な性質 • 𝛼で周辺化された答えが求まる
• ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化 モデルエビデンスの最大化の近似ともいえる 過学習しにくい
3
10.4 指数分型布族
• 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族にならない 変分近似により指数型分布族になる
– 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける
– intensive var: 𝛉 データにより変化しない
– extensive var: 𝐙 データによりサイズが変わる
• E-step 十分統計量(2章)の期待値 E[𝐮(𝐱𝑛, 𝐳𝑛)]計算
• M-step パラメータの期待値E[𝛈𝑇]計算
4
10.4.1 変分メッセージパッシング
• グラフィカルモデルと変分ベイズの関連
– 𝑝 𝐱 = 𝑝 𝐱𝑖 𝑝𝑎𝑖)𝑖
• ノードxiは潜在変数でも観測変数でも良い
• 𝑞 𝐱 = 𝑞𝑖(x𝑖)𝑖 変分推定の枠組みだ
• しかも、paiはマルコフブランケット(8章)を考えると効率的に計算できる
5
10.5 局所的変分推論法
• 10.6への準備
– 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、
𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する
I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)
• 凸関数f(x)の下限関数(変分下限)の作り方 – 凸関数の下限は
𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、
𝑓 𝑥 = max𝜂
{𝜂𝑥 − 𝑔(𝜂)}
とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る
𝑔 𝜂 = max𝑥
{𝜂𝑥 − 𝑓 𝑥 }
6
10.6 変分ロジスティック回帰
• 10.6.1 - 10.6.2 ベイズ推定
–局所変分近似で積分可能に変形
• 10.6.3 変分ベイズでハイパーパラメータの推論
–局所変分近似と大局変分近似をMIX!
7
10.6.1 変分事後分布
• 本当は事後分布を求めたい
– 𝑝 𝑍 𝑋 =𝑝 𝑋 𝑍 𝑝(𝑍)
∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍
–分母の積分が困難
• 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから
• 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う
• 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 =ℎ 𝑋,𝜉 𝑝(𝑍)
∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍
8
10.6.2 変分パラメータの最適化
• 周辺尤度の下限の最大化
– 10.169式
• 解き方は2通り
– EM(wを潜在変数として)
–解析的に解く(積分可能な形に変換するために下限をとったはずなのでできる)
9
10.6.3 超パラメータの推論
• 10.172がすべて
–下限(大局変分近似)の下限(局所変分近似)の最大化
• 𝑤, 𝛼は従来通り10.9式を使う
• 𝜉は𝛼を積分消去すると10.6.2と同様になる
10
2.4 指数型分布族 復習
• 指数型分布族
–次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp(𝛈𝑇𝐮 𝐱 )
– 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈𝑇𝐮 𝐱 𝑑𝐱 = 1
–正規化係数の微分は十分統計量の期待値 (2.226)
−∇ ln 𝑔 𝛈 = E[𝐮(𝐱)]
11
10.7 EP法
• KLダイバージェンスの最小化(変分ベイズとの違い) – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝
pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞)
pを全体的に近似。単峰性の分布の近似に向いている
• 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑓𝑖(𝜃)𝑖
– 事後分布: 𝑝 𝜃 𝐷 =1
𝑝(𝐷) 𝑓𝑖(𝜃)𝑖
– 近似事後分布: 𝑞 𝜃 =1
𝑍 𝑓𝑖
(𝜃)𝑖
– 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考慮しているところがポイント
• 指数分布族の場合は十分統計量が一致すれば良い
12
10.7.1 雑音データ問題
• データの生成モデル – 新のデータ: 𝑁(𝐱|𝛉, 𝐈) – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈)
• 背景雑音が重みwで混じった混合分布
– 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的
• 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分布(10.211)。intractable
– 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛(𝜃)は指数二次関数で良い(10.213)
– あとは205,206,207に代入して更新式を求め、繰り返すだけ
13
10.7.2 グラフィカルモデルとEP法
• この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和アルゴリズムになる
• やるための式 – 注目する𝑍𝑗の周辺分布はKLの最小化に相当
• minq 𝐾𝐿(𝑝||𝑞) 𝑞𝑗∗ 𝐙𝑗 = ∫ 𝑝 𝐙 𝑑𝐙𝑖 = 𝑝(𝐙𝑗)𝑖≠𝑗
• 式(10.229)の𝑝 (𝐱)を使えば新しい𝑞∗(𝐱)が求まる – 𝑞𝑗
∗(𝐱𝑗) = 𝑝(𝐱𝑗) (10.230-233)であり、𝑞∗(𝐱) = 𝑞𝑗∗(𝐱𝑗)𝑗
• 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うようにする完全に分解した近似(10.237)
14