PRML chap.10 latter half

PRML 10章近似推論法 10.3-10.7

なりひら

1

目次

• 10.3 変分線形回帰

• 10.4 指数分布族

• 10.5 局所変分推論法

• 10.6 変分ロジスティック回帰

• 10.7 EP法

2

10.3 変分線形回帰

• 3.3 ベイズ線形回帰をさらにベイズ拡張

– 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼

– 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼

–あとは、10.9式に当てはめゴリゴリ計算

–大事な性質 • 𝛼で周辺化された答えが求まる

• ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化モデルエビデンスの最大化の近似ともいえる過学習しにくい

3

10.4 指数分型布族

• 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族にならない変分近似により指数型分布族になる

– 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける

– intensive var: 𝛉 データにより変化しない

– extensive var: 𝐙 データによりサイズが変わる

• E-step 十分統計量（2章）の期待値 E[𝐮(𝐱𝑛, 𝐳𝑛)]計算

• M-step パラメータの期待値E[𝛈𝑇]計算

4

10.4.1 変分メッセージパッシング

• グラフィカルモデルと変分ベイズの関連

– 𝑝 𝐱 = 𝑝 𝐱𝑖 𝑝𝑎𝑖)𝑖

• ノードxiは潜在変数でも観測変数でも良い

• 𝑞 𝐱 = 𝑞𝑖(x𝑖)𝑖 変分推定の枠組みだ

• しかも、paiはマルコフブランケット（8章）を考えると効率的に計算できる

5

10.5 局所的変分推論法

• 10.6への準備

– 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、

𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する

I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)

• 凸関数f(x)の下限関数（変分下限）の作り方 – 凸関数の下限は

𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、

𝑓 𝑥 = max𝜂

{𝜂𝑥 − 𝑔(𝜂)}

とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る

𝑔 𝜂 = max𝑥

{𝜂𝑥 − 𝑓 𝑥 }

6

10.6 変分ロジスティック回帰

• 10.6.1 - 10.6.2 ベイズ推定

–局所変分近似で積分可能に変形

• 10.6.3 変分ベイズでハイパーパラメータの推論

–局所変分近似と大局変分近似をMIX!

7

10.6.1 変分事後分布

• 本当は事後分布を求めたい

– 𝑝 𝑍 𝑋 =𝑝 𝑋 𝑍 𝑝(𝑍)

∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍

–分母の積分が困難

• 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから

• 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う

• 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 =ℎ 𝑋,𝜉 𝑝(𝑍)

∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍

8

10.6.2 変分パラメータの最適化

• 周辺尤度の下限の最大化

– 10.169式

• 解き方は2通り

– EM（wを潜在変数として）

–解析的に解く（積分可能な形に変換するために下限をとったはずなのでできる）

9

10.6.3 超パラメータの推論

• 10.172がすべて

–下限（大局変分近似）の下限（局所変分近似）の最大化

• 𝑤, 𝛼は従来通り10.9式を使う

• 𝜉は𝛼を積分消去すると10.6.2と同様になる

10

2.4 指数型分布族復習

• 指数型分布族

–次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp(𝛈𝑇𝐮 𝐱 )

– 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈𝑇𝐮 𝐱 𝑑𝐱 = 1

–正規化係数の微分は十分統計量の期待値 (2.226)

−∇ ln 𝑔 𝛈 = E[𝐮(𝐱)]

11

10.7 EP法

• KLダイバージェンスの最小化（変分ベイズとの違い） – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝

pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞)

pを全体的に近似。単峰性の分布の近似に向いている

• 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑓𝑖(𝜃)𝑖

– 事後分布: 𝑝 𝜃 𝐷 =1

𝑝(𝐷) 𝑓𝑖(𝜃)𝑖

– 近似事後分布: 𝑞 𝜃 =1

𝑍 𝑓𝑖

(𝜃)𝑖

– 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考慮しているところがポイント

• 指数分布族の場合は十分統計量が一致すれば良い

12

10.7.1 雑音データ問題

• データの生成モデル – 新のデータ： 𝑁(𝐱|𝛉, 𝐈) – 背景雑音：𝑁(𝐱|𝟎, 𝑎𝐈)

• 背景雑音が重みwで混じった混合分布

– 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的

• 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分布(10.211)。intractable

– 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛(𝜃)は指数二次関数で良い(10.213)

– あとは205,206,207に代入して更新式を求め、繰り返すだけ

13

10.7.2 グラフィカルモデルとEP法

• この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和アルゴリズムになる

• やるための式 – 注目する𝑍𝑗の周辺分布はKLの最小化に相当

• minq 𝐾𝐿(𝑝||𝑞) 𝑞𝑗∗ 𝐙𝑗 = ∫ 𝑝 𝐙 𝑑𝐙𝑖 = 𝑝(𝐙𝑗)𝑖≠𝑗

• 式(10.229)の𝑝 (𝐱)を使えば新しい𝑞∗(𝐱)が求まる – 𝑞𝑗

∗(𝐱𝑗) = 𝑝(𝐱𝑗) (10.230-233)であり、𝑞∗(𝐱) = 𝑞𝑗∗(𝐱𝑗)𝑗

• 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うようにする完全に分解した近似(10.237)

14

PRML chap.10 latter half

Education