Prml9

.

.

. ..

.

.

パターン認識と機械学習 9章

大岩秀和

東京大学修士一年

December 11, 2010

大岩秀和 (@kisa12012) パターン認識と機械学習 9章 December 11, 2010 1 / 120

9章:混合モデルと EM.

. .1 K-meansアルゴリズム概要画像分割と画像圧縮

.. .2 混合ガウス分布 (Mixture of Gaussians)

概要最尤推定混合ガウス分布の EMアルゴリズム

.. .3 EMアルゴリズムのもう一つの解釈

概要混合ガウス分布再訪K-meansとの関連混合ベルヌーイ分布ベイズ線形回帰に関する EMアルゴリズム

.. .4 一般の EMアルゴリズム

概要


混合モデル (Mixture Models)

観測変数と潜在変数の同時分布を定義すれば、周辺化によって複雑な観測変数だけの分布を表現することができる。このように、混合モデルを用いれば、単純な分布のみを組み合わせて複雑な分布を構成することが可能である。.具体的な混合モデルの例..

.

. ..

.

.

混合ガウス分布 (2.3.9節)離散潜在変数の観点で解釈可能 (9.2節)

連続値潜在変数 (12章)

混合モデルは、様々な分野に応用されているクラスタリング (K-means [Lloyd, 1982])データマイニング etc . . .


EM (Expectation-Maximization)

本章は EMアルゴリズムを理解するための章

K-meansアルゴリズム (9.1節)も混合ガウス分布に対する EMアルゴリズム (9.2節)も一般的な EMアルゴリズムの特殊系

一般の EMアルゴリズムについては 9.4節で議論するEMアルゴリズムは最尤推定値を求めるために使用される

ただし、最尤推定にはいくつかの重大な限界がある混合モデルに対する最尤推定の問題点を 9.2.1節で学ぶ変分推論法などのベイズ的枠組による解決法は 10章で(Bishop先生としては、10章に早く行きたいんだろうな . . . )


目次.







概要


目次.







概要


クラスタリング.クラスタリングの問題設定..

.

. ..

.

.

多次元空間上のデータ集合 {xk}について、各データ xk が属するグループまたはクラスターを同定したい

.データ集合..

.

. ..

.

.

D 次元ユークリッド空間上の確率変数 x ∈ ℜD の N 個の観測点{x1, . . . , xN}

.クラスタリングの目的..

.

. ..

.

.

データ集合 {xk}を K 個のクラスターに分割したい特に明記しない限り、クラスター数 K は既知とする

各クラスターは、データ間の距離が小さいデータのグループとみなすことが出来る。


クラスタリングの定式化

プロトタイプという概念を導入して、クラスタリング問題を数学的に定式化する.プロトタイプ..

.

. ..

.

.

K 個の D次元ユークリッド空間上のベクトル µk ∈ ℜD

{µ1, µ2, . . . , µK}

プロトタイプ µk はクラスター k の中心を表すものと解釈できる。.プロトタイプを用いて、クラスタリングの目的を再定義..

.

. ..

.

.

プロトタイプ {µk}と個々のデータ点 {xn}との対応を上手く定め、各データ点 {xn}と対応するプロトタイプ {µk}との間の二乗距離の総和を最小化したい


一対 K符号法 (1-of-K coding scheme)

各データ点 xn がどのプロトタイプ µk へ割り当てられているかを表す記号を定義すると便利→ 2値指示変数を導入。.2値指示変数..

.

. ..

.

.

各データ xn に対し、対応する 2値指示変数を定義rnk ∈ {0, 1} (k = 1, . . . ,K )

2値指示変数は、各データ点 xn がクラスター k に割り振られるとき、rnk = 1かつ j = k のとき rnk = 0となる値

このような定義を一対 K符号法 (1-of-K coding scheme)と呼ぶ


目的関数

次に、各データ点 {xn}と対応するプロトタイプ {µk}との間の二乗距離の総和で表される目的関数 J を定義する。.目的関数..

.

. ..

.

.

J =N

∑n=1

K

∑k=1

rnk∥xn − µk∥2 (1)

この目的関数は、歪み尺度 (distortion measure)とも呼ばれる。.クラスタリングの目的.... ..

.

.

J を最小にする {rnk}と {µk}の値を求めること

今回は、K-meansアルゴリズムを用いて最適解を求める


K-meansアルゴリズム

K-meansアルゴリズムとは、{rnk}と {µk}をそれぞれ最適化する 2種類のフェーズを交互に繰り返すアルゴリズム.K-meansアルゴリズムの流れ..

.

. ..

.

.

...1 {µk}を固定しつつ、{rnk}について J を最小化する

...2 {rnk}を固定しつつ、 {µk}について J を最小化する

...3 収束するまで 1,2を交互に繰り返す

上記の 2種類のステップは、後に説明する EMアルゴリズムのE(Expectation)ステップ [1]と M(Maximization)ステップ [2]に対応する。EステップとMステップをそれぞれ具体的に考察してみよう。


K-meansアルゴリズム:ステップ 1

ステップ 1では、rnk について目的関数 J を最小化する。

J =N

∑n=1

K

∑k=1

rnk∥xn − µk∥2

J は rnk について線形かつ異なる nを含む項は互いに独立。そのため、各データ xn について独立に ∥xn − µk∥2 が最小となる kで rnk = 1とすればよい。正確に更新式を記述すると、.ステップ 1の更新式..

.

. ..

.

.

rnk =

{1 k = arg minj ∥xn − µj∥2

0 otherwise(2)

上の更新式は、各データ点 xn を最も近いクラスター中心 µk に割り当て直す操作を行っている。


K-meansアルゴリズム：ステップ 2

次に、rnk を固定した下での µk の最適化を行う。目的関数 J を µk で偏微分した値を 0にすれば目的関数 J が最小化されるため、

∂J∂µk

= 2N

∑n=1

rnk (xn − µk ) = 0 (3)

µk について解くと、更新式が導出できる。.ステップ 2の更新式..

.

. ..

.

.

µk =∑n rnkxn

∑n rnk(4)

プロトタイプ µk をクラスター k に割り当てられたデータ点集合の平均値に移動させていると解釈できる→ K-meansアルゴリズム


(a)

−2 0 2

−2

0

2 (b)

−2 0 2

−2

0

2 (c)

−2 0 2

−2

0

2

(d)

−2 0 2

−2

0

2 (e)

−2 0 2

−2

0

2 (f)

−2 0 2

−2

0

2

(g)

−2 0 2

−2

0

2 (h)

−2 0 2

−2

0

2 (i)

−2 0 2

−2

0

2


目的関数 J のプロット

J

1 2 3 40

500

1000

今回の例では、わざと不適切な初期値を選んでいることに注意。


K-meansアルゴリズムの性質

収束するまで繰り返されるもしくは、あらかじめ定めた最大繰り返し数を超えるまで

各フェーズで J の値は前より大きくなることはないため、このアルゴリズムは収束性が保証されている [演習 9.1]

大域的極小点への収束は保証されていない [MacQueen,1967]初期値に結果が強く依存する [前図参照]K-means++等の手法でこの問題を緩和できる

そのままのアルゴリズムでは、比較的速度が遅い木構造を用いてデータ構造を予め計算する方法[Ramasubramanian+, 1990; Moore, 2000]三角不等式を用いて不必要な距離計算を避ける方法 [Hodgson,1998; Elkan, 2003]


K-meansアルゴリズムの改良系

今までは、全てのデータを一括して用いるバッチ版の K-meansアルゴリズムを考えてきた

オンライン版 K-meansを考えることが出来るオンライン確率的アルゴリズム [MacQueen, 1967]

(1)式に Robbins-Monro法を適用 (2.3.5節)各データ点 xn について順番に、最も近いプロトタイプ µk の値を更新

.オンライン確率的アルゴリズム..

.

. ..

.

.

µnewk = µold

k + ηn

(xn − µold

k

)(5)

ηn は学習率パラメータ。一般に nに対して単調減少。


K-medoidsアルゴリズム

K-meansアルゴリズムの問題点ユークリッド距離は、カテゴリカルなデータを扱いにくいクラスター平均 µk の値は外れ値 xn に対して過敏 (2.3.7節)

.K-medoidsアルゴリズム..

.

. ..

.

.

J =N

∑n=1

K

∑k=1

rnkV (xn, µk ) (6)

一般的な非類似度 V (x, x′)を導入Eステップは K-meansと同様Mステップは非類似度の計算が複雑になるために近似手法が取られることが多い

クラスター内の適当なデータ点 xn をプロトタイプ µk の座標として選択

計算量はO(KN) + O(N2k )

Nk：各クラスター k に所属するデータ点 xn の数大岩秀和 (@kisa12012) パターン認識と機械学習 9章 December 11, 2010 18 / 120

ハード割り当てとソフト割り当て

データ点のクラスターへの割り当て方は、以下の 2種類に分けられる。.ハード割り当て..

.

. ..

.

.

各データ点 xn を 1つのクラスター µk だけに割り当てる方法

.ソフト割り当て..

.

. ..

.

.

各データ点 xn を複数のクラスターに曖昧に割り当てる方法

K-meansアルゴリズムはハード割り当て

9.2節では、割り当ての不明瞭さの度合いを反映する確率的アプローチを考察する

ソフト割り当ては、複数のクラスター中心 µk の中間領域にあるようなデータ点 xn をうまく扱う手法の 1つ


目次.







概要


画像分割

.画像分割の目的..

.

. ..

.

.

1つの画像を、適度に同質な外見を持つ複数の領域あるいは物体や物体の部品に対応する複数の領域に分割すること [Forsyth+, 2003]

今回は K-meansによる画像分割の例を示す

ただし、K-meansアルゴリズムは異なる画素の空間的な近さを考慮に入れていないため、良い方法とは言えない

画像分割問題は一般的に大変難しく、今なお活発な研究対象である (らしい)


画像分割の例問題設定

画像の画素は 3次元空間の一点 (それぞれの次元は区間 [0,1])単純に画像の各画素を 1つのデータ点 xn として扱うクラスター中心 µk の画素のみを使って画像を書き換える

結果K = 2 K = 3 K = 10 Original image


データ圧縮.無歪みデータ圧縮 (lossless data compression)..

.

. ..

.

.

可逆データ圧縮とも呼ばれる

圧縮結果から元々のデータを完全に復元可能

.歪みのあるデータ圧縮 (lossy data compression)..

.

. ..

.

.

非可逆データ圧縮とも呼ばれる

復元にある程度のエラーが含まれてもよい

高レベルの圧縮率が可能

歪みのあるデータ圧縮の例としてベクトル量子化 (vectorquantization)と呼ばれる手法がある。

各データ点 xn をクラスター中心 µk の値で近似する手法クラスター中心 µk は符号長ベクトル (code-book vector)と呼ばれる


ベクトル量子化の例

画像を圧縮して人に送るケースを考える。原画像が、{R,G,B}各 8bitの N 個の画素を持つと仮定する。この時、画像全体のデータ量は 24Nbitになる。圧縮後は、各画素のインデックス (各データ点が割り当てられたクラスター番号)と、代表ベクトルの画素を送信する。代表ベクトルは K 個なので、1インデックスのデータ量は log2 K bit、代表ベクトルの画素データは 24K bit。したがって圧縮後のデータ量は、24K + N log2 K bitになる。———————–もしも良い画像圧縮器を作ることが目的ならば、近接画素ブロック中の相関を活用した圧縮法を用いるほうが良い。


目次.







概要


目次.







概要


潜在変数を用いた混合ガウス分布

2.3.9節では、単純なガウス分布の線形重ねあわせとして混合ガウス分布を導入した

本節では離散的潜在変数を用いて混合ガウス分布を定式化する

EMアルゴリズムを用いる意義を明確にするための一例とする

(2.188)式より、混合ガウス分布はガウス分布の下の式のように線形重ねあわせで記述できる。.混合ガウス分布..

.

. ..

.

.

p(x) =K

∑k=1

πkN (x|µk ,Σk ) (7)


潜在変数を含む別な表現へ

K 次元の 2値確率変数 zを導入1-of-K表記： zk ∈ {0, 1}かつ ∑k zk = 1を満たす

周辺分布 p(z)と条件付き分布 p(x|z)で同時分布 p(x, z)を定義下のグラフィカルモデルに対応した分布とする

Figure: 混合分布のグラフィカル表現

x

z


潜在変数を含む別な表現へ

潜在変数 zの周辺分布は混合係数 πk によって決まる。

p(zk = 1) = πk

ただし、パラメータ {πk}は確率であるので (8)(9)式を満たす。

0 ≤ πk ≤ 1 (8)

K

∑k=1

πk = 1 (9)

zの分布は、多項分布の形式で表すことも出来る。

p(z) =K

∏k=1

πzkk (10)


同様に、潜在変数 zの値が与えられた下での観測変数 xの条件付き分布は、次のガウス分布で表せる。

p(x|zk = 1) = N (x|µk ,Σk )

よって、観測変数の条件付き分布は (11)式のように書き換えられる。

p(x|z) =K

∏k=1

N (x|µk ,Σk )zk (11)

同時分布 p(x, z)は p(z)p(x|z)で与えられるので、

p(x) = ∑z

p(z)p(x|z) =K

∑k=1

πkN (x|µk ,Σk ) (12)

となる。(12)式は混合ガウス分布と同じ形になる。複数の観測データ {x1, . . . , xN}が与えられている場合は、各観測データ点 xn について対応する潜在変数 zn が存在することになる。


潜在変数導入の意義

以上より、陽に潜在変数を含む混合ガウス分布を表現することができた。.潜在変数を含む混合ガウス分布の利点..

.

. ..

.

.

同時分布 p(x, z)を扱った議論が可能

EMアルゴリズムを導入する際に著しい単純化が可能観測変数 xが与えられた下での潜在変数 zの条件付き確率p(z|x)を扱う事が可能

次に、この性質を考察する


観測変数 xが与えられた下での潜在変数 zの条件付き確率 γ(zk )を考える。γ(zk )はベイズの定理より得られる。

γ(zk ) ≡ p(zk = 1|x) = p(zk = 1)p(x|zk = 1)K

∑j=1

p(zj = 1)p(x|zj = 1)

=πkN (x|µk ,Σk )K

∑j=1

πjN (x|µj ,Σj)

(13)

πk は zk = 1となる事前確率、γ(zk )は観測変数 xを観測した後にzk = 1となる事後確率とみなせる。従って、γ(zk )は混合要素 k が xの観測を「説明する」度合いを表す負担率 (responsibility)と解釈できる（後に深く考察する）。


伝承サンプリング (ancestral sampling)

潜在変数を導入することによる利点を伝承サンプリングの例を挙げて解説する。

伝承サンプリングとは、混合ガウスモデルに従うランダムサンプル生成法 (8.1.2節)

混合ガウスモデルを用いて、伝承サンプリングを行うことが可能

.伝承サンプリングの手順..

.

. ..

.

.

...1 潜在変数 zの値 zを周辺分布 p(z)から生成

...2 観測変数 xの値を条件付き分布 p(x|z)から生成

このようにして、潜在変数を経由して観測変数をサンプリングする手法を伝承サンプリングと呼ぶ。標準分布からサンプリングする手法は 11章で議論する。


同時分布 p(x, z)からのサンプリング

(a)

0 0.5 1

0

0.5

1

同時分布 p(x, z)からサンプリングした場合潜在変数 zの値によって色分けされている

潜在変数と観測変数が同時に与えられているデータ集合を完全 (complete)データ集合と呼ぶ


周辺分布 p(x)からのサンプリング

(b)

0 0.5 1

0

0.5

1

周辺分布のみ p(x)からサンプリングしたケース同時分布からサンプルを採取して、zを無視することで得られる

観測変数のみの情報しか与えられないデータ集合を不完全 (incomplete)データ集合と呼ぶ


負担率 (responsibility)

各データ点 xn を観測後に、混合分布のどの要素 k からそのデータ点が発生したかを表す事後確率 p(zk |xn)を評価する（負担率）。

(c)

0 0.5 1

0

0.5

1

各データ xn の負担率を示した図対応する点を γ(znk ) ≡ p(zk = 1|xn)に比例した色でプロット


目次.







概要


今回の問題設定

潜在変数を導入した混合ガウス分布を用いて、観測したデータ集合{x1, . . . , xN}をモデル化する問題を考える。.Notation..

.

. ..

.

.

データ集合 X：第 n行を xTn とする N × D 行列

潜在変数 Z：第 n行を zTn とする N × K 行列

データ点 xn はこの分布からそれぞれ独立に生成される場合、データ集合の混合ガウスモデルは下図のグラフィカルモデルで表せる。

xn

zn

N

µ Σ

π


特異性問題この時、対数尤度関数 ln p(X|π, µ,Σ)は混合ガウス分布の式より

ln p(X|π, µ,Σ) =N

∑n=1

ln

{K

∑k=1

πkN (xn|µk ,Σk )

}(14)

しかし、混合ガウスモデルの最尤推定には特異性の存在に起因する重要な問題がある。議論の単純化のため、各混合要素の共分散行列を Σk = σ2

k Iと仮定する。この仮定を外しても議論の結論は変わらない。さらに、混合モデルの j 番目の混合要素の平均 µj がデータ点 xn と等しいと仮定する。つまり、µj = xn のとき、データ点 xn は尤度関数に次の式の形で寄与する。

N (xn|xn, σ2j I) =

1

(2π)12

1σj

(15)


σj → 0の極限で (15)式は無限大に発散するため、対数尤度関数ln p(X|π, µ,Σ)も無限大に発散する。したがって、対数尤度関数の最大化問題は不良設定問題になってしまう（このような特異性は必ず存在するため）。特異性問題は異なるデータ点を持つ場合、単一ガウス分布では発生しない。分布が 1点に潰れれば、他のデータ点に関数尤度関数の乗法因子に波及し、その因子は指数的に 0に収束し、全体の尤度も 0に収束するためである。しかし、混合ガウスモデルでは下図のような状態が起こり得る。

x

p(x)


このように特異性は最尤推定において深刻な過学習を引き起こす。.特異性問題の解決策..

.

. ..

.

.

ベイズアプローチ (10.1節)で解決可能ヒューリスティックで性質のよい局所解を求めることも可能

ガウス要素が潰れそうになったときは平均値をランダムな値に、分散を大きな値に設定しなおすなど

また、最尤推定には識別不可能性問題と呼ばれる問題も存在する。.識別不可能性..

.

. ..

.

.

任意の最尤解に対して、K 個の各混合要素の順番の入れ替えに対応して、同等な解が K !個存在する。このことから、パラメータ空間における任意の点について、それと等価な分布を示す K !− 1個の別な点が存在する。

識別不可能性は 12章で連続潜在変数を議論する際にも問題となる。ただし、良い密度モデルを得る目的に対しては影響はない。


最尤解が直接導出出来ない問題

混合ガウスモデルの最尤推定問題は、単一のガウスモデルの場合よりも難しい問題になる。


∑n=1

ln

{K

∑k=1

πkN (xn|µk ,Σk )

}

の式中に、K 個のガウス密度の要素の線形和が含まれるため、対数関数がガウス密度に直接作用しないことが問題となる。このことから、対数尤度の微分を 0とおいても陽な解は得られない。.解決策..

.

. ..

.

.

最適化手法 [Fletcher, 1987; Nocedal+, 1999; Bishop+, 2008]5章の混合密度ネットワーク等で論じた勾配法など

EMアルゴリズム10章の変分推定法の議論の基礎ともなる


目次.







概要


EMアルゴリズム

.EMアルゴリズム (expectation-maximization algorithm)..

.

. ..

.

.

潜在変数を持つモデルの最尤解を求める一つのエレガントかつ強力な方法 [Dempster+, 1977; McLachlan+, 1997]

本節では、混合ガウスモデルの文脈における大雑把な EMアルゴリズムの意義について説明する。後に、より一般的な EMアルゴリズム (9.3節)や変分推論法 (10.1節)の枠組みに拡張する。まず、対数尤度関数の最大点において各パラメータが満たすべき条件を導出してみよう。


∑n=1

ln

{K

∑k=1

πkN (xn|µk ,Σk )

}


ガウス要素の平均 µk の条件

はじめに、尤度関数の最大点において平均 µk が満たすべき条件を書き下す。対数尤度関数をガウス要素の平均 µk に関して微分して 0とおくと、

0 =∂

∂µk

(N

∑n=1

ln

{K

∑j=1

πjN (xn|µj ,Σj)

})

= −N

∑n=1

πkN (xn|µk ,Σk )

∑j πjN (xn|µj ,Σj)︸︷︷︸γ(znk )

Σ−1k (xn − µk ) (16)

事後確率 (負担率)が右辺に現れていることに注意。


Σk が非特異 (逆行列が存在)であれば、

µk =1

Nk

N

∑n=1

γ(znk )xn (17)

が導出される。ただし、

Nk =N

∑n=1

γ(znk ) (18)

Nk は各クラスター k に割り当てられる点の実質的な数と解釈可能である。従って、k 番目のガウス要素の平均 µk はデータ集合各点の重み付き平均で得られる。データ点 xn の重み付き因子は、k 番目のガウス要素が xn の生成を負担した値である事後確率 γ(znk )で与えられる。


ガウス要素の共分散 Σk の条件

次に、対数尤度関数の Σk に関する微分を 0とおくと、

Σk =1

Nk

N

∑n=1

γ(znk )(xn − µk )(xn − µk )T (19)

導出方法は、[演習 2.34]の単一ガウスモデルの共分散行列の最尤解を求める式を参照。各データ点 xn の分散が事後確率 γ(znk )で重み付けされている。分母 Nk はガウス要素 k に割り当てられたデータの実効的な数。


混合係数 πk の条件

最後に、混合係数 πk について最尤解を求める。混合係数の k に関する総和が 1である制約 (9)を考慮するため、ラグランジュ未定乗数法を用いる。

ln p(X|π, µ,Σ) + λ

(K

∑k=1

πk − 1

)(20)

上の最適化問題を解くと、

0 =N

∑n=1

N (xn|µk ,Σk )

∑j πjN (xn|µj ,Σj)+ λ (21)

=K

∑k=1

(N

∑n=1

πkN (xn|µk ,Σk )

∑j πjN (xn|µj ,Σj)+ πk λ

)


従って、λ = −N より

πk =Nk

N(22)

混合係数 πk は、全データ点 xn の混合要素 k への負担率 γ(znk )の平均で与えられる。


EMアルゴリズムの意義

上記で求めたガンマ分布の平均 µk、共分散 Σk、混合係数 πk の最尤解はパラメータの陽な解を与えているわけではない。これは、負担率 γ(znk )が (13)式のように複雑な形でモデルのパラメータに依存するため。パラメータの初期値を適当に選び、単純な繰り返し手続きによって、負担率と各種パラメータのよい解を探す方法→ EMアルゴリズム


EMアルゴリズム

.Eステップ (expectation step).... ..

.

.(13)式で負担率を計算するために、現在のパラメータ値を用いる。

.Mステップ (maximization step)..

.

. ..

.

.

潜在変数の事後確率 γ(znk )に基づき、平均 µk、共分散 Σk、混合係数 πk を (17)式、(19)式、(22)式を用いて再計算する。

Mステップでは、平均値を求めたあとにその値を用いて共分散の値を求めていることに注意。EステップとMステップでは尤度関数の値は減少しない (9.4節)。実用上は、あらかじめ定めたしきい値よりもパラメータあるいは対数尤度関数の更新幅が小さくなったときに繰り返し試行を終える。


(a)−2 0 2

−2

0

2

Old Faithful間欠泉データ集合にガウス混合モデル EMアルゴリズムを適用した例を示す

初期値は K-meansアルゴリズムの例と同様に初期化

データ点は緑

2つのガウス分布の初期値 (1標準偏差の等高線)が青と赤


(b)−2 0 2

−2

0

2

最初の Eステップの結果

各データの色は、各潜在変数に対応する事後分布に比例したインクの量になっている

(c)

L = 1

−2 0 2

−2

0

2

最初のMステップの結果

各ガウス分布の平均はデータ集合全体の重み付き平均値

各ガウス分布の共分散はデータ集合の重み付き共分散


(d)

L = 2

−2 0 2

−2

0

2

反復 2回

(e)

L = 5

−2 0 2

−2

0

2

反復 5回

(f)

L = 20

−2 0 2

−2

0

2

反復 20回


EMアルゴリズムの特性

EMアルゴリズムの計算コストは K-meansより遥かに大きい混合ガウスモデルの初期値を得るために K-meansが利用出来る

平均の初期値には K-meansの各クラスター平均共分散行列の初期値にはクラスターのサンプル分散混合係数の初期値には各クラスターのデータ点割合

尤度関数の特異性を避ける手法が必要

大域的最適解に収束する保証はない


混合ガウス分布のための EMアルゴリズム.目的..

.

. ..

.

.

混合ガウスモデルが与えられているとき、パラメータ µ,Σ,π について尤度関数を最大化

.ステップ 1.... ..

.

.

平均 µk、共分散 Σk、混合係数 πk を初期化し、対数尤度値を計算

.ステップ 2(Eステップ)..

.

. ..

.

.

現在のパラメータを用いて、負担率 γ(znk )を計算

γ(znk ) =πkN (xn|µk ,Σk )

K

∑j=1

πjN (xn|µk ,Σk )

(23)


混合ガウス分布のための EMアルゴリズム.ステップ 3(Mステップ)..

.

. ..

.

.

対数尤度関数の値が増加するようにパラメータ更新

µnewk =

1Nk

N

∑n=1

γ(znk )xn (24)

Σnewk =

1Nk

N

∑n=1

γ(znk )(xn − µk )(xn − µk )T (25)

πnewk =

Nk

N(26)

ここで、

Nk =N

∑n=1

γ(znk ) (27)


混合ガウス分布のための EMアルゴリズム

.ステップ 4..

.

. ..

.

.

対数尤度

ln p(X|µ,Σ,π) =N

∑n=1

ln

{K

∑k=1

πkN (xn|µk ,Σk )

}(28)

を計算し、パラメータの値や対数尤度の値を見て収束性を確認。収束基準を満たしていなければ、ステップ 2に戻る。


目次.







概要


目次.







概要


抽象的設定での EMアルゴリズム

本節では、潜在変数が果たしている重要な役割を理解するため EMアルゴリズムを別の角度から考察する。まずは、前節より抽象的な設定のもとで EMアルゴリズムを定義しなおしてみよう。.EMアルゴリズムの目的.... ..

.

.潜在変数を持つモデルの最尤解を見出すこと

.Notation..

.

. ..

.

.

全ての観測データの集合： X (第 n行は n個目のデータ xn)

全ての潜在変数の集合： Z (第 n行は n個目の潜在変数 zn)

全てのモデルパラメータの組： θ


この時、対数尤度関数は (29)式で与えられる。

ln p(X|θ) = ln

{∑Z

p(X,Z|θ)}

(29)

Zについての和を積分に置き換えれば、連続潜在変数の場合も成立。.Example (混合ガウス分布 (28))..

.

. ..

.

.

ln p(X|µ,Σ,π) =N

∑n=1

ln

{K

∑k=1

πkN (xn|µk ,Σk )

}

潜在変数 Zに関する総和が対数の中にあるため、同時分布 p(X,Z|θ)が指数型分布族に属していたとしても、周辺分布 p(X|θ)は普通指数型分布族とならない。潜在変数に関する和が存在するために、対数が直接指数型分布族に作用出来ないため、最尤解を求めるのには複雑な形となる。


.

.

. ..

.

.

ln p(X|θ) = ln

{∑Z

p(X,Z|θ)}

各観測で得られるデータが完全データ集合 (つまり、{X,Z}の組)であれば、対数尤度関数は単純に ln p(X,Z|θ)の形を取る。この時、対数尤度関数の最尤解の導出は簡単であると仮定する。

しかし、実際に各観測で与えられるのは不完全データ Xのみで、潜在変数 Zについては事後確率分布 p(Z|X, θ)による知識しか持たないとする。この場合、完全データ対数尤度関数 ln p(X,Z|θ)は使えないので、代わりに事後確率分布 p(Z|X, θ)に関する期待値を考える。

これが Eステップになる。

次に、この期待値を最大化するパラメータ θを求める。これがMステップになる。

期待値を用いる意義は 9.4節で議論する。


.Eステップ..

.

. ..

.

.

潜在変数の事後分布 p(Z|X, θold )を計算する。計算には、現在のパラメータ θold を用いる。

.Mステップ..

.

. ..

.

.

完全パラメータ対数尤度関数 ln p(X,Z|θ)の事後確率 p(Z|X, θold )で重み付けした期待値Q(θ, θold )を最大化する。

Q(θ, θold ) = ∑Z

p(Z|X, θold ) ln p(X,Z|θ) (30)

期待値を最大化するパラメータ θnew は

θnew = arg maxθQ(θ, θold ) (31)

直接同時分布に対数が作用しているため、仮定より簡単に計算できるはずである。


一般の EMアルゴリズム

観測変数 X、潜在変数 Zの同時分布 p(X,Z|θ)が与えられていて、パラメータ θで支配されている。.目的.... ..

.

.

尤度関数 p(X|θ)の最大化。

.ステップ 1.... ..

.

.パラメータの初期値 θold を選ぶ。

.ステップ 2(Eステップ).... ..

.

.

潜在変数の事後分布 p(Z|X, θold )を計算する。


.ステップ 3(Mステップ)..

.

. ..

.

.

(32)式で与えられるパラメータ θnew を計算する。

θnew = arg maxθQ(θ, θold ) (32)

ただし、Q(θ, θold ) = ∑

Zp(Z|X, θold ) ln p(X,Z|θ) (33)

.ステップ 4..

.

. ..

.

.

対数尤度関数またはパラメータ値の収束条件が満たされているかどうか調べ、満たされていなければ、

θold ← θnew (34)

とし、ステップ 2に戻る。


EMアルゴリズムの特徴

パラメータの事前分布 p(θ)が定義されたモデルについて、MAP解を見出すために、EMアルゴリズムを用いることが可能 [演習 9.4]

MステップをQ(θ, θold ) + ln p(θ)とすればよい

事前分布を適切に設定すれば、特異性の問題を取り除くことが可能

データ集合中の欠損値を非観測変数とみなして EMアルゴリズムを用いることも可能 (確率的主成分分析など図 12.11)

観測値の分布は、欠損値に関して周辺化することで得られる

尤度関数の最大化に EMアルゴリズムが適用可能

データの値がランダム欠損 (missing at random)している場合に有効


目次.







概要


本節では、混合ガウスモデルのケースに潜在変数を導入した一般的な EMアルゴリズムを、適用して再度考察を行う。.混合ガウスモデルに対する EMアルゴリズムの目的.... ..

.

.

対数尤度関数 ln p(X|π, µ,Σ) (14)の最大化

混合ガウス分布の場合は、対数の中に現れる k に関する総和のために、単一のガウス分布の場合に比べて最尤解の導出は非常に難しい。ここで、実際には観測できない離散潜在変数 Zの値が与えられていると仮定する（つまり、完全データ集合 {X,Z}が与えられていると仮定する）。

.Example.... ..

..完全データのグラフィカルモデル xn

zn

N

µ Σ

π


.問題設定.... ..

.

.完全データ集合 {X,Z}に関する尤度を最大化する問題

対応する尤度関数は、

p(X,Z|π, µ,Σ) =N

∏n=1

K

∏k=1

πznkk N (xn|µk ,Σk )

znk (35)

の形になる。ただし、znk は zn の k 番目の要素を表す。尤度関数の対数をとると、

ln p(X,Z|π, µ,Σ) =N

∑n=1

K

∑k=1

znk {ln πk + lnN (xn|µk ,Σk )} (36)

となり、対数が指数型分布族に直接作用するため、完全データに対する対数尤度関数の最尤推定問題は不完全データの場合よりもずっと単純な方法で解を導くことが出来る。


最尤パラメータの導出

ln p(X,Z|π, µ,Σ) =N

∑n=1

K

∑k=1

znk {ln πk + lnN (xn|µk ,Σk )}

潜在変数 zn は 1-of-K表記なので、上の対数尤度関数は K 個の独立な対数ガウス分布の寄与の単純和。従って、パラメータの平均 µと共分散 Σに関する最大化は単一のガウス分布の場合と同様に解ける。混合係数 πk はラグランジュ未定乗数法より、

πk =1N

N

∑n=1

znk (37)

このように、完全データ対数尤度関数の最大化問題は明らかに陽な形で解ける。


不完全データ尤度関数

実際には、潜在変数 Zは分からない。この場合、完全データ尤度関数の期待値を考えることになる。(10), (11)式より、潜在変数 Zの事後確率分布は

p(Z|X,π, µ,Σ) ∝N

∏n=1

K

∏k=1

[πkN (xn|µk ,Σk )]znk (38)

この式の右辺は nについて因子化されており、事後分布の下では{zn}は独立 (演習 9.5)。8章の有向グラフィカルモデル/有向分離基準からも明らか。


この事後分布に関する指示変数 znk の期待値は、

E [znk ] =

∑zn

znk ∏k ′

[πk ′N (xn|µk ′ ,Σk ′)]znk ′

∑zn

∏j

[πjN (xn|µj ,Σj)

]znj

=πkN (xn|µk ,Σk )K

∑j=1

πjN (xn|µj ,Σj)

= γ(znk ) (39)

1行目の式から分子分母それぞれに znk = 1となる n,k をくくり出すと 2行目の式が導出される。従って、指示変数 znk の期待値は、k番目の混合要素のデータ点 xn に対する負担率である。この時、完全データ対数尤度関数の期待値は、

EZ[ln p(X,Z|π, µ,Σ)] =N

∑n=1

K

∑k=1

γ(znk ){ln πk + lnN (xn|πk , µk )}

(40)大岩秀和 (@kisa12012) パターン認識と機械学習 9章 December 11, 2010 73 / 120

EZ[ln p(X,Z|π, µ,Σ)] =N

∑n=1

K

∑k=1

γ(znk ){ln πk + lnN (xn|πk , µk )}

EMアルゴリズムによる完全データ対数尤度関数の期待値最大化は、先に導いた混合ガウス分布に関する EMアルゴリズムと正確に一致する (演習 9.8)。完全データ対数尤度関数の期待値を用いる意義については、9.4節で詳細に議論する。


目次.







概要


K-meansと混合ガウス EMの関連

K-meansアルゴリズムと混合ガウス分布に関する EMアルゴリズムを比較する。K-meansは、データ店を点クラスターにハードに割り当てる。一方、EMアルゴリズムは事後確率に基づきソフトに割り当てる。実は、ハード割り当てである K-meansアルゴリズムは、ソフト割り当てである混合ガウス分布に関する EMアルゴリズムの極限の一つとして導くことが出来る。.ハード割り当て..

.

. ..

..

各データ点 xn を 1つのクラスター µk だけに割り当てる方法

.ソフト割り当て..

.

. ..

.

.

各データ点 xn を複数のクラスターに曖昧に割り当てる方法


各ガウス要素の共分散行列が ϵIで与えられる場合の混合ガウスモデルを考える。ここで、ϵはすべての要素が共有する分散パラメータ、Iは単位行列。この時、k 番目のガウス分布の式は、

p(x|µk ,Σk ) =1

(2πϵ)D2

exp

{− 1

2ϵ∥x− µk∥

2}

(41)

この形の K 個のガウス分布の混合について、EMアルゴリズムを考える。すると、データ点 xn に関する k 番目の混合要素の負担率は、

γ(znk ) =πk exp{−∥xn − µk∥2}/2ϵ

∑j πj exp{−∥xn − µj∥2}/2ϵ(42)

で表すことが出来る。


K-means Eステップ

ここで、∥xn − µj∥2 が最小になる混合要素 j を j∗ とおく。ϵ→ 0の極限を考えると、k = j∗ に対応する項は 0に最も遅く漸近するため、

∀πk > 0 γ(znk )→{

1 k = j∗

0 otherwise

この割り当て方式は、K-means (2)と同じ。よって、この極限ではデータ点 xn からクラスター µk へのγ(znk )→ rnk というハードな割り当てが実現する。


K-means Mステップ

このとき、EMアルゴリズムにおける平均 µk の更新式 (17)は、K-meansの結果に帰着する (4)。混合係数 πk の更新式 (22)は、πk の値を k 番目のクラスターに割り当てられるデータ数の割合に等しく設定することを意味する。結局、期待完全データ対数尤度関数 (40)は、ϵ→ 0の極限において次式のようになる (演習 9.11)。

EZ[ln p(X,Z|µ,Σ,π)]→ −12

N

∑n=1

K

∑k=1

rnk∥xn − µk∥2 + const (43)

ϵ→ 0の極限では、期待完全データ対数尤度の最大化は (1)式で与えられた歪み尺度 J の最小化と同様。


まとめ

K-meansアルゴリズムではクラスターの分散 Σを推定しない

平均 µのみを推定している

一般の共分散行列をもつハード割り当て版の混合ガウスモデルEMは、楕円 K-meansアルゴリズム (elliptical K-meansalgorithm)と呼ばれる [Sung+, 1994]


目次.







概要


混合ベルヌーイ分布での EMアルゴリズム

ここまで、混合ガウス分布で表される連続値変数の分布の議論をしてきた。

本節では、ベルヌーイ分布で表される 2値変数の混合について議論する。

このモデルは潜在クラス分析 (latent class analysis)としても知られる。 [Lazarsfeld+ 1968; McLachlan+ 2000]

混合ベルヌーイ分布についての議論は、離散変数に関する隠れMarkovモデル (13.2節)を考察する基礎にもなる。


D個の 2値変数 xi (i = 1, . . . ,D)を考える。これらは以下のベルヌーイ分布に従う。

p(x|µ) =D

∏i=1

µxii (1− µi)

(1−xi ) (44)

ただし、x = (x1, . . . , xD)T、µ = (µ1, . . . , µD)

T である。パラメータµが与えられているとき、各変数 xi は独立とする。この時、分布の平均 E [x]と共分散 cov [x]は以下の式となる (2.1節)。

E [x] = µ (45)

cov [x] = diag{µi(1− µi)} (46)

ベルヌーイ分布の有限混合分布を考えたい。


.混合ベルヌーイ分布..

.

. ..

.

.

p(x|µ,π) =K

∑k=1

πkp(x|µk ) (47)

ただし、µ = {µ1, . . . , µK}、π = {π1, . . . ,πK}かつ

p(x|µk ) =D

∏i=1

µxiki(1− µki)

(1−xi ) (48)

を満たすとする。この混合ベルヌーイ分布の平均と共分散は次式で与えられる [演習 9.12]。

E [x] =K

∑k=1

πk µk (49)

cov [x] =K

∑k=1

πk

{Σk + µk µT

k

}− E [x]E [x]T (50)

ただし、Σk = diag{µki(1− µki)}である。大岩秀和 (@kisa12012) パターン認識と機械学習 9章 December 11, 2010 84 / 120

共分散行列 cov [x]は対角行列ではないため、混合ベルヌーイ分布は単一のベルヌーイ分布とは異なり、変数間の相関を捉えられる。データ集合 X = {x1, . . . , xN}が与えられているとき、このモデルの対数尤度関数は以下の形で与えられる。.対数尤度関数..

.

. ..

.

.

ln p(X|µ,π) =N

∑n=1

ln

{K

∑k=1

πkp(xn|µk )

}(51)

混合ベルヌーイ分布の場合も、混合ガウス分布の場合と同様に、対数の中に総和が現れている。


潜在変数を導入した混合ベルヌーイ分布

混合ベルヌーイ分布の EMアルゴリズムを導出するため、はじめに観測変数 xの各値に付随する潜在変数 zを導入する。潜在変数ベクトル z = (z1, . . . , zK )

T は、1-of-K表記とする (ガウス混合分布の場合と同様)。すると、潜在変数 zに対する観測変数 xの条件付確率分布は、.zが与えられた下での xの条件付確率分布..

.

. ..

.

.

p(x|z, µ) =K

∏k=1

p(x|µk )zk (52)


.zが与えられた下での xの条件付確率分布..

.

. ..

.

.

p(x|z, µ) =K

∏k=1

p(x|µk )zk

ここで、潜在変数 zの事前分布は、

p(z|π) =K

∏k=1

πzkk (53)

(混合ガウス分布の場合と同様)p(x|z, µ)と p(z|π)の積を作り、zについて周辺化すれば、(47)式が導出できる。


混合ベルヌーイ分布の EMアルゴリズムの導出

次に、EMアルゴリズムの導出のため完全データ対数尤度関数を書き下す。.完全データ対数尤度関数..

.

. ..

.

.

lnp(X,Z|µ,π) =N

∑n=1

K

∑k=1

znk{ln πk +

D

∑i=1

[xni ln µki + (1− xni) ln(1− µki)]

} (54)

ただし、観測データ集合 X = {xn}、潜在変数集合 Z = {zn}である。


次に、潜在変数 Zの事後分布に関して、完全データ対数尤度関数の期待値をとる。.完全データ対数尤度関数の期待値..

.

. ..

.

.

EZ[ln p(X,Z|µ,π)] =N

∑n=1

K

∑k=1

γ(znk ){ln πk +

D

∑i=1

xni ln µki + (1− xni ln(1− µki)]

} (55)

ただし、γ(znk ) = E [znk ]は、与えられたデータ点 xn に関する、k番目の混合要素の事後確率 (つまり、負担率)を表している。


Eステップの更新式.負担率 γ(znk)の更新式..

.

. ..

.

.

γ(znk ) = E [znk ] =∑zn

znk ∏k ′ [πk ′p(xn|µk ′)]znk ′

∑zn ∏j [πjp(xn|µj)]znj

=πkp(xn|µk )

∑Kj=1 πjp(xn|µj)

(56)

(55)式より、負担率は次の 2項のみで消去することが出来る

Nk =N

∑n=1

γ(znk ) (57)

xk =1

Nk∑n=1

Nγ(znk )xn (58)

Nk は k 番目の混合要素に割り当てられる実効的データ数と解釈可能大岩秀和 (@kisa12012) パターン認識と機械学習 9章 December 11, 2010 90 / 120

Mステップの更新式期待完全データ対数尤度をパラメータ µk と π について最大化する。(55)式の µk に関する微分を 0と置くと、[演習 9.15]より.混合要素の平均 µk の更新式..

.

. ..

.

.

µk = xk (59)

この式は、k 番目の混合要素の平均を、負担率に応じたデータ点の重み付き平均に設定しなおしている。一方、πk の最大化にはラグランジュ未定乗数法を用いて [演習 9.16].混合係数 πk の更新式..

.

. ..

.

.

πk =Nk

N(60)

この式は、k 番目の混合係数を、その混合要素の負担する実効的なデータ数割合に設定しなおしている。


混合ベルヌーイモデルを手書き数字のモデル化に用いた例

混合ベルヌーイモデルを手書き数字のモデル化に用いた例を示すデータ集合 N = 600,K = 3,πk = 1

K ,∑j µkj = 1に正規化

単一の多変数ベルヌーイモデルを最尤法で当てはめたもの



各混合要素の結果




各混合要素の結果



混合ベルヌーイモデルの EMアルゴリズム

混合ベルヌーイ分布は発散する特異性は持たない0 ≤ p(xn|µk ) ≤ 1から、尤度関数には上界が存在するため [演習9.17]尤度関数が 0になる特異性は存在するが、データ集合に対してよほど特殊な初期値を設定しない限り問題にならない

ベルヌーイ分布のパラメータに関する共役事前分布はベータ分布 [2.1.1節]

混合ベルヌーイモデルについても事前分布を導入して EMアルゴリズムを用いることが出来る [演習 9.18]

混合ベルヌーイモデルを多項変数のケースに拡張するのは容易[演習 9.19]

多項変数の場合ディリクレ事前分布を用いることが可能


目次.







概要


ベイズ線形回帰に関するエビデンス近似

3.5.2節で超パラメータ α, βの再計算法を見た。尤度関数を最大化する超パラメータを選びたい。そのため、エビデンスを計算した後に尤度関数式の微分を 0とするものだった。

ここでは、EMアルゴリズムを用いた別のアプローチで超パラメータ α, βを計算する。

.目的：α, βに関するエビデンス関数の最大化..

.

. ..

.

.

p(t|α, β) =∫

p(t|w, β)p(w|α)dw

パラメータ wは積分消去されるので、潜在変数とみなせる。


Eステップの更新式

超パラメータ α, βの現在値に基づき wの事後分布を計算する。パラメータ wの事後分布の値は、すでに 3章で導出ずみ。.Eステップの更新式..

.

. ..

.

.

p(w) = N (w|mN ,SN)

mN = SN(S−10 m0 + βΦT t)

S−1N = S−1

0 + βΦT Φ


Mステップの更新式.完全データ対数尤度..

.

. ..

.

.

ln p(t,w|α, β) = ln p(t|w, β) + ln p(w|α) (61)

ここで

p(t|w, β) =N

∏n=1

N (tn|wT ϕ(xn), β−1)

p(w|α) = N (w|0, α−1I)

パラメータ wの事後分布について期待値をとると、次式を得る。

E [ln p(t,w|α, β)] =M2

ln( α

2π

)− α

2E [wT w]

+N2

ln

(β

2π

)− β

2

N

∑n=1

E [(tn −wT ϕn)2]

(62)


Mステップの更新式

(62)式について αに関する微分を 0とおくと、パラメータ αの更新式が得られる [演習 9.20]。.αの更新式..

.

. ..

.

.

α =M

E [wT w]=

M

mTNmN + tr(SN)

(63)

βの更新式も同様に求められる [演習 9.21]。


ベイズ線形回帰に関する EMアルゴリズム

EMでの更新式はエビデンス関数の直接計算で得られるものとはわずかに異なる

計算量はいずれも M ×M 行列の計算と逆行列計算（もしくは固有値分解）を含む

αを決めるためのこの 2つのアプローチは、同じ結果に収束する。この事は、(64)式のように γを定義し、(3.92)式に代入することによって確かめられる。

γ = M − αM

∑i=1

1λi + α

= M − αtr(SN) (64)

αmTNmN = γ = M − αtr(SN) (65)

より、停留点では EMアルゴリズムの式と一致する。


回帰問題のための RVM(relevance vectormachine)

7.2.1節では周辺対数尤度を直接最大化して α, βの更新式を導いた。重みベクトル wを潜在変数と考え、EMアルゴリズムで適用することも可能。Eステップは (7.81)式。Mステップは期待完全データ対数尤度を最大化するパラメータを求める。

Ew[{ln p(t|X,w, β)p(w|α)}] (66)

αnewi =

1

m2i + Σii

(67)

(βnew)−1 =∥t−Φm∥2 + β−1Σi γi

N(68)


目次.







概要


目次.







概要


一般の EMアルゴリズム.EMアルゴリズム (expectation-maximization algorithm)..

.

. ..

.

.

潜在変数を持つ確率モデルの最尤解を求めるための一般的手法[Dempster+, 1977; McLachlan+, 1997]

本節では、EMアルゴリズムを極めて一般的に取り扱い、混合ガウス分布の EMアルゴリズムが尤度関数を極大化することを証明する。ここでの議論は、変分推論の枠組みの導出の基礎ともなる。[10.1節]

.Notation..

.

. ..

.

.

観測変数：X

潜在変数：Z

パラメータの組：θ


EMアルゴリズム一般化の準備

.目的：尤度関数の最大化..

.

. ..

.

.

尤度関数p(X|θ) = ∑

Zp(X,Z|θ) (69)

ここでは Zは離散変数と仮定しているが、連続変数を含む場合でも総和を積分に適切に置き換えれば同じ議論が成り立つ。.仮定..

.

. ..

.

.

p(X|θ)を直接最適化することは困難完全データ対数尤度関数 ln p(X,Z|θ)の最適化は非常に容易潜在変数の事前分布は q(Z)とおく


.対数尤度関数..

.

. ..

.

.

ln p(X|θ) = L(q, θ) + KL(q∥p) (70)

ただし、次のように定義する。

L(q, θ) = ∑Z

q(Z) ln

{p(X,Z|θ)

q(Z)

}(71)

KL(q∥p) = −∑Z

q(Z) ln

{p(Z|X, θ)

q(Z)

}(72)

(70)式は、確率の連鎖律の式

ln p(X,Z|θ) = ln p(Z|X, θ) + ln p(X|θ) (73)

を (71)式に代入することで、簡単に示すことが出来る。


(71)式 L(q, θ)の性質


.

. ..

.

.

ln p(X|θ) = L(q, θ) + KL(q∥p)

.(71)式 L(q, θ)の性質..

.

. ..

.

.

L(q, θ)は分布 q(Z)の汎関数

Xと Zの同時分布を含む

L(q, θ) = ∑Z

q(Z) ln

{p(X,Z|θ)

q(Z)

}


(72)式 KL(q∥p)の性質


.

. ..

.

.


.(72)式 KL(q∥p)の性質..

.

. ..

.

.

事前分布 q(Z)と事後分布 p(Z|X, θ)の KL-divergence

KL(q∥p) ≥ 0より、L(q, θ) ≤ ln p(X|θ)つまり、L(q, θ)は ln p(X|θ)の下界

KL(q∥p) = −∑Z

q(Z) ln

{p(Z|X, θ)

q(Z)

}


(72)式 KL(q∥p)の性質


.

. ..

.

.


ln p(X|θ)L(q,θ)

KL(q||p)


Eステップの更新式EMアルゴリズムは対数尤度関数の最尤解を求めるための二段階の繰り返し最適化技法.対数尤度関数..

.

. ..

.

.

ln p(X|θ) = L(q, θ) + KL(q∥p).Eステップの手順..

.

. ..

.

.

パラメータベクトルの現在の値を θold と仮定

Eステップでは、下界 L(q, θold )を θold を固定しながら q(Z)について最大化

最大値をとる q(Z)は容易に求まる

なぜなら、対数尤度関数 ln p(X|θ)は q(Z)に依存しないため、KL(q∥p) = 0⇔ q(Z) = p(Z|X, θold )のとき最大となるからである


Eステップの図解

下界は対数尤度と一致

KL-divergenceは 0になる

ln p(X|θ)L(q,θ)

KL(q||p)


Eステップの図解

下界は対数尤度と一致

KL-divergenceは 0になる

ln p(X|θold)L(q,θold)

KL(q||p) = 0


Mステップの更新式


.

. ..

.

.


.Mステップの手順..

.

. ..

.

.

分布 q(Z)を固定し、下界 L(q, θ)を θについて最大化

新しいパラメータ θnew を求める

下界 L(q, θ)は減少することはなく、必然的に対応する対数尤度 ln p(X|θ)も減少しないq(Z)が固定されているため、KL(q∥p)も正の値となる可能性がある


Mステップの図解

下界 L(q, θ)は減少せず、対数尤度も ln p(X|θ)も非減少q(Z)が固定されているため、KL(q∥p)も正の値となる可能性がある

ln p(X|θ)L(q,θ)

KL(q||p)




ln p(X|θold)L(q,θold)

KL(q||p) = 0




ln p(X|θnew)L(q,θnew)

KL(q||p)


Eステップにおける分布 q の最適解、q(Z) = p(Z|X, θold )を (71)式に代入すると、Eステップ後の下界は次の形になる。.Eステップ後の下界 L(q, θ)..

.

. ..

.

.

L(q, θ)

= ∑Z

p(Z|X, θold ) ln p(X,Z|θ)−∑Z

p(Z|X, θold ) ln p(Z|X, θold )

= Q(θ, θold ) + const (74)

ここで、定数項 const は分布 q のエントロピー。

Mステップで最大化している量は完全データ対数尤度の期待値

最適化する変数は、対数 ln p(X,Z|θ)の中にしか現れない従って、同時分布 p(X,Z|θ)が指数型分布族の要素である場合、計算が容易


EMアルゴリズムの視覚化

θold θnew

L (q, θ)

ln p(X|θ)

赤の曲線：不完全データ対数尤度関数 ln p(X|θ)青の曲線：θold での対数尤度関数の下界 L(q, θold )緑の曲線：θnew での対数尤度関数の下界 L(q, θnew )


データ集合が i.i.d.となる特別な場合

.Notation..

.

. ..

.

.

N個の i.i.d.なデータ点 {xn}からなるデータ集合 X

対応する潜在変数 {zn}からなる潜在変数集合 Z

i.i.d.の仮定より、.完全データ尤度関数..

.

. ..

.

.

p(X,Z) = ∏n

p(xn, zn)

潜在変数 {zn}について周辺化すれば、p(X) = ∏n p(xn)が得られる。


データ集合が i.i.d.となる特別な場合

.Eステップで計算される事後確率..

.

. ..

.

.

p(Z|X, θ) =p(X,Z|θ)

∑Z p(X,Z|θ) =∏N

n=1 p(xn, zn|θ)∑Z ∏N

n=1 p(xn, zn|θ)

=N

∏n=1

p(zn|xn, θ) (75)

(75)式より、データ点 xn における混合要素の負担率はデータ点 xn

とパラメータ θにのみ依存する事がわかる。また、同時分布 p(X,Z)は各データ点の積であるため、逐次型の EMアルゴリズムで扱うことが出来る。


データが i.i.d.かつ混合要素が指数型分布族であれば、負担率は単純な十分統計量となるため、逐次的に更新する手法であっても効率的な更新が可能である。.混合ガウス分布の逐次的 EM..

.

. ..

.

.

十分統計量は (17)(18)式。

µnewk = µold

k +

(γnew (zmk )− γold (zmk )

Nnewk

)(xm − µold

k ) (76)

Nnewk = Nold

k + γnew (zmk )− γold (zmk ) (77)

一度パラメータを更新するのに全てのデータを舐めないため、バッチ型 EMより速く収束する

逐次型アルゴリズムも毎回の更新で対数尤度関数を増加させる事が保証されているため、極大値に収束する


MAP推定に対する EMアルゴリズム

EMアルゴリズムは、事前分布 p(θ)を導入したモデルに対して、事後分布 p(θ|X)を最大化する目的に用いることも出来る。

ln p(θ|X) = ln p(θ,X)− ln p(X) (78)

= ln p(X|θ) + ln p(θ)− ln p(X)

が成立するため、

ln p(θ|X) = L(q, θ) + KL(q∥p) + ln p(θ)− ln p(X)

≥ L(q, θ) + ln p(θ)− ln p(X) (79)


EMアルゴリズムの拡張

モデルが複雑で、Mステップの計算が困難な場合.一般化 EMアルゴリズム (generalized EM algorithm)..

.

. ..

.

.

Mステップの計算 L(q, θ)の θについての最適化が困難

少しでも L(q, θ)の値が大きくなるように θnew を定める

例として、共役勾配法などの非線形最適化が使われる

.ECM法 (expectation conditional maximization)..

.

. ..

.

.

Mステップを制限付最適化問題とする [Meng+, 1993]

例として、パラメータの組を幾つかのグループに分割し、グループごとにパラメータを最適化するなどの方法が取られる


EMアルゴリズムの拡張

モデルが複雑で、Eステップの計算が困難な場合.[Neal+, 1999].... ..

.

.

L(q, θ)の q に関する最適化を部分的に行うことも可能


Prml9

Documents

n xn xn

j n x j

n rnk xn

ln j n xn j

z n zt n n

i2 j j xn j

n xn oldkkk

j k16 n