Probabilistic Graphical Models 輪読会 §3.3-3.4

Probabilistic Graphical Models 輪読会 § 3.3-3.4

2016/5/31

吉田雄紀 (@yos1up)

1

自己紹介

• 吉田雄紀

• 東大大学院新領域創成科学研究科

• 機械学習・計算論的神経科学に興味があります

• 昨年度まで医師として病院に勤めていましたが、脳機能を数理的に理解したく、心機一転こちらの分野に飛び込みました

2

3.3 Independencies in Graphs

本節の流れ

• ベイジアンネットワークG上で分解する確率分布Pが、どのような条件付き独立性を持っている／いないかを知りたい

• グラフ的な概念「有向分離(d-separation)」から定まるI(G)と、グラフG上で分解する確率分布Pがもつ条件付き独立性I(P)との関係を論じる

3


• Il(G)：Gから定まる局所的な条件付き独立性の集合{(X⊥Xの非子孫|Xの親)}

• Il(G)で条件付き独立性はすべて尽くされるか？

– G上で分解する任意の確率分布Pがみたすような条件付き独立性が、Il(G)に含まれるもののほかに存在しないか？

• グラフの構造からどのような独立性・非独立性がいえるのかを本節では調べていく

4

3.3.1 D-separation

• 最も簡単なケース

以下のトレイルがあるとき、XからYに影響が及びうるか否かを考える

1. X → Y

2. X → Z → Y

3. X ← Z ← Y

4. X ← Z → Y

5. X → Z ← Y

5

3.3.1 D-separation

• 最も簡単なケース

以下のトレイルがあるとき、XからYに影響が及びうる(✔)か否(×)かを考える

1. X → Y ✔

2. X → Z → Y

3. X ← Z ← Y Zが観測済なら×、未観測なら✔

4. X ← Z → Y

5. X → Z ← Y ZまたはZの子孫の少なくとも1つが観測済なら✔、さもなければ×

v-structure の場合のみ異なる 6

3.3.1 D-separation

• より長いトレイルを考える

– 長さ2のトレイルでの考察を踏まえると、直観的には、次の定義で”active”なトレイルであれば、影響が伝わりそうである

定義3.6 トレイル X1⇌X2⇌ … ⇌Xn が、Zの観測下でactiveであるとは、以下の2条件をみたすことをいう：

• Xi の前後でv-structure Xi-1→Xi←Xi+1 となっているならば、Xi または Xi の子孫の少なくとも1つがZに含まれる •上記以外の Xi はいずれもZに含まれない 7

3.3.1 D-separation

定義3.7 • Zの観測下でXとYが有向分離(d-separated)である（d-sepG(X;Y|Z)と表記する）とは、任意のX ∈ XとY ∈ Yについて、Zの観測下でXからYへの activeなトレイルが存在しないことをいう。

• I(G) := {(X⊥Y|Z): d-sepG(X;Y|Z)}

• 有向分離に対応する独立性の集合 • global Markov independenciesともいう

8

3.3.1 D-separation 記号を整理

• Il(G) = {(X⊥(Xの非子孫) |(Xの親))}

– グラフGの局所的構造から定まる「独立性の集合」

確率分布PがIl(G)⊆I(P)をみたす⇔PはG上で分解する（定理3.1-2）

• I(G) = {(X⊥Y|Z): d-sepG(X;Y|Z)} – 有向分離から定まる、グラフGの「独立性の集合」

Il(G) ⊆ I(G)である

• I(P) = {(X⊥Y|Z): Pの下で成立}

– 確率分布Pに関して成り立つ全ての「独立性の集合」 9

3.3.1 D-separation

記号を整理

• Il(G) = {(X⊥(Xの非子孫) |(Xの親))}

• I(G) = {(X⊥Y|Z): d-sepG(X;Y|Z)}

• I(P) = {(X⊥Y|Z): Pの下で成立}

D

G

L

I

S

P(D,I,S,G,L)はグラフG上で分解（⇔Il(G)⊆I(P) (定理3.1-2)）

10

3.3.2 Soundness and Completeness

定理3.3（健全性(soundness)） G上で分解する任意の確率分布Pについて、 I(G)⊆ I(P) である。

定理3.5（完全性(completeness)） G上で分解するほとんど全ての確率分布Pについて、I(G) = I(P) である。

第4章で証明

このあと証明

• 逆にI(G)⊆I(P)のとき、Il(G)⊆I(G)⊆I(P)なので定理3.1よりPはG上で分解。

PがG上で分解 ⇔ I(G)⊆I(P)

11


– 必ずしも成立しない。グラフ構造に現れていない「独立性の集合」をPがたまたま持っている可能性がある

定義3.8 確率分布PがGに忠実(faithful)であるとは、 (X⊥Y|Z) ∈ I(P) ⇒ d-sepG(X;Y | Z) が成立することをいう。 ※これは I(P) ⊆ I(G) と同値

定理？（完全性？） G上で分解する任意の確率分布PはGに忠実？

12


証明 X, Y をつなぐactiveなトレイルを1本とってきて、

そのトレイル上で隣接するノード間だけ相関をもつ確率分布Pを構成。

トレイルに含まれないノードは全て独立となるように確率分布Pを定める。■

定理3.4 G上で分解する任意の確率分布 P において (X⊥Y | Z) が成立するとき、d-sepG(X;Y | Z) である。（対偶）d-sepG(X;Y|Z) でないとき、G上で分解する確率分布Pで(X⊥Y|Z) をみたさないものが存在する。

(I(P)の共通部分) ⊆ I(G)

13


証明

条件付き独立性(X⊥Y | Z)がI(G)に含まれないとき、ほとんど全てのPがこれをみたさないことをいう。

↑が成り立てば、I(G)に含まれない任意の条件付き独立性をみたさないPも「ほとんど全て」である（条件付き独立性は有限個しかないため）

定理3.5（完全性(completeness)） G上で分解するほとんど全ての確率分布Pについて、I(G) = I(P) である。

ほとんど全てのPについて

I(P) ⊆ I(G)

14


証明

条件付き独立性(X⊥Y | Z)がI(G)に含まれないとき、ほとんど全てのPがこれをみたさないことをいう。

確率分布Pが(X⊥Y | Z)をみたすことは、Pがある多項式方程式をみたすことと等価である。

定理3.4より、少なくとも1つのPは(X⊥Y | Z)をみたさないので、その多項式は0ではない。

非ゼロの多項式方程式の解の集合は測度0のため、 (X⊥Y | Z)をみたさないPの集合は測度0。■

ほとんど全てのPについて

I(P) ⊆ I(G)

15


G上で分解するほとんど全てのPについて

I(P) = I(G)

Il(G)⊆I(P) ⇔ PがG上で分解 ⇔ I(G)⊆I(P)

16

3.3.3 An Algorithm for d-Separation

• Z の観測下でXからactiveなトレイルで到達可能なノードの一覧を知りたい

– Xが与えられた時 {Y | d-sepG(X;Y | Z)}C を知りたい

アルゴリズム3.1(active trailでの到達可能範囲を求める)

1. Gの全ノードがZの先祖か否かを予め調べておく（Zから上向きに辿っていく）

2. Xからactiveなトレイルを伝って行ける範囲を探索する（1.の前処理のおかげで、v-structureがactiveかどうかがすぐわかる）

※計算量はグラフサイズに対して線形 17

3.3.3 An Algorithm for d-Separation • 例3.4

{Y}の観測下で、ノードXと有向分離なノードは？

W

Y

X

Z

定理3.6 アルゴリズム3.1は正しい 18

3.3.4 I-Equivalence

• 変数集合X上の全てのグラフは、I-同値によって、同値類にわけられる。

定義3.9 変数集合X上のグラフK1, K2がI-同値 (I-equivalent) であるとは、I(K1) = I(K2) であることをいう。

19

3.3.4 I-Equivalence

• I(K1) = I(K2) のとき、PがK1上で分解するならば、PはK2上でも分解する

（Il(K2) ⊆ I(K2) = I(K1) ⊆ I(P) なので定理3.1より）

• すなわち、確率分布Pの条件付き独立性について、K1もK2も同じだけのことしか規定しない。

Y

X

X

Y

例えば、確率分布 P(X,Y) の条件付き独立性から「影響の方向」を確定させることはできない。

20

3.3.4 I-Equivalence

• 2つのグラフがI-同値かどうか判定したい

定義3.11 v-structure X→Z←Y がimmoralityであるとは、XとYを直接つなぐ辺（covering edgeと呼ぶ）がないことをいう。

定義3.10 Gの辺をすべて無向辺に置き換えた（無向）グラフのことをGのskeletonと呼ぶ。

21

3.3.4 I-Equivalence

定理3.8 (I-同値と同値な条件その1)

変数集合X上の2つのグラフが同じskeletonと同じimmoralityをもつ ⇔ それらはI-同値

定理3.7 変数集合X上の2つのグラフが同じskeletonと同じv-structureをもつ ⇒ それらはI-同値

22

3.3.4 I-Equivalence 定理3.7（skeleton, v-structureが一致 ⇒ I-同値）の証明

K1のactive なトレイルがK2でもactiveなトレイルとなっていることがいえる。■

定理3.8（skeleton, immoralityが一致 ⇔ I-同値）の証明

（⇒）「K1でノードXからYに路があるならばK2でもXからYに路がある（ただし同じ路とは限らない）」ことが、長さ最小の路に着目すると示される。その後、K1でXからYにactiveなトレイルがあるならばK2でもXからYにactiveなトレイルがあることが示される。

（⇐）skeletonの一致：K1でX→YがあるときにK2でX⇌Yの存在をいう。K1でのXとYの共通の子およびその子孫のみ未観測、その他を観測済ノードとしてI-同値性を用いる。

immoralityの一致：K1でX→Z←Yがimmoralityのとき、XとYの共通の子およびその子孫のみ未観測、その他を観測済ノードとしてI-同値性を用いると、K2でもX→Z←Yがいえる。■ 23

3.3.4 I-Equivalence

定理3.9 (I-同値と同値な条件その2)

2つのグラフG, G’がI-同値 ⇔あるグラフの列 G=G1, G2, …, Gk=G’ が存在し、Gi

とGi+1は、あるcoveredな1本の辺の向きが反転しただけの関係になっている。

X Y

定義3.12 辺 X → Y がcoveredであるとは、PaY

G = PaXG ∪ {X}

をみたすことをいう。

24

× ×

3.3.4 I-Equivalence

定理3.9（I-同値⇔covered辺の反転を繰り返して変形可能）の証明

（⇐）covered辺の反転でskeletonと

immoralityは変化しないので、

定理3.8より示される。

（⇒）skeletonとimmoralityが同じである2つのグラフにおいて、向きが異なる辺のうち少なくとも1本がcovered辺であることを示せばよい（同じ議論を繰り返すことで1本ずつ逆向きの辺を減らしていける）。K1でのトポロジカル順に各ノードに番号がついているとし、向きが異なる辺Xi→Xj(i<j)のうち、jが最小で、そのうちiが最大なる辺を1本とると、それがcoveredであることが示される。■

X Y

25


本節のまとめ

• ベイジアンネットワークG上で分解する確率分布Pが、どのような条件付き独立性を一般に持っているかを知りたい

• グラフ的な概念「有向分離(d-separation)」から定まるI(G)と、グラフG上で分解する確率分布Pがもつ条件付き独立性I(P)との関係を論じる

• I(K1)=I(K2)（I-同値）か否かは

skeletonとimmoralityを見ればわかる

G上で分解するほとんど全てのPについて I(P) = I(G)

26

PがG上で分解 ⇔ I(G)⊆I(P)

3. 4 From Distributions to Graphs

本節の流れ

• 確率分布Pだけが具体的に与えられているとき、Pを分解するグラフGを見つけたい。 – 前節の結果（I(G)⊆I(P)、ほとんどのPでI(G)⊇I(P)）

から、条件付き独立性をグラフで議論可能に

• なるべく簡潔なグラフGを見つけたい。 – 完全グラフK上でならどんな確率分布も分解するが、

嬉しくない(I(K)=φなので)。グラフからPの条件付き独立性がなるべくわかる方がよい

– 推論や学習の際の計算量削減にかかわる

27

3.4.1 Minimal I-Maps

定義3.13 • グラフKが、独立性集合Iのminimal I-mapであるとは、KがIのI-mapであり(I(K)⊆I)、かつ辺を1本でも取り除くとIのI-mapでなくなるようなものであることをいう。

• グラフKが、確率分布Pのminimal I-mapであるとは、KがI(P)のminimal I-mapであることをいう。

28

3.4.1 Minimal I-Maps

アルゴリズム3.2（minimal I-mapの構成） • 変数に予め順番が定められているものとし、その順に変数をX1, X2, …, Xnと呼ぶことにする。 • i = 1,2,…, n について：

(Xi ⊥ {X1, …, Xi-1}-U | U) ∈ I をみたす変数集合U(⊆ {X1, …, Xi-1})のうち極小なものを1つとり、それを Xi の親と定める。

29

3.4.1 Minimal I-Maps • 例3.5

• 確率分布Pstudentのminimal I-map を前述のアルゴリズムで求めよう

• 右のグラフGはPstudentを

分解しているため、

I(G) ⊆ I(Pstudent) であり、つまり I-map の一つである

D

G

L

I

S

30


変数の順番がL,S,G,I,Dの場合

• i = 1,2,…, n について


D

G

L

I

S

31


変数の順番がL,D,S,I,Gの場合

D

G

L

I

S

確率分布がもつ条件付き独立性を捉えられていない 32

D

G

L

I

S

D⊥L | φ S⊥L, D| φ S⊥L|D S⊥D|L I⊥L, D, S| φ I⊥L, D|S I⊥D|S, L I⊥L|S, D G⊥S|D, I, L

i = 1,2,…, n について


辺数多すぎ

3.4.2 Perfect Maps

• 与えられた確率分布PのP-mapを見つけたい

• しかし…

定義3.14 グラフKが独立性の集合Iのperfect map(P-map)であるとは、I(K) = I をみたすことをいう。グラフKが確率分布PのP-mapであるとは、KがI(P)のP-mapであることをいう。

33

3.4.2 Perfect Maps

• 例3.6（P-mapが存在しない確率分布の例1）

Val(X) = Val(Y) = Val(Z) = {0, 1}

P(x,y,z) = 1/12 (if xor(x,y,z)=1), 1/6 (otherwise)

• (X⊥Y), (Y⊥Z), (Z⊥X) ∈ I(P)

• (Y⊥Z | X) は I(P) に含まれない

• minimal I-mapの一つは X → Z ← Y だが

(X⊥Z)はグラフからはわからない

（I(G)に含まれない）

X

Z

Y

34

3.4.2 Perfect Maps


Val(C) = {1,2}

P(c,L1,L2,J) = P1(L1,J) (if c=1), P2(L2,J) (if c=2)

minimal I-mapの一つは右図だが

(L1⊥L2 | C, J) ∈ I(P) は

グラフからわからない（I(G)に含まれない）

L1

J

L2 C

35

3.4.2 Perfect Maps


Val(A)=Val(B)=Val(C)=Val(D)={0,1}

A-B, B-C, C-D, D-A の間でのみ

情報がやり取りされている

右のいずれもダメ

(B⊥D | A,C) ∈ I(P)は

I(G)に含まれない

D

C

B

A

D

C

B

A 36 C

B

A

D

3.4.3 Finding Perfect Maps*

• 省略

37

3.5 Summary

• ベイジアンネットワークの2つの見方 – 確率分布の分解P(X1,…,Xn) = Πi P(Xi | Pa(Xi)) を与えるもの – 条件付き独立性{(X⊥Y | Z)}を定めるもの

• 局所的構造から定まる local independencies (Il(G)) • 有向分離から定まる global independencies (I(G))

• 2つの見方は同じことだった！ – PがG上で分解 ⇔ PがIl(G)をみたす ⇔ PがI(G)をみたす

• 有向分離（で定義されるI(G)）は素晴らしい – グラフGの構造が確率分布に要請する「条件付き独立

性」を完全に特徴づけている（Gを分解するほとんど全てのPについてI(P) = I(G)である）

– I(G)の計算や一致判定は容易 – I-同値類は部分有向非巡回グラフ(PDAG)を用いて表現で

きる – I(G)=I(P)をみたすGが存在するとは限らない 38

Probabilistic Graphical Models 輪読会 §3.3-3.4

Technology