Probabilistic Graphical Models 輪読会 § 3.3-3.4 2016/5/31 吉田雄紀 (@yos1up) 1
Probabilistic Graphical Models 輪読会 § 3.3-3.4
2016/5/31
吉田雄紀 (@yos1up)
1
自己紹介
• 吉田雄紀
• 東大大学院 新領域創成科学研究科
• 機械学習・計算論的神経科学に興味があります
• 昨年度まで医師として病院に勤めていましたが、脳機能を数理的に理解したく、心機一転こちらの分野に飛び込みました
2
3.3 Independencies in Graphs
本節の流れ
• ベイジアンネットワークG上で分解する確率分布Pが、どのような条件付き独立性を持っている/いないかを知りたい
• グラフ的な概念「有向分離(d-separation)」から定まるI(G)と、グラフG上で分解する確率分布Pがもつ条件付き独立性I(P)との関係を論じる
3
3.3 Independencies in Graphs
• Il(G):Gから定まる局所的な条件付き独立性の集合{(X⊥Xの非子孫|Xの親)}
• Il(G)で条件付き独立性はすべて尽くされるか?
– G上で分解する任意の確率分布Pがみたすような条件付き独立性が、Il(G)に含まれるもののほかに存在しないか?
• グラフの構造からどのような独立性・非独立性がいえるのかを本節では調べていく
4
3.3.1 D-separation
• 最も簡単なケース
以下のトレイルがあるとき、XからYに影響が及びうるか否かを考える
1. X → Y
2. X → Z → Y
3. X ← Z ← Y
4. X ← Z → Y
5. X → Z ← Y
5
3.3.1 D-separation
• 最も簡単なケース
以下のトレイルがあるとき、XからYに影響が及びうる(✔)か否(×)かを考える
1. X → Y ✔
2. X → Z → Y
3. X ← Z ← Y Zが観測済なら×、未観測なら✔
4. X ← Z → Y
5. X → Z ← Y ZまたはZの子孫の少なくとも1つ が観測済なら✔、さもなければ×
v-structure の場合のみ異なる 6
3.3.1 D-separation
• より長いトレイルを考える
– 長さ2のトレイルでの考察を踏まえると、直観的には、次の定義で”active”なトレイルであれば、影響が伝わりそうである
定義3.6 トレイル X1⇌X2⇌ … ⇌Xn が、Zの観測下でactiveであるとは、以下の2条件をみたすことをいう:
• Xi の前後でv-structure Xi-1→Xi←Xi+1 となっているならば、Xi または Xi の子孫の少なくとも1つがZに含まれる •上記以外の Xi はいずれもZに含まれない 7
3.3.1 D-separation
定義3.7 • Zの観測下でXとYが 有向分離(d-separated)である(d-sepG(X;Y|Z)と表記する)とは、任意のX ∈ XとY ∈ Yについて、Zの観測下でXからYへの activeなトレイルが存在しないことをいう。
• I(G) := {(X⊥Y|Z): d-sepG(X;Y|Z)}
• 有向分離に対応する独立性の集合 • global Markov independenciesともいう
8
3.3.1 D-separation 記号を整理
• Il(G) = {(X⊥(Xの非子孫) |(Xの親))}
– グラフGの局所的構造から定まる「独立性の集合」
確率分布PがIl(G)⊆I(P)をみたす⇔PはG上で分解する(定理3.1-2)
• I(G) = {(X⊥Y|Z): d-sepG(X;Y|Z)} – 有向分離から定まる、グラフGの「独立性の集合」
Il(G) ⊆ I(G)である
• I(P) = {(X⊥Y|Z): Pの下で成立}
– 確率分布Pに関して成り立つ全ての「独立性の集合」 9
3.3.1 D-separation
記号を整理
• Il(G) = {(X⊥(Xの非子孫) |(Xの親))}
• I(G) = {(X⊥Y|Z): d-sepG(X;Y|Z)}
• I(P) = {(X⊥Y|Z): Pの下で成立}
D
G
L
I
S
P(D,I,S,G,L)は グラフG上で分解 (⇔Il(G)⊆I(P) (定理3.1-2))
10
3.3.2 Soundness and Completeness
定理3.3(健全性(soundness)) G上で分解する任意の確率分布Pについて、 I(G)⊆ I(P) である。
定理3.5(完全性(completeness)) G上で分解するほとんど全ての確率分布Pについて、I(G) = I(P) である。
第4章で証明
このあと証明
• 逆にI(G)⊆I(P)のとき、Il(G)⊆I(G)⊆I(P)なので定理3.1よりPはG上で分解。
PがG上で分解 ⇔ I(G)⊆I(P)
11
3.3.2 Soundness and Completeness
– 必ずしも成立しない。グラフ構造に現れていない「独立性の集合」をPがたまたま持っている可能性がある
定義3.8 確率分布PがGに忠実(faithful)であるとは、 (X⊥Y|Z) ∈ I(P) ⇒ d-sepG(X;Y | Z) が成立することをいう。 ※これは I(P) ⊆ I(G) と同値
定理?(完全性?) G上で分解する任意の確率分布PはGに忠実?
12
3.3.2 Soundness and Completeness
証明 X, Y をつなぐactiveなトレイルを1本とってきて、
そのトレイル上で隣接するノード間だけ相関をもつ確率分布Pを構成。
トレイルに含まれないノードは全て独立となるように確率分布Pを定める。■
定理3.4 G上で分解する任意の確率分布 P において (X⊥Y | Z) が成立するとき、d-sepG(X;Y | Z) である。 (対偶)d-sepG(X;Y|Z) でないとき、G上で分解する確率分布Pで(X⊥Y|Z) をみたさないものが存在する。
(I(P)の共通部分) ⊆ I(G)
13
3.3.2 Soundness and Completeness
証明
条件付き独立性(X⊥Y | Z)がI(G)に含まれないとき、ほとんど全てのPがこれをみたさないことをいう。
↑が成り立てば、I(G)に含まれない任意の条件付き独立性をみたさないPも「ほとんど全て」である(条件付き独立性は有限個しかないため)
定理3.5(完全性(completeness)) G上で分解するほとんど全ての確率分布Pについて、I(G) = I(P) である。
ほとんど全てのPについて
I(P) ⊆ I(G)
14
3.3.2 Soundness and Completeness
証明
条件付き独立性(X⊥Y | Z)がI(G)に含まれないとき、ほとんど全てのPがこれをみたさないことをいう。
確率分布Pが(X⊥Y | Z)をみたすことは、Pがある多項式方程式をみたすことと等価である。
定理3.4より、少なくとも1つのPは(X⊥Y | Z)をみたさないので、その多項式は0ではない。
非ゼロの多項式方程式の解の集合は測度0のため、 (X⊥Y | Z)をみたさないPの集合は測度0。■
ほとんど全てのPについて
I(P) ⊆ I(G)
15
3.3.2 Soundness and Completeness
G上で分解する ほとんど全てのPについて
I(P) = I(G)
Il(G)⊆I(P) ⇔ PがG上で分解 ⇔ I(G)⊆I(P)
16
3.3.3 An Algorithm for d-Separation
• Z の観測下でXからactiveなトレイルで到達可能なノードの一覧を知りたい
– Xが与えられた時 {Y | d-sepG(X;Y | Z)}C を知りたい
アルゴリズム3.1(active trailでの到達可能範囲を求める)
1. Gの全ノードがZの先祖か否かを予め調べておく(Zから上向きに辿っていく)
2. Xからactiveなトレイルを伝って行ける範囲を探索する(1.の前処理のおかげで、v-structureがactiveかどうかがすぐわかる)
※計算量はグラフサイズに対して線形 17
3.3.3 An Algorithm for d-Separation • 例3.4
{Y}の観測下で、ノードXと有向分離なノードは?
W
Y
X
Z
定理3.6 アルゴリズム3.1は正しい 18
3.3.4 I-Equivalence
• 変数集合X上の全てのグラフは、I-同値によって、同値類にわけられる。
定義3.9 変数集合X上のグラフK1, K2がI-同値 (I-equivalent) であるとは、I(K1) = I(K2) であることをいう。
19
3.3.4 I-Equivalence
• I(K1) = I(K2) のとき、PがK1上で分解するならば、PはK2上でも分解する
(Il(K2) ⊆ I(K2) = I(K1) ⊆ I(P) なので定理3.1より)
• すなわち、確率分布Pの条件付き独立性について、K1もK2も同じだけのことしか規定しない。
Y
X
X
Y
例えば、確率分布 P(X,Y) の条件付き独立性から 「影響の方向」を確定させることはできない。
20
3.3.4 I-Equivalence
• 2つのグラフがI-同値かどうか判定したい
定義3.11 v-structure X→Z←Y がimmoralityであるとは、XとYを直接つなぐ辺(covering edgeと呼ぶ)がないことをいう。
定義3.10 Gの辺をすべて無向辺に置き換えた(無向)グラフのことをGのskeletonと呼ぶ。
21
3.3.4 I-Equivalence
定理3.8 (I-同値と同値な条件その1)
変数集合X上の2つのグラフが同じskeletonと同じimmoralityをもつ ⇔ それらはI-同値
定理3.7 変数集合X上の2つのグラフが同じskeletonと同じv-structureをもつ ⇒ それらはI-同値
22
3.3.4 I-Equivalence 定理3.7(skeleton, v-structureが一致 ⇒ I-同値)の証明
K1のactive なトレイルがK2でもactiveなトレイルとなっていることがいえる。■
定理3.8(skeleton, immoralityが一致 ⇔ I-同値)の証明
(⇒)「K1でノードXからYに路があるならばK2でもXからYに路がある(ただし同じ路とは限らない)」ことが、長さ最小の路に着目すると示される。その後、K1でXからYにactiveなトレイルがあるならばK2でもXからYにactiveなトレイルがあることが示される。
(⇐)skeletonの一致:K1でX→YがあるときにK2でX⇌Yの存在をいう。K1でのXとYの共通の子およびその子孫のみ未観測、その他を観測済ノードとしてI-同値性を用いる。
immoralityの一致:K1でX→Z←Yがimmoralityのとき、XとYの共通の子およびその子孫のみ未観測、その他を観測済ノードとしてI-同値性を用いると、K2でもX→Z←Yがいえる。■ 23
3.3.4 I-Equivalence
定理3.9 (I-同値と同値な条件その2)
2つのグラフG, G’がI-同値 ⇔あるグラフの列 G=G1, G2, …, Gk=G’ が存在し、Gi
とGi+1は、あるcoveredな1本の辺の向きが反転しただけの関係になっている。
X Y
定義3.12 辺 X → Y がcoveredであるとは、PaY
G = PaXG ∪ {X}
をみたすことをいう。
24
× ×
3.3.4 I-Equivalence
定理3.9(I-同値⇔covered辺の反転を繰り返して変形可能)の証明
(⇐)covered辺の反転でskeletonと
immoralityは変化しないので、
定理3.8より示される。
(⇒)skeletonとimmoralityが同じである2つのグラフにおいて、向きが異なる辺のうち少なくとも1本がcovered辺であることを示せばよい(同じ議論を繰り返すことで1本ずつ逆向きの辺を減らしていける)。K1でのトポロジカル順に各ノードに番号がついているとし、向きが異なる辺Xi→Xj(i<j)のうち、jが最小で、そのうちiが最大なる辺を1本とると、それがcoveredであることが示される。■
X Y
25
3.3 Independencies in Graphs
本節のまとめ
• ベイジアンネットワークG上で分解する確率分布Pが、どのような条件付き独立性を一般に持っているかを知りたい
• グラフ的な概念「有向分離(d-separation)」から定まるI(G)と、グラフG上で分解する確率分布Pがもつ条件付き独立性I(P)との関係を論じる
• I(K1)=I(K2)(I-同値)か否かは
skeletonとimmoralityを見ればわかる
G上で分解するほとんど全てのPについて I(P) = I(G)
26
PがG上で分解 ⇔ I(G)⊆I(P)
3. 4 From Distributions to Graphs
本節の流れ
• 確率分布Pだけが具体的に与えられているとき、Pを分解するグラフGを見つけたい。 – 前節の結果(I(G)⊆I(P)、ほとんどのPでI(G)⊇I(P))
から、条件付き独立性をグラフで議論可能に
• なるべく簡潔なグラフGを見つけたい。 – 完全グラフK上でならどんな確率分布も分解するが、
嬉しくない(I(K)=φなので)。グラフからPの条件付き独立性がなるべくわかる方がよい
– 推論や学習の際の計算量削減にかかわる
27
3.4.1 Minimal I-Maps
定義3.13 • グラフKが、独立性集合Iのminimal I-mapであるとは、KがIのI-mapであり(I(K)⊆I)、かつ辺を1本でも取り除くとIのI-mapでなくなるようなものであることをいう。
• グラフKが、確率分布Pのminimal I-mapであるとは、KがI(P)のminimal I-mapであることをいう。
28
3.4.1 Minimal I-Maps
アルゴリズム3.2(minimal I-mapの構成) • 変数に予め順番が定められているものとし、その順に変数をX1, X2, …, Xnと呼ぶことにする。 • i = 1,2,…, n について:
(Xi ⊥ {X1, …, Xi-1}-U | U) ∈ I をみたす変数集合U(⊆ {X1, …, Xi-1})のうち極小なものを1つとり、それを Xi の親と定める。
29
3.4.1 Minimal I-Maps • 例3.5
• 確率分布Pstudentのminimal I-map を前述のアルゴリズムで求めよう
• 右のグラフGはPstudentを
分解しているため、
I(G) ⊆ I(Pstudent) であり、つまり I-map の一つである
D
G
L
I
S
30
3.4.1 Minimal I-Maps • 例3.5
変数の順番がL,S,G,I,Dの場合
• i = 1,2,…, n について
(Xi ⊥ {X1, …, Xi-1}-U | U) ∈ I をみたす変数集合U(⊆ {X1, …, Xi-1})のうち極小なものを1つとり、それを Xi の親と定める。
D
G
L
I
S
31
3.4.1 Minimal I-Maps • 例3.5
変数の順番がL,D,S,I,Gの場合
D
G
L
I
S
確率分布がもつ条件付き独立性を 捉えられていない 32
D
G
L
I
S
D⊥L | φ S⊥L, D| φ S⊥L|D S⊥D|L I⊥L, D, S| φ I⊥L, D|S I⊥D|S, L I⊥L|S, D G⊥S|D, I, L
i = 1,2,…, n について
(Xi ⊥ {X1, …, Xi-1}-U | U) ∈ I をみたす変数集合U(⊆ {X1, …, Xi-1})のうち極小なものを1つとり、それを Xi の親と定める。
辺数多すぎ
3.4.2 Perfect Maps
• 与えられた確率分布PのP-mapを見つけたい
• しかし…
定義3.14 グラフKが独立性の集合Iのperfect map(P-map)であるとは、I(K) = I をみたすことをいう。 グラフKが確率分布PのP-mapであるとは、KがI(P)のP-mapであることをいう。
33
3.4.2 Perfect Maps
• 例3.6(P-mapが存在しない確率分布の例1)
Val(X) = Val(Y) = Val(Z) = {0, 1}
P(x,y,z) = 1/12 (if xor(x,y,z)=1), 1/6 (otherwise)
• (X⊥Y), (Y⊥Z), (Z⊥X) ∈ I(P)
• (Y⊥Z | X) は I(P) に含まれない
• minimal I-mapの一つは X → Z ← Y だが
(X⊥Z)はグラフからはわからない
(I(G)に含まれない)
X
Z
Y
34
3.4.2 Perfect Maps
• 例3.7(P-mapが存在しない確率分布の例2)
Val(C) = {1,2}
P(c,L1,L2,J) = P1(L1,J) (if c=1), P2(L2,J) (if c=2)
minimal I-mapの一つは右図だが
(L1⊥L2 | C, J) ∈ I(P) は
グラフからわからない(I(G)に含まれない)
L1
J
L2 C
35
3.4.2 Perfect Maps
• 例3.8(P-mapが存在しない確率分布の例3)
Val(A)=Val(B)=Val(C)=Val(D)={0,1}
A-B, B-C, C-D, D-A の間でのみ
情報がやり取りされている
右のいずれもダメ
(B⊥D | A,C) ∈ I(P)は
I(G)に含まれない
D
C
B
A
D
C
B
A 36 C
B
A
D
3.4.3 Finding Perfect Maps*
• 省略
37
3.5 Summary
• ベイジアンネットワークの2つの見方 – 確率分布の分解P(X1,…,Xn) = Πi P(Xi | Pa(Xi)) を与えるもの – 条件付き独立性{(X⊥Y | Z)}を定めるもの
• 局所的構造から定まる local independencies (Il(G)) • 有向分離から定まる global independencies (I(G))
• 2つの見方は同じことだった! – PがG上で分解 ⇔ PがIl(G)をみたす ⇔ PがI(G)をみたす
• 有向分離(で定義されるI(G))は素晴らしい – グラフGの構造が確率分布に要請する「条件付き独立
性」を完全に特徴づけている(Gを分解するほとんど全てのPについてI(P) = I(G)である)
– I(G)の計算や一致判定は容易 – I-同値類は部分有向非巡回グラフ(PDAG)を用いて表現で
きる – I(G)=I(P)をみたすGが存在するとは限らない 38