統計的因果推論勉強用　isseing333

東京大学医学系研究科

倉橋一成

第1章◦ 確率、グラフ、因果モデル入門

確率は何を表現しているか？◦ 科学的に記述できない不確実性

◦ 例外の部分

わざわざ記述する必要がない場合

モデルをシンプルにするために記述しない場合

確率の公理（離散、ベイズの場合、確率は確信度を表す）

1. 0≦P(A)≦12. P(確実な事象)=13. AとBが排反であればP(A∨B)=P(A)+P(B)

P(A)に関して2種類の記述方法◦ 積集合を用いた表現 Σi P(A,Bi) Bについて周辺をとる

P(A)はAの周辺確率

◦ 条件付き確率を用いた表現 Σi P(A|Bi)P(Bi)

条件付き確率に対する記述◦ 伝統的な記述 P(A|B)=P(A,B)/P(B) P(A,B)をP(B)で基準化している

P(A|B) は常にP(A,B)より小さくはならない

Bである事がわかれば情報量が減るということはない

P(B)はBが分かったときの驚きの程度（頻度論的には起こりにくさ）

◦ ベイズの定理 P(B|A)=P(A|B)P(B)/P(A) 伝統的な記述を拡張した記述

数学的には同値だが解釈に意味がある

P(B|A) ：データが得られた後の仮説の確信度（事後確率）

P(A|B) ：Bが真である場合に得られる尤度

P(B) ：仮説の事前確信度（事前確率）

P(A) ：事後確率の和が1になるための基準化定数

独立と条件付き独立◦ P(A)=P(A|B)であるときAとBは独立◦ P(A|B,C)=P(A|C)のときAとBはCを与えた下での条件付き独立 (A独立B|C)と書く場合もある

疫学はこの書き方が多い

サイコロの例◦ サイコロを2回振って2回とも同じ値が出る確率

事象A：2回とも同じ値が出る

事象Bi：1回目に出た値がiである

◦ P(A)=Σi P(A|Bi)P(Bi)=Σi 1/6・ 1/6 =1/6 P(A)=1/6、P(A|Bi)=1/6だからAとBiは独立

P(A,Bi)=1/36≠0だからAとBiは排反ではない

独立と排反は異なった概念

条件付き確率の拡張◦ P(A) =P(A|B)P(B)◦ P(A|K)=P(A|B,K)P(B|K) 新たに条件付ける際は、条件付けるもの（この場合はK）を確定な事象の側に入れれば良い

連鎖公式◦ P(E1,E2,E3,E4)=P(E1|E2,E3,E4)P(E2|E3,E4)P(E3|E4)P(E4)

P(○|□)不確定な事象（まだ起こっていない）

確定な事象（もう起こった）

ベイズの定理

◦ カジノの例隣の人が「12だ！」と叫んだとき、その人がダイスをやってるかルーレットをやってるか？

P(12|ダイス)=1/36、P(12|ルーレット)=1/38である

カジノ内の割合がP(ダイス)=7/10、P(ルーレット)=3/10とする

P(ダイス|12)=(1/36*7/10)/(1/36*7/10+1/38*3/10)=0.711 事後確率は事前確率よりわずかに大きくなっている

P(H|e)= P(e|H) P(H)P(e)

Hが真である場合にデータが得られる尤度

仮説の事前確信度

データが得られた後の仮説の確信度正規化定数

・P(H|e)+P(¬H|e)=1とするための基準化・ベイズ事後確率の分母・Hが多値の場合はΣi P(e|Hi)P(Hi)

e：得られた証拠（データ）H：確かめたい仮説

用語◦ 同時分布の場合根元事象が集まって点（配列）を作る◦ 配列全体が確率空間（確率モデル）となるコインを3回投げる例根元事象：H or T が3個点（配列）：HHH, HHT, …, TTT 確率空間：配列の全体集合（{HHH, HHT, …, TTT}）

ベイズの定理をオッズで表現◦ ベイズの式をP(¬H|e)で割る

◦ P(H|e)=O(H|e)/1+O(H|e)を利用すると事前オッズと尤度比で事後確率を計算できる

P(H|e) P(e|H) P(H)P(e|¬H) P(¬H)

事後オッズ

P(¬H|e)=

尤度比事前オッズ

仮説Hに対して、・尤度比：診断的・後ろ向き・事前オッズ：予測的・前向き

な裏付け

期待値：E(X) =Σx in Dx xP(x) 条件付き期待値：E(X|y) =Σx in Dx xP(x|y)◦ Σx in Dx (x-x’)P(x|y)を最小

x’に対しての平均二乗誤差

◦ 最良推定量（←確認）

変数変換の期待値：E[g(x)] =Σx in Dx g(x)P(x)◦ 分散：σx

2 =E[(X-E(X))2] g(X)=(X-E(X))2

同時分布関数のー：E[g(X, Y)] =Σxy in Dxy g(x,y)P(x,y)◦ 共分散：σxy =E[(X-E(X))(Y-E(Y))] g(X, Y)=(X-E(X))(Y-E(Y))◦ 相関係数：ρxy =σxy/σx σy （←行列確認）

◦ 回帰係数：ρxyσx/σy=σxy/σy2 →行列：(XX)XY

グラフォイド原理（Pearl and Paz, 1987, Advances in Artificial Intelligence-II, 357-363）◦ 条件付き独立を(A独立B|C)と書く P(A|B,C)=P(A|C) 部分集合Aから部分集合Bまでの全ての道は部分集合Cの要素によって切断される

◦ 対称性：(X独立Y|Z) ⇒(Y独立X|Z) YからXに関する追加の情報がなければXからYに関する追加の情報は得られない

◦ 分解性：(X独立YW|Z) ⇒(X独立Y|Z) 2つの項目を組み合わせた情報がXと関係のない場合は、それらの項目それぞれもX

とは関係ない

◦ 弱結合性：(X独立YW|Z) ⇒(X独立Y|ZW) Xとは関係のない情報Wが得られても、もともとXと関係ないYはXと関連をもたない

◦ 縮約性：(X独立Y|Z) and (X独立W|ZY) ⇒(X独立YW|Z) Xと関係のないYが得られたあとにWがXと関係しないならば、WはYの情報を得る前に

もXと関係がない

◦ 交差性： (X独立Y|ZW) and (X独立W|ZY)⇒(X独立YW|Z) 縮約性とほぼ同値

因果グラフ◦ V 頂点（ノード）：確率変数◦ E 辺（リンク）：変数間になんらかの関係がある意味は分野によって異なる辺で結ばれた2つの変数は隣接する有向辺（矢線）、無向辺、双方向辺（交絡因子の存在を示す）全ての辺が矢線であれば有向グラフ巡回(X→Y, Y←X)していても良いが自己ループ(X→X)は認めない巡回のないグラフを非巡回的有向グラフ(directed acyclic graph,DAG) 全ての頂点が高々1つしか親をもたないDAGをツリー全ての頂点が高々1つしか子をもたないツリーを閉鎖経路

頂点の全ての組が連結しているグラフは完全である◦ スケルトン：グラフGから全ての辺を除いた状態◦ 道：先行する辺の頂点から始まる辺の列矢線の向きが同じ場合は有向道変数間に道があれば連結されている、なければ切断されている

◦ 親、子、子孫、先祖、配偶者（交絡されている変数同士）◦ ルート：親を持たない頂点◦ シンク：子を持たない頂点

ベイジアン・ネットワーク◦ 同時確率関数の簡潔な表現を円滑に行うことが主点

無向グラフ：マルコフ・ネットワーク

有向グラフ：ベイジアン・ネットワーク

1. 入力情報の主観性

2. 情報更新におけるベイズの定理への依存性

3. 1973年のThomas Bayesのエッセイで強調されているように、因果に基づく推論と証拠に基づく推論の相違性

◦ DAGに基づく逐次的因数分解

X1, …, Xnの同時分布を連鎖公式を使って分解する

P(x1, …, xn)=∏j P(xj|x1, …, xj-1) xjはxj+1以降の変数には依存せず、x1, …, xj-1は非子孫となる

ここでxjが非子孫の一部(PAj)以外とは独立である場合

P(xj|x1, …, xj-1)= P(xj|PAj) → P(x1, …, xn)=∏j P(xj|PAj) PAj：マルコフ的親と定義

ベイジアン・ネットワーク（DAG）作成の手順◦ Xjと非子孫を分離する最小集合のPAｊの各頂点から矢線

(X1, X2)が従属 X1からX2に矢線

X3が{X1, X2}と独立矢線を引かない

・X1がX3を分離・X2がX3を分離・どちらでもない

・X1からX3に矢線・X2からX3に矢線・両方からX3に矢線

①

②

スプリンクラーの例◦ 季節：春～冬の4値◦ その他：真偽の2値 1から5に矢線が無い

季節の効果は他の変数を通じて滑りやすさに影響を与える

4を条件付けると5と1～3は独立となる

滑りやすさを知るためには濡れ具合さえ分かっていれば良い

◦ 同時分布は以下のように因数分解

P(x1,x2,x3,x4,x5)=P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4)

因数分解できればDAG Gは確率Pのベイジアン・ネットワークである

X1季節

X2スプリンクラー

X3雨

X4濡れ具合

X5滑りやすさ

有向分離基準◦ 条件付き独立関係の調べ方（DAGの作り方）◦ 定義道pが次のどちらかを満たすとき、道pは頂点集合Zによって有向分離（ブロック）されるという

1. 道pは、ある頂点mがZに含まれるような連鎖経路(i→m→j)か分岐経路(i←m→j)を含む

iとjは周辺従属しているが、mで条件づける（値が分かる）と独立になる

季節が分かればX3とX2は独立である

2. 道pは、mもその子孫もZに含まれないような合流経路(i→m←j)を含む

2つの原因が共通の結果をもつ状況

iとjは周辺独立であるが、mまたはその子孫で条件付けると、道が連結されるため従属となる（コライダーバイアス、バークソンバイアス）

X4またはX5が分かればX3とX2は従属する片方を否定すれば片方の確率が高くなるため従属（関連）している

◦ X={X2},Y={X3},Z={X1}とすると ZはXとYを有向分離している（定義1）道X←Z→Yをブロックする（定義1） Zは道X2→X4←X3をブロックする（定義2）

有向分離基準の例

◦ XとYは如何なる場合も有向分離されない

Z1で条件づけ：道①はブロックされるが道②はブロックされない

Z2で条件づけ：道①はブロックされるが道②はブロックされない

Z1

X Z2 Y

道①

道②

有向分離基準と条件付き確率の定理 ZがXとYを有向分離している状態を(X独立Y|Z)Gと表現する

条件付き独立は(X独立Y|Z)Pと表現する

◦ 定理1. GとPが整合するならば、(X独立Y|Z)G⇒(X独立Y|Z)P2. Gと整合するすべての確率分布において(X独立Y|Z)Pが成り立つなら

ば、(X独立Y|Z)G

有向分離基準の確認方法◦ Lauritzen, 1990, Networks, 20: 491-505

観察的同値性の定理◦ 2つのDAGが観察的同値である⇔2つのグラフが同じスケルトンであり同じv字合流を持つ

観察的同値であるグラフはデータだけでは、どちらが正しいか（矢線の向き）を決定できない

スプリンクラーの例

X1→X2を逆にしたグラフは観察的同値である

X2→X4を逆にしたグラフは観察的同値でない

ベイジアン・ネットワークの推定方法の例 1980年代初頭に開発

新しく入力される観測値がすでに得られている事前情報や観測値と矛盾しないというグラフを見つける

◦ メッセージ・パッシング・アーキテクチャー Pearl, 1982 ツリー構造に限られる

◦ ジョイン・ツリー・プロパゲーション法 Lauritzen and Spiegelhalter, 1988 クラスター単位でのグラフを作成スプリンクラーの例

{X1,X2,X3}→{X2,X3,X4}→{X4,X5} 計算量がネットワークの大きさに対して指数的に増加

◦ カットセット・コンディショニング法 Pearl, 1988 いくつかの結果を平均化計算量がネットワークの大きさに対して線形に増加

◦ ハイブリッド法 Schachter, 1994; Dechter, 1996

◦ 確率論的シミュレーション（ギブスサンプリング） Pearl, 1988

因果ベイジアン・ネットワーク◦ DAGは必ずしも因果関係を意味するものではないが、実際に使われるときは因果的解釈をしようとしている

◦ 利点①：因果関係に関する基本知識と観察データを結びつけて意味があり、利用しやすく、信頼できる結果を得られる相関的な知識よりも因果的な知識の方があるかに上位確率的な情報を無視し、因果的な情報だけに注目する場合もある

因果関係があっても、確率に出ない場合もあるから

青い目の親子の例

Tversky and Kahneman, 1980, Progress in Social Psychology, 49-72

◦ 利点②：得られた結果の外的、自発的変化を簡単に表現し、再構成が簡単に出来るスプリンクラーの例

故障したスプリンクラーを表現するには、その頂点に向かう矢線をすべて取り除く

雨が降ったらスプリンクラーが動かないのであれば、雨からスプリンクラーに矢線を加えれば良い

因果ベイジアン・ネットワークの定義 V：変数全体

X：介入変数

P(v)：Vの確率分布

Px(v):介入したときの確率分布

1. Px(v)はGについてマルコフ的

2. 「介入する」確率は1である

3. 介入しているときの確率分布は P(v)とPx(v)で等しい

「スプリンクラーを作動させる」介入◦ 定義2：PX2=作動(X2=作動)=1 季節からの矢線か消える

作動させてしまえばもはや季節に関係ない

◦ 定義3：PX2=作動(X4|X2=作動,X3)=P(X4|X2=作動,X3)◦ P(x1,x2,x3,x4,x5)=P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4)◦ PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4)

1

2 3

4

5

1

2 3

4

5

P

PX2=作動

切断的因数分解

◦PX=x(v)=∏{i| Vi not in X}P(vi|pai)

◦ スプリンクラーの例

PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4) x2は確率変数ではなくなっている

因果関係と確率関係

◦ 因果関係

存在論的であり不変

「スプリンクラーの状態は雨量に影響を与えない」

◦ 確率関係

認識論的であり変化

「スプリンクラーの状態と雨量は独立である」

季節が分かるとスプリンクラーと雨量は独立になる

季節が分かりさらに歩道が濡れていれば非独立になる

介入変数非介入変数非介入変数の親（介入変数を含む場合も）

因果モデル◦ 準決定論的概念遺伝学：Wright, 1921, J of Agricultural Res, 20:557-585 経済学：Haavelmo, 1943, Econometrica, 11:1-12 社会科学：Duncan, 1975, Introduction to Structural Equation Models 因果関係は決定論的な関数方程式で記述され、確率はその方程式に観測されない誤差の部分である

Laplace, 1814の思想を表現している

一般的な概念

人間の直感と調和している

量子力学の結果はLaplaceの概念による予測と矛盾する

反事実的概念はLaplaceの概念でなければ記述できない

◦ 確率的概念ベイジアン・ネットワーク（因果モデル）の概念

自然法則は本質的に確率的であり、決定論は便利のよい近似にすぎない現代の量子力学的な概念

対比

構造方程式（構造モデル、因果モデル） xi=fi(pai, ui), i=1,…,n pai：親

ui：不特定な原因、誤差

SEMはこの関数が線形なもの

◦ スプリンクラーの例 x1=u1 =(春 or 夏 or 秋 or 冬) x2=f2(x1, u2) =[(X1=春) or (X1=夏) or u2] and ¬u2’ x3=f3(x1, u3) =[(X1=秋) or (X1=冬) or u3] and ¬u3’ x4=f4(x2, x3, u4) =(x2 or x3 or u4) and ¬u4’ x5=f5(x4, u5) =(x4 or x5) and ¬u5’ 春と夏はスプリンクラーが作動しやすい

u2：春でも夏でもないときに作動する不特定な原因

u2’：季節に関係なく作動しない不特定な原因（ ¬ を付けているため）

同じ変数でも、左辺と右辺では意味が違う（後述）

◦ 予測・介入・反事実の3つに焦点を当てる

反事実：現在歩道は滑りにくいがスプリンクラーは作動している。この条件の下で、スプリンクラーが作動していなかったら歩道は滑りやすいか

確率的予測◦ 関数因果モデルを利用する利点

1. 因果ダイアグラムGで表現される条件付き独立関係は定常

2. 使用パラメータが少なくて済む

3. 観測変数間の条件付き独立関係の判断が容易になる

◦ 同時分布を規定すれば計算できる

介入と因果効果◦ 背景要因が行動の影響を受ける場合は介入効果の推定が困難対象となっている状況そのものが介入で変化

定常的なベイジアン・ネットワークで介入を表現しても推定不可

◦ 関数因果モデルでは関数関係は不変であるため推定が可能◦ 同時分布と因果構造によって計算する

反事実◦ 得られたデータの基づいて反事実的問題に答えられない

直接的な検証によって答えられる問題だけに対して統計解析を用いるように主張する統計学者もいる（Dawid, 2000, JASA, 407-）

◦ 反事実解析は実質科学的知識を精緻化し、統計データを解釈する

反事実の定式化◦ Stalnaker (1968)、Lewis (1973)が近傍世界的意味論を使って反事実の理論を構築近傍を決定する距離をどのように定義すれば良いかという課題

Rubin (1974)、Robins (1986)らはLewisのアプローチと類似のものを利用している（潜在反応アプローチ）本質的な知識は反事実変数どうしの確率（独立）関係で表現される

◦ 7章で近傍世界的意味論、潜在反応アプローチ、構造モデルアプローチの説明・比較近傍的世界論：仮想的世界のような抽象的概念

潜在反応モデル：未定義の基関数

構造モデル：仮想的世界の生成にかかわる現実的なメカニズムに依存しており、因果メカニズムとその構造に関する基本的な概念

1. 確率的因果モデル（定義7.1.6）では反事実確率を計算するには不十分

2. 関数因果モデルは反事実確率への数学的根拠がある

次の3ステップで計算可能1. 確率P(u)（モデルの変数）を更新してP(u|e)を得る2. Xが関与する方程式をX=x（反事実）に置き換える3. 修正されたモデルでY=yの確率を計算する 7章で説明するツインネットワークも有効な計算方法現実世界と反事実世界の確率伝播法

◦ 関数関係や省略された変数の分布を決定すれば計算できる

ランダム化臨床試験の例◦ Xが治療、Yが死亡を表す◦ XとYを2値変数U1、U2を使って以下のようにモデル化する P(u1=1)=P(u2=1)=0.5とする

◦ x=u1◦ y=xu2+(1-x)(1-u2)◦ このとき、「治療を受けて死亡した患者が、もし治療を受けなかったときの反事実確率」の算出は以下の手順で求める1. 治療を受けて死亡(x=y=1)をモデルに代入し、u1=u2=1を得る2. このパラメータの下で反事実であるx=0を代入する3. y=0を得る

◦ 仮想的条件の下では回復する確率は1となる

2章：予測 3章～6章：介入 7章～10章：反事実用語◦ 確率パラメータ◦ 統計パラメータ◦ 因果パラメータ因果モデルに基づいて定義される量

◦ 統計的仮定◦ 因果的仮定因果モデルに対する仮定・制約この仮定が無い限り、統計パラメータと因果パラメータを識別することはできない

グレンジャー因果性（Granger, 1969）や強外生生（Engle, 1983）といった経済時系列モデルは因果モデルではなく統計モデルである因果的仮説がなければ介入や反事実効果を識別できないため

心理的障壁◦ 観察研究では検証不可な事をモデルとして形成することへの抵抗◦ 新しい確率計算の概念の導入への抵抗（Cox, 1993, Statistical Science, 204-）

第2章◦ 因果関係を推測するための理論

Hume（1700年代）の時代から観察データからどのように因果関係を解明できるかが議論されている

1980年代にグラフと確率的従属性との数学的関係が脚光を浴び、形式的に扱うことで計算も実行可能◦ Rebane and Pearl (1987) 時間的な順序のないデータからどのように因果関係を推測できるか

◦ UCLAとカーネギーメロン大学データを用いて因果構造を記述する条件付き独立関係を部分ごとに探し、それらを

つなぎ合わせる TETRAD IIプログラムに実装

◦ スタンフォード大学候補となった因果構造に割り当てられた事前確率を更新するベイジアンアプローチ

◦ Verma and Pearlのアプローチを紹介

2.2節：因果モデルとその概念、帰納的ゲーム 2.3節：極小モデルとOccamの剃刀 2.4節：定常性 2.5節：ICアルゴリズム 2.6節：適切な因果関係の抽出 2.7節：因果関係を識別する本質的な条件 2.8節：因果関係の時間的な側面と統計的な側面 2.9節：因果関係の自動的発見に対する論争

因果関係に対する直感◦ 一般的に時間的順序が因果関係の不可欠なものである

以下の場合は因果推論を行うことはできない（Fisher, 1951）因果的に重要な要因がすべてわかっていない

うまく操作できない変数がある

◦ 時間的順序がわかっていなくても因果関係を予想することはできる（Reichenbach, 1956, The Direction of Time） AとB、BとCは従属しているがAとCは独立である

多くの人がA→B←Cと表現するであろう

X→Y→Z、X←Y→Z、X→Y←Zを基本的な因果構造とする

Rebane-Pearlの回復アルゴリズム

因果構造◦ 定義：DAGと変数集合Vがあるとき、このDAGをVの因果構造という

因果モデル◦ 定義：因果構造Dと、Dと整合するパラメータ集合ΘDの組M=<D, ΘD >を因果モデルという

◦ ΘD：Vの各変数に当てられた関数xi=fi(pai,ui)とuiの確率P(ui) PAiはXiの親、誤差Uiは互いに独立にP(ui)に従う

◦ 因果モデルMが構成されると同時確率分布P(M)ができる観測変数Vの部分集合Oを利用して同時分布P[O]がわかる P[O]の利用してDAGのトポロジーDを復元できるか？

潜在構造◦ 定義：変数集合Vの因果構造Dと観測変数集合O in Vの組L=<D, O>を潜在構造という

モデルの優位性◦ 定義：2つの潜在構造L=<D, O>とL’=<D’, O>に対して、因果構造D’が

Dを表現できるときLはL’よりも優位であるといい、 L≤L’と書く L’の方がより多くの分布を表現でき、冗長な因果構造となっている Lの方が単純な因果構造である

◦ Dの任意のパラメータ集合ΘDをΘ’D’で表現できる

Occamの剃刀◦ より単純な因果構造が良い

(a 独立 b)、(d 独立 {a, b}|c)のみがデータから得られた場合、次の因果構造が極小（最も優位）なものとなる◦ 例

a:風邪を引く, b:熱がある, c:くしゃみをする, d:鼻をかむ

以下の2つの因果構造は同等

極小性の仮定を利用しただけ（極小性原理）で、cがdの原因となっていることが言える

a b

c

d

b

c

d

a

※

定常性◦ パラメータが変化しても独立関係は変化しない

◦ 2つのコインを投げた結果をAとB、AとBが同じ場合は1、異なる場合に0となる変数をCとする

パラメータはコインの表が出る確率

パラメータが共に0.5のとき

生成データから得られる独立関係

1. 任意の2つの変数は周辺独立

2. 第3の変数を与えたときには従属となる

3種類の独立関係が予想できる

A→B←C、 A→C←B、 B→A←Cの3つが極小因果構造となる

パラメータが変わり、異なるデータが得られたとしてもA→C←Bだけは極小因果構造である

因果モデルA→C←Bは定常分布を生成している

パラメータが0.5と0.8である場合はA→C←Bのみが極小因果構造

a b

c

a b

c

a b

c

Θ=(0.5, 0.5)のときのデータから考えられる条件付独立関係

Θ=(0.5, 0.8)のときのデータから考えられる条件付独立関係→この因果構造が定常分布を生成している

a b

c

d

a b

c

d

例１（2つのコインの例）

例２（風邪の例）

・左の因果構造の方が優位→極小性原則より棄却される・(a 独立 b)が存在する→aとbの関連性がうまく相殺されるパラメータでなくてはならないので、定常性原則より棄却される

ICアルゴリズム(Inductive Causation、Verma and Pearl, 1990)◦ 潜在構造を仮定しない場合の、唯一な極小因果構造（D0）と同値なクラスを発見する方法

ステップ1：(a 独立 b|Sab)となるSabをみつける

みつからない場合はaとbを無向辺で結ぶ

ステップ2：隣接しないaとbが共通の隣接点cをもつとき

c in Sabの場合：矢印を加えない

c not in Sabの場合：a→c←bとする

ステップ3：無向辺にできるだけ向きを付ける(Meek, 1995) 規則1：a→b―cであればa→b→cとする

規則2：a→c→b、a―bであればa→bとする

規則3：a―c→b、a―d→b、a―bであればa→bとする

規則4：a―c→d、c→d→b、a―bであればa→bとする

a b c

a b

c

a b

d

c

a d

b

c

IC*アルゴリズム◦ 潜在構造も含めた極小因果モデルを発見する方法

修正ステップ3：できるだけ多くの矢線に*をつける

規則1：a→c―bであればa→c * →bとする

規則2：a * → … * → b、a―bであればa→bとする

マーク付き矢線(→*)：有向道を示す

マークなし矢線(→)：有向道もしくは潜在共通原因（a←L→b）がある

双方向矢線：潜在共通原因（a←L→b）無向辺(ー)：a→b、a←b、潜在共通原因（a←L→b）のどれか

無向辺自体に向きを加えるのではなく、無向辺の端点それぞれに矢印を加えていく

双方向となることもある

◦ スプリンクラーの例

データから次の条件付独立を満たす集合を得る

Sad={b, c},Sae={d}, Sbc={a}, Sbe={d}, Sce={d}

ab c

d

e

ab c

d

e

ab c

d

e*

潜在的原因（マークなし矢線、→）◦ 以下の条件を満たすすべての背景（S）においてXとYは従属する (X 独立 Z|S)、(Z 従属 Y|S)となるZとSが存在する

本質的原因（マーク付き矢線、 →*）◦ 以下の条件のいづれかを満たすすべての背景においてXとYは従属し、次の条件を満たすSがある ZはXの潜在的原因である、(Z 従属 Y|S)、(Z 独立 Y|S∨X) Sだけでは従属しているが、Xを加えると独立になる

XとYは基準1で定義された関係の推移的閉包に含まれる

擬似相関（双方向矢線）◦ 以下の条件を満たすZ1、Z2、S1、S2があるとき、XとYは擬似相関をもつという (Z1 従属 X|S1)、(Z1 独立 Y|S1)、(Z2 従属 Y|S2)、(Z2 独立 X|S2)

時間情報を持つ本質的原因◦ Xに先行するSとZが次の条件を満たす (Z 従属 Y|S)、(Z 独立 Y|S∨X)

時間情報を持つ擬似相関◦ XがYに先行し、XとYが背景Sにおいて従属しており、Zが次の条件を満たす (Z 独立 Y|S)、(Z 従属 X|S)

2.8 因果関係と統計的時間◦ 人間の思考では時間的な期待と統計的な期待の2つに基づいて因果的解釈がなされる Reichenbach (1956)の接続分岐経路と共通原因

時間的時間◦ 定義：経験分布Pと一致する極小因果構造の少なくとも1つと矛盾しない変数順序をPの統計的時間という 1次マルコフモデル：物理的時間と矛盾する統計的時間が得られることもある

2次マルコフモデル：ICアルゴリズムを実行することで物理的時間と一致する統計的時間を得ることができる Xt=aXt-1+bYt-1+e1t

Yt=cXt-1+dYt-1+e2t

◦ 多くの自然現象では、物理的時間は少なくとも1つの統計的時間と一致すると予想される

トウモロコシと豚肉の値段の例(Wright, 1925)◦ ICアルゴリズムでトウモロコシの値段が豚肉の値段を上げている

(Glymour and Cooper, 1999, Computation Causation and Discovery)

批判◦ 統計的関連性から因果関係を推測することへの批判極小性極小性自体への批判は少ないマルコフ的構造を因果モデルと定義することに対して批判が多い Carwright (1995), Lemmer (1993)らが特に批判非マルコフモデルに対する研究（Spirtes, 1995）量子力学的世界ではなくマクロ的世界ではマルコフモデルで充分

定常性ルベーグ測度に基づく正当性（Spirtes, 1993）制約が無い限り、特定のパラメータでしか成立しない因果モデルは定常で

はない Aldrich (1989)の自律性の概念がもう1つの正当性

ベイジアン・アプローチとの関連◦ 事後得点の最も大きい因果ネットワークが選ばれる潜在変数への対処が困難極小性を満たすモデルが優先的に選択される多くのRパッケージはこのアプローチと思われる ICアルゴリズムを行うパッケージはbnlearn（ http://www.bnlearn.com/ ）

http://www.bnlearn.com/�

第３章◦ 因果ダイアグラムと因果効果の識別可能条件

潜在変数がない場合：非実験データから介入効果を推定

潜在変数がある場合：因果効果の識別問題が生じる

因果ダイアグラムを利用して識別可能かどうか調べる

識別可能でない場合はどのような補助実験を行えばよいか、どの変数を新たに観測したら良いか判断できる

do計算法の紹介

構造方程式と回帰方程式の区別

直接効果と間接効果の定義

構造方程式とNeyman-Rubinモデルの関係

Cochranの農業の例（Wainer, 1989, J of Educational Stat, 121-140）

◦ X：土壌薫蒸剤（農薬、農薬散布）

◦ Z：線虫の個体数（害虫）

◦ Z0：昨年の害虫の数（非観測変数）

◦ Y：オート麦の収穫量（収量）

薫蒸は害虫の数と収量に対して直接的に影響を与えている

◦ 条件

農家が薫蒸を決めるのでランダム化実験ができない

農家はZ0に基づいて薫蒸するかどうか決める

Z0非観測変数でありZと強い相関をもつ

薫蒸する前後の線虫の個体数は測定できる

薫蒸の効果は短期間である

線虫の成長は捕食者（鳥など）の個体数に依存する

捕食者の個体数はZ0と相関を持つ

研究者が既に持っている仮定を因果ダイアグラムで表現する◦ この仮定が正しい場合に因果効果がどうなるかを推定する

この因果ダイアグラムはWrightのパスダイアグラムに似ている◦ 1921, J of Agricultural Res, 557-585◦ パスダイアグラム：正規誤差を伴う線形モデル

◦ 因果ダイアグラム：非線形交互作用モデル、ノンパラメトリックモデル

XからYへの因果効果は一致推定できる◦ P(y|do(x))=Σz1Σz2Σz3P(y|z2, z3, x)P(z2|z1, x) Σx’ P(z3|z1, z2, x’)P(z1, x’) P(y|do(x))は介入によって処理変数Xをxと固定したときに収穫量Y=yとなる確率

全ての変数は離散型確率変数である場合

YとZ3が交絡している場合は一致推定できない

YとZ2が交絡している場合は一致推定できる

Pearl and Vermaの決定関数による表現◦ xi=fi(pai, ei)：eは互いに独立な誤差（非観測変数）マルコフ的（全ての従属した変数を観測）

◦ xi=fi(pai, ui)：uは互いに従属した非観測変数も含むセミマルコフ的（観測変数が{X, Y, Z1, Z2, Z3}）

◦ 農業の例 Z0=f0(e0), Z1=f1(Z0, e1), Z2=f2(X, Z1, e2), Z3=f3(B, Z2, e3) B=fB(Z0, eB), X=fX(Z0, eX), Y=fY(X, Z2, Z3, eY) 逐次的因数分解 P(z0, x, z1, b, z2, z3, y)=P(z0) P(x|z0) P(z1|z0) P(b|z0) P(z2|x, z1) P(z3|z2, b) P(y|x,

z2, z3) 因果効果◦ 定義：互いに俳反な集合XとYの実現値xとする。モデルxi=fi(pai, ui)の左辺にXの要素が含まれる方程式を全て取り除き、それ以外の方程式の右辺にあるXをxと置き換えることによって得られるY=yの確率をP(y|do(x))とする。このとき、XからYの確率分布の空間への関数P(y|do(x))をXからYへの因果効果という。介入によって得られるグラフはXへ向かうすべての矢線を取り除いたものになる

Rosenbaum and Rubinの介入効果の定義はE(y|do(x’’))- E(y|do(x’))

介入を“関数fiを変更する外的な力Fi”と解釈できる◦ Fi={do(xi’), idle} P(xi|pai’)=P(xi|pai) when Fi=idle 自然状態

=0 when Fi=do(xi’) and xi not= xi’ 非介入状態

=1 when Fi=do(xi’) and xi = xi’ 介入状態

◦ さまざまなタイプの介入を表現できる

同時介入など

◦ XiがYとFiを有向分離する場合はfiが変化してもP(y|xi)は変わらない

経済指標間の因果関係(Hoover, 1990, Economics and Philosophy, 207-234)

統計的因果推論 勉強用 isseing333

Documents

統計的因果推論勉強用　isseing333