Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing

CHAPTER 11NULL HYPOTHESIS SIGNIFICANCE TESTINGHiroki Takanashi

([email protected])

本章のサマリ• NHST( 帰無仮説検定 ) とベイジアン分析との対比を説明• 新しい手法の提示はでなく、帰無仮説検定の問題点の提示と、ベイジ

アン分析が優れている理由を述べている章

★ 帰無仮説検定の問題点　　データの解釈が実験者の「意図　 ( 内心 ) 」でに依存するため、対象とする可能性空間の設定方法次第で、検定結果が変わる　　実験者がデータを逐次みながら検定を考えることで、本来の検定結果よりも有意度が高く出てしまう（ false alarm)

★ ベイジアン分析が優れている点　事後確率 (posterior) の分析が全てなので、実験者の意図によってデータの解釈が変わることがない。　観測対象に対する知識などを事前確率 (priterior) に含める、明らかな議論となるので、実験者の「内心」には関係しない

【導入】帰無仮説検定とベイジアン分析

ベイジアン分析は、伝統的な帰無仮説検定(NHST) と対応させることができる。具体的には以下の問題を例として２つを比較する。

問題“ ２６回コインを投げて８回表が出た。このコインは偏っているか？”

【導入】帰無仮説検定の問題• NHST の結果は、実験者の意図（内心）に左右される。

• 観測結果は同じ N=26 、 z=8 でも•①N=26 となるように投げた（つもり）•②z=8 となるように投げた（つもり）•③1 分間投げ続けた（つもり）

によって、 NHSTの際に設定する可能性空間が変わるため、検定 ( コインの公正さ ) の結論が変わってしまう

11.1 コインの偏りの帰無仮説検定• 「コインが偏っている」ことの帰無仮説検

定

コインが偏っていることに対する帰無仮説 “ コインは偏っていない (θ=0.5)”

を一定の有意水準 (ex. 5%)で棄却できれば、「コインは偏っている ( だろう」と言える。

11.1.1 N=26 固定として投げた場合N 回コインを投げて、 z 回表になる確率

θ=0.5 としたときの、確率分布

11.1.1 N=26 固定として投げた場合

2.5% 2.5%

サンプルの z が、確率分布の両端 5% に含まれているならば帰無仮説を否定できる

95%

今回 (z=8) は両端に含まれないので、帰無仮説は否定されない（偏っているとは言えない）

11.1.2 z=8 固定として投げた場合z 回表がでるまでに N 回コインを投げる確率

θ=0.5 としたときの、確率分布

11.1.2 z=8 固定として投げた場合

2.5% 2.5%

サンプルの N が、確率分布の両端 5% に含まれているならば帰無仮説を否定できる

95%

今回 (N=26) は両端に含まれるので、帰無仮説は否定される（偏っていると言える）

11.1.3 “ 内心”の詮索• 観測結果は同じN=26、 z=8 でも

•①N=26 となるように投げた（つもり）• 　　→帰無仮説が否定されなかった（コインが偏ってるとは言えない）

•②z=8 となるように投げた（つもり）• 　　→帰無仮説が否定された（コインが偏っていると言える）

• NHST の結果は、実験者の意図（内心）に左右されてしまっている。（よろしくない）

11.1.3 “ 内心”の詮索• 実際の環境では実験者は”予備的な”データ

収集を行って、データを観察する• ① 現在集まっているデータに対して帰無仮説検

定を実施• ② 有意な結果が得られたら終了、有意でなけれ

ばデータをさらに集めて①を繰り返す

⇒ このような操作を行うと、有意水準を5% としても、誤って有意だと判定する(false alarm)可能性はそれ以上に上がる

11.1.3 “ 内心”の詮索

試行回数 false alarmとなる検定結果を生み出せる確率

10 5.5%20 10.7%30 14.9%40 15.4%50 17.1%

【例】本当は偏りのないコインを毎回投げる。毎回ごとに有意水準 5% で NHST を行い、有意な結果 ( 帰無仮説を否定 ) が出たら終了する。

11.1.4 ベイジアン分析• ベイジアン分析では、観測されたデータの

みを扱う。 NHST のように ( 未観測の )” 可能性の空間”を仮定することはない。

• よって、ベイジアン分析では、データの解釈が実験者の主観に依存することはない。

• N 回コインを投げた時 z 回表がでる尤度(likelihood) は常に

11.2 観測対象に対する事前知識【例】コインではなく釘を投げる場合•釘が表（立った状態）になりづらい、という事前知識を実験者は持っている

•「釘が公正か？」を検定したい釘が「立ったら」表

11.2.1 帰無仮説検定• 帰無仮説検定では、コインの性質（表が出

やすいなど）に対する事前知識を含められない

• 釘を 26 回投げて 8 回表が出た場合も、「釘が偏っていない (θ=0.5)と言えなかった」という検定結果しか主張できない。

11.2.2 ベイジアン分析• ベイジアン分析であれば、「釘は表になり

にくい」という事前知識を事前確率 (prior)に含めることができる

• Ex) 20 回投げて 2 回しか表が出そうにない• ⇒ 　 beta(θ | 2, 20) 　を事前確率として用

いる　　　この事前確率を、 N=26 、 z=8 で更新する。

11.2.2 ベイジアン分析

事前知識を、事前確率に盛り込む

事後確率として、結果が得られる(公正ではなさそう )

N=26, z=8で更新

11.2.2.1 事前確率は明確に影響する帰無仮説検定

観測事実結論可能性空間

実験者の内心(暗黙的 )ベイジアン分析

事前確率

事前知識（明示的）

観測事実

事後確率( 結論 )

11.3 信頼区間と HDI

• 信頼区間＝変数 (θ) が、一定の有意水準における帰無仮説で棄却されない区間

• 帰無仮説検定における信頼区間 (confidence interval) と、ベイジアン分析の HDI(highest density interval) が対応する。

• 帰無仮説検定では、前節と同様に実験者の意図（内心）によって、信頼区間の値 (結論 )が変わってしまう。

11.3.1 NHST の信頼区間•N=26 固定として z を確率変数と考えた時。

•θ に対する 5% 有意水準での信頼区間は θ [0.144, 0.517]∈

0.144 0.517

棄却される棄却される帰無仮説検定で棄却されない区間

θ

11.3.1 NHST の信頼区間N=26 固定で z を確率変数と見た時。

θ [0.144, 0.517]∈

11.3.1 NHST の信頼区間z=9 固定として N を確率変数と考えた時。

θ [0.144, 0.493]∈

11.3.1 NHST の信頼区間• 同じ N=26 、 z=8 の観測結果に対して•①N=26 固定として z を確率変数と考えた時。• ⇒ 信頼区間は θ [0.144, 0.517]∈

•②z=8 固定として N を確率変数と考えた時。• ⇒ 信頼区間は θ [0.144, 0.493]∈

• 実験者の意図（内心）によって、同じ変数 θに対する信頼区間の計算結果が変わる。

11.3.2 ベイジアン HDI• 設定した事前確率 beta(θ | 11, 11) に対して、N=26 、 z=8 の観測結果を得た後の事後確率が必ず１つ定まる。

• ここから 95% HDI•　　 θ [0.261, 0.533]∈ が求まる。

• 実験者の意図（内心）は影響しない

11.3.2 ベイジアン HDI

11.3.2 ベイジアン HDI

•HDI の信頼区間に対する利点•①HDI は θ の分布 p(θ | D) を直接表現できる（ NHST の信頼区間は、 θ の分布には直接関係がない )

•②HDI は事前確率と観測事実のみに基づき、実験者の意図（内心）に対して一切依存しない

•③HDI には事前知識が計算に反映される

11.4 複数の比較• 複数のグループ ( 条件 ) を比較する場合においても、

帰無仮説検定とベイジアン分析を対応させられる。• NHST では、グループ間の比較回数を増やすほど

結論が誤り (false alarm) である確率 ( 誤り率 ) が上がる。

• NHST で誤り率を一定以下に抑えるためには、試行回数を制限することになるため、結論が実験者の意図によって影響を受ける。

• ベイジアン分析では、パラメータに対する１つの事後確率しか持たないので、そのような実験者の意図の影響を受けない。

11.4.1 NHST での実験ごとの誤りの修正• 例えば４つのグループがある場合、６通りの組

み合わせで NHST を行うことができる。 ( 全てのグループで μ が同じ、など）

• １回の検定での誤り率 αPC=5% とすると、試行回数 c=6 回検定を行った時の全体の誤り率 αEW

は

• 仮に帰無仮説が正しかったとしても、 26%誤って棄却してしまう。

11.4.1 NHST での実験ごとの誤りの修正

• 検定の回数 c が増えるほど、全体の全体の誤り率 αEW は大きく増加する。

• ※）ただし、現実のケースでは全ての検定が独立ではない。この場合 αEW の増加は c に対して抑えられる

• 全体としての誤り率を抑えるためには、１回の検定での誤り率 αPC を制約しなければならない。

• 例） Bonferonni Correction

11.4.1 NHST での実験ごとの誤りの修正• 行うべき検定を実験者がデータを見る前に定めていた(planned) か、データを見た後に決めた (post hoc) かによって誤り率が変わる。

• Post hoc の場合、実験者がデータが有意であるケースのみ検定することで、誤って有意と言ってしまう確率が増幅される。

•※NHST での複数グループに対する検定では、試行回数 c の数で全体の誤り率が修正されるため、試行する検定をデータを見た後に選ぶことは、誤り率の操作になる。

• データを注意深く見て、仮説を定めること自体に対してペナルティが働いてしまう矛盾

11.4.2 ベイジアン分析の場合• ベイジアン分析の場合、事前確率と観測事

実のみによって計算されるため、事後確率は一意に定まる。

• 観測者の意図によって、データの解釈が影響される余地がない。

• 複数グループの比較する場合は、各パラメータの和差 (ex. μi - μ ｊ）についての事後確率の分布を求めることになる。

11.4.2 ベイジアン分析の場合• ベイジアン分析による、複数グループに対

する比較の例

11.4.3 ベイジアン分析における誤りの緩和

• どのような分析方法であっても、誤りの可能性を含むことになる

• ベイジアン分析においては、事前知識を事前確率に含めることで誤り率を緩和できると考える

• グループ全体に対して、何らかの共通性などがあれば、それを事前確率の分布のモデルにあらかじめ含めておくことができる。

11.5 標本分布の有効性• 帰無仮説検定で用いる標本分布は、ベイジア

ン分析の事後確率分布ほど役には立たない（※筆者の主張）

• なぜなら、標本分布で用いる、可能性の空間は特定の仮説に依存し、複数の仮説の可能性を考慮できないため。

• ただし、標本分布を利用することが適切なケースもある。

11.5.1 実験の計画• 実際のデータを集める前に、ベイジアン分

析で必要な精度の HDI を得るためのサンプルサイズを計算する。

• 例えば、 θ=0.60 であるという仮説をベイジアン分析を用いて検証するうえで、 z=100 のサンプルサイズで十分か、仮の標本集合を作ってあてはめてみて検証する。

11.5.2 モデルの予測性の検討( 事後確率の予測性のチェック）• 事後確率はパラメータが悪くない範囲のみを

示す（もっとも“悪くない”パラメータの値が、実際に適切か、までは言えない）

• 【例】 99%裏表モデル• ①θ=0.99 、② θ=0.01 、の２つのモデルがを考える。• N=40 、 z=30 の観測事実に対して事後確率を計算

することで①のほうが望ましいとわかる。• ① に従った事後確率分布が N=40 、 z=30 の観測

事実について本当に適切かは別の問題。

11.5.2 モデルの予測性の検討( 事後確率の予測性のチェック）• 実際に事後確率パラメータが有効かをチェックするた

めに、事後確率予測性チェック (posterior predictive check) を行う。

• 事後確率パラメータから予測された結果が、実データに”似ていた”場合、そのパラメータ（モデル）が適切だと判断できる。

•パラメータを使って、結果の予測と実データとの比較を繰り返すことは NHST とよく似ている。

•モデルの標本空間のどこに実データが入るかをみることになる。（誤り率に対する許容値を定められば直接NHST になる）

Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing

Education