Top Banner
統計的推測 Statistical Inference 推定と検定 母集団と標本 点推定 区間推定 2007.07.04 母平均のまとめ追加 2007.05.25 情報統計学 R より編集 2008.06.20 一部編集 2012.07.06 不偏分散 20120713 信頼区間
57

K070k80 点推定 区間推定

Jul 05, 2015

Download

Documents

t2tarumi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: K070k80 点推定 区間推定

統計的推測  Statistical Inference

推定と検定母集団と標本点推定区間推定

2007.07.04 母平均のまとめ追加2007.05.25 情報統計学 Rより編集

2008.06.20 一部編集2012.07.06 不偏分散

20120713 信頼区間

Page 2: K070k80 点推定 区間推定

母集団と標本• 母集団 population

調査したい全体 θ1θ2...θN

母集団の特性値• 母平均    μ• 母分散    σ2

全数調査• 時間がかかる• 費用がかかる• もともと不可能な場合

Page 3: K070k80 点推定 区間推定

標本調査 sample survey

• 標本 sample 母集団よりランダムに標本を抽出し、観測してデータ    x1,x2,...,xn

が得られる データの値は標本により異なる 確率変数    X1,X2,...,Xn

の実現値

母集団

標本

Page 4: K070k80 点推定 区間推定

可能な標本の組数

• 有限母集団の場合母集団の構成要素(岡山大学の全学生数)    N        (    N=13,000    )

標本数    n        (   n=10      )

• 可能な標本の組数   M =  NCn

• どの組を標本に選ぶか?!

Page 5: K070k80 点推定 区間推定

無作為抽出 random sampling

• 独立性の保証 乱数

• 乱数表• 乱数賽(サイコロ)

• 非復元無作為抽出 without replacement• 復元無作為抽出  with replacement• 層別抽出法      stratified sampling

Page 6: K070k80 点推定 区間推定

乱数賽

Page 7: K070k80 点推定 区間推定

乱数表

Page 8: K070k80 点推定 区間推定

乱数表

• 通常6頁• さいころで利用する頁• 鉛筆を落として最初に使用する値

• 必要な桁数で• 通常下に読んでいく

Page 9: K070k80 点推定 区間推定

47都道府県

• 1 北海道• 2 青森• 3 岩手• 4 秋田• 5 宮城• 6 山形• 7 福島• 8 茨城• 9 栃木• 10 群馬• 11 埼玉• 12 千葉• 13 東京• 14 神奈川• 15 新潟• 16 富山• 17 石川• 18 福井• 19 山梨• 20 長野• 21 岐阜• 22 静岡• 23 愛知

• 24 三重• 25 滋賀• 26 京都• 27 大阪• 28 兵庫• 29 奈良• 30 和歌• 31 鳥取• 32 島根• 33 岡山• 34 広島• 35 山口• 36 徳島• 37 香川• 38 愛媛• 39 高知• 40 福岡• 41 佐賀• 42 長崎• 43 熊本• 44 大分• 45 宮崎• 46 鹿児島• 47 沖縄

Page 10: K070k80 点推定 区間推定

層別無作為抽出法• 市区町村、町丁字別、性別、学年別のように、できるだけ均一な集団(層)に分け

• 各層から無作為抽出

• 各層からどんな割合で標本をとるか 各層の大きさに比例して 各層のばらつきに比例して

Page 11: K070k80 点推定 区間推定

推定と検定

• 推定 estimation 母集団の特性値に何の情報もない 特性値の値はどんな値か知りたい

• 点推定   point estimation• 区間推定 interval estimation/ confidence interval

• 検定 testing 母集団の特性値についてある情報を持っている その情報が正しいか否かを知りたい

• 帰無仮説と対立仮説null hypothesis/ alternative hypothesis

Page 12: K070k80 点推定 区間推定

点推定• 仮想的な母集団

i 名前 θi1 A 1482 B 1603 C 1594 D 1535 E 1516 F 140

> p1 <- c(148, 160, 159, 153, 151, 140) > p1 [1] 148 160 159 153 151 140> mean(p1) [1] 151.8333  母平均> var(p1) [1] 54.96667  母分散

Page 13: K070k80 点推定 区間推定

標本の取り出し方

標本 x1 x2 x3 x4 標本平均

1 A B C D 148 160 159 153 155.00

2 A B C E 148 160 159 151 154.50

3 A B C F 148 160 159 140 151.75

4 A B D E 148 160 153 151 153.00

5 A B D F 148 160 153 140 150.25

6 A B E F 148 160 151 140 149.75

7 A C D E 148 159 153 151 152.75

8 A C D F 148 159 153 140 150.00

9 A C E F 148 159 151 140 149.50

10 A D E F 148 153 151 140 148.00

11 B C D E 160 159 153 151 155.75

12 B C D F 160 159 153 140 153.00

13 B C E F 160 159 151 140 152.75

14 B D E F 160 153 151 140 151.00

15 C D E F 159 153 151 140 150.75総平均 151.833

> mean(c(159, 153, 151, 140)) [1] 150.75途中省略

> mean(c(159, 153, 151, 140)) [1] 150.75> mean(c(155.00, 154.50, 151.75, 153.00, 150.25, + 149.75, 152.75, 150.00, 149.50, 148.00, + 155.75, 153.00, 152.50, 151.00, 150.75)) [1] 151.8333

1512

5646 =

⋅⋅=== CCM nN

Page 14: K070k80 点推定 区間推定

14

情報統計学

点推定

Page 15: K070k80 点推定 区間推定

15点推定と区間推定

• 未知母数 ( パラメータ )θを推定するには 2つの方法がある 区間推定

• 区間で当てる 点推定

• 点で当てる たった一組のデータで求めた値が,母平均の値などに一致する可能性は少ない

• 区間推定 θ1 θ θ≦ ≦ 2のようにある幅をつけて母数 θを推定する方法

• パラメータ θが入るであろう範囲を一定の信頼度(確率)で指定• 点推定

θ=θ0として,幅をつけずに一個の推定値で推定 一点で当てる

Page 16: K070k80 点推定 区間推定

16点推定に望まれる性質

• 不偏性 標本に基づいて推定した値が,偏っていない

• 何回も推定を繰り返すと,平均的には,推定したい値 θにあっている

• 一致性 nを Nに近づけたとき,全数調査の値,母集団のパラメータ θに一致してほしい

• 有効性 一致性,不偏性を満たすものは多数 推定量の分散が小さいほうが望ましい

• 最尤法 あとで説明。

Page 17: K070k80 点推定 区間推定

17不偏性

何回も推定を繰り返すと,平均的に は推定したい値 θ に合っている

Page 18: K070k80 点推定 区間推定

不偏性 unbiasedness

.

.

.

標本 1  推定値

標本 2  推定値

標本 L  推定値Lθ

θ

θ

ˆ

ˆ

ˆ

2

1

母集団

Page 19: K070k80 点推定 区間推定

不偏性• 推定値の期待値が推定したい値

• 平均的にはうまい値を求めている大きめの値、小さめの値に偏っていない

LL

E

θθθ

θθˆˆˆ

ˆ

...21

)(

+++=

=

Page 20: K070k80 点推定 区間推定

20不偏性

Page 21: K070k80 点推定 区間推定

21

Page 22: K070k80 点推定 区間推定

22一致性

Page 23: K070k80 点推定 区間推定

23有効性

Page 24: K070k80 点推定 区間推定

24

• 推定量の分散は小さいほうが望ましい。

が小さい推定量ほど,「有効」 (effective)な推定量

Page 25: K070k80 点推定 区間推定

25最尤法

• P103 教科書 図 7.1 図 7.2

Page 26: K070k80 点推定 区間推定

26

Page 27: K070k80 点推定 区間推定

27

Page 28: K070k80 点推定 区間推定

28

尤度関数  L(θ) を最大にする θ

Page 29: K070k80 点推定 区間推定

29正規分布の平均の点推定

Page 30: K070k80 点推定 区間推定

30正規分布の母分散の点推定

Page 31: K070k80 点推定 区間推定

正規分布の平均の点推定

• 標本平均が不偏性一致性有効性 (BLUE)最尤性

• のすべての意味で、一番良い推定量である。

∑=i

iXn

1µ̂

Page 32: K070k80 点推定 区間推定

正規分布の分散の点推定

• 平均 μが既知の場合

• 平均 μが未知の場合 最尤推定 不偏推定

=

=

=

−−

=

−=

−=

n

ii

n

ii

n

ii

XXn

XXn

Xn

1

22

1

22

1

22

)(1

1

)(1

)(1

σ

σ

µσ

Page 33: K070k80 点推定 区間推定

不偏分散

2

22

22

1

22

1

2

1

1

22

)1(

])[(])([

])()([

])}(){([

])([][

σ

σσ

µµ

µµ

µµ

−=

−=

−−−=

−−−=

−−−=

−=

=

=

=

=

n

nnn

XnEXE

XnXE

XXE

XXESE

i

n

i

i

n

i

i

n

i

n

ii

2222

2

1

22

)1(1

1][

1

1][

)(1

1

1

1

σσ =−−

=−

=

−−

=−

= ∑=

nn

SEn

UE

XXn

Sn

U i

n

i

Page 34: K070k80 点推定 区間推定

34レポート

Page 35: K070k80 点推定 区間推定

35

Page 36: K070k80 点推定 区間推定

36

情報統計学

区間推定

Page 37: K070k80 点推定 区間推定

37区間推定

• たった一組のデータで求めた値が,母平均の値に一致する可能性は少ない。

• 区間を求める「区間推定」を考える求める区間の幅はできるだけ狭く定めた区間内にパラメータが入っている確率はできるだけ大きくなるように

• 同時に満たすことは難しい確率に条件を付ける

• 信頼度 1-αを定める。• 求めた推定区間の中にパラメータが入っている確率が

1-α 以上になる区間のなかで,幅をできるだけ狭くする

Page 38: K070k80 点推定 区間推定

38信頼区間

Page 39: K070k80 点推定 区間推定

39母平均 μの区間推定(母分散 σ2が既知の場合)

Page 40: K070k80 点推定 区間推定

信頼区間の幅 40

> xseq<-seq(0.001, 0.049, 0.0001)> cL<-qnorm(xseq)> cU<-qnorm(1-0.05+xseq)> Ran<-cU-cL> plot(Ran)> which.min(Ran)[1] 241> points(241,Ran[241],col="red")> xseq[241][1] 0.025> cbind(cL,cU,Ran) cL cU Ran [1,] -3.090232 1.654628 4.744860 [2,] -3.061814 1.655614 4.717428 [3,] -3.035672 1.656602 4.692274省略[239,] -1.963398 1.956553 3.919951[240,] -1.961678 1.958256 3.919934[241,] -1.959964 1.959964 3.919928[242,] -1.958256 1.961678 3.919934[243,] -1.956553 1.963398 3.919951以下省略 0 100 200 300 400 500

4.0

4.2

4.4

4.6

Index

Ra

n

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

Page 41: K070k80 点推定 区間推定

確率 95%の区間 41

Page 42: K070k80 点推定 区間推定

42母平均 μの区間推定(母分散 σ2が既知の場合)

Page 43: K070k80 点推定 区間推定

43シミュレーション

• R の関数 rnorm は N(0, 1)に従う乱数を生成 これを母集団と考えて, 10個の乱数(標本)をとり,

母平均の信頼度 1-α=0.95 の信頼区間を作る

Page 44: K070k80 点推定 区間推定

44シミュレーション

Page 45: K070k80 点推定 区間推定

45

乱数によっては,母平均 μ=0を含む場合と,含まない場合がある

Page 46: K070k80 点推定 区間推定

46

• 区間推定を 100回繰り返して,確かめてみる。 区間を 100個作る。> for(i in 1:100){

print(conf.interval(rnorm(10), 0.95, 1))

}

• 関数 sim.conf.interval シミュレーションの回数,標本数,信頼度 標本数 n=10 ・信頼度 1-α=0.95・シミュレーション回数 5回 sim.conf.interval(5, 10, 0.95)

Page 47: K070k80 点推定 区間推定

47

• シミュレーション回数を 100回にして, 100組の信頼区間• 真の母平均の値 μ=0 を含まない信頼区間だけを表示

Page 48: K070k80 点推定 区間推定

48

• グラフにして表示• r <- sim.conf.interval(100, 10, 0.95)

• plot.conf.interval(r)

-2 -1 0 1 2

020

40

60

80

100

gx

gy

Page 49: K070k80 点推定 区間推定

49母平均 μの信頼区間(母分散 σ2が未知のとき)

• 母分散 σ2が未知のときは,先ほどの方法は使えない• ここで次の性質を使う。( σ2は未知なため, σは使えない)

Page 50: K070k80 点推定 区間推定

50母平均 μの信頼区間(母分散 σ2が未知のとき)

• P69

Page 51: K070k80 点推定 区間推定

51母平均 μの信頼区間(母分散 σ2が未知のとき)

Page 52: K070k80 点推定 区間推定

52信頼区間の計算

Page 53: K070k80 点推定 区間推定

53シミュレーション

Page 54: K070k80 点推定 区間推定

54

-2 -1 0 1 2

020

40

60

80

100

gx

gy

Page 55: K070k80 点推定 区間推定

55信頼区間の幅

母分散が未知の場合は母分散のかわりに,不偏推定値の標本不偏分散を用いているため

・信頼区間の幅がすべて同じ・信頼区間の幅が変わっている

Page 56: K070k80 点推定 区間推定

56演習

• N(0,1)に従う乱数を 999個作成し,小さいほうから 25番目,975番目の値を求め, qnorm関数より, α=0.025の値, α=0.975の値と比較せよ。 並べ替えは sort関数で行うことができる

• sort(x)で xを小さい順に並べ替える– その 1番目の値を見るためには, sort(x)[1]

Page 57: K070k80 点推定 区間推定

57レポート

• N(0,1)に従う乱数を 16個発生させ,その平均を求めることを999回繰り返す。 999個の平均の,平均を求めよ。 小さいほうから 25番目の値と、 975番目の値を求めよ。