Top Banner
1 2 変数の集計 統計学入門 2008.04 2010.05.18 演習問題にヒント追加 2011.05.11 一部修正 2012.05.08 抵抗線アニメーション付加
24

030 2変数の集計

Jul 05, 2015

Download

Education

t2tarumi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 030 2変数の集計

1

2変数の集計

統計学入門2008.04

2010.05.18 演習問題にヒント追加2011.05.11 一部修正

2012.05.08 抵抗線アニメーション付加

Page 2: 030 2変数の集計

2

2変量のデータ番号 身長 体重

1 148 412 160 493 159 454 153 435 151 426 140 297 156 498 137 319 149 47

10 160 4711 151 4212 157 3913 157 4814 144 36

番号 X Y1 x1 y12 x2 y23 x3 y34 x4 y45 x5 y5

n xn yn

一般には

Page 3: 030 2変数の集計

3

2変量データの分析• 1変量データとして

– 「身長」の分析• 代表値 ばらつき グラフ表現

– 「体重」の分析• 代表値 ばらつき グラフ表現

• 2変量データとして– 「身長」と「体重」の関係

• 散布図• 傾向線(回帰直線)• 直線的な傾向の強さ(相関係数)

Page 4: 030 2変数の集計

4

1変量データとしての集計• 変量 Xについて

– データ   x1, x2, ・・・ xn

– 平均値

– 分散  

n

xxxx n+++= 21

∑=

−=n

iix xx

ns

1

22 )(1

• 変量 Yについて– データ   y1, y2,

・・・ yn

– 平均値

– 分散  

n

yyyy n+++= 21

∑=

−=n

iiy yy

ns

1

22 )(1

Page 5: 030 2変数の集計

5

各変数ごとの要約> (1var-analysis height)

fivnum (137 148.5 152 157 160)

mean 151.57142857142856

S.D. 7.345477789500418

> (1var-analysis weight)

fivnum (29 40 42.5 47 49)

mean 42.000000000000008

S.D. 6.385078759829887

Page 6: 030 2変数の集計

6

平行箱ひげ図> (boxplot (list height weight))

> (boxplot (list height height2))

Page 7: 030 2変数の集計

7

2変量データとしての分析

• Xと Yとの関連を調べる– 散布図– 直線的な傾向– 傾向線(回帰直線)– 直線的な傾向の強弱を数値化

• 相関係数

Page 8: 030 2変数の集計

8

散布図 (scatterplot scattergram)

• (xi, yi) を平面上の点の座標として、n個の点をプロットしたもの

> plot(height, weight)

x軸   y軸

Page 9: 030 2変数の集計

9

さまざまな散布図 � 右上がり

� 右下がり� 傾向なし� 直線以外の関係

Page 10: 030 2変数の集計

10

傾向線

• 散布図に右上がり、ないしは右下がりの直線的な傾向がある場合

• 傾向を示す直線(傾向線)を引こう

• どんな基準で傾向線を決めるか?

Page 11: 030 2変数の集計

11

抵抗線? (resistance line)

• x軸の変数の値の大きさで n/3個づつに3分割– X軸の値が小さい  G1グループ– X軸の値が中位の  G2グループ– X軸の値が大きな  G3グループ

• G1, G3のグループで– X, Yの中央値(ないしは平均値)を計算– G1 の中央値 XM1, YM1

– G3の中央値  XM3, YM3

• 傾き b = (YM1 - YM3)/( XM - XM3)

• 切片 上記の傾きの直線を上下し、直線より上側の点の個数と下側の点の個数が同じになるところ

Page 12: 030 2変数の集計

12

抵抗線

G1 G2 G3

個3

n 個3

n個3

n

Page 13: 030 2変数の集計

13

回帰直線 (regression line)  y=a+bx• 最小2乗法

– 誤差の考え方 i 番目のデータ (xi, yi) について

データの y の値   yi

直線上の yの値   a+bxi =

2乗誤差の和

iy

∑∑==

+−=−=n

iii

n

iii bxayyybaQ

1

2

1

2 )}({)ˆ(),(

minimize

Page 14: 030 2変数の集計

14

誤 差

Page 15: 030 2変数の集計

15

y=a+bx

xi

yi

データ

誤差

ii bxay +=ˆ

) ,( ii yx

Page 16: 030 2変数の集計

16

回帰直線(つづき)

0)1)}(({2)}({1

2

1

=−+−=+−∂∂=

∂∂ ∑∑

==ii

n

iii

n

i

bxaybxayaa

Q

0)}({1

=+−∑=

ii

n

i

bxay

∑∑∑===

+=n

ii

n

i

n

ii xbay

111

xbay +=

Page 17: 030 2変数の集計

17

∑∑

=

=

==

=−−−−−=

−−−∂∂=

+−−∂∂=+−

∂∂=

∂∂

n

iiii

n

iii

ii

n

iii

n

i

xxxxbyy

xxbyyb

bxxbyyb

bxaybb

Q

1

1

2

2

1

2

1

0))()}((){(2

)}(){(

)}({)}({

0))}(({2)}({1

2

1

=−+−=+−∂∂=

∂∂ ∑∑

==iii

n

iii

n

i

xbxaybxaybb

Q

∑∑==

−−=−−n

iii

n

iii xxxxbxxyy

11

))(())((

2

1

2

1

1

2

1

)(1

))((1

)(

))((

x

xy

n

ii

n

iii

n

ii

n

iii

s

s

xxn

yyxxn

xx

yyxxb =

−−=

−−=

=

=

=

=

Page 18: 030 2変数の集計

18

切片と傾きxbay +=

=

=

−−== n

ii

n

iii

x

xy

xxn

yyxxn

s

sb

1

2

12

)(1

))((1

Page 19: 030 2変数の集計

19

回帰直線 (regression line)• 最小2乗法で求めた直線

ˆˆ

x

xy

s

sb

xbya

=

−=

)(

)(ˆ

ˆ)ˆ(

ˆˆ

2xx

s

syy

xxbyy

xbxbyy

xbay

x

xy −=−

−=−

+−=

+=

yyxx ==  のとき 

Page 20: 030 2変数の集計

20

2本の回帰直線

体重

身長

身長

体重

Page 21: 030 2変数の集計

21

2本の回帰直線• 身長 (x)と体重 (y)の回帰直線

• 体重 (x')と身長 (y')の回帰直線

• 記号を元の x, y に戻すと

)(2

xxs

syy

x

xy −=−

)''(''2'

'' xxs

syy

x

yx −=−

)(2

yys

sxx

y

xy −=−

yの (xの上への)回帰直線

xの (yの上への )回帰直線

身長

体重

体重

身長

Page 22: 030 2変数の集計

22

2本の回帰直線• yの回帰直線

• xの回帰直線

• いずれも         という点を通る

• 2本の回帰直線は         で交わる

)(2

xxs

syy

x

xy −=−

)(2

yys

sxx

y

xy −=−

),(),( yxyx =

),(),( yxyx =

Page 23: 030 2変数の集計

23

2本の回帰直線が等しくなるのは

)(2

xxs

syy

x

xy −=− )(2

yys

sxx

y

xy −=−

)(2

xxs

syy

xy

y −=−

122

2

2

2

=

=

yx

xy

xy

y

x

xy

ss

s

s

s

s

s

の場合である

Page 24: 030 2変数の集計

24

演習• 回帰直線を求めよう

• height– 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,

157, 157, 144– 和 2122 2 乗和 322338

• weight– 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36– 和 588 2 乗和 25226

• 積和  89643

平均: 42分散: 37.8571

平均: 151.57分散: 50.2449