Top Banner
A. Asano, Kansai Univ. 2014年度秋学期 統計学 浅野 晃 関西大学総合情報学部 データの関係を知る(1)相関関係と因果関係 第6回
117

2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

Jun 15, 2015

Download

Education

Akira Asano

関西大学総合情報学部 「統計学」(担当:浅野晃)
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

2014年度秋学期 統計学

浅野 晃 関西大学総合情報学部

データの関係を知る(1)相関関係と因果関係

第6回

Page 2: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

Page 3: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

多変量データと多変量解析

Page 4: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

変量とは日本男性の身長は分布する

Page 5: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

変量とは日本男性の身長は分布する

Page 6: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

変量とは日本男性の身長は分布する

Page 7: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

変量とは日本男性の身長は分布する

分布する量を[変量]という

Page 8: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

変量とは日本男性の身長は分布する

分布する量を[変量]という

統計学は, 分布している変量から情報を引き出す 手法

Page 9: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

Page 10: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

Page 11: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

Page 12: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

Page 13: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

Page 14: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

変量

Page 15: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

変量 変量

Page 16: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

変量 変量 変量

Page 17: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

「入学試験の点数」←数学・英語・国語…

変量 変量 変量[多変量データ]  という

Page 18: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

「多」変量とは2つ以上の変量の組み合わせで 表現されるデータ

多変量データを扱う統計学を [多変量解析]という

「入学試験の点数」←数学・英語・国語…

変量 変量 変量[多変量データ]  という

Page 19: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

多変量解析では変量の間の関係が問題になる

…という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

たとえば

Page 20: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

多変量解析では変量の間の関係が問題になる

…という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

たとえば

この傾向を見つけるのが,[相関分析]             [回帰分析]

Page 21: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

Page 22: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

相関関係と散布図

Page 23: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

Page 24: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

Page 25: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

Page 26: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

Page 27: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

[正の相関関係]

Page 28: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

[正の相関関係]

Page 29: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

[正の相関関係]

Page 30: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関関係2つの変量からなるデータを考える

という傾向にある

数学の点数の高い人は 英語の点数も高い数学の点数の高い人は 国語の点数が低い

さっきの

変量どうしの互いの増減の傾向 [相関関係]

[正の相関関係]

[負の相関関係]

Page 31: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

Page 32: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

Page 33: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量

Page 34: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量

変量

Page 35: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

Page 36: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 37: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 38: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 39: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 40: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 41: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 42: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

Page 43: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図多変量データを目に見えるように描く

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

変量 変量

変量

変量

札幌

Page 44: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図と相関関係地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

Page 45: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図と相関関係地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

Page 46: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図と相関関係地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

右下がりに並ぶ

Page 47: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図と相関関係地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

右下がりに並ぶ緯度が上がると 気温が下がる傾向

Page 48: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

散布図と相関関係地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

右下がりに並ぶ緯度が上がると 気温が下がる傾向

負の相関関係

Page 49: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関の強弱配布資料の散布図(47都道府県について)

Page 50: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関の強弱配布資料の散布図(47都道府県について)

「統計学入門」(東京大学出版会) 44ページの図(さまざまな散布図の例)を示して, 相関の強弱や無相関について説明しました。

Page 51: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

Page 52: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

共分散と相関係数

Page 53: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

ここからは,緯度・気温ではなく一般的に

Page 54: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

ここからは,緯度・気温ではなく一般的に

Page 55: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

ここからは,緯度・気温ではなく一般的に

Page 56: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

xi

ここからは,緯度・気温ではなく一般的に

Page 57: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

xi

yi

ここからは,緯度・気温ではなく一般的に

Page 58: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

(xi, yi)

xi

yi

ここからは,緯度・気温ではなく一般的に

Page 59: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

(xi, yi)

xi

yi

x

ここからは,緯度・気温ではなく一般的に

Page 60: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

(xi, yi)

xi

yi

x

y

ここからは,緯度・気温ではなく一般的に

Page 61: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数相関の正負・強弱を数字で表す地名 緯度(度) 気温(℃)

札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

(xi, yi)

xi

yi

x

y

xy

x だけの平均y だけの平均

ここからは,緯度・気温ではなく一般的に

Page 62: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

(nはデータ数)

Page 63: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

(nはデータ数)

Page 64: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均

(nはデータ数)

Page 65: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

(nはデータ数)

Page 66: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散(nはデータ数)

Page 67: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差 (nはデータ数)

Page 68: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差 (nはデータ数)

Page 69: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差

y の標準偏差

(nはデータ数)

Page 70: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差

y の標準偏差

(nはデータ数)

x の偏差

Page 71: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差

y の標準偏差

(nはデータ数)

x の偏差 y の偏差

Page 72: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

相関係数

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

[相関  係数]

x の平均x の偏差

x の分散x の標準偏差

y の標準偏差

(nはデータ数)

x,y の[共分散]

x の偏差 y の偏差

Page 73: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

x,y の共分散x の偏差 y の偏差

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

イロ

ハ ニ

イ・ロ・ハ・ニで

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

の値はどうなる?x

y

y

x

(イ)(ロ)

(ハ) (ニ)

Page 74: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

x

y

y

x

(イ)(ロ)

(ハ) (ニ)

共分散の意味

x

yイ

(xi, yi)

+

(xi, yi) が「イ」の領域にあるとすると

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

xi

yi

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

Page 75: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

x

y

y

x

(イ)(ロ)

(ハ) (ニ)

共分散の意味

x

y

(xi, yi)

+

(xi, yi) が「ハ」の領域にあるとすると

xi

yi

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi− x < 0, yi− y < 0でやはり (xi− x)(yi− y) > 0であり,(xi, yi)が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi− x < 0, yi− y < 0でやはり (xi− x)(yi− y) > 0であり,(xi, yi)が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

Page 76: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

(xi, yi) の 場所によって

x

yイロ

ハ ニx

y

y

x

(イ)(ロ)

(ハ) (ニ)

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi − x < 0, yi?y < 0でやはり (xi − x)(yi − y) > 0であり,(xi, yi)

が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi− x < 0, yi− y < 0でやはり (xi− x)(yi− y) > 0であり,(xi, yi)が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

x

y

(xi – x)(yi – y) > 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) < 0

(xi – x)(yi – y) > 0

y

x

(イ)(ロ)

(ハ) (ニ)

図 2: 共分散の概念

共分散の意味を,図 2で考えてみましょう。散布図の平面を,xの平均および yの平均を境にして四分割します。各領域で,(xi − x)(yi − y)の値を考えてみます。

(イ)では,xi − x > 0, yi − y > 0で,(xi − x)(yi − y) > 0であり,(xi, yi)が右上に行くほどこの積の値は大きくなります。また,(ハ)では xi− x < 0, yi− y < 0でやはり (xi− x)(yi− y) > 0であり,(xi, yi)が左下に行くほどこの積の値が大きくなります。これに対して,(ロ)や(ニ)では (xi − x)(yi − y) < 0

となります。

では,図 3の3つの分布で,!i(xi − x)(yi − y)の値はどうなるでしょうか?(グレーの部分にデー

タがおもに分布しているとします。) (a)の場合は先の図 2の(イ)(ハ)の部分に多く分布していますから正の大きな値,(b)の場合は(ロ)(ニ)の部分に多く分布していますから負の大きな値,(c)の場合は(イ)(ロ)(ハ)(ニ)のすべての部分に分布しているので打ち消しあって 0に近い値になります。

この!i(xi − x)(yi − y)を,グレーの部分に分布しているデータの個数 nに影響されないように,n

で割って「合計」でなく「平均」にしたものが共分散です。つまり正の相関があるとき正の値,負の相関のとき負の値,どちらでもないときは 0に近い値になります。

相関係数は共分散を x, yそれぞれの標準偏差の積で割ったものとなっていますが,これは図 4の左右の分布で相関係数が同じになるようにするためです。図 4の左右は,ばらつきは異なっていますが,相関の強さは同じです。なお,相関係数は−1から 1の範囲の値をとり,1がもっとも強い正の相関,−1

がもっとも強い負の相関,0は相関がないことをあらわします。なお,[資料2]3に示すように,相関係数 0.5は中くらいの強さの相関ではなく,0.7くらいで中くらいの強さの相関になります。このことについては,次回の回帰分析についての講義で説明します。

ちょっと問題

次の記述について,何がどうおかしいか説明してください。

1. 国民所得と酒の消費量の間には正の相関がある。だから,国民が酒をたくさん飲めば所得が増える。

2. ある電器製品の普及台数は,発売以来毎年倍に増えている。発売後の年数と普及台数の相関係数3「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  3/5 ページ

(xi, yi) が (x, y)から離れているほど, 絶対値が大きくなる

Page 77: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 78: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 79: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 80: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 81: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 82: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 83: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 84: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 85: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 86: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 87: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

正で大きな値 →強い正の相関

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

x

y

x

y

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

負で絶対値が大きい →強い負の相関

Page 88: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散の意味

地名 緯度(度) 気温(℃)札幌 43.05 8.0

青森 40.82 9.6

秋田 39.72 11.0

仙台 38.27 11.9

福島 37.75 12.5

宇都宮 36.55 12.9

水戸 36.38 13.2

東京 35.68 15.3

新潟 37.92 13.1

長野 36.67 11.4

静岡 34.97 16.0

名古屋 35.17 14.9

大阪 34.68 16.2

鳥取 35.48 14.4

広島 34.40 15.0

高知 33.55 16.3

福岡 33.92 16.0

鹿児島 31.57 17.3

那覇 26.20 22.0

表 1: 日本の都市の緯度と気温

!

!

!!

!!!

!

!

!

!!

!

!!

!!

!

!

5

7

9

11

13

15

17

19

21

23

25 27 29 31 33 35 37 39 41 43 45

気温(℃)

緯度(度)

図 1: 散布図:緯度と気温の関係

2つなので,散布図は横軸縦軸でできる平面になります。変量が3つ以上になると軸も3つ以上になりますが,この場合も紙の上に描けないだけで,理屈には違いはありません。

図 1の散布図を見ると,一見して各都市がほぼ直線に沿って並んでおり,「緯度が高(低)いと気温が低(高)い」という負の相関関係が見てとれます。このように,負の相関関係は,散布図上では右下がりの直線上にデータが分布するように表現されます。また,正の相関関係では右上がりの直線上に並ぶことになります。別紙2[資料1]に,いろいろな散布図を示します。これを見ると,「人口と小売商店数」の関係では,各データがほぼ右上がりの一直線上に乗っており,「強い正の相関がある」ことがわかります。これに対し,「平均不快日数とルームエアコンの保有率」では各データのばらつきが大きくなっています。これを,「弱い正の相関がある」といいます。

相関係数

相関関係の強い/弱いを,数値で表すにはどうしたらよいでしょうか? これを表すのが相関係数です。データが (x1, y1), (x2, y2), . . . , (xn, yn)の n組であるとき,xと yとの相関係数 rxy は

rxy =

!ni=1(xi − x)(yi − y)/n"!n

i=1(xi − x)2/n"!n

i=1(yi − y)2/n=

!ni=1(xi − x)(yi − y)"!n

i=1(xi − x)2"!n

i=1(yi − y)2(1)

で表されます。上の式の中央の部分で,分母は,x, yそれぞれの標準偏差の積です。分子は,x, yのそれぞれの偏差を同時に平均したもので,共分散といいます。

2「統計学入門」(東京大学出版会)44ページ(受講者にのみ配付)

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  2/5 ページ

x

y

差し引きゼロ →無相関

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

Page 89: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

共分散と相関係数

これらの相関の強さは同じ →標準偏差で割って調整する

相関係数=共分散       ÷ (xの標準偏差 × yの標準偏差)

x

(a)

y

x

y

x

(b)

y

y

x

(c)

y

y

x x

図 3: 正負の相関

x

(a)

y

y

xx

(b)

y

y

x

図 4: 同じ相関係数をもつ分布

は,非常に強い相関であるから,ほぼ1である。

層別と相関,「みかけ上の相関」と偏相関係数

「小学生については,身体が大きいと試験の成績が良い」という説があります。明らかにおかしな話ですが,これは事実です。

種明かしをすると,これは,小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。こういう場合ならば,「体の大きさ」と「試験の成績」には正の相関関係が見られるはずです。

これは,「原因→結果」という因果関係が「学年」→「体格」,および,「学年」→「成績」という量の間にあるために,本来相関はないはずの「体格」と「成績」にも相関が現れるという現象です。これをみかけ上の相関といいます。小学校1年生と6年生では体格は大きく違うのは当たり前です。「体格の違い」を問題にするには,各学年を別々に考え,1つの学年の中での「体格の違い」を問題にする必要があります。このように,ほぼ均質と思われるグループ(ここでは学年)に母集団を分けることを層別といいます。さて,この問題で,「体格」と「成績」の間には正の相関関係があるわけですから,これは次ページの図 5(a)のような分布をしていることになります。しかし,この分布を層別にしてみると,図 5(b)のよ

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  4/5 ページ

相関係数は -1~0~1

Page 90: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

Page 91: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

ちょっと問題

Page 92: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

問題1国民所得と酒の消費量の間には正の相関 がある。だから,国民が酒をたくさん飲めば所得が増える。

Page 93: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

問題1国民所得と酒の消費量の間には正の相関 がある。だから,国民が酒をたくさん飲めば所得が増える。

相関関係と因果関係は異なる。

Page 94: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

問題2ある電気製品の普及台数は,発売以来 毎年倍に増えている。発売後の年数と普及台数の相関係数は,非常に強い相関であるから,ほぼ1である。

Page 95: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

問題2ある電気製品の普及台数は,発売以来 毎年倍に増えている。発売後の年数と普及台数の相関係数は,非常に強い相関であるから,ほぼ1である。

直線状の関係ではないから, 相関係数が1にはならない

Page 96: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

Page 97: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

Page 98: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

小学生については,身体が大きいと 試験の成績が良い

Page 99: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

小学生については,身体が大きいと 試験の成績が良い

???

Page 100: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

小学生については,身体が大きいと 試験の成績が良い

???

全学年の児童に同じ問題で試験をすれば。

Page 101: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

小学生については,身体が大きいと 試験の成績が良い

???

全学年の児童に同じ問題で試験をすれば。

「体格」と「成績」には正の相関関係

Page 102: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

小学生については,身体が大きいと 試験の成績が良い

???

全学年の児童に同じ問題で試験をすれば。

「体格」と「成績」には正の相関関係なぜ?

Page 103: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

Page 104: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

正の相関関係

Page 105: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

学年正の相関関係

Page 106: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

学年正の相関関係

正の相関関係 本当の因果関係

Page 107: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

学年正の相関関係

正の相関関係 本当の因果関係

正の相関関係 本当の因果関係

Page 108: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

みかけ上の相関

なぜ?

体格

成績

学年正の相関関係

正の相関関係 本当の因果関係

正の相関関係 本当の因果関係

みかけ上の

Page 109: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

正の相関関係

Page 110: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別実は

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

正の相関関係

Page 111: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別実は

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

正の相関関係

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

Page 112: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別実は

内部に「学年」の 層がある

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

正の相関関係

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

Page 113: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別

内部に「学年」の 層がある

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

層に分けて, ひとつにまとめる

Page 114: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

層別

内部に「学年」の 層がある

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

(c)(a) (b)

成績

体格

成績

体格

成績

体格

6年5年

4年3年

2年1年 層内の相関は

ない

6年5年

4年3年

2年1年 各層を1か所に

まとめる

図 5: 層別の相関

うに,各学年に対応する6つの分布が重なっているものと考えられます。各々の分布を別々に見たとき,もし各学年の分布が図 5(b) のようであれば,それぞれの分布では体格と成績には相関がないことがわかります。

このように学年の影響を除いた相関係数を求めるには,図 5(b)の 6つの分布を図 5(c)のように1か所に重ねてしまい,その重なった分布に対して相関係数を求めればよいことになります。このような操作をして得られる相関係数を偏相関係数といいます。変量 xと y,yと z,zと xの各相関係数を rxy, ryz, rzxとするとき,zの影響を除いた時の xと yの偏相関係数 rxy,z は次式で表されます。

rxy,z =rxy − ryzrzx!1− r2yz

"1− r2zx

(2)

この式の詳しい導出は,回帰分析の詳しい知識が必要なので,この講義では説明しません。簡単にいえば,偏相関係数は,x, y, zの3つの変量を軸とする3次元の散布図を考えて,分布を z軸のまわりに移動したとするとき,分母は x, yそれぞれのばらつき,分子は x, yの共分散にそれぞれ相当する量になっています。

さて,ここまでの説明を読んで,「では,『成績の影響を除いた,学年と体格の相関』もほとんどないことにならないのか?」と思った人もいるのではないでしょうか? これは,偏相関係数を求める (2)式で x, y, zを y, z, xに入れ替えてもほとんど同じ式が得られるように,数式の上では正しい結論です。

しかし,実際には意味のない結論です。なぜならば,「みかけ上の相関」は,「体格と成績に相関があるように見えるが,実は『学年』という隠れた量があって,学年が成績,体格それぞれの大小に影響している4」という仮定から導かれるものだからです。しかし,その仮定が正しいかどうかは,相関係数や偏相関係数をからはわからず,別の観点からの考察が必要です。

今日の演習

表 1のうち長野~鹿児島のデータから,緯度と気温との相関係数を求めてください。

4「学年が成績,体格それぞれを説明している」といいます。

浅野 晃/統計学(2013 年度秋学期) 第6回 (2013. 10. 31) http://racco.mikeneko.jp/  5/5 ページ

層に分けて, ひとつにまとめる

学年の影響を除いた[偏相関係数]

Page 115: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

ところでこうはならないの?

体格

成績

学年

正の相関関係?

正の相関関係

みかけ上の

正の相関関係

Page 116: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

ところでこうはならないの?

体格

成績

学年

正の相関関係?

正の相関関係

みかけ上の

正の相関関係

統計学の上では,こう考えても同じ

Page 117: 2014年度秋学期 統計学 第6回 データの関係を知る(1)ー相関係数と因果関係 (2014. 10. 29)

2014年秋学期 

A. A

sano

, Kan

sai U

niv.

ところでこうはならないの?

体格

成績

学年

正の相関関係?

正の相関関係

みかけ上の

正の相関関係

統計学の上では,こう考えても同じならないのは,統計学以外の知識による