Top Banner
1 1.計量経済学とは (1)扱う問題 計量経済学では、回帰分析を学ぶことが重要な目的となっている。このテキストや他の計量 経済学関係のテキスト(巻末の参考書など)において、よく取り上げられる回帰分析の例を列 挙してみよう。 A.二つの変数間の関係について: 失業率と物価上昇率との関係(フィリプス曲線) 輸入額と GDP、または輸出額と GDP との関係 B.ある変数と、それに対する説明要因との関係について: 世帯の消費と、所得や資産との関係 食料の需要と、所得や食料の価格との関係 コンビニの売上高と、店舗面積や駅からの距離との関係 A は、体重と身長のような二つの変数の関係を扱っている。失業率などのように具体的に数 値で表現できる経済現象を経済変数という。B は、体重を説明するために運動量や食事量を要 因とする考え方と類似しており、一つの経済変数とそれに対する説明要因が取り上げられいる。 このように回帰分析とは、経済変数間の関係を明らかにする手法である。 これらの経済変数は実際のデータが入手可能である。実際のテキストには具体的なデータが 載っており、回帰分析の手法について解説されている。 (2)データの収集 経済変数に関するデータは、統計書やインターネットから入手可能である。しかし、入手し たデータは、その信頼性や定義に充分注意していただきたい。 主な統計データ関連の HP 統計一般: 総務省統計局:http://www.stat.go.jp 経済: 経済社会総合研究所:http://www.esri.cao.go.jp 日本銀行:http://www.boj.or.jp 人口・社会保障・労働: 厚生労働省:http://www.mhlw.go.jp 国立社会保障・人口問題研究所:http://www.ipss.go.jp 環境: 環境省:http://www.env.go.jp 情報通信: 電気通信事業者協会:http://www.tca.or.jp 電子情報技術産業協会:http://www.jeita.or.jp/ 観光・交通: 国土交通省:http://www.mlit.go.jp
70

(1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類...

Jan 25, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

1

1.計量経済学とは

(1)扱う問題

計量経済学では、回帰分析を学ぶことが重要な目的となっている。このテキストや他の計量

経済学関係のテキスト(巻末の参考書など)において、よく取り上げられる回帰分析の例を列

挙してみよう。

A.二つの変数間の関係について:

失業率と物価上昇率との関係(フィリプス曲線)

輸入額と GDP、または輸出額と GDP との関係

B.ある変数と、それに対する説明要因との関係について:

世帯の消費と、所得や資産との関係

食料の需要と、所得や食料の価格との関係

コンビニの売上高と、店舗面積や駅からの距離との関係

A は、体重と身長のような二つの変数の関係を扱っている。失業率などのように具体的に数

値で表現できる経済現象を経済変数という。B は、体重を説明するために運動量や食事量を要

因とする考え方と類似しており、一つの経済変数とそれに対する説明要因が取り上げられいる。

このように回帰分析とは、経済変数間の関係を明らかにする手法である。

これらの経済変数は実際のデータが入手可能である。実際のテキストには具体的なデータが

載っており、回帰分析の手法について解説されている。

(2)データの収集

経済変数に関するデータは、統計書やインターネットから入手可能である。しかし、入手し

たデータは、その信頼性や定義に充分注意していただきたい。

主な統計データ関連の HP

統計一般:

総務省統計局:http://www.stat.go.jp

経済:

経済社会総合研究所:http://www.esri.cao.go.jp

日本銀行:http://www.boj.or.jp

人口・社会保障・労働:

厚生労働省:http://www.mhlw.go.jp

国立社会保障・人口問題研究所:http://www.ipss.go.jp

環境:

環境省:http://www.env.go.jp

情報通信:

電気通信事業者協会:http://www.tca.or.jp

電子情報技術産業協会:http://www.jeita.or.jp/

観光・交通:

国土交通省:http://www.mlit.go.jp

Page 2: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

2

(3)規則性

計量経済学では、先の経済変数間の関係を関数で表現する。式の形の多くは以下のような線

型(一次関数)が選ばれる。

zxy

ここで、 y は消費支出のような経済現象の結果と考えられる変数、x は所得、z は資産などの

経済現象の原因となる変数である。 ,, (それぞれアルファ、ベータ、ガンマと読む)の係

数は、 zyx ,, についての実際のデータからその値が求められる。このように実際のデータが存

在しないとその値がわからないので、 ,, はパラメータ(母数)といわれる。特に、実際に

値を求めていないときは未知のパラメータという。

しかし、データにはばらつきがあり、上のような式では説明できないデータの変動が残って

しまう。これを (イプシロンと読む)として、この式に付け加える。

zxy

このように経済現象間の規則性と残りの変動を関数で表現して、具体的な数式で記したもの

をモデルという。

(4)特定化

計量経済学の手法を用いると、 zyx ,, のような変数について実際にデータが収集できれば、

そのデータに対応した ,, の値を計算して求めることができる。

しかし、どんな変数でもモデルに含まれるとは限らない。例えば、 zxy と

xy とを比べてみると、後者には z が含まれていない。もし、後者のモデルが選択され

れば、消費の説明要因としては x の所得のみと結論できる。このように、モデルを構成する変

数を選択することを特定化という。

特定化の根拠は、統計学における推定・仮説検定によって確認される。推定とは、 ,, の

ようなパラメータの値を求めることである。仮説検定とは、推定された値がある特定の値と等

しいか否かを、統計学上からの根拠から確認することである。推定により得られた値が、仮説

検定によってゼロとみなされるという結論が得られたとき、その変数はモデルから除かれる。

したがって、推定・仮説検定の結果によって、変数が選ばれ、モデルが特定化されていく。

通常は最初にモデルを特定化しても、推定・仮説検定によって、直ちに採用されない場合が

一般的である。推定・仮説検定の結果によって、選ぶ変数や追加する変数を変更していき、最

終的にモデルを特定化する。そのモデルを構成する変数から解釈される規則性によって、経済

問題の解明に役立てる。

データの収集 → モデルの特定化 → 推定・仮説検定 → 規則性の発見

Page 3: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

3

(5)計量経済学とは

このように様々な問題を解明するために調査や実験が行われ、その結果、多数のデータが収

集される。様々な問題とは、経済理論が実際の現実と整合性があるかの検証、経営の参考、経

済の将来予測、政策がうまく機能したか否かの評価、経済現象が起こる要因の発見などがある。

とりあげた変数同士の関係をモデルによって定式化し、明確な根拠をもって、変数を特定化す

る。計量経済学は、この規則性をモデルを用いて特定化することにより、問題の解明に役立て

ることにある。

このテキストでは、モデルの特定化を最終的な目標として、それに到達するに必要な様々な

統計学上の概念を解説していく。抽象的な概念が多いので、Excel による実際のデータの処理と

させて、理解を助けるつもりである。

Page 4: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

4

2.データの種類と数学の復習

2.1 データの種類

データとは、1)数字または文字の並びであり、2)変動的な性質をもち、3)確率を伴う。

(1)入手方法による分類

1)調査データ:現実の集団や個人を対象に観測ないし測定した結果。

2)実験データ:人為的な条件の下で生じる現象を観測ないし測定した結果。

(2)尺度(ものさし)による分類

1)量的データ:等間隔な尺度で測る。比率や間隔に意味がある。

比率尺度:どんな場合でも尺度は変わらない。人口、経済成長率、失業率など。

間隔尺度:場合に応じて尺度は変わる。貨幣の単位、温度(摂氏と華氏)など。

2)質的データ:カテゴリーデータともいう。等間隔でなくてよい。比率や間隔に意味がない。

順位尺度:優劣、上下関係を数値で表したもの。数値を入れ替えると意味が変わる。

順位など。

名義尺度:数値を入れ替えても意味が変わらない。サッカー選手の背番号、数値化さ

れた性別や職業など。

(3)数の定義による分類

1)連続データ:実数で定義される。物価指数、経済成長率、為替レートなど。

2)離散データ:整数で定義される。従業員数、販売数など。

(4)データの構造(並び方)による分類

1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

地域、企業、人などの項目によって区切られたデータ。2004年の都道府県別人口など。

2)時系列データ(タイムシリーズデータ):ある項目について、時間によって並んでいる

もの。10年間の北海道の人口の推移、毎月の消費者物価指数の推移など。

3)プールデータ:項目について時間で並べられているもの。10 年間の都道府県別人口の推移、

毎月の都市別物価の変動など。

4)パネルデータ:同一主体の項目について時間で並べられているもの。企業 A の売上高、人件

費などの項目について 10 年間の推移など。

Page 5: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

5

2.2 データの表記と和記号Σ

変数名は、 x 、 y などのように添え字の無い小文字で表す。個々のデータを表す場合は添え

字を付け、1x 、 5y のように表す。前者は変数 x の 1 番目のデータ、後者は変数 y の 5 番目のデ

ータである。データの番号を特定化せず、一般的なデータとして表記する場合は ix 、 jy と記す。

例えば、野球のスコアで A チームの得点を x 、B チームの得点を y とする。A チームの 1 回

表の得点が 1 点のとき、 11 x と表す。

表 2-1 野球のスコアと∑記号

TEAM 1 2 3 4 5 6 7 8 9 R

A 1 0 3 0 0 0 1 0 0 5

B 0 1 0 0 1 1 0 0 0 3

和記号Σ(シグマ)はデータの和を表す。記号の下に和を計算する最初のデータ番号、上に

最後のデータ番号を表記する。

A チームの 1 回表から 9 回表までの合計得点は、

9

1i

ix と記して 5)( 91

9

1

xxxi

i 、

B チームの 2 回裏から 6 回裏までの合計得点は、

6

2i

iy と記して 3)( 62

6

2

xxyi

i 、

となる。一般的に ix の n個すべてのデータの和 nxxx 21 は、以下のように表す。

n

i

ix1

以下に公式と定義を示す。例では簡単化のため、表 2-1 のスコアで 3n として 3 回までの得

点を扱う。

(1)和の和:

n

i

n

i

ii

n

i

ii yxyx1 11

)(

(証明) 右辺左辺 )()()()()( 21212211 nnnn yyyxxxyxyxyx

(例) 5)010()301()03()10()01( 、両チームの得点の合計。

(2)定数倍の和:

n

i

i

n

i

i xccx11

(証明) 右辺左辺 )( 2121 nn xxxccxcxcx

(例) 2c とすると 8)301(2320212 。c には添え字が無いことに注目せよ。

毎回の得点を c倍して合計する。

(3)定数の和: ncccccn

i

1

(例) 3n なので、 2c とすると 6222 。毎回同じ得点をとるときの合計。

Page 6: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

6

(4)二乗和: 22

2

2

1

1

2

n

n

i

i xxxx

(例) 10301 222

(5)和の二乗: 2

21

2

1

)( n

n

i

i xxxx

(例) 16)301( 2

(6)積和:nni

n

i

i yxyxyxyx

2211

1

(例) 0000031001

(7)和の積: ))(( 2121

11

nn

n

i

i

n

i

i yyyxxxyx

(例) 414)010()301(

(8)和の二乗和: 22

22

2

11

1

2 )()()()( nn

n

i

ii yxyxyxyx

(例) 11911)03()10()01( 222

1 種類の変数に二つの添え字を付けることができる。その場合のデータは、次のような表と

して扱われる。

i j 1 2 … m

1

2

n

11x 12x … mx1

21x 22x … mx2

1nx 2nx … nmx

この表は n行 m 列で作られている。12x は1行2列目のデータである。このようなデータを一

般的に ijx と表す。ここで、 ni ,,1 、 mj ,,1 である。例えば以下のような表のとき、1 年

2 組として 112 x 、2 年 3 組として 123 x である。

クラス j

学年 i

1 2 3

1

2

2 -1 5

0 1 1

この表を例として、いろいろな和を示す。

(1)第 i 行の和: imii

m

j

ij xxxx

21

1

(例)1 行目について、 6512 、学年 1 の合計。

(2)第 j 列の和: njjj

n

i

ij xxxx

21

1

(例)2 列目について、 011 、2 組の合計。

Page 7: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

7

(3)すべてのデータの和: )()()( 1221111

1 1

nmnmm

n

i

m

j

ij xxxxxxx

(例) 8)110()512(

なお、 ix の 1i からまでの和は

n

i

ix1

であるが、すべての n 個のデータを合計するのが一般

的である。特別な場合を除き、シグマ記号の上下を省略して、n個のデータの和として ix と

表すことが多い。表 2-1 の野球のスコアの例では、 5 ix 、 3 iy となる。

(例 2-1)以下のデータのとき、次の計算を行え。

i x y z

1 1 0 7

2 6 -1 9

3 -3 2 -5

1. 1c のとき、 )( czyx iii

2. iii zyx

3. 1,2 ba のとき、 )( ii byax

4. 2

ii yx

5. 22

ii zy

2.3 関数の概念

経済変数間の関係を関数で表現したように、計量経済学では、関数の概念をよく用いる。登

場する関数は、一次関数 bxay 、二次関数 cbxaxy 2、指数関数 )exp(xy 、対数関

数 )ln(xy などである。これらに共通しているのは、 zxy ,, は経済変数でデータが存在し、 cba ,,

は関数の中では係数としての役割を果たすことである。また、y は結果と考えられる変数、x は

原因となる変数の役割をもつ。

y (結果)

関数

x (原因) x (原因) y (結果)

図 2-1 関数の概念

x y

1.2 100.2

3.5 120.6

2.6 110.5

… …

Page 8: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

8

図 2-2 に一次関数 bxay のグラフを示す。aは切片であり、この値が増加すれば直線は上

にシフトする。 b は傾きであり、この値が増加すれば直線の傾きは急になる。負の場合は、右

下がりの直線になる。

図 2-3 に指数関数と対数関数のグラフを示す。両者ともに x の値が増加すると、y の値も増加

する(増加関数という)。特に指数関数では、 y は正の値しかとらない、 0x のとき 1y など

の特徴がある。一方、対数関数では、 x が正の値しかとらず、 1x のとき 0y となる。

y

b 増大 0b のとき

a 増大

a

x

図 2-2 一次関数

y )exp(xy

y )ln(xy

x

x

指数関数 対数関数

図 2-3 指数関数と対数関数

2.4 二次関数の最大・最小

計量経済学では、最大・最小の概念もよく用いる。本書では、特に二次関数 cbxaxy 2

に対して最小の概念を適用する。

図 2-4 において、点 0P はこの二次関数が最小になる点であり、 0xx で最小値 0y をとる。図

2-5 は最大の場合である。

Page 9: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

9

y

0P

最小値 0y

0x x

図 2-4 二次関数の最小

y

0P

最大値 0y

0x x

図 2-5 二次関数の最大

Page 10: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

10

3.一変数データの分布

3.1 度数分布表とヒストグラム

質的データや階級毎に区切られた量的データについて、それぞれに属する観測対象の分布の

状況を表にしたものを度数分布表という。数え上げられた個数を度数、度数の合計に対する度

数の割合を相対度数、度数の加算を累積度数、合計に対する累積度数の割合を相対累積度数と

いう。ヒストグラムは横軸に質的データや階級、縦軸に度数や相対度数をとり、縦棒グラフで

表したものである。

表 3-1 度数分布表とヒストグラムの例(平成 18 年北海道年間収入階級別集計世帯数)

階級

(万円)

度数 相対度数

(%)

累積度数 相対累積度数

(%)

300未満 16 10.1 16 10.1

300~450 35 22.0 51 32.1

450~600 42 26.4 93 58.5

600~750 27 17.0 120 75.5

750~900 19 11.9 139 87.4

900~1250 15 9.4 154 96.9

1250以上 5 3.1 159 100.0

注:集計世帯数とは集計に用いた世帯の数である。

出所:家計調査結果(総務省統計局)

ヒストグラムにおいて、データ数を増やすと同時に階級幅を細かくしていくと、近似した曲

線のように見えてくる。このように描かれた理論的な曲線を分布曲線という(図 3-1)。分布曲

線では、縦軸はデータ数や割合のままだが、横軸はデータの値そのものの連続的な数値となる。

→ →

階級値 階級値 データ値

データ数を増やし、階級幅を細かくしていく

図 3-1 ヒストグラムと分布曲線

図 3-2 に代表的なヒストグラム・分布曲線の型を示した。度数の集中する山の数やその階級、

グラフの拡がりからデータのばらつき・散らばりの大きさ、外れた階級(外れ値)の有無など

を読み取る。

10 20 30 40 50 60 70 80 90 100 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 10 20 30 40 50 60 70 80 90 100

0

10

20

30

40

50

~300

300~

450

450~

600

600~

750

750~

900

900~

1250

1250~

Page 11: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

11

左右対称とは、度数が集中する階級を軸として、左右が同じような度数の減り具合を示すも

の。それに対し、分布の右裾の度数が尐ない場合に右に歪む、左裾の度数が尐ない場合に左に

歪むという。所得の分布は、右に歪むことが多い。度数の集中する山が一つの場合が単峰型で、

二つ以上では多峰型という。観測対象に異質の集団が含まれるとき、多峰型になる場合が多い。

分野の異なるスポーツ選手が混じった身長の分布などが考えられる。グラフの拡がりが小さい

ときは、上下の階級に属するデータの数が尐ないので、データのばらつきや散らばりの程度が

小さいといえる。ただし、グラフの幅は階級の取り方に左右するため、相対的な概念である。

また、階級の上(下)にかけ離れた階級にデータがある場合、外れ値が存在しているという。

左右対称単峰型 非対称(右に歪む) 非対称(左に歪む)

多峰型 拡がり小 外れ値の存在

図 3-2 ヒストグラム・分布曲線の型

(例 3-1)左右対称単峰型、左に歪む分布、拡がりが大きい分布の型を示すようなデータの例をそれぞれ

挙げよ。

(例 3-2)ヒストグラムのシュミレーション

階級と度数から度数分布表を完成させる。度数を適当に設定して、ヒストグラムをシュミレートする。

1. Excel を起動し、次の表を入力する。

2. 度数の合計の計算。

C12:「編集」の「∑」

3. 階級値:階級の幅の中点であり、階級の上限と下限を平均する。

B2:=(0+99)/2、右クリック→「セルの書式設定」→「表示形式」→「数値」→「小数点以下の桁数」

を「0」。

B3~B10:同様

B11:他の階級値を参考に 950

Page 12: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

12

A B C D E F

1 階級 階級値 度数 相対度数 累積度数 相対累積度数

2 0-99 1

3 100-199 3

4 200-299 5

5 300-399 7

6 400-499 11

7 500-599 9

8 600-699 6

9 700-799 4

10 800-899 3

11 900- 1

12 合計

4. 相対度数:合計に対するそれぞれの度数の割合。

D2:=C2/$C$12(分母の$C$12 は、C12 を入力した後 F4 を押して絶対参照にする)、右クリック→

「セルの書式設定」→「表示形式」→「パーセンテージ」→「小数点以下の桁数」を「1」。以下コピー。

5. 累積度数:度数を加算したもの。

E2:=C2

E3:=E2+C3(前の階級の累積度数にこの階級の度数を加算)、以下コピー。

6. 相対累積度数:合計に対する累積度数の割合。

F2:=D2、右クリック→「セルの書式設定」→「表示形式」→「パーセンテージ」→「小数点以下

の桁数」を「1」。

F3:=F2+D3、右クリック→「セルの書式設定」→「表示形式」→「パーセンテージ」→「小数点以

下の桁数」を「1」。以下コピー。

7. ヒストグラムを作成する。階級と相対度数の数値部分(ラベル、合計を除く)をドラック→「挿入」

→「縦棒」→「2-D 縦棒」→「集合縦棒」を選択する。

8. 凡例上で右クリックして、凡例を削除する。また、棒上で右クリックし、「データ系列の書式設定」

→「系列のオプション」で、「要素の間隔」を「なし」にスライドする。

9. 分布曲線の追加。棒上で右クリックし、「近似曲線の追加」→「多項式近似」で、「次数」を 6 次に

する。

10. 度数に適当な値を入力し、図 3-2 にあるようないろいろな型の分布を作成せよ。度数の合計は自動計

算されるので、相対度数の計算には支障が無い。

11. シート名を「3-2」、ファイル名を「計量経済学」に変更して、自分のドライブ(R:)に保存せよ。

3.2 質的データの分布

質的データは数字で表されるが比率や間隔に意味がなく、正の整数で定義される離散デ

ータの形式をとる。その分布を把握するために、度数分布表とヒストグラムは有用である。

例えば、北海道における産業毎の企業数の度数分布表を作成してみる。アンケートでは以下

のように質問するだろう。

Page 13: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

13

(問)あなたの事業所は、どれに属しますか。

(1)農林漁業 (2)鉱業 (3)建設業 (4)製造業 …

産業の区分(1、2、…)が質的データであり、区分ごとに事業所の数を数えた結果が度数分

布表である(表 3-2)。

表 3-2 産業分類別事業所数(平成 13 年、北海道)

区分 事業所数

(1)農林漁業 3276

(2)鉱業 340

(3)建設業 26075

(4)製造業 13423

(5)電気・ガス・水道 732

(6)運輸・通信 9418

(7)卸売・小売業 109844

(8)金融・保険 5463

(9)不動産業 17064

(10)サービス業 81765

(11)公務 3104

出所:平成13年事業所・企業統計調査結果(北海道分)

http://www.pref.hokkaido.jp/skikaku/sk-kctki/index.html

(例 3-3)質的データのヒストグラム

表 3-2 からヒストグラムを作成する。度数の大きさにより横軸に配置する順序を変えたヒストグラム

を作成する。

1. ファイル「計量経済学」を開く。シート名を「3-3」に変更する。

2. 表 3-2 を入力せよ。

3. ヒストグラムを作成する。ラベルを除いて、区分と事業所数の数値部分をドラック→「挿入」→「縦

棒」→「2-D 縦棒」→「集合縦棒」を選択する。

4. 凡例上で右クリックして、凡例を削除する。また、棒上で右クリックし、「データ系列の書式設定」

→「系列のオプション」で、「要素の間隔」を「なし」にスライドする。

5. 表全体をドラックし、「データ」→「並べ替え」で、「最優先されるキー」を「事業所数」、順序を「降

順」にして、「OK」をクリックする。

6. ヒストグラムの違いを考察せよ。

度数の大きなデータ(ここでは産業区分)を左順に配置すると、度数の大きな産業の順序と

集中の様子がわかる。この例では、卸売・小売、サービス業以下の順に度数が多く、この2つ

に度数が集中していることが読み取れる。データの順序を変えて、読み取り易いグラフが作成

できる。

Page 14: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

14

3.3 量的データの分布

量的データは、実数や整数で定義され、値のとりうる範囲も広い。度数分布表やヒストグラ

ムを作成するためには、データを階級毎に区切る必要がある。

例えば、都道府県別の経済活動を示す指標として、県民所得がある。調査方法としては、国

民所得の算出と同様に、県内の事業所からの生産物の総額を基にして算出する方法と、県内の

家計所得の調査を基にする方法がある。ここでは、前者について、都道府県別一人当たりの県

民所得の分布を調べる。所得の値を階級に区切り、その区分に対応する都道府県数を数えた結

果が度数分布表となる。

(例 3-4)都道府県別1人当たり県民所得の分布

県民所得データを用い、度数分布表とヒストグラムを作成する。

1. ファイル「計量経済学」を開き、シート名を「3-4」に変更する。

2. HP(http://www.sapporo-u.ac.jp/~komaki)

→ 例 3-4 1人当たり県民所得 をクリックしてファイルを開く。

3. 都道府県名と1人当たり県民所得のデータ全体を挿入したシートの A2 へコピーせよ。

B1:県民所得

A B

1 県民所得

2 北 海 道 2,535

3 青 森 県 2,152

4 岩 手 県 2,363

~ ~ ~

4. 以下のような階級と上限値を D 列~E 列に入力する。

D E

階級 階級の上限

-2199 2199

2200-2499 2499

2500-2799 2799

2800-3099 3099

3100-3399 3399

3400-3699 3699

3700-3999 3999

4000-4299 4299

4300-

5. 標本平均の分布を描くため、度数分布を作成する。

F2:FREQUENCY 関数を挿入。

データ配列:B2:B48(県民所得データ部分)

区間配列:E2:E9(上限値部分)

6. すべての階級の上限に対応する FREQUENCY 関数の入力は、配列数式の方法で行う。F2~F10 をド

ラックする。数式バーの空白部分をクリックし、Ctrl キー+Shift キーを押しながら Enter キーを押す。

Page 15: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

15

7. 頻度の数値部分をドラックし、縦棒グラフを作成して、ヒストグラムを作成せよ(凡例削除、要素

の間隔をゼロ)。

分布をみると、外れ値が存在することが明らかである。それを含めると、全体的には右に歪

む分布となっている。

Page 16: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

16

4. 分布特性を示す統計量

4.1 分布の中心位置を示す統計量

分布の中心の位置、拡がり、歪みなどの分布特性は、数量化することにより客観的に把握す

ることができる。平均などのようにデータから計算・要約して数量化されたものを統計量とい

う。

(1)算術平均

通常、平均といわれる。n 個のデータを nxxx ,,, 21 とすると、平均 x(エックス・バー)は、

n

i

in xn

xxxn

x1

21

1)(

1

となる。

(2)中央値(メジアン)

データを昇順(小さな値から大きな値)に並べたとき、ちょうど真中に位置する値が中央値

である。例えば、 1,5,3 は昇順に並べると 5,3,1 となるので、中央値は 3 である。データの数が偶

数のとき真中に位置するデータは存在しないので、その前後のデータを平均する。例えば、

8,1,5,3 のとき、昇順に並べると 8,5,3,1 となるので、中央値は2番目と3番目のデータを平均して

42/)53( となる。

(3)最頻値(モード)

最も頻繁に現れるデータの値を最頻値という。例えばデータが 3,4,4,2,3,1,5,3 のとき、最頻値

は 3 である。また、 5,4,4,3,3,2,2,1 などのように、同じ頻度が複数に現れるデータのとき(タイ)、

その中央値を最頻値とするなどのルールがある(この場合は 3)。統計ソフトを用いるときには

定義を確認する必要がある。

(4)平均、中央値、最頻値の関係

左右対称な分布では、平均、中央値、最頻値ともほぼ一致するが、分布が歪む場合、この値

が異なってくる。これら三つの統計量には、

分布が右に歪む場合:最頻値<中央値<平均

分布が左に歪む場合:平均<中央値<最頻値

の関係がある。

例えば、データが 3,2,2,1,1,1 のとき、分布は右に歪むが(図 3-2 をみよ)、平均=1.667、中央値

=1.5、最頻値=1 なので、最頻値<中央値<平均の関係を満たす。

図 4-1 では、分布曲線で考えたときの、平均、中央値、最頻値の位置が記してある。ヒスト

Page 17: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

17

グラムの場合は、平均、中央値、最頻値が含まれる階級で横軸の位置を表す。このように、平

均、中央値、最頻値の大小関係により、ヒストグラムを作らずにデータの分布を把握できる。

(例 4-1)以下を満たすデータをそれぞれ作成せよ。

(1)平均がゼロ

(2)左に歪む分布

右に歪む布 対称分布 左に歪む分布

↑↑↑ ↑ ↑ ↑ ↑

最頻値 中央値 平均 平均 平均 中央値 最頻値

中央値

最頻値

図 4-1 分布の歪みと統計量

4.2 分布の拡がりを示す統計量

データのばらつきや散らばりは、分布の拡がりの程度に表れる。それらも数量化することが

できる。分布の拡がりの程度がグラフの横軸の取り方に左右するのと同様に、これらの統計量

も相対的な概念である。

(1)偏差、分散、標準偏差

分布の拡がりは、データのばらつきの程度を一つの統計量へ要約することで定義される。そ

のデータのばらつきは、各データが平均からどの程度離れているかで考える。

各データから平均を差し引いた値を偏差といい、 xxi で求められる。しかし、これを合計

すると必ずゼロになるので、拡がりの大きさを示す統計量にはならない。なぜなら、

0

1

)()()()()( 11

iiiii

nni

xxxn

nxxnx

xxxxxxxxxx

となるからである。

そこでこの偏差を二乗して 2)( xxi 、符号をすべて正にする。分散はこの偏差の二乗の合計

を 1n (データ数-1)で割ったものである。ここで引き算される 1 とは、変数が x の1種類と

いう意味である。もし 1n のとき、 011 となり、分散を求めるときに、ゼロで割ることに

なる。このようなデータの数がたった 1 個の場合を排除するために、 1n で割る。

Page 18: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

18

分散

n

i

in xxn

xxxxxxn 1

222

2

2

1 )(1

1})()(){(

1

1

分散には、偏差の二乗の合計を 1n で除した不偏分散(上式)と、データ数 n で除した母分

散(

n

i

i xxn 1

2)(1

)がある。データが尐ない時には不偏分散、多い時には母分散を用いる。通

常の分散は不偏分散をいう。

ここでデータの単位について考えよう。例えばデータの単位を円とすると、偏差の単位は円

だが、分散の単位は 2円 となる。これの平方根をとると、単位を円に戻すことができる。分散

の平方根を標準偏差という。

不偏分散標準偏差

(2)変動係数

標準偏差の大きさはデータの単位や平均の大きさに影響される。変動係数は、データの単位

や平均の影響を除去して、データのばらつきを把握する統計量であり、以下のようになる。

x

標準偏差変動係数

例えばデータの単位を円とすると、標準偏差と平均の単位も円である。同じ単位同士のものを

割ると、単位は消えてしまう。このような単位を持たない数量を無名数という。変動係数は無

名数であるので、円とドルなど異なる単位を持つデータのばらつきを比較することができる。

図 4-2 にあるように、データのばらつきが大きいと、分布の拡がりが大きくなり、分散・標

準偏差・変動係数ともに大きな値をとる。逆にばらつきが小さいと、分布の拡がりが小さく、

分散・標準偏差・変動係数ともに小さな値をとる。

←拡がり小(分散・標準偏差・変動係数小)

拡がり大(分散・標準偏差・

変動係数大)→

図 4-2 分布の拡がりと分散・標準偏差

(例) データが 5,3,1 のとき、

平均 33

531

偏差:各データから平均を差し引いて、 2,0,2 (偏差を合計すると 0202 )

不偏分散 42

404

2

)2()0()2(

13

)35()33()31( 222222

Page 19: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

19

母分散 667.23

404

3

)2()0()2(

3

)35()33()31( 222222

標準偏差 24

変動係数 667.03

2

(例 4-2)データが 7,3,1 のときの平均、丌偏分散、母分散、標準偏差、変動係数を求め、先の(例)と比

較せよ。

1,3,5 -1,3,7

平均 3

不偏分散 4

母分散 2.667

標準偏差 2

変動係数 0.667

4.3 分布の歪みを示す統計量

(1)歪度

わいど

歪度は分布の歪みを要約する統計量である(図 3-2、図 4-1)。

n

i

i

s

xx

nn

n

1

3

)2)(1(歪度

ここで s は標準偏差である。

右に歪むということは、平均よりも大きな値をとるデータが多いことになる。このとき xxi

が正の値をとり、三乗されるので符号は正のままで消えない。したがって歪度は正の値をとる。

このように右に歪む場合は正の値、左に歪む場合は負の値をとる。分布が左右対称な場合はこ

の値はゼロに近くなる(正規分布ではゼロ、5.2(2))。

(2)尖度

せんど

尖度は分布の尖がり・集中の程度や外れ値の有無を要約する統計量である。

)3)(2(

)1(3

)3)(2)(1(

)1( 2

1

4

nn

n

s

xx

nnn

nn n

i

i尖度

ここで s は標準偏差である。

分布が尖っていて集中している場合は正の大きな値をとり、外れ値が存在する場合も正の値

をとる。逆に分布が平坦な場合は値は小さくなり、負の値もとりうる(正規分布ではゼロ、5.2(2))。

Page 20: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

20

←集中大(尖度大)

集中小(尖度小)→

図 4-3 分布の尖がり・集中

(例 4-3)平均、偏差、分散、標準偏差、変動係数

平均、偏差、分散、標準偏差、変動係数を定義に従って計算する。Excel 関数を用いて計算した結果と

比較する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「4-3」に変更しておく。

2. 以下の表を入力せよ。

A B C D

1 データ 偏差 偏差の二乗

2 120

3 120

4 130

5 250

6 360

7 平均

8 偏差の合計

9 偏差の二乗和

10 分散

11 標準偏差

12 変動係数

3. 定義に従って各統計量を計算せよ。

平均:データの合計をデータの個数で割る。B7:=(B2+B3+B4+B5+B6)/5。

偏差:各データについて平均を差し引く。C2:=B2-$B$7、以下コピー。

偏差の合計:偏差を合計する。B8:=C2+C3+C4+C5+C6。

偏差の二乗:偏差を二乗する。D2:=C2^2、以下コピー。

偏差の二乗和:偏差の二乗を合計する。B9:=D2+D3+D4+D5+D6。

分散:偏差の二乗和を(データの個数-1)で割る。B10:=B9/(5-1)。

標準偏差:分散の平方根(0.5 乗)を求める。B11:=B10^0.5(または、=SQRT(B10))

変動係数:標準偏差を平均で割る。B12:=B11/B7。

4. C 列:「fx」(関数の挿入)より Excel 関数を用いて、平均(AVERAGE)、分散(VAR)、標準偏差(STDEV)

を求め、結果が一致することを確認せよ。

Page 21: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

21

(例 4-4)分布の形状と統計量

統計量を計算し、ヒストグラムを描く。データを変えてみて、各統計量と分布の形状がどのように対

応するかを調べる。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「4-4」に変更しておく。

2. 以下の表を入力せよ。

A B C D

1 データ 階級の上限 度数

2 145 150

3 155 160

4 155 170

5 155 180

6 160 190

7 165

8 165

9 170

10 175

11 190

12 平均

13 中央値

14 最頻値

15 分散

16 標準偏差

17 変動係数

18 歪度

19 尖度

3. B 列:「fx」(関数の挿入)より Excel 関数を用いて、平均(AVERAGE)、中央値(MEDIAN)、最頻

値(MODE)、分散(VAR)、標準偏差(STDEV)、歪度(SKEW)、尖度(KURT)、変動係数(=B16/B12)

を求めよ。

4. データの分布を描くため、度数分布表を作成する。

D2:「fx」(関数の挿入)より FREQUENCY 関数を挿入せよ。

データ配列:データ部分(B2:B11)

区間配列:階級の上限部分(C2:C6)

5. すべての階級の上限に対応する FREQUENCY 関数のコピーは、配列数式の方法で行う。つまり、D2

~D6 をドラックする。数式バーの空白部分をクリックし、Ctrl キー+Shift キーを押しながら Enter

キーを押す。

6. 度数の数値部分をドラックし、縦棒グラフを作成して、ヒストグラムを作成せよ(凡例削除、要素

の間隔をゼロ)。

7. 平均、中央値、最頻値の大小関係および歪度の符号を確認せよ。また、この分布は左右のどちらに

歪むか。

8. データを 145、155、165、170、175、180、180、185、185、190 に変更せよ。平均、中央値、最頻値

の大小関係および歪度の符号を確認せよ。また、この分布は左右のどちらに歪むか。

9. データを 155、165、165、170、170、170、170、170、170、175 に変更せよ。尖度から、データの集

中の程度を確認せよ。

Page 22: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

22

10. データを 150、150、160、160、170、170、170、170、170、190 に変更せよ。尖度から、外れ値の存

在を確認せよ。

11. データを最初に戻して、分散、標準偏差、変動係数を別のセルへメモしておくこと。

12. データを 155、155、160、165、165、165、165、170、175、175 に変更せよ。分散、標準偏差、変動

係数はどう変るか。

13. データを 1.55、1.55、1.6、1.65、1.65、1.65、1.65、1.7、1.75、1.75 に変更せよ。分散、標準偏差、

変動係数はどう変るか。

(例 4-5)都道府県別1人あたり県民所得の統計量

県民所得の調査データから各統計量を求める。例 3-3 で作成したヒストグラムと対応させてみる。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「4-5」に変更する。

2. シート「3-4」上にある都道府県名とデータ部分を、こちらのシートへコピーする。

A B

1 県民所得

2 北 海 道 2,535

~ ~ ~

48 沖 縄 県 1,987

49

50

51 平均

52 中央値

53 最頻値

54 分散

55 標準偏差

56 歪度

57 尖度

3. B 列:「fx」(関数の挿入)より Excel 関数を用いて、平均(AVERAGE)、中央値(MEDIAN)、最頻

値(MODE)、分散(VAR)、標準偏差(STDEV)、歪度(SKEW)、尖度(KURT)計算せよ。

4. シート「3-4」のヒストグラムとともに、以下について調べよ。

(1)分布の中心位置を示す統計量の値と、それらが属する階級の度数との関係。

(2)平均、中央値、最頻値の大小関係および歪度と、分布の歪みとの関係。

(3)尖度と外れ値の有無。

(例 4-6)株価のリターン・リスク

株価、為替、証券等への投資の際に必要な情報を、投資から生まれる収益率の分布から考えてみる。

収益率とは、以下のように定義される。

100-

(%) 投資金額

投資金額受け取り金額収益率

収益率の平均値をリターンという。ハイリターンとは収益率が高い状況をさす。しかし、収益率の変

動が大きければ、損失が大きくなることもありうる。この変動の尺度をリスクといい、分散や標準偏差

Page 23: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

23

で測ることができる。ハイリスクとは大きな損失を生む可能性がある状況をさす。

投資分析などでは、収益率として以下の対前月収益率が用いられる。先月の株価で投資して、今月売

却してしまうという想定である。現実的ではないが、短期の情報を網羅するという点では有用である。

100-

(%) 先月の株価

先月の株価今月の株価対前月収益率

ここで、トヨタとソニーの株価のリターンを平均、リスクを標準偏差から比較してみる。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「4-6」に変更する。

2. HP(http://www.sapporo-u.ac.jp/~komaki)

→ 例 4-6 株価 をクリックしてファイルを開き、データ全体を挿入したシートへコピーせよ。

3. 折れ線グラフを作成し、株価の推移を比較せよ。

4. D1:対前月収益率

D2:トヨタ

E2:ソニー

D3:=(B3-B2)/B2*100、以下コピー。

5. 「fx」(関数の挿入)より Excel 関数を用いて、対前月収益率のリターン(平均、AVERAGE)とリス

ク(標準偏差、STDEV)を求めよ。

6. 対前月収益率の折れ線グラフを作成せよ。

7. リターンとリスクを比較せよ。

Page 24: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

24

5. 確率変数と確率分布

5.1 確率変数

(1)確率、確率変数、確率分布

ある出来事がどの程度に起こり易いかの指標は、確率で測ることができる。この出来事を事

象という。「雨が降る」「サイコロを1度振ったとき6の目が出る」などがある。事象は記号 A

を用いて、A={雨が降る}などと表すことができる。確率は )(AP と書き、雨が降る確率が 20%

ならば、 0.2)( AP と書く。

サイコロの出る目を変数として、その取る値についての確率を考える。事象「サイコロを1

度振ったとき6の目が出る」確率が 1/6 のとき、サイコロの出る目を x として、 6/1)6( xP

と表す。このように確率を割り当てることができる変数 x を確率変数という。

サイコロの出る目とその確率には対応関係が存在する。このように、確率変数 x の値と、そ

の値に対応して定義される確率の大きさとの対応関係を、確率分布という。このとき、確率変

数 x は確率分布に従う、あるいは確率分布をもつという。

1度振ったサイコロの出る目の確率分布は表 5-1 のようになる。は起こりうるすべての事

象を集めて作られ、全事象という。サイコロを振ると必ずどれかの目が出るので、事象は全事

象に必ず含まれる。 7x (7 の目が出る)のようなありえない事象は、全事象には含まれない。

起こりうる事象をそれぞれ ,,, 321 AAA とする。サイコロを1度振っただけでは 1 と 6 の目

は同時に出ない。このように、2つ以上の事象が同時に起こらないとき、互いに排反事象であ

るという。

表 5-1 サイコロの出る目の確率分布

事象

1A : 1x 2A : 2x 3A : 3x 4A : 4x 5A : 5x 6A : 6x

)( iAP

1/6 1/6 1/6 1/6 1/6 1/6

確率は以下の条件を満たさなければならない。

1. 1)(0 AP

2. 1)( P

3. ,,, 321 AAA が互いに排反事象のとき、

)()()()or or ( 321321 APAPAPAAAP

1.は、確率は 0 と 1 の間の値をとることを意味する。

2.では、の確率とは、どれかの事象が起こる確率を意味するので、1となる。しかし、 7x

のようなありえない事象は、には含まれない。2.には、の中でしか確率を定義せず、 7x

のようなありえない事象を排除する役割がある。

Page 25: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

25

3.は、互いに同時に起こりえない事象について、そのどれかが起こる確率は和によって求め

られることを示している。例えば、サイコロを1度振って偶数が出る確率は、2,4,6 が出る確率

を用いて、次のようになる。

2

1

6

1

6

1

6

1)()()()or or ()6or 4or 2( 642642 APAPAPAAAPxxxP

同時に起こる事象は、サイコロを 1 度降るだけでは生じず、2 度振る場合に起こる。この場

合の確率は、積によって求められる。例えば、サイコロを2度振って続けて 6 が出る確率は、6

が出る確率 1/6 の積となる。

36

1

6

1

6

1)()() and ()6 and 6( 6666 APAPAAPxxP

(2)期待値としての平均・分散

サイコロの出る目の平均を求める。実際にサイコロを振って出る目のデータを集めて平均す

るよりも、 5.36/)654321( と計算する方が常識的である。この式を変形すると、

6

16

6

12

6

11

6

621

となり、1 から 6 の確率変数(出た目)にそれぞれの確率 1/6 を乗じたものを合計したものと解

釈できる。このように、ある確率変数に確率を乗じ、すべての事象について合計したものを期

待値という。

n

i

iinn xxPxxxPxxxPxxxPxxE1

2211 )()()()()(

/1)( nxxP i ( n はデータ数)のように、確率がすべて同じ値をとるとき、期待値は算術

平均と一致する。データ数 n で割るということは、データがそれぞれ n/1 の確率で表れると考

える。

表 5-2 サイコロの出る目について

事象

1x 2x 3x 4x 5x 6x

確率 1/6 1/6 1/6 1/6 1/6 1/6

X 1 2 3 4 5 6 2)( xx 2)5.31( 2)5.32( 2)5.33( 2)5.34( 2)5.35( 2)5.36(

次に、 nxxx ,,, 21 の代わりに偏差の二乗 22

2

2

1 )(,,)(,)( xxxxxx n に確率を乗じて合計

すると、母分散となり、 ))(( 2xxE と書く。

n

i

iinn xxPxxxxPxxxxPxxxxE1

22

1

2

1

2 )()()()()()())((

例えばサイコロの目の分散は、以下のようになる。

Page 26: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

26

9.26

1)5.36(

6

1)5.32(

6

1)5.31( 222

(例 5-1)次の問に答えよ。

1. コイン A の表が出たとき 100 円、裏が出たとき 0 円貰え、コイン B の表が出たとき 60 円、裏が出た

とき 40 円貰えるものとする。A、B それぞれのコインについて、表 5-2 に対応する表を作成し、期

待値の計算式により、貰える金額の平均と分散を比較せよ。

2. A 社の株価は 0.3 の確率で 1000 円値上がりするが、0.7 の確率で 500 円値下がる。表 5-2 に対応する

表を作成し、期待値の計算式により、株価の平均を求めよ。

3. 1 万円が 1 本、1000 円が 5 本当たるようなくじを 100 本作成した。このくじの最適な値段を決めよ。

(3)相対度数と確率

度数分布表は、区切られた階級に対応するデータの数を数えて作られる。相対度数を、「ある

データがある階級に属する」という事象が起こる確率とは考えられないだろうか。

この相対度数と確率の条件(1.~3.)との関係について考える。相対度数の大きさは 0 と 1

の間をとるので、1.を満たす。データは必ずどこかの階級に属するので、2.を満たす。階級は重

複しないので互いに排反事象であり、階級を結合させた相対度数の値は、各階級の相対度数の

和となるので、3.を満たす。したがって相対度数は確率の条件を満たしている。

このときの確率変数の値は階級値で代表される。データの元々の値の代表が確率変数の値と

なるのではなく、含まれる階級での階級値をもって確率変数の値とする。例えば、ある家計の

所得が 330 万円のとき、300~400 万円の階級に含まれる。しかしこの階級値は 350 万円

(=(300+400)/2))であり、この値が確率変数の値となる。この階級に含まれる他の家計が 350 万

円ではなくても、すべて 350 万円という確率変数の値で代表される。

(例 5-2)1人あたり県民所得の期待値

例 3-4 で作成した度数分布表から期待値(平均)を求める。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-2」に変更する。

2. 以下の表を入力し、例 3-4 で作成した度数分布表から度数を入力せよ。

A B C D E

1 階級 階級値 度数 相対度数 階級値×相対度数

2 -2199

3 2200-2499

4 2500-2799

5 2800-3099

6 3100-3399

7 3400-3699

8 3700-3999

9 4000-4299

10 4300-

11 合計

Page 27: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

27

3. 階級値(階級の上限と下限の平均)

B3:=(2200+2499)/2、以下同様。B2、B10 は他の階級値を参考。

4. 度数の合計。

C11:「編集」の「∑」

5. 相対度数

D2:=C2/$C$11(分母の$C$11 は、C11 を入力した後 F4 を押して絶対参照にする)、右クリック→

「セルの書式設定」→「表示形式」→「パーセンテージ」→「小数点以下の桁数」を「1」。以下コピー。

6. E 列に )( ii xxPx を求めるため、階級値×相対度数を計算せよ。

E2:=B2*D2、以下コピー。

7. 期待値からの平均を求めよ。これが例 4-5 で求めた県別データによる平均に近くなることを確認せよ。

E11:「編集」の「∑」

(4)ヒストグラムと分布曲線の解釈

相対度数の合計は1なので、棒の高さを相対度数とするヒストグラムでは、棒の高さの合計

は1にならなければならない。階級幅を無限に細かくして分布曲線を作ることを考えると、棒

の高さの合計は、無限に引かれた線を合計することになり、面積を求めることと同じになる。

すなわち、ヒストグラムにおいても、分布曲線においても、グラフ全体の面積は1となる。こ

れは、すべて起こりうる事象についての確率を合計すると1になることに対応する。

相対度数

全体の面積は1

図 5-1 ヒストグラムと分布曲線

5.2 確率分布の代表例

(1)二項分布

サイコロの目は取りうる値が1から6までの範囲内に限られる。変数 x の x の値が有限に限

られるか、または無限であっても1、2、…と数えることが可能な場合、変数 x を離散的確率

変数という。二項分布はその代表例である。例えば、以下のような問題に適用される。

「あるスポーツチームの勝率は 60%である。20 試合のうち、15 試合勝つ確率を求めよ」

「ある新薬の効果は 90%であった。10 人に与えて、8 人以上に効果がみられる確率を求めよ」

二項分布は、勝ち・敗け、効果あり・なしのように、Yes・No の二者択一の選択肢を問題と

Page 28: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

28

する。1 回の試行での Yes の確率 p(No の確率は p1 )がわかっているとき、試行回数を n に

すると、確率変数 x 回 )0( nx に対する確率 )(xP は二項分布によって求められる。スポーツ

チームの例では、 20n 、 15x 、 6.0p 、新薬の例では、 10n 、 8x 、 9.0p となる。

試行回数 n、確率 p のとき、二項分布による確率 )(xP は次のように求められる。

xnx

xn ppCxP )1()(

xn C は二項係数といい、 n個から x 個取り出すときの組み合わせの数で、

)!(!

!

xnx

nCxn

と計算する。!は階乗であり、 12)2)(1(! nnnn というように、 n 以下全ての整数の積を

表す。例えば 6123!3 となる。なお、便宜上 1!0 とする。例えば、次のようになる。

3112

123

)!23(!2

!323

C

二項分布の定義において、 xn C : n 試合から x 試合勝つ組み合わせの数、xp :同時に x 試合

勝つ確率は排反事象ではないので、xpppp となり、

xnp )1( :同時に xn 試合負

ける確率で、xnpppp )1()1()1()1( となる。

前出のスポーツチームが 15 試合勝つ確率は、

0746.0000004815.0!5!15

!204.06.0

)!1520(!15

!20)4.0()6.0()15( 515152015

1520

CP

となり、約 7.5%の確率で勝つことになる。

新薬の例では、効果がみられる人数を確率変数 x にすると、

xx

xCxP 10

10 )1.0()9.0()(

となる。8 人以上に効果がみられるということは、8 人に効果がみられる場合、9 人の場合、10

人の場合と 3 通りあり、お互いに排反事象である。したがってその確率は、それぞれの確率を

合計した )10()9()8( PPP となる。 1937.0)8( P 、 3874.0)9( P 、 3487.0)10( P なので、

9298.03487.03874.01937.0)10()9()8( PPP

となる。

二項分布に従う確率変数 x の平均と分散は、期待値の計算方法を用いて求められる。単純化

して試行回数を 2n とする。このときの確率変数 x の値は 0、1、2 である。 x は勝つ試合の数

なので、0 とは 2 試合とも負ける場合、1 とは 1 試合のみ勝つ場合、2 とは 2 試合とも勝つ場合

である。それぞれの確率は、 2020

02 )1()1()0( pppCP 、 )1(2)1()1( 121

12 ppppCP 、

2222

22 )1()2( pppCP となる。期待値から平均を求めると、

ppppp 22)1(21)1(0 22

となる。

次に、分散を求める。確率変数の値 0、1、2 に対応して、偏差の二乗は2)20( p 、

2)21( p 、

2)22( p となる。確率はそれぞれ2)1( p 、 )1(2 pp 、

22 p なので、分散は、

Page 29: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

29

)1(2)22()1(2)21()1()20( 22222 ppppppppp

となる。

一般的に、試行回数が n回では平均は np、分散は )1( pnp となる。例えば、勝率が 60%の

とき、20 回の試合で 0.6×20 により 12 試合勝つというのは、平均を求めているにすぎない。で

は、分散はどうか。この場合 20×0.6×(1-0.6)=4.8 となり、勝つ試合数のばらつきの程度を意味

する。ここで、より強いチームを想定してみる。勝率を 90%とすると 20×0.9×(1-0.9)=1.8 と

なり分散は小さくなる。これは、勝率が高いと勝つ試合数にばらつきが尐なく、安定的に勝て

ることを意味する。逆に、勝率を 10%とすると 20×0.1×(1-0.1)=1.8 となり、こちらも分散は

小さい。勝つ試合数は尐ないが、ばらつきが尐なく、安定的に負けることを意味する。

(例 5-3)二項分布

二項分布のグラフの作成と確率の計算。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-3」に変更する。

2. 以下の表を入力せよ。

A B C D

1 確率変数x p xP(x)

2 0.6

3 0

4 1

~ ~

23 20

24

25 15試合勝利

26 8試合以下勝利

27 12~16試合勝利

28 確率の合計

29 期待値(平均)

30 平均

31 分散

3. 試行回数 20n (確率変数 x は 0 から 20 までの値をとる)、確率 6.0p とする。

4. 定義式による二項分布の入力。

B3:=FACT(20)/(FACT(A3)*FACT(20-A3))*$B$2^A3*(1-$B$2)^(20-A3)、以下コピー(FACT は階乗を

求める Excel 関数)。

5. C3:「fx」(関数の挿入)より Excel 関数を用いて、二項分布の関数(BINOMDIST)を入力する。

成功数: x の値なので、セル番地 A3 を入力

試行回数: n の値なので、20 と入力

成功率: p の値だが後で変更するので、絶対参照のセル番地$B$2 と入力

関数形式:0 にしておく

→OK、以下コピー。

Page 30: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

30

6. A 列の x の値と B 列の確率についてヒストグラムを作成せよ(空白の A2 よりドラック、集合縦棒、

凡例の削除、セルの書式設定により要素の間隔をゼロ)。

7. B25~B27 にそれぞれの確率を求めよ。

B25:=B18

B26:=SUM(B3:B11)

B27:=SUM(B15:B19)

8. 確率の合計を求め、1 になることを確認せよ。

B28:=SUM(B3:B23)

9. D 列に xP(x)を計算し、期待値を求めよ。

D3:=A3*B3、以下コピー

B29:=SUM(D3:D23)

10. 平均(nP)と分散(nP(1-P))を求めよ。

B30:=20*B2

B31:=20*B2*(1-B2)

11. 確率 p を 0.9、0.2 に変更し、以下を考察せよ。

(1)平均とその前後の x の値がとる確率

(2)分布の歪み

(3)分散の違い

(2)正規分布

サイコロの目のような離散的な場合とは対照的に、値をとる範囲が限られず、測定はできる

が数として数えることができない場合を連続的確率変数という。GNP、株価、物価、降水量、

電力需要量など一般的なデータがイメージされる。分布曲線は、データが連続的に変化する確

率分布をグラフにしたものである。

連続的確率変数での事象は、 2.1: xA 、 2.76.5: xB のように、変数の特定の値や区間

になる。それぞれに確率を割り当てて、 )(xf と書いたとき、確率密度関数という。離散的な場

合と同様に、確率変数の値に対応する確率を求めているにすぎない。

正規分布は、連続的確率変数の確率密度関数の代表例である。平均と分散が既にわかってい

るとき、データの値や区間がとる確率、逆に確率からデータの値を求めることができる。例え

ば以下のような問題に適用される。

「ある集団の身長の平均が 170cm 標準偏差が 5cm であった。165cm の人が現れる確率、168cm

から 172cm の人が現れる確率、175cm 以下の人が現れる確率、175cm を超える人が現れる確率

を、それぞれ求めよ。あるいは、下位 20%に含まれるのは身長が何 cm 以下の人か、逆に上位

10%を超えるのは身長が何 cm 以上の人か。」

確率変数 xが平均を (ミュー)、標準偏差(シグマ)の正規分布に従うとき、確率密度関

Page 31: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

31

数 )(xf は次のようになる。

2

2

2 2

)(exp

2

1)(

xxf

ここで、 は円周率、exp は指数関数である。また、標準偏差の二乗である 2 は分散である。

身長の例での確率密度関数は、

252

)170(exp

252

1)(

2xxf

となる。身長が 165cm の人が現れる確率は、 165x として、

0484.0252

)170165(exp

252

1)165(

2

f

と求められる。

分布曲線は図 5-2 にあるように、平均を中心に左右対称な釣鐘型をしている。

)(xf

x

図 5-2 正規分布

確率変数 xが区間でとる確率は、正規分布曲線の面積で求められる。168cm から 172cm の人

が現れる確率は、図 5-3 の A のような曲線と横軸で囲まれた面積で求められる。175cm 以下の

人が現れる確率は面積 B(下側確率)、175cm 以上の人が現れる確率は面積 C で求められる(上

側確率)。また、下位 20%に含まれる身長とは、面積 B が 0.2(20%)になるような横軸上の身

長になる。逆に、上位 10%に含まれる身長とは、面積 C が 0.1(10%)になるような横軸上の

身長になる。なお、確率の合計は 1 なので、上側確率 C=1-下側確率 B となる。

一般的に、確率変数 x が a以下の値をとる確率を )(aF で表すとき、 )(aF を累積分布関数とい

う。確率密度関数が正規分布のとき、累積分布関数は累積正規分布になる。累積分布関数 )(aF

は確率密度関数 )(xf において ax より左側を占める面積であり、 )()( aFaxf と書ける

(図 5-4)。すなわち、 )(aF は下側確率となる。累積分布関数 )(aF は、確率密度関数 )(xf を積

分して得られるが、実際の計算は Excel 関数などを用いて行う。

Page 32: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

32

A B C 1

168 172 175

図 5-3 正規分布の面積

累積分布関数を用いて、確率変数 x が ax から bx でとる確率を求める(図 5-4)。累積分

布関数 )(aF は下側確率なので、確率変数 x が ax 以下の値をとるような、分布曲線 )(xf の

ax より左側の面積となる。 )(bF は bx 以下の値をとる確率であり、 )(xf において bx よ

り左側の面積となる。従って、 ax から bx の面積は、 )()( aFbF で求められる。これを、

)()()( aFbFbxaf と表す。 aに等号がつかないのは、 )(af も含めて差し引くからであ

る。また、 bx を超える値をとる確率は、上側確率なので、 )(1 bF で求められる。

)(xf )(xF

)(aF )(bF )(bF

)(aF

)(1 bF

a b x a b x

図 5-4 確率密度関数と累積分布関数

例えば、 345.0)168( F 、 655.0)172( F なので、168cm から 172cm の人が現れる確率は、

310.0345.0655.0)168()172()172168( FFxf 。

175cm 以下の人が現れる確率は累積分布関数そのものの値なので、

841.0)175()175( Fxf 。

175cm を越える人が現れる確率は、

159.0841.01)175(1)175( Fxf 。

また、下位 20%に含まれる身長は 2.0)( xF を満たす x である。この値は 165.8 となる。上

位 10%を超える身長は 1.0)(1 xF を満たす x である。 9.01.01)( xF となり、これを満

たす x は 176.4 となる。

正規分布も期待値により、平均と分散が求められる。二項分布とは異なり、確率変数と確率

の積を合計するのではなく、それを積分する。その結果、平均は 、分散は 2 となる。

Page 33: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

33

(例 5-4)正規分布

正規分布とそのグラフ

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-4」に変更する。

2. 平均 170、標準偏差 5 とする以下の表を作成せよ。

3. A4 以下:平均との差を-20 から 20 までをフィルハンドルを用いて入力する。

A B C D E

1 平均 170

2 標準偏差 5

3 x f(x) f(x) F(x)

4 -20

5 -19

~ ~

43 19

44 20

4. B4:=$B$1+A4 を入力して( x の値)、以下コピー。

5. 定義式による正規分布の入力。

C4:=1/SQRT(2*PI()*$B$2^2)*EXP(-((B4-$B$1)^2/(2*$B$2^2)))、以下コピー。

6. D4:「fx」(関数の挿入)より Excel 関数を用いて、正規分布の関数(NORMDIST)を入力する。

X:x の値なので、セル番地 B4 を入力

平均:セル番地$B$1 を入力

標準偏差:セル番地$B$2 を入力

関数形式:確率密度関数なので 0 と入力

→OK、以下コピー。

7. f(x)について、折れ線グラフを作成せよ(B3 を消去して B 列を項目軸ラベルに認識させる、B3 から

C44 をドラッグして折れ線グラフ)。

8. E4:累積正規分布(NORMDIST)の入力。

X:x の値なので、セル番地 B4 を入力

平均:セル番地$B$1 を入力

標準偏差:セル番地$B$2 を入力

関数形式:累積分布関数なので 1 と入力

→OK、以下コピー。

9. F(x)について折れ線グラフを作成せよ(B3 から B44、E3 から E44 をドラッグして折れ線グラフ)。

10. 平均と分散をいろいろな値に変更して、グラフの形状がどのように変るかを確認せよ。

(例 5-5)累積正規分布による確率

累積正規分布からの確率と、確率に対応するデータの値を求める。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-5」に変更する。

2. 以下の表を作成せよ。

Page 34: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

34

A B

1 身長 確率

2 168から172

3 175以下

4 175超える

5 下位0.2

6 上位0.1

3. 平均 170、標準偏差 5 とする。

4. 172168 x なる確率。

B2:=NORMDIST(172,170,5,1)-NORMDIST(168,170,5,1)

5. 175x なる確率

B3:=NORMDIST(175,170,5,1)

6. 175x なる確率

B4:=1-B3

7. A5:Excel 関数(NORMINV)を用いて、下側確率が 0.2 になる身長を求めよ。

確率:0.2

平均:170

標準偏差:5

8. A6:Excel 関数(NORMINV)を用いて、上側確率が 0.1(=下側確率は 0.9)になる身長を求めよ。

確率:0.9

平均:170

標準偏差:5

(例 5-5)二項分布あるいは正規分布を用いて確率を求める例を作成し、実際に確率を求めよ。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-5」に変更する。

2. 二項分布での確率を BINOMDIST、正規分布での確率を NORMDIST により求めよ。

(例)二項分布の例: 確率:

正規分布の例: 確率:

(3)データの基準化と標準正規分布

データを変換して、その平均を 0、標準偏差を 1 にすることを基準化または標準化という。

データ ix の平均を 0 にするとき、データの平均を x とすると、

xxy ii

と変換すれば、 iy の平均は 0 になる。これは偏差に他ならない。

標準偏差を1にするとき、データの分散を 2s (標準偏差は s )とすると、

s

xw i

i

Page 35: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

35

と変換すれば、 iw の標準偏差は1になる。

両者を組み合わせて、

s

xxz i

i

が基準化である。 iz の平均は 0、標準偏差は1になる。

いろいろな現象が正規分布で表せるとしても、観測対象によって平均や分散が異なれば、確

率密度関数や分布曲線の形状が異なる。そこで、正規分布に従う確率変数を基準化して、平均

を 0、分散を 1 にしたとき、その変数が従う分布を標準正規分布という。これは、理論的な統

計分析において最も多く用いられる。

確率変数 xが標準正規分布に従うとき、確率密度関数 )(xf は次のようになる。

2exp

2

1)(

2xxf

この式は正規分布において 1,0 2 としたにすぎない。例えば、 2.0x のとき、

391.02

2.0exp

2

1)2.0(

2

f

と求められる。

分布曲線は平均の 0 を中心に左右対称な釣鐘型をしている(図 5-5)。

)(xf

0 x

図 5-5 標準正規分布

標準正規分布を累積した累積標準正規分布も定義できる。累積分布関数 )(aF は確率変数 x が

a以下の値をとる下側確率であり、分布曲線 )(xf において a より左側の面積となる。右側の面

積の上側確率は、 )(1 aF となる。

(例 5-6)データの基準化

データを基準化してみる。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「5-6」に変更する。

2. 次の表を作成せよ。

Page 36: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

36

A B C D E

1 X y w z

2 80

3 50

4 95

5 75

6 100

7 60

8 平均

9 標準偏差

3. ix の平均(AVERAGE)、標準偏差(STDEV)を、Excel 関数を用いて求めよ。

4. iy を求める、C2:=B2-$B$8 と入力し、C7 までコピー。

5. iw を求める、D2:=B2/$B$9 と入力し、D7 までコピー。

6. iz を求める、E2:=(B2-$B$8)/$B$9 と入力し、E7 までコピー。

7. それぞれの平均、標準偏差を算出し、基準化を確認せよ。

Page 37: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

37

6. 統計的推測

6.1 母集団と標本

(1)標本抽出

例えば、ある地域の家計について、所得の平均を知りたいものとする。実際に、地域の全て

の家計を調査することはできない。そこで、何世帯かを選んで調査し、その結果を地域の代表

値とするのが一般的である。例えば、表 3-1 ではほんの 159 世帯のデータにより、北海道の所

得分布としている。

調査・研究の対象となる集団を母集団という。この場合の母集団は地域のすべての家計とな

る。母集団の特徴を表す分布を母集団分布といい、母集団分布の特徴を表す統計量をパラメー

タ(母数)という。母集団の平均と分散をそれぞれ母平均、母分散というが、それらは未知の

パラメータとして扱われる。例えばこの地域の所得の母平均は、調査してみないとわからない

ので、未知のパラメータである。

パラメータの値を知りたいとき、母集団の一部である標本を取り出して調査する。調査のた

めに選ばれた家計が標本である。標本の抽出の仕方が無作為(ランダム)であるとき、無作為

標本抽出という。抽出された標本の平均や分散を、それぞれ標本平均、標本分散という。調査

対象の家計の所得の平均は、標本平均である。この値をもって、母平均の目安とする。

(2)推定

統計学の目的の一つは、標本を抽出してそこから統計量を求め、パラメータの値を推し量る

ことである。これを推定という(図 6-1)。特定の値のみを結論とするとき、点推定といい、誤

差を見込んである値からある値までの区間を結論とするとき、区間推定という。推定のために

用いられた平均のような統計量を推定量、得られた数値を推定値という。

例えば、家計を数十世帯選び、所得の平均をもってその地域の所得の平均とする作業が推定

である。平均が推定量であり、その値が 500 万円であれば、それが地域の所得の推定値となる。

母集団 標本

抽出 n 個

推定

母集団分布・パラメータ

図 6-1 母集団と標本

Page 38: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

38

(3)標本分布

標本の平均や分散などの統計量が従う分布を標本分布という。ここで、標本分布とは統計量

自体が従う分布であり、個々の標本データが従う分布ではないことに注意したい。例えば、こ

の地域からまた別の家計を選び、所得の平均を求める。また別な家計を選ぶ、ということを繰

り返すと、いくつかの平均が得られる。この平均をデータとしてみなして、その分布を描いた

ものが標本分布となる。すると、標本平均をデータとみなして、その平均や分散を得ることが

できる。

(4)中心極限定理

しかし、実際の標本はせいぜい1組しか得られない。そこから求められた標本平均も1つで

ある。では、標本平均は何故分布をもつのだろうか。何故なら、標本平均が従う分布を、実際

の調査でなく理論的に与えることが出来るからである。母集団の平均と分散があり、標本平均

にも平均と分散がある。標本平均の分布を考えるには、お互いの関係を明らかにする必要があ

る。

母集団の分布を規定するパラメータである母平均を 、母分散を 2 とする。これらは一般

的には未知である。このとき、 n個の標本から算出された標本平均の平均は 、標本平均の分

散は n/2 となる。すなわち平均だけは一致する。かつ、 n が十分大きいときに標本平均は正

規分布に従う。これを中心極限定理という。

さらに母集団の母平均を推定するには、この定理を用いる。例えば、ある地域から 50 世帯を

抽出して、その所得の平均が 500 万円とする。 50n の標本平均 500 である。このとき、

中心極限定理より母集団としての地域全体の所得の平均は 500 万円となる。

母集団 標本

分散

平均(n が小) 平均(n が大)・比率 カイ二乗分布

正規分布

t分布

図 6-2 標本の統計量が従う分布

この定理には、バリエーションが存在する。 n が小さいとき標本平均はt分布に従う。政党

支持率などの標本からの比率は正規分布に従い、標本分散はカイ二乗分布に従う(図 6-2)。

Page 39: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

39

(例 6-1)上の例で、標本平均の分散が 10 のとき、母集団の分散を中心極限定理を用いて求めよ。

6.2 仮説検定

(1)仮説検定と母集団

100g のミカンの缶詰を製造する機械を構築した。ミカンの房の重さは均一ではないので、す

べての製品をちょうど 100g にすることはできない。しかし、機械を調整して平均をなるべく

100g に近づけたい。試作品として 50 缶製造してその重さの平均を求めたところ、100.5g とな

った。この機械は平均して 100g の缶詰を製造しているといえるだろうか。

ここで、機械が製造する本当の缶詰の重さの平均を とする。この は機械の性能なので実

際の値は未知である。機械から製造された無数の缶詰は母集団を形成するので、 は母平均と

考えられる。この例では、この母平均 が 100 であるかを調べることを問題とする。このよう

に、母平均や母分散などの母集団を特徴づける統計量(パラメータ)を対象にして、それがあ

る値と一致するか否かを調べることを仮説検定という。

(2)帰無仮説と対立仮説

仮説検定を行うには、 100 と 100 という二つの仮説を立てる。調べたい仮説を等式で

表現したものを帰無仮説、それを否定する仮説を対立仮説という。すると、これらの仮説は以

下のようになる。

帰無仮説: 100

対立仮説: 100

帰無仮説は、機械が 100gの缶詰を製造している立場をとり、一方の対立仮説は、それを否

定する立場をとっている。これらの仮説について、どちらが正しいかを調べることが仮説検定

である。仮説を否定することを棄却する、支持することを採択するという。もし、 100 が

棄却され、 100 が採択されれば、この設備は 100g の缶詰を製造していることになり、機械

の調整の必要はないと判断される。

なお、帰無仮説の棄却は対立仮説の採択を同時に意味する。帰無仮説の採択と対立仮説の棄

却の関係についても同様である。

(3)検定統計量

標本平均が 100g に近ければ、 100 とみなして帰無仮説 100 が支持される。逆にかけ

離れていれば、 100 とみなして帰無仮説は棄却される。標本平均が 100.5 のとき、どのよう

に判断したらよいだろうか。ここで、100g と近い、離れているという情報を検定統計量に反映

させる。母平均の検定についての検定統計量は以下のようになる。

s

xnt

)(

Page 40: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

40

この値はt値と呼ばれ、 n は標本数、 x は標本平均、 は帰無仮説で設定された値、 s は標

本標準偏差である。

例えば、50 缶製造して、 5.100x 、 5.1s が得られたとすれば、t値は以下のようになる。

357.25.1

)1005.100(50

t

(4)棄却値と棄却域

仮説検定は、t値とある基準の値との大小関係から行われる。この基準の値を棄却値といい、

t値が従う分布から求められる。t値はt分布に従う。t分布とは平均がゼロで、図 6-3 のよ

うな左右対称な分布である。横軸で測った分布の裾の境目が棄却値であり、棄却値よりも分布

の裾へ向かう領域を棄却域という。図 6-3 のような左右対称な分布の場合は、棄却域は両裾に

存在する。

なお、検定統計量が従う分布が理論的に決まっているということは、検定を行うには1組の

標本で足りることを意味する。

(5)有意水準と自由度

正規分布において、確率を表す面積から横軸上の値を求めた場合と同様に、棄却値は確率(面

積)から決まる。この棄却値を決めるための確率(面積)を有意水準という。この値は分析者

が任意に決めるが、通常は 5%や 1%という小さな値が用いられる。図 6-3 のように、t分布の

ような左右対称な場合は、両裾の面積の合計(上側確率と下側確率の合計)である黒く塗りつ

ぶされた面積から決まる。

さらにt分布から棄却値を決めるには、自由度という統計量が必要になり、 1n で求められ

る。標本数が 50 のとき、自由度は 50-1=49 となる。

自由度= 1n

すなわち、t分布での棄却値は、図 6-3 でみると両裾の面積の合計である有意水準と、自由

度とで決まる。例えば、表 6-1 より、有意水準 5%、自由度 49 のとき、棄却値は 2.010 となる。

(6)判断

仮説検定は、t値と棄却値との大小関係により行われる。検定統計量がマイナスの時は、絶

対値により大小関係を判断する。従って、以下のように判断される。

|t値|<棄却値 → 棄却域に入らない。有意でないという。

帰無仮説を採択し、対立仮説を棄却する。

|t値|>棄却値 → 棄却域に入る。有意であるという。

帰無仮説を棄却し、対立仮説を採択する。

Page 41: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

41

有意水準

↑ 0 ↑

棄却域 棄却値 棄却値 棄却域

帰無仮説を棄却 帰無仮説を採択 帰無仮説を棄却

標本平均 検定統計量

変換

図 6-3 仮説検定の考え方

(7)仮説検定のまとめ

ここで、仮説検定の具体的な手順を、缶詰の重さの平均についての検定を例にしてまとめる。

1)母平均を として、以下のように帰無仮説と対立仮説を立てる。

帰無仮説: 100

対立仮説: 100

2)t値を求める。 50n 、 5.100x 、 5.1s のとき、 357.25.1

)1005.100(50

t となる。

3)自由度を求める。t分布の場合は 1n なので、自由度=50-1=49 となる。

4)有意水準を決め、有意水準と自由度から、棄却値を表 6-1のt分布表や Excel関数より求める。

有意水準 5%、自由度 49 のとき、棄却値は 2.010 となる。

5)棄却値と検定統計量を比較する。ここでは、2.357>2.010 となるので、有意である。帰無仮

説を棄却し、対立仮説を採択する。すなわち、 100 と判断される。

Page 42: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

42

表 6-1 t分布表

注:Excel 関数を用いて作成

(例 6-2)母平均の検定

Excel 関数を用いて、缶詰の例で仮説検定を行う。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「6-2」に変更する。

2. 以下の表を作成せよ。

A B

1 帰無仮説:μ=

2 標本数

3 標本平均

4 標準偏差

5 検定統計量(t値)

6 自由度

7 有意水準

8 棄却値

9 結果

3. 帰無仮説の値を B1:100、標本数を B2:50、標本平均を B3:100.5、標準偏差を B4:1.5 を入力せよ。

4. t 値 B5:=SQRT(B2)*(B3-B1)/B4、自由度 B6:=B2-1 で求めよ。

5. 有意水準 B7:0.05

6. B8:棄却値は関数 TINV を用いる。

確率:有意水準なので、B7

自由度:B6

自由度 5% 1% 自由度 5% 1%1 12.706 63.656 31 2.040 2.7442 4.303 9.925 32 2.037 2.7383 3.182 5.841 33 2.035 2.7334 2.776 4.604 34 2.032 2.7285 2.571 4.032 35 2.030 2.7246 2.447 3.707 36 2.028 2.7197 2.365 3.499 37 2.026 2.7158 2.306 3.355 38 2.024 2.7129 2.262 3.250 39 2.023 2.70810 2.228 3.169 40 2.021 2.70411 2.201 3.106 41 2.020 2.70112 2.179 3.055 42 2.018 2.69813 2.160 3.012 43 2.017 2.69514 2.145 2.977 44 2.015 2.69215 2.131 2.947 45 2.014 2.69016 2.120 2.921 46 2.013 2.68717 2.110 2.898 47 2.012 2.68518 2.101 2.878 48 2.011 2.68219 2.093 2.861 49 2.010 2.68020 2.086 2.845 50 2.009 2.67821 2.080 2.831 60 2.000 2.66022 2.074 2.819 70 1.994 2.64823 2.069 2.807 80 1.990 2.63924 2.064 2.797 90 1.987 2.63225 2.060 2.787 100 1.984 2.62626 2.056 2.77927 2.052 2.77128 2.048 2.76329 2.045 2.75630 2.042 2.750

有意水準 有意水準

Page 43: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

43

7. B9:検定の結果を関数 IF によって表示させる。

論理式:ABS(B5)>B8

真の場合:有意である、帰無仮説を棄却、対立仮説を採択

偽の場合:有意でない、帰無仮説を採択、対立仮説を棄却

(例 6-3)平均所得の検定

ある地域での平均所得を 1500 ドルにする政策が施行された。その後、実際の所得を調べたところ、100

件調査して、平均が 1480 ドル、標準偏差が 120 ドルとなった。この政策は効果があったのか否かを、有

意水準 5%で検定せよ。

1. 帰無仮説と対立仮説を立てよ。

帰無仮説:

対立仮説:

2. 例 6-2 で用いたシートにより、仮説検定を行え。

3. 下図の()内に数値を記入せよ。また、このときの検定統計量の値を、矢印を伸ばして横軸上に記せ。

( )

↑ 0 ↑

( ) ( )

検定統計量( )

(8)標本平均、有意水準とt値の変化

標本平均が帰無仮説の値に近いとき、t値は小さくなり、帰無仮説は採択されやすくなる。

例えば 1.100x のとき、

471.05.1

)1001.100(50

t

となり、有意ではなくなる。

標本標準偏差が大きな場合、例えば 3s のとき、

179.13

)1005.100(50

t

となり、こちらも有意でなくなる。

ところで、有意水準を 1%とした場合、棄却値は 2.680 となる。すると、t 値が 2.357 であっ

た最初の例では、2.357<2.680 となるので有意ではなくなり、帰無仮説を採択し対立仮説が棄

Page 44: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

44

却される。すなわち、 100 と判断される。一般的に、有意水準を小さくすると、有意にな

りやすく、帰無仮説が採択されやすくなる。

(9)いろいろな仮説検定

対立仮説を非等式で説明してきたが、不等式で定義することもできる。例えば、缶詰の重さ

の平均が 100g 以上あるかを検定する場合、

帰無仮説: 100

対立仮説: 100

とする。対立仮説が非等式 で表現されている検定を両側検定、不等式で表現されている検定

を片側検定という。両者では、有意水準に対する棄却値の値が異なる。

統計学の仮説検定では、母平均についての検定のみならず、いろいろな検定がある。例えば、

母分散について検定できる。このとき、検定統計量はt分布ではない別の分布に従う。このよ

うに、検定する統計量によって検定統計量が従う分布は決まっており、標準正規分布、t分布、

カイ二乗分布というような理論的な分布になる。もし、どのような分布に従うかが不明な統計

量があるとすれば、検定をすることができない。以下で、どのような検定があるかを概説する。

対立仮説については両側検定・片側検定(非等式、不等式)に限定されない。また、検定方法

の詳細は省略する。

1)1標本1集団:1つの母集団を特徴づける統計量の値を調べる。1種類の標本から求められ

た統計量を用いる。

母平均の検定:平均値についての検定

(例)平均株価( )が1万円を越えたか。

帰無仮説: 000,10

対立仮説: 000,10

母比率の検定:比率についての検定

(例)政党支持率( )が 50%であるか。

帰無仮説: 50

対立仮説: 50

母分散の検定:分散についての検定

(例)機械の精度を上げて、製品重量の分散( 2 )が目標値の 5 となったか。

帰無仮説: 52

対立仮説: 52

2)2標本2集団:2つの母集団をそれぞれ特徴づける統計量の相違を調べる。2種類の標本か

ら求められた統計量を用いる。

Page 45: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

45

母平均の差の検定:平均値の差についての検定

(例)A、B 両地域の物価水準の平均(A 、

B )は等しいか。

帰無仮説:BA

対立仮説:BA

母比率の差の検定:比率の差についての検定

(例)番組 A、B に視聴率(A 、

B )の差があるか。

帰無仮説:BA

対立仮説:BA

母分散の差の検定:分散の差についての検定

(例)A 国の方が B 国より所得格差(所得格差を分散2

A 、2

B で測る)が大きいか。

帰無仮説:22

BA

対立仮説:22

BA

(例 6-4)仮説検定の考え方

以下の問題について、変数の記号を適当に設定して、帰無仮説と対立仮説を立てよ。また、データを

どのように集めればよいかを考えよ。

1. 大学生の平均身長は 170cm を越えたか。

帰無仮説:

対立仮説:

2. 治療の効果が目標とする 80%を越えたか。

帰無仮説:

対立仮説:

3. ニコンよりもキャノンの方が、デジタルカメラの年平均の売上額が大きい。

帰無仮説:

対立仮説:

4. GNP は毎年変動するが、景気の良い時期と悪い時期とで、変動の大きさに差はあるか。

帰無仮説:

対立仮説:

(例 6-5)母平均についての仮説検定

株価への投資において、リターンがゼロであればあまり魅力的とはいえない。トヨタとソニーのそれ

ぞれで、リターンがゼロか否かを、有意水準 5%で仮説検定を行え。例 4-6 株価のリターンとリスク、例

6-2 母平均の検定で用いたシートを参考にせよ。結論として、この投資は魅力的といえるか。

Page 46: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

46

(例 6-6)ある標本に対して、母平均に関する仮説検定を行ったところ、有意水準 5%では有意であった

が、1%では有意ではなかった。ところがこの標本については、標本数 100 で標準偏差が 10 としか知ら

れていない。この仮説検定の結果を満たすような標本平均を示せ。(ヒント:有意水準 5%と 1%での棄

却値を先に確認せよ)

帰無仮説: 5

対立仮説: 5

Page 47: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

47

7.二変数データの分析

7.1 量的変数の場合(散布図と相関係数)

所得と消費、価格と需要量のような二変数の関係について、その関係の強さを明らかにする

分析方法を解説する。

正の相関とは、一方の変数の値が増加(減尐)すると、他方の変数の値は増加(減尐)する

直線的な関係にあるものをいい、所得と消費の関係などにみられる。負の相関とは、一方の変

数の値が増加(減尐)すると、他方の変数の値は減尐(増加)する直線的な関係にあるものを

いい、価格と需要量の関係などにみられる。

散布図は関係の程度の情報を表すグラフである(図 7-1)。例えば、身長を横軸、体重を縦軸

にとると、1つの点はある人のデータとなる。これを何人かについて点をそれぞれ描くことに

より、身長と体重の散布図が出来上がる。正の相関がある場合には散布図は右上がりを示し、

負の相関がある場合には散布図は右下がりを示す。相関が無い場合は、散らばりに直線的な傾

向はみられない。

12 r 10 2 r 02 r 01 2 r 12 r

完全な正の相関 正の相関 無相関 負の相関 完全な負の相関

図 7-1 散布図と相関係数

相関係数は、二変数に直線的な関係が現れる場合、その強さと方向を表す統計量である。相

関係数は以下の式で定義される。

})()(){(})()(){(

))(())(())((

)()(

))((

22

2

2

1

22

2

2

1

2211

22

2

yyyyyyxxxxxx

yyxxyyxxyyxx

yyxx

yyxxr

nn

nn

ii

ii

ここで、 x と y は、それぞれ x と y の平均値である。

(例)以下のデータのとき、x と y の相関係数を求める。

I(区画) X(肥料) Y(産出)

1 1 3

2 2 5

3 4 4

4 5 8

Page 48: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

48

34

5421

x 、 5

4

8453

y なので、

})58()54()55()53{(})35()34()32()31{(

)58)(35()54)(34()55)(32()53)(31(

22222222

2

r

761.01410

9

}9104{}4114{

6104

相関係数には次の特徴がある。

1) -1 から1の間までの値をとる。1 に近いほど正の相関が強く、0 に近いほど弱い。また-1 に

近いほど負の相関が強く、0 に近いほど弱い。

2)データの単位とは独立な無名数である。すなわち、測定単位が変わっても、相関係数の大き

さは変わらない。

3)相関係数は、2つのデータに潜む bxay のような直線的な関係の強さを測る尺度であり、

直線的でない場合は測ることができない。

(例 7-1)相関係数の計算

定義に従って、相関係数を求める。Excel 関数によっても求め、両者の結果が一致することを確認する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「7-1」に変更する。

2. 以下の表を作成せよ。

A B C D E F G H

1 i x y x-Ax y-Ay (x-Ax)(y-Ay) (x-Ax)^2 (y-Ay)^2

2 1 1 3

3 2 2 5

4 3 4 4

5 4 5 8

6 Σ

7 平均

8 r^2

3. x と y について散布図を作成する。ラベルを除いて、x および y の数値部分をドラック→「挿入」→

「散布図」を選択する。凡例上で右クリックして、凡例を削除する。

4. この散布図は、図 7-1 でのどれに該当するか。

5. Excel 関数を用いて、Σの行に合計、平均の行に x と y の平均を計算せよ。

6. D 列、E 列は偏差、F 列は偏差の積、G 列、H 列は、偏差の二乗を計算せよ。

D2:=B2-$B$7、E2:=C2-$C$7、F2:=D2*E2、G2:=D2^2、H2:=E2^2 などでコピー

7. B8 に、定義に従って相関係数を計算せよ(平方根は関数 SQRT()を用いよ)。

B8:=F6/SQRT(G6*H6)

Page 49: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

49

8. C8 に、相関係数を計算する Excel 関数 CORREL()を用いて、相関係数を計算せよ。両者が一致する

ことを確かめよ。

配列 1:B2:B5 (x の数値部分)

配列 2:C2:C5 (y の数値部分)

9. x と y のデータを変えてみて、散布図と相関係数がどのように対応するかを確かめよ。

(例 7-2)相関係数の限界

相関係数を使う場合に注意しなければならない点を確認する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「7-2」に変更する。

2. 以下のそれぞれの場合のデータを入力し、散布図を作成し、Excel 関数 CORREL()を用いて相関係数

を求めよ。

3. 直線的でない場合の関係。

i(区画) x(肥料) y(産出)

1 17 16

2 15 21

3 14 24

4 13 26

5 11 27

6 10 28

7 9 26

8 7 23

9 6 20

10 5 15

4. 外れ値がある場合。また、改善の方法を考えて行え。

i(学籍) x(勉強量) y(得点)

1 1 45

2 3 55

3 5 59

4 8 61

5 9 65

6 10 76

7 11 71

8 15 89

9 13 100

10 17 60

5. 異なる集団を含む場合。

i(個体) 性別 x(投薬量) y(効果)

1 オス 2 14

2 オス 5 17

3 オス 8 21

4 オス 9 19

5 オス 10 22

6 メス 3 12

7 メス 7 19

8 メス 9 22

9 メス 11 27

10 メス 13 31

Page 50: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

50

(例 7-3)相関係数が-0.6 から-0.8 の間の値となるような 10 組のデータを作成し、散布図を作成し、Excel

関数 CORREL()を用いて相関係数を求めよ。ファイル「計量経済学」を開き、新たなシートを挿入し、

シート名を「7-3」に変更して行え。

i x y

1

2

3

4

5

6

7

8

9

10

(例 7-4)消費と所得

北海道の可処分所得と消費支出について散布図を作成し、相関係数を計算する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「7-4」に変更する。

2. HP(http://www.sapporo-u.ac.jp/~komaki)

→ 例 7-4 家計調査 をクリックしてファイルを開き、データをコピーせよ。

3. 散布図を作成し、Excel 関数 CORREL()を用いて相関係数を計算せよ。

(例 7-5)相関係数の実際

1. 相関係数を用いて、興味あるデータ間の相関の程度を把握せよ。結果に相関の有無は問わない。

2. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「7-5」に変更する。

3. 『日本統計年鑑』から、2 組のデータを検索し、ワークシートへ入力(コピー)せよ。

4. データの検索

総務省統計局 HP(http://www.stat.go.jp)

→ 統計データ

→ ◎日本統計年鑑

5. 散布図を作成し、Excel 関数 CORREL()を用いて相関係数を求めよ。

6. 以下について、コメントを作成せよ。

(1) データの内容

(2) 相関係数を用いて把握できること

(3) 相関の程度

7.2 質的変数の場合(クロス表と連関係数)

二変数が性別や職種のような質的変数の場合は、数値データではないために、散布図や相関

係数を用いることは出来ない。そこで変数の関係をクロス表(分割表)で記述して、度数をも

Page 51: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

51

とにして関係の強さを求める。

性別を変数としたとき、男・女のような具体的なデータをカテゴリーという。二変数のカテ

ゴリーの数がそれぞれ k 個と m 個のとき、k×m クロス表とよばれる。カテゴリーの数はクロス

表の行数あるいは列数に一致する。表の行の変数(左側の変数)を表側といい、原因となる変

数が置かれる。表の列の変数(上側の変数)を表頭といい、結果となる変数が置かれる。

表 7-1 の二つの表において、性別のカテゴリーは男・女、加入状況のカテゴリーは加入・未

加入、運動状況のカテゴリーは運動・非運動である。どれも二種類ずつあるので、両表とも 2

×2 クロス表である。また、男女で差があるのは表(a)で差がないのが表(b)であることがわかる。

表 7-1 2×2 クロス表

表(a)サークルの加入状況 表(b)毎日の運動状況

加入状況

性別

加入 未加入 合計 運動状況

性別

運動 非運動 合計

男 38 12 50 男 16 34 50

女 10 35 45 女 20 25 45

合計 48 47 95 合計 36 59 95

表 7-2 連関係数

y

x 1y …

jy … my 合計

1x 11f …

jf1 … mf1 1r

… …

ix 1if … ijf …

imf ir

… …

kx 1kf … kjf …

kmf kr

合計 1c …

jc … mc n

クロス表を用いて、二変数の関連の強さを示す統計量を連関係数という。1 に近いほど関連

が強く、0に近いほど弱い。

表 7-2 の k×m クロス表において、 x 、 y :カテゴリー名( x =性別、 y =加入状況など) ix 、

jy :カテゴリー( 1x =男、 2x =女、 1y =加入、 2y =未加入など)、 ijf :度数、 ir 、 jc :度数の合

計である。また、 i

m

j

ij rf 1

(行毎の合計)、 nrk

i

i 1

(行の合計の合計)、 j

k

i

ij cf 1

(列毎の

合計)、 ncm

j

j 1

(列の合計の合計)、 nfk

i

m

j

ij 1 1

(度数の合計)となる。

連関係数を計算するため必要な二つの概念を提示しておく。列または行の合計を用いて、あ

たかも関連がないような度数を作り出す。これを期待度数という。行の合計を列の合計の比率

で按分する。

Page 52: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

52

n

rc

n

cr

n

cre i

j

j

i

ji

ij

次に、この期待度数と実際の度数との差を考え、すべての度数について合計する。これを2 (カ

イ二乗)とする。

k

i

m

j ij

ijij

e

ef

1 1

2

2)(

以下に、2つの連関係数を示す。関連がないと想定される期待度数と実際の度数との差が小さ

いとき、2 の値は小さくなる。このとき、連関係数は小さな値をとる。

1)φ(ファイ)係数

n

2

2)ピアソンの連関係数

2

2

nP

(例)表 7-1(a)の場合

ije の計算 ij

ijij

e

ef 2)( の計算

性別

加入 未加入

性別

加入 未加入

男 25.3 24.7 男 6.42 6.56

女 22.7 22.3 女 7.13 7.29

3.2595

48501111

n

cre 、… 42.6

3.25

)3.2538()( 2

11

2

1111

e

ef、…

以上より、 2 6.42+6.56+7.13+7.29=27.40、 537.095

4.27 、 473.0

4.2795

4.27

P 。

(例 7-6)連関係数の計算

表 7-1 の(a)(b)のクロス表について、φ係数とピアソンの連関係数を計算し、連関の強さを比較せよ。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「7-6」に変更する。

2. 以下の表を入力せよ。

3. 表 7-2 文中の計算式を参考にしながら、Excel で計算式を入力し、連関係数を求めよ。また、期待度

数 ije の行列の合計と総数を求め、実際の度数の合計と比較せよ。

B8:= D3*B5/D5 など、B12:=(B3-B8)^2/B8 でコピー

B16:=B13+C13+B14+C14、B17:=SQRT(B16/D5)、B18=SQRT(B16/(D5+B16))

4. 表(b)については、表(a)の結果をコピーする。

Page 53: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

53

A B C D E F G H I

1 表(a) 表(b)

2 fij 加入 未加入 合計 fij 運動 非運動 合計

3 男 38 12 50 男 16 34 50

4 女 10 35 45 女 20 25 45

5 合計 48 47 95 合計 36 59 95

6

7 期待度数eij 加入 未加入 合計 期待度数 運動 非運動 合計

8 男 男

9 女 女

10 合計 合計

11

12 (fij-eij)^2/eij 加入 未加入 (fij-eij)^2/eij 運動 非運動

13 男 男

14 女 女

15

16 カイ二乗 カイ二乗

17 φ係数 φ係数

18 ピアソン ピアソン

(例 7-7)次のクロス表から、Φ係数とピアソンの連関係数を求めよ。ファイル「計量経済学」を開き、

新たなシートを挿入し、シート名を「7-7」に変更して行え。

住居の満足度

結果

地域

満足 普通 丌満足

A 地域 10 8 1

B 地域 1 4 7

Page 54: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

54

8.回帰分析の基本

回帰分析とは、2つの変数あるいはそれ以上の変数間の関係を明らかにするための統計的方

法である。計量経済学ではもっともよく用いられる手法である。

8.1単回帰モデル

(1)回帰モデル

x と y の二つのデータがあり、両者の関係を線型(2乗や3乗のようなべき乗の項が無い式)

で表す。

xy

x:原因となる変数、説明変数あるいは独立変数という。

y:結果となる変数、被説明変数あるいは従属変数という。

, :直線の切片(定数項)、傾きを示す回帰係数。

, はパラメータとして扱われ、推定されることを目的とする。例えば、y を体重、x を身長と

すると、身長から人の体重を決定する関係が構築できる。また、y を消費、x を所得とすると、

所得を消費から説明する消費関数となる(p.1 参照のこと)。

実際に入手できるデータは直線では現れないので、誤差を付けた以下の単純線型回帰モデル

(略して単回帰モデル)を考える。

xy

:誤差項あるいはかく

攪乱項という。

誤差項 (イプシロン)はデータの測定上の誤差、x 以外の他の原因、関数型の違いから生じ

る誤差などを含む。

(2)最小二乗法

単回帰モデルを個々のデータで表現すると、以下のようになる。

iii xy 、 ni ,,2,1

ここで、 iy と ix は実際のデータであるが、 i は架空のデータと考える。

図 8-1 では、●で示された2つのデータ ),( 11 xy 、 ),( 22 xy と、直線 xy が描かれてい

る。 1x 、 2x は横軸から直線への距離であり、 1 、 2 は直線とデータとの差である。

誤差項は、111 xy 、

222 xy となる。 ),( 11 xy ではデータが直線より上に位置す

るので 1 は正の値をとるが、 ),( 22 xy では下に位置するので 2 は負の値をとる。

次に回帰直線の引き方について考えよう。直線の違いは、定数項 と傾き の違いで表現で

きる。従って、データと直線との差 i は , の関数と考える。図 8-2 では、同じデータに対し

て、切片( A と B )と傾き( A と B )が異なる2種類の直線が描かれている。直線 A がよ

り回帰直線として適当である。なぜなら、縦軸で測った直線とデータとの差 i は A の方が短い

からである。 , の値を求めるためには、誤差をなるべく小さくするような基準が必要となる。

Page 55: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

55

y xy

1y ●

2

2y

1 ●

2x

1x

x

1x

2x

図8-1 データと回帰直線

y A: xy AA

・・・・・ 直線 A とデータとの誤差 ・ ・ ・・・・ ・ ・・・ ・・ ・ ・ ・・ ・ 直線 B とデータとの誤差 ・ ・・・ ・・ ・・・・・・

・・・・・ B: xy BB

x

図8-2 回帰直線の候補

),( S 最小値

),( BBS

),( AAS

)ˆ,ˆ( S

BB , ˆ,ˆ AA , ,

図 8-3 最小二乗法

このような誤差項の情報を要約する。 i は正・負の値をとりうるので、通常 i を二乗して符

号を除去する(例えば図 8-1 では 01 、 02 )。個々のデータについて、 i を二乗した合計

Page 56: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

56

を誤差の二乗和といい、 ),( S と記して以下のように表す。

22)(),( iii

xyS

直線が違えば , が異なるので、 ),( S が異なる。 ),( S は , の二次関数なので、図

8-3 のように考えることができる。図 8-2 でのAA , 、

BB , に対応して、 ),( AAS 、 ),( BBS

が得られる。 ),( S は , の二次関数なので最小値が存在する。 ),( S を最小にする , を

ˆ,ˆ (^はハットと読む)と書く。最適な回帰直線の , は、誤差の二乗和を最小にする ˆ,ˆ に

よって求められる。

22 )(ˆ

ii

iiii

xxn

yxyxn

n

x

n

y ii ˆˆ

誤差の二乗和を最小にするようにして係数を推定する方法を、最小二乗法(OLS、Ordinary

Least Squares)という。推定された ˆ,ˆ を回帰係数の推定値といい、推定された式 xy ˆˆ

を回帰式という。

y

iy ● xy ˆˆ

iy 残差 i

推定値 iy

x

ix

図8-4 推定された回帰直線

推定された ˆ,ˆ を用いて、以下が求められる。

ii xy ˆˆˆ : iy の推定値である。 ix に対する推定された回帰直線上の点の y の値である。

iii yy ˆˆ : i の推定値、残差という。 ix における、データと推定された回帰直線との差

である。回帰モデル上では誤差というが、値が推定されたときは残差という。

(例)以下のデータのとき、回帰モデル xy について、回帰係数の推定値、回帰式、

iy の推定値、残差を求める。

Page 57: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

57

I(区画) X(肥料) Y(産出)

1 2 4

2 1 2

3 4 6

4 3 4

回帰係数の推定値:

4n

4643642142 ii yx 、

103412 ix 、

164624 iy 、

303412 22222 ix より、

2.1)10(304

1610464ˆ2

14

102.1

4

16ˆ

回帰式: xy 2.11

iy の推定値:

4.322.11ˆˆˆ11 xy 、

2.212.11ˆˆˆ22 xy 、

残差:

6.04.34ˆˆ111 yy 、

2.02.22ˆˆ222 yy 、

(例 8-1)最小二乗法

最小二乗法を理解する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-1」に変更する。

2. 以下の表を入力せよ。

3. αは 1、βは 1 とする。B14、B15 へ 1 を入力し、 ii xy から、回帰直線上の点 yi を求めよ。

D2: =$B$14+$B$15*B2 で以下コピー

4. x と y および x と yi の関係を 1 つの散布図で把握する。x、y、yi のラベルと数値部分全体をドラック

→「挿入」→「散布図」を選択する。正しく回帰直線が描けているといえるか。

Page 58: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

58

A B C D E F G H I

1 i(店舗) x(人数) y(売上) yi ε ε^2 xy x^2 x*εhat

2 1 3 9

3 2 2 2

4 3 5 12

5 4 1 5

6 5 4 7

7 6 8 19

8 7 10 23

9 8 9 16

10 9 6 14

11 10 7 13

12 Σ

13 平均 ↑S

14 α=

15 β=

16 ↑hat

17 β S

18 1

19 1.5

20 2

21 2.5

22 3

5. 誤差、誤差の二乗、二乗和 S を計算せよ。

E2: =C2-D2 で以下コピー

F2: =E2^2 で以下コピー

F12:F2~F11 の合計

6. α、βの値を変更し、誤差の二乗和 S が変わることを確認せよ。

7. αに 1 を入力せよ。B18 以下のβの値に対する S の値を C18 以下に入力せよ。

8. αに 1 を入力せよ。B18 以下のβの値に対する S の値を C18 以下に入力せよ。

9. 両者の関係を、βと S の散布図により吟味せよ(数値部分のみをドラック→「挿入」→「散布図」)。

また、点上で右クリックし、「近似曲線の追加」により多項式近似(次数は 2 次)を行え。

10. x、y、xy、x^2 とその合計を 12 行目に求め、 ˆ,ˆ を C14、C15 に計算せよ。

G2: =B2*C2 で以下コピー

H2: =B2^2 で以下コピー

C15: =(10*G12-B12*C12)/(10*H12-B12^2)

C14: =C12/10-C15*B12/10

11. 推定された回帰式を記せ。

12. ˆ,ˆ の値を B14、B15 に入力し、最初に作成した散布図をみよ。このとき、S が一番小さくなるこ

とを確認せよ。

13. 変数名 yi を yhat、εをεhat、ε^2 をεhat^2、α=をαhat=、β=をβhat=に改めよ。

14. 12 行目に合計、13 行目に平均を計算し、次を確認せよ。

Page 59: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

59

1)観測値 iy の平均値と推定値 iy の平均値は一致する(C 列、D 列を利用)。

2)残差の合計はゼロになる( 0ˆ i 、E 列を利用)。

3) ix と i の積の合計はゼロになる( 0ˆ iix 、I 列を利用、I2: =B2*E2 で以下コピー)。

(例 8-2)消費関数の推定

北海道の可処分所得と消費支出について、消費関数を推定せよ。

xy (y:消費、x:所得)

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-2」に変更する。

2. HP(http://www.sapporo-u.ac.jp/~komaki)

→ 例 7-4 家計調査 をクリックしてファイルを開き、データをコピーせよ。

3. 散布図を作成し、点上をクリックし、「近似曲線の追加」により線形近似(グラフに数式を表示)を

行え。

4.「データ」→「データ分析」により「回帰分析」を選択し、OK をクリックする。

入力 Y 範囲:ラベルを含めた消費データ部分

入力 X 範囲:ラベルを含めた所得データ部分

ラベル:チェック

一覧の出力先:表中どこかのセル → OK

5. 回帰式を記せ。

6. 所得が 30 万円のときの消費を求めよ。

8.2重回帰モデル

単回帰モデルでは y の説明変数として、x の1種類のみを考えた。しかし、y を需要とすると、

それを説明するための変数としては価格や所得などの複数個が必要となる(p.1 参照のこと)。

重回帰モデルは、y を説明するための説明変数として、全部で k 個ある場合の回帰モデルであ

る。y を需要として、説明変数として価格や所得の2種類を考えると 2k となる。

単回帰モデルと同様に、誤差を付けてモデルを考える。

zxy

y:結果となる変数、被説明変数

,, zx :原因となる変数、説明変数

:誤差項あるいはかく

攪乱項

),(,, ガンマ :未知の係数でパラメータとして扱う

,,, の推定は、以下の誤差の二乗和

Page 60: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

60

22)(),,,( iiii

zxyS

を最小にするように導出される。ただし、実際の計算は行列演算を用いて求められる。

また、以下のようになる。

iiii zxy ˆˆˆˆ : iy の推定値

iii yy ˆˆ :残差

(例 8-3)回帰モデルの例

単回帰モデルあるいは重回帰モデルでの、非説明変数、説明変数となりうる例を作成せよ。経済分野

に限らない。また、データの入手可能性は問わない。

(例 8-4)重回帰モデルの推定

国内への一次エネルギー供給(輸入・国産)を GDP と技術進歩から説明したい。以下の重回帰モデル

を推定せよ。

zxy (y:一次エネルギー供給、x:GDP、z:技術進歩の代理変数(タイムトレンド)

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-4」に変更する。

2. HP(http://www.sapporo-u.ac.jp/~komaki)

→ 例 8-4 エネルギー供給 をクリックしてファイルを開き、データをコピーせよ。

3. 名目 GDP とエネルギー供給、技術進歩とエネルギー供給について散布図を作成せよ。

4. 「データ」→「データ分析」により「回帰分析」を選択し、OK をクリックする。

入力 Y 範囲:ラベルを含めた一次エネルギー国内供給部分

入力 X 範囲:ラベルを含めた名目 GDP と技術進歩部分

ラベル:チェック

一覧の出力先:表中どこかのセル → OK

5. 回帰式を記せ。

8.3決定係数

回帰分析では係数の値を求めるだけではなく、回帰式のあてはまりを評価しなければならな

い。直線的にデータが集まっている場合と、そうではなく、ばらつきが大きな場合とでは、同

じ回帰式でも当てはまり方は異なる。決定係数 2R (R-square)はその尺度の一つである。

変数の変動は分散 21 )( yyn i によって把握できるが、n で除されない偏差の二乗和

2)( yyi も変動の情報となる。決定係数を定義する場合、以下のような変動を定義する。

Page 61: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

61

y の全変動: 2)( yyi

回帰によって説明できる変動: 2)ˆ( yyi

回帰によって説明できない変動(残差の変動): 2)ˆ( ii yy または2

ˆi

y の全変動は、偏差の二乗和そのものである。回帰によって説明できる変動は、 iy を推定値 iy

で置き換えた偏差の二乗和になっている。なぜなら、 iy の平均と iy の平均は一致するので(例

8-1)、 yyi ˆ は iy の偏差となる。回帰によって説明できない変動は、残差 iii yy ˆˆ の二乗和

である。

これらの変動は次の関係がある。

y の全変動 = 回帰によって説明できる変動 + 回帰によって説明できない変動

2)( yyi = 2)ˆ( yyi + 2)ˆ( ii yy または2

ˆi

決定係数は、y の全変動のうち、回帰によって説明できる変動の割合を意味する。以下のよ

うに定義される。

2

2

2

)(

)ˆ(

yy

yy

i

i

iyR

の全変動

る変動回帰によって説明でき決定係数

または、回帰によって説明できない変動の割合の割合を1から差し引くことによって、以下

の様にも定義される。

2

2

2

)(

)ˆ(1

1

yy

yy

i

ii

iyR

の全変動

ない変動回帰によって説明でき決定係数

重回帰モデルの場合、データの数 nと説明変数の数 k を勘案した自由度調整済決定係数 2R が

用いられる。以下のように、全変動を )1( kn で割り、回帰によって説明できない変動を )1( n

で割っている。これは―∞から1の間の値をとる。決定係数と同様に、1に近いほど式の当て

はまりがよい、回帰式の説明力が高いと解釈される。

)1()1/()1(1

)1/()(

)1/()ˆ(1

2

2

2

2

)1/(

)1/(1

Rknn

nyy

knyy

y

i

ii

i n

knR

の全変動

ない変動回帰によって説明でき自由度調整済決定係数

Page 62: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

62

y y

・・・・・ ・・ ・・ ・ ・ ・・・・ ・ ・ ・ ・・ 残差 ・ ・・・・・ 残差 ・ ・・・ ・・ y の ・ ・ ・・ y の ・ ・ ・ ・ ・ 変動 ・ ・・・ ・ 変動 ・ ・・ ・ ・・ ・・・・・・ ・ ・ ・ ・ ・

・・・・・ ・・ ・

x x

(A)決定係数は大きい (B)決定係数は小さい

iy と iy が近く残差が小さいので、 iy と iy が離れて残差が大きいので、

回帰によって説明できる変動の方が大きい 回帰によって説明できない変動の方が大きい

図 8-5 決定係数とデータの分布

(例)先のデータのとき、回帰モデル xy について、決定係数、自由度調整済決定係

数を求める。

4.3ˆ1 y 、 2.2ˆ

2 y 、 8.5ˆ3 y 、 6.4ˆ

4 y 、

44/)4624( y 、

8)44()46()42()44()( 22222 yyi 、

2.7)46.4()48.5()42.2()44.3()ˆ( 22222 yyi 、

8.0)6.44()8.56()2.22()4.34()ˆ( 22222 ii yy 。

したがって、

88.02.7)ˆ()ˆ()( 222 iiii yyyyyy 、

決定係数: 9.08

2.7

)(

)ˆ(2

2

yy

yy

i

i

また、 4n 、 1k (説明変数の数は x の 1 種類)より、

自由度調整済決定係数: 85.0)9.01()114/()14(1

Excel では、決定係数は「重決定 R2」、自由度調整済決定係数は「補正 R2」の欄に出力され

る。以下の性質がある。

1)決定係数はゼロと1の間の値をとる。例えば、決定係数が 0.7 とは、y の全変動に占める回帰

によって説明できる変動の割合が 70%ということであり、この 70%は式の説明力と解釈される。

Page 63: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

63

残りの 30%は、回帰によって説明できない変動の割合である。

2)決定係数は、1(=100%)に近いほど式の当てはまりがよい、あるいは回帰式の説明力が高

いと解釈される。ゼロに近い場合は、式の当てはまりが悪い、あるいは回帰式の説明力が低い

となる。 iy と iy が近いと式の当てはまりはよい。このとき 22 )(/)ˆ( yyyy ii において分子

と分母とが近い値になり、決定係数は 1 に近くなる。決定係数、自由度調整済決定係数ともに、

0.8 以上とれば当てはまりがよいと解釈される。

(例 8-5)決定係数

以下の回帰モデルについて、

xy

( xy, は変数、 , は係数、 は誤差項)、あてはまりの程度の違いを、決定係数から比較する。

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-5」に変更する。

2. 以下の表を入力せよ。

A B C D E F G

1 (A) (B)

2 i(店舗) x(人数) y(売上) i(店舗) x(人数) y(家賃)

3 1 1 6 1 1 3

4 2 3 8 2 3 8

5 3 2 7 3 2 6

6 4 4 10 4 4 5

7 5 6 12 5 6 7

8 6 8 15 6 8 6

9 7 10 16 7 10 10

3. (A)(B)のそれぞれについて、 y と x について散布図を作成せよ。

4. Excel 関数を用いて、相関係数(CORREL)を計算せよ。

5. (A)(B)のそれぞれについて回帰分析を行え。

「データ」→「データ分析」により「回帰分析」を選択し、OK をクリックする。

入力 Y 範囲:ラベルを含めた y 部分

入力 X 範囲:ラベルを含めた x 部分

ラベル:チェック

一覧の出力先:表中どこかのセル → OK

6. (A)(B)のそれぞれについて、決定係数、自由度調整済決定係数の大きさを吟味せよ。

8.4回帰係数の仮説検定

変数を zxy ,, 、係数を ,, 、誤差項を とする回帰モデルを zxy とする。回

帰モデルを推定した後で、回帰係数の ,, がそれぞれ特定の値か否かの仮説検定を行うこと

ができる。帰無仮説・対立仮説を立て、検定統計量を求め、有意水準を決め、棄却値と比較す

る手順は、平均などの検定方法と同じである(6.2)。

通常は、係数がゼロか否かを検定する。例えば がゼロならば、x がどのような値をとった

Page 64: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

64

としても、y には影響しない。

zzxzxy 0

このとき、x は y の説明要因にならず、z のみが y の説明要因となる。係数がゼロか否かの仮

説検定により、y の説明要因の選択を行うことができる。例えば、y を需要、x を価格、z を所

得とする。価格が需要の説明要因となるためには 0 、ならないためには 0 の条件が必要

となる。

に関する帰無仮説と対立仮説は、以下のようになる。

帰無仮説: 0

対立仮説: 0

このとき、検定統計量はt値であり

t値=の標準誤差

ˆ

ˆ

で求められる。

の標準誤差は、単回帰の場合 22 )(/ xxs i (ただし、 212 ˆ)2( ns 、残差分散)

で求められる。重回帰における回帰係数の標準誤差は、行列演算を用いて求められる。

t分布から棄却値を求めるには、有意水準と自由度が必要である。有意水準は 5%や 1%が用

いられる。回帰モデルにおける自由度は、(データの数―回帰係数の数)で求められる。この回

帰係数の数は、説明変数の数+1 と一致する。ここでの 1 は定数項の数である。例えば、回帰モ

デル zxy では、係数は ,, の 3 個である。あるいは、説明変数 zx, の数が 2 個

なので 2+1=3 個となる。推定するデータが 100 個とすると自由度は 100-3=97 となる。

自由度= n 係数の数= n (説明変数の数+1)

棄却値をt分布表あるいは Excel 関数の TINV(有意水準、自由度)から求め、以下のように

判断する。

|t値|<棄却値 → は有意でない。

帰無仮説を採択し、対立仮説を棄却する。

0 、x は y の説明要因にならない。

|t値|>棄却値 → は有意である。

帰無仮説を棄却し、対立仮説を採択する。

0 、x は y の説明要因になる。

例えば、回帰モデル xy について、32 個のデータに対して、回帰分析を適用した。

その結果、回帰係数の標準誤差を加えて回帰式を表現して、次のように得られたとする。

)01.1( )564.0(

2.56 23.1 xy

ここで、()内は回帰係数の標準誤差である。以下に、仮説検定の具体的な手順を説明する。

Page 65: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

65

1)帰無仮説と対立仮説は次のようになる。

帰無仮説: 0

対立仮説: 0

2) 56.2ˆ 、 の標準誤差=1.01 なので、 のt値は 53.201.1

56.2 となる。

3)t分布の棄却値を求めるには、自由度が必要となる。回帰係数の数は , の 2 個なので、自

由度は 32-2=30 となる。

4)有意水準を決め、有意水準と自由度から、棄却値を表 6-1のt分布表より求める。有意水準 5%、

自由度 30 のとき、棄却値は 2.042 となる。

5)棄却値と検定統計量を比較する。ここでは、2.53>2.042 なので、 は有意である。したがっ

て、x は y の説明要因になると判断される。

t値の分布(t分布)

0 0 0

図 8-6 回帰係数の仮説検定

例えば、回帰モデル xy について、32 個のデータに対して、回帰分析を適用した。

その結果、回帰係数の標準誤差を加えて回帰式を表現して、次のように得られたとする。

)01.1( )564.0(

2.56 23.1 xy

ここで、()内は回帰係数の標準誤差である。以下に、仮説検定の具体的な手順を説明する。

1)帰無仮説と対立仮説は次のようになる。

帰無仮説: 0

対立仮説: 0

2) 56.2ˆ 、 の標準誤差=1.01 なので、 のt値は 53.201.1

56.2 となる。

3)t分布の棄却値を求めるには、自由度が必要となる。回帰係数の数は , の 2 個なので、自

由度は 32-2=30 となる。

4)有意水準を決め、有意水準と自由度から、棄却値を表 6-1のt分布表より求める。有意水準 5%、

自由度 30 のとき、棄却値は 2.042 となる。

Page 66: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

66

5)棄却値と検定統計量を比較する。ここでは、2.53>2.042 なので、 は有意である。したがっ

て、x は y の説明要因になると判断される。

(例 8-6)それぞれの場合において、回帰係数についての仮説検定を行え。ただし、 wzxy ,,, を変数、

,,, を係数、 を誤差項とする。

1. 回帰モデル xy において、データ数=16、 =0.247、 の標準誤差=2.47 のとき、 を有

意水準 5%で。

2. 回帰モデル zxy において、データ数=50、 =4.50、 の標準誤差=1.5 のとき、 を有

意水準 5%で。

3. 回帰モデル wzxy において、データ数=38、 =2.26、 の標準誤差=1.13 のとき、

を有意水準 1%で。

(例 8-7)消費関数・エネルギー供給の回帰モデルにおける仮説検定

シート「8-2」と「8-3」を開き、説明変数の回帰係数に対して仮説検定を行え。説明要因となりうるか

を調べよ。

(例 8-8)回帰係数の仮説検定と変数選択

ある変数への説明要因として、関係がありそうな変数と関係が無さそうな変数をとりあげ、係数の仮

説検定を用いて変数の選択を行う。回帰モデルは以下の通り( zxy ,, は変数、 ,, は係数、 は誤差

項)。

zxy

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-8」に変更する。

2. 以下の表を入力せよ。

x(人数) z(家賃) y(売上)

1 5 5

2 6 3

3 1 9

4 3 8

5 4 8

7 5 13

9 1 19

6 7 13

5 8 13

7 9 14

2 10 8

9 1 17

4 2 7

8 5 17

5 6 14

3. y と x 、 y と z についてそれぞれの散布図を作成し、Excel 関数を用いてそれぞれの相関係数

(CORREL)を計算せよ。

Page 67: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

67

4. 「データ」→「データ分析」により「回帰分析」を選択し、OK をクリックする。

入力 Y 範囲:ラベルを含めた y 部分

入力 X 範囲:ラベルを含めた x と z 部分

ラベル:チェック

一覧の出力先:表中どこかのセル → OK

5. 決定係数、自由度調整済決定係数の大きさを吟味せよ。

6. 係数の数はいくつか。

7. 自由度を求めよ。

8. TINV を用いて有意水準 5%での棄却値を求めよ。

9. と に関して、それぞれゼロか否かの仮説検定を行え。

10. 散布図、相関係数と仮説検定の結論に一貫性があることを確認せよ。

8.5回帰分析の実際

回帰分析の目的は、非説明変数 y を最もよく説明する回帰モデル zxy

( ,,, zxy は変数、 ,,, は係数、 は誤差項)を作成することにある。以下、その手順を

述べる。

1) データの入手

インターネット、統計書などから。

情報の信頼性を確認すること。

2) データのチェック

グラフの作成が中心。

回帰分析に用いる変数同士の散布図を作成し、相関の程度を把握する。

縦軸:非説明変数 y 、横軸:説明変数 x

3) Excel を用いて、回帰分析を行う

以下、(1)~(3)を往復。変数を追加・加工(割算によるデフレート、比率、変化率への変換な

ど)により、改善する。

(1) 決定係数の吟味

決定係数と自由度調整済決定係数は、0.8 以上の値であれば、回帰式のあてはまりはよい

と判断される。

(2) 回帰係数の仮説検定

係数が有意でない変数は、説明要因ではないので回帰モデルに含めない。

(3) 経済理論との整合性

係数の符号でチェックを行う(例えば、需要関数では価格の係数の符号はマイナスになる)

4) 結果のまとめ

Page 68: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

68

(例 8-9)食料の需要関数の推定

インターネット上のデータを利用して、回帰分析を行う。推定するのは、食料の需要関数である。

回帰モデル: zxy

y :需要量(食料支出)、 x :所得、 z :食料価格、 :誤差項

,, :係数パラメータ(符号条件: 0 、 0 )

1. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-9」に変更する。

2. 次のようにラベルをつけておく。

A 列:食料支出、B 列:可処分所得、C 列:総合物価指数、D 列:実質可処分所得 x

E 列:食料価格指数 z、F 列:実質食料支出 y

3. データのダウンロード

総務省統計局 HP(http://www.stat.go.jp)

→ 統計データ

日本の統計

→ 第 19 章 家計

→ 19- 4 1 世帯当たり年平均 1 か月間の収入と支出

を開き、消費支出(食料)、可処分所得のデータ部分を貼り付ける。

→ 統計データの日本統計年鑑

→ 第 17 章 物価・地価

→ 17-6 消費者物価指数

A 基本分類指数

を開き、総合物価指数、食料物価指数のデータ部分を貼り付ける。

4. データの加工、物価変動の影響を除去するために、食料支出と可処分所得を総合物価指数

でデフレートして(割って)実質化する。

D2:=B2/C2*100 で以下コピー

F2:=A2/C2*100 で以下コピー

5. x と y、z と y の散布図を描き(対象をドラッグ→「挿入」→「散布図」)、それぞれの相関係数を

求めよ(Excel 関数は CORREL)。

6. 回帰分析

「データ」→「データ分析」→ 回帰分析で、

Y 範囲:実質食料支出のデータ部分(ラベルを含む)

X 範囲:実質可処分所得~食料価格指数のデータ部分(ラベルを含む)

ラベルをチェック

出力オプション:一覧の出力先を A20

Page 69: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

69

7. 結果

1) 推定された回帰式を記せ。

2) 決定係数、自由度調整済決定係数から、式の当てはまりの程度を判断せよ。

3) 回帰係数の仮説検定を行うための自由度を求めよ。

4) 有意水準 5%での棄却値を求めよ。

5) それぞれの係数について有意水準 5%で検定せよ。

βについて:

γについて:

6) 係数の符号条件を確認せよ。

βについて:

γについて:

(例 8-10)回帰分析数の有用性

1. 興味あるデータ間で回帰モデルを推定し、決定係数の吟味、回帰係数に対する仮説検定、係数の符

号のチェックを行え。

2. ファイル「計量経済学」を開き、新たなシートを挿入し、シート名を「8-10」に変更する。

3. 『日本統計年鑑』から、2 組以上のデータを検索し、ワークシートへ入力(コピー)せよ。

4. データの検索

総務省統計局 HP(http://www.stat.go.jp)

→ 統計データ

→ ◎日本統計年鑑

5. 被説明変数、説明変数を決め、回帰モデルを書け。

6. 被説明変数と説明変数との散布図を作成し、Excel 関数 CORREL()を用いて相関係数を求めよ。

7. 「データ」→「データ分析」より回帰分析を行い、決定係数の吟味、回帰係数に対する仮説検定、

係数の符号のチェックを行え。

8. 結論をまとめよ。

Page 70: (1) GDPweb.sapporo-u.ac.jp/~komaki/eco.pdf · (4)データの構造(並び方)による分類 1)横断面データ(クロスセクションデータ):ある時点(分、日、月、年)において、国、

70

参考文献

計量経済学関係の参考書は、多く出版されている。その中で、本書の内容・レベルに最も近いも

のを紹介する。いずれも図解や数値例が豊富で、平易な解説に努めている参考書である。

加納悟・浅子和美『入門経済のための統計学』日本評論社、1998。

白砂堤津耶『例題で学ぶ初歩からの計量経済学、第 2 版』日本評論社、2007。

松原望『わかりやすい統計学、第 2 版』丸善、2009。