第 第 4 4 第 第第第第第第第第(1) 第 第第第第第第第第(1) 第 第第第第第 第 第 第第第第第 第
Jan 11, 2016
第第 44 章 回帰分析の諸問題章 回帰分析の諸問題(1)(1)
計量経済学 ー ー 計量経済学 ー ー
第第 11 節 多重共線性節 多重共線性1 多重共線性1 多重共線性
第第 22 節 系列相関節 系列相関1 系列相関1 系列相関2 系列相関の判定 -ダービン・ワトソン比-2 系列相関の判定 -ダービン・ワトソン比-5 系列相関への対処法(2) -コクラン・オーカット法5 系列相関への対処法(2) -コクラン・オーカット法
--4 系列相関への対処法(1) -一般化最小4 系列相関への対処法(1) -一般化最小 22 乗法-乗法-3 ダービンの3 ダービンの hh 統計量統計量
第第 33 節 不均一分散節 不均一分散1 不均一分散1 不均一分散2 不均一分散の判定2 不均一分散の判定3 不均一分散の解決法(1)3 不均一分散の解決法(1)4 不均一分散の解決法(2) -加重最小4 不均一分散の解決法(2) -加重最小 22 乗法-乗法-
• 前章までの回帰分析では、パラメータ推定値を求め前章までの回帰分析では、パラメータ推定値を求める際に、る際に、最小最小 22 乗法乗法を用いてきた。しかし、この章を用いてきた。しかし、この章で示すで示す
(1) 多重共線性 (1) 多重共線性 (2) 系列相関 (2) 系列相関 (3) 不均一分散 (3) 不均一分散 といった状況が起こっているときには、最小 といった状況が起こっているときには、最小 22 乗法乗法
によるパラメータ推定値はによるパラメータ推定値は信頼できない信頼できない。。 そこで、これらの状況が起こっている、[原因] そこで、これらの状況が起こっている、[原因]
[症状][判定法][対処法]について示す。[症状][判定法][対処法]について示す。
たとえば風邪を引いた場合を例に考えてみようたとえば風邪を引いた場合を例に考えてみよう[原因][原因]• 寒い中薄着で人混みに出かけた寒い中薄着で人混みに出かけた[症状][症状]• 発熱、せき、くしゃみ、鼻水発熱、せき、くしゃみ、鼻水[判定法][判定法]• のどを見ると赤くはれている。のどを見ると赤くはれている。• 体温を測ると、体温を測ると、 3838 度ある。度ある。[対処法][対処法]• ゆっくり休む。(根治療法)ゆっくり休む。(根治療法)• ウイルスを殺す薬を飲む(対処療法)ウイルスを殺す薬を飲む(対処療法)• 熱を下げる薬を飲む(対処療法)熱を下げる薬を飲む(対処療法)
第第 11 節 多重共線性節 多重共線性1 多重共線性
多重共線性とは、重回帰分析において、説明変数間に強 多重共線性とは、重回帰分析において、説明変数間に強い相関が見られることである。い相関が見られることである。
[原因][原因]• モデルの中に強い相関関係をもつ複数の説明変数を入れてしまっモデルの中に強い相関関係をもつ複数の説明変数を入れてしまっ
た。た。
[症状][症状]• 推定値の符号が理論に一致しない。推定値の符号が理論に一致しない。• 決定係数決定係数 RR22 は大きいのに、個々のは大きいのに、個々の tt 値が小さい。値が小さい。• データの値を少し変えたり、少し追加・削除すると、係数推定値データの値を少し変えたり、少し追加・削除すると、係数推定値
が大きく変化する。が大きく変化する。• 説明変数を増減すると、推定値が大きく変化する。説明変数を増減すると、推定値が大きく変化する。
<厳密な多重共線性><厳密な多重共線性>Y=a+bX+cW+uY=a+bX+cW+u
というモデルを考える。このモデルにおい というモデルを考える。このモデルにおいて、て、 W=αXW=αX という関係があったとする。という関係があったとする。
このとき、正規方程式は次のようになる。 このとき、正規方程式は次のようになる。
33 本目の方程式は本目の方程式は 22 本目の方程式を本目の方程式を αα 倍したもの倍したものとなり、実質的にはとなり、実質的には 22 本の連立方程式である。本の連立方程式である。
未知数は の 未知数は の 33 つであるのに対し、方程式つであるのに対し、方程式はは 22 つであるので、解を一意に決定することはできつであるので、解を一意に決定することはできない。 ない。
222
22
ˆˆˆ
ˆˆˆ
ˆˆˆ
XcXbXaXY
XcXbXaXY
XcXbanY
cba ˆ,ˆ,ˆ
(数値例について)(数値例について) 数値例について次のようなことがいえる。 数値例について次のようなことがいえる。• RR22 は大きいのに、は大きいのに、 tt 値は有意ではない。値は有意ではない。• データを少し変化させたときに、係数推定値は大きく変化する。データを少し変化させたときに、係数推定値は大きく変化する。• WW の係数の符号は負となるので、分析結果からはの係数の符号は負となるので、分析結果からは WW が大きくが大きく
なるとき、なるとき、 YY は小さくなるという結論が導き出されるが、は小さくなるという結論が導き出されるが、データをみるとその逆である。データをみるとその逆である。 (Y(Y とと WW には正の相関があには正の相関がある。る。 R=0.7)R=0.7)
これらが多重共線性のこれらが多重共線性の [[ 症状症状 ]] である。である。
多重共線性を幾何的に考えると、 多重共線性を幾何的に考えると、 11 枚の平面を枚の平面を 11 本本の直線で支えることによっておきる不安定性である。の直線で支えることによっておきる不安定性である。(図4-4)(図4-4)
[判定法] [判定法] • 相関係数行列相関係数行列• VIFVIF 値値
( ( VIF(Variance Inflation Factor)VIF(Variance Inflation Factor) 値について)値について) VIFVIF 値は個々の説明変数について、次のように定義さ値は個々の説明変数について、次のように定義さ
れる。れる。
ここで、 ここで、 RR22
ii はは ii 番目の説明変数を他の説明変数に番目の説明変数を他の説明変数に対して回帰した場合の決定係数であり、説明変数が対して回帰した場合の決定係数であり、説明変数が 22つのみの場合には、単相関係数のつのみの場合には、単相関係数の 22 乗となる。乗となる。
この この VIFVIF がが 1010 を超えるような場合には、多重共線を超えるような場合には、多重共線性の疑いがあるという判断をする。性の疑いがあるという判断をする。
21
1
ii R
VIF
[対処法] [対処法] • 相関の高い説明変数のいずれかを除去する。(根治療法)相関の高い説明変数のいずれかを除去する。(根治療法)• データの期間を延長する、あるいは年次データでだめなら四半データの期間を延長する、あるいは年次データでだめなら四半
期データや月次データなどを用いて、データの数を増やす。期データや月次データなどを用いて、データの数を増やす。• 説明変数や被説明変数を階差あるいは比率の形にする。説明変数や被説明変数を階差あるいは比率の形にする。• 相関の高い説明変数を合成し、新しい説明変数を作る。相関の高い説明変数を合成し、新しい説明変数を作る。• 主成分回帰やリッジ回帰などの方法を用いる。(非常手段)主成分回帰やリッジ回帰などの方法を用いる。(非常手段)
多重共線性が起こっている場合、相関の高い複数 多重共線性が起こっている場合、相関の高い複数(ここでは2つとする)の変数のうち、(ここでは2つとする)の変数のうち、 11 つをとりつをとり除くことが根本的な解決法である。除くことが根本的な解決法である。
しかし、経済理論からの考えて、 しかし、経済理論からの考えて、 11 つをとり除くこつをとり除くことが不可能なこともあり、その場合には下のいくつとが不可能なこともあり、その場合には下のいくつかの対処法をとることになる。かの対処法をとることになる。
第第 22 節 系列相関節 系列相関
1 系列相関1 系列相関
撹乱項撹乱項 uutt には次のような仮定をおいてきた。には次のような仮定をおいてきた。
① ① uutt は正規分布にしたがう。は正規分布にしたがう。
② ② uutt の平均はの平均は 00 である。である。
③ ③ uutt の分散は一定値の分散は一定値 σσ22 である。である。
④ 撹乱項 ④ 撹乱項 uutt は相互に独立である。は相互に独立である。
このうちの④の仮定が満たされないことが系列相関であ このうちの④の仮定が満たされないことが系列相関である。る。
すなわち、時系列データにおいて、異なる すなわち、時系列データにおいて、異なる 22 時点の撹乱時点の撹乱項項 uutt とと uuss の間に相関があるということである。の間に相関があるということである。
[原因][原因]• 重要な説明変数の欠落重要な説明変数の欠落• 経済行動における習慣性やショックの影響の継続経済行動における習慣性やショックの影響の継続• データの加工時データの加工時
[症状][症状]• 回帰係数の推定値は回帰係数の推定値は BLUEBLUE ではなく、標準誤差を過小推定してではなく、標準誤差を過小推定して
しまう。 しまう。 ⇒ ⇒ tt 値、値、 FF 値、値、 RR22 などを大きめに計算してしまい、本当は有などを大きめに計算してしまい、本当は有
意でないものを誤って有意とみなす。意でないものを誤って有意とみなす。 ⇒ 本当は妥当でないモデルを、誤って妥当であると結論づけ ⇒ 本当は妥当でないモデルを、誤って妥当であると結論づけ
てしまう危険がある。てしまう危険がある。
[判定法] [判定法] • 残差プロット残差プロット• ダービン・ワトソン比(利用できない場合もある)ダービン・ワトソン比(利用できない場合もある)
2 系列相関の判定 -ダービン・ワトソン比-2 系列相関の判定 -ダービン・ワトソン比-
YYtt=a+bX=a+bXtt+u+utt
というモデルを考える。このモデルの誤差項に というモデルを考える。このモデルの誤差項にuutt= ρu= ρut-1t-1 +ε +εtt
という系列相関が存在していたとする。(これを という系列相関が存在していたとする。(これを 11 階階の自己相関の自己相関という)という)
このとき このとき HH00: ρ= 0: ρ= 0 (系列相関なし) (系列相関なし)
HH11: ρ≠ 0: ρ≠ 0 (系列相関あり) (系列相関あり)
という検定が考えられる。この という検定が考えられる。この HH00: ρ= 0: ρ= 0 を検定するを検定する代わりに用いられるのがダービン・ワトソン(代わりに用いられるのがダービン・ワトソン( DDWW )比である。 )比である。
ダービン・ワトソン比は残差 ダービン・ワトソン比は残差 ee11,e,e22,,……,e,enn を用いて次を用いて次のように表すことができる。のように表すことができる。
この統計量は この統計量はuutt= ρu= ρut-1t-1 +ε +εtt
の の uutt をを eett でおきかえて最小でおきかえて最小 22 乗法を適用した推定値乗法を適用した推定値を とすると、を とすると、 nn が十分に大きいとき、が十分に大きいとき、
DW≒2(1- DW≒2(1- ))
という関係が成り立つ。 のとき、 という関係が成り立つ。 のとき、 DW=2DW=2であることから、であることから、 DWDW の値がの値が 22 に近ければ系列相関に近ければ系列相関が存在しないという判断をする。が存在しないという判断をする。
222
21
21
223
212 )()()(
n
nn
eee
eeeeeeDW
0ˆ
系列相関なし正の系列相関
負の系列相関
判定不能
判定不能
0 dL dU 4-dU 4-dL 42
<正の系列相関の例><正の系列相関の例>• ρ>0 ⇔ ρ>0 ⇔ DWDW <2<2
• 正の系列相関がある場合は、残差が同じ符号のまま、ある程度正の系列相関がある場合は、残差が同じ符号のまま、ある程度の期間続く。の期間続く。
(DW=0.306)正の系列相関の例
- 2.5
- 2- 1.5
- 1- 0.5
00.5
11.5
2
0 5 10 15 20 25 30時点
標準
化残差
<負の系列相関の例><負の系列相関の例>• ρ<0 ⇔ ρ<0 ⇔ DWDW >2>2
• 負の系列相関がある場合は、残差の符号が+負の系列相関がある場合は、残差の符号が+ ,, -- , , ++ ,, -- ,, ・・・とある程度交互に続く。・・・とある程度交互に続く。
(DW=3.390)負の系列相関の例
- 2.5- 2
- 1.5- 1
- 0.50
0.51
1.52
2.5
0 5 10 15 20 25 30時点標準
化残差
<系列相関のない例><系列相関のない例>• ρ≒0 ⇔ ρ≒0 ⇔ DW≒DW≒ 22
• 系列相関がない場合は、正の系列相関と負の系列相関のちょう系列相関がない場合は、正の系列相関と負の系列相関のちょうど中間になる。ど中間になる。
(DW=2.256)系列相関なしの例
- 3
- 2
- 1
0
1
2
3
0 5 10 15 20 25 30時点標準
化残差
[対処法][対処法]• 重要な説明変数を追加する(根治療法)重要な説明変数を追加する(根治療法)• 関数形が正しいか確認する関数形が正しいか確認する• ショックの影響がないか確認するショックの影響がないか確認する (( 影響がある場合にはダミー影響がある場合にはダミー
変数を用いる変数を用いる ))
以上のようなモデルの妥当性を検証した後で、モデルが妥当 以上のようなモデルの妥当性を検証した後で、モデルが妥当であるにもかかわらず、系列相関が存在する場合には、通常のであるにもかかわらず、系列相関が存在する場合には、通常の最小最小 22 乗法の代わりに次のような推定法を用いて、係数の推定乗法の代わりに次のような推定法を用いて、係数の推定を行う。を行う。
• コクラン・オーカット法コクラン・オーカット法• 一般化最小一般化最小 22 乗法乗法• 最尤法最尤法
5 系列相関への対処法(2) -コクラン・オーカット法-5 系列相関への対処法(2) -コクラン・オーカット法-
YYtt=a+bX=a+bXtt+u+utt
uutt= ρu= ρut-1t-1 +ε +εt, t,
という誤差項に という誤差項に 11 階の自己相関を持つモデルを考える。階の自己相関を持つモデルを考える。 (テキストの (テキストの αα は、ここでのは、ここでの ρρ に対応します)に対応します) ここで、 ここで、 YYtt - ρY - ρYt-1t-1 を考えるとを考えると
とおき、 とおき、 YYtt**をを XXtt
**に対して回帰すれば、に対して回帰すれば、
誤差項から系列相関の影響が取り除かれる。 誤差項から系列相関の影響が取り除かれる。
11
111
)()1(
)(
tttt
tttttt
uuXXba
ubXaubXaYY
t
tY
tX
1
1
ttt
ttt
XXX
YYY
<手順1><手順1> YYtt をを XXtt に回帰し、推定値 を求める。に回帰し、推定値 を求める。
<手順2><手順2> を計算し、 を求める。 を計算し、 を求める。 eett をを uutt の代わりに用い、 とし、 を求めの代わりに用い、 とし、 を求め
る。 る。 <手順3、4><手順3、4> とし、 とし、 YYtt
**をを XXtt**に対して回帰すれば、に対して回帰すれば、
誤差項から系列相関の影響が取り除かれる。 誤差項から系列相関の影響が取り除かれる。
※※ 問題点 問題点 最初の期のデータは取り除かれてしまう。 最初の期のデータは取り除かれてしまう。
1
1
ˆ
ˆ
ttt
ttt
XXX
YYY
ba ˆ,ˆ
tt XbaY ˆˆˆ ttt YYe ˆ
ttt ee 1ˆ
4 系列相関への対処法(1) -一般化最小4 系列相関への対処法(1) -一般化最小 22 乗法-乗法- (ここではプレイス・ウインステン変換による一般化最小 (ここではプレイス・ウインステン変換による一般化最小 22 乗法を取り上げ乗法を取り上げ
る)る)
<コクラン・オーカット法との相違> <コクラン・オーカット法との相違>• 11 期目のデータを作成する期目のデータを作成する• 定数項を変数とみなし、定数項なしの回帰分析を適用する。定数項を変数とみなし、定数項なしの回帰分析を適用する。
とおき、 とおき、 YYtt**をを XXtt
**とと ZZtt**に対して回に対して回
帰すれば、帰すれば、
誤差項から系列相関の影響が取り除かれる。 誤差項から系列相関の影響が取り除かれる。
11
111
)()1(
)(
tttt
tttttt
uuXXba
ubXaubXaYY
t
tY
tX
1
1
1
t
ttt
ttt
Z
XXX
YYYtZ
期 Y t* X t
*
2
3
…
n
12 ˆ YY 23 ˆ YY
12 ˆ XX
1ˆ nn YY 12 ˆ YY
23 ˆ XX
1ˆ nn XX
期 Yt* Zt
* Xt*
1
2
3
…
n
12 ˆYY 23 ˆYY
12 ˆXX
1ˆ nn YY 12 ˆYY
23 ˆXX
1ˆ nn XX
1 1
2ˆ1 Y 2ˆ1 12ˆ1 X
1
1
コクラン・オーカット法
一般化最小 2乗法
3 ダービンの3 ダービンの hh 統計量統計量
系列相関があるかないかの判定基準として、ダービン・ワト 系列相関があるかないかの判定基準として、ダービン・ワトソン比が用いられるが、ソン比が用いられるが、 DWDW 比では正確な判定ができない比では正確な判定ができないケースがある。ケースがある。
それは、 それは、
というように、説明変数として被説明変数の過去の値( というように、説明変数として被説明変数の過去の値(ラグラグつき内生変数つき内生変数という)を含む場合である。という)を含む場合である。
この場合、 この場合、 DWDW 比は比は 22 に偏りを持つ(本当は系列相関のあるに偏りを持つ(本当は系列相関のあるモデルを、誤って「系列相関なし」と判断してしまう)ので、モデルを、誤って「系列相関なし」と判断してしまう)ので、代わりにダービンの代わりにダービンの hh 統計量を用いる。統計量を用いる。
tttt ucYXbaY 1
<ダービンの<ダービンの hh 統計量>統計量> n: n: 標本数標本数 :パラメー :パラメー
タ の分散の推定値タ の分散の推定値
hh は標準正規分布にしたがうので、有意水準は標準正規分布にしたがうので、有意水準 5%5% で次のようで次のようになる。になる。
2ˆ1
ˆcns
nh
2
cs c
系列相関なし負の系列相関
正の系列相関
-1.96 1.960
第第 33 節 不均一分散節 不均一分散
1 不均一分散1 不均一分散
撹乱項撹乱項 uutt には次のような仮定をおいてきた。には次のような仮定をおいてきた。
① ① uutt は正規分布にしたがう。は正規分布にしたがう。
② ② uutt の平均はの平均は 00 である。である。
③ ③ uutt の分散は一定値の分散は一定値 σσ22 である。である。
④ 撹乱項 ④ 撹乱項 uutt は相互に独立である。は相互に独立である。
このうちの③の仮定が満たされないことが不均一分 このうちの③の仮定が満たされないことが不均一分散である。散である。
[原因][原因]• 変数のレベルが上昇することに伴って、分散が増大することが多い。変数のレベルが上昇することに伴って、分散が増大することが多い。 (例) 平均が (例) 平均が 1010 倍になれば、それにともなって分散も増える。倍になれば、それにともなって分散も増える。
[症状][症状]• 回帰係数の標準誤差を過小推定してしまう。 回帰係数の標準誤差を過小推定してしまう。 ⇒ ⇒ tt 値、値、 FF 値、値、 RR22 などを大きめに計算してしまい、本当は有意でなどを大きめに計算してしまい、本当は有意で
ないものを誤って有意とみなす。ないものを誤って有意とみなす。 ⇒ 本当は妥当でないモデルを、誤って妥当であると結論づけてし ⇒ 本当は妥当でないモデルを、誤って妥当であると結論づけてし
まう危険がある。まう危険がある。
[判定法] [判定法] • 残差プロット残差プロット• 各種検定各種検定
– ゴールドフェルド・クォントの検定ゴールドフェルド・クォントの検定– ブローシュ・ペーガンの検定ブローシュ・ペーガンの検定– ホワイトの検定ホワイトの検定– ラグランジュ乗数(ラグランジュ乗数( LMLM )検定)検定
企業における管理者数と雇用者数2(データ出典:チャタジー・プライス『回帰分析の実際』第 章)
0
50
100
150
200
250
0 500 1000 1500 2000
雇用者数(人)
管理者
数(
人)
残差プロット
- 3
- 2
- 1
0
1
2
3
0 500 1000 1500 2000
雇用者数
標準
化残差
2 不均一分散の判定2 不均一分散の判定 不均一分散の判定は、残差プロットを見ることや、 不均一分散の判定は、残差プロットを見ることや、
さまざまな検定をおこなうことによる。さまざまな検定をおこなうことによる。 不均一分散の検定の 不均一分散の検定の 11 つにゴールドフェルド・クォつにゴールドフェルド・クォ
ントの検定がある。この検定はデータの期間をいくントの検定がある。この検定はデータの期間をいくつかに分割し、それぞれの期間ごとの誤差項の分散つかに分割し、それぞれの期間ごとの誤差項の分散が均一かどうかを検定するものである。が均一かどうかを検定するものである。
※※ 不均一分散の検定は一般に 不均一分散の検定は一般に
を考える。すなわち、「誤差項の分散が均一である」という を考える。すなわち、「誤差項の分散が均一である」という
ことが帰無仮説であり、「均一分散の検定」といったほうが適ことが帰無仮説であり、「均一分散の検定」といったほうが適切である。切である。
),2,1(:H 220 ii
<検定の手順><検定の手順>• データをデータを XX の大きさの順に並べるの大きさの順に並べる (( 重回帰の場合には の大きさ重回帰の場合には の大きさ
の順が適当であろうの順が適当であろう )) 。。• 全体を全体を nn 個としたとき、個としたとき、 (n-m)/2, m, (n-m)/2 (n-m)/2, m, (n-m)/2 個の個の 33 つに分割する。つに分割する。
ここでここで mm は全体のは全体の 22 割弱程度が適当である。割弱程度が適当である。XX11, X, X2 2 ,, ・・・・・・ ,, ・・・ ・・・ , , ・・・・・・ , X , X n-1n-1, X, Xnn
YY11, Y, Y2 2 ,, ・・・・・・ , , ・・・ ・・・ , , ・・・・・・ , Y , Y n-1n-1, Y, Ynn
└Ⅰ┘ └Ⅰ┘ └ └Ⅱ┘ Ⅱ┘ └ └Ⅲ┘Ⅲ┘
• ⅠⅠのグループとのグループとⅢⅢのグループで個別に回帰分析をおこない、それぞれのグループで個別に回帰分析をおこない、それぞれの残差分散の残差分散 ss22 をもとめる。をもとめる。ⅠⅠのグループの残差分散のグループの残差分散 ss1212 ととⅢⅢのグルーのグループの残差分散プの残差分散 ss3232 の比を考えると、その値は自由度の比を考えると、その値は自由度 ((n - m)/2 - k, ((n - m)/2 - k, (n - m)/2 - k)(n - m)/2 - k) のの FF 分布にしたがう。分布にしたがう。
• よってこの統計量について仮説検定をおこなえばよい。よってこの統計量について仮説検定をおこなえばよい。
[対処法][対処法]• 説明変数と被説明変数について、対数変換など変換をおこなう。説明変数と被説明変数について、対数変換など変換をおこなう。• 加重最小加重最小 22 乗法または最尤法を用いる。 乗法または最尤法を用いる。
Y
3 不均一分散の解決法(1)3 不均一分散の解決法(1) 撹乱項の分散について 撹乱項の分散について
222
22
222
21
221
nn X
X
X
nnn
n bX
a
X
Y
bX
a
X
Y
bX
a
X
Y
222
2
111
1
nnn ubXaY
ubXaY
ubXaY
222
111
というように、説明変数の 2 乗に比例していると仮定する。 説明変数と被説明変数をそれぞれ Xi で割
ると、このように変形できる。
ここで、 であるので、このモデルの撹乱項の分散はすべて σ2 となる。 よって、 を に回帰すればよい。
n
nn X
u
X
u ,,
1
11
X
Y
X
1
4 不均一分散の解決法(2) -加重最小4 不均一分散の解決法(2) -加重最小 22 乗法-乗法- 撹乱項の分散がすべて既知であったとする。 撹乱項の分散がすべて既知であったとする。 このとき、加重 このとき、加重 22 乗和乗和
を最小とするものである。 を最小とするものである。 このモデルは、変数をすべて で割ったものである。 このモデルは、変数をすべて で割ったものである。 このように、 を に回帰すればよい。 このように、 を に回帰すればよい。
22n
2112
1
)ˆˆ()ˆˆ( nn XbaYXbaYG 11
2i
Y
X