数理統計講義資料 多変数データの整理と特性値 関係性の特性値
数理統計講義資料�
多変数データの整理と特性値��
���関係性の特性値���
� ���� �
� はじめに
❏ 単変数データと多変数データ
単変数データ��� � � �� � � � � �
縮約
���
��� 中心
��� ばらつき
多変数(�変数)データ��� ���
� � �� � � � � �
縮約
���
��、��� 中心
��、��� ばらつき
���など�関係性
�
この講義資料のテーマ・・・��� ��を縮約して関係性という特性を表す
� ���� �
❏ 関係性の特性値の種類Æ 量的データ同士
(・散布図)・共分散・相関係数
Æ 質的データ同士
(・分割表)・関連係数・�係数
Æ 量的データと質的データ相関比など(この講義資料では詳しくは扱わない)
� ���� �
講義の構成�� 散布図
�� 共分散
�� 相関係数
� 分割表
�� 関連係数と�係数
� ���� �
�� 量的データと質的データの関係性
� ���� �
� 散布図
共に量的なデータ��� ��を�次元平面にプロットする。�����では、�挿入� � �散布図� � �散布図(マーカーのみ)�など
� ���� �
例� 都道府県別�世帯当たり�ヶ月間の収入と支出消費支出
勤め先収入 総計 食料 教育北海道 ���� � ������ ���� �����
青森県 � ���� ���� � ����� �����
岩手県 ��� � ��� �� ���� �����
宮城県 ������ ������ ����� �����
秋田県 ��� �� ������ ����� �����
山形県 ����� ������ ����� �����
福島県 ������ ������ ��� � ����
茨城県 ������ ���� � �� � �� ��
栃木県 ������ ������ ����� �����
群馬県 ��� � ������ ����� �� ��
埼玉県 ����� ������ ����� �����
千葉県 ������ ������ ����� �����
東京都 ������ ���� ����� �����
神奈川県 ������ ������ ����� �����
��� ��� ��� ��� ���
総務省統計局『全国消費実態調査』(����年、単位�万円)
� ��� �
30 35 40 45 5022
24
26
28
30
32
34
1ヶ月間勤め先収入
1ヶ月間消費支出(総計)
30 35 40 45 504.5
5
5.5
6
6.5
7
7.5
1ヶ月間勤め先収入
1ヶ月間消費支出(食料)
30 35 40 45 500.5
1
1.5
2
2.5
1ヶ月間勤め先収入
1ヶ月間消費支出(教育)
�
支出総計と収入の関係性は強そう。食料支出と収入はまあまあ。教育支出と収入は弱そう
� ��� �
� 共分散
❏ 定義
��� �
��� �
�����
�� � ���� � ��
�����
�� � 中心の特性値
�� � ばらつきの特性値
��� � 関係性の特性値
とセットでよく使われる� ���� �
❏ ���の直感的な解釈��が大きい� �が大きい
�が小さい� �が小さい
というデータだと・・・� �� � ���� � ��� �
�
��� � ���� � ��� � �
��� � ���� � ��� � �
� � � �
� ��� � �
��が大きい� �が小さい
�が小さい� �が大きいというデータだと・・・
� �� � ���� � ��� � �
��� � ���� � ��� � �
��� � ���� � ��� � �
� � � �
� ��� �
� ���� �
��が大きい� �が大きかったり小さかったり
�が小さい� �が大きかったり小さかったり
というデータだと・・・� �� � ���� � ��� �
�
��� � ���� � ��� � �
��� � ���� � ��� � �
� � � �
� 相殺されて���� �
���は��と��の比例関係を捉える
� ����� �
例� 都道府県別�世帯当たり�ヶ月間の収入と支出
30 35 40 45 5022
24
26
28
30
32
34
1ヶ月間勤め先収入
1ヶ月間消費支出(総計)
� ���� ���
30 35 40 45 504.5
5
5.5
6
6.5
7
7.5
1ヶ月間勤め先収入
1ヶ月間消費支出(食料)
� ���� ����
30 35 40 45 500.5
1
1.5
2
2.5
1ヶ月間勤め先収入
1ヶ月間消費支出(教育)
� ���� ����
� ����� �
❏ ���の性質
��と��の共分散が��� � �� ���と � ���の共分散は�����
注��)���は単位に依存する万円単位� 教育支出と収入の���
� ����
円単位� 教育支出と収入の���� ����������
� 単位を変えると関係性の強さが見かけ上変わってしまう
注��)���の意味する関係性
��と��が比例関係(線形関係)にある時に�����は大きくなる。
��と��が非線形関係にある時は�����は必ずしも大きくならない
� ����� �
� 相関係数
❏ 定義
��� �
���
����
❏ 性質
� ��と��の相関係数が���
� �� ���と � ���の相関係数は
���� �� �� � �
���� �� �� �
� ���は無名数
� ����� �
� � � � ��� � ������
��� � �� �� � �� ���� ��� � � �� � ���� � �
����
��� � ��� �� � �� ���� ��� � � �� � ���� � � ���
��
�
���は比例関係(線形関係)の強さを表す。つまり、�����
強い正の比例関係・・・��� �
比例関係が弱い・・・��� �
強い負の比例関係・・・��� ��
� ����� �
❏ ���の解釈の注意点Æ ���の意味する関係性
��と��が厳密な比例関係(線形関係)にあることと ����� � �
は同値だが、��と��が非線形関係にあっても�����は必ずしも�
に近づかない
例� 有所得者�人当たり平均所得金額年齢 年収 年齢 年収
便宜上
�年齢�
を変換������
年齢 年収 年齢 年収
��歳以下 ���� � � � ��� �� ���� � � ���
����歳 ����� � ��� �� ����� � ���
� �� ����� ���� ����� �� ����� �� �����
���� ����� � �� ����� �� ����� �� �����
� �� ����� ���� �� �� �� ����� �� �� ��
���� ����� � �� ����� �� ����� �� �����
� �� ����� ��歳以上 ����� �� ����� �� �����
厚生労働省『国民生活基礎調査』(����年、単位万円)
� ����� �
20 40 60 800
100
200
300
400
500
年齢
年収
rxy≒0.962
rxy≒-0.034
rxy≒-0.946
�
���� �
○�
�
線形関係が無いあらゆる関係が無い
であり、機械的に���だけを見るのは危険。少なくとも散布図を描くべき
� ���� �
Æ ���と因果関係���� �� �が大きくなったから�が大きくなった(因果関係)�
�
必ずしも因果関係とは限らない。������ �でも見せかけ
の相関の場合がある
� ���� �
� 分割表
共に質的なデータ��� ��に対し、各カテゴリーに入るデータ数を数えて表にまとめる
� ����� �
例� 居住地と自動車保有��が第�世帯の居住地、��が第�世帯が自動車を保有するかどうか
世帯数 比率自動車保有 自動車保有する しない 計 する しない 計
居住地
東京都区部 ��� �� ���
居住地
東京都区部 ����� ����� �
中都市 ����� ��� ����� 中都市 ����� ����� �
町村 ����� ��� ��� � 町村 ����� ����� �
計 ����� ���� ����� 計 ����� ����� �
総務省統計局『全国消費実態調査』(����年)より作成
(��のカテゴリー数が�、��のカテゴリー数が�なので���分割表と呼ぶ。一般には� � 分割表と呼ぶ)
�
大きな都市の方が自動車保有率が低い。居住地と自動車保有は関係があるようだ
� ����� �
� 関連係数と�係数
❏ 関連係数
Æ 定義
分割表(データ数のでも比率のでもどちらでも良い)�
自動車保有する しない 計
居住地都市 ��� ��� ��� � ��� � ���
町村 ��� ��� ��� � ��� � ���
計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ���
� ������� � ������
������ � ������
���分割表にしか対応していない
� ����� �
Æ 性質自動車保有
する しない 計
居住地都市 ��� ��� ��� � ��� � ���
町村 ��� ��� ��� � ��� � ���
計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ������������
���������� � � � �
����������
���� � � �(居住地と車保有は関係無し)
��� � � �� ��� � � � � � �(関係あり)
��� � � �� ��� � � � � � ��(関係あり)� ����� �
❏ �係数Æ 定義
���������������������������������������������������������
比率ではないデータ数の分割表�
自動車保有する しない 計
居住地都市 ��� ��� ��� � ��� � ���
町村 ��� ��� ��� � ��� � ���
計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ���
� ���� �
�
�����
�����
��� � ���������
��������上の式は���分割表に対応するものだが、一般の� � 分割表にも対応できる
� ����� �
Æ 性質自動車保有
する しない 計
居住地都市 ��� ��� ��� � ��� � ���
町村 ��� ��� ��� � ��� � ���
計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ������������
��������� � � � �
����������
���� � � �(関係無し)
��� � ��� � � � � � �(関係あり)
��� � ��� � � � � � �(関係あり)� ����� �
❏ 例� 居住地と自動車保有
世帯数 比率自動車保有 自動車保有する しない 計 する しない 計
居住地東京都区部 ��� �� ���
居住地東京都区部 ����� ����� �
町村 ����� ��� ��� � 町村 ����� ����� �
計 ����� ���� ����� 計 ����� ����� �
� � � ����� 、 � � ����
世帯数 比率自動車保有 自動車保有する しない 計 する しない 計
居住地中都市 ����� ��� �����
居住地中都市 ����� ����� �
町村 ����� ��� ��� � 町村 ����� ����� �
計 ����� � �� ����� 計 ���� ���� �
� � � ���� 、 � � ����
� ����� �
❏ 関係性の調べ方の注意
居住地と自動車保有は関係があるか調べたい� 町村部の世帯にアンケート�
自動車保有する しない 計
居住地 町村 �� � ���
� これだけで関係があるとするのは誤り都市部の世帯にもアンケートしないと、
自動車保有する しない 計
居住地都市 �� � �
町村 �� � ���
計 ��� � � �
� � � � 、 � � �
か
自動車保有する しない 計
居住地都市 � � �
町村 �� � ���
計 �� � � �
� � � �� 、 � � ����
か
解らない
� ����� �
ある占いを試したら、実際
良い 悪い 計運勢 良い �� � ��
� これだけで当たるとするのは誤り運勢が悪い時も調べると、
実際良い 悪い 計
運勢良い �� � ��
悪い �� � �
計 �� � �
� � � � 、 � � �
かもしれない
� ���� �
�町村部の自動車保有運勢が良かった時の出来事
といった一部のカテゴリーだけを調べても関係性は把握できない。�
都市部の自動車保有運勢が悪かった時の出来事
といった全てのカテゴリーを調べ、カテゴリーの変化によるデータの変動で関係性を捉える
� ���� �
注�)質的データ�量的データ�
��を占いでの運勢、��を実際の出来事とする��� � 良い、普通、悪い
�� � 良い、普通、悪い
� ��� ��は共に質的データ
� �(良い、悪いの�カテゴリーの場合のみ)、�を使う
��� � 何らかの点数
�� � 何らかの点数
� ��� ��は共に量的データ
� ���、���を使う
� ����� �
� 量的データと質的データの関係性
❏ 相関比
関係性の強さを��の値で表す。アイデアとしては���に似ている。詳しくは高橋 信� トレンドプロ� 「マンガでわかる統計学」� オーム社�
����年�
参照
❏ 線形回帰分析
��が量的データ、��が質的データの場合。説明変数��をダミー変数として被説明変数��に線形回帰モデルを当てはめる。詳しくは山本 拓� 「計量経済学」� 新世社� ��� 年�参照
� ����� �
❏ 質的変量分析��が質的データ、��が量的データの場合。被説明変数を��、説明
変数を��とした質的変量モデルを当てはめる。詳しくは浅野 皙� 中村 二朗 � 「計量経済学(第�版)」� 有斐閣� ����年�
参照
� ����� �