Shrinkage estimators for covariance matrices in multivariate ...konno/pdf/talk30.pdf今野良彦 Shrinkage estimators for complex normal covariance matrices この講演の目的と構成

Recent Advances in Statistical Inference - in Honor of Professor Masafumi Akahira

（2008 年 12 月 16 日・筑波大学）

Shrinkage estimators for covariance matrices inmultivariate complex normal distributions

日本女子大学理学部　　今野良彦

December 12, 2008

今野　良彦 Shrinkage estimators for complex normal covariance matrices

この講演の目的と構成

　近年，データ数よりも変量の次元が高いデータ（高次元データ）の解析のための多変量推測理論の構築が注目を集めている．本講演では，高次元データの設定のもとで多変量複素正規分布の共分散行列 (Large Covariance matrix)の推定問題を統計的決定理論の枠組みで考察した結果を報告する．

本講演の構成

(1) 複素正規分布と複素 Wishart 分布について;

(2) 記号と問題設定;

(3) 先行研究について;

(4) 推定量のクラスとリスクの評価の方針 (SURE 法);

(5) リスクの不偏推定量 (SURE)の導出;

(6) 改良型推定量について．

複素正規分布(1)� 複素確率変数 X は

X = ReX +√−1ImX, [X ] =

(ReXImX

ReX, ImXは X の実部と虚部.

� X は標準複素正規分布 �N(0, 1) に従うとは

[X ] =(

ReXImX

)∼ N2(

(1 00 1

� X の確率密度関数 (w.r.t. Lebesgue measure on � )は

fX(x) =1√π

exp(−x̄x), x ∈ �, x̄は x の complex conjugate.

複素正規分布(2)

� Z ∼ �N(0, 1), θ ∈ �, σ ∈ �+ に大して

X := θ + σZ ∼ �N(θ, σ2).

� X ∈ �

p は複素確率ベクトルとする．∀c ∈ �

p，θ ∈ �

p，Σ ∈ Herm(p, �)+に対して，

c∗X ∼ �N(c∗θ, c∗Σc) ⇐⇒ X ∼ �Np(θ, Σ).ただし，c∗ は c の transpose complex conjugate である．

� X ∼ �Np(θ, Σ) の確率密度関数(w.r.t. Lebesgue measure on �p )は

fX(x) =1πp

(DetΣ)−1/2 exp{−(x − θ)∗Σ−1(x − θ)}.

複素正規分布(3)

� Z ∼ �Np(θ, Σ) のとき，

[Z] :=(

Re ZIm Z

)∼ N2p(

(Re θImθ

(ReΣ −ImΣImΣ ReΣ

ただし，ReΣ, ImΣ は symmetric と skew-symmetric.

複素 Wishart 分布(1)

� p 次元複素確率ベクトル Z1, Z2, · · · , Zn は独立同一に�Np(0, Σ)に従うとする．このとき，

W :=n∑i=1

ZiZ∗i

は母数 Σ, p, n の複素 Wishart 分布に従うといい，�Wp(Σ, n) と書く．

� n ≥ p のとき，�(W は正定値) = 1 で，W の確率密度関数 (w.r.t. Lebesguemeasure on Herm+(�, p) )は

fW (w) =Det (w)n−p exp(−Tr (wΣ−1))

Det (Σ)nπp(p−1)/2Πpj=1Γ(n+ 1 − j)

, w ∈ Herm+(�, p)

ただし，Γ( · ) は Euler’s gamma function.

記号と問題設定(1)　

� Z1, Z2, . . . , Zn ∼ �Np(0, Σ)．各 Zi (i = 1, 2, . . . , n)は p 変量確率(縦)ベクトルで，独立同一に p 変量複素正規分布に従う．ただし，Σは p× pの正値エルミート行列で未知．

� n は (標本数 - 1) で，p は変量の次元．

� Wishart 確率行列(p× p の行列) W :=∑n

k=1 ZiZ∗i．ただし，“ ∗ ”はベク

トルや行列の transpose complex conjugate を示す．

� 共分散行列 Σ の推定問題を損失関数

L(Σ̂, Σ) = Tr (Σ̂Σ−1 − Ip)2

のもとで考える．ここで，Σ̂ は Σ の推定量，Ip は p × p の単位行列，Trは行列のトレースを表す．

� W の分布に関する損失関数 L の期待値R(Σ̂, Σ) := �[L(Σ̂, Σ)]をリスクとよぶ．Σ に関して一様に推定量のリスクを比較したい．

記号と問題設定(2)　

� 平均を 0 としたことは本質的ではない;

� Wishart 確率行列 W は正定値 ⇐⇒ n ≥ p;

� Wishart 確率行列 W の分布は (n は正整数のとき)常に存在するが，確率密度関数はn ≥ p のとき存在;

� 変換 Σ̂ → AΣ̂A′; Σ → AΣA′(A は p× p の正則行列)に関して不変な損失関数：

L(Σ̂, Σ) = Tr (Σ̂Σ−1− Ip)2; LS(Σ̂, Σ) = Tr (Σ̂Σ−1)− log Det(Σ̂Σ−1)− p.

ただし，Det は行列式．しかし，n < p のとき，LS は n−1W （LS の期待値)を評価できない．

先行研究について(1)

推定量 n−1W の問題点　

� �[n−1W ] = Σ だが，n−1W の固有根は，Σ の固有根よりも広がっている．(Marchenko-Pastur law).

� n < p のとき，Σ は正定値であるにもかかわらず，n−1W は正定値ではない．

n ≥ p の場合の先行研究　

�損失関数 LSのもとでは，n−1W の固有根をShrinkage-expansion methodを用いた改良型推定量. Svensson (2004), Konno (2007a, 2007b), Konno(2009).

�リスクを評価するために，SURE法が有効—部分積分の公式と eigenvalue-caluculus 　→ n < p の場合は？

� 損失関数 L のもとでは，Konno (2009)(Haff (1980)は実 Wishart の場合 )の結果　→ n < p の場合は？

n < p の場合の実 Wishart 行列に対する先行研究　

� S ∼Wp(Σ, n) とする．ただし，Σ は正定値行列である;

� Ledoit and Wolf (2004):損失関数Tr(Σ̂−Σ)2 のもとで，n−1S と Ip の線形結合のなかで漸近的(n/pは有界)に最適なもの．積率の条件のみで分布に依存しない結果;

� Wu and Pourahmadi (2003), Bickel and Levina (2008): banding approach.　漸近的に評価;

� Furrer and Bengtsson (2007): “tapering”;

� AOS (2009) に特集．

問題設定の復習　

� Z1, Z2, . . . , Zn ∼ �Np(0, Σ)．各 Zi (i = 1, 2, . . . , n)は p 変量確率(縦)ベクトルで，独立同一に p 変量複素正規分布に従う．ただし，Σは p× pの正値エルミート行列で未知．

� n は (標本数 - 1) で，p は変量の次元;

� Wishart 確率行列(p× pの行列) W :=∑n

k=1 ZiZ∗i に基づき，共分散行列

Σ の推定問題を損失関数

L(Σ̂, Σ) = Tr (Σ̂Σ−1 − Ip)2

のもとで考える．ここで，Σ̂ は Σ の推定量;

� W の分布に関する損失関数 L の期待値R(Σ̂, Σ) := �[L(Σ̂, Σ)]をリスクとよぶ．Σ に関して一様に推定量のリスクを比較したい．

推定量のクラス

� W =∑n

i=1 ZiZ∗iを分解する：�1 ≥ · · · �n は W の固有値で，

W = U1LU∗1, L = Diag(�1, . . . , ln);

U1 は p× n の半直交行列 s.t. U∗1U1 = In.

推定量のクラス　 Σ̂ = U1Ψ(L)U∗1, (1)

ただし，Ψ := Ψ(L) = Diag(ψ1, ψ2, . . . , ψn) でψk := ψk(L)(k = 1, 2, . . . , n)は�

n≥ から � への可微分関数.

目標　Σ に依存するリスク�[Tr (Σ̂Σ−1 − Ip)2] を評価したい！

推定量のクラスとリスクの評価の方針（ SURE 法)� リスク�[Tr (Σ̂Σ−1 − Ip)2]の不偏推定量R̂(Σ̂) ( ϕ1, . . . , ϕn と �1, . . . , �n を通して W のみ依存 )を導出：

�[Tr (Σ̂Σ−1 − Ip)2] = �[R̂(Σ̂)]

� �[Tr (n−1WΣ−1 − Ip)2] は定数リスクなので，

R̂(Σ̂) ≤ �[Tr (n−1SΣ−1 − Ip)2]

ならば，

�[Tr (Σ̂Σ−1 − Ip)2 ≤ �[Tr (n−1WΣ−1 − Ip)2]がわかる．

SURE の導出推定量の族 (1) に対して，リスクの不偏推定量 R̂(Σ̂) を導出する．

部分積分の公式と SURE 法(1)

� (zij)i=1, ..., n; j=1, ..., p := [Z1, Z2, . . . , Zn]∗ ∼ �Nn×p(0, In ⊗ Σ);

� n× p の行列作用素 ∇Z を次で定める：

∇Z =(

∂zij

)i=1, 2, ..., nj=1, 2, ..., p

∂(Re zij)−

√−12

∂(Im zij)

)i=1, 2, ..., nj=1, 2, ..., p

� 行列 ∇ZA の (i, j) 成分を

(∇ZA)ij =p∑k=1

∂akj∂zik

for i = 1, 2, . . . , n; j = 1, 2, . . . , p.

補題１　[Z1, Z2, . . . , Zn]∗ ∼ �Nn×p(0, In ⊗ Σ) とし，W =∑n

i=1 ZiZ∗i

とおいたとき，p× p 関数 G = G(W ) に対して，

� [Σ−1WG] = � [nG + (Z ′∇Z)′G].

特に，

� [Tr (Σ−1WG)] = � [nTr (G) + Tr (Z ′∇ZG′)].

ただし，′ は転置．

部分積分の公式と SURE 法(3)� 補題 1 において，G = U1Diag(�−1

1 ψ1, . . . , �−1n ψn)U∗

1 とおく：

補題 2 　それぞれの期待値が存在するとき，

� [Σ−1U1ΨU∗1] = �

[U1Ψ(1c)U∗

1 + Tr (L−1Ψ)(Ip − U1U∗1)

ただし，Ψ(1c) = Diag(ψ(1c)1 , ψ

(1c)2 , . . . , ψ

(1c)n ) で ψ

(1c)k =

∑nb �=k

ψk−ψb�k−�b + ∂ψk

∂�k

(k = 1, 2, . . . , n). 　特に，complex analog of Kubokawa and Srivastava (2008)’sidentity として，

� [Tr {Σ−1U1ΨU∗1}] = �

⎡⎣ n∑k=1

⎧⎨⎩(p− n)

ψk�k

+∂ψk∂�k

+n∑b �=k

ψk − ψb�k − �b

⎫⎬⎭

⎤⎦ .

補題 3 　̂Σ = U1Ψ(L)U∗1 に対して，�[Tr {Σ−1U1ΨU∗1Σ

−1U1ΨU∗1}] = �[Tr {Σ−1U1Ψ̃

(1)U∗

ただし，Ψ̃(1)

= Diag(ψ̃(1)1 , ψ̃

(1)2 , . . . , ψ̃

(1)n ) で

ψ̃(1)k = (p− n)

�k+ 2ψk · ∂ψk

∂�k+ 2ψk ·

n∑b �=k

ψk − ψb�k − �b

, k = 1, 2, . . . , n.

定理 4 　̂Σ = U1Ψ(L)U∗1 に対して，

R(Σ̂, Σ) = �

[ n∑k=1

{(p− n)

(ψ̃(1)k

�k− 2

ψk�k

(∂ψ̃(1)k

∂�k− 2

∂ψk∂�k

+n∑b �=k

(ψ̃(1)k − 2ψk) − (ψ̃(1)

b − 2ψb)�k − �b

ただし，ψ̃(1)k = (p− n)ψ2

k/�k + 2ψk(∂ψk/∂�k) + 2ψk∑n

b �=k(ψk − ψb)/(�k − �b)(k = 1, 2, . . . , n).

改良型推定量(1)

推定量の族　n < p とする．つぎの推定量の族を考える：

Σ̂t =1

TrW +U1U∗1

ただし，U1 は p× n の半直交行列で, W の正の固有値に対応する固有ベクトルを並べたのもの，SW+ は S の Moore-Penrose の逆行列，t は正の定数である．

結果　̂Σt のリスクの不偏推定量(SURE)を導出し，リスクを評価することに

より次の結果を得る．

0 < t < 2(n− 1)(p− n+ 1)/{(p− n+ 1)(p− n+ 2)} のとき，すべての Σ に対して，R(Σ̂t, Σ) ≤ R(n−1W , Σ)が成立する．

改良型推定量(2)　

� Σ̂t は正定値ではない．

� 1p+n

(W + t

Tr W +U1U∗1

)を修正したもの:

Σ̃t =1

� 残念なことに，推定量 Σ̃t のリスクを SURE を用いて評価できない！

� 数値実験で調べたい．

Shrinkage estimators for covariance matrices in multivariate ...konno/pdf/talk30.pdf今野良彦 Shrinkage estimators for complex normal covariance matrices この講演の目的と構成

Documents

Robust Covariance Matrix Estimators for Sparse Data … ·....

Analytical Nonlinear Shrinkage of Large-Dimensional...

Econometric Computing with HC and HAC Covariance Matrix...

Covariance Intersection Fusion Wiener Signal Estimators...

OUTLINE : Introduction II. Some remarks on Shrinkage...

Fixed support positive-de nite modi cation of covariance...

Shrinkage estimators for structural parameters - Stata

Shrinkage for Covariance Estimation: Asymptotics, Con ...

Nonlinear Shrinkage of the Covariance Matrix for Portfolio.....

Nonlinear Shrinkage of the Covariance Matrix for Portfolio.....

Abstract - Journal of Policy Modeling · Web viewSome...

User-Friendly Covariance Estimation for Heavy-Tailed ... ·...

1 Dipartimento di Fisica e Tecnologie Relative, Universit...

A Comparative Study of Covariance and Precision Matrix...

Robust Shrinkage Estimation of High-dimensional Covariance.....

Tapered Covariance: Bayesian Estimation and...

Shrinkage estimators for covariance matrices in multivariate ...konno/pdf/talk30.pdf今野 良彦 Shrinkage estimators for complex normal covariance matrices この講演の目的と構成

Shrinkage estimators for covariance matrices in multivariate ...konno/pdf/talk30.pdf今野良彦 Shrinkage estimators for complex normal covariance matrices この講演の目的と構成