Neparametrisk¯ as statistikas metodes ar pielietojumu laikrindu prognoz¯ ešanai J. Valeinis 1 1 Latvijas Universit¯ ate, R¯ ıga 21.maijs, 2010 Valeinis Neparametrisk¯ as statistikas metodes p. 1 of 20
Neparametriskās statistikas metodes arpielietojumu laikrindu prognozēšanai
J. Valeinis1
1Latvijas Universitāte, R̄ıga
21.maijs, 2010
Valeinis Neparametriskās statistikas metodes p. 1 of 20
Neparametriskās un parametriskās metodes
Neparametriskās statistikas metodes:Bl̄ıvuma funkcijas novērtēšana ar kodolu metodēm;Regresijas funkcijas novērtējums ar kodolu metodēm un lokālāregresija;Butstrapa datu pārkārtošanas metodes;Emp̄ıriskā ticam̄ıbas funkcija u.t.t.
Parametriskās metodes (pieņēmumi par populācijas sadal̄ıjumu):Vislielākās (maksimālās) ticam̄ıbas funkcijas metode;Parametriskā regresija;t-tests u.t.t.
Valeinis Neparametriskās statistikas metodes p. 2 of 20
Histogramma
Doti X1,X2, . . . ,Xn iid, kur Xi ∼ f . Histogramma punktā x :
f̂n(x) =1
2hn#{Xi ∈ [x − h, x + h]} =1nh
n∑i=1
K(x − Xi
h
),
kur K (u) = 0.51{|u|≤1} ir vienmēr̄ıgā sadal̄ıjuma bl̄ıvuma funkcija(kodols) intervālā [−1, 1].
Histogramma ir neparametrisks bl̄ıvuma funkcijas novērtējums!Ideja: iegūt gludus (labākus) novērtējumus izvēloties citus(gludus) kodolus!
Valeinis Neparametriskās statistikas metodes p. 3 of 20
Neparametriskā bl̄ıvuma funkcijas novērtēšana
Kodolu neparametriskais bl̄ıvuma funkcijas novērtējums:
f̂n(x) =1nh
n∑i=1
K(x − Xi
h
),
kur K -kodols, h-joslas platums.
kodola izvēle K parasti nav būtiska, parasti izvēlas N(0, 1)bl̄ıvuma funkciju (Gausa kodols);problēma: h izvēle!
Valeinis Neparametriskās statistikas metodes p. 4 of 20
Simulēti dati: h izvēle
N(0,1), n=100, h=0.01
simuletie dati
blivu
ma
funk
cija
−2 −1 0 1 2 3
0.0
0.4
0.8
N(0,1), n=100, h=0.1
simuletie dati
blivu
ma
funk
cija
−2 −1 0 1 2 3
0.0
0.2
0.4
0.6
N(0,1), n=100, h=0.4
simuletie dati
blivu
ma
funk
cija
−2 −1 0 1 2 3
0.0
0.2
0.4
N(0,1), n=100, h=1.5
simuletie dati
blivu
ma
funk
cija
−2 −1 0 1 2 30.
00.
20.
4
Figure: Kodolu gludināšana ar dažādiem h, kodols - Gausa
Valeinis Neparametriskās statistikas metodes p. 5 of 20
Simulēti dati: kodolu izvēle
N(0,1),n=20
−2.5 −1.5 −0.5 0.5
0.0
0.2
0.4
0.6
0.8
N(0,1),n=50
−2 −1 0 1 2
0.00
0.10
0.20
0.30
N(0,1),n=100
−3 −2 −1 0 1 2 3 4
0.0
0.1
0.2
0.3
N(0,1),n=500
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
Figure: Kodolu gludināšana ar dažādiem kodoliem: "gaussian","biweight","epanechnikov","rectangular","triangular","cosine", h-krosvalidācijas metode
Valeinis Neparametriskās statistikas metodes p. 6 of 20
Simulēti dati: histogramma & kodolu novērtējums
Histogramma, sad=10
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
Histogramma, sad=50
−2 −1 0 1 2 3
0.0
0.2
0.4
0.6
Ista funkcija
−2 −1 0 1 2 3
0.0
0.2
0.4
0.6
−2 −1 0 1 2 3
0.0
0.2
0.4
0.6
Kodolu nov.
Figure: n=1000, p-vērt̄ıba KS-testam, Shapiro testam ir < 0.05
Valeinis Neparametriskās statistikas metodes p. 7 of 20
Joslas platuma izvēle
Vidējā kvadrātiskā kļūda (MSE) novērtējumam f̂n(x):
MSE (f̂n(x)) = E ((f̂n(x)− f (x))2) =
=h44 f′′(x)2µ2(K )2 +
1nh ||K ||
22f (x) + o(h4) + o
( 1nh
),
kur µ2(K ) =∫
s2K (s)ds un ||K ||22 =∫
K 2(s)ds.
Ideja: mizinimizēt integrētā vidējo kvadrātisko kļūdu:∫MSE (fn(x))dx .
Valeinis Neparametriskās statistikas metodes p. 8 of 20
Joslas platuma izvēle
Optimālais h:
hopt =(
||K ||22||f ′′||22{µ2(K )}2n
)1/5∼ n−1/5.
Problēma: hopt satur nezināmo f ′′."Rule of thumb": ja dati normāli sadal̄ıti, tad ‖f ′′‖22 =σ−5
∫ {ϕ′′(x)
}2 dx = σ−5 38√π ≈ 0.212 σ−5. Tadhopt ≈ 1.06σ̂n−1/5.
Valeinis Neparametriskās statistikas metodes p. 9 of 20
Joslas platuma izvēle: krosvalidācijas metode
Integrētā kvadrātiskā kļūda ISE (h) = ISE (f̂n):
ISE (f̂n) =∫
(f̂n(x)− f (x))2dx =
= ISE (h) =∫
f̂ 2n (x) dx − 2∫{f̂nf }(x) dx +
∫f 2(x) dx .
Ievērosim, ka∫{f̂nf }(x) dx = E (f̂n(X )).
Krosvalidācijas ideja: ̂E{f̂h(X )} =1n
n∑i=1
f̂h,−i (Xi ), kur
f̂h,−i (x) =1
(n − 1)h
n∑j=1,i 6=j
K(x − Xj
h
).
Valeinis Neparametriskās statistikas metodes p. 10 of 20
Lineārā (parametriskā) regresija
Doti datu pāri (X1,Y1), ..., (Xn,Yn). Regresijas vienādojums
Yi = a + bXi + �i , E(�i ) = 0, i = 1, ..., n,
Pieņēmumi: 1) �i ir neatkar̄ıgi, vienādi sadal̄ıti 2) �i ∼ N(0, σ2)(homoskedastisks modelis)
Polinomiālā regresija (ar pakāpi n):
Yi = a0 + a1Xi + a2X 2i + . . .+ anXni + �i .
Valeinis Neparametriskās statistikas metodes p. 11 of 20
Lineārā (parametriskā) regresija: parametru novērtēšana
Parametrus a un b novērtē pēc mazāko kvadrātu metodesn∑
i=1�2i =
n∑i=1
(Yi − (a + bXi ))2 → min!
Iegūstb̂ =
∑ni=1(xi − x̄)(yi − ȳ)∑n
i=1(xi − x̄)2, â = ȳ − β̂ x̄ .
Valeinis Neparametriskās statistikas metodes p. 12 of 20
Lineārā (parametriskā) regresija: korelācijas koeficients
Korelācijas koeficients
ρXY =cov(X ,Y )√D(X )
√D(Y )
=E (XY )− E (X )E (Y )√
D(X )√
D(Y ).
Īpaš̄ıbas1 −1 ≤ ρXY ≤ 1;2 Ja Y = a + bX , tad ρXY = 1 vai ρXY = −1;3 Ja X un Y neatkar̄ıgi, tad ρXY = 0;4 R2 = ρ2XY raksturo, cik liela proporcija no Y datiem tiek
izskaidrota ar X datiem.
Valeinis Neparametriskās statistikas metodes p. 13 of 20
LIDAR dati: lineārā regresijaY - logaritms no divu lāzeru mērijumu attiec̄ıbas; X - attālums.
●●●●●
●
●●●●●
●
●●
●●●
●
●
●
●●●
●●
●●
●
●
●●●
●●●
●●●●●●
●●●●
●●●
●●
●●
●
●
●
●
●●●●
●
●
●
●
●●
●
●
●
●●●●●
●
●
●
●●●
●●
●
●●
●●●
●●●
●
●●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
400 500 600 700
−0.8
−0.4
0.0
dati
●●●●●
●
●●●●●
●
●●
●●●
●
●
●
●●●
●●
●●
●
●
●●●
●●●
●●●●●●
●●●●
●●●
●●
●●
●
●
●
●
●●●●
●
●
●
●
●●
●
●
●
●●●●●
●
●
●
●●●
●●
●
●●
●●●
●●●
●
●●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
400 500 600 700
−0.8
−0.4
0.0
dati un lin.reg
●●●●● ●● ●●●●● ●●● ●●● ●● ●●●●● ●●● ● ●●● ●●●●●●● ● ●●●●●● ● ● ●●●●● ●● ●●●●● ●● ●● ● ● ● ●● ●●●●● ● ●● ●●●●● ●●● ●●●●● ●● ●● ●● ●●●●● ●●● ●● ●●● ●● ● ●●● ●● ●●●● ●●● ●●●● ●●●●●●● ● ● ●● ● ●●● ●●●●● ● ● ●●●● ●●●● ● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●● ●●●● ●●● ●●●● ●● ●● ●●● ● ●● ●● ● ●● ● ● ●● ● ●● ●● ● ● ●● ●●
−0.8 −0.6 −0.4 −0.2 0.0
−0.6
−0.4
−0.2
0.0
y dati pret prognozi
●●
●●●
●
●
●●●●●
●●
●
●●
●
●
●
●●●
●
●
●●
●
●
●●●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●●●
●
●
●
●●●
●●
●
●●
●●●
●●
●
●
●●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 50 100 150 200
−0.4
−0.2
0.0
0.2
atlikumi
Figure: Lineārā regresija, n=221, R2 = 0.7827, normalitāti nevar noraid̄ıt,koeficienti ir noz̄ım̄ıgi (tas ir var noraid̄ıt H0 : a = 0 un H0 : b = 0)
Valeinis Neparametriskās statistikas metodes p. 14 of 20
LIDAR dati: lineārā regresijaY - logaritms no divu lāzeru mērijumu attiec̄ıbas; X - attālums.
●●
●●
●
●
●●
●●●
●
●●
●
●●
●
●
●
●●●
●●
●●
●
●
●
●●
●●
●
●●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●●●
●●
●
●●
●●●
●●
●
●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
400 450 500 550 600 650 700
−0
.8−
0.6
−0
.4−
0.2
0.0
polinoma pakape 15
●● ●●● ●● ● ●●●● ●●● ●●● ●● ●●●● ● ●●● ● ●
●● ●●●● ● ● ● ● ●●●● ●● ● ● ●●● ●● ●● ●● ●● ● ●● ●● ● ● ●●● ●●●●● ●
●● ● ●●●● ●●● ●●●●● ●● ● ● ●● ●●●●● ●●● ●● ●●● ●
● ●●●
● ●●
●●
●●
●
●●
●●
●●
●●
●●
●●
●●
●●
●●
●●
●●●
●●●
● ●●●
●● ●●●● ● ●●● ● ●●● ●● ●● ● ●●● ●● ● ●●●
●●●●
●●● ●
●●● ●● ●● ●●● ● ●● ●● ● ●●
● ● ●● ● ●
● ●● ● ● ●
●●
●
−0.8 −0.6 −0.4 −0.2 0.0
−0
.7−
0.5
−0
.3−
0.1
y dati pret prognozi
●●
●●●
●
●
●●●●●
●●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 50 100 150 200
−0
.3−
0.2
−0
.10
.00
.10
.20
.3
atlikumi
●●
●●
●
●
●●
●●
●●
●●
●
●●
●
●
●
●●●
●●
●●
●
●
●
●●
●●●
●●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●●●
●●
●
●●
●●●
●●
●
●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
400 450 500 550 600 650 700
−0
.8−
0.6
−0
.4−
0.2
0.0
neparametriska regresija
Figure: Polinomiālā (zaļa krāsa) un neparametriskā (sarkanā) regresija,n=221, R2 = 0.9253, koeficienti ir noz̄ım̄ıgi l̄ıdz 10 kārtai
Valeinis Neparametriskās statistikas metodes p. 15 of 20
Polinomu regresija: R izdruka
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.291156 0.005381 -54.108 < 2e-16 ***poly(xx.data, 15)1 -3.706758 0.079994 -46.338 < 2e-16 ***poly(xx.data, 15)2 -1.091555 0.079994 -13.645 < 2e-16 ***poly(xx.data, 15)3 0.754951 0.079994 9.438 < 2e-16 ***poly(xx.data, 15)4 0.617134 0.079994 7.715 5.20e-13 ***poly(xx.data, 15)5 -0.254850 0.079994 -3.186 0.00167 **poly(xx.data, 15)6 -0.369616 0.079994 -4.621 6.76e-06 ***poly(xx.data, 15)7 0.135033 0.079994 1.688 0.09293 .poly(xx.data, 15)8 0.246893 0.079994 3.086 0.00231 **poly(xx.data, 15)9 -0.074803 0.079994 -0.935 0.35083poly(xx.data, 15)10 -0.238201 0.079994 -2.978 0.00325 **poly(xx.data, 15)11 -0.084672 0.079994 -1.058 0.29109---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.07999 on 205 degrees of freedomMultiple R-squared: 0.9253, Adjusted R-squared: 0.9198F-statistic: 169.2 on 15 and 205 DF, p-value: < 2.2e-16
Valeinis Neparametriskās statistikas metodes p. 16 of 20
Neparametriskā (kodolu) regresija
Doti datu pāri (X1,Y1), ..., (Xn,Yn). Regresijas vienādojums
Yi = r(Xi ) + �i , E(�i ) = 0, i = 1, ..., n,
kur r(x) = E(Y |X = x).
1. Nadaraya-Watson (1978) kodolu novērtējums
r̂(x) =∑n
i=1 K(
x−Xih
)Yi∑n
j=1 K(
x−Xjh
) ,kur K ir kodols (bl̄ıvuma funkcija) un h - joslas platums.
Valeinis Neparametriskās statistikas metodes p. 17 of 20
Neparametriskā (kodolu) regresija
2. Lokālais lineārais regresijas novērtējums: ideja minimizētn∑
i=1
(Yi − a− b(Xi − x))2K(Xi − x
h
)Rezultāts:
r̂n(x) =∑n
i=1 bi(x)Yi∑nj=1 bj(x)
,
bi(x) = K(Xi − x
h
)(Sn,2(x)− (Xi − x)Sn,1(x)),
Sn,j(x) =n∑
i=1
K(Xi − x
h
)(Xi − x)j , j = 1, 2.
Lokālais lineārais novērtējums uzlabo robežu novirzi kodolu novērtējumam(svar̄ıgi prognozēšanai)
Valeinis Neparametriskās statistikas metodes p. 18 of 20
Neparametriskā (kodolu) regresija: SP500 index
0 50 100 150 200 250
1250
1300
1350
1400
1450
x.data
y.da
ta
Figure: Neparametriskie regresijas novērtējumi (zilā sv̄ıtra - lokālais lineāraisnov.; melnā sv̄ıtra - kodolu nov.; sarkanā - sl̄ıdošais vidējais (21 dienuintervāls); melnā raust̄ıtā - sl̄ıdošais vidējais (41 dienu intervāls)).
Valeinis Neparametriskās statistikas metodes p. 19 of 20
Neparametriskā (kodolu) regresija: problemātika
Joslas platuma noteikšana atkar̄ıgiem datiem (laikrindām,ARIMA modeļiem, jauktiem procesiem). Parastās metodes(krosvalidācija utt.) ı̄sti nestrādā.Prognozes veikšana ar neparametrisko regresiju.Citi neparametriski gludinātāji: splaini, Veivletu regresija, utt.Butstrapa metodes neparametriskajā regresijā.
Maǧistra darbi: Haralds Plivčs (2009), Natālija Saveļjeva(2009)
Valeinis Neparametriskās statistikas metodes p. 20 of 20