Top Banner
Neparametrisk¯ as statistikas metodes ar pielietojumu laikrindu prognoz¯ ešanai J. Valeinis 1 1 Latvijas Universit¯ ate, R¯ ıga 21.maijs, 2010 Valeinis Neparametrisk¯ as statistikas metodes p. 1 of 20
20

Neparametriskās statistikas metodes ar pielietojumu laikrindu …home.lu.lv/~valeinis/lv/prezentacijas/prez3.pdf · 2010. 5. 28. · 1/5 ∼n−1/5. Probl¯ema: h opt saturnezin¯amof00.

Feb 14, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Neparametriskās statistikas metodes arpielietojumu laikrindu prognozēšanai

    J. Valeinis1

    1Latvijas Universitāte, R̄ıga

    21.maijs, 2010

    Valeinis Neparametriskās statistikas metodes p. 1 of 20

  • Neparametriskās un parametriskās metodes

    Neparametriskās statistikas metodes:Bl̄ıvuma funkcijas novērtēšana ar kodolu metodēm;Regresijas funkcijas novērtējums ar kodolu metodēm un lokālāregresija;Butstrapa datu pārkārtošanas metodes;Emp̄ıriskā ticam̄ıbas funkcija u.t.t.

    Parametriskās metodes (pieņēmumi par populācijas sadal̄ıjumu):Vislielākās (maksimālās) ticam̄ıbas funkcijas metode;Parametriskā regresija;t-tests u.t.t.

    Valeinis Neparametriskās statistikas metodes p. 2 of 20

  • Histogramma

    Doti X1,X2, . . . ,Xn iid, kur Xi ∼ f . Histogramma punktā x :

    f̂n(x) =1

    2hn#{Xi ∈ [x − h, x + h]} =1nh

    n∑i=1

    K(x − Xi

    h

    ),

    kur K (u) = 0.51{|u|≤1} ir vienmēr̄ıgā sadal̄ıjuma bl̄ıvuma funkcija(kodols) intervālā [−1, 1].

    Histogramma ir neparametrisks bl̄ıvuma funkcijas novērtējums!Ideja: iegūt gludus (labākus) novērtējumus izvēloties citus(gludus) kodolus!

    Valeinis Neparametriskās statistikas metodes p. 3 of 20

  • Neparametriskā bl̄ıvuma funkcijas novērtēšana

    Kodolu neparametriskais bl̄ıvuma funkcijas novērtējums:

    f̂n(x) =1nh

    n∑i=1

    K(x − Xi

    h

    ),

    kur K -kodols, h-joslas platums.

    kodola izvēle K parasti nav būtiska, parasti izvēlas N(0, 1)bl̄ıvuma funkciju (Gausa kodols);problēma: h izvēle!

    Valeinis Neparametriskās statistikas metodes p. 4 of 20

  • Simulēti dati: h izvēle

    N(0,1), n=100, h=0.01

    simuletie dati

    blivu

    ma

    funk

    cija

    −2 −1 0 1 2 3

    0.0

    0.4

    0.8

    N(0,1), n=100, h=0.1

    simuletie dati

    blivu

    ma

    funk

    cija

    −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    N(0,1), n=100, h=0.4

    simuletie dati

    blivu

    ma

    funk

    cija

    −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    N(0,1), n=100, h=1.5

    simuletie dati

    blivu

    ma

    funk

    cija

    −2 −1 0 1 2 30.

    00.

    20.

    4

    Figure: Kodolu gludināšana ar dažādiem h, kodols - Gausa

    Valeinis Neparametriskās statistikas metodes p. 5 of 20

  • Simulēti dati: kodolu izvēle

    N(0,1),n=20

    −2.5 −1.5 −0.5 0.5

    0.0

    0.2

    0.4

    0.6

    0.8

    N(0,1),n=50

    −2 −1 0 1 2

    0.00

    0.10

    0.20

    0.30

    N(0,1),n=100

    −3 −2 −1 0 1 2 3 4

    0.0

    0.1

    0.2

    0.3

    N(0,1),n=500

    −3 −2 −1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    Figure: Kodolu gludināšana ar dažādiem kodoliem: "gaussian","biweight","epanechnikov","rectangular","triangular","cosine", h-krosvalidācijas metode

    Valeinis Neparametriskās statistikas metodes p. 6 of 20

  • Simulēti dati: histogramma & kodolu novērtējums

    Histogramma, sad=10

    −3 −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    Histogramma, sad=50

    −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    Ista funkcija

    −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    Kodolu nov.

    Figure: n=1000, p-vērt̄ıba KS-testam, Shapiro testam ir < 0.05

    Valeinis Neparametriskās statistikas metodes p. 7 of 20

  • Joslas platuma izvēle

    Vidējā kvadrātiskā kļūda (MSE) novērtējumam f̂n(x):

    MSE (f̂n(x)) = E ((f̂n(x)− f (x))2) =

    =h44 f′′(x)2µ2(K )2 +

    1nh ||K ||

    22f (x) + o(h4) + o

    ( 1nh

    ),

    kur µ2(K ) =∫

    s2K (s)ds un ||K ||22 =∫

    K 2(s)ds.

    Ideja: mizinimizēt integrētā vidējo kvadrātisko kļūdu:∫MSE (fn(x))dx .

    Valeinis Neparametriskās statistikas metodes p. 8 of 20

  • Joslas platuma izvēle

    Optimālais h:

    hopt =(

    ||K ||22||f ′′||22{µ2(K )}2n

    )1/5∼ n−1/5.

    Problēma: hopt satur nezināmo f ′′."Rule of thumb": ja dati normāli sadal̄ıti, tad ‖f ′′‖22 =σ−5

    ∫ {ϕ′′(x)

    }2 dx = σ−5 38√π ≈ 0.212 σ−5. Tadhopt ≈ 1.06σ̂n−1/5.

    Valeinis Neparametriskās statistikas metodes p. 9 of 20

  • Joslas platuma izvēle: krosvalidācijas metode

    Integrētā kvadrātiskā kļūda ISE (h) = ISE (f̂n):

    ISE (f̂n) =∫

    (f̂n(x)− f (x))2dx =

    = ISE (h) =∫

    f̂ 2n (x) dx − 2∫{f̂nf }(x) dx +

    ∫f 2(x) dx .

    Ievērosim, ka∫{f̂nf }(x) dx = E (f̂n(X )).

    Krosvalidācijas ideja: ̂E{f̂h(X )} =1n

    n∑i=1

    f̂h,−i (Xi ), kur

    f̂h,−i (x) =1

    (n − 1)h

    n∑j=1,i 6=j

    K(x − Xj

    h

    ).

    Valeinis Neparametriskās statistikas metodes p. 10 of 20

  • Lineārā (parametriskā) regresija

    Doti datu pāri (X1,Y1), ..., (Xn,Yn). Regresijas vienādojums

    Yi = a + bXi + �i , E(�i ) = 0, i = 1, ..., n,

    Pieņēmumi: 1) �i ir neatkar̄ıgi, vienādi sadal̄ıti 2) �i ∼ N(0, σ2)(homoskedastisks modelis)

    Polinomiālā regresija (ar pakāpi n):

    Yi = a0 + a1Xi + a2X 2i + . . .+ anXni + �i .

    Valeinis Neparametriskās statistikas metodes p. 11 of 20

  • Lineārā (parametriskā) regresija: parametru novērtēšana

    Parametrus a un b novērtē pēc mazāko kvadrātu metodesn∑

    i=1�2i =

    n∑i=1

    (Yi − (a + bXi ))2 → min!

    Iegūstb̂ =

    ∑ni=1(xi − x̄)(yi − ȳ)∑n

    i=1(xi − x̄)2, â = ȳ − β̂ x̄ .

    Valeinis Neparametriskās statistikas metodes p. 12 of 20

  • Lineārā (parametriskā) regresija: korelācijas koeficients

    Korelācijas koeficients

    ρXY =cov(X ,Y )√D(X )

    √D(Y )

    =E (XY )− E (X )E (Y )√

    D(X )√

    D(Y ).

    Īpaš̄ıbas1 −1 ≤ ρXY ≤ 1;2 Ja Y = a + bX , tad ρXY = 1 vai ρXY = −1;3 Ja X un Y neatkar̄ıgi, tad ρXY = 0;4 R2 = ρ2XY raksturo, cik liela proporcija no Y datiem tiek

    izskaidrota ar X datiem.

    Valeinis Neparametriskās statistikas metodes p. 13 of 20

  • LIDAR dati: lineārā regresijaY - logaritms no divu lāzeru mērijumu attiec̄ıbas; X - attālums.

    ●●●●●

    ●●●●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●●

    ●●●

    ●●●●●●

    ●●●●

    ●●●

    ●●

    ●●

    ●●●●

    ●●

    ●●●●●

    ●●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    400 500 600 700

    −0.8

    −0.4

    0.0

    dati

    ●●●●●

    ●●●●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●●

    ●●●

    ●●●●●●

    ●●●●

    ●●●

    ●●

    ●●

    ●●●●

    ●●

    ●●●●●

    ●●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    400 500 600 700

    −0.8

    −0.4

    0.0

    dati un lin.reg

    ●●●●● ●● ●●●●● ●●● ●●● ●● ●●●●● ●●● ● ●●● ●●●●●●● ● ●●●●●● ● ● ●●●●● ●● ●●●●● ●● ●● ● ● ● ●● ●●●●● ● ●● ●●●●● ●●● ●●●●● ●● ●● ●● ●●●●● ●●● ●● ●●● ●● ● ●●● ●● ●●●● ●●● ●●●● ●●●●●●● ● ● ●● ● ●●● ●●●●● ● ● ●●●● ●●●● ● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●● ●●●● ●●● ●●●● ●● ●● ●●● ● ●● ●● ● ●● ● ● ●● ● ●● ●● ● ● ●● ●●

    −0.8 −0.6 −0.4 −0.2 0.0

    −0.6

    −0.4

    −0.2

    0.0

    y dati pret prognozi

    ●●

    ●●●

    ●●●●●

    ●●

    ●●

    ●●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●●●●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    0 50 100 150 200

    −0.4

    −0.2

    0.0

    0.2

    atlikumi

    Figure: Lineārā regresija, n=221, R2 = 0.7827, normalitāti nevar noraid̄ıt,koeficienti ir noz̄ım̄ıgi (tas ir var noraid̄ıt H0 : a = 0 un H0 : b = 0)

    Valeinis Neparametriskās statistikas metodes p. 14 of 20

  • LIDAR dati: lineārā regresijaY - logaritms no divu lāzeru mērijumu attiec̄ıbas; X - attālums.

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    400 450 500 550 600 650 700

    −0

    .8−

    0.6

    −0

    .4−

    0.2

    0.0

    polinoma pakape 15

    ●● ●●● ●● ● ●●●● ●●● ●●● ●● ●●●● ● ●●● ● ●

    ●● ●●●● ● ● ● ● ●●●● ●● ● ● ●●● ●● ●● ●● ●● ● ●● ●● ● ● ●●● ●●●●● ●

    ●● ● ●●●● ●●● ●●●●● ●● ● ● ●● ●●●●● ●●● ●● ●●● ●

    ● ●●●

    ● ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ● ●●●

    ●● ●●●● ● ●●● ● ●●● ●● ●● ● ●●● ●● ● ●●●

    ●●●●

    ●●● ●

    ●●● ●● ●● ●●● ● ●● ●● ● ●●

    ● ● ●● ● ●

    ● ●● ● ● ●

    ●●

    −0.8 −0.6 −0.4 −0.2 0.0

    −0

    .7−

    0.5

    −0

    .3−

    0.1

    y dati pret prognozi

    ●●

    ●●●

    ●●●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    0 50 100 150 200

    −0

    .3−

    0.2

    −0

    .10

    .00

    .10

    .20

    .3

    atlikumi

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    400 450 500 550 600 650 700

    −0

    .8−

    0.6

    −0

    .4−

    0.2

    0.0

    neparametriska regresija

    Figure: Polinomiālā (zaļa krāsa) un neparametriskā (sarkanā) regresija,n=221, R2 = 0.9253, koeficienti ir noz̄ım̄ıgi l̄ıdz 10 kārtai

    Valeinis Neparametriskās statistikas metodes p. 15 of 20

  • Polinomu regresija: R izdruka

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) -0.291156 0.005381 -54.108 < 2e-16 ***poly(xx.data, 15)1 -3.706758 0.079994 -46.338 < 2e-16 ***poly(xx.data, 15)2 -1.091555 0.079994 -13.645 < 2e-16 ***poly(xx.data, 15)3 0.754951 0.079994 9.438 < 2e-16 ***poly(xx.data, 15)4 0.617134 0.079994 7.715 5.20e-13 ***poly(xx.data, 15)5 -0.254850 0.079994 -3.186 0.00167 **poly(xx.data, 15)6 -0.369616 0.079994 -4.621 6.76e-06 ***poly(xx.data, 15)7 0.135033 0.079994 1.688 0.09293 .poly(xx.data, 15)8 0.246893 0.079994 3.086 0.00231 **poly(xx.data, 15)9 -0.074803 0.079994 -0.935 0.35083poly(xx.data, 15)10 -0.238201 0.079994 -2.978 0.00325 **poly(xx.data, 15)11 -0.084672 0.079994 -1.058 0.29109---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 0.07999 on 205 degrees of freedomMultiple R-squared: 0.9253, Adjusted R-squared: 0.9198F-statistic: 169.2 on 15 and 205 DF, p-value: < 2.2e-16

    Valeinis Neparametriskās statistikas metodes p. 16 of 20

  • Neparametriskā (kodolu) regresija

    Doti datu pāri (X1,Y1), ..., (Xn,Yn). Regresijas vienādojums

    Yi = r(Xi ) + �i , E(�i ) = 0, i = 1, ..., n,

    kur r(x) = E(Y |X = x).

    1. Nadaraya-Watson (1978) kodolu novērtējums

    r̂(x) =∑n

    i=1 K(

    x−Xih

    )Yi∑n

    j=1 K(

    x−Xjh

    ) ,kur K ir kodols (bl̄ıvuma funkcija) un h - joslas platums.

    Valeinis Neparametriskās statistikas metodes p. 17 of 20

  • Neparametriskā (kodolu) regresija

    2. Lokālais lineārais regresijas novērtējums: ideja minimizētn∑

    i=1

    (Yi − a− b(Xi − x))2K(Xi − x

    h

    )Rezultāts:

    r̂n(x) =∑n

    i=1 bi(x)Yi∑nj=1 bj(x)

    ,

    bi(x) = K(Xi − x

    h

    )(Sn,2(x)− (Xi − x)Sn,1(x)),

    Sn,j(x) =n∑

    i=1

    K(Xi − x

    h

    )(Xi − x)j , j = 1, 2.

    Lokālais lineārais novērtējums uzlabo robežu novirzi kodolu novērtējumam(svar̄ıgi prognozēšanai)

    Valeinis Neparametriskās statistikas metodes p. 18 of 20

  • Neparametriskā (kodolu) regresija: SP500 index

    0 50 100 150 200 250

    1250

    1300

    1350

    1400

    1450

    x.data

    y.da

    ta

    Figure: Neparametriskie regresijas novērtējumi (zilā sv̄ıtra - lokālais lineāraisnov.; melnā sv̄ıtra - kodolu nov.; sarkanā - sl̄ıdošais vidējais (21 dienuintervāls); melnā raust̄ıtā - sl̄ıdošais vidējais (41 dienu intervāls)).

    Valeinis Neparametriskās statistikas metodes p. 19 of 20

  • Neparametriskā (kodolu) regresija: problemātika

    Joslas platuma noteikšana atkar̄ıgiem datiem (laikrindām,ARIMA modeļiem, jauktiem procesiem). Parastās metodes(krosvalidācija utt.) ı̄sti nestrādā.Prognozes veikšana ar neparametrisko regresiju.Citi neparametriski gludinātāji: splaini, Veivletu regresija, utt.Butstrapa metodes neparametriskajā regresijā.

    Maǧistra darbi: Haralds Plivčs (2009), Natālija Saveļjeva(2009)

    Valeinis Neparametriskās statistikas metodes p. 20 of 20