Moˇ znosti jednorozmˇ ern´ e statistick´ e anal´ yzy kompoziˇ cn´ ıch dat K. Hron 1 , P. Filzmoser 2 , E. Fiˇ serov´ a 1 , P. de Caritat 3 , A. Gardlo 1 1 Katedra matematick´ e anal´ yzy a aplikac´ ı matematiky - Univerzita Palack´ eho 2 Institut f¨ ur Stochastik und Wirtschaftsmathematik - Technische Universit¨ at Wien, ¨ Osterreich 3 Geoscience Australia Robust 2016, 12. z´ aˇ r´ ı 2016
29
Embed
Mo znosti jednorozm ern e statistick e anal yzy kompozi cn ...antoch/robust16/prednasky/Pondeli/Dopoledne/hron.pdfMo znosti jednorozm ern e statistick e anal yzy kompozi cn ch dat
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Moznosti jednorozmerne statisticke analyzykompozicnıch dat
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3,A. Gardlo1
1Katedra matematicke analyzy a aplikacı matematiky - Univerzita Palackeho2Institut fur Stochastik und Wirtschaftsmathematik - Technische Universitat
Wien, Osterreich3Geoscience Australia
Robust 2016, 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Kompozicnı data
= D-slozkove vektory, popisujıcı kvantitativne casti nejakehocelku, nesoucı relativnı informaci o slozkach (Aitchison, 1986;Pawlowsky-Glahn a kol., 2015)
• obvykle jednotky merenı: procenta, mg/kg (konstantnısoucet slozek), mg/l (konstantnı soucet se nevyskytuje)
• prıklady: geochemicka data - proporce mineralu v hornine;koncentrace fenolickych kyselin ve vıne (mg/l); vydajedomacnostı na ruzne polozky (jıdlo, bydlenı, osacenı) apod.
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Kompozicnı data
= D-slozkove vektory, popisujıcı kvantitativne casti nejakehocelku, nesoucı relativnı informaci o slozkach (Aitchison, 1986;Pawlowsky-Glahn a kol., 2015)
• obvykle jednotky merenı: procenta, mg/kg (konstantnısoucet slozek), mg/l (konstantnı soucet se nevyskytuje)
• prıklady: geochemicka data - proporce mineralu v hornine;koncentrace fenolickych kyselin ve vıne (mg/l); vydajedomacnostı na ruzne polozky (jıdlo, bydlenı, osacenı) apod.
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Kompozicnı data
= D-slozkove vektory, popisujıcı kvantitativne casti nejakehocelku, nesoucı relativnı informaci o slozkach (Aitchison, 1986;Pawlowsky-Glahn a kol., 2015)
• obvykle jednotky merenı: procenta, mg/kg (konstantnısoucet slozek), mg/l (konstantnı soucet se nevyskytuje)
• prıklady: geochemicka data - proporce mineralu v hornine;koncentrace fenolickych kyselin ve vıne (mg/l); vydajedomacnostı na ruzne polozky (jıdlo, bydlenı, osacenı) apod.
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Kompozicnı data
= D-slozkove vektory, popisujıcı kvantitativne casti nejakehocelku, nesoucı relativnı informaci o slozkach (Aitchison, 1986;Pawlowsky-Glahn a kol., 2015)
• obvykle jednotky merenı: procenta, mg/kg (konstantnısoucet slozek), mg/l (konstantnı soucet se nevyskytuje)
• prıklady: geochemicka data - proporce mineralu v hornine;koncentrace fenolickych kyselin ve vıne (mg/l); vydajedomacnostı na ruzne polozky (jıdlo, bydlenı, osacenı) apod.
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Problem
• vychozı pozice: kompozicnı data jsou z definicemnohorozmerna, libovolna slozka kompozice nemuze bytuvazovana nezavisle na ostatnıch (veskera relevantnıinformace je obsazena v podılech mezi slozkami)
• dano: D-slozkova kompozice x = (x1, . . . , xD)′, vyjadrenav D − 1 ortonormalnıch souradnicıch vzhledem k AG
• cıl: zachytit relativnı informaci o konkretnı slozce, reknemex1, pomocı jedne ze souradnic
• otazka: ktere slozky musıme uvazovat, napr. pri tvorbegeochemicke mapy pro slozku x1?
• problem: nektere slozky mohou byt zatızeny chybou merenı,coz muze ovlivnit relativnı informaci o x1
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Problem
• vychozı pozice: kompozicnı data jsou z definicemnohorozmerna, libovolna slozka kompozice nemuze bytuvazovana nezavisle na ostatnıch (veskera relevantnıinformace je obsazena v podılech mezi slozkami)
• dano: D-slozkova kompozice x = (x1, . . . , xD)′, vyjadrenav D − 1 ortonormalnıch souradnicıch vzhledem k AG
• cıl: zachytit relativnı informaci o konkretnı slozce, reknemex1, pomocı jedne ze souradnic
• otazka: ktere slozky musıme uvazovat, napr. pri tvorbegeochemicke mapy pro slozku x1?
• problem: nektere slozky mohou byt zatızeny chybou merenı,coz muze ovlivnit relativnı informaci o x1
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Problem
• vychozı pozice: kompozicnı data jsou z definicemnohorozmerna, libovolna slozka kompozice nemuze bytuvazovana nezavisle na ostatnıch (veskera relevantnıinformace je obsazena v podılech mezi slozkami)
• dano: D-slozkova kompozice x = (x1, . . . , xD)′, vyjadrenav D − 1 ortonormalnıch souradnicıch vzhledem k AG
• cıl: zachytit relativnı informaci o konkretnı slozce, reknemex1, pomocı jedne ze souradnic
• otazka: ktere slozky musıme uvazovat, napr. pri tvorbegeochemicke mapy pro slozku x1?
• problem: nektere slozky mohou byt zatızeny chybou merenı,coz muze ovlivnit relativnı informaci o x1
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Problem
• vychozı pozice: kompozicnı data jsou z definicemnohorozmerna, libovolna slozka kompozice nemuze bytuvazovana nezavisle na ostatnıch (veskera relevantnıinformace je obsazena v podılech mezi slozkami)
• dano: D-slozkova kompozice x = (x1, . . . , xD)′, vyjadrenav D − 1 ortonormalnıch souradnicıch vzhledem k AG
• cıl: zachytit relativnı informaci o konkretnı slozce, reknemex1, pomocı jedne ze souradnic
• otazka: ktere slozky musıme uvazovat, napr. pri tvorbegeochemicke mapy pro slozku x1?
• problem: nektere slozky mohou byt zatızeny chybou merenı,coz muze ovlivnit relativnı informaci o x1
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Souradnicova reprezentace
• veskera relativnı informace o slozce x1 muze bytreprezentovana souradnicı z1, lze zkonstruovat ortonormalnısouradnice (pivotove bilance) z = (z1, . . . , zD−1)′ k z1 jako
zi =
√D − i
D − i + 1ln
xiD−i
√∏Dk=i+1 xk
, i = 1, . . . ,D − 1
(Fiserova a Hron, 2011)
• slozka x1 je obsazena pouze v z1, ktera muze byt taktezvyjadrena jako normovany soucet ln(x1/x2) + · · ·+ ln(x1/xD)
• nasledne lze urcit normujıcı konstanty (pro obdrzenıortonormalnıch souradnic)
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Vazene pivotove bilance: prıpad D = 3
• prıpad D = 3:
w1 =1√
2(1− α2α3)ln
x1
xα22 xα3
3
w2 =1√
6(1− α2α3)ln xα3−α2
1 x−(1+α3)2 x1+α2
3
• poznamenejme, ze v zavislosti na α2 a α3 souradnice w2
taktez obsahuje relativnı informaci o x1; specialnı prıpad:α2 = α3 = 1
2 :
w1 = z1 =
√2
3ln
x1√x2x3
and w2 = z2 =1√2
lnx2
x3
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Volba vah
• variacnı(!) matice je zakladnı charakteristikou kompozicnıvariability pro x = (x1, . . . , xD)′:
T =
{var
(ln
xixj
)}D
i ,j=1
• predpokladejme, ze slozka, ktera nas zajıma, je x1, tedyuvazujeme prvnı radek (sloupec) matice T:
t1 = (t11, . . . , t1D) =
(var
(ln
x1
x1
), var
(ln
x1
x2
), . . . , var
(ln
x1
xD
))
• definujeme vahy: αi =1
t21i
, pro i = 2, . . . ,D, ktere prirazujı
prevracene ctvercove hodnoty rozptylu parovych log-podılus x1 (dale normovane pro zıskanı α2, . . . , αD)
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Koncentrace prvku v sedimentech (NationalGeochemical Survey of Australia)
• projekt National Geochemical Survey of Australia (NGSA)shromazdil 1315 vzorku pokryvajıcıch pres 80 % Australie(Caritat a Cooper, 2011)
• vysledek rozsahleho geochemickeho vyzkumu pokryvajıcıhopres 6 million km2, provedeneho Geoscience Australia ageologickymi sluzbami jednotlivych statu Australie
• pro analyzu bylo vybrano 49 promennych (koncentracıchemickych prvku)
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
NGSA data: vysledky
• simulacnı studie (se vsemi slozkami): ukazalo se, ze vazenebilance jsou efektivnım prostredkem k zachycenıjednorozmerne (relativnı) informace v geochemickych mapachdıky potlacenı
”redundantnıch“ log-podılu skrze vhodnou
volbu vah
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
NSGA data: simulace
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
0 1 2 3 4 5
12
34
56
ln(var(z1) var(w1))
ln(v
ar(w
D−1
)va
r(w1))
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
NGSA data: vysledky
• simulacnı studie (se vsemi slozkami): ukazalo se, ze vazenebilance jsou efektivnım prostredkem k zachycenıjednorozmerne (relativnı) informace v geochemickych mapachdıky potlacenı
”redundantnıch“ log-podılu skrze vhodnou
volbu vah
• eliminace tzv. pobreznıho efektu (v oblastech jeho vyskytu),zejmena pro stopove prvky
→ demonstrovano pro prıpad cesia (Cs)
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
• zıskane ortonormalnı souradnice mohou byt nasledne vyuzitypro statistickou analyzu (korelacnı analyza v souradnicıch,regresnı analyza)
• w1 a wD−1 jsou konstruovany tak, ze obsahujı veskerourelativnı informaci o vybrane slozce; w1 obsahuje
”relevantnı“
informaci, wD−1 obsahuje zbyvajıcı informaci
• vahy mohou byt urceny pomocı variacnı matice, nebo nazaklade expertnı znalosti (napr. kvality merenı)
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016
Kompozicnı data a jejich geometrie Ortonormalnı souradnice Vazene pivotove bilance Volba vah Aplikace na realna data
Literatura
Aitchison, J. : The statistical analysis of compositional data. Chapman and Hall,London, 1986.
Caritat, P. de, Cooper, M.: National Geochemical Survey of Australia: TheGeochemical Atlas of Australia. Geoscience Australia Record, 2011/20 (2Volumes)
Eaton, M.L.: Multivariate statistics: A vector space approach. Wiley, New York,1983.
Egozcue, J.J., Pawlowsky-Glahn, V.: Groups of parts and their balances incompositional data analysis. Mathematical Geology 37, 795-828, 2005.
Filzmoser, P., Hron, K.: Robust coordinates for compositional data usingweighted balances. In Nordhausen, K., Taskinen, S., editors, Modernnonparametric, robust and multivariate methods. Springer, Heidelberg, 2015.
Fiserova, E., Hron, K.: On interpretation of orthonormal coordinates forcompositional data. Mathematical Geosciences 43, 455-468, 2011.
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R.: Modeling andanalysis of compositional data. Wiley, Chichester, 2015.
Prezentace je k dispozici na http://compositions.sweb.cz/.
K. Hron1, P. Filzmoser2, E. Fiserova1, P. de Caritat3, A. Gardlo1 12. zarı 2016