STATISTIČKA OBRADA I INTERPRETACIJA MIKROKLIMATSKIH PODATAKA U GEOEKOLOŠKIM ISTRAŽIVANJIMA izv. prof. dr. sc. Nenad Buzjak Primijenjena geoekologija
STATISTIČKA OBRADA I INTERPRETACIJA MIKROKLIMATSKIH PODATAKA U GEOEKOLOŠKIM ISTRAŽIVANJIMA
izv. prof. dr. sc. Nenad Buzjak Primijenjena geoekologija
Hoboware – korisnički zaslon s podacima
Tablični prikaz
Alatna traka
Prozor sa sažetkom podataka o mjerenjima
Prozor dijagrama
Formatiranje izvoza podataka: • oblik podatka (tekstualna ili datoteka programa Excel) • odvojiti datum i vrijeme • vrste podataka u zaglavlju (header) • format datuma • separator datuma (/ ili :) • format vremena (12 ili 24) • oblik decimalnog broja • predznak broja (-)
Tekstne datoteke
Dva su najčešća oblika tekstnih datoteka: • razgraničene tekstne datoteke / Delimited text files (.txt), u kojima znak TAB razdvaja polja
teksta, • tekstne datoteke s vrijednostima odvojenim zarezom / Comma separated text values (.csv), u
kojima znak zareza (,) obično razdvaja polja teksta; osima zareza moguć i ";"
Primjer razgraničene tekstne datoteke Primjer tekstne datoteke razdvojene znakom ";"
Problem korištenja zareza kao separatora:
Rješenja: • staviti ";" kao separator • dao decimalni separator staviti
točku – standard izvan hrvatskog jezika (npr. za objavu članka na stranom jeziku
Pogrešan prikaz rezultata mjerenja
UVOZ TEKSTUALNE DATOTEKE POVEZIVANJEM S DATOTEKOM
Korak 1 – razgraničenje teksta
Korak 2 – odabir razdjelnika teksta
u prozoru Pretpregled podataka provjeriti da li su stupci pravilno razdvojeni
Korak 3 – postavljanje oblika podataka u stupcima
Smještanje podataka na radni list Uređivanje naslova stupaca: • Datum • Vrijeme • temperatura zraka T (°C) – oznaka stupnja tipka Alt Gr (desni Alt) + 5, pojavi se nakon razmaknice
ili novog znaka • relativna vlažnost zraka u (%) • rosište τ (°C) Poravnanje širine stupca – dvoklik na granicu stupaca Oblikovanje stupaca – Oblik broja > Broj > prikaz dviju decimala
Kada formatiramo podatke List 1 preimenujemo u Izvorni podaci – njih ne diramo Kopiramo podatke na List 2 – odaberemo ćeliju u tablici pa Ctrl + A za odabir svih punih ćelija > Kopiraj > Zalijepi Na taj način uvijek imamo „sirove podatke” iz kojih radimo radne kopije na radne listove
Izrada i oblikovanje jednostavnog dijagrama s vrijednostima T i u
1. Odabir podataka – označe se kompletni stupci
2. Umetanje dijagrama
Oblikovati: • os x • dodati sekundarnu os y • oblikovati osi y
Oblikovanje osi x tako da prikazuje datume Desni klik na vrijednost na osi x – Odabir podataka
Excel zadano koristi oznake redova
Uredi…
Vrijednosti odabrati mišem ili upisati (brže)
Zadatak: primarna os y = T sekundarna os y = u
1. odabrati liniju u
2. odabrati karticu Oblikovanje
Odabrati os
Postaviti crnu crtu za primarnu i sekundarnu os y, os x
Mijenjanjem raspona vrijednosti utječete na prikaz podataka T
Izračun i prikaz srednjih dnevnih vrijednosti
Odabrati cijelu tablicu – kliknuti na jednu ćeliju tablice i pritisnuti Ctrl + A = odabrana su samo ćelije s vrijednostima Kartica Podaci > Podzbroj
Želimo da prije svake promjene Datuma Excel ubaci novo polje s prosječnom vrijednošću za prethodni datum
Aritmetička sredina svih vrijednosti za 4. 4. 2014.
Kliknuti na polje 2
Odabir samo prikazanih ("prosječnih) bez skrivenih vrijednosti svih ćelija
Način 1: tipka Pronađi i odaberi
Način 2: tipka F5
1.
2.
Kopiraj Zalijepiti na novi list i preimenovati ga u Prosjeci
Suvišan stupac: Vrijeme Zasada ostaviti
Kako iz stupca A obrisati riječ Prosjek?
Odabrati ćeliju A2 Kombinacijom tipki End + Shift + strelica dolje odabrati samo popunjene ćelije u stupcu A Kartica Podaci > Tekst u stupce
0,00
20,00
40,00
60,00
80,00
100,00
120,00
10,40
10,60
10,80
11,00
11,20
11,40
11,60
11,80
03
.04
.20
14
.
15
.04
.20
14
.
27
.04
.20
14
.
09
.05
.20
14
.
21
.05
.20
14
.
02
.06
.20
14
.
14
.06
.20
14
.
26
.06
.20
14
.
08
.07
.20
14
.
20
.07
.20
14
.
01
.08
.20
14
.
13
.08
.20
14
.
25
.08
.20
14
.
06
.09
.20
14
.
18
.09
.20
14
.
30
.09
.20
14
.
12
.10
.20
14
.
24
.10
.20
14
.
05
.11
.20
14
.
17
.11
.20
14
.
29
.11
.20
14
.
11
.12
.20
14
.
23
.12
.20
14
.
04
.01
.20
15
.
16
.01
.20
15
.
28
.01
.20
15
.
09
.02
.20
15
.
21
.02
.20
15
.
05
.03
.20
15
.
17
.03
.20
15
.
29
.03
.20
15
.
10
.04
.20
15
.
22
.04
.20
15
.
04
.05
.20
15
.
16
.05
.20
15
.
28
.05
.20
15
.
09
.06
.20
15
.
21
.06
.20
15
.
03
.07
.20
15
.
15
.07
.20
15
.
27
.07
.20
15
.
08
.08
.20
15
.
20
.08
.20
15
.
01
.09
.20
15
.
13
.09
.20
15
.
25
.09
.20
15
.
07
.10
.20
15
.
19
.10
.20
15
.
31
.10
.20
15
.
T (°C)
u (%)
OSNOVNE STATISTIČKE METODE
Srednje vrijednosti • utvrđuju se da bi se jednim brojem predočio niz varijabilnih podataka • problematična je kada u nizovima postoje ekstremno velike ili male vrijednosti s malo slučajeva
Aritmetička sredina • izražena u mjernim jedinicama varijabli za koje se računa • korisna u usporedbi prostornih podataka • unos upisom ili preko funkcijskog gumba fx - provjeriti raspon ćelija
• kopiranje funkcije na susjedne ćelije
Mod (Mo) • vrijednost (varijabla) koja se najčešće javlja • fx =Mode • provjeriti raspon ćelija!
Medijan (Me) • definirana je kao položajna srednja vrijednost jer uređeni niz podataka dijeli na dva jednaka brojna
dijela • prvih 50% članova niza ima vrijednost varijable ≤ Me, a drugih 50% ≥ Me
• vrlo prikladan u slučaju nizova s malim rasponom podataka jer na njega ne utječu najmanje i najveće vrijednosti obilježja
• fx =Median • provjeriti raspon ćelija!
MJERE RASPRŠENOSTI • mjere srednje vrijednosti nisu dovoljni pokazatelji za prikaz rasporeda podataka u nizu • statistički nizovi mogu imati iste aritmetičke sredine, ali bitan je i stupanj različitosti podataka i
njihove okupljenosti • mjerama raspršenosti mjeri se stupanj varijabilnosti istovrsnih podataka
Maksimalna vrijednost, minimalna vrijednost, raspon varijacije (amplituda, rang) fx =Max fx =Min raspon varijacije ΔX ili Rx=Max-Min - računanje u ćeliji odabirom potrebnih ćelija • izražava se u mjernim jedinicama varijable
Nedostatak: koristi samo dvije krajnje vrijednosti, a ne govori ništa o ostalom dijelu skupa. No važna mjera u klimatologiji (maritimnost/kontinentalnost…)
Interkvartil • raspon varijacije ovisi o najmanjoj i najvećoj vrijednosti niza koje često nisu tipične • rješenje – računanje raspona tako da se izostavi prva i četvrta četvrtina članova uređenog niza (po
veličini) - interkvartil
Računanje počinje određivanjem donjeg (Q1) i gornjeg (Q3) kvartila • iz izvorne tablice iskopiramo sve podatke na novi radni list i nazovemo ga Interkvartil • obrišemo nepotrebne stupce: Datum, Vrijeme • tablica se očisti od tekstualnog zaglavlja (T, u, τ)
U tablicu dodamo jedan prazan stupac na početku (stupac A) Q1 =N*0,25 =13977*0,25 =3486 Položaj prvog kvartila je 3486 mjestu, odnosno u 3486 retku u tablici = 10,93 Q3 =N*0,75 =13977*0,75 =10482,75 – zaokružujemo na 10483 Položaj trećeg kvartila je u 10483 retku = 11,25
Interkvartil (IQ) je apsolutna razlika (disperzija) između gornjeg i donjeg kvartila: IQ=Q3-Q1
U tablicu u stupac A upišemo oznaku, a u stupcu B računamo. IQ =11,25-10,93 IQ 0,32 Interkvartil pokazuje da je vrijednost T središnjih 50% mjerenja između 10,93 i 11,25°C, odnosno u rasponu 0,32°C. Na taj način eliminiramo vrijednosti koje ne definiraju dobro skup jer mogu biti ekstremne – kod logera na početku vrijednosti mogu biti problematične jer se radi o prilagođavanju na radnu okolinu.
Koeficijent kvartilne devijacije (VQ) je relativna mjera disperzije:
VQ=𝑄3−𝑄1
𝑄3+𝑄1
=0,32
22,18= 0,014247069 ∗ 100 = 1,4%
Raspršenost vrijednosti središnje polovice niza je jako mala jer iznosi svega 1,4%. To je značajka tipične spiljske klime daleko od ulaza, odnosno vanjskih utjecaja gdje su Tzraka i T stijene u ravnoteži.
VQ Varijabilnost
0-0,1 vrlo slaba
0,1-0,2 relativno slaba
0,2-0,3 umjerena
0,3-0,5 relativno jaka
0,5-1 vrlo jaka
Standardna devijacija ('σ', 's' ili 'SD') • prosječno odstupanje vrijednosti numeričke varijable od njene aritmetičke sredine • izražena u istim mjernim jedinicama kao varijabla
ugrađena u Excel fx =STDEV ili STDEV.S
V Varijabilnost
0-10 vrlo slaba
10-30 relativno slaba
30-50 umjerena
50-70 relativno jaka
>70 vrlo jaka
Koeficijent varijacije • isto što i standardna devijacija, ali izražena u postotku fx =STDEV/AVERAGE*100
V= 100*
X
σ2 =Σ 𝑋 − 𝑋 2
𝑁 − 1 σ = √
Σ 𝑋 − 𝑋 2
𝑁 − 1
varijanca standardna devijacija
Analiza odnosa pojava – korelacija i linearna regresija • polazište: ispitivanje međuovisnosti ili nepovezanosti pojava • ona može biti funkcionalna i statistička • kod funkcionalne povezanosti svakoj vrijedbnosti jedne varijable odgovara točno određena
vrijednost druge varijable • među prirodnim pojavama povezanost nije tako čvrsta niti stalna– govorimo o statističkoj
povezanosti
Pearsonov koeficijent linearne korelacije kartica Podaci > Analiza podataka (Dana Analysis)
Regresijska analiza
Vrijednost upućuje na snagu povezanosti pojava Pozitivan koeficijent upućuje na proporcionalnu vezu, a negativan na obrnuto proporcionalnu vezu (kad jedna pojava raste druga pojava se smanjuje).
Primjer analize povezanosti relativne vlažnosti zraka i temperature rosišta na malom broju uzoraka (rezultata mjerenja)
Literatura: Papić, M. 2008: Primijenjena statistika u MS Excelu. Naklada Zoro, Zagre-Sarajevo Petz, B. 1997: Osnovne statističke metode za nematematičare. Naklada Slap, Zagreb Šošić, I. 2006: Staistika. Školska knjiga, Zagreb