Descriptive methods
for spatial statistics
Kirsi Virrantaus
GIS-E1060 Spatial Analytics
Department of Built Environment
Aalto University
27.10.2020
Kuvailevat tilastolliset
menetelmät
spatiaalianalyysissä
Kirsi Virrantaus
GIS-E1060 Spatial Analytics
Rakennetun ympäristÜn laitos
Aalto-yliopisto
27.10.2020
1. Descriptive spatial statistics
⢠Use of quantitative measures, simple summaries
⢠Apply them to sample data sets
⢠Utilization of visual methods
⢠Used also in so-called explorative analysis
⢠Difference to statistical inference â no hypothesis testing
⢠Examples of simple spatial measures:
1. Kuvaileva spatiotilastotiede
⢠Kvantitatiivisten tunnuslukujen käyttÜ
⢠Otosaineiston kuvaamiseen
⢠Visuaalisten menetelmien käyttÜ
⢠Käytetään ns. eksploratiivisessa/tutkivassa analyysissä
⢠Ero tilastolliseen päättelyyn, ei hypoteesin testausta
⢠Esimerkkejä spatiaalisista tunnusluvuista:
Simple indices of descriptive spatial
statistics
â frequency⢠amount of the objects in the study area
â intensity⢠amount of objects per unit area
â mean center ⢠is the point whose coordinates are the mean of the
corresponding coordinates of all the events of the pattern; average x, average y;
â median center⢠is the location to which the sum of traveled distances from
points is shortest; shortest total distance to all other features in the study area
â distance⢠in larger scales, assumption that the world is flat: most often
Euclidian distance
â standard distance⢠shows how dispersed the points are around the mean center
Yksinkertaisia kuvailevan
spatiotilastotieteen tunnuslukuja
â frekvenssi (tilastotieteessä) (esiintymistiheys)
⢠(samanarvoisten) pisteiden määrä tutkimusalueella
â tiheys
⢠kohteiden lukumäärä alueyksikÜssä
â keskiarvopiste
⢠piste, jonka koordinaatit ovat pistejoukon vastaavien koordinaattien keskiarvot
â mediaanipiste
⢠piste, josta etäisyyksien summa toisiin pisteisiin tutkimusalueella on pienin
â etäisyys
⢠tavallisesti Euklidinen etäisyys (muitakin on)
â keskietäisyys
⢠kuvaa pisteiden hajontaa keskiarvopisteen ympärillä
2. Some descriptive spatio-statistical
methods
⢠Descriptive methods
â Kernel density estimation
⢠Density/intensity based
â G-, F-, K-function
⢠Use distances between points/objects
â can used for point sets, also for areas and lines
2. Spatiotilastollisia kuvailevia menetelmiä
⢠Kuvailevia menetelmiäâ Kernel tiheysestimointi
⢠Perustuu pistetiheyteen
â G-, F- ja K-funktiot
â Perustuu pisteiden/kohteiden välisiin etäisyyksiin
â Voidaan käyttää pistejoukoille, alueille ja viivoille
Density estimation
Naive Kernel method
⢠basic idea is that the point pattern has intensity in each location, not only in the event point
⢠by the ânaive methodâ
â in each location of the study region the intensity is calculated inside for example a circle
â the amount of points inside kernel gives the value at each point directly
â compare Focal mean (in Map Algebra) (comes later)
â compare the floating average quadrat method (comes later)
Tiheyden estimointi
yksinkertainen Kernel menetelmä
⢠perusajatus on että pistekuviolla on tiheys jokaisessasijainnissa tutkimusalueella, ei ainoastaantapahtumapisteissä
⢠yksinkertaisin menetelmä
â jokaisessa tason sijainnisssa (esim. gridinpisteessä) lasketaan ympyrän sisälle jäävienpisteiden määrästä tiheyttä kuvaava arvo, pikselille tulee suoraan tämä tiheysarvo
â vrt FocalMean (Kartta-algebrassa)
â vrt. liukuvan keskiarvon tutkimusalamenetelmä
Variations of Kernel estimation
⢠a mathematical function can be used for weightingaccording to the inverse distance
â a suitable bivariate function is selected (kernel), for weighting every known value location, max weight in thecenter, on the edge 0;
â every cell is then visited and the weighted values aresummed up to the location
â bandwidth defines the region for the function; suitablewidth is important, if b is too big the result is flat, it is istoo small too many details
â âdarkâ areas when points are clustering
Kernel-tiheysestimointi
⢠käytetään matemaattista funktiota painotukseen
â valitaan k, 2-ulotteinen tiheysfunktio (kernel, ydin),
jonka avulla pisteet painotetaan, keskipisteessä
paino max, reunalla 0;
â kuljetaan jokaisen pisteen kautta ja summataan
pisteen arvoksi
â bandwidth (ytimen leveys) määrittää alueen, jolle
funktio ulottuu; haettava sopiva leveys, kun b kasvaa
tulos on âlitteäâ, kun b on pieni paljon detaljeja
â syntyy âtummiaâ alueita kun pisteet klusteroituu
Kernel-menetelmän käyttÜ (Krisp, 2006)
⢠Kernel menetelmä
⢠yksittäisistä
havainnoista
⢠tiheyspinnaksi
yksittäiset havainnot tiheyspinta
Valittava oikea pikselikoko
Selecting the pixel size
⢠Laskennansolukoonpäättäminen âpieni solukokovaatii paljonlaskentaa muttatulos on visuaalisestiparempi
⢠Decision on the pixel size â small pixels require a lot of computation but result is visually better
⢠(Krisp,2006)a. Solukoko 250 pikseliä b. Solukoko 25 pikseliä
Kernel-säteen valinta (Krisp)
⢠Mitä suurempi säde sitäyleistetympi esitys
⢠Pieni säde näyttää enemmänyksityiskohtia
⢠Kernel-mentelmä on yksinkertainen ja helppokäyttää, mutta oikea käyttÜvaatii menetelmänkäyttäytymisen ymmärtämistä
⢠The bigger the radius the moregeneralized the presentation is
⢠Small radius shows moredetails
⢠Method is easy to use butinterpretation needs expertice
Visualisointi: aikasarjat⢠Hirvitiheysaineistoja vuosilta 2001, 2002, 2003
kaksidimensioisina tiheyskarttoina⢠Väriskaala punaisesta (korkea tiheys), oranssi, keltainen,
vihreään (alhainen tiheys); hirvitiheys = hirveäneliÜkilometrille
⢠Tiheyskartat tuottanut Jukka Krisp (TKK) väitÜskirjatutkimuksessaan
Moose per km2
Muita visualisointimahdollisuuksia
Korkeuskäyräesitys
TIN-mallin avulla tuotettu
3d-kuvaHirvitiheys
Mathematics behind
⢠Kernel density estimation is a smoothing method that is based on
a sample of data
⢠Mathematically Kernel density estimation is actually a non-
parametric method to estimate probability density based on a data
sample
⢠Kernel density method is a kind of generalization of histogram
⢠A histogram
â a graphical presentation of the distribution of the data, graph showing the
frequencies of the values at specified intervals
â a histogram can also be seen as a simple kernel density estimation of the
function behind the data
⢠The naive Kernel density method is based on the so-called naive
estimator based on histogram
⢠In the spatial case Kernel density estimation is applied in 2d form
⢠Softwares offer Kernel density estimation function for points and
lines; you can find Kernel in R and in ArcGIS
https://www.wikiwand.com/fi/Histogrammi
Kernel density estimation is non-parametric estimation
method of distribution. Kernel density estimation can be seen
as generalization of histogram.
Kernel menetelmän
matematiikka
⢠Kernel tiheysmenetelmä on pehmennysmenetelmä, joka
perustuu otokseen
⢠Voidaan verrata histogrammimenetelmään, jossa esitetään
graafisesti aineiston jakautuminen eri arvoalueille
⢠Histogrammia voidaan pitää yksinkertaisena Kernel
tiheysestimaattina datan edustamasta funktiosta
⢠Tämän naiivi estimaattori on myÜs käyttämämme Kernel
tiheysmenetelmän idea, joten matemaattisesti ajateltuna se on
ei-parametrinen tiheysfunktion estimointimenetelmä
⢠Spatiaalisissa sovelluksissa Kernel-menetelmää käytetään 2d
muodossa, pistemäisille ja viivamaisille kohteille
⢠Kernel menetelmä lĂśytyy mm. R-ohjelmistosta ja ArcGIS â
ohjelmistosta
More descriptive spatial statistic tools
Cluster analysis by using distances
⢠Nearest neighbor
⢠Distance functions
â G-function
â F-function
â K-function
Muita kuvailevia spatiotilaston tyĂśkaluja
Etäisyyksiin perustuvat klusteroinnin
analyysimenetelmät
⢠Lähin naapuri
⢠Etäisyysfunktiot
â G-funktio
â F-funktio
â K-funktio
Clustering: nearest neighbours,
G-,F- and K-functions
⢠analysis of the phenomenon by the
â distances between events
â 1) w = distance between a datapoint and the nearest
neighbour (another datapoint) of it, cumulative, empirical
distribution function G(w), visual analysis and
interpretation
â distances between events and random locations
â 2) x = distance between a randomly selected location and
the nearest datapoint, distribution function F(x), visual
analysis and interpretation
Lähimmät naapurit, G-, F- ja K-
funktiot
⢠ilmiÜiden tutkiminen
â datapisteiden keskinäisten etäisyyksien avulla
â 1) w = etäisyys datapisteen ja sen lähimmän naapurin välillä, lasketaan kumulatiivinen, empiirinen tiheysfunktio G(w), visuaalinen tarkastelu ja tulkinta
â satunnaisen sijainnin ja datapisteen etäisyyksien avulla
â 2) x = etäisyys satunnaisen pisteen ja sen lähimmän naapurin (datapisteen) välillä, tiheysfunktio F(x), visuaalinen tarkastelu ja tulkinta
⢠by describing the distribution functions in a suitableway clustering or regular/random distribution can beanalysed visually
⢠if the function climbs very steeply in the early partbefore flattening out; high probability to short nearestneighbour distances that would suggest clustering
⢠empiirisiä tiheysfunktioita havainnollistamalla sopivalla tavalla, voidaan tulkita klusteroitumista tai tasaista jakautumista
⢠jos funktio nousee hyvin jyrkkänä ja sitten tasoittuu on aineistossa paljon lyhyitä etäisyyksiä naapuriin => klusteroituminen
(O´Sullivan & Unwin)
Formulas from the text book
G-function
đş đ = đđ. (đđđđ đ đ < đ)/đ
-distance to the nearest neighbour
F-function
đš đ = đđ. (đđđđ đđ , đ </đ
-minimum distance to a randomly selected point p in
the study region to any event in the point pattern S
Comparing G-function and F-function
⢠In G-function the cumulative frequency graph is calculated by
making a graph based on the empirical data
⢠Distances to nearest neighbour are calculated from each point and
the function gets value per each shortest distance; the value tells
for each d what fraction of all nearest neighbour distances are less
than d (see the formula on page 89; O´Sullivan&Unwin)
⢠In F-function the principle is the same but the nearest neighbour
distances are calculated from random points in the study area (p.
91)
⢠G-function tells how close together points are
⢠F-function tells how far from arbitrary location points are
G-funktion ja F-funktion vertailua
⢠G-funktio kertoo kaikille etäisyyksille d, kuinka monta sellaista
lähintä pisteparia aineistossa on, joiden etäisyys on pienempi kuin
d; määrä ilmaistaan suhteessa koko pisteparimäärään (ks. Kaava
sivulla 89, O´Sullivan&Unwin)
⢠F-funktio toimii samalla tavalla, mutta etäisyydet lasketaan
jokaiseen pisteeseen satunnaisista pisteistä (s. 91)
⢠G-funktio kertoo kuinka lähellä toisiaan pisteet ovat
⢠F-funktio kertoo kuinka kaukana pisteet ovat satunnaisesta
sijainnista
K-function, so-called Ripley´s K-fuction
â In nearest neighbor methods only nearest are studied
â K-function analyses the distribution in bigger area
â Principle:
⢠Imagine that around each point circles are created at distance d
⢠Count the number of points in each d and then calculate the average
⢠Divide the empirical average by the density of points
â đž đ = Ďđ=1đ đđ. (đ â đś(đ đ , đ))/đđ
⢠C in the formula is the area at distance d from point s
⢠Ν is the point density
â K value can be interpreted: clustered or not
â See Fig. O´Sullivan&Unwin, s. 94
â K-function is revisited in next lecture when we look at statistical inference and hypothesis testing in more detail
(O´Sullivan & Unwin)
K-funktio â lähimmän naapurin menetelmän ongelma â tutkitaan vain lähimpiä
â K-funktio ilmaisee spatiaalisen riippuvuuden laajemmalla alueella
â Periaate:
⢠Ajatellaan, että jokaisen pisteen ympärille on luotu ympyränkaariasäteellä d
⢠Lasketaan pisteiden lukumäärä jokaisella etäisyydellä ja lasketaansiitä keskiarvo
⢠Jaetaan keskiarvoluku koko tarkastelualueen pistetiheydellä
⢠Tämä tehdään jokaisella etäisyydellä
â đž đ = Ďđ=1đ đđ. (đ â đś(đ đ , đ))/đđ
⢠C on kaavassa d-etäisyydellä oleva ympyrä keskipisteenä s
⢠Ν on pistetiheys koko alueella
â K:n arvo kertoo klusteroituneen tai säännĂśllisen tapauksen
â Ks. kuva O´Sullivan&Unwin, s. 94
Comparing the distribution of two phenomena
â two point patterns(O´Sullivan, Unwin, pp. 123âŚ)
⢠for example pollution and diseases
⢠the distances of points in two point sets are analysed by using K-function
â randomness of the distances
⢠the simple test:
â calculate K-function for both point patterns and interpret theresult
Kahden ilmiĂśn â kahden pistekuvion vertailu(O´Sullivan, Unwin, pp. 123âŚ)
⢠esim. sairaustapaukset ja ympäristÜhaitat
⢠tutkitaan kahden pistejoukon pisteiden välisiä etäisyyksiä K-funktion avulla
â tutkitaan ovatko etäisyydet satunnaisia
⢠yksinkertaisin testi:
â lasketaan K-funktio kummallekin aineistolle ja tulkitaan
Applying G-function for spatial
dependency of two datasets
⢠G-function can be applied for two datasets
⢠The distances are calculated from each point on layer 1 to the nearest
point on layer 2
⢠Otherwise the methods is used as for one data set
⢠Spatenkova used this in her doctoral thesis work
G-funktio kahden datasetin välisen
riippuvuuden tutkimiseen
⢠Lasketaan etäisyydet jokaisesta tason 1 pisteestä lähimpään
naapuriin tasolla 2
⢠Muutoin käytetään G-funktiota kuten yhdelle aineistolle
⢠Spatenkova käytti tätä väitÜskirjatutkimuksessaan
Reading material
⢠O´Sullivan & Unwin: Geographic Information Analysis, Chapters:1, 4.1-4.4
â There are newer versions of the book but references made in the slides to the 2003 edition
⢠Very good reading material on spatial analysis for example in
https://mgimond.github.io/Spatial/point-pattern-analysis.html
What happens in tomorrow´s exercises⢠Using ArcGISPro software
⢠You may also use for example QGIS if you want, but guidelines are
only for ArcGISPro
⢠Because computer classes are not available, you have to use your
own computer (detailed guidelines in exercises)
â 1)download ArcGISPro to your own computer (Windows environment, VPN on)
â 2) use ArcGISPro by remote access
⢠1. Use of Moran´s I for autocorrelation identification
⢠2. Use of ANN (average nearest neighbour) for identification of
clustering
⢠3. Use of (Ripley´s) K-function for identifying clustering
⢠Note: in this lecture G-, F-, and K-functions are used by utilizing cumulative
frequency graph and visual interpretation, these methods can be used in more
exact way by using hypothesis of CSR
Average nearest neighbour â
Nearest neighbour analysis
⢠Distances from each point to the nearest neighbour
point is calculated and the mean of them is calculated
⢠The expected mean distance â in the case of random
distribution of points â is calculated
â Based on the CSR (complete spatial randomness) assumptions
⢠The ratio between the empirical average mean and the
expected mean is calculated
â If the ratio is <1 then the patterns is towards clustering
â If the ratio is >1 then the pattern is towards dispersion
⢠See for example:
http://ceadserv1.nku.edu/longa//geomed/ppa/doc/NNA/NNA.htm
Average nearest neighbour â
Lähimmän naapurin analyysi
⢠Lasketaan etäisyys jokaisesta pisteestä sen lähimpään
naapuriin ja niistä keskiarvo
⢠Lasketaan lähimmän etäisyyden odotusarvojen
keskiarvo â täydellisen satunnaisuuden tapauksessa
â perustuu CSR (complete spatial randomness) oletukseen
â pisteiden määrä ja tarkasteltava alue tunnetaan
⢠Empiirisen keskiarvon ja oletuskeskiarvon suhde
â jos <1 pistekuvio klusteroituva
â jos >1 pistekuvio
⢠Katso esimerkiksi:
http://ceadserv1.nku.edu/longa//geomed/ppa/doc/NNA/NNA.htm
Ripley´s K-function
⢠K-function as presented in the lecture