Análisis geoestadístico con ArcGIS. Estadística descriptiva Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es necesario recordar algunos conceptos de estadística, en particular de estadística descriptiva, que son necesarios para realizar un análisis geoestadístico con el software. La estadística descriptiva, se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Para analizar los datos usualmente se construyen las tablas de frecuencias y se utilizan: la media, mediana, moda, desviación estándar, la varianza, coeficiente de curtosis, coeficiente de sesgo, coeficiente de variación, cuartiles, deciles y percentiles. Estos parámetros se agrupan en varias categorías conocidas como medidas de tendencia central, medidas de dispersión y medidas de forma. Tablas de Frecuencias Una forma de presentar ordenadamente un grupo de observaciones, es a través de tablas de distribución de frecuencias. Para construir una tabla de frecuencia se deben ordenar los datos de menor a mayor e incluir los siguientes parámetros. Frecuencia Absoluta (ni) Es el número de datos que están en un mismo intervalo. Frecuencia Relativa (fi) Es la frecuencia absoluta dividida por el número total de datos. Frecuencia Absoluta Acumulada (Ni) Es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. La última frecuencia absoluta acumulada es igual al número de casos. Frecuencia Relativa Acumulada (Fi) Es el resultado de dividir cada frecuencia absoluta acumulada por el número total de datos. Numero de clases Indica el número de intervalos en que se agruparan los datos. Amplitud de la clase o intervalo Se obtiene al dividir por dos, la diferencia del valor máximo y mínimo de los datos. Marca de clase Es el promedio de la suma del límite superior e inferior de cada intervalo o clase. En el caso de datos agrupados se deberán determinar el número de intervalos, la amplitud de los mismos y la marca de clase, de la siguiente forma:
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Análisis geoestadístico con ArcGIS.
Estadística descriptiva Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es necesario recordar algunos conceptos de estadística, en particular de estadística descriptiva, que son necesarios para realizar un análisis geoestadístico con el software.
La estadística descriptiva, se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Para analizar los datos usualmente se construyen las tablas de frecuencias y se utilizan: la media, mediana, moda, desviación estándar, la varianza, coeficiente de curtosis, coeficiente de sesgo, coeficiente de variación, cuartiles, deciles y percentiles. Estos parámetros se agrupan en varias categorías conocidas como medidas de tendencia central, medidas de dispersión y medidas de forma.
Tablas de Frecuencias
Una forma de presentar ordenadamente un grupo de observaciones, es a través de tablas de distribución de frecuencias. Para construir una tabla de frecuencia se deben ordenar los datos de menor a mayor e incluir los siguientes parámetros.
Frecuencia
Absoluta (ni)
Es el número de datos que están en un mismo
intervalo.
Frecuencia
Relativa (fi)
Es la frecuencia absoluta dividida por el número total
de datos.
Frecuencia
Absoluta
Acumulada (Ni)
Es la suma de las frecuencias absolutas de todos los
valores inferiores o iguales al valor considerado. La última frecuencia absoluta acumulada es igual al
número de casos.
Frecuencia
Relativa
Acumulada (Fi)
Es el resultado de dividir cada frecuencia absoluta
acumulada por el número total de datos.
Numero de clases Indica el número de intervalos en que se agruparan los datos.
Amplitud de la
clase o intervalo
Se obtiene al dividir por dos, la diferencia del valor
máximo y mínimo de los datos.
Marca de clase Es el promedio de la suma del límite superior e inferior
de cada intervalo o clase.
En el caso de datos agrupados se deberán determinar el número de intervalos, la amplitud de los mismos y la marca de clase, de la siguiente forma:
Distribución normal Una distribución de probabilidad sigue una distribución normal, cuando la representación gráfica de su función de densidad es una curva positiva continua, simétrica respecto a la media, de máximo en la media, y que tiene 2 puntos de inflexión situados a ambos lados de la media y a distancia igual a la desviación estándar, es decir de la forma:
Propiedades. Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas.
Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
Cuanto mayor sea la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
El coeficiente de sesgo es igual a cero (0).
La curtosis es igual a cero (0).
Para la aplicación de los métodos geoestadísticos es necesario verificar la función de probabilidad del conjunto de datos se aproximen a un comportamiento normal, esto lo veremos más adelante en el análisis exploratorio de los datos.
Con el fin de que este sea un ejemplo práctico para abordar el análisis geoestadistico con ArcGIS, ilustraremos todo los conceptos con un ejemplo a partir de datos de monitoreo de niveles piezométricos de agua subterránea que se presentan en la tabla siguiente. Para ello se seguirán los siguientes pasos.
1. Organizar los datos de menor a mayor. 2. Calcular la tabla de frecuencia. 3. Realizar el histograma de frecuencias. 4. Calcular los parámetros geoestadístico.
A partir de la tabla anterior se construye el histograma de frecuencias, el cual nos da una idea del comportamiento de los datos. Como primer acercamiento, se observa que los datos están dispersos, sesgados y la moda, la media y la mediana son diferentes, por tanto los datos no obedecen a una distribución normal.
Paso 4. Calcular los parámetros geoestadístico
a. Medidas de tendencia central Intentan identificar el dato más representativo de la distribución del conjunto. Son las siguientes.
Media. Se le suele llamar promedio, se define como la suma de los valores de todas las observaciones divididas por el número total de datos. Se denota con µ o X.
En su cálculo intervienen todos los datos, por lo tanto, se ven influenciados por la variación de cualquiera de ellos. En particular, es sensible a los valores extremos, pues estos producen grandes modificaciones.
Mediana. Es el valor de la serie de datos que deja la mitad de las observaciones por debajo de ella y la otra mitad por encima, es decir, divide al conjunto de datos en dos partes iguales y se denota por Me.
Dado que sólo depende del orden de los datos, tiene la ventaja de que no es sensible a los valores extremos.
En datos agrupados se calcula de la siguiente forma.
1. Calcular: n/2
2. La mediana será el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a N/2. Este será el intervalo en el que se encuentra la mediana.
3. Aplicar la formula sustituyendo los valores correspondientes.
Para datos agrupados, tenemos lo siguiente….
Se calcula n/2 = 53/2 = 26.5, se busca este valor en la columna de la frecuencia acumulada de la tabla de frecuencia. Si no se encuentra, tomamos el valor siguiente, el cual es 29, por lo cual el intervalo donde se encuentra la moda es (2.0076 – 6.1776].
Como el número de datos de la muestra es impar e igual a 53, la mediana es el dato que ocupa el puesto 27(divide la muestra en dos partes iguales), el cual es: Me= 5.8690
Moda. Es el dato que más veces se repite, es decir, aquel dato o rango que presenta mayor frecuencia absoluta. Puede haber más de una moda en una distribución. Se denota por Mo.
Para datos agrupados, tenemos lo siguiente….
De los datos agrupados en la tabla de frecuencia, se observa que la mayor frecuencia absoluta es 29, por lo tanto el intervalo donde está la moda es (2.0076 – 6.1776].
Li=2.0076
a=4.17
d2=29-7 = 22
d1=29-0 = 29
b. Medidas de dispersión
Las medidas de dispersión indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Nos dan una idea sobre la homogeneidad o
Desviación estándar. Indica cuánto tienden a alejarse los valores puntuales de la media. Se suele representar por una S. Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están
Varianza. Describe la variabilidad de la distribución. Es la medida de la desviación o dispersión de la distribución. Se calcula mediante la ecuación.
Para datos agrupados, tenemos lo siguiente….
S² = 7.774² = 60.44
Para datos no agrupados, tenemos lo siguiente…. S² = 8.042² = 64.675
Coeficiente de variación. Mide la representatividad de la media. Valores extremos del mismo nos llevarán a concluir que la media no es representativa, es decir, existirán
valores entre las observaciones que se separan significativamente de las demás.
Para datos agrupados, tenemos lo siguiente…. C.V = 7.74/9.443*100 = 82%
Para datos no agrupados, tenemos lo siguiente…. C.V = 8.042/9.3776*100 = 85.8%
Miden el grado de deformación respecto a una curva patrón (distribución normal).
Coeficiente de curtosis. Mide el grado de aplastamiento o apuntamiento de la gráfica de la distribución de la variable estadística. Datos concentrados respecto a la media
(desviación estándar pequeña) dará una grafica alargada; si los datos están dispersos la gráfica será achatada o aplastada.
Nota: El valor calculado a través de la herramienta Geostatistical Analyst de ArcGIS no le resta 3 como aparece en la ecuación anterior.
Coeficiente de sesgo o asimetría. Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de simetría de Pearson es:
Si CS = 0, la distribución es simétrica, en ese caso las desviaciones a la derecha y a la izquierda de la media se compensan.
Si CS < 0, la distribución es asimétrica negativa. La mayoría de las observaciones están a la derecha de la proyección de la media.
Si CS > 0 la distribución es asimétrica positiva. La mayoría de las observaciones están a la izquierda de la proyección de la media.
A continuación se muestran los resultados obtenidos a través de las ecuaciones de datos agrupados y no agrupados, también se incluyen los resultados arrojados por la herramienta Geostatistical Analyst (la cual se verá más adelante). Se observa que los resultados obtenidos tanto por las ecuaciones aplicadas a datos no agrupados y los obtenidos por la herramienta Geostatistical Analyst son similares.
Parámetro Datos
agrupados Datos no
agrupados
Módulo Geostatistical
analyst de ArcGIS
Observaciones
Media 9.443 9.3776 9.3776
Mediana 4.6678 5.869 5.869
Moda 4.378 Desviación estándar
7.74 8.0421 8.0421
Varianza 60.44 64.675 64.675 Coeficiente de
Variación 82% 85.8% 85.75%
Curtosis 1.38 1.4709 A la curtosis que
calcula ArcGIS se le debe restar 3
Sesgo o asimetría
1.46 1.4773
Según Matheron (1992), la Geoestadística es la aplicación de la teoría de las variables
regionalizadas a la estimación de los depósitos. A su vez una variable regionalizada, es
una variable distribuida en el espacio de forma que presenta una estructura espacial de
correlación. En fin cuando hablemos de Geoestadística se debe pensar en la variable y
su relación espacial.
Ejemplo de variables regionalizadas en hidrogeología son la trasmisividad y
conductividad hidráulica, la porosidad y el nivel piezométrico; a este último hacemos
referencia en el presente artículo.
La mayoría de los métodos geoestadísticos sólo son óptimos si la variable de estudio
sigue una distribución normal. Recordemos que la distribución normal tiene las
siguientes propiedades:
Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas.
Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
Cuanto mayor sea la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
El coeficiente de sesgo es igual a cero (0).
La curtosis es igual a cero (0).
Para determinar si la variable sigue una distribución se deben aplicar alguna de las
pruebas de normalidad como Prueba X², Kolmogorov, cálculo del coeficiente de
asimetría, curtosis, mediana, mediana y la moda y su comparación de con los de la
distribución normal.
Si a través de estas pruebas se concluye que la variable puede ser aceptada o se
aproxima a una distribución normal, el problema se simplifica y se puede continuar con
el análisis geoestadístico; de lo contrario, es necesario realizar una transformación de
los datos que puede ser de raíz cuadrada o logarítmica (Carrera, 1990) y hacer
nuevamente las verificaciones.
Este es un tema extenso y la idea de estos artículos es hacerlos algo prácticos, por ello
al final dejaré bibliografía a la cual se puede consultar.
Para resumir, los pasos a seguir en el análisis exploratorio de los datos son los siguientes.
1. Organizar los datos de menor a mayor. 2. Calcular la tabla de frecuencia. 3. Realizar el histograma de frecuencias. 4. Calcular los parámetros geoestadístico. 5. Verificación de la normalidad con respecto a la media, moda y mediana. 6. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de
sesgo). 7. Verificación de la normalidad con respecto al coeficiente de variación. 8. Realización de la transformación de los datos, si es necesario. 9. Recalculo de los parámetros estadísticos y comparación para verificar la normalidad de
los datos.
Los pasos 1 al 4 fueron realizados en el tutorial “Módulo de Geostadística Analyst con
ArcGIS parte 1. Estadística descriptiva”, aquí se continuará con los pasos siguientes
Se continua con el ejemplo de los datos del monitoreo de niveles piezométricos que se
muestran en la siguiente tabla.
Pozo X Y NP
1 1.038.638 1.368.620 2,0076
2 1.034.835 1.344.198 2,1313
3 1.039.637 1.368.963 2,2000
4 1.039.628 1.368.960 2,2100
5 1.042.236 1.377.584 2,4449
6 1.039.030 1.370.440 2,4946
7 1.036.835 1.354.454 2,8554
8 1.043.217 1.357.777 2,9876
9 1.040.082 1.373.095 3,2347
10 1.039.392 1.374.231 3,2930
11 1.040.434 1.368.119 3,3317
12 1.039.720 1.368.500 3,3506
13 1.042.060 1.376.470 3,4291
14 1.041.545 1.369.212 3,6896
15 1.042.045 1.371.752 3,7990
16 1.040.269 1.377.908 3,9651
17 1.040.731 1.371.643 3,9980
18 1.042.360 1.376.070 4,2921
19 1.040.390 1.376.776 4,4900
20 1.035.335 1.356.941 4,5286
21 1.047.035 1.371.548 4,6227
22 1.042.020 1.370.310 4,6637
23 1.033.716 1.352.675 5,0499
24 1.042.570 1.377.470 5,1009
25 1.035.564 1.343.433 5,2438
26 1.042.520 1.368.530 5,3826
27 1.042.932 1.368.255 5,8690
28 1.044.694 1.371.405 6,0000
29 1.041.841 1.363.397 6,1496
30 1.040.838 1.356.677 8,0054
31 1.044.135 1.364.301 8,0724
32 1.046.740 1.377.526 8,0827
33 1.046.626 1.374.772 9,0188
34 1.042.604 1.360.903 9,2078
35 1.039.466 1.348.279 10,1156
36 1.041.429 1.333.870 10,2553
37 1.045.207 1.363.183 10,8373
38 1.044.733 1.360.337 11,5066
39 1.048.893 1.374.744 11,8241
40 1.040.383 1.355.006 12,2268
41 1.042.263 1.354.636 12,3280
42 1.039.411 1.336.953 12,8004
43 1.048.342 1.369.941 14,6244
44 1.046.214 1.355.644 14,9301
45 1.044.935 1.336.931 16,6351
46 1.041.256 1.339.628 18,1630
47 1.048.313 1.360.466 19,1410
48 1.044.224 1.348.328 24,0632
49 1.044.765 1.341.254 24,2354
50 1.046.735 1.356.327 25,5698
51 1.045.454 1.346.959 27,1534
52 1.050.523 1.361.111 30,0800
53 1.052.106 1.361.728 35,3188
Los parámetros estadísticos calculados anteriormente se resumen en la siguiente tabla.
Parámetro Datos no
agrupados Observaciones
Media 9.3776
Mediana 5.869
Moda 4.378
Se tomó la moda calculada
a través de la ecuación
datos agrupados.
Desviación
estándar 8.0421
Varianza 64.675
Coeficiente de
Variación 85.8%
Curtosis 1.38
Sesgo o asimetría 1.46
5. Verificación de la normalidad con respecto a la media, moda y mediana.
Para que la distribución sea normal o se aproxime, la media, la moda y la mediana deben ser similares, se acepta una diferencia de una unidad entre ella.
Para el ejemplo de estudio tenemos. Media = 9.3776
Mediana = 5.869
Moda = 4.378
Se observa la media, la mediana y la moda son diferentes, por lo cual los datos no cumplen el criterio de verificación con respecto a estos parámetros.
6. Verificación de la normalidad con respecto a la asimetría horizontal
(coeficiente de sesgo).
Como el coeficiente de sesgo permite verificar la normalidad de los datos, en caso de existir asimetría horizontal, es decir los datos no se ajustan a una distribución normal, Wester-Oliver proponen evaluar lo siguiente.
0<|CS|<0.5, se acepta la función de distribución de probabilidad como normal,
se puede aplicar el método geoestadístico a los datos.
0.5<|CS|<1, es necesario realizar una transformación de datos (normalización) de tipo raíz cuadrada.
|CS|>1, es necesario hacer una transformación de tipo logarítmico (ln o log)
En nuestro caso CS = 1.46, valor mayor que 1, por lo tanto es necesario aplicar una
transformación de tipo logarítmico a los datos.
7. Verificación de la normalidad con respecto al coeficiente de variación.
Tanto la función de distribución de los datos como la varianza son funciones de la media la cual es altamente sensible a los valores extremos. En consecuencia se debe tener conocimiento de la afectación de estos valores extremos sobre la media, para ello se calcula el coeficiente de variación. En todo caso se debe verificar lo siguiente.
Si CV < 100, no hay problema con los valores extremos de los datos
Si 100<CV<=200, Los efectos causados por los valores extremos de los datos son tolerables
Si CV>200, se tiene problemas severos con los valores extremos de los datos.
Esto es importante, pues en caso de que los valores extremos de los datos afecten a la
muestra o a la distribución de los mismos, se deberá analizar si es conveniente
eliminarlos en caso que obedezcan a un error en la medición o hacer una transformación
de los datos para reducir su influencia en la muestra.
En nuestro caso CV = 85.8 < 100, lo cual indica que no hay problemas con valores extremos.
En resumen, la función de distribución de los datos no se asemeja a una distribución
normal dado que la media, la mediana y la moda son diferentes y además el CS>1. De
acuerdo a los cálculos anteriores, es necesario realizar una transformación logarítmica
(la cual consiste en tomar el dato y sacarle el logaritmo ya sea en base 10 o logaritmo
natural), una vez realizada la transformación se vuelven a calcular todos los parámetros
para realizar las respectivas verificaciones.
8. Realización de la transformación de los datos, si es necesario.
Transformación de los datos (ln).
Pozo X Y NP ln
1 1.038.638 1.368.620 2,0076 0,697
2 1.034.835 1.344.198 2,1313 0,757
3 1.039.637 1.368.963 2,2000 0,788
4 1.039.628 1.368.960 2,2100 0,793
5 1.042.236 1.377.584 2,4449 0,894
6 1.039.030 1.370.440 2,4946 0,914
7 1.036.835 1.354.454 2,8554 1,049
8 1.043.217 1.357.777 2,9876 1,094
9 1.040.082 1.373.095 3,2347 1,174
10 1.039.392 1.374.231 3,2930 1,192
11 1.040.434 1.368.119 3,3317 1,203
12 1.039.720 1.368.500 3,3506 1,209
13 1.042.060 1.376.470 3,4291 1,232
14 1.041.545 1.369.212 3,6896 1,306
15 1.042.045 1.371.752 3,7990 1,335
16 1.040.269 1.377.908 3,9651 1,378
17 1.040.731 1.371.643 3,9980 1,386
18 1.042.360 1.376.070 4,2921 1,457
19 1.040.390 1.376.776 4,4900 1,502
20 1.035.335 1.356.941 4,5286 1,510
21 1.047.035 1.371.548 4,6227 1,531
22 1.042.020 1.370.310 4,6637 1,540
23 1.033.716 1.352.675 5,0499 1,619
24 1.042.570 1.377.470 5,1009 1,629
25 1.035.564 1.343.433 5,2438 1,657
26 1.042.520 1.368.530 5,3826 1,683
27 1.042.932 1.368.255 5,8690 1,770
28 1.044.694 1.371.405 6,0000 1,792
29 1.041.841 1.363.397 6,1496 1,816
30 1.040.838 1.356.677 8,0054 2,080
31 1.044.135 1.364.301 8,0724 2,088
32 1.046.740 1.377.526 8,0827 2,090
33 1.046.626 1.374.772 9,0188 2,199
34 1.042.604 1.360.903 9,2078 2,220
35 1.039.466 1.348.279 10,1156 2,314
36 1.041.429 1.333.870 10,2553 2,328
37 1.045.207 1.363.183 10,8373 2,383
38 1.044.733 1.360.337 11,5066 2,443
39 1.048.893 1.374.744 11,8241 2,470
40 1.040.383 1.355.006 12,2268 2,504
41 1.042.263 1.354.636 12,3280 2,512
42 1.039.411 1.336.953 12,8004 2,549
43 1.048.342 1.369.941 14,6244 2,683
44 1.046.214 1.355.644 14,9301 2,703
45 1.044.935 1.336.931 16,6351 2,812
46 1.041.256 1.339.628 18,1630 2,899
47 1.048.313 1.360.466 19,1410 2,952
48 1.044.224 1.348.328 24,0632 3,181
49 1.044.765 1.341.254 24,2354 3,188
50 1.046.735 1.356.327 25,5698 3,241
51 1.045.454 1.346.959 27,1534 3,302
52 1.050.523 1.361.111 30,0800 3,404
53 1.052.106 1.361.728 35,3188 3,564
9. Recalculo de los parámetros estadísticos y comparación para verificar la
normalidad de los datos.
a. Organizar los datos de menor a mayor.
Ya están organizados en la tabla anterior
b. Calcular la tabla de frecuencia.
No Intervalo Marca
de clase frecuencia absoluta
frecuencia absoluta
acumulada
frecuencia relativa
frecuencia relativa
acumulada
1 0,6969 - 1,0569 0,88 7 7 0,13 0,13
2 1,0569 - 1,4153 1,24 10 17 0,19 0,32
3 1,4153 - 1,7737 1,59 10 27 0,19 0,51
4 1,7737 - 2,1321 1,95 5 32 0,09 0,60
5 2,1321 - 2,4905 2,31 7 39 0,13 0,74
6 2,4905 - 2,8489 2,67 6 45 0,11 0,85
7 2,8489 - 3,2073 3,03 4 49 0,08 0,92
8 3,2073 - 3,5657 3,39 4 53 0,08 1,00
c. Realizar el histograma de frecuencias
d. Calcular los parámetros geoestadístico.
Los parámetros estadísticos se realizarán por la metodología de datos no agrupados a
excepción de la moda, para ello se utilizará Excel.
Volvemos a dar clic en Next>, en la siguiente ventana se muestra: Un recalculo de los datos en comparación con los valores medidos para verificar obtenido.
Cálculo de los errores:
Root-Mean-Square: 3.774
Average Standard Error: 4.361
Mean Standardized: -0.04804
Root-Mean-Square Standardized: 0.9609
Un gráfico de comparación de datos medidos y datos calculados, en la que se puede ver que los datos que más se alejan de la línea, son los que mayores errores presentan en su predicción.