MONOGRÁFICO Final

5/14/2018 MONOGRÁFICO Final - slidepdf.com

http://slidepdf.com/reader/full/monografico-final 1/34

Trabajo Monográfico. Nuevo método para el tratamiento

y análisis de datos de auscultación de carreteras.

0

Gestión y Conservación de Obras Públicas Trabajo Monográfico. NuevoMétodo para el Tratamiento y

Análisis de Datos deAuscultación de Carreteras

2011

23/11/2011

Ángel de la Rosa Velasco

Iván Vega Sánchez





1

ÍNDICE

1. Introducción .......................................................................................................................... 2

2. Propuesta de un procedimiento de sectorización de series ................................................. 5

3. Fundamentos Estadísticos y Descripción de los Test Utilizados en el Proceso ..................... 6

3.1 Test de las Rachas ....................................................................................................... 10

3.2 Test de Igualdad de Medias y Varianzas ..................................................................... 14

4. Descripción del Proceso de Sectorización ........................................................................... 17

4.1 División Ascendente .................................................................................................... 18

4.2 Segunda División (Descendente) ................................................................................. 23

4.3 División en Subtramos ................................................................................................. 23

4.4 Recombinación Final de Subtramos ............................................................................ 23

5. Caso Práctico ....................................................................................................................... 28

6. Conclusiones........................................................................................................................ 33

7. Bibliografía .......................................................................................................................... 33





2

1. Introducción

Desde hace años la falta de datos de los diferentes parámetros para decidir la

conservación y rehabilitación de firmes de carreteras ha sido un problema muy importante

que han tenido afrontar todos los técnicos encargados de la gestión y explotación de

carreteras en España. La tecnología de la que se disponía para auscultar las carreteras erabastante imprecisa, así como los medios informáticos y de transformación de datos analógicos

a digitales no eran los más adecuados para realizar análisis correctos.

Gracias al gran desarrollo de la electrónica e informática durante los últimos años se

ha podido obtener hoy una gran capacidad de procesamiento y almacenamiento de datos, lo

cual ha transformado este proceso de manera espectacular en los últimos veinte años.

Las actuales herramientas informáticas de las que se disponen actualmente poseen

una capacidad de procesamiento que posibilita el uso de conversores analógico-digitales que

pueden recoger decenas de parámetros en tiempo real y con una velocidad de muestreo que

hace que se dispongan de datos de gran parte de los parámetros necesarios con un intervalo

de muestreo muy elevado.

Estos avances han posibilitado la generalización de equipos de auscultación con

enormes rendimientos, con la capacidad de realizar campañas de medida en la totalidad de la

red de carreteras de alta capacidad.

Con todo esto, actualmente se disponen de muchísima información en intervalos cada

vez más pequeños, y con unos niveles de precisión muy grandes, lo cual ha traducido el

problema al sentido contrario, es decir, actualmente se dispone de una sobreinformación.

Como consecuencia de esta gran cantidad de información disponible actualmente elproblema es como tratar dichos datos y como resumir dicha información de manera que se

pueda manejar de manera eficaz y de manera fiable la gran cantidad de datos originales. La

solución general en esta rama y otras ramas de la ingeniería y ciencia consiste en realizar

resúmenes estadísticos que muestren datos de las poblaciones y ver la manera en la que se

distribuyen estos datos. Los valores usados normalmente son la media aritmética, la varianza,

la desviación típica, el coeficiente de variación, los estimadores de la media al 95 %, los

intervalos de confianza, etc.

Una serie de datos es homogénea cuando procede de una muestra aleatoria sacada deuna única población. El problema se produce cuando los datos vienen de series en las que se

desconoce a priori si una determinada agrupación procede de una misma población o no y

sobre estas agrupaciones se quiere realizar resúmenes estadísticos. Por ejemplo, si los datos

provienen de un equipo de auscultación de carretera, es común hacer agrupaciones cada

punto kilométrico, y para cada kilómetro se realiza un resumen estadístico de todos los datos

que hay en dicho tramo.

Este problema se da también en otros tipos de series de datos generados en procesos

más o menos continuos y luego agrupados con criterios más o menos arbitrarios, como

criterios de intervalos determinados de tiempo, acumulación del resultado de algunavariable,...





3

Debido a esta combinación de resúmenes estadísticos con sistemas de agrupación

arbitraria en muchas ocasiones en muchas ocasiones los valores de resúmenes obtenidos no

representan fielmente a las series de datos de los que proceden.

La manera de calcular la media, varianza, etc., obvia la ordenación original de datos y

hace que haya una gran probabilidad de que datos con valores bajos de un parámetrodeterminado se compensen con valores altos del tramo elegido arbitrariamente. De este modo

ni las agrupaciones realizadas ni los valores obtenidos de ellas representan fielmente los datos

originales.

Lo primero se debe a que las agrupaciones son arbitrarias y no corresponden a

cambios en los valores encontrados en la variable de estudio. Lo segundo se debe a la

incorrecta agrupación de datos en donde se mezclan tramos de diferentes características y que

provienen generalmente de diferentes poblaciones estadísticas.

A modo de ejemplo se muestra en la figura 1 cuatro tramos formados por una

sucesión aleatoria de valores tomados de cuatro poblaciones con distribución N( ) juntocon el valor medio del tramo y los intervalos de confianza que incluyen el 95 % de los datos.

Los valores de la media y la desviación típica de cada tramo se muestran en la tabla 1 como

valores reales y sirven para generar las series de datos. Los tramos no son de la misma longitud

y muestran evidentes diferencias entre ellos. Si sobre esta serie de datos se realiza un resumen

estadístico cada 50 datos, los resultados que se obtienen son los mostrados en la figura 2.

Figura 1. Sucesión aleatoria de cuatro series normales





4

Figura 2. Resumen de los cuatro tramos en agrupaciones de 50 datos

En la tabla 1 se muestran los resúmenes y se observa que en algunos casos son muy

diferentes a los valores reales y solo coinciden si el tramo elegido arbitrariamente coincide con

la realidad, lo cual es totalmente aleatorio.

Tabla 1. Comparación tramificación por media y por nº de datos

Además con los resultados obtenidos en el resumen cada 50 m en algunos casos es

virtualmente imposible detectar datos aberrantes, ya que esta detección se realiza cuando un

valor de la serie se aleja del valor medio de la serie más de tres desviaciones típicas. Se observa

en los grupos 2 y 3, para considerar un valor aberrante el valor que tiene que tomar la variable

tiene que ser demasiado grande o demasiado pequeño.

Si los grupos seleccionados y los resúmenes estadísticos coinciden con los tramos

reales se logra que las decisiones tomadas en base a las medidas sean aplicadas en tramos con





5

características similares, optimizando de este modo los recursos empleados y teniendo la

certeza que tramos con malas condiciones respecto de una variable no se compensan con

tramos en los que se tengan buenos resultados.

Si la figura 1 muestra valores de un determinado parámetro sobre el que hay que

tomar decisiones cuando desciende del valor 50, se observa que el resumen estadísticorealizado con la agrupación arbitraria de los datos no da problema en el tramo 2 ya que su

media es 56. En este caso no se detecta un tramo en el que un parámetro ha sobrepasado el

umbral de actuación.

Si se usa un método más conservador como en la figura 2 en el que se representan las

zonas que contienen al 95 % de los datos, y marcando como umbral inferior el límite de

decisión, se observa que fijado el mismo valor umbral de 50 se obtiene un valor para el

intervalo inferior den el grupo 2 de aproximadamente 17, y para el grupo 3 de 37,5. Ambos

valores son inferiores al valor umbral de toma de decisiones.

La actuación prevista se aplicaría a los grupos 2 y 3, y se observa en las figuras la zonaque realmente presenta el problema es la que corresponde al tramo 2 que es prácticamente la

mitad de la formada por los grupos 2 y 3 juntos. En este caso se observa que los recursos no

serían optimizados, y las medidas correctoras tomadas en base a los criterios de agrupación

descritos se aplicarían a una longitud o a un número mucho más elevado de elementos que el

estrictamente necesario.

De este modo se aprecia la gran importancia que tiene la correcta separación en

grupos con características estadísticamente similares, para realizar los resúmenes necesarios

que representarán de manera más fiel la realidad de los datos obtenidos. Propuesta de un

Procedimiento de Sectorización de Series.

2. Propuesta de un procedimiento de sectorización de series

Para detectar tramos homogéneos contenidos en series continuas de datos se ha

desarrollado un método que combina diversas propiedades de las series normales para utilizar

sobre los datos dos test de rachas, junto con los test de igualdad de medias y varianzas.

Los datos recogidos por sensores de cualquier tipo siguen una distribución normal

N( ) en el caso de que la muestra sea recogida de una población. El problema surge cuandose sigue realizando una medición y aparecen nuevas muestras de nuevas poblaciones,

apareciendo en un gráfico continuo de mediciones del que es difícil separar con precisión las

series originales. Esta separación de datos presenta muchos problemas a la hora de realizarse

automáticamente.

Como ejemplo se observa la figura 3 que muestra tres series normales de datos

consecutivas, 500 muestras aleatorias de una N(26,1), 150 muestras de una N(26,4) y 350

muestras de una N(20,4).

Es método propuesto pretende separar tramos homogéneos dentro de la serie de

manera automática, suponiendo que los datos recogidos siguen distribuciones normales devalores ydesconocidas.





6

Figura 3. Tres series normales de datos consecutivos

3. Fundamentos Estadísticos y Descripción de los TestUtilizados en el Proceso

Antes de explicar en detalle el procedimiento seguido para la sectorización tenemos

que señalar que el procedimiento no indica si los sectores resultantes son o no procedentes de

una población normal, sino que esto se toma como una hipótesis de partida.

Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite

comprobar si la información que proporciona una muestra observada concuerda (o no) con la

hipótesis estadística formulada sobre el modelo de probabilidad en estudio y, por tanto, se

puede aceptar (o no) la hipótesis formulada.

Una hipótesis estadística es cualquier conjetura sobre una o varias características de

interés de un modelo de probabilidad.

Una hipótesis estadística puede ser:

Paramétrica: es una afirmación sobre los valores de los parámetros

poblacionales desconocidos. Las hipótesis paramétricas se clasifican en:

o Simple: si la hipótesis asigna valores únicos a los parámetros (σ=1.5,

μ=10 …).

o Compuesta: si la hipótesis asigna un rango de valores a los parámetros

poblacionales desconocidos (σ≥15.5, μ<10 …).

No Paramétrica: es una afirmación sobre alguna característica estadística de la

población en estudio. Por ejemplo, las observaciones son independientes, la

distribución de la variable en estudio es normal, la distribución es simétrica,...

(μ1 ,σ 1 ) (μ2 ,σ 2 )

μ1 = μ2≠ μ3 σ 2 ≈σ 3> σ 1 (μ3 ,σ 3 )





7

Como veremos en nuestro caso la primera hipótesis estadística será no paramétrica

(aleatoriedad de la distribución), y luego utilizaremos hipótesis no paramétricas (si los valores

de la serie superan la media o no, etc).

La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se denota

por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una hipótesiscomplementaria que se denomina hipótesis alternativa y se denota por H1.

Al realizar cualquier contraste de hipótesis estadístico se deben seguir las siguientes

etapas:

1. Plantear el contraste de hipótesis, definiendo la hipótesis nula (H0, hipótesis que se

desea contrastar), y la hipótesis alternativa (H1, cualquier forma de negación de la

hipótesis nula).

2. Definir una medida de discrepancia entre la información que proporciona la muestra( ) y la hipótesis H0. Esta medida de discrepancia

se denomina estadístico del contraste y será cualquier función de los datos muestrales ) y de la información de la hipótesis nula H0.

La medida de discrepancia debe seguir una distribución conocida cuando H0 sea cierta,

de forma que se pueda distinguir entre:

Una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir

cuando H0 es cierto.

Una discrepancia pequeña, la que tiene una probabilidad grande de ocurrir cuando H0

es cierta.

3. Decidir qué valores de d se consideran muy grandes, cuando H0 es cierto, para que

sean atribuibles al azar. Esto es, decidir que discrepancias se consideran inadmisibles

cuando H0 es correcto, lo que equivale a indicar el valor del nivel de significación, que

se denota por α.

4. Tomar la muestra ( ), calcular el valor del estadístico asociado a la muestra (valor

crítico del contraste) y analizar:

Si es pequeño (pertenece a la región de aceptación), entonces se acepta la

hipótesis H0.

Si es grande (pertenece a la región de rechazo), entonces se rechaza lahipótesis H0.





8

Al realizar un contraste se puede cometer uno de los dos errores siguientes:

Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.

Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.

Situación Real

H 0 es cierta H 0 es falsa

DECISIÓN

ACEPTAR H0 CORRECTO ERROR II

RECHAZAR H0 ERROR I CORRECTO

Tabla 2. Tipos de Errores

Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en

la mayoría de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I.

Se denomina nivel de significación de un contraste a la probabilidad de cometer un

error tipo I, se denota por α y, por tanto:

Fijar el nivel de significación α equivale a decidir de antemano la probabilidad máximaque se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de

significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño

como desee (normalmente se toma α = 0'05, 0'01 o 0'001).

La selección de un nivel de significación α conduce a dividir en dos regiones el conjunto

de posibles valores del estadístico de contraste:

La región de Rechazo, con probabilidad α, bajo H0.

La región de Aceptación, con probabilidad 1-α, bajo H0.

Figura 4. Nivel de Significación





9

Si el estadístico de contraste toma un valor perteneciente a la región de aceptación,

entonces no existen evidencias suficientes para rechazar la hipótesis nula con un nivel de

significación α y el contraste se dice que estadísticamente no es significativo. Si, por el

contrario, el estadístico cae en la región de rechazo entonces se asume que los datos no son

compatibles con la hipótesis nula y se rechaza a un nivel de significación α. En este supuesto se

dice que el contraste es estadísticamente significativo.

Por tanto, resolver un contraste estadístico es calcular la región de aceptación y la

región de rechazo y actuar según la siguiente regla de decisión:

Se obtiene la muestra ) y se calcula el estadístico del contraste

Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se

denomina:

Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya

región de rechazo está formada por una cola de la distribución del estadístico

de contraste, bajo H0.

Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya

región de rechazo está formada por las dos colas de la distribución del

estadístico de contraste, bajo H0.

Figura 5. Tipos de Contraste

Unilateral Bilateral





10

3.1 Test de las Rachas

El test de las rachas (Bradley, 1968), se usa para decidir si una serie de datos procede

de un proceso aleatorio. El test estudia el origen temporal o espacial en que las muestras han

sido recogidas, de modo que muestra si una serie de datos se está desviando de la sucesiónlógica o esperada, detectando que existe una tendencia no aleatoria en la aparición de los

mismos. El test está indicado para datos aleatorios que admita dos posibilidades excluyentes,

como estar por encima o por debajo de un valor medio.

El resultado del test será la aceptación o no de la hipótesis nula:

Si se rechaza H0 implica que los datos necesariamente proceden de dos poblacionesdiferentes: el conjunto de datos puede proceder de una sola población pero es

estadísticamente imposible por el hecho de rechazar H0 esperar que los datos recogidos

presenten una ordenación no aleatoria, es decir, que tengan algún tipo de tendencia. Esto se

usa para detectar el cambio de una población a otra.

La figura 6 indica una sucesión de valores que muestran las definiciones de los

parámetros del test.

R es el número de rachas o sucesiones de datos contiguos en la misma categoría.

En la figura 6 se observan cinco rachas de la categoría A, y cuatro de la categoría B. Eltest de las rachas espera, en función de las cantidades N A y NB, que el número de rachas R no

sea ni muy grande ni muy pequeño y lo acota estadísticamente.

Figura 6. Ejemplo Test de las Rachas





11

Se plantea la hipótesis nula H0 y la aleatoriedad de la muestra se rechaza con un nivel

de significación si:

O

La distribución está tabulada (Tabla 7 de Downie) para N A≤10 y NB≤ 10. Si son mayores

que 10 se admite una aproximación a una normal ( R R ) definida por:

El estadístico de contraste es:

Se rechaza la hipótesis con un nivel de significación α si:

En la figura 7 se observan cuatro casos de ordenaciones espaciales de 20 datos que

admiten la clasificación en las categorías excluyentes A o B.

El caso 1 muestra una sucesión de resultados temporal de carácter aleatorio, de 9

rachas, con 11 datos en la categoría A y 9 datos en la categoría B. El valor del número de

rachas con un nivel de significación = 0,05 correspondiente a estos valores es:

Y





12

Figura 7. Cuatro casos de ordenaciones espaciales

Como el valor del número de rachas R=9 está comprendido entre dicho intervalo se

acepta la hipótesis H0, que implica que la aparición de los datos en la serie es aleatoria y no

existe ningún patrón definido en la sucesión.

El caso 2 y el caso 3 se analizan de manera similar:

El caso 2 muestra una sucesión oscilante que presenta, con N A = 11 y NB = 9, un

número anormalmente bajo de rachas R=4, inferior a RNA, NB, /2=6, rechazándose la hipótesis de

que los datos se distribuyen aleatoriamente (evidente ya que es una serie oscilatoria).

El caso 3 tiene un número de rachas R=2, que indica que la ordenación no es aleatoria

sino que tiene clara tendencia.

El caso 4 tiene un número de rachas anormalmente alto R=20, que indica que los datos

tienen valores alternos y no siguen un patrón aleatorio.

Esta propiedad del test de las rachas es la que se va a usar para separar series de datos

en tramos homogéneos. Pero hay que convertir las series en grupos de datos que puedan ser

divididos en dos clases disjuntas. Esto se hace con los “Test 1” y “Test 2” que se describen a

continuación.

3.1.1 Test 1: Test de las Rachas para Valores Medios

Se usa para detectar series consecutivas con valores medios diferentes ( figura 8,

izquierda). Se separan los valores en dos grupos disjuntos comparando cada dato con el valormedio de los datos procesados en cada momento.

Al ser las series normales N( ) simétricas ( figura 8, derecha), y la probabilidad deestar por encima o por debajo del valor medio es p=0,5, se tiene la serie de datos en dos





13

grupos disjuntos, los valores que superan el valor medio y los que son inferiores a dicho valormedio.

Se contabiliza el número de rachas de los valores superiores e inferiores a la media,tratando como anormales las distribuciones en las que el valor del número de rachas seaanormalmente alto o bajo.

Como se desconoce el valor verdadero se usa su estimador ; de este modo losdatos serán de categoría A si x i < , y de categoría B si x i ≥.

Figura 8. Series consecutivas con valores medios diferentes

3.1.2 Test 2: Test de las Rachas para las Desviaciones

El objetivo es detectar variaciones en las varianzas como las mostradas en la figura 9

(izquierda). Para ello divide también en dos grupos disjuntos.Se hallan los puntos Z (0,25) y Z (1-0,25) que son los puntos de la curva normal que dejan a la

derecha e izquierda una probabilidad p=0,25 ( figura 9, derecha). Así se obtienen las siguienteszonas:

Zona “A” dentro del intervalo, y las zonas exteriores “B/2” con igual probabilidad. Así un dato escogido al azar de una población normal tiene la misma probabilidad de ser recogidode la zona interior que de las dos exteriores. Esto se debe a que los datos de una distribuciónnormal se distribuyen con igual probabilidad dentro y fuera del intervalo, presentado unadispersión determinada. No lo harán si se incorporan valores que, aunque sean normales conla misma media no tengan la misma desviación típica.

Deshaciendo la normalización y sustituyendo por los estimadores de y el valor de Z 0,25 y Z 0,75:

; Z 0,25 = -0,677; Z 0,75 = 0,677

Así, los datos estarán dentro de la categoría A si:

(μ1 ,σ 1 )

(μ2 ,σ 2 )

μ1 ≠μ2

σ 1= σ 2





14

Debido a la simetría:

Estarán en la categoría B:

Figura 9. Series consecutivas con desviaciones diferentes

3.2 Test de Igualdad de Medias y Varianzas

En la parte final del proceso la serie completa queda dividida en varios subtramos queconsideramos homogéneos, el problema es que el test de las rachas es bastante sensible y

divide la serie en un número excesivo de subtramos, dejando tramos consecutivos de muy

parecidas características y que pudieran englobarse en uno solo.

Para unir estos subtramos resultantes en uno solo se realizan dos test, denominados

“Test 3” y “Test 4”, con el fin de comprobar si es posible unir dos subtramos consecutivos,

debiendo para esto cumplir simultáneamente un test de igualdad de medias y otro de igualdad

de varianzas para que se proceda a la unión de los mismos.

3.2.1 Test 3: Test de Igualdad de Medias

Para determinar si dos muestras con n1 y n2 datos, procedentes de dos distribuciones

normales N1(μ1 ,σ 1 ) y N2(μ2 ,σ 2 ), cuyas varianzas suponemos conocidas, tienen valores para la

media que puedan considerarse estadísticamente similares, se utiliza el contraste de medias

con varianzas conocidas, planteando la siguiente hipótesis nula:

(μ1 ,σ 1 )

(μ2 ,σ 2 )

μ1 = μ2 σ 1≠ σ 2





15

Para ello nos basamos en la distribución del siguiente estimador de contraste:

Y hacemos un contraste bilateral:

Definimos entonces:

Y el test consiste en:

Lo que nos deja el test como:





16

3.2.2 Test 4: Test de Igualdad de Varianzas

Este contraste está indicado para determinar si dos muestras de n y m datos de dos

poblaciones N1(μ1 ,σ 1 ) y N2(μ2 ,σ 2 ), tienen varianzas similares. La igualdad entre las dos varianzas

puede escribirse , o bien, la existencia de una diferencia entre ambas ( ∆), delmodo .

Este modo de escribir la diferencia entre varianzas (que era el adecuado para las

medias) no es sin embargo fácil de utilizar para las varianzas, de modo que nos será más fácil

sacarle partido a las expresiones de las relaciones entre varianzas como:

Por ejemplo, si R=1 tenemos que ambas varianzas son iguales. Planteando la siguiente

hipótesis nula:

La cual vamos a contrastar teniendo en cuenta que:

Por tanto el estadístico del contraste que nos conviene tiene una distribución conocida

cuando H0 es cierta. Distribución F de Snedecor :

Lo que nos deja un estimador de contraste:

Y hacemos un contraste bilateral para R=1:





17

Definimos entonces un estadístico experimental y los límites de la región crítica como:

Y el criterio de aceptación rechazo es:

Lo que nos deja el test como:

4. Descripción del Proceso de Sectorización

El proceso se lleva a cabo en cuatro fases. En una primera fase, “División ascendente” ,se divide la serie completa en tramos de igual media y varianza, por medio de los test de

rachas “Test 1” y “Test 2”, que utilizan dos categorizaciones diferentes, una que nos permite

detectar tramos con diferentes valores medios y la otra tramos con diferentes varianzas. Esta

división se realiza suponiendo los datos ordenados tal y como se encontraron espacialmente.

A continuación se divide la serie completa en tramos, por medio de los dos test de

rachas “Test 1” y “Test 2”, con las dos categorizaciones citadas, pero esta vez la división se

realiza suponiendo los datos ordenados en el sentido inverso al anterior, “División

descendente” .





18

Combinando los tramos en que queda dividida la serie de datos con las divisiones

ascendente y descendente, se consigue una subdivisión de los datos en subtramos

independientes del sentido de medida, “División en subtramos” .

Por último se realiza una “Recombinación de los subtramos” resultantes que

estadísticamente puedan ser iguales por medio de una matriz de estimadores puntuales deigualdad de medias y varianzas, utilizando los “Test 3” y “Test 4”, descritos con anterioridad.

A continuación se describen con detalle cada una de estas fases.

4.1 División Ascendente

El programa recoge los cinco primeros datos en orden ascendente y a partir del sexto

dato comienza el proceso de detección de los tramos. La razón de evitar estos primeros datos

es que en una ordenación de tan solo 5 datos, cualquier combinación de rachas y valores dedatos en las categorías A y B son plausibles con un nivel de significación de α=0.05, por lo tanto

no se pueden detectar tramos con un número de datos inferior a 5.

A partir del sexto dato, el proceso mostrado en la Tabla 3, es el siguiente, se calcula la

media y la desviación S6 de los 6 primeros datos y a continuación se realiza el test de las

rachas para la media, comparando los datos desde x 1 hasta x 6 con el valor obtenido de .

Asignándolos a la categoría A si x i < en la categoría B si x i ≥ y contabilizando los cambios

de categoría consecutivos para obtener el número de rachas.

De esta manera obtendremos los valores A6 , B6 y R6, que representan respectivamente

el número de datos en la categoría A, en la B y el número de rachas observado hasta el dato nº

6.

Tabla 3. Ejemplo división Ascendente





19

Tras esto se realiza el test de las rachas para la desviación, comparando los datos

desde x 1 hasta x 6 con el valor obtenido de x 0.25. Asignándolos a la categoría A si y en la categoría B si y contabilizando los cambios de categoría

consecutivos para obtener el número de rachas. De esta manera obtendremos los valores A’ 6 ,

B' 6 y R' 6.

En este momento se tienen los valores, A6 , B6 , R6 y A’ 6 , B’ 6 , R’ 6 con los cuales se

estima si la serie hasta ese momento es o no aleatoria.

Mientras alguno de los dos valores A6 o B6 no superen el valor de 10 se realiza una

comprobación en las tablas y se comprueba que:

Si el valor obtenido para el número de rachas R6 está comprendido en el intervalo se

acepta la hipótesis de que los datos están distribuidos aleatoriamente.

En el caso de que uno de los dos valores, An, o Bn, supere el valor de 10 se realiza la

aproximación a la normal según las fórmulas descritas anteriormente:

Aceptándose la hipótesis de que los datos están distribuidos aleatoriamente con unnivel de significación α si:

O lo que es lo mismo:

Se procede de igual manera para los valores A’ 6 , B' 6 y R' 6.





20

Si los dos test son positivos y aceptan la hipótesis de que los datos están distribuidos

aleatoriamente, se repite el proceso añadiendo un dato más y recalculando todos los

parámetros.

En cambio si hay datos que proceden de distintas series llegará un momento, en el

dato enésimo, en el que uno de los dos test rechazará la hipótesis de que los datos procesadoshasta ese momento están distribuidos aleatoriamente. En este caso dependiendo del test que

presente el rechazo se actuará, de una u otra manera.

4.1.1 Caso de Rechazo por el Test 1

Para explicar esto veamos la figura 10 en la que se han representado dos series

consecutivas N1(μ1 ,σ 1 ) y N2(μ2 ,σ 2 ) con valores medios y desviaciones diferentes. Vemos el valor

medio calculado hasta el dato enésimo y el punto de detección donde el test de las rachas

indica que los datos procesados hasta ese momento no siguen una distribución aleatoria.

Figura 10. Rechazo por el valor medio

Como se puede apreciar este punto de detección siempre será posterior al punto real

en que los datos cambiaron de una distribución a otra debido a que es necesario incorporar k

datos de la serie N2 a la serie N1 para que el test de las rachas detecte que existe una

anormalidad en el conjunto de datos procesados.

Para poder determinar entonces qué porción de los datos procesados no

corresponden a la serie N1 y poder eliminarlos estudiaremos los datos de la última racha y los





21

compararemos con los anteriores. Así calculamos el valor de la media y la desviación, y

anteriores al punto de cruce de la última racha y los posteriores a dicho punto y .

Si las dos series N1 y N2 tuviesen la misma media, todos los datos de la última racha

serían de la serie N1, para lo cual el estadístico del contraste para la igualdad de medias de las

dos poblaciones debería ser igual a 0, por el contrario, si fuesen muy diferentes, el estadísticotenderá a tomar valores elevados e indicaría que ningún valor de la última racha tiene

probabilidad de ser de la serie N1.

El estadístico citado para el contraste es el de igualdad de dos medias con varianzas

conocidas:

donde es la cuasivarianza muestral ponderada.

Como se trata tan solo de realizar una sencilla estimación y el valor de para

valores elevados de Na y Nb se puede aproximar a una N(0,1), tomaremos como valor más

elevado para este estadístico T=3, que corresponde a casos francamente aberrantes.

De esta manera estimamos la siguiente relación para el número de datos de la últimaracha a agregar a los datos de N1:

donde DN1 es el número de datos de la última racha de k datos que se estiman pertenecientes

a la serie N1. Como el número de datos no puede ser un número fraccionario, tomaremos la

parte entera de la estimación, quedando finalmente la expresión:

Una vez obtenido el número de datos que se estiman pertenecen a N1, tendremos

definido el primer tramo del sentido ascendente que estará comprendido entre el dato 1 y el

dato n-k+DN1. A partir de este momento se reiniciará el cálculo desde el dato n-k+DN1+1, hasta

el momento en que o bien finalicen los datos, o bien se obtenga un resultado negativo de uno

de los test de las rachas que indicaría que existe una tercera agrupación, repitiéndose el

proceso hasta rastrear todos los datos de la serie.





22

4.1.2 Caso de Rechazo por el Test 2

Veamos ahora en la figura 11 en la que se han representado dos series consecutivas

N1(μ,σ 1 ) y N2(μ,σ 2 ) y con valores medios iguales y desviaciones diferentes.

Figura 11. Rechazo por la desviación

En este caso, el dato que separa las categorías es , según se indica en el

apartado 3.1.2, y se compara con

para obtener el número de rachas que quedan

en cada categoría.

Vemos el valor calculado hasta el dato enésimo y el punto de detección

donde el test de las rachas indica que los datos procesados hasta ese momento no siguen una

distribución aleatoria.

Se puede apreciar que como en el caso anterior, el punto de detección tiene que ser

posterior al punto real en que los datos cambiaron de una distribución a otra debido a que es

necesario incorporar k datos de la serie N2 a la serie N1 para que el test de las rachas detecte

que existe una anormalidad en el conjunto de los datos procesados.

Para estimar qué parte de los k datos de la última racha pueden pertenecer a la serieN1 y dado que partimos de series que tienen medias similares, podemos comparar

directamente sus desviaciones típicas y podemos decir que si (σ 1 / σ 2 )=1, todos los datos de la

última racha pertenecerían a la serie N1 y estimaremos por el contrario que si (σ máx / σ mín )>3,

ningún dato de la última racha pertenece a la serie N1.

Para lo anterior, será necesario definir cuál de las dos desviaciones es la máxima y cuál

la mínima, con el fin de que la división siempre sea superior a 1. Sustituyendo σ por su

estimador , obtendremos en número de datos estimado DN1.





23

Una vez obtenido el número de datos que se estiman pertenece a N1, tendremos

definido el primer tramo del sentido ascendente que estará comprendido entre el dato 1 y el

dato n-k+DN1.

A partir de este momento se reiniciará el cálculo desde el dato n-k+DN1+1, hasta el

momento en que, o bien finalicen los datos, o bien se obtenga un resultado negativo de unode los test de las rachas que indicaría que existe una tercera agrupación, repitiéndose el

proceso hasta rastrear todos los datos de la serie. De esta manera conseguiremos definir en

sentido ascendente m subtramos, desde N1 hasta Nm.

4.2 Segunda División (Descendente)

De igual manera se repite todo el proceso pero esta vez empezando los cálculos en

sentido descendente, o sea desde el último dato hacia el primero y obteniendo entonces p

subtramos, desde D1 hasta D p.

4.3 División en Subtramos

Con la combinación de los tramos obtenidos en sentido ascendente con los obtenidos

en sentido descendente, figura 12, logramos una división de los datos en diversos subtramos.

Como vemos en la figura, se han representado una serie de datos que ha quedado

dividida en cuatro tramos en sentido ascendente, desde N1 hasta N4, en sentido descendente

ha quedado también dividida en otros cuatro tramos, desde D1 hasta D4 y con la combinación

de ambos sentidos la división final consta de 8 subtramos, nombrados desde ST 1 hasta ST 8, que

serán sobre los que se realice el último paso del proceso.

4.4 Recombinación Final de Subtramos

Debido a la sensibilidad del test de las rachas y la combinación de los subtramos

ascendentes y descendentes es posible que algunos subtramos consecutivos sean

estadísticamente similares y por lo tanto no sea procedente realizar esa división y lo lógico esrecombinar esos tramos adyacentes.





24

Figura 12. División en subtramos y combinación

En este punto surge la duda de en qué orden realizar la recombinación, ya que

dependiendo de ésta los resultados pueden ser muy diferentes. Si volvemos sobre la figura 12

y observamos los subtramos ST 3, ST 4 y ST 5 , es posible pensar que ST 4 pueda ser

estadísticamente similar a ST 3 o a ST 5, al realizar los contrastes de hipótesis para la media y la

desviación es perfectamente posible que ambas hipótesis sean ciertas, o sea que siendo:

Se cumpla simultáneamente que:

En el caso de unir el tramo ST 3 con el ST 4 para conseguir un nuevo tramo ST 34,

tendremos con gran probabilidad que el tramo resultante, ST 34, no se podrá recombinar con el

ST 5 o sea que, μ34≠ μ5 y σ 34≠ σ 5 de la misma manera ocurriría de unir primeramente el tramo

ST 4 con el ST 5.

Para efectuar entonces la recombinación de los subtramos lo que se realiza es un

contraste de hipótesis de igualdad de medias e igualdad de varianzas entre todos los

subtramos consecutivos, hallándose una matriz de estimadores con k-1 elementos, que

contendrán los estadísticos (Z 12 ,H12 ), (Z 23 ,H23 )....(Z (k-1)k , H(k-1)k ).

Siendo Z 12, Z 23 ,... Z (k-1)k el estadístico del contraste para la igualdad de medias.





25

Y H12, H23 ,... H(k-1)k , el valor expresado como verdadero o falso al haber realizado las

hipótesis de igualdad de varianzas.

De todos los estimadores Z 12, Z 23 ,... Z (k-1)k , se seleccionan los que estén en valor

absoluto por debajo de la región de aceptación para la igualdad de medias:

, con el nivel de significación α escogido y en los cuales el test de igualdad de varianzas haya

resultado positivo, o sea que simultáneamente se cumpla que:

Esta selección corresponde a todos los subtramos consecutivos que son susceptibles

de ser unidos, por tener un valor medio y una varianza estadísticamente similares.

De entre todo el conjunto solo se selecciona el que presente el mínimo valor de Z.

Entonces si el valor de Z y(y+1) es el mínimo del conjunto, esto representará que los dos

subtramos, consecutivos ST y y ST (y+1) son los que tienen más probabilidad de tener medias

similares. No siendo necesario realizar un test de igualdad de varianzas ya que el conjunto solo

contiene datos de subtramos que hayan superado el test de igualdad de varianzas, que implica

que Hy(y+1)=Verdadero.

De esta manera recombinamos los subtramos que tienen más probabilidades de tener

medias iguales, independientemente del lugar en el que se encuentren dentro de la serie.

Siendo el elemento seleccionado el ( Z y(y+1), Hy(y+1)) se procede a eliminar la división y

considerar el tramo ST y y el ST (y+1) como uno solo, recalculando la media y la desviación del

nuevo tramo.





26

Al recalcular la media y desviación del nuevo tramo, también habrá que recalcular la

matriz de estimadores que pasará a tener un elemento menos, ya que dos de los tramos se

habrán fusionado en uno.

El proceso se repetirá hasta que no exista ningún Z y(y+1) que cumpla que

y

simultáneamente cumpla que Hy(y+1) sea verdadero.

En este momento el proceso se da por concluido, quedando finalmente la serie de

datos dividida en tramos con características similares y que pueden ser resumidos con sus

valores medios y desviaciones, ya que todos los subtramos serán homogéneos.

Debido a que el procedimiento es relativamente complejo y laborioso ha sido

necesario implementarlo en un programa informático. En el desarrollo del programa final se

han introducido pequeñas modificaciones para adecuarlo a casos particulares no recogidos en

el caso general, como pueden ser los casos en que los datos consecutivos sean iguales o el

tratamiento de datos con valores negativos etc.

Ahora veremos un esquema a modo de resumen del proceso.





27

4.5 Resumen Procedimiento

4. RECOMBINACIÓN

Test de igualdadde Medias y Varianzas

1. DIVISIÓN ASCENDENTE

Orden igual al de toma de datos

TEST DE LAS RACHASPARA LA MEDIA

TEST DE LAS RACHASPARA LA DESVIACIÓN

TEST POSITIVOMuestra aleatoria

TEST NEGATIVOMedia y desviación

iguales

TEST NEGATIVOMedias iguales y

desviaciones diferentes

Nº de datos delprimer tramo DN1

Añadir datos,recalcular yrehacer Test

2. DIVISIÓN DESCENDENTE

Orden inverso al de toma de datos

3. DIVISIÓN EN SUBTRAMOS

Combinación de las dosdivisiones anteriores

TEST DE IGUALDADDE MEDIAS

TEST POSITIVOSimultáneamente

TEST DE IGUALDADDE VARIANZAS

Combinar subtramos conmás probabilidad detener medias iguales

SECTORIZACIÓN

COMPLETADA

División enmsubtramos

Nº de datos delprimer tramo DN1

División en nsubtramos





28

5. Caso Práctico

Con el fin de poner en práctica este método hemos realizado la sectorización de un

tramo de 1 km de longitud de la CR-5003 (Variante sur de Puertollano).

Disponíamos de los datos de deflexiones de ambos carriles. Y realizamos en una

práctica anterior la sectorización en tramos homogéneos de forma manual, cumpliendo las

especificaciones de la Norma 6.3-IC. Rehabilitación de Firmes, en su apartado 2.1referente a

los criterios de tramificación.

Lo que nos daba como resultado cinco subtramos para el carril derecho, y cuatro para

el carril izquierdo.

0

20

40

60

80

100

120

140

160

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D

e f l e x i ó n P a t r ó n ( m m / 1 0 0 )

PK

DEFLEXIONES CARRIL DERECHO

0

20

40

60

80

100

120

140

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D e f l e x i o n e s P a t r ó n ( m m / 1 0 0 )

PK

DEFLEXIONES CARRIL IZQUIERDO





29

Como se puede comprobar a simple vista la sectorización manual, aunque cumple con

los criterios de la norma, no genera tramos homogéneos, ya que admite una desviación muy

grande y pone como límite mínimo de longitud de subtramo 100 m, por motivos constructivos.

Con el nuevo método la sectorización con un nivel de confianza del 95% da comoresultado:

0

20

40

60

80

100

120

140

160

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D e f l e x i o n e s ( m m / 1 0 0 )

PK

SECTORIZACIÓN CARRIL DERECHO

0

20

40

60

80

100

120

140

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D e f l e x i o n e s ( m m

/ 1 0 0 )

PK

SECTORIZACIÓN CARRIL IZQUIERDO





30

Vemos como los subtramos son mucho más homogéneos que antes, en el carril

derecho pasamos de 5 subtramos a 16, y en el izquierdo de 4 a 10, la pequeña longitud de

algunos sectores se debe a que el programa está diseñado para todo tipo de datos de

auscultación que sigan una distribución normal, en el caso concreto de las deflexiones, no

contempla los criterios de la Norma 6.3 IC , como la mínima longitud de subtramo.

Sin embargo bien añadiéndole estos parámetros al programa o bien realizando una

última recombinación de tramos adyacentes de escasa longitud por parte del técnico

encargado de analizar estos datos y dar las soluciones de rehabilitación, el nuevo método se

muestra mucho más preciso y por lo tanto mejorará el diagnóstico de la carretera y la

optimización de los recursos necesarios para su rehabilitación.

Comparamos ambos métodos:





31

0

20

40

60

80

100

120

140

160

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D e f l e x i ó n P a t r ó n ( m m / 1 0 0 )

PK

CARRIL DERECHO

Deflexiones

Manual

Automático





32

0

20

40

60

80

100

120

140

7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315

D e f l e x i o n e s P a t r ó n ( m m / 1 0 0 )

PK

CARRIL IZQUIERDO

Deflexiones

Manual

Automático





33

6. Conclusiones

Importante una correcta identificación de los sectores con las mismas características

para tomar las medidas correctoras adecuadas al tramo, con el fin de optimizar los

recursos disponibles y no aplicar medidas en tramos que no las necesiten o bien pasar

por alto tramos que no cumplen determinadas especificaciones.

El método tiene un carácter general y se puede utilizar para cualquier serie de datos

de auscultación que sigan una distribución normal.

EI nuevo método propuesto, una vez informatizado, ha resultado ser muy útil en la

separación de tramos, en nuestro caso de datos deflexiones.

El método es totalmente automático, tiene pocos parámetros de configuración, puede

ser ajustada su sensibilidad por medio de los niveles de confianza para así obtener

resultados adecuados a cada fin particular y no necesita de ningún dato niconfiguración para ajustar la escala.

Es muy robusto a la presencia en las series con valores aberrantes, Io cual permite, una

vez finalizado el proceso, la detección de los citados valores, dentro de los subtramos

en los que queda dividida la serie completa.

7. Bibliografía y Agradecimientos

YANGUAS GONZÁLEZ, Sixto José: Nuevo método para el tratamiento y análisis de datos

de auscultación de carreteras. Revista Ingeniería Civil. Centro de Estudios

Experimentales de Obras Públicas (CEDEX). Ministerio de Fomento. Madrid. nº 150,

(2008) p. 23 -33.

RÍUS DÍAZ, Francisca, et al. Bioestadística: métodos y aplicaciones. Universidad de

Málaga.

Nuestro más sincero agradecimiento a D. Sixto José Yanguas González por su ayuda a

la hora de realizar este trabajo.

MONOGRÁFICO Final

Documents