Descriptores visuales

UNIVERSIDAD AUTNOMA DE MADRID

ESCUELA POLITCNICA SUPERIOR

PROYECTO FIN DE CARRERA

Estudio comparativo dedescriptores visuales parala deteccin de escenas

cuasi-duplicadas

scar Boullosa GarcaFebrero de 2011

Estudio comparativo dedescriptores visuales para la

deteccin de escenascuasi-duplicadas

AUTOR: scar Boullosa GarcaTUTOR: Vctor Valds Lpez

PONENTE: Jos Mara Martnez Snchez

Video Processing and Understanding LabDpto. de Ingeniera InformticaEscuela Politcnica Superior

Universidad Autnoma de MadridFebrero de 2011

i

AbstractThis M.Sc. Thesis presents a comparative study of visual descriptors with an

exhaustive evaluation for near-duplicate1 scene detection within video content.The concept of near-duplicate images refers to a different geometric and pho-tometric transformations of the images that belong to the same scene amongseveral types of video scene. As a content set for the study we have createda proprietary database of real images made up from different sets of videossuch as the BBC rushes videos from TRECVID Video Retrieval Evaluation2 orTime-Slice Films videos from Vimeo3 among others.

We first start by describing certain features, techniques and methods ofduplicate image detection based on different algorithms and image features pro-posed in the literature. After an introduction to near-duplicate scene detectionand an exposition of different applications related to this issue, a review of thestate of the art of the selected visual descriptors and content-based image re-trieval techniques is presented. Below a comparative analysis of the selectedmethods is performed, including the proposal of improvements for the existingtechniques by their combination.

In the experimental section, we have carried out different improvements ofevery basic algorithm which are included in a optimization stage showing theadvantages and disadvantages of each visual descriptor by a comparative evalu-ation. Then individual and combined refinements have been performed in orderto demonstrate the improvements sought respect to the original results. Besides,a computational cost evaluation of the improved techniques has been performedin order to obtain more rigorous and useful conclusions for the inclusion of thetechniques to in real systems.

As a result we have obtained the combination of techniques that performbetter in terms of precision and computational performance. Finally, the con-clusions and feature work directions are presented.

KeywordsVisual descriptors, low-level features, histogram, color layout, correlogram,

SIFT, SURF, near-duplicate detection, video summarization, video retrieval.1From this point the near-duplicate image term will be referenced as duplicate image2http://trecvid.nist.gov/3http://vimeo.com/timeslice

iii

ResumenEste Proyecto presenta un estudio comparativo en profundidad de diversos

descriptores de imagen con una exhaustiva evaluacin de los mismos dentro delmarco de la deteccin automtica de imgenes afectadas por diferentes trasfor-maciones tanto geomtricas como fotomtricas y pertenecientes a distintos tiposde escenas. Como conjunto de datos para la implementacin se ha creado unabase de datos propia conformada a partir de diferentes colecciones de vdeos, en-tre las que cabe mencionar los BBC rushes videos pertenecientes al TRECVIDVideo Retrieval Evaluation4 o los vdeos contenidos en Time-Slice Filmsvideos from Vimeo5 entre otros.

Como punto de inicio, se parte de una serie de caractersticas, tcnicas ymtodos de deteccin de imagenes cuasi-duplicadas6 basados en diferentes al-goritmos y peculiaridades de las imgenes propuestos en la literatura. Tras unaintroduccin a la deteccin de imgenes cuasi-duplicadas pertenecientes a unamisma escena y hacer referencia a algunas de las distintas aplicaciones queguardan relacin con esta problemtica, se presenta un estudio del estado delarte sobre las diferentes tcnicas o descriptores de imagen elegidos para el desar-rollo de este proyecto para a continuacin realizar un anlisis comparativo de losmtodos elegidos, incluyendo las propuestas de mejoras en las tcnicas actualesmediante mejoras parciales en las mismas as como combinacin de algunas deellas.

En la seccin experimental se llevan a cabo diversas pruebas relacionadascon la optimizacin de los algoritmos base de cada uno de las descriptores selec-cionados de modo que se puedan evidenciar de forma comparativa las ventajase inconvenientes de cada uno de ellos. A continuacin se elaboran diferentesrefinamientos para que tanto de manera individual como combinada se puedanpresentar mejoras respecto de los resultados iniciales. Adems de la evaluacinde las mejoras funcionales, tambin se realiza un anlisis del coste computa-cional de las mismas elaborando de este modo unas conclusiones ms rigurosascon el fin de poder ser utilizadas en una implantacin dentro de un sistema real.

Como resultado global se han obtenido una serie de combinaciones de tc-nicas que aumentan el rendimiento del sistema. Finalmente, se presentan lasconclusiones y se proponen lneas de trabajo futuro.

Palabras claveDescriptores de imagen, caractersticas de bajo nivel, histograma, color lay-

out, correlograma, SIFT, SURF, deteccin de imgenes cuasi-duplicadas, resmenesde vdeo, recuperacin de vdeos.

4http://trecvid.nist.gov/5http://vimeo.com/timeslice6En adelante el trmino imgenes cuasi-duplicadas ser referenciado como imgenes dupli-

cadas

iv

AgradecimientosTras un largo camino recorrido es el momento de hacer balance y agradecer

de la manera ms sincera a todas aquellas personas que han contribuido dealguna manera en la realizacin de este Proyecto.

En primer lugar quiero agradecer a mi ponente Jos Mara Martnez pordarme la oportunidad de realizar este proyecto y por haber formado parte deun grupo de profesores que han incentivado en mi el inters por aprender y lasganas de trabajar durante todos estos aos.

Quiero agradecer muy especialmente a mi tutor Vctor Valds por la dedi-cacin y disponibilidad en todo momento que aderezadas con su experiencia hanhecho posible la elaboracin de este Proyecto. Gracias por tener siempre un hue-co en el que poder discutir juntos las dudas surgidas y por los consejos aportadospara llevar el trabajo aqu presentado un paso ms all y sugerir la creacin desu publicacin. En resumen, un gran profesor que disfrutarn los estudiantes deesta escuela.

Gracias a mis compaeros de universidad por haber formado parte de mi vidadurante una larga etapa que siempre recordar y en la que sin ellos no hubierasido lo mismo. Gracias a Pablo, Fabio y Luis por todos los momentos de risas,prcticas y abrazos que al paso del tiempo se han transformado en un grancario. A Pablo, Javier, Rubn y compaa por las risas y los buenos momentosdurante las clases y los descansos. Tambin a Jos Rubn por acompaarmeen el camino que juntos emprendimos dejando atrs a otros buenos amigos yaguantar mis diferencias durante todos estos aos.

Gracias a mi familia por todo el apoyo y la ilusin compartida durante todami vida. Vuestro amor y cario me han ayudado a superar los malos momentosy disfrutar de todos los buenos. Son los valores que me habis transmitido losque me han enseado lo que realmente es importante en la vida. Gracias deverdad por todo vuestro sacrificio para permitirme haber estudiado esta carrera.

Y en especial, gracias a Catalina, la persona ms importante de mi vida porestar a mi lado y compartir todos los momentos. Tus nimos y amor incondi-cional me han aportado la fuerza suficiente para superar cualquier adversidad.Nunca podre agradecer todos los esfuerzos que has hecho por mi para conseguirque sea, por encima de todo, una persona feliz y podamos seguir nuestro caminojuntos, compartiendo toda la grandeza del maana. Te quiero.

scar Boullosa Garca,Febrero 2011.

v

NDICE GENERAL

ndice Generalndice de figuras ix

ndice de tablas xi

1. Introduccin 11.1. Motivacin del proyecto . . . . . . . . . . . . . . . . . . . . . . . 11.2. Objetivos y enfoque . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Organizacin de la memoria . . . . . . . . . . . . . . . . . . . . . 4

2. Descriptores de Imagen 62.1. Introduccin a los Descriptores de Imagen . . . . . . . . . . . . . 62.2. Clasificacin de los Descriptores de Imagen . . . . . . . . . . . . 82.3. Evaluacin de Descriptores . . . . . . . . . . . . . . . . . . . . . 12

2.3.1. Evaluacin de descriptores respecto de la deteccin de es-cenas similares . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.2. Evaluacin de descriptores en sistemas de recuperacinbasados en el contenido (CBIR) . . . . . . . . . . . . . . . 13

2.3.3. Otras evaluaciones . . . . . . . . . . . . . . . . . . . . . . 14

3. Descriptores de Imagen Utilizados 173.1. Histograma de Color . . . . . . . . . . . . . . . . . . . . . . . . . 183.2. Color Layout Descriptor (CLD) . . . . . . . . . . . . . . . . . . . 223.3. Correlograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4. Scale Invariant Feature Transform (SIFT) . . . . . . . . . . . . . 303.5. Speeded Up Robust Features (SURF) . . . . . . . . . . . . . . . 383.6. Ventajas e Inconvenientes de los descriptores utilizados . . . . . . 46

4. Evaluacin de Descriptores Aplicados a la Identificacin deImgenes Cuasi-Duplicadas 494.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2. Contenido de la Base de Datos . . . . . . . . . . . . . . . . . . . 504.3. Sistema de Evaluacin . . . . . . . . . . . . . . . . . . . . . . . . 554.4. Optimizacin de Descriptores: Anlisis intra-descriptor . . . . . . 57

4.4.1. Histogramas de Color RGB y HSV . . . . . . . . . . . . . 584.4.2. Color Layout . . . . . . . . . . . . . . . . . . . . . . . . . 614.4.3. Correlograma . . . . . . . . . . . . . . . . . . . . . . . . . 614.4.4. SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.4.5. SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.5. Comparacin de Descriptores: Anlisis inter-descriptor . . . . . . 744.5.1. Cambios de ngulo . . . . . . . . . . . . . . . . . . . . . . 744.5.2. Cambios de iluminacin . . . . . . . . . . . . . . . . . . . 764.5.3. Escenas con movimiento de objetos . . . . . . . . . . . . . 774.5.4. Variaciones de zoom . . . . . . . . . . . . . . . . . . . . . 784.5.5. Anlisis de un escenario global . . . . . . . . . . . . . . . 80

vii

NDICE GENERAL

4.6. Combinacin de Descriptores . . . . . . . . . . . . . . . . . . . . 824.7. Coste Computacional . . . . . . . . . . . . . . . . . . . . . . . . . 87

5. Conclusiones y trabajo futuro 91

Glosario de acrnimos 94

Bibliografa 96

Anexo I Mtricas L1 y L2 i

Anexo II Resultados de las comparaciones iii

Presupuesto ix

Pliego de condiciones xi

Publicaciones xv

viii

NDICE DE FIGURAS

ndice de figuras2.1. Descriptores local vs. global . . . . . . . . . . . . . . . . . . . . . 92.2. Descriptores visuales del estndar MPEG-7 . . . . . . . . . . . . 103.1. Espacios de color: (a) RGB y (b) HSV . . . . . . . . . . . . . . . 193.2. Representacin del histograma RGB . . . . . . . . . . . . . . . . 203.3. Representacin del histograma HSV . . . . . . . . . . . . . . . . 213.4. Diagrama Color Layout Descriptor . . . . . . . . . . . . . . . . . 233.5. Divisin de la imagen en regiones . . . . . . . . . . . . . . . . . . 233.6. Seleccin del color ms representativo de cada regin . . . . . . . 243.7. Dominio espacial y frecuencial DCT . . . . . . . . . . . . . . . . 253.8. Exploracin en zigzag . . . . . . . . . . . . . . . . . . . . . . . . 263.9. Imgenes de ejemplo correlograma . . . . . . . . . . . . . . . . . 283.10. Funcionamiento del correlograma . . . . . . . . . . . . . . . . . . 293.11. Creacin del espacio-escala Gaussiano. . . . . . . . . . . . . . . . 323.12. Localizacin de mximos y mnimos locales. . . . . . . . . . . . . 333.13. Descriptor de los puntos de inters . . . . . . . . . . . . . . . . . 363.14. Diagrama de bloques del descriptor SIFT . . . . . . . . . . . . . 373.15. Representacin del matching para el descriptor SIFT . . . . . . . 373.16. Representacin de la intensidad de una regin respecto de la im-

agen integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.17. Espacio escala SIFT vs. SURF . . . . . . . . . . . . . . . . . . . 403.18. Derivadas parciales de segundo orden de un filtro gaussiano y su

aproximacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.19. Representacin grfica de la longitud de los filtros de diferentes

octavas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.20. Filtros de Haar empleados en el descriptor SURF . . . . . . . . . 433.21. Asignacin de la orientacin de cada sector . . . . . . . . . . . . 443.22. Respuestas de Haar en las sub-regiones alrededor del punto de

inters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.23. Representacin del matching para el descriptor SURF . . . . . . 464.1. Diagrama de las etapas de desarrollo . . . . . . . . . . . . . . . . 494.2. Esquema de la base de datos de imgenes . . . . . . . . . . . . . 514.3. Ejemplo de imgenes afectadas por cambio de ngulo . . . . . . . 524.4. Ejemplo de imgenes afectadas por cambio de iluminacin . . . . 534.5. Ejemplo de imgenes con movimiento de los objetos que la com-

ponen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.6. Ejemplo de imgenes afectadas por variacin de zoom . . . . . . 544.7. Ejemplo de curvas PR . . . . . . . . . . . . . . . . . . . . . . . . 564.8. Esquema del descriptor correlograma de color . . . . . . . . . . . 634.9. Eliminacin de correspondencias espreas . . . . . . . . . . . . . 684.10. Comparacin descriptores cambio de ngulo . . . . . . . . . . . . 764.11. Comparacin descriptores cambio de iluminacin . . . . . . . . . 774.12. Comparacin descriptores en escenas con movimiento de los ob-

jetos que la componen . . . . . . . . . . . . . . . . . . . . . . . . 79

ix

NDICE DE FIGURAS

4.13. Comparacin descriptores variacin de zoom . . . . . . . . . . . . 794.14. Diferencia entre descriptor SIFT y combinacin de descriptores

HSV-SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.1. Ejemplo de imgenes relacionadas descriptor SIFT . . . . . . . . iv5.2. Ejemplo de imgenes relacionadas descriptor HSV . . . . . . . . v5.3. Ejemplo de imgenes relacionadas descriptor SURF . . . . . . . . vi5.4. Ejemplo de imgenes relacionadas combinacin descriptores HSV-

SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

x

NDICE DE TABLAS

ndice de tablas1. Ventajas e inconvenientes de los descriptores . . . . . . . . . . . . 472. Optimizacin histograma a) RGB y b) HSV . . . . . . . . . . . . 603. Optimizacin Correlograma . . . . . . . . . . . . . . . . . . . . . 644. Optimizacin descriptor SIFT . . . . . . . . . . . . . . . . . . . . 715. Optimizacin descriptor SURF . . . . . . . . . . . . . . . . . . . 736. Comparacin de descriptores . . . . . . . . . . . . . . . . . . . . 757. Combinacin de descriptores . . . . . . . . . . . . . . . . . . . . 848. Coste computacional de descriptores . . . . . . . . . . . . . . . . 88

xi

1 INTRODUCCIN

1. Introduccin

1.1. Motivacin del proyectoEn la ltima dcada se ha producido un aumento sin precedentes con respec-

to a la cantidad de contenidos audiovisuales disponibles debido principalmenteal uso masivo de Internet y a la proliferacin de dispositivos multimedia en elmbito cotidiano tanto a nivel empresarial como personal. La necesidad de solu-ciones adecuadas es cada vez ms demandada en distintas y tan variadas reascomo Internet, aplicaciones de usuario, TV, bibliotecas digitales, aplicacionesmedicas, etc. y se requieren mtodos de acceso y gestin de la informacin parahacerla disponible de una manera ms eficiente. Se pueden mencionar comoejemplos grandes bases de datos de vdeo como Youtube, distribuidores de con-tenidos que desean crear de forma automtica resmenes de vdeos o agenciasde noticias y compaas de radiodifusin que contienen grandes colecciones devdeos y que podran crear pequeos resmenes para facilitar las bsquedas porcontenido de una manera ms eficiente.

Las tcnicas mencionadas anteriormente tienen una caracterstica en comn:representan el contenido mediante valores numricos, que componen las car-actersticas o descriptores, y que extraen diferentes propiedades del contenidopermitiendo as un tratamiento ms objetivo y con independencia de la natu-raleza del contenido. Con respecto al mbito visual, dichas tcnicas se basan,por lo general, en comparaciones visuales centradas en la eliminacin de infor-macin redundante o la recuperacin de segmentos de vdeo similares. Las com-paraciones visuales se llevan a cabo haciendo uso de diferentes los descriptoresvisuales existentes. Sin embargo, tales descriptores han sido evaluados normal-mente centrndose en su rendimiento respecto de la identificacin o recuperacinde contenidos similares desde un punto de vista semntico y no focalizando enla capacidad para la deteccin de imgenes pertenecientes a una misma escenao pequeos cambios en las mismas. Este proyecto se centra en la evaluacin delos descriptores de imagen respecto de este tipo de situaciones: la deteccin deescenas similares afectadas por diferentes transformaciones tales como cambiosde iluminacin, variaciones de zoom, cambios del punto de vista del objetivo ymovimiento de objetos en la escena.

Se han llevado a cabo diferentes trabajos e investigaciones respecto a laevaluacin de descriptores en diversas reas como el reconocimiento de objetos[1] o caractersticas particulares [2], la deteccin de copias en los contenidosaudiovisuales [3] o la recuperacin de imgenes basada en el contenido [4], msconocido por el trmino anglosajn, Content-Based Image Retrieval (CBIR).Las evaluaciones mencionadas y otras relacionadas han sido desarrolladas enun contexto de comparacin individual, sin embargo no se ha llevado a cabouna exhaustiva evaluacin comparativa de descriptores visuales respecto de latransformaciones anteriormente comentadas en el seno de escenas duplicadas.

La cuestin principal en la que se ahonda en este proyecto es: Que caracters-ticas visuales resultan ms precisas en cuanto a la representacin del contenido

1

1 INTRODUCCIN

y alcanzan un mayor rendimiento con respecto a la deteccin de imgenes cuasi-duplicadas y pertenecientes a una misma escena? Esta cuestin es ampliamenteinvestigada examinando el comportamiento de un conjunto representativo delos diferentes descriptores de imagen. Esta tarea sobre cmo de bien se compor-tan las diferentes caractersticas de las imagenes est ntimamente relacionadacon la cuestin sobre qu caractersticas pueden ser combinadas para obtenermejores resultados en tareas concretas. Tomando parte en esta ltima cuestinse elaboran diferentes mtodos de combinacin de caractersticas basados en lacorrelacin de las caractersticas individuales.

Para la evaluacin de las diferentes caractersticas o descriptores se ha uti-lizado una base de datos propia de imgenes reales que ha sido creada a partir deun muestreo manual de diferentes colecciones de vdeos y que conforma un buenpunto de partida para evaluar el rendimiento de los descriptores seleccionadosas como de las nuevas combinaciones desarrolladas.

1.2. Objetivos y enfoqueEste proyecto tiene como principal objetivo presentar un estudio comparati-

vo sobre distintos descriptores de imagen as como sobre las diferentes distanciasempleadas con la finalidad de analizar la robustez y fragilidades de cada unode ellos en diferentes situaciones. Tras el anlisis, se lleva a cabo un procesode refinamiento y combinacin de los descriptores con el propsito de mejorarde los resultados iniciales con respecto a la tarea de la deteccin de imgenesrelativas a escenas cuasi-duplicadas.

Con este objetivo nace la necesidad de establecer un marco comparativo dereferencia para evaluar los diferentes resultados obtenidos a lo largo de todo elproyecto. Como primer paso se lleva a cabo la tarea de confeccionar una basede datos de imgenes y que ser utilizada durante las diferentes etapas de opti-mizacin, comparacin y combinacin de descriptores de las que se compone esteestudio comparativo. Al mismo tiempo se realiza un proceso de seleccin de losalgoritmos que representarn las descripciones matemticas que se encuentrandetrs de las caractersticas de los descriptores de imagen elegidos.

La recopilacin de las imgenes se ha llevado a cabo teniendo en cuenta cu-atro transformaciones bsicas en los que se centrar nuestro trabajo sobre ladeteccin de duplicados como son: cambios de iluminacin, posicin angular,movimiento dentro de la imagen y zoom. Por otro lado la eleccin de los de-scriptores de nuestro estudio esta basada en una gran tarea de estudio del artesobre los descriptores de imagen con la consiguiente eleccin de un grupo decinco de ellos con los que se intenta abarcar distintas modalidades referentesa la complejidad, popularidad, usabilidad en aplicaciones reales y posibilidadesde combinacin entre ellos. En base a estos criterios se han elegido los sigu-ientes descriptores de imagen: histograma de color, correlograma, color layout(perteneciente al estndar MPEG-7), Scale Invariant Feature Transform (SIFT)y Speed Up Robust Features (SURF).

2

1 INTRODUCCIN

Una vez seleccionados los descriptores de imagen, se implementarn los algo-ritmos correspondientes a cada uno de ellos sobre Matlab que permitan carac-terizar el contenido de las imgenes prestando importancia a la parametrizacinde algunos de ellos para la consecucin de nuestro objetivo. Realizaremos refi-namientos y cambios progresivos sobre los descriptores con el animo de obtenermejores resultados para finalmente y mediante combinaciones de los descriptoreselevar las prestaciones de los mismos cubriendo as ciertas debilidades individ-uales.

Para ello se ha dividido la metodologa de trabajo en 4 bloques que se de-tallan a continuacin:

Familiarizacin: En la primera etapa del presente proyecto se ha llevadoa cabo una primera toma de contacto con los diferentes aspectos relacionadoscon la deteccin de duplicados de imagen y las particularidades que relacionaneste tipo de imgenes dentro de una misma escena. La bsqueda y lectura dediferentes documentos cientficos han permitido la elaboracin y presentacinde una sntesis sobre la problemtica mencionada.

Investigacin:Una vez han sido identificados las particularidades que afectana la problemtica mencionada se ha realizado un estudio sobre el estado del arteen profundidad referente a los diferentes descriptores de imagen y distintas dis-tancias para las comparaciones elegidas para la realizacin de este proyecto.Esta etapa aporta el conocimiento necesario para la identificacin y descubrim-iento de posibles nuevas aportaciones sobre los trabajos iniciales de cara a laimplementacin final.

Implementacin y desarrollo: La tarea principal es la de crear un marcocomparativo para el estudio de diferentes descriptores de imagen. Este marcoesta compuesto tanto de una base de datos de imgenes comn durante todoel proyecto como de y de esta manera elaborar diferentes combinaciones de losmismos con los consecuentes resultados y que stos puedan ser comparados demanera objetiva con los resultados previos respecto de la cuestin central deeste proyecto.

Estudio de resultados y formalizacin de las conclusiones: Final-mente se realiza un estudio exhaustivo de los resultados obtenidos as comouna elaboracin de las conclusiones al mismo tiempo que se proponen nuevasmejoras del sistema y lineas de trabajo futuro.

Escritura del proyecto: Si bien esta tarea se ha desarrollado de formacontinua a lo largo de todo el periodo del proyecto, gran parte de su elabo-racin se ha realizado tras la conclusin le las etapas de desarrollo y estudio deresultados.

3

1 INTRODUCCIN

1.3. Organizacin de la memoriaLa memoria del presente proyecto se estructura en una serie de captulos

cuyo idea principal y contenidos se exponen a continuacin:

El Captulo 1 contiene la introduccin, la motivacin, los objetivos y enfoqueas como la organizacin del Proyecto Fin de Carrera.

En el Captulo 2 se expone la problemtica relacionada con la deteccinde imgenes duplicadas representantes de una misma escena. Es aqu donde sedefine ampliamente el concepto de descriptores de imagen, se presentan distintasclasificaciones de los descriptores y se hace referencia a distintas aplicaciones quecomparten la misma problemtica.

Tras la exposicin de la problemtica mencionada se exponen los diferentescriterios de seleccin de los descriptores utilizados en este proyecto en el Captulo3. As mismo se realiza un estudio ms en profundidad sobre el estado del arte delos descriptores visuales seleccionados destacando las ventajas e inconvenientesde cada uno de ellos.

En el Captulo 4 se detalla la creacin de una base de datos de imgenespropia as como los diferentes sistemas de evaluacin que se utilizarn paraobtener los resultados. Sern las diferentes etapas de optimizacin, compara-cin y combinacin de descriptores la parte central de este captulo y en lasque se detallarn por un lado los distintos parmetros utilizados tanto en laimplementacin de los algoritmos base como en las mejoras realizadas sobre elestado inicial y por otro la presentacin de los resultados obtenidos en cada unade ellas. Finalmente se llevar a cabo un estudio computacional de los descrip-tores con el objetivo de elaborar conclusiones ms objetivas para la utilizacinde estos descriptores en una aplicacin real.

El Captulo 5 contiene las conclusiones extradas del trabajo y resultadosobtenidos as como posibles lineas de trabajo futuro.

Las referencias consultadas para la elaboracin de este Proyecto pueden en-contrarse al final de esta memoria en la seccin de Bibliografa seguida por unaserie de Anexos en los que figuran diferentes ejemplos de las imgenes devueltaspor cada descriptor as como el presupuesto y el pliego de condiciones.

4

2 DESCRIPTORES DE IMAGEN

2. Descriptores de Imagen

2.1. Introduccin a los Descriptores de ImagenLa evolucin tecnolgica de los sistemas de comunicacin y el grado de

madurez que han alcanzado reas tan diferentes como el procesamiento de seal,las bases de datos, el tratamiento multimedia y en gran medida el desarrollo yuso masivo de Internet, han contribuido a la inundacin de informacin audiovi-sual en formato digital en cantidades desproporcionadas. Unido a esto podemosmencionar al caso, las colecciones de imgenes de mbito privado, ya sea a nivelde usuario o como parte de una organizacin empresarial, que han originado lademanda de sistemas capaces de realizar una gestin y almacenamiento de lainformacin de forma eficiente.

Esta gestin puede verse como el resultado final del proceso, si bien en elmismo preceden conceptos y etapas que permiten abordar la tarea, entre otras,de extraer informacin relevante de las imagenes para que stas puedan serprocesadas de manera eficiente; esta tarea viene a consistir en intentar describirel contenido de los distintos tipos de informacin multimedia para efectuar lagestin posterior de acuerdo a la finalidad del sistema.

El contenido de una imagen esta codificado digitalmente en el valor de cadauna de las unidades mnimas de informacin que la componen llamadas pix-els. De esta manera los pixels representan el nexo de unin entre el contenidoabstracto de sus valores y las caractersticas propias de una imagen que en-tendemos como relevantes para el humano. Es por ello que cualquier mtodode gestin de imagenes basado en su contenido deber guardar algn tipo derelacin o actuar sobre el valor de los mismos.

Respecto de la necesidad de describir el contenido de la informacin multi-media de forma objetiva y automatizada, surgen como respuesta los descriptoresaudio-visuales. Ms concretamente en el caso de las imgenes podemos referirnosa los descriptores de imagen.

Idealmente, un descriptor visual debera poseer las siguientes propiedades:

Simplicidad: El descriptor debera representar las caractersticas extra-das de la imagen de manera clara y sencilla para permitir una fcil inter-pretacin de su contenido.

Repetibilidad: El descriptor generado a partir de una imagen debe serindependiente del momento en el que se genere.

Diferenciabilidad: Dada una imagen, el descriptor generado debe poseeralto grado de discriminacin respecto de otras imgenes y al mismo tiempocontener informacin que permita establecer una relacin entre imgenessimilares.

Invarianza: Cuando existen deformaciones en la representacin de dos im-agenes, es deseable que los descriptores que las representan aporten la

6


robustez necesaria para poder relacionarlas an bajo diferentes transfor-maciones.

Eficiencia: Es deseable que los recursos consumidos para generar el de-scriptor sean aceptables para poder ser utilizados en aplicaciones con re-stricciones crticas de espacio y/o tiempo.

Existen diferentes grados de profundidad en cuanto a la representacin del con-tenido llevada a cabo por los descriptores, dependiendo del nivel de abstraccinal que se refieran. En un nivel ms bajo se encuentran los descriptores visuales,que describen caractersticas tan elementales como la forma, color, textura omovimiento entre otros. Haciendo referencia a un nivel superior se encuentrandescriptores ms especficos que aportan informacin sobre los objetos y acon-tecimientos de la escena. Estos ltimos se apoyan en los descriptores visualespara llevar a cabo la difcil tarea de realizar una descripcin semntica de lasimagenes. A modo de ejemplo podemos mencionar la complejidad que supone laextraccin de caractersticas relacionadas con sentimientos o sensaciones, que sibien los humanos son capaces de reconocer, no resulta evidente para los descrip-tores semnticos dado que dichas caractersticas no se encuentran presentes enla forma, color o textura de las imagenes.

En la siguiente seccin se abordar este tema con ms detalle realizando unaclasificacin del estado del arte de los diferentes tipos de descriptores.

En la actualidad existe un enorme inters por desarrollar descriptores au-diovisuales que permitan caracterizar el contenido de las imgenes de formaautomatizada. El estndar MPEG-77 desarrollado por MPEG (Motion PictureExpert Group) reune una coleccin de descriptores visuales aplicables para suimplementacin en tareas de recuperacin de contenido multimedia, compara-cin y clasificacin de imagenes o realizacin de resmenes de vdeo.

Al mismo tiempo, coexisten otros muchos descriptores de imagen que hansido ampliamente utilizados para diferentes tareas de tratamiento de imageny vdeo, y que si bien no pertenecen a ningn estndar, suponen una grancontribucin al desarrollo de nuevas tcnicas y nuevos descriptores.

7http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm#E9E1

7


2.2. Clasificacin de los Descriptores de ImagenComo se ha comentado anteriormente existen diferentes tipos de descriptores

de imagen dependiendo del nivel de abstraccin de la representacin. Es posibleclasificarlos en dos grandes grupos:

Descriptores de informacin general: engloban los descriptores tambinllamados de bajo nivel, que proporcionan una descripcin respecto delcolor, formas, regiones, texturas y movimientos presentes en la imagen.

Descriptores de informacin de dominio especfico: tambin llamados de-scriptores semnticos, proporcionan informacin acerca de los objetos yeventos que constituyen la escena. Lo que hacen es utilizar los descrip-tores de bajo nivel para cubrir el gap existente entre las caractersticasvisuales disponibles y las diferentes categoras semnticas [5]. Un ejemplopodra ser el reconocimiento de objetos dentro de una imagen.

A su vez y dentro de los descriptores de informacin general, podemos clasificara los mismos segn el nivel de aplicacin sobre el que actan, es decir, sobreque regiones de la imagen realizan las distintas operaciones para generar losresultados que componen el descriptor [6]. En la figura 2.1 se representa unejemplo que ilustra ambas categoras:

Descriptores Globales: Resumen el contenido de la imagen en un nicovector o matriz de caractersticas. Poseen la ventaja de encapsular unagran cantidad de informacin de la imagen requiriendo una pequea can-tidad de datos para describirla. A pesar de su simplicidad, este tipo dedescriptores han resultado ser ampliamente utilizados para diferentes tar-eas debido entre otras cosas a su bajo coste computacional unido a unasprestaciones relativamente buenas. Un representante de esta clase es elHistograma de Color [7], descrito a continuacin.

Descriptores Locales: Son utilizados en aquellas tareas en las que unadescripcin local del contenido de la imagen resulta ms apropiado. Ac-tan sobre regiones de inters, previamente calculadas o identificadas, con-struyendo un vector de caractersticas de esa regin que tiene en cuentala informacin contenida tanto en el punto de inters como en la reginadyacente al mismo o vecindario. Normalmente las regiones descritas seconocen como puntos de inters, tambin llamados puntos destacados okeypoints, sin embargo estas regiones suelen referirse a bordes o pequeaspartes de la imagen. El descriptor entonces, est constituido por la to-talidad de los vectores de caractersticas calculados. A modo de ejemplopodramos mencionar el descriptor local SIFT [8].

8


Figura 2.1: Descriptores local vs. global

Cindonos al propsito de este captulo de exponer el estado del arte sobrelos descriptores visuales y del contenido especfico de esta seccin, nos ayudare-mos de la clasificacin recogida en el estndar MPEG-7 [9] y representada enla figura 2.2. Es necesario mencionar que existen diferentes clasificaciones dedescriptores y, sin nimo de ser exhaustivos y solamente a modo de ejemplo, seha elegido la clasificacin mencionada anteriormente debido a que abarca dis-tintos tipos de descriptores exponiendo las diferentes categoras o herramientasde descripcin en las que se dividen los descriptores de bajo nivel respecto delas caractersticas de la imagen sobre las que actan. Ser en el captulo 3 dondese describirn en detalle los descriptores de imagen elegidos para este proyecto.

Herramientas para la descripcin del Color (Color):

DominantColor Descriptor(DS). Aunque puede ser aplicado sobre una im-agen completa, su utilidad se reserva ms para la representacin de carac-tersticas locales (regiones u objetos), donde un menor nmero de coloresson suficientes para caracterizar la regin.

ScalableColor DS: Representa los colores presentes en la imagen medianteun Histograma de Color HSV codificado mediante una transformacinHaar. El concepto de escalabilidad se encuentra representado en la eleccinvariable del numero de bins en los que se calcula el histograma.

ColorLayout DS: Representa la distribucin espacial de los colores de laimagen en el dominio frecuencial. Del mismo modo, este descriptor puedeser aplicado sobre una imagen completa o sobre regiones de inters. Pre-senta escalabilidad en cuanto al nmero de coeficientes seleccionados parala causa, si bien la recomendacin apunta a 18 coeficientes de un total de64.

9


Figura 2.2: Descriptores visuales del estndar MPEG-7

ColorStructure DS: Este descriptor caracteriza tanto los colores presentescomo su estructura local dentro de una determinada regin.

GoF/GoP Color DS : Este descriptor hace uso del ScalableColor DS parallevar a cabo la descripcin de colores presentes en un grupo de frameso imgenes de manera conjunta. El histograma final representativo delgrupo de imgenes puede ser calculado mediante la media, mediana ointerseccin de los histogramas individuales.

Herramientas para la descripcin de la Textura (Texture):

HomogeneousTexture DS : Este descriptor extrae la textura presente en laimagen mediante la aplicacin de diferentes filtros de Gabor sobre difer-entes escalas y orientaciones quedndose con el 1 y 2 momento de laenerga en el dominio frecuencial. Como resultado se obtiene un array de62 valores codificados con 8 bits cada uno.

TextureBrowsing DS : Al igual que el anterior, este descriptor hace uso defiltros de Gabor, salvo que ahora solo se seleccionan las 2 orientacionesdominantes de la imagen que son codificadas con 3 bits cada una. Almismo tiempo se determina la regularidad (2 bits) y la aspereza (4 bits)sobre las orientaciones dominantes. Con todo ello se construye un vectorde 12 bits, si bien este descriptor resulta mas adecuado para su aplicacinsobre regiones que sobre la imagen completa.

EdgeHistogram DS : Representa la distribucin espacial de 5 tipos de bor-des, 4 de ellos direccionales y el otro sin direccin, presentes en la imagen.

Herramientas para la descripcin de la Forma (Shape):

10


RegionShape DS : Este descriptor representa la forma de cualquier reginde un objeto dentro de una imagen, ya sean regiones simple, como conec-tadas o con agujeros.

ContourShape DS : Representa el contorno cerrado de una regin o unobjeto 2D presente en una imagen o en una secuencia de vdeo.

Shape3D DS : Descripcin de contornos 3D.

Herramientas para la descripcin del Movimiento (Motion):

CameraMotion DS : Este descriptor recoge el valor de los parmetros delos diferentes movimientos de una cmara (zoom, tilt, pan, etc) presentesen un bloque de imgenes. Cada bloque esta representado por un grupode frames que comparten un posible movimiento de cmara.

MotionTrajectory DS : Caracteriza el movimiento de un punto o regin enla imagen en el dominio espacio-temporal.

ParametricMotion DS : Permite caracterizar el movimiento de una reginen la imagen basndose un anlisis de una transformacin geomtrica de laevolucin espacio-temporal de la regin. Esta transformacin se descom-pone en diferentes transformaciones afines como translaciones, rotaciones,zoomings, etc.

MotionActivity DS : Este descriptor recoge la intensidad de la accin o elritmo de movimiento presente en una secuencia.

Herramientas para la descripcin de la Localizacin (Localization):

Region Locator DS : Permite la localizacin de regiones dentro de las im-genes especificadas mediante la representacin de un polgono.

SpatioTemporal Locator DS : Parecido al anterior salvo que en este caso,la localizacin de las imgenes se extiende al dominio temporal tambin.

Es necesario dejar constancia de que los descriptores anteriormente descritospertenecen al estndar MPEG-7 si bien existen muchos otros descriptores querepresentan o actan en categoras semejantes. De hecho han sido propuestosmuchos tipos de descriptores en la literatura y en muchos casos dependientestanto de la aplicacin como de la base de datos sobre la que se practicaban. Loque si parece claro es que an no se ha conseguido poner fin a la problemticade qu descriptores son mejores o peores en comparacin y para que tipo deaplicaciones.

11


2.3. Evaluacin de DescriptoresLos descriptores de imagen han sido ampliamente utilizados para llevar a

cabo muy diversas tareas dentro del mbito multimedia, como por ejemplo:reconocimiento y deteccin de objetos, clasificacin, recuperacin de imgenesbasada en el contenido, resmenes de vdeo, deteccin de copias, etc. Si bien losdescriptores visuales han sido base fundamental para acometer dichas tareas,ofreciendo cierta capacidad de discriminacin y relacin, en ninguno de los casoshan conseguido dar solucin completa a los problemas planteados en las mismas.Han de verse por tanto, como herramientas bsicas para conseguir el objetivo.

Como ya hemos mencionado en el captulo 1, la base de este proyecto est ori-entada hacia la identificacin de imagenes relativas a escenas cuasi-duplicadasrepresentadas mediante diferentes transformaciones como cambios de ngulo,iluminacin, etc. Es por ello que los resultados aqu obtenidos podrn ser apli-cados o resultar relevantes para cualquier aplicacin o estudio en el que se iden-tifiquen necesidades similares. Como parte del estado del arte, se ha queridopresentar en esta seccin alguna de las evaluaciones o estudios comparativosprevios sobre descriptores de imagen aplicados en diferentes contextos.

2.3.1. Evaluacin de descriptores respecto de la deteccin de escenassimilares

La problemtica estudiada en este proyecto sobre la deteccin de escenascuasi-duplicadas no cuenta entre la literatura con muchos exponentes. De entrelos trabajos existentes cabe destacar el trabajo realizado por Mikolajczyk et al.[10] donde se expone una evaluacin con respecto al comportamiento de una am-plia representacin de los distintos descriptores locales existentes. Se analiza lacuestin sobre la posible diferencia en el rendimiento de estos descriptores localesen base a la seleccin del detector de regiones de inters utilizado concluyendoresultar independiente en la mayora de los casos. El conjunto de descriptoreslocales est representado por un total de 10 descriptores que implementan entotal 5 detectores de regiones de inters diferentes. De entre los descriptores delestudio se destaca la creacin de un nuevo representante, el descriptor GLOH(Gradient Location-Orientation Histogram), como una extensin del descriptorSIFT diferencindose de ste en la utilizacin de una rejilla circular en el sistemade coordenadas polares para la creacin del histograma de orientaciones de lospuntos de inters y la utilizacin de PCA (Principal Components Analysis) [11]para la reduccin de la dimensionalidad del descriptor.

El conjunto de imgenes utilizado representa 6 transformaciones geomtricasy fotomtricas distintas respecto de las tareas de reconocimiento de objetos yescenas: rotacin y escalado de la imagen, compresin JPEG, difuminacin dela imagen, cambios de iluminacin y del punto de vista en las imgenes. Losresultados, que son obtenidos mediante el criterio de comparacin Precision-Recall, presentan al descriptor GLOH como el mejor en relacin al rendimientomostrado en en la mayora de las situaciones de anlisis seguido de cerca por el

12


descriptor SIFT. Debido al alto coste computacional que conllevan estos descrip-tores, se propone como alternativa, en los casos donde el coste computacionalsea una restriccin a tener en cuenta o un problema, los filtros de orientacin ylos momentos invariantes descritos en el propio documento.

Como diferencias ms significativas respecto de este proyecto se mencio-nan en primer lugar la variedad en la eleccin de los descriptores de imagenutilizados, representado por descriptores tanto locales como globales. Ademsen la realizacin de este proyecto se lleva a cabo un estudio del rendimientode las diferentes combinaciones de los descriptores utilizados, mejorando as elrendimiento. Por ltimo, y tambin de gran importancia, cabe destacar la mor-fologa y composicin de la base de datos de imgenes utilizada en el proyecto,la cual consta de una mayor cantidad y variedad de escenas e imgenes, con unmenor nmero de transformaciones representadas.

2.3.2. Evaluacin de descriptores en sistemas de recuperacin basa-dos en el contenido (CBIR)

Los sistemas CBIR, habitualmente conocidos por sus siglas de la expresinanglosajona Content-Based Image Retrieval Systems, abordan la problemti-ca referente a la recuperacin de la informacin multimedia y la bsqueda decontenidos relacionados dentro de grandes colecciones de datos. Esta aplicacinmuestra diversas coincidencias y puntos en comn con las caractersticas de ladeteccin de imgenes cuasi-duplicadas, objeto de este proyecto. Uno de los ob-jetivos de la recuperacin por contenido es la creacin de algoritmos que seancapaces de reconocer automticamente las caractersticas ms importantes con-tenidas en una imagen sin intervencin humana a lo largo de todo el proceso. Latarea de la recuperacin basada en contenido se centra en el reconocimiento y ladescripcin del color, la textura, la forma, la localizacin espacial, las regionesde inters, y ya especficamente para imagen en movimiento se aborda la seg-mentacin de vdeo, la extraccin de fotogramas representativos o la deteccinde objetos especficos y de sonidos clave en el audio.

En la literatura se pueden encontrar diferentes trabajos que detallan elcomportamiento de las distintas caractersticas de imagen respecto de la recu-peracin de imgenes. Deselaers et al. [12] presenta una evaluacin cuantitativade algunas de estas caractersticas y analiza la correlacin existente entre lasmismas con el objetivo tan slo de identificar las posibles complementariedadesexistentes sin llevar a cabo, a diferencia del presente proyecto, ningn mtodo decombinacin de las mismas. En concreto, se evala el comportamiento de difer-entes histogramas de color, texturas, histogramas respecto de caractersticaslocales, caractersticas locales basadas en regiones y caractersticas invariantescomo la amplitud espectral de la transformada de Fourier. Diferentes medidas dedistancia entre las imgenes son utilizadas de acuerdo a la caracterstica de im-agen analizada, presentando a la divergencia de Jeffrey [13] como la distanciams recurrida para la mayora de las caractersticas evaluadas. La comparacindel rendimiento de las distintas caractersticas de imagen analizadas se lleva a

13


cabo mediante el uso de tasas de error (ER).Argumentando la necesidad de seleccionar las caractersticas de imagen apropi-

adas dependiendo de la naturaleza del conjunto de imgenes utilizado se presentaun estudio de la correlacin entre las diferentes caractersticas plasmando gr-ficamente los resultados obtenidos. Las conclusiones aportadas en este trabajorelatan una dependencia existente entre el rendimiento de cada una de las car-actersticas analizadas y la naturaleza concreta de la base de datos de imgenesdel sistema CBIR. Teniendo esto en cuenta, los histogramas de caractersticasinvariantes aportan los mejores resultados en cuanto a conjuntos de imgenesen color, mientras que las caractersticas locales se comportan mejor para enel caso de conjuntos de imgenes con menor diferenciacin del color como es elcaso de imgenes mdicas utilizadas en su evaluacin.

El trabajo referenciado anteriormente [12] se ve ampliado mediante la uti-lizacin de nuevos y ms grandes conjuntos de imgenes en [4], donde ademsel nmero de caractersticas analizadas se ve aumentado por la inclusin de car-actersticas de forma de los objetos de las imgenes. El criterio de evaluacinER anterior es tambin sustituido por el criterio ms ampliamente utilizadoen tareas relativas al anlisis de los sistemas CBIR de Precision-Recall. Es enesta nueva ampliacin donde se detalla de una manera ms amplia y precisa lascorrelaciones existentes entre las diferentes caractersticas analizadas incluyen-do adems una representacin grfica concisa e intuitiva de la que se puedenextraer fcilmente que caractersticas tienen propiedades similares y cuales difer-entes resultando de guia para futuras combinaciones.

Siguiendo la lnea del anterior trabajo, se deja constancia de la falta deuna solucin nica respecto de las caractersticas disponibles para lidiar con lasdiferentes tareas relativas a los sistemas CBIR.

El histograma de color se presenta en este trabajo como una buena basesobre la que comparar el resto de las caractersticas analizadas respecto de larecuperacin de imgenes en color, identificando las representaciones de carac-tersticas locales como aquellas que alcanzan los mejores resultados. Tambinse destaca el hecho de que ninguna de las caractersticas basadas en la repre-sentacin de la textura analizadas puede llevar a cabo una representacin com-pleta de las caractersticas de las imgenes de forma individual, si bien diferentescombinaciones de las mismas alcanzan mejores resultados.

2.3.3. Otras evaluaciones

Existen otras evaluaciones de descriptores de imagen en relacin a disciplinasdiferentes como son la clasificacin de imgenes [14], la estimacin de la posicin[1] y del movimiento de los objetos [15] o el reconocimiento de objetos o clases deobjetos [16] [17]. Si bien estas aplicaciones difieren en gran medida de la temticade este proyecto, se pueden establecer similitudes y encontrar resultados vlidoso al menos orientativos para nuestro caso.

Respecto de la estimacin del la posicin, el trabajo relatado en [1] evalalos diferentes descriptores locales elegidos en diferentes situaciones, alguna de

14


ellas coincidente con las transformaciones de imagen analizadas en este proyectocomo son el cambio de escala (tratado en nuestro caso como variacin del zoom)y cambios de la posicin de la fuente de luz (en nuestro caso coincidente con loscambios de iluminacin). Como resultado se muestra como el descriptor SIFT,tambin utilizado en este proyecto, obtiene un notable rendimiento en ambassituaciones, por delante del descriptor SURF tambin utilizado en nuestro caso.

15

3 DESCRIPTORES DE IMAGEN UTILIZADOS

3. Descriptores de Imagen UtilizadosUna vez se han descrito los distintos tipos de descriptores de imagen depen-

diendo tanto de las caractersticas de la imagen sobre las que actan como delcarcter de aplicacin que tienen sobre la imagen, en este captulo se exponendetalladamente los descriptores de imagen y las diferentes mtricas o distanciaselegidas para llevar a cabo es proyecto y cuya evaluacin para la deteccin deescenas cuasi-duplicadas se realiza en las secciones 4.4, 4.5 y 4.6. En concreto ypara cada uno de ellos se realiza una descripcin conceptual donde se exponenlas caractersticas que se extraen de las imgenes as como la manera en la quese lleva a cabo la representacin de su contenido.

La seleccin est formada por los siguientes 5 descriptores: Color Histogram,Color Layout, Color Correlogram, SIFT y SURF. Si bien este conjunto repre-senta cinco descriptores diferentes, en este proyecto se hace una distincin entredos variaciones distintas del histograma de color atendiendo al sistema de col-or utilizado para la representacin de las caractersticas de la imagen. De estamanera se presentan como HSV histogram y RGB histogram dos modalidadesdiferentes y que compondrn el grupo final de seis descriptores utilizados. Laeleccin de estos descriptores frente a muchos otros as como el nmero quecomponen el estudio ha resultado ser un intento por abarcar diferentes criteriosque se exponen a continuacin:

Diferentes Grados de Complejidad: Entre los descriptores elegidosencontramos algunos que destacan por su simplicidad como puede ser elcaso del Color Histogram, que adems ha resultado ser un sistema de ref-erencia para comparar los resultados de otros descriptores [5], y otros quehan demostrado en anteriores estudios [18] ser ms complejos o costososen lo que al coste computacional se refiere como es el caso de SIFT De-scriptor.

Amplia Utilizacin: La seleccin tambin ha intentado reunir a de-scriptores que hayan sido ampliamente utilizados en diversas tareas. Esconocida la extensa utilizacin de los descriptores de Color en tareas co-mo content-based image retrieval [19, 20]. Por otro lado, descriptoresms recientes como SIFT y SURF han contribuido a un gran avance entemas como el reconocimiento y deteccin de objetos en diversas situa-ciones [21, 22, 23].

Diversificacin: Tambin se ha tratado de representar en esta seleccin,descriptores que, si bien algunos de ellos comparten las caractersticas de laimagen sobre las que actan como puede ser el caso del Color, constituyendiferentes descriptores que representan distintas informaciones contenidasen las imgenes.

Perspectivas de Combinacin: Finalmente se ha tenido en cuenta laposibilidad de combinacin entre los descriptores mediante un estudio

17


terico previo de correlacin entre descriptores [4]. Este requisito resul-ta indispensable para llevar a cabo una tarea importante en este proyectocomo es la de buscar posibles combinaciones de los descriptores con elobjetivo de mejorar los resultados obtenidos individualmente.

3.1. Histograma de ColorEl primero de los descriptores seleccionados para este proyecto ha resultado

ser tambin uno de los primeros descriptores de imagen propuestos en la liter-atura respecto a la caracterstica del color implementado por primera vez porSwain et al. [7].

El histogram de color, en adelante histograma, representa la frecuencia deaparicin de cada una de las intensidades de color presentes en la imagen, medi-ante la contabilidad de los pixels que comparten dichos valores de intensidad decolor. El histograma est compuesto por diferentes rangos o contenedores querepresentan un valor o conjuntos de valores de intensidad de color.

Anterior a la etapa de contabilizacin de cada uno de los valores de los pixels,existe una etapa de cuantificacin de los intervalos o contenedores que se refiereal proceso de reduccin del nmero de intervalos agrupando colores cuyos val-ores estn prximos entre si en el mismo contenedor. Esta etapa es importanteen cuanto a que la cuantificacin de los intervalos reduce la informacin repre-sentada por el descriptor sobre la imagen al mismo tiempo que reduce el tiempode clculo. Obviamente, cuanto mayor sea el nmero de intervalos, mayor poderdiscriminativo tendr el descriptor. Sin embargo, un gran nmero de intervalosno slo incrementar el coste computacional asociado al descriptor, sino quetambin resultar inapropiado e ineficiente en cuanto a las comparaciones (e.g.demasiados intervalos resultan histogramas ms sensibles al ruido).

El espacio de color se define como un modelo de representacin del colorcon respecto a los valores de intensidad. La dimensionalidad del espacio decolor puede estar comprendida entre una hasta cuatro dimensiones, siendo losespacios ms representativos y utilizados los formados por tres componentes ocanales de color.

En el caso de este proyecto, se utilizan dos espacios de color, que a su vezresultan ser los ms utilizados para este tipo de tareas: RGB (Red, Green, Blue)y HSV (Hue, Saturation y Value) formado por las componentes Hue, Saturaciny Value, y que se muestran en la Figura 3.1.

El sistema RGB est formado por los colores primarios Rojo, Verde y Azulcon valores entre [0, 1], y cuya mezcla proporcionada resulta en el color deseado.El sistema RGB utiliza las coordenadas cartesianas como se muestra en la Figura3.1, teniendo en consideracin que la diagonal formada por los vrtices (0, 0, 0)negro y (1, 1, 1) blanco, representa la escala de grises.

Respecto del sistema HSV, la componente Value representa la intensidad delcolor o brillo, la componente Hue representa lo que se conoce como tonalidad,y la componente de saturacin que representa de alguna manera la densidad

18


Figura 3.1: Espacios de color: (a) RGB y (b) HSV

dentro del propio color o la pureza. La resolucin de las distintas componentesno es uniforme sino que se utiliza un mayor nmero de bits para la representacinde la componente hue, que para las dos restantes, siendo suficiente dos bits en elcaso de Value. Sin embargo, todas las componentes varan en un rango tambinnormalizado de entre [0, 1]. El espacio de color HSV guarda una mayor relacino esta ms prximo a la manera que tienen las personas de percibir el color queel espacio RGB.

La representacin del histograma en uno u otro sistema conlleva ciertas re-stricciones que han de tenerse en cuenta en las implementaciones. Sin embargoeso no imposibilita la conversin entre ambos espacios de color. A continuacinse detallan las ecuaciones necesarias para la conversin entre ambos espacios decolor:

Conversin RGB HSV:

H = cos1

12 [(RG) + (RB)](RG)2 + (RB) (GB)

(3.1)S = 1 3

R+G+B[mn (R,G,B)] (3.2)

V =1

3(R+G+B) (3.3)

Conversin HSV RGB: Sector Red-Green: (0 < H 120)

B =1

3(1 S) R = 13

[1 + S cos(H)cos(60-H)

]G = 1 (R+B) (3.4)

19


Figura 3.2: Representacin del histograma RGB

a) Representacin de la imagen original. b) Representacin vertical de las trescomponentes de color R,G,B de la imagen. c) Representacin conjunta del his-tograma de color RGB de la imagen.

Sector Gree-Blue: (120 < H 240)

R =1

3(1 S) G = 13


]B = 1 (R+B) (3.5)

Sector Blue-Red: (240 < H 360)

G =1

3(1 S) B = 13


]R = 1 (R+B) (3.6)

Finalmente se muestra en las Figuras 3.2 y 3.3 una representacin de lascomponentes de color e histogramas en los espacios de color RGB y HSV re-spectivamente.

Teniendo en cuenta que la descripcin del color expuesta est formada portres componentes, el histograma de color de una imagen, como descriptor, estarformado por la composicin de los distintos histogramas de cada uno de loscanales o componentes de color, construyendo as un nico vector.

Comparacin entre histogramas: mtricas utilizadas

Una vez los histogramas de dos imgenes han sido calculados, se lleva acabo un proceso de comparacin de los descriptores con el objetivo de medirel grado de similitud que existe entre ambas. Para ello se hace uso de algunaentre las muchas mtricas disponibles en la literatura para la comparacin de

20


Figura 3.3: Representacin del histograma HSV

a) Representacin de la imagen original en el espacio de color HSV. b) Rep-resentacin vertical de las tres componentes de color H,S,V de la imagen. c)Representacin del histograma de cada una de las componentes de la imagen.

histogramas, y que podemos encontrar en [20] detalladas de una manera msextensa. Debido a la gran variedad, y al hecho de que para este descriptor enconcreto se han utilizado diversas mtricas que se expondrn con detalle en laseccin 4.4, en este apartado slo se mencionan las distintas categoras.

Comparacin de intervalos similares: Las mtricas de esta categora com-paran los intervalos del mismo ndice solamente sin tener en cuenta ladistancia con respecto a otros intervalos.

Comparacin inter-intervalos: Las mtricas aqu representadas si tienen encuenta las comparaciones con otros intervalos que no sean estrictamenteel propio.

Evolucin de los histogramas

El aspecto ms atractivo y ventajoso del histograma es su simplicidad yvelocidad de computacin, tanto en la tarea de comparacin como en la decreacin del descriptor. Sin embargo existen diversos inconvenientes asociadosal mismo como por ejemplo la falta de consideracin de informacin espacial delas distribuciones de color. Para subsanar algunos de los inconvenientes, como elmencionado, han surgidomejoras o evoluciones como es el caso de los fuzzy colorhistograms [24], histogramas invariantes [25] basados en los gradientes de coloro finalmente correlogramas de color [26] cuya descripcin detallada se presentams adelante.

21


3.2. Color Layout Descriptor (CLD)El estndar MPEG-7 consiste en una representacin estndar de la infor-

macin audiovisual que posibilita la descripcin del contenido multimedia. Laprimera versin del estndar fue aprobada por la Organizacin Internacionalpara la Estandarizacin ISO/IEC en el ao 2001 [9] y la ltima versin publi-cada y aprobada8 por la ISO data del ao 2004.

El estndar fue creado con el objetivo principal de llevar a cabo una gestinde los contenidos audiovisuales mediante diferentes herramientas. Estas her-ramientas posibilitan una descripcin separada de los contenidos pero que guar-da relacin con sta.

Entre las diferentes herramientas con las que cuenta el estndar para de-scribir los aspectos principales del contenido se encuentran los descriptores,tema principal de este trabajo. A su vez, el estndar est organizado en difer-entes partes, de las cuales slo resulta de inters para este proyecto la Parte 3:Visual, que hace referencia a las estructuras bsicas y descriptores que cubrendiferentes caractersticas visuales como: forma, color, textura, movimiento, etc.

Uno de los distintos descriptores visuales recogidos en la Parte 3 del estndarMPEG-7 es el Color Layout Descriptor (CLD)[27].

El descriptor Color Layout fue diseado para capturar la distribucin espa-cial del color en una imagen. La representacin se basa en los coeficientes de laTransformada Discreta del Coseno (DCT) sobre los valores de las componentesY, Cb y Cr de la imagen. Esta representacin se caracteriza por presentar unaresolucin invariante respecto del tamao de la imagen y al mismo tiempo muycompacta.

La creacin del descriptor se lleva a cabo mediante un proceso que se divideen las 4 etapas siguientes:

Divisin de la imagen: En la primera de las etapas, la imagen original deentrada se divide mediante una rejilla en diferentes bloques o regiones.

Seleccin del color ms representativo: Para cada uno de los bloques de lacuadrcula se selecciona un nico color como representante de cada bloque.

Transformada DCT: Una vez se obtiene el icono de la imagen y tras efec-tuar una conversin del espacio de color de la imagen original al espaciode color YCbCr, se realiza el clculo de la DCT de cada una de las trescomponentes de color, obteniendo as los llamados coeficientes de la DCTen una matriz.

Exploracin en zigzag: En esta ltima etapa se realiza un exploracin enzigzag de los coeficientes de la matriz, con el objetivo de ponderar enmayor medida aquellos relacionados con las bajas frecuencias.

8http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm

22


Figura 3.4: Diagrama Color Layout Descriptor

A continuacin se describirn ms detalladamente cada una de las etapas ante-riores que componen el proceso de creacin del descriptor y cuyo diagrama semuestra en la Figura 3.4.

Divisin de la imagen

En la primera de las etapas, la imagen original es dividida en 64 (8 x8) regiones o bloques mediante una cuadrcula cuyas dimensiones se ajustanal tamao de la imagen. Cada uno de los bloque tiene unas dimensiones de(M8 x

N8

), siendo M y N las dimensiones de la imagen original. Mediante este

operacin se consigue la citada invarianza respecto del tamao de la imagenoriginal.

Figura 3.5: Divisin de la imagen en regiones

23


Figura 3.6: Seleccin del color ms representativo de cada regin

Seleccin del color ms representativo

Una vez la imagen est dividida en bloques de igual tamao, se identificapara cada uno de ellos el color ms representativo. Existen diversos mtodospara calcular el color ms representativo de cada bloque, siendo la media delcolor de los pixels comprendidos en cada bloque el recomendado por el estndardebido a su simplicidad y a que la precisin de la descripcin es suficiente.

De este modo se obtiene una imagen de tamao 8 x 8 con una aparienciaborrosa, tambin llamada thumbnail, y cuyo resultado puede observarse enla Figura 3.6. Esta imagen es representada por las 3 matrices de tamao 8 x8, donde en cada una de ellas es almacenada una componente de color de loscolores representativos de cada bloque.

Transformada DCT

Como paso previo al calculo de la DCT sobre la matriz de color, se realizauna conversin del espacio de color de la imagen original al espacio de colorYCbCr formado por la crominancia Y, la crominancia azul y roja Cb y Crrespectivamente.

La matriz de color es transformada mediante la aplicacin de la Transfor-mada Discreta del Coseno (DCT) obteniendo de esta manera 3 grupos de 64coeficientes. Para calcular la DCT de una matriz 2D se utiliza la siguiente fr-mula:

F (u, v) = uv

M1i=0

N1j=0

Aijcospi (2i+ 1)u

2Mcos

pi (2j + 1) v

2N,

0 u M 10 v N 1

u =

1M

u = 02M 1 u M 1

v =

1N

v = 02N 1 v N 1

24


Figura 3.7: Dominio espacial y frecuencial DCT

donde (i, j)denotan las coordenadas de la matriz de color, (u, v) representanlas coordenadas en el dominio transformado y Aij hace referencia a la intensi-dad del pixel en la posicin (i, j) de la matriz de entrada. En la Figura 3.7 seencuentran representados ambos dominios.

Recorrido en zigzag

En esta ltima etapa se realiza un recorrido en zigzag por los coeficientes de laDCT de las tres componentes YCbCr obtenidos en la etapa anterior tras haberrealizado una cuantificacin previa de los mismos. El motivo de este trazadotiene que ver con la ubicacin de las componentes de baja frecuencia de laimagen localizadas en la parte superior izquierda de la matriz transformada loque significa que la energa de la imagen se concentra en dicha localizacin.

La manera de proceder con respecto al seguimiento del trazado se puedeobservar en la Figura 3.8 cuyo comienzo se sita en la parte superior izquierdapara terminal en la diagonal opuesta.

La creacin del descriptor Color Layout se compone por lo tanto de 3 vec-tores de caractersticas que contienen los diferentes coeficientes de luminanciay crominancia, Y, Cb y Cr respectivamente, representados segn el orden delrecorrido en zigzag.

Segn el estndar, por defecto se utilizan tan slo los 6 primeros coeficientesrelativos a la luminancia y los 3 primeros de cada una de las crominancias,aunque la inclusin de un nmero mayor de coeficientes est sujeta a la precisino requisitos de la etapa de comparacin.

25


Figura 3.8: Exploracin en zigzag

Comparacin entre descriptoresLa comparacin entre descriptores tiene como objetivo evaluar el grado de

similitud entre dos imagenes mediante el clculo de la distancia entre ellos.La funcin de comparacin recogida en el estndar es bsicamente una suma

ponderada de diferencias cuadrticas entre las componentes de ambos descrip-tores y que es representada por la siguiente frmula:

DCLD =

i

Yi(Yi Y i

)2+

j

Cbj(Cbj Cbj

)2+

k

Crk(Crk Crk

)2(3.7)

donde (i, j, k) representan los coeficientes de las diferentes componentes(Y,Cb, Cr) respectivamente y Yi , Cbj , Crk son los pesos elegidos para estable-cer las contribuciones de cada componente en la mtrica. Los pesos as como elnmero de coeficientes puede variar dependiendo del rendimiento alcanzado enel proceso de comparacin o de la importancia que se quiera dar a una u otracomponente.

Observando la frmula sobre la mtrica de comparacin se puede observarque dos imgenes comparten ms similitudes cuanto ms pequeo sea el valorde la distancia, resultando la misma imagen cuando el valor es 0.

26


3.3. CorrelogramaEl correlograma fue definido por primera vez por Huang et al.[26] como

una nueva caracterstica de imagen destinada a la comparacin e indexacin deimgenes. Esta nueva caracterstica surgi como una alternativa ms eficientedel anteriormente mencionado histograma de color.

Tras identificar las limitaciones y debilidades del histograma en cuanto ala representacin de la informacin del color de las imgenes en tareas como lacomparacin de imgenes, vase las imgenes de la Figura 3.9, surgieron diversosesquemas y propuestas para mejorar los resultados obtenidos por el histogramautilizando la informacin espacial del color.

Algunas de las propuestas para mejorar el rendimiento del histograma hansido la de dividir la imagen en un nmero fijo de regiones y realizar las com-paraciones mediante restricciones en cuanto a la posicin relativa de las mismas(image partitioning). Stricker et al. [28] dividen la imagen en cinco regiones so-lapadas y realizan la extraccin de los 3 momentos de color principales de cadaregin. De esta manera componen un vector de caractersticas representativo decada imagen. El uso de regiones solapadas hace que los vectores de caracters-ticas sean relativamente insensibles ante pequeas rotaciones o translaciones dela imagen.

Otro de los enfoques ha sido el de utilizar los histogramas con propiedadesespaciales de forma local, conocida como histogram refinement. Pass et al. [29]utilizan vectores de coherencias de color (CCV) que representan la clasificacinde los colores de la imagen segn la coherencia de los pixels de cada color en lasdistintas regiones coloreadas en las que se divide la imagen.

El correlograma sin embargo, no es catalogado ni como un mtodo de par-ticiones ni como un esquema de refinamiento de los histogramas. Lejos derepresentar propiedades locales, como la posicin de los pixels, o solamentepropiedades globales, como la distribucin del color, el correlograma tiene encuenta tanto la correlacin del color espacial de forma local junto con la dis-tribucin global de esta correlacin espacial. El correlograma representa por lotanto, el cambio de la correlacin espacial de colores respecto de la distanciaentre los pixels.

27


Figura 3.9: Imgenes de ejemplo correlograma

En las imgenes se puede apreciar como ambas comparten la misma distribucinde colores pero sin embargo no la misma distribucin espacial de los mismos. Porello sus histogramas son iguales resultando la misma imagen, mientras que loscorrelogramas de ambas difieren concluyendo que ambas imgenes son diferentescomo realmente son.

Notacin: Sea I una imagen de dimensiones NxM cuantificada con mcolores c1, c2, ..., cm, para cada uno de los pixels que la componen p = (x, y) I,p Ic, lo que significa que el pixel p contiene el color c. El correlograma quedaentonces definido mediante la siguiente frmula:

(k)ci,cj (I) , Prp1Ici ,p2I[p2 Icj || p1 p2 |= k

](3.8)

donde (i, j) {1, 2, ..., m}, k {1, 2, ..., d} y | p1p2|representa la medidadistancia espacial entre los pixels p1 y p2.

De esta manera se observa como el correlograma expresa la probabilidad deencontrar un pixel p2 cuyo valor I (p2) = ci a una distancia k de p1, dondeI (p1) = cj . La distancia k entre dos pixels, conocida como la distancia decuadrcula, se determina como: d(p1, p2) = max (| p1x, p2x |, | p1y, p2y |).

En el ejemplo de la Figura 3.10 se muestra la cuestin principal sobre lanaturaleza de este descriptor.

Comparacin entre descriptoresAl igual que ocurre en el caso de otros descriptores de imagen, las mtricas

L1 y L2 han sido ampliamente utilizadas para realizar las comparaciones entrelos vectores de caractersticas, alcanzando la mtrica L19 mejores resultados quela mtrica L2 debido a que la primera se muestra ms robusta frente a valoresatpicos [30]. Sin embargo Hafner et al. [31] introducen una medida de distanciacuadrtica ms sofisticada. En ella se tiene en cuenta tanto la diferencia absolutaentre ambos componentes como la diferencia relativa de esta diferencia absolutarespecto de ambas componentes. El siguiente ejemplo deja patente la mejoramencionada respecto de la norma L1bsica.

9Ambas mtricas L1 y L2 pueden ser consultadas en el Anexo I de este proyecto

28


Figura 3.10: Funcionamiento del correlograma

Example. Considrese dos pares de imgenes I1, I2 y I 1, I 2.Sean (k)c1,c2(I1) = 0,95,

(k)c1,c2(I2) = 0,9,

(k)c1,c2(I

1) = 0,25,

(k)c1,c2(I

2) = 0,2, los

correlogramas, respecto de dos colores solamente por simplicidad, de las im-genes I1, I2, I 1, I 2. Aunque la diferencia absoluta en ambos casos resulta lamisma, 50, resulta ms significativa con respecto al valor de ambos correlogra-mas para el segundo par de imgenes. Por ello la diferencia entre correlogramasdebe de tener ms importancia si el factor | (k)c1,c2(I1) + (k)c1,c2(I2) | es pequeoy viceversa.

Teniendo en cuenta todo lo anterior, la distancia o mtrica utilizada paracomparar dos imgenes mediante sus respectivos correlogramas es implementadamediante:

| I I |,

i,j[m],k[d]

| (k)ci,cj (I) (k)ci,cj (I ) |1 +

(k)ci,cj (I) +

(k)ci,cj (I

)(3.9)

donde el factor 1 del denominador previene de posibles divisiones por 0. Lainclusin de este factor obtiene una justificacin terica mediante el trabajopresentado por Haussler et al. [32].

La distancia entre las imgenes calculada se representa mediante un score opuntuacin que ser analizada posteriormente para la clasificacin y ordenacinde las imgenes comparadas en base al score obtenido.

29


3.4. Scale Invariant Feature Transform (SIFT)El descriptor Scale Invariant Feature Transform (SIFT) fue desarrollado por

Lowe [8] como un algoritmo capaz de detectar puntos caractersticos estables enuna imagen. Estos puntos son invariantes frente a diferentes transformacionescomo traslacin, escala, rotacin, iluminacin y transformaciones afines. Origi-nalmente fue desarrollado para el reconocimiento de objetos de manera general yrealiza la correspondencia entre puntos basada en los vectores de caractersticasde cada punto que componen el descriptor de la imagen.

El algoritmo SIFT se compone principalmente de cuatro etapas que se de-scriben siguiendo la implementacin de Lowe [8]:

1. Deteccin de Extremos en el Espacio Escala: La primera etapa delalgoritmo realiza una bsqueda sobre las diferentes escalas y dimensionesde la imagen identificando posibles puntos de inters, invariantes a loscambios de orientacin y escalado. Esto se lleva a cabo mediante la funcinDoG (Difference-of-Gaussian).

2. Localizacin de los Puntos Clave: Para seleccionar los puntos clave,tambin llamados puntos de inters, de forma precisa, se aplica una me-dida de estabilidad sobre todos ellos para descartar aquellos que no seanadecuados.

3. Asignacin de la Orientacin: Se asignan una o ms orientaciones acada punto de inters extrado de la imagen basndose en las direccioneslocales presentes en la imagen gradiente. Todas las operaciones posterioressor realizadas sobre los datos transformados segn la orientacin, escala ylocalizacin dentro de la imagen asignados en esta etapa, proporcionandoas la invarianza respecto de estas transformaciones.

4. Descriptor del Punto de Inters: La ltima etapa hace referencia ala representacin de los puntos clave como una medida de los gradienteslocales de la imagen en las en las proximidades de dichos puntos clave yrespecto de una determinada escala. Cada punto de inters corresponde aun vector de caractersticas compuesto por 128 elementos, que le confiereuna invarianza parcial a deformaciones de forma as como cambios deiluminacin.

La estabilidad de los puntos de inters es importante debido a que la compara-cin realizada entre objetos pertenecientes a dos imgenes diferentes se lleva acabo mediante la comparacin de los mismos puntos de inters. Para aseguraresta estabilidad, Brown y Lowe [33] proponen una funcin 3D para eliminaraquellos puntos que se encuentren en bordes o que presenten bajo contraste, yaque son mas susceptibles al ruido.

Deteccin de extremos en el espacio escala

La primera de las etapas tiene como objetivo obtener puntos candidatosde la imagen que puedan ser identificados de forma repetida bajo diferentes

30


vistas del mismo objeto. El descriptor SIFT es construido a partir del espacio-escala Gaussiano de la imagen original, en el cual se pueden detectar de maneraefectiva las posiciones de los puntos claves, invariantes a cambios de escala de laimagen. El espacio-escala Gaussiano de una imagen L(x, y, ) es definido comola convolucin de funciones 2D Gaussianas G(x, y, ) de diferentes valores conla imagen original I(x, y) :

L(x, y, ) = G(x, y, ) I(x, y) (3.10)siendo (x, y) las coordenadas espaciales y el factor de escala.El algoritmo utiliza la funcin DoG (Diferencia de Gaussiana) que se forma

a partir de la derivada escalar de la Gaussiana escalada espacialmente. Estafuncin DoG D (x, y, ) se obtiene mediante la sustraccin de escalas posterioresen cada octava:

D (x, y, ) = L(x, y, k) L(x, y, ) (3.11)donde k es una constante multiplicativa del factor de escala. La funcin DoG

es utilizada por varias razones. En primer lugar porque es una funcin eficienteen cuanto a coste computacional se refiere: Las imagenes suavizadas L (x, y, )son calculadas para la descripcin de caractersticas en el espacio-escala, y porlo tanto, D puede obtenerse como una simple resta. Adems, Mikolajczyk [10]asegura que los mximos y mnimos del Laplaciano de la Gaussiana respectode una escala normalizada produce las caractersticas de imagen ms establescaractersticas de imagen en comparacin con otras funciones como el Gradiente,el Hessiano o el Harris Corner Detector, pudindose aproximar el Laplaciano dela Gaussiana de escala normalizada mediante la funcin DoG.

Al conjunto de las imgenes Gaussianas suavizadas junto con las imgenesDoG se le llama octava. El conjunto de las octavas es construido mediante elmuestreo sucesivo de la imagen original por un factor de 2. Cada una de lasoctavas (i.e., duplicando ) es a su vez dividida en un nmero entero de sub-niveles o escalas s. Una vez se ha procesado una octava completa, la primeraimagen de la siguiente octava se obtiene mediante el muestreo de la primera delas imgenes de la octava predecesora con un valor de del doble respecto ala actual. Esto se traduce en una gran eficiencia del algoritmo para un nmerode escalas pequeo. El proceso descrito puede verse representado en la Figura3.11. Es importante tener en cuenta que la imagen original es expandida en elinicio del proceso para crear ms puntos de muestreo que en la imagen original,por lo que la imagen resulta duplicada en tamao antes de construir el primernivel de la pirmide.

Dado que el espacio-escala L (x, y, ) representa la misma informacin adiferentes niveles de escala, el modo particular del muestreo permite una reduc-cin de la redundancia. De esta manera se producen s + 3 imgenes por cadauna de las octavas y por lo tanto s + 2 DoG imgenes donde se llevar a cabola bsqueda de extremos. De acuerdo con los resultados de Lowe, es el valor des = 3 el que mejores resultados consigue, con lo que es el que se utiliza en este

31


Figura 3.11: Creacin del espacio-escala Gaussiano.

En cada una de las escalas, tambin llamadas octavas, la imagen se convolucionarepetidamente con funciones gaussianas para producir el conjunto de imagenesgaussianas mostradas en la parte izquierda de la imagen. Las imagenes obtenidasson substradas en parejas adyacentes para producir las imagenes diferencia-de-gaussiana mostradas a la derecha. Despus de cada octava, las imagenesGaussianas son muestreadas por un factor de 2, y se repite el proceso. FuenteDavid Lowe [8].

32


Figura 3.12: Localizacin de mximos y mnimos locales.

Los mximos y mnimos de las imgenes diferencia-de-gaussiana son detectadosmediante la comparacin de un pixel (marcado con X) con sus 26 vecinos en lasregiones de 3x3 de las escalas actual y adyacentes (marcados en azul). Fuente:David Lowe [8].

proyecto. Con esto se obtienen 6 imgenes Gaussianas suavizadas y 5 imgenesDoG por cada octava. Respecto del otro parmetro por determinar, referenteal muestreo de la escala de suavizado, se ha adoptado por seguir el mismo cri-terio anterior en base a los resultados de Lowe, donde se determina un valor de = 1,6. Una explicacin ms detallada se encuentra en [8].

Para detectar los mximos y los mnimos locales de cada punto de la imagenD (x, y, ) se compara el valor de ste con el de los puntos vecinos, en concreto,con el de sus 8 vecinos ms prximos de la imagen D donde se encuentra elpunto ms los 9 vecinos de cada una de las imgenes D de nivel superior einferior como se muestra en la Figura 3.12. Si el valor resulta ser superior oinferior al de todos sus vecinos, se identifica el punto como mximo o mnimolocal respectivamente.

Localizacin de puntos clave estables

Una vez los puntos clave candidatos han sido calculados, en esta segundaetapa se realiza un estudio de su estabilidad. Los puntos no firmemente situadossobre los bordes o aquellos con bajo contraste son bastante vulnerables al ruidoy por lo tanto no podrn ser detectados bajo pequeos cambios de iluminacino variacin del punto de vista de la imagen. Para excluirlos, Lowe utiliza los

33


siguientes criterios:

Para eliminar los puntos con bajo contraste, se aplica un proceso de um-bralizacin por el cual los puntos cuyo valor sea menor que dicho umbralDsern excluidos de la siguiente etapa por no considerarse suficientementeestables. En este proyecto se utiliza el valor de D = 0,03 recomendado porLowe.

Los puntos situados sobre bordes de manera difusa, conllevan un altogrado de inestabilidad incluso ante pequeos ruidos. Para llevar a cabosu eliminacin, se utiliza la propiedad de la funcin DoG atendiendo a lagran curvatura que presenta en la direccin paralela al borde y la pequeacurvatura que se observa en la direccin perpendicular. Estas respuestastan caractersticas se pueden estudiar mediante el clculo de la matriz delHessiano sobre la localizacin y escala del punto en estudio:

H =

[2Dx2

2Dxy

2Dxy

2Dy2

](3.12)

donde D es la imagen DoG D (x, y, ) respecto de la escala s. Las derivadasse calculan mediante la resta del valor de los puntos vecinos. Se puede demostrarque la siguiente desigualdad permite la localizacin de los puntos en los bordes:(

2Dx2 +

2Dy2

)2(2Dx2

2Dy2

)(2Dxy

)2 < (r + 1)2r (3.13)por lo tanto aquellos puntos que no satisfagan dicha desigualdad sern descar-

tados debido a su inestabilidad. El valor fijado es de r = 10 al igual que en elpaper de referencia [8]. Tras descartar los puntos inestables, al resto de puntosclave se les asignar una orientacin.

Asignacin de la orientacin

La caracterstica principal de los puntos SIFT es que stos son invariantes auna serie de transformaciones sobre las imgenes.

La invarianza respecto de la rotacin se consigue mediante la asignacin acada uno de los puntos una orientacin basada en las propiedades locales de laimagen y representando el descriptor respecto de esta orientacin. Para cada unode los puntos de inters se calcula la magnitud del gradiente,m, y su orientacin,, mediante las siguientes ecuaciones:

m(x, y) =

(L (x+ 1, y) L (x 1, y))2 + (L (x, y + 1) L (x, y 1))2

(3.14)

(x, y) = arctanL (x, y + 1) L (x, y 1)L (x+ 1, y) L (x 1, y) (3.15)

34


donde L representa la imagen gaussiana suavizada cuya escala resulta msprxima a la escala del punto de inters actual.

Respecto de la orientacin del gradiente, se crea un histograma con 36 bins,cada uno de ellos con una longitud de 10 para cubrir el rango de los 360posibles. El bin cuyo valor es mas alto se corresponde con la direccin dominantedel gradiente y por lo tanto es elegido como orientacin dominante. Sin embargose ha de tener en cuenta la posibilidad de que exista ms de una direccindominante. Es por ello que cualquier bin con un valor de ms del 80% del valorde la magnitud principal se considerar tambin como direccin dominante. Lospuntos que contengan ms de una direccin dominante supondrn una mayorestabilidad al mismo. Para una mayor precisin se utiliza una parbola paramediante la interpolacin de los 3 valores ms altos del histograma obtener elvalor del pico.

Las orientaciones principales del histograma se asignan al punto de interspara que as el descriptor quede representado respecto de stos.

Descriptor del punto de inters

Las etapas anteriores han dotado a los puntos de inters seleccionados deinvarianza respecto de la orientacin, escalada y localizacin respecto de la im-agen. En esta ltima etapa se crea un vector de caractersticas para cada unode los puntos de inters que contiene una estadstica local de las orientacionesdel gradiente de la escala de espacio gaussiano. Se realiza un muestreo de lasorientaciones y magnitudes del gradiente de la imagen sobre regiones de 1616alrededor del punto de inters. Este proceso es similar al de la etapa anterior,donde ahora cada una de las muestras son ponderadas tanto por la magnitud desu gradiente como por una funcin 3D gaussiana evitando as cambios bruscosen el descriptor ante pequeos cambios en la posicin de la ventana y al mismotiempo asignando menor nfasis a los puntos ms alejados del punto de inters.

El valor de la funcin gaussiana se fija como 1,5 veces el tamao de laregin de clculo para el punto de inters.

Se analizan las muestras de cada regin de 1616 formando histogramas deorientaciones resumiendo el contenido en sub-regiones de 4 4 como se puedever en la Figura 3.13. Cada uno de los histogramas se compone de 8 bins, quealmacenan las orientaciones posibles proporcionales a 45 donde la magnitud decada flecha representa el valor acumulado para cada bin. Por lo tanto se obtienen16 histogramas respecto de las orientaciones de los puntos de cada regin paracada uno de los puntos de inters.

Finalmente el descriptor de cada punto de inters est formado por un vec-tor que contiene los valores de las 8 orientaciones de los 4 4 histogramascomponiendo un vector de caractersticas de 4 4 8 = 128 elementos.

De manera aadida, el vector de caractersticas es modificado para dotarlode cierta robustez frente a cambios de iluminacin. Los cambios de iluminacinafectan en mayor medida a la magnitud del gradiente y no a la orientacin, por

35


Figura 3.13: Descriptor de los puntos de inters

lo que se busca una representacin de esta magnitud que minimice estos efec-tos. Para ello se lleva a cabo un proceso de normalizacin en los que ahora loscambios de contraste (pixels multiplicados por una constante) quedan neutral-izados, mientras que los cambios en la luminosidad (suma de una constante conlos pixels) no afecta a los valores del gradiente que se calcula como diferenciasentre pixels. Si bien esta normalizacin no confiere invarianza respecto de loscambios de iluminacin, si se consigue paliar los efectos que estos producen.

Finalmente se limita el valor de cada componente de magnitud de gradientea un valor mximo para que tenga un mayor peso la orientacin frente a la mag-nitud del gradiente. Siguiendo los parmetros de Lowe [8], el valor del umbrales de 0,2. Luego se vuelve a normalizar de nuevo a una amplitud unidad.

Correspondencia entre puntos clave (matching)El trmino matching entre imgenes tiene como finalidad el clculo de un

valor que represente el grado de similitud entre las dos imgenes, y que a contin-uacin se puedan establecer las diferentes conclusiones. El clculo de este valor,representado como distancia y conocido tambin como score, se realiza mediantela aplicacin de una mtrica o frmula de la distancia entre ambas imgenes.Previo paso del clculo del score, es necesario establecer las correspondenciasentre los puntos clave.

La correspondencia entre puntos clave se lleva a cabo mediante el clculo dela distancia eucldea entre los vectores de caractersticas pertenecientes a difer-entes puntos de inters. Este clculo genera a su vez otro valor que ser utilizadopara determinar cual de los puntos de la imagen comparada se corresponde consu homlogo, en el caso de existir, de la primera de las imgenes.

Supongamos que queremos realizar elmatching de puntos entre dos imgenesI1 e I2. Para cada uno de los puntos clave pertenecientes a I1, se seleccionanlos dos mejores candidatos de entre todos los puntos clave pertenecientes a I2

36


Figura 3.14: Diagrama de bloques del descriptor SIFT

Figura 3.15: Representacin del matching para el descriptor SIFT

mediante el criterio de mxima similitud. Este criterio establece que los mejorescandidatos para realizar el matching con el punto clave p1 perteneciente a I1cuyo vector de caractersticas es v1, son los puntos clave p1 y p2 pertenecientes aI2 cuyos vectores de caractersticas v1 y v2 representan las distancias eucldeasmnimas d1 y d2 respectivamente respecto de v1. Si la relacin d1/d2 entrelas distancias mencionadas es suficientemente pequea, entonces se establece elmatching entre los puntos p1 y p1 pertenecientes a cada una de las img

Descriptores visuales

Documents