-
Dpto. Electrnica, Automtica e Informtica Industrial 11
1 Introduccin a la Visin Artificial
Uno de los sentidos ms importantes de los seres humanos es la
visin. sta es
empleada para obtener la informacin visual del entorno fsico.
Segn Aristteles,
Visin es saber que hay y donde mediante la vista. De hecho, se
calcula que ms de
70% de las tareas del cerebro son empleadas en el anlisis de la
informacin visual. El
refrn popular de Una imagen vale ms que mil palabras tiene mucho
que ver con
los aspectos cognitivos de la especie humana. Casi todas las
disciplinas cientficas
emplean utillajes grficos para transmitir conocimiento. Por
ejemplo, en Ingeniera
Electrnica se emplean esquemas de circuitos, a modo grfico, para
describirlos. Se
podra hacerlo mediante texto, pero para la especie humana
resulta mucho ms eficiente
procesar imgenes que procesar texto. La visin humana es el
sentido ms desarrollado
y el que menos se conoce debido a su gran complejidad. Es una
actividad inconsciente y
difcil de saber cmo se produce. De hecho, hoy en da, se carece
de una teora que
explique cmo los humanos perciben el exterior a travs de la
vista.
En el ao 1826 el qumico francs Niepce (1765-1833) llev a cabo la
primera
fotografa, colocando una superficie fotosensible dentro de una
cmara oscura para fijar
la imagen. Posteriormente, en 1838 el qumico francs Daguerre
(1787-1851) hizo el
primer proceso fotogrfico prctico. Daguerre utiliz una placa
fotogrfica que era
revelada con vapor de mercurio y fijada con trisulfato de
sodio.
-
Carlos Platero Apuntes de Visin Artificial
12 Dpto. Electrnica, Automtica e Informtica Industrial
Figura 1. 1 Primeras fotografas
Desde que se invent la fotografa se ha intentado extraer
caractersticas fsicas
de las imgenes. La Fotogrametra dio sus primeros pasos desde
imgenes capturadas en
globos. La Astronoma avanz enormemente con el anlisis de imgenes
recibidas por
los telescopios. El anlisis de radiografas transform la
Medicina. Se podran citar
muchos ms ejemplos que durante dcadas han transformado la
percepcin de la
Ciencia con el procesamiento de las imgenes, alguna veces por
separado y otras de
forma multidisiciplinar.
Figura 1. 2 Aplicaciones del procesamiento de imgenes a)
Astronoma, b) Fotogrametra, c) Medicina, d) Industria
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 13
Sin embargo, el momento histrico que hace que estas tcnicas
confluyan y den
un cuerpo de conocimiento propio, surge en la dcada de los 80
del siglo XX. La
revolucin de la Electrnica, con las cmaras de vdeo CCD y los
microprocesadores,
junto con la evolucin de las Ciencias de la Computacin hace que
sea factible la Visin
Artificial.
Por tanto, la Visin Artificial o tambin llamada Visin por
Computador,
pretende capturar la informacin visual del entorno fsico para
extraer caractersticas
relevantes visuales, utilizando procedimientos automticos. Segn
Marr, Visin es un
proceso que produce a partir de imgenes del mundo exterior una
descripcin til para
el observador y no tiene informacin irrelevante.
Para algunos autores, como Gonzlez y Woods, los primeros atisbos
de este
proceder se remontan a la dcada de los aos 20 del siglo XX,
cuando se transmitan
imgenes transocenicas, a travs de cable submarino. Las
fotografas periodsticas
entre Europa y Amrica tardaban una semana en llegar a travs de
los barcos. Al
emplear las primeras tcnicas de procesamiento de las imgenes se
pas slo a tres
horas. Las imgenes se codificaban a cinco niveles de grises y se
transmitan por
telfono. No obstante, ste podra ser el principio de las tcnicas
de procesamiento de
las imgenes, pero no el de la Visin Artificial, tal cual se ha
definido. El concepto de
Visin Artificial es ms amplio y recupera para s, todos los
conocimientos de anlisis
de las imgenes desempeado por otras disciplinas desde los
albores de la fotografa.
Parece claro que para tratar sobre la Visin, lo primero a
estudiar ser la
naturaleza de la luz, para luego pasar a entender cmo funciona
la visin humana y
acabar con las partes de la Visin Artificial.
1.1 La naturaleza de la Luz
La luz fue considerara, hasta el siglo XVIII, como una corriente
de corpsculos.
stos eran emitidos por los focos luminosos y disminua su
densidad a medida de que se
alejaban del foco. Podan penetrar en las sustancias
transparentes y se reflejaban en las
superficies de los cuerpos opacos. Cuando los corpsculos
penetraban en el ojo,
excitaban el sentido de la vista. Esta teora corpuscular fue
desarrollada por Newton en
el siglo XVII y mejorada posteriormente, con el modelo cuntico,
por Plank a principios
del siglo XX.
En el siglo XIX, los trabajos de Young, Fresnel y Foucault
salvaron la mayora
de las objeciones de la teora ondulatoria. El impulso definitivo
lo dio Maxwell, al
explicar la luz como una radiacin ondulatoria. Sin embargo, el
efecto fotoelctrico
proporcion evidencias experimentales de que la luz tena carcter
corpuscular en la
interaccin con la materia. Hoy se admite que en la emisin de la
luz intervienen
electrones con cantidades de energa determinadas o discretas.
Cuando un electrn pasa
de un nivel de energa a otro inferior emite una partcula
discreta de energa, llamada
cuanto o fotn. El problema ahora consiste en hacer concordar el
cuanto o caracterstica
corpuscular de la luz con la idea de onda continua. Para la
Mecnica Cuntica, cuando
se trata del comportamiento de gran nmero de cuantos, la teora
ondulatoria explica
satisfactoriamente los fenmenos, pero al considerar el
comportamiento de unos pocos
-
Carlos Platero Apuntes de Visin Artificial
14 Dpto. Electrnica, Automtica e Informtica Industrial
cuantos prevalece la teora corpuscular. As, los fenmenos de
propagacin de la luz
encuentran su mejor explicacin dentro de la teora ondulatoria,
mientras que la accin
mutua entre luz y materia, en los procesos de absorcin y emisin,
es un fenmeno
corpuscular. An hoy se mantiene la teora dual de la luz.
La mayor parte del temario versar sobre la propagacin de la luz
y la formacin
de las imgenes. Todos estos fenmenos pueden interpretarse a
partir de la teora
ondulatoria. Por tanto, se puede considerar que las fuentes
luminosas emanan de un
frente de ondas, las cuales pueden ser representadas,
imaginariamente, por lneas rectas
en la direccin de la propagacin del tren de ondas, a las que se
llamar rayo.
1.1.1 La luz como onda electromagntica
Algunos tipos de energa requieren de un medio conductor para
propagarse.
Como as sucede con la energa elctrica o mecnica. Pero hay otros
tipos de fuentes
energticas que no necesitan de un soporte conductor, ste es el
caso de la luz. Las
radiaciones electromagnticas se propagan en forma de dos ondas
vectoriales
mutuamente acopladas y perpendiculares entre s; una onda para el
campo elctrico y
otra para el campo magntico. Segn la teora ondulatoria, la luz
se propaga en forma de
onda que viaja en el espacio libre con una velocidad constante c
= 3108 m/s. El espectro
visible es una porcin muy pequea del conjunto de ondas
electromagneticas que tiene
la peculiaridad de ser captada por los ojos y procesada en el
cerebro. El ojo humano es
capaz de distinguir radiaciones de longitudes de onda
comprendidas entre los 380 nm a
los 780 nm, cuyas frecuencias oscilan entre los 3.21014
Hz y los 7.71014
Hz1. El sentido
de la vista transforma las diferentes amplitudes y frecuencias
del espectro visible en
sensaciones conocidas como brillo y color respectivamente.
Figura 1. 3 a) Campo electromagntico b) Espectro de la luz
Fue Newton quien observ cmo la luz blanca, la procedente de la
luz solar, se
poda descomponer en unas serie de haces luminosos de colores
cuando atravesaba un
prisma ptico. Newton, con este experimento, hall el espectro de
la luz diurna
mediante el fenmeno conocido como dispersin de la luz o
dispersin cromtica, cuya
explicacin fsica escapaba de su teora corpuscular. Mediante la
teora ondulatoria se
sabe que cada color es en realidad una onda electromagntica de
frecuencia determinada
y que, al penetrar en el prisma ptico, se desva en una direccin
diferente debido a que
1 La frecuencia de la onda es la velocidad de la luz, partido su
longitud:
cf
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 15
el ndice de refraccin de este material varia con la frecuencia
de la onda penetrante,
con lo que el haz se expande de forma que las radiaciones
monocromticas puedan ser
distinguidas y observadas por el ojo humano.
Figura 1. 4 Dispersin cromtica
1.1.2 Fuentes de luz
La distribucin espectral de la energa radiada, f , es una funcin
que
representa la cantidad de potencia asociada a cada longitud de
onda, . Si la distribucin presenta un pico sobre una determinada
longitud de onda y es despreciable el resto de
componentes, se dice que es una radiacin monocromtica. ste es el
caso de la luz
lser. La luz blanca se caracteriza por tener una distribucin
uniforme en su espectro.
Figura 1. 5 Diversos espectros de fuentes de luz
Cada onda luminosa monocromtica lleva asociada una energa, cuyo
valor es
igual a2:
2 La longitud de onda del lser de un DVD est entre los 630 nm y
los 650 nm, en un CD es de
780 nm. La potencia del laser de un DVD es de 5.4 W y el de un
CD es de 1.85 W.
-
Carlos Platero Apuntes de Visin Artificial
16 Dpto. Electrnica, Automtica e Informtica Industrial
chfhQ
Donde h es la constante de Planck, igual a 6.6310-34
Js, f es la frecuencia, c la
velocidad de la luz y la longitud de la onda. As, la luz de
menor frecuencia tiene menor contenido energtico, mientras que la
luz de menor longitud de onda posee
mayor energa.
Ejemplo 1.1
Cul es el flujo de fotones por segundo, , de un laser de DVD con
una
potencia de 5W emitiendo con una longitud de onda de 650 nm?
Jch
Q19
9
834
10310650
1031063.6
fotones/s1067.1103
105 1319
6
Q
P
La energa radiante emitida por una fuente luminosa, por unidad
de tiempo y por
unidad de rea, depende de la naturaleza de la superficie y de su
temperatura. Esta
radiacin es una mezcla de diferentes longitudes de onda. La
temperatura de color es la
temperatura a la que hay que calentar un radiador de energa o
fuente de radiaciones
para que emita radiaciones en determinadas longitudes de onda. A
temperaturas bajas,
este manatial radiar energa que se hace visible con longitudes
de ondas largas (rojas
anaranjados), mientras que a altas temperaturas llegar a emitir
radiaciones de
frecuencia elevadas (azules). Por ejemplo, a la temperatura de
600 K, la ms intensa de
estas ondas tiene una longitud de 500nm, que se encuentra en la
regin del infrarrojo,
mientras a 1000 K, un cuerpo emite bastante energa radiante
visible para ser luminosos
por si mismo y parece incandescente; no obstante, la mayor parte
de la energa emitida
es transportada, con mucho, por ondas infrarrojas. A 3000 K, que
es aproximadamente
la temperatura del filamento de una lmpara de incandescencia, la
energa radiante
contiene bastantes longitudes de onda visibles, de las
comprendidas entre 400nm y
700nm, de modo que el cuerpo parece casi rojo blanco.
Figura 1. 6 Temperatura de color
La relacin entre la radiacin radiada y la temperatura del foco
viene
determinada por la ley de Stefan-Boltzmann:
(1. 1)
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 17
4TKE
SB
Donde KSB es la constante de Stefan-Boltzmann (5.710-8
W/m2K
4), T es la
temperatura del emisor y E es la potencia radiada por metro
cuadrado, llamada
iluminacin.
Ejemplo 1.2
La iluminacin medida por un pirmetro ptico en un pequeo agujero
de un
horno es de 22.8 W/cm2. Cul es la temperatura interna del
horno?
KKmW
mWTTKE
SB1414
/107.5
/108.22 41
428
24
4
El flujo luminoso se calcula a partir de la distribucin
espectral, f :
0
df
La magnitud fsica del flujo luminoso, en el sistema
internacional, es el vatio.
El flujo luminoso emitido por un manantial luminoso
depende de la abertura y del tamao del cono de radiacin,
esto es, del ngulo slido3. Se considera el manantial
luminoso puntual S de la figura 1.7. Y sea d el flujo
luminoso que atraviesa una seccin cualquiera de un
estrecho cono de ngulo slido d estereorradianes, cuyo
vrtice coincida con el manantial. La intensidad luminosa
del manantial, en la direccin del cono, se define como la
razn del flujo, d, al ngulo slido, d, o sea, como el
flujo luminoso emitido por unidad de ngulo slido. La
intensidad luminosa se representa por I:
Id
d
3 El ngulo slido se define como el rea de una superficie
esfrica, dA, dividida por el cuadrado
del radio de la esfera, R. Su unidad es el estereorradian, [sr],
una cantidad adimensional. Una esfera tiene
4 esterorradianes de ngulo slido.
(1. 2)
(1. 3)
Figura 1. 7 Flujo luminoso
( 1.4 )
-
Carlos Platero Apuntes de Visin Artificial
18 Dpto. Electrnica, Automtica e Informtica Industrial
La unidad de intensidad es vatio por estereorradin. La mayor
parte de los
manantiales no emiten cantidades iguales de flujo por unidad de
ngulo slido en todas
las direcciones.
1.1.3 Interaccin entre la luz y la materia
Cuando un cuerpo recibe radiacin luminosa, una parte es
absorbida, otra es
reflejada y hay otra parte que es transmitida. Por el principio
de conservacin de la
energa, el flujo luminoso incidente ser igualado a los tres
mecanismos mencionados:
REFLEJADAABSORBIDAATRANSMITIDINCIDENTE
Segn sea la longitud de onda que reflejen, transmitan o absorban
as ser el
color con el que se percibe el objeto. Un objeto que absorba
todas las frecuencias se
captar como negro, mientras que un cuerpo que refleje todas las
longitudes de onda
visibles aparecer blanco. En los objetos opacos la transmitancia
es insignificante,
siendo las frecuencias que refleja el cuerpo las que determinan
con que color se percibe.
En los transparentes, por el contrario, son la reflectancia y la
absortancia las que valen
prcticamente cero. En consecuencia, una especificacin puramente
objetiva del color
de una superficie opaca puede expresarse en trminos de
reflectancia espectral. En el
caso de materiales transparentes vendrn dada
por la transmitancia espectral.
La radiacin reflejada, la captada por
el observador, depende de la naturaleza de la
superficie en la que se refleja el haz luminoso,
as como de las condiciones de iluminacin y
de posicin del punto de vista. Sea dA, en la
figura 1.8, un elemento de superficie cuya
normal n forma un ngulo respecto a un
manantial puntual S. Asumiendo que la fuente
lumninosa S ilumina por igual en todas las
direcciones. La relacin entre el flujo incidente en la
superficie respecto al rea, define
la iluminacin como:
22
2 coscos
r
lnI
r
I
dA
r
AdI
dA
dI
dA
dE
De otro lado, a la fraccin del flujo incidente que
sea reflejada en la direccin del observador, esto es, desde
la superficie al sensor se la llama radiacin reflejada o
luminancia. La radiacin reflejada de la superficie es
definida como el flujo emitido por unidad de rea reflejada
y por unidad de ngulo slido en la direccin vista por el
sensor. Se define la radiacin radiada, L, como:
(1. 5)
Figura 1. 8 Iluminacin en dA
( 1.6 )
S
n
d A
l
S
n
d A
l
V
n
dA
v
V
n
dA
v
Figura 1. 9 Radiacin vista por v
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 19
2
c o s c o sr r r a p a ren te
d d I d I IL
d A d d A d A n v S
donde dr es el ngulo slido del sensor visto desde la superficie
reflejada.
Considerando que la superficie es iluminada desde una direccin
i, se define la funcin
de distribucin reflejada bidireccional ( bi-directional
reflectance distribution function,
BRDF), Fr de una superficie, como el nivel de radiacin reflejada
de una luz incidente
vista desde (r r) por unidad de iluminacin incidente:
ii
rr
rir
E
LF
,
En la tabla 1.1 aparecen las magnitudes radiomtricas en el
Sistema
Internacional y en unidades derivadas del Sistema
Internacional4:
Ejemplo 1.3
Un rel es controlado por una clula fotoelctrica. sta tiene una
abertura de 15
mm x 40 mm y requiere al menos un flujo mnimo de 0.3 mW. A que
distancia
mxima se pondr un emisor puntual que tiene como intensidad 1
W/sr?
mE
Id
mWE
41.1
/5.010401015
103.0
max
2
33
3
4 La candela es la intensidad luminosa, en una direccin dada, de
una fuente que emite una
radiacin monocromtica de frecuencia 5.4 1014
Hz y cuya intensidad energtica en esa direccin es
1/683 vatios por estereorradin (W/sr)
( 1.7 )
( 1.8 )
Magnitud fsica Smbolo Unidad en S.I. Unidades derivadas del
S.I.
Flujo luminoso W Lumen(Cd sr)
Intensidad luminosa I W sr-1 Candela (Cd)
Iluminacin E W m-2 Lux(Lumen/m2)
Radiacin o luminancia
L W m-2 sr-1 Cd/m2
Tabla 1.1 Unidades del S.I. de las magnitudes de Radiometra
-
Carlos Platero Apuntes de Visin Artificial
20 Dpto. Electrnica, Automtica e Informtica Industrial
Ejemplo 1.4
Cul es la potencia del Sol, si se sabe que la luz tarda 8
minutos en llegar a la
Tierra y la radiacin incidente en la Tierra es de 1kW/m2?. Y la
temperatura del Sol, si
el radio es de 6.96108 m?
WI
srWdEI
26
1252
832
106.24
1007.210360810
KKmW
mWTTKEmW
RE
SB5232
/107.5
/1027.4/1027.4
4
4
1
428
27
427
2
1.2 Visin humana y visin artificial
La visin es el sentido ms importante que tiene el ser humano.
As, mientras
que para el odo se tiene alrededor de treinta mil terminaciones
nerviosas, en la vista hay
ms de dos millones. La radiacin exterior recibida por el ojo
debe ser transformada en
seales que sean procesadas por el cerebro. El ojo es el elemento
transductor mientras
que el cerebro es el que procesa dicha informacin.
El ojo tiene una forma, aproximadamente, esfrica de unos 2.5 cm
de dimetro.
El ojo est formado por una ptica y una zona sensorial. La ptica
est constituida por
la crnea, el iris o pupila y el cristalino. La cornea es un
material transparente y
funciona como lente fija. La pupila regula la cantidad de luz
que entra en el interior y el
cristalino hace las veces de lente variable, permitiendo el
enfoque dependiendo de la
distancia de los objetos. Los msculos que sujetan al cristalino
provocan su
deformacin, cuya consecuencia es el enfoque del campo visual. La
misin de la ptica
del ojo es conducir la radiacin electromagntica, del espectro
visible, hacia la retina.
Figura 1. 10 Secciones del ojo
La retina se encuentra en la parte posterior del glbulo ocular y
es donde se
ubican las clulas fotosensibles: los conos y los bastones.
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 21
Figura 1. 11 Clulas fotosensibles
En la retina se puede distinguir dos partes: la fvea y la mcula.
La fvea es la
parte central de la retina, de menor tamao y donde se encuentran
los conos. Es en esta
zona donde se tiene mayor sensibilidad a la longitud de la onda
electromagntica, con
un ngulo visual de dos grados. La abertura corresponde,
aproximadamente, con el
ancho del pulgar extendido el brazo. La fvea es tan pequea que
es necesario mover el
ojo para enfocar dos puntos tan prximos como los del signo de
puntuacin (:). Esta
informacin visual transmitida al cerebro se llama visin fvea. La
mcula es de mayor
extensin, la agudeza visual es menor y est definida por los
bastones. Esta zona se
encarga de la visin perifrica.
La percepcin del color de una imagen la realiza los conos. Son
unos seis
millones y cada cono tiene conexin a varias neuronas. Basndose
en la informacin
aportada por los conos, el cerebro construye la sensacin de
color. Por el contrario, los
bastones son ms de 100 millones y son capaces de detectar la
intensidad lumnica.
Varios bastones estn asociados a una nica neurona.
Figura 1. 12 Distribuciones de conos y bastones en la retina
Mientras la visin fvea tiene mayor agudeza, ms resolucin y
percibe los
colores, la visin perifrica le da al cerebro ms informacin
espacial que la fvea y
realza los contrastes. De este hecho se destaca que en la
oscuridad, la visin perifrica
es ms adecuada que intentar centrar la visin sobre el
objeto.
-
Carlos Platero Apuntes de Visin Artificial
22 Dpto. Electrnica, Automtica e Informtica Industrial
Figura 1. 13 Sensibilidad del ojo en luz diurna y en visin
nocturna
La sensibilidad a la intensidad en el ser humano es alta siempre
que los
elementos que se comparen sean pocos. Cuando el nmero de
intensidades involucradas
simultneamente es superior a unos 24 tonos se pierde la mayor
parte de esta
sensibilidad. Esto explica que, en la mayora de los casos
prcticos, sea suficiente el uso
de 32 64 niveles de intensidad para representar una imagen.
El color es una caracterstica del sistema de percepcin humana y
est
relacionado con las sensaciones recibidas por el ojo en el
espectro visible. El color es la
respuesta del sistema visual humano ante las variaciones de las
longitudes de onda del
espectro electromagntico visible. Estudios fisiolgicos han
revelado que existen tres
tipos de conos, denominados tipos S, M y L. Los S son ms
sensibles a las ondas cortas
(azules 450nm), los M a las medias (verde 540 nm) y los L a las
de longitudes largas
(rojo - 650 nm). Este hecho ha dado base a la teora del
triestimulo, de manera que el
color se puede representar en una base de tres componentes
fundamentales: rojo-verde-
azul (RGB Red, Green, Blue).
La sensibilidad de cada cono no es exactamente igual a cada
parte del espectro
fijado. Concretamente, los conos azules son los menos sensibles,
mientras que los conos
verdes son los ms sensibles. Otra consideracin a tener en cuenta
es la refraccin de los
rayos luminosos que penetran en la retina. No todos afectan por
igual. La luz de alta
frecuencia (azul) focaliza en un punto anterior a la retina,
mientras que las bajas
frecuencias (rojos) lo hacen en puntos posteriores. Esto tiene
como consecuencia que
los detalles rojos o azules no puedan distinguirse netamente en
una escena. Justo lo
contrario de lo que ocurre con los verdes, cuyo punto de
convergencia o focalizacin se
sita exactamente en la retina, lo que induce a una mayor
resolucin del ojo para estas
tonalidades.
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 23
Figura 1. 14 a) Distorsin cromtica b) Sensibilidad del ojo a la
longitud de onda
Una vez que la seal luminosa ha sido transformada en pulsos
elctricos por los
conos y bastones, stos son transportados al cerebro por los
nervios pticos. Los pulsos
son llevados al lbulo occipital, donde se encuentra el crtex
visual. Es una zona de 24
cm2 con 1.510
8 neuronas. Al hemisferio derecho llega la informacin del ojo
izquierdo
y viceversa. En el cerebro se realiza una labor de extraccin de
las caractersticas de la
imagen. Para ello existen zonas especializadas que responden
mejor a un tipo de
caracterstica que a otras.
Figura 1. 15 Crtex visual
El hombre ha imitado muchas veces, en la construccin de sus
artefactos, a la
Naturaleza. En este caso tambin se cumple. Las cmaras de vdeo
con sus pticas
hacen las veces del globo ocular, mientras el computador
realizar las tareas de
procesamiento, emulando el comportamiento del cerebro. Cuando se
establecieron en la
dcada de los 50 del siglo XX, los objetivos de la Inteligencia
Artificial, se supona que
con la llegada del siglo XXI habra mquinas que seran capaces de
describir, con
informacin de alto nivel, las escenas capturadas. Con el paso
del tiempo se vio que
aquel anhelo se iba desvaneciendo. Hoy en da, todava no hay una
teora de la visin.
No se conoce los mecanismos que el cerebro utiliza para obtener
la informacin de la
percepcin. El cerebro es capaz, de manera inconsciente, de
determinar la distancia a los
objetos, de reconocerlos en diferentes posiciones, aunque se
encuentren rotados y con
-
Carlos Platero Apuntes de Visin Artificial
24 Dpto. Electrnica, Automtica e Informtica Industrial
informacin parcialmente oculta. En definitiva, el cerebro
presenta una sofisticacin en
la percepcin que ni ahora ni en mucho tiempo habr posibilidad de
implementar
artificialmente.
Figura 1. 16 Imitacin artificial del ojo
Lo que si hace la Visin Artificial es construir nuevos y ms
sofisticados
algoritmos que sean capaces de obtener informacin de bajo nivel
visual. Y aunque
todava se est aos luz de la percepcin visual de los seres vivos,
la Visin Artificial es
muy eficaz en tareas visuales repetitivas y alienantes para el
hombre. Por ejemplo, en el
campo de la inspeccin de productos en la industria o en contar
clulas en una imagen
de microscopa o en determinar la trayectoria de un vehculo en
una autopista.
Resumiendo, las principales ventajas de la visin humana respecto
a la artificial
y viceversa, son:
Sistema humano:
Mejor reconocimiento de objetos.
Mejor adaptacin a situaciones imprevistas.
Utilizacin de conocimiento previo.
Mejor en tareas de alto nivel de proceso.
Sistema artificial:
Mejor midiendo magnitudes fsicas.
Mejor para la realizacin de tareas rutinarias.
Mejor en tareas de bajo nivel de proceso.
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 25
1.3 Configuracin bsica de un sistema de Visin Artificial
Los dos pilares del sistema fsico de la visin artificial son: el
sistema de
formacin de las imgenes y el sistema de procesamiento de stas.
En el primer
apartado estara constituido por el subsistema de iluminacin, de
captacin de la imagen
y de adquisicin de la seal en el computador. Una vez introducida
la seal en el
computador, sta es procesada mediante los algoritmos para
transformarla en
informacin de alto nivel. La cual puede ser utilizada para su
representacin visual, para
actuar en el planificador de un robot o ser fuente de datos para
un autmata
programable. En definitiva, mltiples perifricos pueden ser
receptores de esta
informacin y vincularse con el sistema de procesamiento de las
imgenes.
Desgranado las peculiaridades de cada subsistema, stas tienen
las siguientes
reflexiones introductorias:
Subsistema de iluminacin: conjunto de artefactos que producen
radiacin electromagntica para que incidan sobre los objetos a
visualizar. Se puede citar algunos elementos como lmparas,
pantallas
fotogrficas, filtros de luz, lseres,
Subsistema de captacin: son los transductores que convierten la
radiacin reflejada luminosa en seales elctricas. Fundamentalmente
se
habla de las cmaras CCD, no slo en el espectro visible, sino que
van
desde la radiacin gamma hasta la radiofrecuencia o microondas,
dando
paso a sensores de ultrasonidos, sonar, radar, telescopa,
Subsistema de adquisicin: la seal elctrica procedente de las
cmaras forman la seal de vdeo. Hay una tendencia creciente a que
su
naturaleza sea de tipo digital, pero todava existen muchas
seales de
vdeo de carcter analgico (CCIR, PAL, RS170, NTSC,). Para ser
tratadas hay que muestrearlas y cuantificarlas. Ambas tareas
son
realizadas por las tarjetas de adquisicin. Tambin se las llama
frame
grabbers. Se depositan en el bus de expansin del computador.
Existen
tarjetas para buses desde PCI hasta VMP. Aunque actualmente se
est
imponiendo las tecnologas de USB o FireWire.
Subsistema de procesamiento: Suele ser un computador o un grupo
de computadores, dependiendo de las necesidades de los algoritmos
de
Visin Artificial. Parten de una representacin digital de las
imgenes y
procesan esta informacin hasta alcanzar otro tipo de informacin
de ms
alto nivel. La transformacin depender de la algoritmia.
Subsistemas de perifricos: conjunto de elementos receptores de
la informacin de alto nivel. Puede ser un monitor de altas
prestaciones
grficas, un automatismo, una impresora sacando las
caractersticas,
-
Carlos Platero Apuntes de Visin Artificial
26 Dpto. Electrnica, Automtica e Informtica Industrial
Figura 1. 17 Subsistemas fsicos de un equipo de visin
artificial
1.3.1 Representacin de las imgenes en los computadores
digitales
Aunque el sistema de visin humano tiene mayor resolucin en la
fvea y menos
en la periferia, se ha observado que a pesar de que la
distribucin de los fotorreceptores
no es uniforme, la percepcin visual si lo es. Los humanos
percibimos con una nica
resolucin. Esta circunstancia ha conducido a la utilizacin de
sensores con matrices de
resolucin uniforme. Por tanto, la organizacin corresponde a una
matriz 2D uniforme.
Las imgenes para ser procesadas en el computador han sido
adquiridas a travs
de la cmara de vdeo y puestas en su memoria empleando las
tarjetas de adquisicin de
vdeo. Esta seal es de carcter bidimensional y emplea variables
discretas. Los
elementos de la matriz se llaman pxeles. El acceso a esta
elemental informacin se hace
indicando la fila y la columna que ocupa. El origen de
coordenadas de la imagen se
encuentra en la esquina superior izquierda. El eje horizontal
corresponde con las
columnas y el eje vertical con las filas. Se emplearn ndices
enteros para posicionar el
pxel. Se denotar el valor del pxel a travs de una funcin, del
tipo f(x,y), siendo x el
ndice de la fila e y de la columna.
Si la imagen es acromtica, slo se presenta la luminancia, esto
es, los niveles de
grises. La funcin f(x,y) retornar el nivel de gris del pxel
mencionado. En caso de que
la imagen sea en color, f(x,y) devolver un vector. Normalmente
suele expresarse como
una proyeccin del color sobre el sistema RGB
(Red-Green-Blue).
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 27
Figura 1. 18 Organizacin matricial uniforme de una imagen
digital
La imagen puede ser de tipo 3D, por ejemplo, en resonancia
magntica, luz
estructurada, etc. stas se presentan como una pila de imgenes
2D. Se les aade otro
ndice, denominado k o z, que indica el orden de la rodaja de
imagen 2D dentro de la
pila.
La secuencia temporal de imgenes estticas da lugar al vdeo. En
el cine se
emplea 25 fotogramas por segundo, gracias a la inercia visual
del ojo humano, da
sensacin de continuidad en la escena.
1.3.2 Etapas bsicas de una aplicacin en Visin Artificial
Aunque cada aplicacin de Visin Artificial tiene sus
especificidades, se puede
decir que existe un tronco comn de etapas entre ellas. No
necesariamente debe cubrirse
todas en una implementacin concreta. Hay algunas veces que slo
se tiene un
subconjunto de las fases que se van a citar. Por otro lado,
aunque la exposicin muestra
un encadenamiento temporal de una etapa sobre otra, no es real
esta simplificacin; se
hace para facilitar la comprensin. En la puesta en prctica
siempre hay
realimentaciones entre las distintas fases.
La primera etapa es la construccin del sistema de formacin de
las imgenes.
Su objetivo es realzar, mediante tcnicas fotogrficas
(iluminacin, ptica, cmaras,
filtros, pantallas,...), las caractersticas visuales de los
objetos (formas, texturas, colores,
sombras,...). El xito de muchas aplicaciones depende de un buen
diseo en esta primera
etapa. El segundo captulo se dedicar a estas tcnicas.
Una vez adquirida la imagen se pasar a la etapa de preprocesado.
El objetivo es
mejorar la calidad informativa de la imagen adquirida. Se
incluyen operaciones de
-
Carlos Platero Apuntes de Visin Artificial
28 Dpto. Electrnica, Automtica e Informtica Industrial
mejora de la relacin seal-ruido (denoising), SNR5, de atenuar
las imperfecciones de la
adquisicin debido a la funcin de transferencia del sistema de
captacin de imgenes
(deconvolution), de regularizar la imagen, de mejorar el
contraste o de optimizar la
distribucin de la intensidad (enhancement) o de realzar algunas
caractersticas de la
imagen, como bordes o reas. Algunas de estas prcticas sern
desarrolladas en el tercer
y cuarto captulo.
Figura 1. 19 Etapas de una aplicacin de visin artificial
Segmentacin es la fase donde se particiona la imagen en regiones
con
significado. Por ejemplo, en una imagen de satlite se determina
las zonas de agua, de
cultivo, urbanas, carreteras,... Existen varias tcnicas:
umbralizaciones,
discontinuidades, crecimiento de regiones, uso del color o de
movimiento, etc. Estas
estrategias sern analizadas en el captulo quinto.
Una vez dividida la imagen en zonas con caractersticas de ms
alto nivel se
pasar a su extraccin de las caractersticas. Bsicamente son de
tipo morfolgico, tales
como rea, permetro, excentricidad, momentos de inercia,
esqueletos, pero tambin se
puede emplear caractersticas basadas en la textura o en el
color.
Fjese que se ha pasado de una informacin visual primaria a algo
ms
elaborado. Con las caractersticas analizadas de cada regin se
debe de clasificar e
interpretar. Por tanto, se disearn clasificadores que le d a
cada regin segmentada
una etiqueta de alto nivel, como por ejemplo, en una imagen area
qu zonas son tierras
de cultivo, reas urbanas, etc. Existe un elenco de tcnicas de
clasificacin, como redes
5 SNR=10 log(Pseal/Pruido), indicando P la potencia
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 29
neuronales, sistemas expertos, lgica borrosa, clasificadores
estadsticos, etc. stas se
vern muy someramente en el captulo sptimo.
Otras presentaciones sobre las distintas etapas de la Visin
Artificial son
expuestas por otros autores. La ms clsica es la dada por
Gonzalez y Woods
mencionando tres tipos de nivel de informacin: bajo, medio y
alto. La informacin de
bajo nivel est dada por las etapas de adquisicin y procesado,
las de medio nivel son
las de segmentacin y extraccin de las caractersticas y las de
alto nivel con las etapas
de reconocimiento e interpretacin.
El valor aadido de esta presentacin es la ubicacin del
conocimiento en el
centro de todas estas etapas. Los desafos del anlisis de imgenes
son
extraordinariamente complejos y exigen de un conocimiento a
priori sobre su
problemtica. La mayora de las escenas que aborda la Visin
Artificial son
estructuradas, i.e. todos los elementos de iluminacin estn
determinados y los objetos a
capturar son previsibles. Por el contrario, una escena es no
estructurada, cuando los
objetos a visualizar son imprevisibles y la iluminacin puede
variar con el tiempo.
Desde luego, la complejidad de los escenarios no estructurados
se suele salir de la
disciplina de la Visin Artificial.
Figura 1. 20 Niveles de procesamiento: bajo, medio, alto
Por ltimo, indicar que la evolucin de las etapas, en forma de
flujograma, es
una simplificacin. En la puesta en prctica exige constantes
realimentaciones entre los
distintos niveles de informacin, interactuando, adems, con el
conocimiento. Como se
ha comentado, el objetivo de la Visin Artificial es hacer
algoritmos ms sofisticados.
En un futuro, que parece muy lejano, se deseara que ante un
escenario cualquiera, la
mquina pudiera describir con sentencias de alto nivel, las
imgenes que est captando.
El mundo del cine se ha hecho eco de estas cualidades de
percepcin, mostrndolo
como algo cercano en el tiempo y este autor piensa que ni en
muchos aos estar.
-
Carlos Platero Apuntes de Visin Artificial
30 Dpto. Electrnica, Automtica e Informtica Industrial
1.4 Disciplinas relacionadas con la Visin Artificial
Un proyecto de Visin Artificial suele ser de tipo
multidisciplinar. La ejecucin
de las distintas etapas, mencionadas en el apartado anterior,
requiere del manejo de las
siguientes tcnicas:
Fotografa y ptica: crear el ambiente de iluminacin adecuada en
la adquisicin de las imgenes, muchas veces requiere del uso de
tcnicas
profesionales de fotografa y vdeo. La seleccin de la ptica y de
la
cmara, el uso de filtros y polarizadores, las tcnicas de
iluminacin con
pantallas y la eleccin de los tipos de focos son algunas
habilidades que
se pueden mencionar.
Procesamiento Digital de las Imgenes (Image Processing): hace
referencia a los algoritmos de computacin que convierte la
imagen
digital adquirida en otra de mayor relevancia. Es muy difuso
la
separacin entre el procesamiento de imgenes y la Visin
Artificial.
Reconocimiento de Patrones (Pattern Recognition): disciplina,
dentro de la Inteligencia Artificial, dedicada a la clasificacin de
las seales y a la
bsqueda de patrones existentes dentro de stas. Se encuentran
incluidas
las tcnicas de clasificadores estadsticos, Redes Neuronales,
Sistemas
Expertos, Lgica Borrosa, ...
Computacin Grfica (Computer Graphics): presenta el problema
inverso de la Visin Artificial. Si en Visin se desea extraer
las
caractersticas fsicas de las imgenes, la Computacin Grfica se
dedica
a la presentacin visual de los modelos geomtricos. Cada vez ms,
la
Visin Artificial emplea la Computacin Grfica para representar
las
conclusiones extradas del anlisis de las imgenes adquiridas.
La naturaleza del proyecto hace que se incida en una disciplina
ms que en otra.
Por ejemplo, en un problema de inspeccin visual de piezas, la
parte de la formacin de
las imgenes suele ser fundamental, mientras que un anlisis de
imgenes de una
tomografa tiene ms importancia el procesamiento y la computacin
grfica.
1.5 Aplicaciones
El nmero de aplicaciones relacionadas con la Visin Artificial
aumenta cada
da. En la tabla adjunta se citan algunos de los campos donde es
empleada esta
disciplina.
-
Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin
Artificial
Dpto. Electrnica, Automtica e Informtica Industrial 31
rea de produccin Aplicacin
Control de calidad
Inspeccin de productos
(papel, aluminio,
acero,...)
Astronoma
Exploracin del Espacio
Identificacin de piezas Reconocimiento de
caracteres
Control de cheques,
inspeccin de textos, ...
Etiquetados (fechas de
caducidad,...) Control de trfico
Matrculas de coches
Inspeccin de circuitos
impresos
Trfico viario
Control de calidad de los
alimentos (naranjas,...) Meteorologa
Prediccin del tiempo
Robtica
Control de soldaduras
Agricultura
Interpretacin de
fotografas areas
Guiado de robots
(vehculos no tripulador)
Control de plantaciones
Biomdicas
Anlisis de imgenes de
microscopa ( virus,
clulas, proteinas ) Militares
Seguimiento de objetivos
Resonancias magnticas,
tomografas, genoma
humano
Vigilancia por satlites
Tabla 1.2 Aplicaciones de la visin artificial
-
Carlos Platero Apuntes de Visin Artificial
32 Dpto. Electrnica, Automtica e Informtica Industrial
1.6 Problemas
1. Teora dual de la luz.
2. Flujo luminoso, intensidad lumnica, iluminacin y
radiacin.
3. Temperatura de color.
4. Visin fvea y visin perifrica.
5. Comparacin entre la visin humana y la artificial.
6. Arquitectura fsica de un sistema de Visin Artificial.
7. Etapas que se aplican en un proyecto de Visin Artificial.
8. Disciplinas relacionadas con la Visin Artificial.
9. Aplicaciones y reas en las que trabaja la Visin
Artificial.
Derecho de Autor 2013 Carlos Platero Dueas.
Permiso para copiar, distribuir y/o modificar este documento
bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier
otra
versin posterior publicada por la Free Software Foundation; sin
secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto
de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin
titulada "Licencia de
Documentacin Libre GNU".
La Licencia de documentacin libre GNU (GNU Free Documentation
License)
es una licencia con copyleft para contenidos abiertos. Todos los
contenidos de estos
apuntes estn cubiertos por esta licencia. La version 1.1 se
encuentra en
http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial)
al castellano de la
versin 1.1 se encuentra en
http://www.es.gnu.org/Licencias/fdles.html
http://es.wikipedia.org/wiki/Copylefthttp://es.wikipedia.org/w/wiki.phtml?title=Contenidos_abiertos&action=edithttp://www.gnu.org/copyleft/fdl.htmlhttp://www.es.gnu.org/Licencias/fdles.html