PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ. Lucas García Cillanueva Paloma Jimeno Sánchez-Patón Leticia C. Manso Ruiz
PROJECT GLASS : REALIDAD AUMENTADA,
RECONOCIMIENTO DE IMÁGENES Y
RECONOCIMIENTO DE VOZ.
Lucas García Cillanueva
Paloma Jimeno Sánchez-Patón
Leticia C. Manso Ruiz
PROJECT GLASS Dentro de Google Labs
Gafas de realidad aumentada (HMD, head
mounted display)
¿Qué ofrecen?
Notificaciones : redes sociales, calendario
Llamar, mandar mensajes
Google Maps
Añadir información sobre una imagen en el momento
…
Distinción con las aplicaciones actuales de smartphone:
interactividad a través de voz y visualización directa.
Video Project Glass
SERGEY BRIN, COFUNDADOR DE GOOGLE, PRESENTA LAS GAFAS DE RA (27/06/2012).
REALIDAD AUMENTADA
Características de esta tecnología
Combina mundo real y mundo virtual.
Es interactivo en tiempo real.
Se registra en 3 dimensiones.
Realidad Aumentada VS Realidad Virtual
FUNCIONAMIENTO
1. Tomar información del mundo real
Con marcadores (trackers)
Trackless
2. Asociar dicha información con elementos
virtuales pre-asociados
3. Mezclar imagen real + elementos virtuales
(pantallas transparentes)
PANTALLAS TRANSPARENTES
Dos tipos
pantalla de mezcla de imágenes (Gafas Google)
Otro ejemplo de pantalla de mezcla de imágenes
pantalla óptica transparente
Basada en HOE (holographic optical element)
Según dónde nos coloquemos obtendremos el elemento virtual
añadido será diferente.
Ejemplo Pantalla holográfica
APLICACIONES
RECONOCIMIENTO DE IMÁGENES
Reconocimiento de patrones
Objetivo: lograr una descripción concisa y
representativa del universo observado
Nombres, características, relacionamientos,
comportamiento, etc.
Estos elementos se perciben como patrones
Los procesos que llevan a su comprensión son
llamados procesos perceptuales.
Su clasificación: reconocimiento de patrones
La mayoría de los datos a ser procesados
automáticamente aparecen en forma de
imágenes.
PROCESAMIENTO DE IMÁGENES
Dos tipos de metodologías posibles:
Reconocimiento de patrones basado en atributos
Reconocimiento de patrones basado en la
estructura
Sistema de reconocimiento de patrones:
CLASIFICACIÓN
Supervisada Necesita un profesor que mida el
funcionamiento del sistema
Maneja información de error o de
control, que se emplea para guiar
al sistema.
Algoritmo para retroalimentación:
backtracking
No supervisada No utiliza información externa
Reajuste automático de los
parámetros
Autoorganización de la información
RECONOCIMIENTO DE CARACTERES
Conjunto de métodos y algoritmos que realizan una
fase de entrenamiento que al final permitirá
reconocer de forma automática caracteres
Aplicaciones
Reconocimiento de texto manuscrito, de
matrículas, indexación en bases de datos…
RECONOCIMIENTO DE IMÁGENES
Representación de colores
Los colores primarios son el rojo, el
amarillo y el azul. A partir de la
mezcla de estos se crean los otros
colores
Imágenes digitales: rojo (R), verde
(G) y azul (B)
Una imagen digital está compuesta
por una matriz bidimensional de
elementos RGB
FUNCIONAMIENTO
Función diferencia: base del reconocimiento
de imágenes; indica la distancia entre dos
imágenes
Cuán diferentes son dos imágenes
Si diferencia = 0 -> las imágenes son idénticas
Diversas estrategias para reconocimiento de
imágenes digitales según sea la aplicación y
los recursos del sistema
FUNCIONAMIENTO
Se compara la imagen original con una colección de imágenes Cada píxel del cuadro de la imagen original con
su correspondiente píxel en la imagen de la colección imágenes
Se acumula las distancias entre cada pareja de píxeles para determinar la distancia general entre las dos imágenes.
La cantidad de comparaciones necesarias es muy grande. Por cada comparación debe calcularse la
distancia entre los píxeles de las dos imágenes y por cada pareja de píxeles debe compararse cada uno de los tres canales RGB
GOOGLE GOGGLES
Reconoce cualquier objeto mediante fotos
realizadas con un móvil y devuelve resultados
de búsqueda e información relacionada
Actualmente reconoce:
Lugares
Obras de arte
Logotipos
Monumentos
Texto
Vinos
Revistas
Libros
GOOGLE GOGGLES
Funcionamiento Identifica puntos de interés en la imagen
Identifica cómo se relacionan entre sí Geometría de los puntos
El sistema compara ese modelo con otros modelos dentro de una enorme base de datos. Esos otros modelos provienen de imágenes en la web que ya fueron analizadas
Busca y coteja la base de datos en busca de un modelo con el que corresponda, sin que sea necesario que empalme perfectamente
El sistema debe ser flexible Imagen volteada, reducida o ligeramente torcida
VÍDEO
Reconocimiento de imágenes que lleva a
realidad aumentada
TED
RECONOCIMIENTO DE VOZ
La voz es una de las principales herramientas
para la comunicación en la civilización
Se desea identificar el mensaje para
desarrollar las tareas programadas
Reconocimiento de la voz por patrones
mediante un aprendizaje inductivo
supervisado basado en REDES NEURONALES
PARTES
Reconocimiento de voz:
supone interfaz humano –
computadora
Debe cumplir 3 tareas:
Preprocesamiento: convierte la voz para que el reconocedor la
procese
Reconocimiento: traducción de
señal a texto
Comunicación: envía lo
reconocido al sistema que lo
requiere
FUNCIONAMIENTO SISTEMA RAH.
El problema del reconocimiento automático
del habla (RAH) se puede representar de
forma estadística:
O: secuencia de T medidas de la señal de voz
(datos acústicos)
W: secuencia de N palabras que pertenecen a un
vocabulario conocido
P(W\O): probabilidad de que la secuencia de
palabras W dada la observación de los datos
acústicos O
FUNCIONAMIENTO SISTEMA RAH
El sistema de reconocimiento debe decidir a
favor de la secuencia de palabras W que
maximice la probabilidad P(W\O).
FÓRMULA FUNDAMENTA DE RAH
FUNCIONAMIENTO SISTEMA RAH.
Bloques básicos de sistema RAH
Entrenamiento: fase en la que el sistema aprende, a
partir de muestras de voz y texto, los modelos acústicos y
los del lenguaje. Modelo de Markov.
Reconocimiento: fase de RAH en la que la señal
acústica es transcrita en una secuencia de palabras.
FUNCIONAMIENTO SISTEMA RAH.
El entrenamiento de la red neuronal se lleva a
cabo mediante el “modelo oculto de Markov”.
Matriz de transición
Cuestión:
REDES NEURONALES
Es una forma de
aprendizaje inductivo
“Aprenden” la relación
entre sus entradas y sus
salidas
Se basan en la experiencia
La red neuronal más usada
es la del Perceptrón
Multicapa
PERCEPCIÓN MULTICAPA
Red formada por una capa de entrada, al menos
una capa oculta y una capa de salida.
La estructura es la siguiente:
BACKPROPAGATION
El modelo de aprendizaje más usado en redes
neuronales es el de Backpropagation.
Algoritmo de descenso por gradiente:
retropropaga las señales desde la capa de
salida hasta la capa de entrada optimizando
los valores de los pesos mediante un proceso
de minimización de la función de coste.
El proceso consta de dos fases:
BACKPROPAGATION
Propagación hacia delante:
Se propaga la señal desde la entrada a la salida,
asignando pesos arbitrarios
Se calcula el error entre la salida obtenida y la
deseada
BACKPROPAGATION
Propagación hacia atrás:
En función de los errores de la capa de salida,
optimiza los valores de los pesos mediante
retropropagación del error desde la capa de
salida a la capa de entrada a través de las capas
ocultas