Presentación de PowerPoint · colección de imágenes Cada píxel del cuadro de la imagen original con su correspondiente píxel en la imagen de la colección imágenes Se acumula

PROJECT GLASS : REALIDAD AUMENTADA,

RECONOCIMIENTO DE IMÁGENES Y

RECONOCIMIENTO DE VOZ.

Lucas García Cillanueva

Paloma Jimeno Sánchez-Patón

Leticia C. Manso Ruiz

PROJECT GLASS Dentro de Google Labs

Gafas de realidad aumentada (HMD, head

mounted display)

¿Qué ofrecen?

Notificaciones : redes sociales, calendario

Llamar, mandar mensajes

Google Maps

Añadir información sobre una imagen en el momento

…

Distinción con las aplicaciones actuales de smartphone:

interactividad a través de voz y visualización directa.

Video Project Glass

http://www.youtube.com/watch?v=JSnB06um5r4

http://www.youtube.com/watch?v=JSnB06um5r4

SERGEY BRIN, COFUNDADOR DE GOOGLE, PRESENTA LAS GAFAS DE RA (27/06/2012).

REALIDAD AUMENTADA

Características de esta tecnología

Combina mundo real y mundo virtual.

Es interactivo en tiempo real.

Se registra en 3 dimensiones.

Realidad Aumentada VS Realidad Virtual

FUNCIONAMIENTO

1. Tomar información del mundo real

Con marcadores (trackers)

Trackless

2. Asociar dicha información con elementos

virtuales pre-asociados

3. Mezclar imagen real + elementos virtuales

(pantallas transparentes)

PANTALLAS TRANSPARENTES

Dos tipos

pantalla de mezcla de imágenes (Gafas Google)

Otro ejemplo de pantalla de mezcla de imágenes

pantalla óptica transparente

Basada en HOE (holographic optical element)

Según dónde nos coloquemos obtendremos el elemento virtual

añadido será diferente.

Ejemplo Pantalla holográfica

http://www.youtube.com/watch?feature=player_embedded&v=qSfATEZiUYo

http://www.youtube.com/watch?feature=player_embedded&v=qSfATEZiUYo

http://vimeo.com/46121440

APLICACIONES

RECONOCIMIENTO DE IMÁGENES

Reconocimiento de patrones

Objetivo: lograr una descripción concisa y

representativa del universo observado

Nombres, características, relacionamientos,

comportamiento, etc.

Estos elementos se perciben como patrones

Los procesos que llevan a su comprensión son

llamados procesos perceptuales.

Su clasificación: reconocimiento de patrones

La mayoría de los datos a ser procesados

automáticamente aparecen en forma de

imágenes.

PROCESAMIENTO DE IMÁGENES

Dos tipos de metodologías posibles:

Reconocimiento de patrones basado en atributos

Reconocimiento de patrones basado en la

estructura

Sistema de reconocimiento de patrones:

CLASIFICACIÓN

Supervisada Necesita un profesor que mida el

funcionamiento del sistema

Maneja información de error o de

control, que se emplea para guiar

al sistema.

Algoritmo para retroalimentación:

backtracking

No supervisada No utiliza información externa

Reajuste automático de los

parámetros

Autoorganización de la información

RECONOCIMIENTO DE CARACTERES

Conjunto de métodos y algoritmos que realizan una

fase de entrenamiento que al final permitirá

reconocer de forma automática caracteres

Aplicaciones

Reconocimiento de texto manuscrito, de

matrículas, indexación en bases de datos…

RECONOCIMIENTO DE IMÁGENES

Representación de colores

Los colores primarios son el rojo, el

amarillo y el azul. A partir de la

mezcla de estos se crean los otros

colores

Imágenes digitales: rojo (R), verde

(G) y azul (B)

Una imagen digital está compuesta

por una matriz bidimensional de

elementos RGB

FUNCIONAMIENTO

Función diferencia: base del reconocimiento

de imágenes; indica la distancia entre dos

imágenes

Cuán diferentes son dos imágenes

Si diferencia = 0 -> las imágenes son idénticas

Diversas estrategias para reconocimiento de

imágenes digitales según sea la aplicación y

los recursos del sistema

FUNCIONAMIENTO

Se compara la imagen original con una colección de imágenes Cada píxel del cuadro de la imagen original con

su correspondiente píxel en la imagen de la colección imágenes

Se acumula las distancias entre cada pareja de píxeles para determinar la distancia general entre las dos imágenes.

La cantidad de comparaciones necesarias es muy grande. Por cada comparación debe calcularse la

distancia entre los píxeles de las dos imágenes y por cada pareja de píxeles debe compararse cada uno de los tres canales RGB

GOOGLE GOGGLES

Reconoce cualquier objeto mediante fotos

realizadas con un móvil y devuelve resultados

de búsqueda e información relacionada

Actualmente reconoce:

Lugares

Obras de arte

Logotipos

Monumentos

Texto

Vinos

Revistas

Libros

GOOGLE GOGGLES

Funcionamiento Identifica puntos de interés en la imagen

Identifica cómo se relacionan entre sí Geometría de los puntos

El sistema compara ese modelo con otros modelos dentro de una enorme base de datos. Esos otros modelos provienen de imágenes en la web que ya fueron analizadas

Busca y coteja la base de datos en busca de un modelo con el que corresponda, sin que sea necesario que empalme perfectamente

El sistema debe ser flexible Imagen volteada, reducida o ligeramente torcida

VÍDEO

Reconocimiento de imágenes que lleva a

realidad aumentada

TED

http://www.ted.com/talks/view/lang/es/id/1515

RECONOCIMIENTO DE VOZ

La voz es una de las principales herramientas

para la comunicación en la civilización

Se desea identificar el mensaje para

desarrollar las tareas programadas

Reconocimiento de la voz por patrones

mediante un aprendizaje inductivo

supervisado basado en REDES NEURONALES

PARTES

Reconocimiento de voz:

supone interfaz humano –

computadora

Debe cumplir 3 tareas:

Preprocesamiento: convierte la voz para que el reconocedor la

procese

Reconocimiento: traducción de

señal a texto

Comunicación: envía lo

reconocido al sistema que lo

requiere

FUNCIONAMIENTO SISTEMA RAH.

El problema del reconocimiento automático

del habla (RAH) se puede representar de

forma estadística:

O: secuencia de T medidas de la señal de voz

(datos acústicos)

W: secuencia de N palabras que pertenecen a un

vocabulario conocido

P(W\O): probabilidad de que la secuencia de

palabras W dada la observación de los datos

acústicos O

FUNCIONAMIENTO SISTEMA RAH

El sistema de reconocimiento debe decidir a

favor de la secuencia de palabras W que

maximice la probabilidad P(W\O).

FÓRMULA FUNDAMENTA DE RAH


Bloques básicos de sistema RAH

Entrenamiento: fase en la que el sistema aprende, a

partir de muestras de voz y texto, los modelos acústicos y

los del lenguaje. Modelo de Markov.

Reconocimiento: fase de RAH en la que la señal

acústica es transcrita en una secuencia de palabras.


El entrenamiento de la red neuronal se lleva a

cabo mediante el “modelo oculto de Markov”.

Matriz de transición

Cuestión:

REDES NEURONALES

Es una forma de

aprendizaje inductivo

“Aprenden” la relación

entre sus entradas y sus

salidas

Se basan en la experiencia

La red neuronal más usada

es la del Perceptrón

Multicapa

PERCEPCIÓN MULTICAPA

Red formada por una capa de entrada, al menos

una capa oculta y una capa de salida.

La estructura es la siguiente:

BACKPROPAGATION

El modelo de aprendizaje más usado en redes

neuronales es el de Backpropagation.

Algoritmo de descenso por gradiente:

retropropaga las señales desde la capa de

salida hasta la capa de entrada optimizando

los valores de los pesos mediante un proceso

de minimización de la función de coste.

El proceso consta de dos fases:

BACKPROPAGATION

Propagación hacia delante:

Se propaga la señal desde la entrada a la salida,

asignando pesos arbitrarios

Se calcula el error entre la salida obtenida y la

deseada

BACKPROPAGATION

Propagación hacia atrás:

En función de los errores de la capa de salida,

optimiza los valores de los pesos mediante

retropropagación del error desde la capa de

salida a la capa de entrada a través de las capas

ocultas

Presentación de PowerPoint · colección de imágenes Cada píxel del cuadro de la imagen original con su correspondiente píxel en la imagen de la colección imágenes Se acumula

Documents