Top Banner
Reconocimiento de Voz M.C. Esmeralda Uraga [email protected] Universidad Nacional Autónoma de México Instituto de Investigación en Matemáticas Aplicadas y en Sistemas Departamento de Ciencias de la Computación Grupo de Sistemas Multimodales Inteligentes
24

Tecnologias del habla_reconocimiento

Jul 26, 2015

Download

Education

Gablot Ier Van
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Tecnologias del habla_reconocimiento

Reconocimiento de Voz

M.C. Esmeralda Uraga

[email protected]

Universidad Nacional Autónoma de MéxicoInstituto de Investigación en

Matemáticas Aplicadas y en Sistemas

Departamento de Ciencias de la ComputaciónGrupo de Sistemas Multimodales Inteligentes

Page 2: Tecnologias del habla_reconocimiento

Contenido

•Introducción•Características•Cómo se desarrollan •Modelos utilizados•Resultados•Aplicaciones•Conclusiones

Page 3: Tecnologias del habla_reconocimiento

Introducción

El habla es la forma de comunicación humana más natural y eficiente (Cole95).

Los sistemas de lenguaje hablado hacen posible que las personas interactúen con las computadoras usando el habla (además del monitor, mouse, etc.).

Un sistema de lenguaje hablado (operadora) funciona así:•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)•Interpreta la secuencia de palabras para obtener un significado en términos de la aplicación del sistema (¿Directorio telefónico o dirección?•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)

Actualmente, los sistemas que son capaces de manejar lenguaje natural deben su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.Ej. C-STAR, TRAINS

Page 4: Tecnologias del habla_reconocimiento

cuál es el número

El reconocimiento de voz consiste en convertir una señal acústica de voz a una secuencia de palabras.

Reconocimiento de voz

¿Cuál es el número?

Ej. Dictado automático

Page 5: Tecnologias del habla_reconocimiento

Síntesis de voz

La síntesis de voz consiste en convertir un texto a voz artificial.

El número es 15 12 58

Page 6: Tecnologias del habla_reconocimiento

¿Por qué usar reconocimiento de voz?

Razones de mercado, tecnológicas, científicas, sociales, etc.

•Mayor productividad

•Recuperación rápida de la inversión

•Acceso a nuevos mercados, nuevos clientes

•Diferencia entre compañías

•Control del ambiente o de los sistemas

•Computadoras que den servicios de información

•Para proponer y probar modelos (redes neuronales)

•La gente que sabe hablar podría usar las computadoras

•Las computadoras podrían enseñar

•Sistemas de diagnóstico y rehabilitación

Page 7: Tecnologias del habla_reconocimiento

¿Cómo avanzó el área de reconocimiento de voz?

1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver el habla a personas con problemas auditivos. Resultado: el teléfono.

1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias de sonido y las imprimiera (texto). Rechazado como proyecto no realista.

1950’s Laboratorios Bell AT&T construye la primer máquina capaz de reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que el reconocimiento de voz es simple y directo.

1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se reducen los alcances y se enfocan a sistemas más sencillos: (un hablante, palabras aisladas, vocabulario pequeño).

1970’s Reconocimiento de voz continua (un hablante).

1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla espontánea, independientes del hablante y con vocabulario grande.

Page 8: Tecnologias del habla_reconocimiento

Características de los sistemas de reconocimiento de voz

•Forma de reconocimiento:

•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)

•Dependencia (reconocimiento del hablante) vs Independencia del hablante

•Adaptación al hablante

•Tamaño del vocabulario: pequeño, mediano, grande o muy grande

•Gramática

•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto

Page 9: Tecnologias del habla_reconocimiento

Planteamiento del problema

El problema que se aborda aquí es el de reconocimiento de voz continua para el español hablado en México.

El habla continua se distingue del habla espontánea en que sus alcances no abarcan el reconocimiento de titubeos, de correcciones y cambios de comportamiento al hablar.

La dificultad de reconocer voz continua se debe a algunas propiedades de ésta, entre las cuales están las siguientes:

•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa que la pronunciación de una palabra afecte la pronunciación de las palabras en su contexto. (ej. Los rosales, David Rosales).

•Efectos en la voz continua. La pronunciación de un fonema se ve afectado por su contexto. (ej. Mano, mango).

•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).

• Las fuentes de variabilidad como la velocidad y el tono de voz.

Page 10: Tecnologias del habla_reconocimiento

Un sistema de reconocimiento de voz

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo Modelo

Lenguaje

ModeloPronunciación

23 HMM:•22 fonemas • 1 silencio

1 2 3

Acústico

Page 11: Tecnologias del habla_reconocimiento

Entrenamiento de los Modelos

Entrenamientode los modelos

Entrenamientode los modelos

Modelos Acústicos

Vectores deCaracterísticas

Lexicón Gramática

Transcripción

W P(S|W= w1,w2,…,wn)

Definición deMOM o RN

Page 12: Tecnologias del habla_reconocimiento

•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)

ej. pa’que, oye pa’ onta mi amá

Crear un corpus de voz:A

mpl

itud

Fre

cuen

cia

Tiempo (mseg)

Forma de onda de la señal de voz:

Espectrograma de la señal de voz:

Transcripción ortográfica y fonética:

Page 13: Tecnologias del habla_reconocimiento

Grabaciones

Duración 4 hrs.Hablantes 83 (42h, 41m)Habla ContinuaGrabado por MicrófonoAmbiente Oficina

Page 14: Tecnologias del habla_reconocimiento

Transcripción fonética

Forced Alignment

Page 15: Tecnologias del habla_reconocimiento

El modelo del lenguaje

7 hrs.Duration

MicrophoneRecorded by

Spont. & Cont.Speech

16Speakers

5140Utterances

Kitchen designDomain

DIMETraining Corpus

Back-off bigram word-loop network

W2

W3

W1

Wn

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo

ModeloLenguaje

ModeloPronunciaciónAcústico

Page 16: Tecnologias del habla_reconocimiento

Cómo se obtienen los Modelos del Lenguaje

Modelos del Lenguaje

Generación de n-gramas

Generación de n-gramas

Corpus textual Vocabulario

W P(W= w1,w2,…,wn)

Conjunto de frases

w1,w2,…,wn

Page 17: Tecnologias del habla_reconocimiento

Corpus DIME

este <sil> eh me puede mostrar <sil> los fregaderos ?contamos <sil> con estos <sil> cuatro fregader[os]eh <sil> favor de elegir el fregadero con alacenaéste ? ajáy lo colocamos abajo de la vent [ana] de las ventanasde acuerdo ahí está bien ? sí así está bien

utt34:utt35:utt36:utt37:utt38:utt39:utt40:utt41:utt41:utt43:

(U)(S)(U)(S)(U)

(S)

(U)

Diálogo 13

Page 18: Tecnologias del habla_reconocimiento

Modelo de Pronunciación

ABAJO a V a x o

ACÁ a k a

ALACENA a l a s e n a

ALGÚN a l g u n

ARRIBA a rr i V a

BIEN b j e n

Pronunciación Canónica

hablaAcousticModel

LanguageModel

PronunciationModel

PalabrasAplicaciónModelo

ModeloLenguaje

ModeloPronunciaciónAcústico

Page 19: Tecnologias del habla_reconocimiento

Evaluación del reconocedor

Resultados: RN MOM-RN MOM

% palabras reconocidas 96.79% 92.55% 91.09%

Evaluación del reconocedor con diferentes modelos acústicos:

Reconocimientode voz

Reconocimientode voz

Palabras reconocidas

DiferenciasDiferencias

Transcripciones

% palabrasreconocidasLexicón

Modelo delLenguaje

ModelosAcústicos

Datos de voz

Page 20: Tecnologias del habla_reconocimiento

Características de las aplicaciones

El problema general de reconocimiento de voz no está resuelto todavía!

Con la tecnología actual, los sistemas convierten el problema general en otro más simple o fácil por medio de:

•limitando el tamaño del vocabulario•limitando la forma de hablar•restringiendo el rango posible de hablantes•limitando el tipo de ruido ambiental•limitando el tipo de habla (continua, espontánea)

Características deseables: Quitar los límites.

La idea es tener un sistema con vocabulario grande, que reconozca a cualquier persona, que pueda manejar cualquier dominio del discurso y cualquier estilo de hablar además de que pueda operar en cualquier ambiente acústico.

Page 21: Tecnologias del habla_reconocimiento

Procesamiento del lenguaje a varios niveles

El habla puede ser vista como una combinación compleja de información de varios niveles usada para enviar un mensaje.

Niveles:

•Fonético y fonológico•Léxico•Morfológico•Sintáctico•Semántico•Pragmático•Del discurso•Del mundo

Del reconocimiento de voz al entendimiento del lenguaje naturalutilizando sistemas multimodales.

Page 22: Tecnologias del habla_reconocimiento

Aplicaciones

•Dictado automático•Para controlar equipos mecánicos y servicios•Para ayudar a personas discapacitadas

(acceso, llamadas telefónicas, para aprender a hablar)•Sistemas automovilísticos•Para dar y obtener información (bases de datos, censo)•Sistemas bancarios•Solicitud de servicios (pizza, mensajería, directorio

telefónico)•Diálogos en tareas cooperativas para lograr una meta

(reservación de vuelos)•Navegar en Internet por medio de voz•Traducción de conversaciones en varios idiomas

Page 23: Tecnologias del habla_reconocimiento

Conclusiones

•Es necesario generar más recursos lingüísticos en México para poder desarrollar sistemas de reconocimiento de voz robustos.

•Es importante promover el área de tecnología del habla para formar grupos de trabajo multidisciplinarios para investigación y educación en ésta área.

•Es necesario capacitar personas para que desarrollen sistemas de reconocimiento de voz.

•El desarrollo de sistemas de lenguaje hablado permitirá que las personas interactúen con las computadoras (vía telefónica o directa) usando el lenguaje natural hablado.

Page 24: Tecnologias del habla_reconocimiento

¿Preguntas?

M.C. Esmeralda [email protected]