TRABAJO DE INVESTIGACION DE METODOS NUMERICOS
SEGUNDA ENTREGA
1. TITULO DEL PROYECTO DE INVESTIGACIONReconocimiento de voz
2. DEFINICION DEL PROBLEMA En muchos casos a nivel mundial se ha
visto la dificultad que tienen las personas con ciertas
limitaciones especiales a realizar su vida cotidiana con normalidad
Aunque este proyecto sea solo un prototipo es lo elemental para
poder ayudar en cierta manera a mejorar el ritmo de vida de estas
personas, en realidad todas las pueden realizar pero lo primordial
es que lo usen las personas con limitaciones motoras y en que
consiste en emplear un programa de voz que consiste en mandar a un
ordenador a realizar ciertas acciones con comandos de voz, pero
para reconocerlas, es entonces en donde entra el programa que nos
facilita el reconocimiento de voz.Este programa tambin puede ser de
gran ayuda en sistemas de seguridad por ejemplo para evitar robos
de cualquier ndole se puede activar alarmas con solo hablar el
comando indicado y activndose desde el programa, otro seria que
para entrar a tu casa o abrir una caja fuerte o tu mvil solo lo
puedas hacer reconociendo tu voz mediante el programa previo
instalado en un hardware o software n cada uno de estos casos
posibles.Como se puede apreciar este proyecto prototipo tiene una
amplia gama de aplicaciones yo tan solo are el prototipo de
reconocimiento de voz ya esta se realizara en Matlab los otros
complementos son hechos con otros programas como Arduino o java que
son complementarios. 3. DESCRIPCION BREVE DE LA TEORIA INVOLUCRADA
EN LA SOLUCION DEL PROBLEMA
FUNDAMENTOS DE LA VOZ
La seal de voz es una onda de presin acstica que se genera
voluntariamente a partir de movimientos de la estructura anatmica
del sistema fonador humano. La produccin de la voz comienza en el
cerebro con la conceptualizacin de la idea que se desea transmitir,
la cual se asocia a una estructura lingstica, seleccionando las
palabras adecuadas y ordenndolas de acuerdo con unas reglas
gramaticales. A continuacin el cerebro produce los comandos
nerviosos que mueven los rganos vocales para producir los sonidos.
La unidad mnima de una cadena hablada es el fonema, el cual posee
un carcter distintivo en la estructura de la lengua. La combinacin
de los fonemas da origen a las silabas, las cuales conforman las
palabras, y estas a su vez, las oraciones. El tracto vocal empieza
a la salida de la laringe y termina a la entrada de los labios. El
tracto nasal empieza en el paladar y termina en los orificios
nasales. Los parmetros principales del sistema articulatorio son:
las cuerdas vocales, el paladar, la lengua, los dientes, los labios
y las mandbulas. Los distintos sonidos se producen al pasar el aire
emitido por los pulmones, a travs de todo el sistema de produccin,
en una determinada posicin del aparato articulatorio. Desde el
punto de vista de la ingeniera es lgico pensar que este sistema
fsico puede representarse como un filtro, cuya funcin de
transferencia depende del sonido articulado y, por tanto, de la
posicin de los distintos rganos involucrados en la generacin de la
voz.La frecuencia de este sonido depende de varios factores, entre
otros del tamao y la masa de las cuerdas vocales, de la tensin de
las cuerdas vocales, de la tensin que se les aplique y de la
velocidad del flujo del aire proveniente de los pulmones. A mayor
tamao, menor frecuencia de vibracin, A mayor tensin la frecuencia
aumenta, siendo los sonidos ms agudos. Tambin aumenta la frecuencia
al crecer la velocidad del flujo de aire.En resumen, en el habla
los formantes se determinan por el proceso de filtrado que se
produce en el tracto vocal por la configuracin de los
articuladores.
SEAL ACSTICA
Un reconocedor no puede analizar los movimientos en la boca. En
su lugar, la fuente de informacin es la seal de voz misma.El habla
es una seal analgica, es decir, un flujo continuo de ondas sonoras
y silencios.El conocimiento de las ciencias de la acstica se
utiliza para identificar y describir los atributos del habla que
son necesarios para un reconocimiento de voz efectivo.Algunas
caractersticas importantes del anlisis acstico son: Frecuencia y
amplitudTodos los sonidos causan movimientos entre las molculas del
aire. Algunos sonidos, tales como los que produce una cuerda de
guitarra, producen patrones regulares y prolongados de movimiento
del aire. Los patrones de sonidos mas simples son los sonidos
puros, y se pueden representar grficamente por una onda
sinusoidal.Frecuencia: nmero de vibraciones del tono por segundo
1000 por segundo = 100 ciclos/segundo=100HzTonos altos= mayor
frecuenciaTonos bajos= menor frecuencia
ResonanciaLa resonancia se define comnmente como la habilidad
que tiene una fuente vibrante de sonido de causar que otro objeto
vibre gracias a ella.La mayora de los sonidos incluyendo del habla
tiene una frecuencia dominante llamada frecuencia fundamental
tambin conocida como pitch (tono) que se combina con frecuencias
secundarias en el habla, la frecuencia fundamental es la velocidad
a la que vibran las cuerdas vocales al producir un fonema
sonoro.
PROGRAMA DE RECONOCIMIENTO DE VOZDiagrama de bloques del
sistema
El sistema de reconocimiento de voz se puede resumir en el
siguiente diagrama esquemtico
Diagrama esquemtico del Sistema de Reconocimiento de Voz
4. POSIBLES MODELO MATEMATICO A SER EMPLEADOS
Muestreo y cuantificacin
Muestreo consiste en el proceso de conversin de seales continuas
a seales discretas en el tiempo, es un paso para digitalizar una
seal analgica.Este proceso se realiza midiendo la seal en momentos
peridicos del tiempo.Teorema de nyquist:Si x[n] es una secuencia de
muestras obtenida a partir de una seal continua en el tiempo x(t),
por medio de la relacin
Ecuacin
Entonces el teorema de muestreo de nyquist esta definido como:
sea x(t)una seal limitada en banda por:
Entonces x(t) esta nicamente determinada por sus muestras x[n] =
x(nT), n
La frecuencia N es comnmente referida como la frecuencia de
Nyquist, y la frecuencia 2N que tiene que ser excedida por la
frecuencia de muestreo es llamada la razn de Nyquist.
Cuantificacin:
En la cuantificacin el valor de cada muestra de la seal se
representa como un valor elegido de entre un conjunto finito de
posibles valores. Se conoce como error de cuantificacin (o ruido),
a la diferencia entre la seal de entrada (sin cuantificar) y la
seal de salida (ya cuantificada), interesa que el ruido sea lo ms
bajo posible. Para conseguir esto y segn sea la aplicacin a
desarrollar, se pueden usar distintas tcnicas de cuantificacin:
Cuantificacin uniforme Cuantificacin logartmica Cuantificacin no
uniforme Cuantificacin vectorial
Eliminacin del ruido
La seal digitalizada es escaneada y las zonas de silencio son
removidas por medio del clculo de energa en corto tiempo. Segmentos
de 10ms se escogieron para este propsito. En un segmento la energa
promedio es menor que un valor umbral proporcional a la energa
promedio de la seal entera es descartado. Las siguientes frmulas se
utilizaron:
Ecuacin
Donde En es la energa promedio de cada segmento y Eavg es la
energapromedio de la seal entera. El valor umbral escogido
THRES=0.2.
Filtro de Pre-nfasis
Se aplica un filtro digital pasa altas de primer orden a la
seal, para enfatizar las frecuencias altas de los formantes por dos
razones, primero para que no se pierda informacin durante la
segmentacin, ya que la mayora de la informacin est contenida en las
frecuencias bajas, en segundo remueve la componente DC de la seal,
aplanando espectralmente la seal. Uno de los filtros de pre-nfasis
ms utilizados tiene la ecuacin:
Ecuacin
Segmentacin
La segmentacin consiste en cortar la seal en segmentos de
anlisis. La seal de voz es asumida como estacionaria en estos
segmentos.Durante la segmentacin los segmentos son guardados cada
uno como la columna de una matriz, para el posterior procesamiento
de la seal de voz.Para el proceso una ventana de Hamming de 30ms es
aplicada a la seal de voz, enfatizada previamente con el filtro de
pre-nfasis. Con un desplazamiento tpico 10ms entre cada ventaneo.Se
realiza el algoritmo en base a las siguientes frmulas:
Ecuacin
Qn es cada nth cuadro de segmentacin.
Ecuacin
En la ecuacin de la ventana de Hamming, N es el largo de cada
cuadro o segmento de anlisis.
Extraccin de caractersticasEn el reconocimiento del habla, la
seal de voz pre-procesada se ingresa a un nuevo procesamiento para
producir una representacin de la voz en forma de secuencia de
vectores o agrupaciones de valores que se denominan parmetros, que
deben representar la informacin contenida en la envolvente del
espectro.Hay que tener en cuenta que el nmero de parmetros debe ser
reducido, para no saturar la base de datos, ya que mientras ms
parmetros tenga la representacin menos fiables son los resultados y
ms costosa la implementacin.Existen distintos mtodos de anlisis
para la extraccin de caractersticas, y se concentran en diferentes
aspectos representativos. En este caso analizaremos los dos de
mayor importancia para el anlisis de la voz:- Anlisis de prediccin
lineal (LPC)- Anlisis cepstral
Cepstrum Como se sabe los sonidos de la voz se pueden
representar mediante un espectrograma, que indica las componentes
frecuenciales de la seal de voz.Es as entonces como el espectro nos
proporciona informacin acerca de los parmetros del modelo de
produccin de voz, tanto de la excitacin como del filtro que
representa el tracto vocal.Desde el principio de la dcada de los 70
los sistemas homo mrficos han tenido una gran importancia en los
sistemas de reconocimiento de voz. Estos sistemas homo mrficos son
una clase de sistemas no lineales que obedecen a un principio de
superposicin. De estos los sistemas lineales son un caso
especial.
Modelo Coeficientes Cesptrales
En la salida de este sistema tenemos entonces:
Ecuacin
En cual caso, el valor c(n) se conoce como coeficientes
cepstrales derivados de la transformada de Fourier. Ns es el nmero
de puntos con que se calcula la transformada. Esta ecuacin puede
ser convenientemente simplificada teniendo en cuenta que el
espectro logartmico es una funcin real simtrica.
Ecuacin
En los clculos lo habitual es usar solamente los primeros
trminos.Por otro lado, I(k) representa una funcin que traduce la
posicin de un valor en frecuencia al intervalo donde este
contenido.
Medida de distancia
Una caracterstica fundamental de los sistemas de reconocimiento
es la forma en que los vectores caractersticos son combinados y
comparados con los patrones de referencia.Para poder realizar estas
operaciones es necesario definir una medida de distancia entre los
vectores caractersticos. Algunas de las medidas de distancia ms
utilizadas son las distancias o mtricas inducidas por las normas en
espacios Lp.En el algoritmo de reconocimiento en MATLAB se utiliza
una distanciaEuclidea, definida del siguiente modo: por ejemplo si
fi y fi, con i=0, 1, 2,, D son las componentes de dos vectores
caractersticos f y f, puede definirse la siguiente mtrica inducida
por la norma Lp:
Ecuacin
En el algoritmo primero se define el tamao del mayor vector, y
se calcula con la formula anterior la distancia entre el vector de
la palabra a reconocer y cada uno de los vectores de referencia en
la base de datos, luego se hacen las condiciones para obtener la
menor distancia, con lo cual se encuentra la palabra identificada
en la base de datos.
5. POSIBLES METODOS NUMERICOS PARA UTILIZAR EN LA SOLUCION
MATEMATICA DEL PROBLEMA TRANSFORMADA RPIDA DE FOURIER
Las series de Fourier son tiles para representar cualquier onda
como una sumatoria de senos y cosenos. En este caso se tratar
nicamente con el manejo de datos experimentales por medio de la
transformada rpida de Fourier.