Top Banner

of 272

Mpeg 4 Audio

Jul 12, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript

TESIS DOCTORALDESARROLLO DE TCNICAS DE CODIFICACIN DE AUDIO BASADAS EN MODELOS DE SEAL PARAMTRICOS

Pedro Vera Candeasemail: [email protected]

Departamento de Teora de la Seal y Comunicaciones Escuela Politcnica UNIVERSIDAD DE ALCAL Ao 2006

Esta tesis doctoral no hubiera sido posible sin el apoyo de mi familia y amigos. Gracias a todos y, en especial, a mis padres y a Ana Luca.

i

ii

PrlogoEsta tesis doctoral supone la continuacin de una lnea de investigacin iniciada a principios de los 90 por el co-Director de esta tesis doctoral, el Dr. D. Manuel Rosa Zurera, dentro del mbito de la compresin de la seal de audio utilizando, en su caso, descomposiciones basadas en la transformada wavelet. Posteriormente, esta lnea de investigacin fue continuada por el otro co-Director de esta tesis, el Dr. D. Nicols Ruiz Reyes, ampliando la descomposicin al uso de transformada wavelet packets adaptada a la seal. Adicionalmente, en el mismo grupo, se ha desarrollado tambin una tesis en compresin de audio, aunque esta vez minimizando el retardo del sistema, por el Dr. D. Damin Martnez Muoz, tambin co-dirigida por el Dr. D. Manuel Rosa Zurera. Como resultado de esta labor investigadora se ha adquirido por este grupo un profundo conocimiento de la seal de audio y de las posibilidades tecnolgicas en el campo de su compresin. Fruto de este conocimiento surgieron nuevas lneas investigacin, destacando la investigacin en el campo de los modelos de seal adaptativos y su aplicacin a la compresin, modicacin y sntesis de seales de audio, que han permitido el desarrollo de esta tesis. Esta lnea de trabajo, en el mbito de la codicacin de seal, no est an agotada. As, si bien con las herramientas propuestas no parece posible nuevas contribuciones importantes en compresin de audio, si es posible el empleo de estas tcnicas en otros problemas. En el campo del audio, un problema a resolver es la transmisin de audio a travs de Internet (Internet audio streaming) a rgimen binario bajo y adaptativo a las condiciones cambiantes de la red. Otro tema de inters es el empleo de las herramientas de seal desarrolladas para analizar otro tipo de seales, como la seal de electrocardiograma o la seal ultrasnica, donde ya se han realizado algunos avances. La realizacin de esta tesis doctoral me ha permitido iniciarme en el mundo de la investigacin, pudiendo as realizar de forma completa las funciones de un Profesor de Universidad. Adems, me satisface personalmente participar como investigador en los inicios del grupo de investigacin Tratamiento de Seales en Sistemas de Telecomunicacin, formado por personas que han realizado el doctorado en los ltimos aos o estn en proceso de realizacin, todas ellas pertenecientes al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de la Universidad de Jan. En este grupo tenemos puestas muchas esperanzas en el desarrollo de una investigacin de calidad dentro de la Universidad de Jan y en el mbito de las tecnologas de la informacin y las comunicaciones. Quiero hacer constar mi agradecimiento al Dr. D. Francisco Lpez Ferreras, Director del Grupo de Seales y Circuitos del Departamento de Teora de la Seal y Comunicaciones de la Universidad de Alcal, por haber hecho posible la realizacin de esta tesis cuando en la iii

iv Universidad de Jan no existan las condiciones necesarias. Adems, este agradecimiento se hace extensivo al resto de componentes de dicho grupo por la ayuda prestada y las facilidades obtenidas siempre que se les ha requerido. Merece una mencin especial el co-Director de esta tesis doctoral, Dr. D. Nicols Ruiz Reyes, por su entusiasmo y dedicacin. El contraste con sus ideas ha sido fundamental para la culminacin del trabajo de investigacin reejado en esta tesis doctoral. Han sido muchas las horas de trabajo que han sido necesarias para que los frutos de esta tesis salgan a la luz. Finalmente, el agradecimiento al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de la Universidad de Jan, al que pertenezco, por la facilidades prestadas para la realizacin de esta labor, y especialmente, a mis compaeros de departamento en la Escuela Politcnica Superior de Linares, por su participacin en la ardua tarea de la realizacin de las pruebas de audicin. No quiero olvidarme de mis compaeros de rea de conocimiento, Pepe, Ral, Damin, Juan Pedro, Fernando, Pedro y Jos Miguel, por la ayuda y conanza que siempre me han ofrecido.

ResumenConforme los sucesivos estndares de codicacin de audio ISO/MPEG, basados en codicacin de forma de onda y por transformada, han ido avanzando, se ha llegado al lmite de esta tecnologa en relacin a la reduccin del rgimen binario. Por esta causa, han ido surgiendo nuevos avances en relacin a la modelizacin de la seal que permiten, con unos pocos parmetros, codicar componentes de la seal de audio. En este sentido es de uso comn, actualmente, utilizar MP3-pro que se basa en la replicacin de bandas espectrales de alta frecuencia en funcin de ciertos parmetros y en la codicacin de forma de onda de las bajas frecuencias. El uso de modelos de seal paramtricos ha sido utilizado desde los aos 90 como una herramienta de procesamiento de seales musicales. Esta tecnologa se ha ido trasladando al campo del audio, al principio en codicadores mixtos basados en transformada que, en algunas circunstancias, se aprovechan de diferentes modelos para parametrizar las partes tonales o ruidosas de la seal. Posteriormente, han ido surgiendo nuevas propuestas que utilizan al mximo estos modelos, dividiendo la seal de audio en tonos, transitorios y ruido, para parametrizar por completo la seal. Esta tesis se centra en la consecucin de un codicador completamente paramtrico de audio que, en ningn momento, codique la forma de onda de la seal. Para lograr este n se han realizado avances en el estado del arte en relacin al modelo sinusoidal, de transitorios y de ruido. Respecto al modelo sinusoidal se incluye en esta tesis un algoritmo iterativo basado en matching pursuits que extrae el tono perceptualmente ms importante en cada iteracin. Adems, el proceso se detiene cuando se han extrado todos los tonos perceptualmente importantes de la seal. Incluso se cuantican las amplitudes de los tonos de forma transparente, con un nmero de bits variable usando principios psicoasticos y sin enviar informacin lateral. Para el modelo de transitorios se ha hecho un esfuerzo signicativo con el n de desarrollar un modelo paramtrico de baja complejidad que permita una adecuada caracterizacin de esta componente de la seal. En este sentido, se ha denido un modelo iterativo basado en matching pursuits con un diccionario de funciones wavelet packets. Tambin se ha introducido un modelo de mayor complejidad, y con mejores resultados, que incluye en el diccionario tanto funciones wavelet packets como exponenciales complejas. El residuo de los anteriores modelos se caracteriza tpicamente como ruido, parametrizando su energa en tiempo y frecuencia. Para este modelo se ha hecho una revisin de las herramientas disponibles, habiendo utilizado un predictor lineal en frecuencia modicada logartmicamente (adaptndose a las caractersticas del odo humano) para expresar la energa en frecuencia. Con todas estas herramientas se ha estructurado un codicador de audio completamente v

vi paramtrico. Se incluye en el funcionamiento del codicador un algoritmo de segmentacin adaptativa del eje temporal muy exible, as como los procesos de cuanticacin de parmetros necesarios teniendo en cuenta siempre criterios perceptuales. Los estudios tericos y los desarrollos efectuados han dado lugar a un codicador de alta calidad de seales CD-audio que emplea una media 16 Kbits/s (0,36 bits/muestra por canal), resultando una opcin ventajosa a bajo rgimen binario con respecto al estndar AAC actualmente establecido en el mercado.

AbstractThe bit rate reduction boundary of transform based coders, which quantize the waveform of the signal, has been almost reached by the last ISO/MPEG standards. As a consequence, a novel research domain has appeared in order to reduce the audio bit rate: parametric audio modelling. For example, the MP3-pro standard extracts the high frequency bands from both the waveform coded low frequency bands and some parameters, this process is known as spectral band replication. Parametric models for musical signals have been utilized since the nineties. Nowadays, these tools are being applied to audio coding. Firstly, these models were included into mixed coders, which were basically waveform coders, but they sometimes made use of sinusoidal or noise models to lower the bit rate. Later, fully parametric audio coders, which decompose the audio signal into sinusoids, transients and noise, have been proposed. The implementation of a fully parametric audio coder is the main objective of this thesis. Therefore, new advances, in regard to sinusoidal, transient and noise modelling, have been accomplished for achieving high quality and low bit rate audio coding. In relation to sinusoidal modelling we propose a perceptual matching pursuits algorithm which extracts the most perceptually meaningful tone at each iteration. Also, a perceptual stopping criterion is presented: the algorithm is halted when all the psychoacoustic meaningful tones are extracted. Besides, tone amplitudes are quantized in a variable number of bits achieving transparent quantization without sending additional side information. Transient modelling has been advanced because we have made an eort to develop a low complexity parametric model that is adapted to dierent transient signals. As a result, we propose a matching pursuits algorithm with a wavelet packets dictionary and a fast procedure to update correlations. Also, a more complex model but with better results is treated, this model is based on matching pursuits algorithm with mixed (wavelet packets & complex exponentials) dictionary. The remaining of the previous models is analized as a noise signal, extracting its time and frequency energy characteristics. We have revised the techniques used in the literature and, nally, we have included a warped linear predictor in order to modelize the noise energy in frequency. We dene a fully parametric audio coder by using all these mentioned tools and by adding an adaptive segmentation algorithm (which has to be very exible) and psychoacoustical information to quantize all the derived parameters. These theoretical studies and accomplished developments have led to a high quality audio coder for CD-audio signals that uses an average of 16 Kbits/s (0.36 bits/sample per channel). This coder can be a protable alternative to the AAC standard currently established in the market.

vii

viii

ndice generalI Planteamiento de la Investigacin y Revisin de Conocimientos 13 3 4 5 6 9 9 10 11 12 12 14 15 16 17 20 21 21 21 25 26 27 28 29 29 32 38 38 43 45

1. Introduccin 1.1. Contexto y localizacin de la investigacin . 1.2. Justicacin y objetivos de la investigacin 1.3. Estructura de la tesis . . . . . . . . . . . . . 1.4. Principales contribuciones . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

2. Introduccin a la codicacin perceptual de audio 2.1. Necesidad de la codicacin de audio . . . . . . . . . . . 2.2. Requisitos de los sistemas de codicacin de audio . . . 2.3. Codicacin perceptual . . . . . . . . . . . . . . . . . . 2.4. Fundamentos de psicoacstica . . . . . . . . . . . . . . . 2.4.1. El sistema auditivo humano . . . . . . . . . . . . 2.4.2. Umbral absoluto de audicin . . . . . . . . . . . 2.4.3. Intensidad sonora, tono y timbre . . . . . . . . . 2.4.4. Bandas crticas . . . . . . . . . . . . . . . . . . . 2.4.5. Enmascaramiento . . . . . . . . . . . . . . . . . . 2.4.6. Just Noticeable Dierence . . . . . . . . . . . . . 2.5. Elementos bsicos de un codicador perceptual de audio 2.5.1. Introduccin . . . . . . . . . . . . . . . . . . . . 2.5.2. Anlisis tiempo/frecuencia . . . . . . . . . . . . . 2.5.3. Modelos perceptuales . . . . . . . . . . . . . . . . 2.5.4. Cuanticacin y codicacin . . . . . . . . . . . 2.6. Estndares en codicacin de audio . . . . . . . . . . . . 2.6.1. MPEG-1 Audio - capas 1 y 2 . . . . . . . . . . . 2.6.2. MPEG-1 Audio - capa 3 . . . . . . . . . . . . . . 2.6.3. MPEG-2 Audio . . . . . . . . . . . . . . . . . . . 2.6.4. MPEG-4 Audio . . . . . . . . . . . . . . . . . . . 2.7. Calidad perceptual . . . . . . . . . . . . . . . . . . . . . 2.7.1. La escala MOS . . . . . . . . . . . . . . . . . . . 2.7.2. El mtodo MUSHRA . . . . . . . . . . . . . . . . 2.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . ix

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

x

NDICE GENERAL 47 51 52 58 60 63 63 63 66 67 67 68 68 70 73 77 77 78 79 85 94 99 100 101 102 103 105

3. Codicacin paramtrica de audio 3.1. Modelado sinusoidal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Psicoacstica aplicada al modelo tonal . . . . . . . . . . . . . . 3.1.2. Tonos con relacin armnica y tonos aislados . . . . . . . . . . 3.1.3. Mtodos para mejorar la extraccin tonal . . . . . . . . . . . . 3.2. Modelado de transitorios . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. La necesidad de un modelado de transitorios . . . . . . . . . . 3.2.2. Tipos de modelado de transitorios existentes . . . . . . . . . . . 3.3. Modelado de ruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Esquemas de modelado de ruido basados en prediccin lineal . 3.3.2. Esquemas de modelado de ruido basados en ltros perceptuales 3.4. Codicadores paramtricos . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. Codicadores hbridos . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Codicadores completamente paramtricos . . . . . . . . . . . . 3.4.3. Codicadores paramtricos escalables . . . . . . . . . . . . . . . 4. Descomposiciones atmicas 4.1. Introduccin . . . . . . . . . . . . . . . . . . . 4.2. Mtodos de clculo . . . . . . . . . . . . . . . 4.2.1. Mtodos paralelos . . . . . . . . . . . 4.2.2. Mtodos iterativos . . . . . . . . . . . 4.2.3. Resultados . . . . . . . . . . . . . . . 4.3. Tipos de diccionarios tiempo-frecuencia . . . 4.3.1. tomos de Gabor . . . . . . . . . . . . 4.3.2. Sinusoides amortiguadas . . . . . . . . 4.3.3. Exponenciales complejas . . . . . . . . 4.3.4. Diccionarios basados en transformadas 4.3.5. Diccionarios mixtos . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

II

Desarrollo y Metodologa de la Investigacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109111 112 113 114 118 119 120 122 134 135 136 136

5. Modelado sinusoidal 5.1. Implementacin mediante matching pursuits . . . . . . . . . 5.1.1. Implementacin eciente . . . . . . . . . . . . . . . . 5.1.2. Extensin para el anlisis de seales no estacionarias 5.2. Matching pursuits con guiado perceptual . . . . . . . . . . . 5.2.1. Weighted Matching Pursuits . . . . . . . . . . . . . . 5.2.2. Psychoacoustic-Adaptive Matching Pursuits . . . . . 5.2.3. Perceptual Matching Pursuits . . . . . . . . . . . . . 5.3. Estrategias de cuanticacin . . . . . . . . . . . . . . . . . . 5.3.1. Cuanticacin de la frecuencia . . . . . . . . . . . . 5.3.2. Cuanticacin de la fase . . . . . . . . . . . . . . . . 5.3.3. Cuanticacin de la amplitud . . . . . . . . . . . . .

NDICE GENERAL 6. Modelado de transitorios 6.1. Diccionarios paramtricos con matching pursuits . . . . . . . . . . . . . . . . . . 6.1.1. tomos de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2. Sinusoides amortiguadas exponencialmente . . . . . . . . . . . . . . . . . 6.1.3. tomos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Diccionario de funciones wavelet packets . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Demostracin de las correlaciones cruzadas . . . . . . . . . . . . . . . . . 6.2.2. Resultados comparativos entre los diccionarios WP y EDS . . . . . . . . . 6.3. Diccionario mixto: exponenciales complejas + wavelets packets . . . . . . . . . . 6.3.1. Planteamiento para una implementacin rpida . . . . . . . . . . . . . . . 6.3.2. Clculo de la correlacin cruzada entre una exponencial compleja elegida como tomo ptimo y funciones wavelet-packets. . . . . . . . . . . . . . . 6.3.3. Clculo de la correlacin cruzada entre una funcin wavelet-packets elegida como tomo ptimo y exponenciales complejas. . . . . . . . . . . . . . . . 6.3.4. Resumen de la complejidad asociada . . . . . . . . . . . . . . . . . . . . . 6.3.5. Resultados en seales de audio con transitorios . . . . . . . . . . . . . . . 7. Modelado de ruido 7.1. El equilibrio imperfecto entre tonos y ruido . . . . 7.2. Parmetros de la energa del residuo en frecuencia 7.2.1. Bancos de ltros ERB . . . . . . . . . . . . 7.2.2. Filtros basados en warped-LPC . . . . . . . 7.2.3. Comparacin de resultados . . . . . . . . . 7.3. El espectro perceptual del ruido . . . . . . . . . . . 7.4. La envolvente del ruido en el tiempo . . . . . . . . 8. Codicador paramtrico propuesto 8.1. Estructura del codicador de audio propuesto . . . 8.2. Segmentacin del eje temporal . . . . . . . . . . . . 8.3. Detector de transitorios . . . . . . . . . . . . . . . 8.4. Cuanticacin de parmetros . . . . . . . . . . . . 8.4.1. Parmetros de control . . . . . . . . . . . . 8.4.2. Parmetros de los tonos . . . . . . . . . . . 8.4.3. Parmetros de las funciones wavelet-packets 8.4.4. Parmetros del ruido . . . . . . . . . . . . . 8.4.5. Estructura de la trama binaria . . . . . . . 8.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . 8.5.1. Seal es01 . . . . . . . . . . . . . . . . . . . 8.5.2. Seal es02 . . . . . . . . . . . . . . . . . . . 8.5.3. Seal es03 . . . . . . . . . . . . . . . . . . . 8.5.4. Seal si01 . . . . . . . . . . . . . . . . . . . 8.5.5. Seal si02 . . . . . . . . . . . . . . . . . . . 8.5.6. Seal si03 . . . . . . . . . . . . . . . . . . . 8.5.7. Seal sm01 . . . . . . . . . . . . . . . . . .

xi 145 145 146 146 149 151 153 154 157 159 161 163 164 165 171 171 175 176 177 180 185 187 189 190 193 198 199 199 200 201 202 204 205 206 207 209 209 211 212 213

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

xii 8.5.8. 8.5.9. 8.5.10. 8.5.11. 8.5.12. 8.5.13. Seal sm02 . Seal sm03 . Seal sc01 . . Seal sc02 . . Seal sc03 . . Resultados en . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . trmino medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 216 217 218 219 220

III

Conclusiones y Lneas Futuras

223225 229

9. Conclusiones 10.Lneas futuras de investigacin

ndice de guras2.1. Estructura interna del odo humano. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Umbral absoluto de audicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Contornos de igual intensidad sonora para tonos puros. . . . . . . . . . . . . . . . . . 2.4. Ancho de las bandas crticas en funcin de la frecuencia central de la banda. . . . . . . 2.5. Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz . . . . . . . . . . . . . . . . 2.6. Ejemplo de pre-masking y post-masking . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Ejemplo de pre-eco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8. Diagrama de bloques de un sistema de codicacin perceptual . . . . . . . . . . . . . . 2.9. Diagrama de bloques de un banco de ltros de anlisis/sntesis . . . . . . . . . . . . . . 2.10. Descomposicin de un golpe de batera en sus componentes. . . . . . . . . . . . . . . . 2.11. Esquema de un modelo de enmascaramiento sin ndice de tonalidad. . . . . . . . . . . . 2.12. Diagrama de bloques del esquema de codicacin MPEG-1 audio capa 3 . . . . . . . . . 2.13. Estructura de trama MPEG-1 para la transmisin de informacin multicanal MPEG-2 . 2.14. Diagrama de bloques del estndar de codicacin MPEG-2 AAC . . . . . . . . . . . . . 2.15. Aplicaciones del estndar MPEG-4 audio . . . . . . . . . . . . . . . . . . . . . . . . 2.16. Diagrama de bloques del codicador paramtrico HILN [Purnhagen00]. . . . . . . . . . 2.17. Diagrama de bloques del codicador paramtrico PPC [Schuijers03]. . . . . . . . . . . . 2.18. Los cinco intervalos de la escala continua (CQS) de medida usada en el mtodo MUSHRA. 2.19. El interfaz de usuario del programa SEAQ para realizar el test MUSHRA. . . . . . . . . 3.1. Tendencia de la distorsin perceptual en funcin del rgimen binario para codicadores de forma de onda y paramtricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Unin de tonos individuales para formar trayectorias . . . . . . . . . . . . . . . . . . 3.3. Evolucin de la resolucin espectral y temporal con el tamao de trama de anlisis. . . . 3.4. Ventajas del anlisis multi-resolucin. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Esbozo de la distorsin perceptual en relacin al rgimen binario cuando se utiliza slo el modelado sinusoidal o el modelado sinusoidal ms un modelo de ruido. . . . . . . . . . 3.6. Esquema del funcionamiento del codicador hbrido propuesto en [Ali95]. . . . . . . . . 3.7. Esquema del funcionamiento del codicador hbrido propuesto en [Levine98]. . . . . . . 3.8. Esquema del funcionamiento del codicador paramtrico HILN [Purnhagen00]. . . . . . 3.9. Resultados de los test subjetivos para el codicador HILN. . . . . . . . . . . . . . . . . 3.10. Resultados de los test subjetivos para el codicador PPC. . . . . . . . . . . . . . . . . 3.11. Esquema del funcionamiento del codicador paramtrico de Verma [Verma99]. . . . . . 3.12. Esquema del funcionamiento del codicador paramtrico de Myburg [Myburg04]. . . . . xiii 13 15 16 17 18 20 20 21 22 25 27 29 30 31 35 36 37 44 44

48 52 54 56 66 69 70 71 72 73 74 75

xiv

NDICE DE FIGURAS 76 81 81 82 83 83 88 89 93

3.13. Calidad perceptual obtenida por el codicador de Myburg a diferentes regmenes binarios. 4.1. Plano de fase ideal de una funcin wavelet-packets. . . . . . . . . . . . . . . . . . . . 4.2. Ejemplo de funcionamiento del mtodo de tramas o MOF. . . . . . . . . . . . . . . . . 4.3. Ejemplo de funcionamiento del mtodo basis pursuits (BS) para una seal formada por un tomo wavelet packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Seal FM y su plano de fase ideal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Ejemplo de funcionamiento del algoritmo interior-point para el mtodo basis pursuits (BS) para una seal FM con un diccionario de cosine packets. . . . . . . . . . . . . . . . . 4.6. Mtodo matching pursuits y el principio de ortogonalidad [Goodwin97]. . . . . . . . . . 4.7. Descomposicin en un plano de fase de dos tonos prximos en frecuencia con el mtodo MP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Descomposicin con diferentes mtodos atmicos de una seal formada por cuatro elementos del diccionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9. Ejemplo de funcionamiento de diferentes mtodos de obtencin de descomposiciones atmicas con una seal formada por dos tonos muy prximos en frecuencia y un diccionario DST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

95

4.10. Comparacin del resultados de mtodos para obtener descomposiciones con una sealformada por una delta de Dirac, un tono y cuatro funciones wavelet-packets. Se utiliza un diccionario wavelet packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

4.11. Comparacin del resultados de mtodos para obtener descomposiciones con una sealformada un tono ms una seal tonal modulada en FM. Se utiliza un diccionario cosine packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97 98 99 101 101 102 106

4.12. Comparacin del resultados de mtodos para obtener descomposiciones con un transitorio de audio. Se utiliza un diccionario cosine packets. . . . . . . . . . . . . . . . . . . . . 4.13. Comparacin del resultados de mtodos de descomposiciones para eliminacin de ruido en un transitorio de audio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.14. tomos de Gabor con ventana simtrica variando la frecuencia de modulacin y la escala de la ventana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15. Representacin de un efecto de pre-eco producido al utilizar tomos de Gabor simtricos. 4.16. tomos de sinusoides amortiguadas variando la frecuencia de modulacin y el factor de amortiguamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.17. Ejemplo de uso de un diccionario mixto. . . . . . . . . . . . . . . . . . . . . . . . . .

5.1. Esquema experimental usado para comparar de forma objetiva diferentes mtodos de implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.2. Variacin de la relacin residuo a seal RSR( %) conforme aumenta el nmero de frecuencias extradas para los cuatro mtodos considerados: A (rombos), B (tringulos), C (crculos), D (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.3. Nmero de frecuencias necesarias para conseguir un valor jo de relacin residuo a seal RSR( %) para los mtodos C (crculos) y D (cuadrados). . . . . . . . . . . . . . . . . 117 5.4. Esquema experimental usado para comparar de forma subjetiva diferentes mtodos de implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.5. Resultados subjetivos en M OS comparando los mtodos evaluados de modelado sinusoidal. 119

NDICE DE FIGURAS

xv

5.6. Ejemplo de funcionamiento de las medidas perceptuales WMP y PAMP para el caso de dos tonos de 1KHz y 1, 1KHz [Heusdens02]. . . . . . . . . . . . . . . . . . . . . . . 121 5.7. Modelo del odo como sistema lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.8. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso de dos tonos de 1KHz y 1, 1KHz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.9. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 5.10. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora ms ruido blanco. . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.11. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora con mscara inicial que incluye el umbral NMT. . . . . . . . . . . . 127 5.12. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora ms ruido blanco con mscara inicial que incluye el umbral NMT. . . 128 5.13. Ejemplo de funcionamiento de la parada perceptual con la medida PMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.14. Ejemplo de funcionamiento de la parada perceptual con la medida PAMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 5.15. Ejemplo de funcionamiento de la medida PAMP para el caso una seal vocal sonora ms ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.16. Ejemplo de funcionamiento de la medida PMP para el caso una seal vocal sonora ms ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.17. Ejemplo de funcionamiento del algoritmo propuesto para la cuanticacin de las amplitudes. 141 5.18. Variacin del rgimen binario (bits/muestra) en media para la cuanticacin de las amplitudes conforme la relacin RSR( %) aumenta. Mtodo en [Ali95] (rombos), mtodo propuesto (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5.19. Comparacin de resultados subjetivos (valores de M OS) obtenidos por el algoritmo de cuanticacin de las amplitudes de los tonos propuesto y por el presentado en [Ali95] . . 143 6.1. 6.2. 6.3. 6.4.Modelado de un transitorio de audio (gong) con MP y tomos de Gabor. . . . . . . . . 147 Interpretacin mediante bancos de ltros de varias estructuras de diccionario EDS. . . . 148 Modelado de un transitorio de audio (gong) con MP y diccionario EDS. . . . . . . . . . 148 Error cuadrtico medio de mtodo MP con tomos de Gabor y exponenciales amortiguadas para un transitorio de audio [Goodwin97]. . . . . . . . . . . . . . . . . . . . . . . . . 148

6.5. tomos compuestos variando la frecuencia de modulacin y los factores de amortiguamiento. 149 6.6. Modelado un transitorio de audio (gong) con MP y diccionario de tomos compuestos. . 150 6.7. Error cuadrtico medio del mtodo MP con exponenciales amortiguadas y tomos compuestos para un transitorio de audio [Goodwin97]. . . . . . . . . . . . . . . . . . . . . 150 6.8. Estructura en rbol de la transformada WP inversa con una profundidad de P = 3. . . . 152 6.9. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario EDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.10. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario WP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.11. Error cuadrtico medio (MSE) de los modelos presentados en las guras 6.9 y 6.10. . . . 157

xvi

NDICE DE FIGURAS

6.12. Modelo de un transitorio de audio (castauela) con un diccionario mixto y con diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6.13. Modelo de un micro-transitorio de audio ( glokenspiel) con un diccionario mixto y con diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 7.1. Representacin de la frontera ptima entre tonos y ruido en un modelo de seal determinstica ms estocstica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Generador de ruido sinttico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Bloque a sustituir por cada retardo unidad para obtener ltros warped. . . . . . . . . . 7.4. Tres tonos en tiempo y frecuencia antes de realizar un procesado warped [Harma00a]. . 7.5. Tres tonos en tiempo y frecuencia tras realizar un procesado warped por una cadena de 1000 bloques paso todo [Harma00a]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6. Espectro de una seal musical de clarinete y espectro estimado por modelos LPC y warped-LPC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7. Espectro del residuo de una seal vocal sorda (abajo), la envolvente de energa mediante

173 175 178 179 180 181

warped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.8. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediantewarped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

7.9. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediantewarped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

7.10. Obtencin del modelo de ruido con un espectro pesado perceptualmente gracias al umbral de enmascaramiento presente tanto en el codicador como en el decodicador. . . . . . . 185 7.11. Residuo para una seal de voz sorda y envolvente calculada con un ltro LPC en frecuencia con 3 polos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 8.1. Estructura del codicador paramtrico propuesto. . . . . . . . . . . . . . . . . . . . . 8.2. Diagrama del segmentador usado basado en warped-LPC. . . . . . . . . . . . . . . . . 8.3. Seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento que calcula el algoritmo de segmentacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4. Seal de voz cuando se termina de pronunciar un fonema sonoro. La lnea marca el lmite del segmento que calcula el algoritmo de segmentacin. . . . . . . . . . . . . . . . . . 8.5. Golpe de castauela detectado como transitorio. . . . . . . . . . . . . . . . . . . . . . 8.6. Micro-transitorio detectado en la seal sm02. Se dibuja la seal de entrada (arriba) y el residuo del modelo tonal (abajo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7. Estructura de la trama binaria del codicador paramtrico propuesto. . . . . . . . . . . 8.8. Test MUSHRA para la seal es01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.9. Test MUSHRA para la seal es02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.10. Test MUSHRA para la seal es03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.11. Test MUSHRA para la seal si01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.12. Test MUSHRA para la seal si02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.13. Test MUSHRA para la seal si03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 196 197 197 199 200 204 207 208 210 211 212 214

NDICE DE FIGURAS 8.14. Test MUSHRA para la seal sm01. . . . . . . . 8.15. Test MUSHRA para la seal sm02. . . . . . . . 8.16. Test MUSHRA para la seal sm03. . . . . . . . 8.17. Test MUSHRA para la seal sc01. . . . . . . . . 8.18. Test MUSHRA para la seal sc02. . . . . . . . . 8.19. Test MUSHRA para la seal sc03. . . . . . . . . 8.20. Valores del test MUSHRA en media para todas las . . . . . . seales de prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xvii 215 216 217 218 219 220 222

xviii

NDICE DE FIGURAS

ndice de tablas2.1. Escala de degradacin de 5 notas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Seales del cd EBU-SQAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 41

5.1. Seales de audio utilizadas en el test del modelo tonal. . . . . . . . . . . . . . . . . . . 115 5.2. Preferencia en ( %) de PMP (banda de Bark) sobre PAMP (frecuencia) cuando se aplica un modelo tonal con 25 tonos por segmento. . . . . . . . . . . . . . . . . . . . . . . . 133 6.1. Preferencia de los resultados del diccionario mixto sobre el diccionario en serie en %. . . 168 7.1. Preferencia de los resultados del modelo de ruido WLPC sobre el modelo ERB basado en FFT en %. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.2. Preferencia de los resultados del modelo de ruido WLPC pesado perceptualmente sobre el modelo WLPC tradicional pesado por energa en %. . . . . . . . . . . . . . . . . . . . 186 8.1. Rgimen 8.2. Rgimen 8.3. Rgimen 8.4. Rgimen 8.5. Rgimen 8.6. Rgimen 8.7. Rgimen 8.8. Rgimen 8.9. Rgimen 8.10. Rgimen 8.11. Rgimen 8.12. Rgimen 8.13. Rgimenbinario binario binario binario binario binario binario binario binario binario binario binario binario y y y y y y y y y y y y y otros otros otros otros otros otros otros otros otros otros otros otros otros resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero en media al codicar es01. . . . . . . . . . . . . es02. . . . . . . . . . . . . es03. . . . . . . . . . . . . si01. . . . . . . . . . . . . si02. . . . . . . . . . . . . si03. . . . . . . . . . . . . sm01. . . . . . . . . . . . sm02. . . . . . . . . . . . sm03. . . . . . . . . . . . sc01. . . . . . . . . . . . . sc02. . . . . . . . . . . . . sc03. . . . . . . . . . . . . todos las seales evaluadas.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

206 208 209 210 211 213 214 215 217 218 219 220 221

xix

Parte I

Planteamiento de la Investigacin y Revisin de Conocimientos

1

Captulo 1

Introduccin1.1. Contexto y localizacin de la investigacin

La representacin digital de seales de audio encontr en los aos ochenta un estndar con la aparicin de la tecnologa del disco compacto (CD). Inevitablemente, todos los esquemas de codicacin de seales de audio que han surgido desde entonces han tratado de comparar su calidad con la calidad CD. Esta se caracteriza por el uso de una frecuencia de muestreo de 44,1 KHz, para seales de audio cuyo ancho de banda es del orden de 20 KHz, siendo cada muestra PCM codicada con 16 bits. Para transmitir las seales digitales resultantes, se necesitara una velocidad de transmisin de 705,6 Kbits/s por canal de audio, justicndose la necesidad de investigacin para encontrar tcnicas de codicacin alternativas que permitan reducir el rgimen binario manteniendo la calidad perceptual de la seal de audio decodicada. La investigacin en este campo no es nueva, apareciendo los primeros sistemas de codicacin de audio digital con buena calidad y bajo rgimen binario a nales de la dcada de los ochenta. Desde entonces, la investigacin en esta lnea se ha ido intensicando, debido fundamentalmente a las aportaciones realizadas por el grupo MPEG (Moving Pictures Expert Group), fruto de las cuales han surgido diversos estndares internacionales de codicacin de audio. Estos estndares son los siguientes: MPEG-1 audio (ISO/IEC 11172-3, 1992), MPEG-2 audio (ISO/IEC 13818-3, 1994) y MPEG-4 (ISO/IEC 14496, 2000). Sin embargo, a partir del ao 2000 ha ido surgiendo la necesidad de reducir de manera signicativa el rgimen binario de la seal de audio con el objetivo de poder realizar transmisiones sobre Internet, as como incrementar el tiempo de seal que se puede almacenar en dispositivos porttiles de bajo coste. Para lograr este n se ha apuntado la necesidad de cambiar la tecnologa de codicacin, pasando de utilizar transformadas tiempo-frecuencia para codicar la forma de onda de la seal, a desarrollar modelos de seal que extraigan parmetros de la seal de audio que son posteriormente codicados. El xito de estos sistemas reside fundamentalmente en la gran compactacin de energa al suponer un modelo de tres componentes: tonos, transitorios y ruido. Adems, con este tipo de codicadores paramtricos es muy sencillo realizar modicaciones de la seal de audio a partir de los parmetros y suponen, adicionalmente, una herramienta prometedora para desarrollar esquemas de reconocimiento y separacin de fuentes. En esta tesis se aborda la revisin y desarrollo de modelos de seal como herramienta fun3

4

CAPTULO 1. INTRODUCCIN

damental en el anlisis de las seales de audio para sistemas de codicacin paramtrica. Se ha conseguido incluir el uso de informacin psico-acstica en la extraccin tonal del modelo sinusoidal, as como una representacin adecuada de los transitorios y ruido de la seal, para alcanzar una reduccin signicativa del rgimen binario manteniendo una buena calidad perceptual.

1.2.

Justicacin y objetivos de la investigacin

Todo avance tecnolgico se fundamenta en varias etapas: investigacin bsica, investigacin aplicada, desarrollo y produccin. En esta tesis doctoral se presenta un trabajo que combina las principales caractersticas de la investigacin bsica y de la investigacin aplicada. Por un lado, se desarrollan nuevas estrategias de modelizacin de la seal de audio, que podran ser tiles en muchas aplicaciones. Por otro, se propone un producto que, con ligeras modicaciones y mejoras, es susceptible de ser explotado. La investigacin llevada a cabo se fundamenta en la siguiente hiptesis de partida, siendo esta tesis doctoral el trabajo realizado para comprobar su veracidad: HIPTESIS: La completa parametrizacin de la seal de audio mediante el uso de modelos adaptativos, basados en la descomposicin de la seal de audio en tonos, transitorios y ruido, y su codicacin siguiendo criterios perceptuales proporciona una ganancia importante, en cuanto a rgimen binario, comparada con la utilizacin de codicacin de forma de onda con descomposiciones tiempo frecuencia. Teniendo en cuenta el objetivo general de la investigacin, es preciso plantear una serie de objetivos especcos, cuya consecucin permita alcanzar el objetivo general: Denicin de un algoritmo de segmentacin adaptativa del eje temporal, para conseguir dividir la seal de audio en segmentos que podamos considerar casi estacionarios, a los cuales aplicar los modelos de seal paramtricos. De esta forma se pretende minimizar la distorsin de pre-eco. Realizar una extraccin tonal basada en principios psicoacsticos que proporcione una herramienta capaz de extraer los tonos perceptualmente importantes de un segmento de audio. Desarrollar un modelo paramtrico de transitorios que se adapte a las caractersticas de la seal. El algoritmo debe ser lo sucientemente exible como para poder parametrizar los diferentes tipos de transitorios que puedan aparecer en la seal de audio. Implementar un modelo de ruido que extraiga, de forma eciente y con alta calidad, las caractersticas en tiempo y frecuencia de la seal residual de los modelos previos. Inclusin de algoritmos ecientes de codicacin de los parmetros de cada modelo basados en criterios perceptuales. El resultado nal ha sido la propuesta de un codicador de audio basado en modelos de seal que consigue la completa parametrizacin de la seal de audio. Este codicador proporciona

1.3. ESTRUCTURA DE LA TESIS

5

regmenes binarios del orden de 16 Kbits/s para todas las seales de prueba, manteniendo una alta calidad de la seal codicada.

1.3.

Estructura de la tesis

En esta seccin se presenta la estructura de la tesis que recoge el trabajo de investigacin desarrollado. Se estructura en tres bloques temticos. Cada bloque temtico por su parte est compuesto por una serie de captulos. Planteamiento de la investigacin y revisin de conocimientos. Este bloque temtico est compuesto de tres captulos. El primero de ellos, que es en el que nos encontramos en este momento, se centra fundamentalmente en la presentacin de los objetivos de la investigacin y de la estructura de la tesis doctoral. En el segundo captulo se presentan los fundamentos de los sistemas de codicacin perceptual de audio y se realiza una revisin del estado del arte en relacin a los sistemas de codicacin de audio en general. El tercer captulo est dedicado a la revisin de los conceptos ms relevantes en relacin a la codicacin paramtrica de audio. Los aspectos ms destacados que se tratan son el modelado sinusoidal, el modelado de transitorios y el modelado de ruido. Adems, se incluyen los trabajos previos con mayor importancia en el uso de los anteriores modelos en codicadores de audio, ya sean totalmente paramtricos, o aquellos que, basados en transformada, incluyen alguna de estas herramientas. El cuarto captulo se dedica al estudio de las descomposiciones atmicas. Los modelos de seal mediante los que se obtienen los parmetros de la seal de audio en esta tesis doctoral estn basados en su mayor parte en descomposiciones atmicas. Se revisarn los diferentes mtodos, tanto paralelos como iterativos, que existen en la bibliografa especializada para calcular descomposiciones atmicas. Adems, se har un estudio de los diferentes diccionarios de tomos que se emplean en funcin de la nalidad de la descomposicin atmica a implementar. Desarrollo y metodologa de la investigacin. Este bloque temtico est compuesto de cuatro captulos, donde se explica el modo en que se ha procedido en la investigacin para ir alcanzando los objetivos planteados. Este captulo constituye el ncleo de la tesis y en l se recogen las principales contribuciones originales. En el quinto captulo de esta tesis doctoral se realiza un estudio detallado del modelado sinusoidal. La principal aportacin, entre otras, en este modelado se centra en la extraccin tonal guiada perceptualmente con un criterio de parada psicoacstico. En el sexto captulo se estudian las aportaciones realizadas en el modelo de transitorios. Aqu se describen dos modelos de transitorios basados en el algoritmo matching pursuits, uno con un diccionario wavelet packets, y otro con un diccionario mixto de wavelet packets y exponenciales complejas.

6

CAPTULO 1. INTRODUCCIN En el sptimo captulo, centrado en el modelo de ruido, se explican las herramientas de prediccin lineal que tienen en cuenta el comportamiento logartmico en frecuencia del odo humano, conocidas comnmente como warped-lpc. Para completar este bloque, en el octavo captulo se presenta la estructura general del codicador propuesto, detallando la segmentacin adaptativa del eje temporal y el proceso de cuanticacin de parmetros con principios psicoacsticos. Se detallan los resultados subjetivos, que se han obtenido atendiendo a la recomendacin ITU-R BS.1534 (conocida como metodologa MUSHRA) para la evaluacin subjetiva de medias a grandes degradaciones en los sistemas de audio. Estos resultados permiten comparar la calidad perceptual de las seales decodicadas con las obtenidas usando el estndar MPEG-AAC y el codicador paramtrico estandarizado PPC. Conclusiones y lneas futuras. Este bloque se compone de dos captulos. En el primero de ellos (captulo noveno) se presentan las conclusiones obtenidas de la investigacin llevada a cabo. Se realiza una revisin de las aportaciones originales introducidas en cada uno de los modelos de seal utilizados en el campo de la codicacin paramtrica de audio. El siguiente captulo, que es el dcimo y nal de la tesis, est dedicado a presentar nuevas lneas de investigacin que han surgido durante el desarrollo de la investigacin y que suponen el inicio de nuevas vas de investigacin en el campo del tratamiento digital de audio, de las cuales pueden derivarse futuras tesis doctorales.

1.4.

Principales contribuciones

Finalmente, en este primer captulo, se presentan las principales contribuciones originales del trabajo de investigacin desarrollado: 1. Denicin de una nueva medida de importancia perceptual de cada tono en el algoritmo matching pursuits con diccionario de exponenciales complejas que permite en cada iteracin la extraccin de la frecuencia psicoacsticamente ms importante (seccin 5.2). 2. Denicin de un criterio de parada en el algoritmo matching pursuits con diccionario de funciones exponenciales complejas que permite detener el algoritmo cuando no quedan en el residuo tonos que estn por encima del umbral de enmascaramiento (seccin 5.2). 3. Desarrollo de un algoritmo de codicacin de las amplitudes de los tonos que permite enviar un nmero variable de bits por tono, de forma que cada tono se cuantica con los bits necesarios para que la cuanticacin sea perceptualmente transparente. Este resultado se consigue haciendo que tanto codicador como decodicador calculen de forma sencilla un umbral de enmascaramiento que determine los bits de cada tono (seccin 5.3). 4. Inclusin de un proceso rpido de actualizacin de las correlaciones en el algoritmo matching pursuits con un diccionario wavelet packets, basado en las propiedades de las funciones wavelet packets ortogonales. Este algoritmo se emplea en el modelado de transitorios (seccin 6.2).

1.4. PRINCIPALES CONTRIBUCIONES

7

5. Desarrollo de un mtodo de actualizacin de las correlaciones en el algoritmo matching pursuits con un diccionario mixto de funciones wavelet packets y exponenciales complejas, basado en las propiedades de las funciones wavelet packets ortogonales, as como en las propiedades de la transformada discreta de Fourier de las funciones exponenciales complejas. Este algoritmo es idneo para el modelado de transitorios (seccin 6.3). 6. Desarrollo de un modelado de ruido basado en prediccin lineal con frecuencia logartmica (warped-lpc) para las frecuencias y en prediccin lineal (tns, time noise shaping) para el tiempo (seccin 7). 7. Desarrollo de un nuevo algoritmo de segmentacin exible del eje temporal (seccin 8.2).

8

CAPTULO 1. INTRODUCCIN

Captulo 2

Introduccin a la codicacin perceptual de audio2.1. Necesidad de la codicacin de audio

La codicacin perceptual de audio digital ha sido a lo largo de los ltimos 20 aos un campo de aplicacin del procesado de seales. Durante este tiempo, se han resuelto algunos de los retos asumidos. Sin embargo, la creciente demanda de aplicaciones digitales en redes telemticas hace, que an hoy, la codicacin de audio sea un tema de actualidad. El objetivo de este captulo es describir las tcnicas de codicacin ms utilizadas en el mercado y presentar una revisin del estado del arte en codicacin perceptual de audio. Durante los ltimos aos, gracias a los esfuerzos de estandarizacin, ha habido una explosin de aplicaciones, tanto profesionales como de consumo, que han llevado a que el audio digital se haya extendido de forma que se utiliza con asiduidad en la vida cotidiana. Baste, para comprobar este hecho, con enumerar una serie de campos de aplicacin: Almacenamiento en discos pticos y dispositivos porttiles. Audio asociado para vdeo digital. Transmisin de audio mediante redes digitales, por ejemplo internet o redes mviles. Radiodifusin digital: DAB (radiodifusin terrestre), WorldSpace (radiodifusin por satlite). Pese a que el ancho de banda global disponible para la transmisin de seales de audio (y video) aumenta continuamente, as como la capacidad de los dispositivos de almacenamiento, siguen surgiendo campos de aplicacin donde los actuales estndares de codicacin no ofrecen una solucin satisfactoria. En este sentido cabe destacar la necesaria reduccin del rgimen binario para la transmisin de audio por internet, o telefona mvil, manteniendo una alta calidad, lo cual ha provocado el desarrollo de la codicacin paramtrica de audio. Pero, en un futuro prximo, tal y como adelanta MPEG, van a seguir apareciendo nuevas aplicaciones para el tratamiento digital de audio como, por ejemplo, la bsqueda basada en contenido. 9

10

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

2.2.

Requisitos de los sistemas de codicacin de audio

A la hora de denir un sistema de codicacin de audio, es necesario tener en cuenta los requisitos que se le piden. Dependiendo de la aplicacin, algunos de ellos sern ms relevantes que otros. Los principales criterios que se tienen en cuenta a la hora de disear un esquema de codicacin perceptual son los siguientes: Eciencia de compresin. En muchas aplicaciones, obtener la mayor tasa de compresin para la misma calidad de servicio se traduce directamente en ahorro de costes. Por tanto, la calidad de seal para una tasa binaria dada (o la tasa binaria necesaria para conseguir una cierta calidad de seal) es un criterio de diseo importante. Calidad de la seal decodicada. En algunas aplicaciones se precisa calidad transparente (no existe diferencia audible entre la seal original y la seal decodicada) o casi transparente. Para asegurar esta calidad el sistema de codicacin debe superar pruebas de calidad muy exigentes. En otras aplicaciones, sin embargo, se permite que una persona entrenada distinga la seal original de la decodicada, aunque las distorsiones en la seal decodicada sean tolerables, se habla entonces de audio de alta calidad. Complejidad. Para aplicaciones de consumo, la complejidad de la codicacin, y en especial de la decodicacin, es importante, aunque conforme pasa el tiempo estos aspectos estn pasando a un segundo plano. Podemos distinguir distintos tipos de complejidad: Complejidad computacional. Se reere al nmero de instrucciones del procesador necesarias para tratar un bloque de muestras. Si el algoritmo de codicacin se implementa en una arquitectura de clculo de propsito general (PC o estacin de trabajo), esta es la gura de complejidad ms importante. Requisitos de almacenamiento. Supone un factor de coste importante para realizaciones con dispositivos porttiles o bien en arquitecturas de propsito especco (DSPs). Complejidad del codicador frente a la del decodicador. En la mayora de los algoritmos que se describen en este captulo, el codicador es ms complejo que el decodicador. Esta asimetra es interesante para aplicaciones como la radiodifusin, donde existe una relacin de uno a muchos entre el codicador y los decodicadores. Retardo. Dependiendo de la aplicacin, el retardo puede ser o no un criterio importante. Mientras que es muy importante en aplicaciones donde se dan comunicaciones bidireccionales, no lo es tanto en aplicaciones de almacenamiento. Para radiodifusin, un retardo de 100 ms parece ser tolerable. Editabilidad. Desde el punto de vista de codicacin el requisito de editabilidad esta relacionado con el de break-in, y consiste en la posibilidad de comenzar la decodicacin en cualquier punto de la secuencia de bits sin que esto suponga un elevado tiempo de sincronizacin. Como norma general, un codicador empieza a decodicar antes si no utiliza codicacin diferencial entre tramas, puesto que en caso contrario la espera para disponer de todos los valores puede alargarse en el tiempo.

2.3. CODIFICACIN PERCEPTUAL

11

Resistencia a errores. Dependiendo de la estructura de la secuencia de bits transmitida, los codicadores perceptuales son ms o menos sensibles a errores puntuales o de rfaga producidos en el canal de transmisin. Esta sensibilidad depende del uso que se haga de la codicacin diferencial entre diferentes tramas de audio. Evidentemente, la utilizacin de cdigos correctores de errores es una solucin, que se consigue a costa de aumentar el rgimen binario, la complejidad y el retardo del sistema.

2.3.

Codicacin perceptual

La funcin tasa-distorsin determina el rgimen binario mnimo que se puede conseguir para una distorsin dada [Berg71]. Normalmente se consiguen muy buenos resultados combinando la eliminacin de redundancia (datos que pueden reconstruirse a partir de los presentes), con la eliminacin de datos que no son importantes (eliminacin de irrelevancia). La codicacin perceptual se centra en la eliminacin de aquellos datos que son irrelevantes para el sistema auditivo. La seal se codica de forma que la distorsin debida a la codicacin no sea audible o, por lo menos, en que la distorsin que se produzca sea mnima para el rgimen binario objetivo. Para tener xito en esta tarea, es preciso aplicar el conocimiento disponible sobre el funcionamiento del sentido del odo. El mnimo rgimen binario necesario para codicar una seal de audio sin que se produzcan diferencias perceptuales entre la seal decodicada y la original es la Entropa Perceptual (PE) [Johnston88]. La unidad de medida es bit/muestra, y se dene a partir de la expresin (2.1): 1 PE = Nf =fu

max 0, log2 (f =fl

S(f ) ) umbral(f )

(2.1)

donde fl es la frecuencia lmite inferior (por ejemplo, fl = 0 Hz ), fu es la frecuencia lmite superior (por ejemplo, fl = 22,050 KHz), N es el nmero de componentes frecuenciales entre fl y fu , S(f ) es la densidad espectral de potencia de la seal y umbral(f ) es el umbral de enmascaramiento estimado para dicha seal (el umbral de enmascaramiento se dene en la siguiente seccin). Los diferentes codicadores perceptuales han de estimar el umbral de enmascaramiento, lo cual es un paso similar en todos los prototipos. Sin embargo, las diferentes propuestas dieren en cmo obtener los datos de la seal antes de su cuanticacin. En cualquier caso, debido a que el umbral de enmascaramiento se dene en frecuencia, es necesario realizar una transformacin de los datos a este dominio para poder realizar la cuanticacin teniendo en cuenta principios psicoacsticos. En funcin del tipo de transformacin que se realice a los datos de la seal de entrada, los codicadores de audio se suelen clasicar en dos grupos principales: Codicadores por transformada. Se agrupan aqu todos los codicadores que realizan una transformacin lineal de la seal de entrada antes de su codicacin. Estos codicadores son tambin conocidos en la bibliografa como codicadores de forma de onda, del ingls waveform coding. En general, esta transformacin se realiza mediante un banco de ltros o transformada. Se han utilizado un sinfn de transformadas, siendo las ms usadas las transformadas de coseno y las transformadas wavelet-packets. En los codicadores ms avanzados

12

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO se adapta el banco de ltros o transformada a las caractersticas de la seal de entrada, pudindose cambiar incluso en cada trama en que se divide el audio. Las limitaciones de esta forma de codicacin se encuentran cuando se quiere reducir demasiado el rgimen binario. En este caso, este tipo de codicacin no proporciona resultados satisfactorios.

Codicadores paramtricos. Esta forma de codicacin surge cuando es necesario reducir mucho el rgimen binario. La solucin se basa en la modelizacin de la seal de audio en componentes, los cuales son tpicamente: tonos, transitorios y ruido. Un codicador paramtrico extrae parmetros de la seal que modelan estas componentes antes de realizar el proceso de cuanticacin. El inconveniente de esta tcnica son los errores intrnsecos al modelo, por lo que no es posible conseguir calidad transparente an cuando se aumente mucho el rgimen binario.

2.4.

Fundamentos de psicoacstica

La ciencia que estudia las relaciones entre los estmulos acsticos y las sensaciones auditivas se conoce como psicoacstica. En esta seccin se introducen los principios en los que se basan los modelos perceptuales que utilizan los modernos codicadores de audio. Estos modelos se aplican para saber cmo cuanticar un determinado valor y que el efecto producido no sea audible en la seal nal. Se comenzar haciendo una breve exposicin acerca del funcionamiento del sistema auditivo humano. Posteriormente, se analizan las sensaciones auditivas de intensidad sonora, tono y timbre; as como el umbral absoluto de audicin, las bandas crticas y las propiedades y tipos de enmascaramiento. Una revisin ms detallada de psicoacstica se puede encontrar en [Zwicker90] y en [Moore97].

2.4.1.

El sistema auditivo humano

El sistema auditivo humano es la base de la cadena de actuaciones que se realizan en un codicador de audio. Por esta causa, es de vital importancia tener un completo conocimiento de cmo funciona este sistema a la hora de disear un codicador de audio. Es esta seccin se describe el funcionamiento fsico del odo humano, dejando para ms adelante las propiedades derivadas que se usan en codicacin de audio. El odo humano (ver gura (2.1)) se puede dividir en tres partes, cada una de las cuales realiza un procesamiento diferente de los sonidos que llegan al sistema: Odo externo: Es la parte visible del sistema auditivo formado por el pabelln y el canal auditivo. La principal funcin se limita a la localizacin de las fuentes del odo en el espacio aunque tambin realiza otras acciones. Por ejemplo, protege al tmpano del posible dao causado por cuerpos extraos y cambios en la humedad y temperatura. Desde el punto de vista acstico, el canal auditivo (de 2 o 3 cm aprox.) tiene una frecuencia de resonancia cercana a 4 KHz, lo que provoca una ganancia en la seal en este rango de frecuencias, siendo la causa de la alta sensibilidad del odo en esta banda y del mnimo del umbral absoluto de audicin [Yost85]. Odo medio: Comienza en el tmpano e incluye toda la cadena de huesos del odo. Bsicamente realiza una transmisin del sonido desde el tmpano, a travs de los huesos del odo (martillo,

2.4. FUNDAMENTOS DE PSICOACSTICA

13

Figura 2.1: Estructura interna del odo humano. Esta gura se ha obtenido de la direccin de Internet http://www.owlnet/rice.edu/psyc351.

14

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO yunque y estribo) hasta la entrada del caracol. Esta parte del odo tiene una respuesta adaptada a las frecuencias medias (de 500 a 4000 Hz) porque la adaptacin mecnica de las ondas sonoras desde aire (tmpano) a uido (cclea) est siolgicamente diseada para estas frecuencias.

Odo interno: Es la parte ms importante del sistema auditivo desde el punto de vista psicoacstico. Incluye la cclea o caracol del odo donde se realiza la conversin de seal mecnica a elctrica. El uido de la cclea es excitado por el hueso estribo y estas ondas se propagan hasta donde se encuentran las clulas sensoriales. Esta propagacin tiene la particularidad de que, dependiendo de la frecuencia, el pico de la respuesta de las ondas se sita en una parte u otra de la membrana donde estn los receptores. Como consecuencia, se excitan diferentes receptores en funcin de la frecuencia del sonido, de forma que los receptores estn sintonizados a la frecuencia de entrada gracias a la conversin frecuencia a lugar que realiza la cclea. Desde un punto de vista de seal, la cclea se comporta como un conjunto de ltros paso banda, con anchos de banda no uniformes que crecen con la frecuencia. El concepto de bandas crticas se relaciona con este fenmeno [Zwicker90]. Otro fenmeno que tiene lugar en el odo interno es el enmascaramiento, el cual es producido por la presencia en la misma banda (para los mismos receptores) de una excitacin suciente para bloquear la recepcin de una seal ms dbil. Finalmente, la percepcin de un sonido se realiza en el cerebro mediante la composicin de las diferentes respuestas elctricas de las clulas sensoriales de cada banda enviadas por medio del nervio auditivo.

2.4.2.

Umbral absoluto de audicin

El umbral absoluto de audicin o umbral de silencio indica el nivel de presin sonora (Sound Pressure Level, SPL) en funcin de la frecuencia en el que un tono puro se empieza a escuchar [Zwicker90]. La gura 2.2 muestra este umbral dependiendo de la frecuencia. Se puede observar cmo el odo es ms sensible en el rango de frecuencias de 1 a 5 KHz, principalmente debido a la accin del odo externo. El umbral crece rpidamente tanto en baja como en alta frecuencia. La dependencia de este umbral con la frecuencia fue estudiada por Fletcher [Fletcher40] y aproximada por Terhardt [Terhardt79] mediante la expresin (2.2). Tq (f ) = 3, 64(f f 4 f 0,8 0,6( 1,000 3,3)2 + 103 ( ) 6, 5e ) (dB 100 1,000

SP L)

(2.2)

Esta curva es de gran utilizad en codicacin de audio porque las componentes frecuenciales bajo este umbral no pueden ser escuchadas y, por lo tanto, no necesitan ser transmitidas. Generalmente, en los codicadores por transformada se eliminan las bandas de seal bajo este umbral. El umbral absoluto de audicin se usa en codicacin de audio con cautela. En primer lugar, este umbral est asociado a tonos puros, mientras que el ruido de cuanticacin en codicadores por transformada no tiene caractersticas tonales. En segundo lugar, hay que resaltar que no se tiene conocimiento a priori sobre los niveles reales de reproduccin del sonido, aunque como referencia se suele igualar el tono que ocupe todo el rango dinmico del sistema a una intensidad sonora de 96 dB SPL.

2.4. FUNDAMENTOS DE PSICOACSTICA

15

90 80 70 60 50 40 30 20 10 0 102

Nivel de Presin Sonora, SPL (dB)

10 Frecuencia (Hz)

3

10

4

Figura 2.2: Umbral absoluto de audicin

2.4.3.

Intensidad sonora, tono y timbre

La intensidad sonora es un atributo de los sonidos en funcin del cual se pueden ordenar en una escala de ms bajo a ms alto en intensidad. Adems de la potencia de un sonido la intensidad sonora depende tambin de la duracin y la estructura en tiempo y frecuencia del mismo. En el caso de la frecuencia del sonido se denen contornos de la misma intensidad sonora, donde se toma la frecuencia de 1 KHz como referencia. La unidad en la que se mide la intensidad sonora es el fono (phon). El umbral de silencio es un ejemplo de contorno de igual intensidad sonora, notar que la intensidad sonora para 1 KHz en el umbral de silencio equivale a 3 fonos. En la gura 2.3 se representan las curvas de igual intensidad sonora partiendo del umbral de silencio. Otra sensacin auditiva es el tono que se dene como la propiedad que permite ordenar los sonidos en una escala musical. Con el tono se aprecia el patrn de repeticin de un sonido, as para el caso de un tono puro se relaciona con su frecuencia, y si se trata de un complejo armnico con la frecuencia fundamental del mismo. En cualquier caso, este atributo es ms complejo porque supone que el sonido es armonioso [Moore97]. La asignacin de un determinado tono a un sonido signica que se escucha de forma similar a (en la misma escala musical que) la frecuencia de un tono puro. El timbre es otra sensacin auditiva, aunque no se puedan ordenar los sonidos en funcin del timbre en una escala unidimensional. La denicin de timbre es negativa, es la propiedad por la cual dos sonidos se distinguen como diferentes aunque tengan la misma intensidad sonora y el mismo tono. En otras palabras, el timbre permite distinguir entre la misma nota tocada, por ejemplo, por un piano y una auta. Desde un punto de vista psicoacstico, el timbre se detecta en el cerebro al estudiar la composicin de seales en diferentes bandas crticas.

16

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Figura 2.3: Contornos de igual intensidad sonora para tonos puros. Esta gura se ha obtenido de la direccin de Internet http://www.owlnet/rice.edu/psyc351.

2.4.4.

Bandas crticas

Como se ha visto, las ondas acsticas que viajan por la cclea generan picos de respuesta en posiciones especcas de la membrana basilar (donde se encuentran los receptores auditivos) para cada componente frecuencial [Greenwood90]. Como consecuencia de esta transformacin, la cclea se entiende desde el punto de vista del procesado digital de seales como un banco de ltros muy solapados. Las respuestas en amplitud son asimtricas y dependientes del nivel de seal. Adems, el ancho de banda, conocido como ancho de la banda crtica, no es uniforme y se incrementa con la frecuencia. La nocin de banda crtica se basa en dos hechos experimentales: 1. La intensidad sonora percibida de una fuente de ruido de banda estrecha de nivel constante permanece invariable mientras se incrementa el ancho de banda hasta alcanzar el ancho de la banda crtica, pasado el cual aumenta. 2. El umbral de deteccin de ruido de banda estrecha que se presenta entre dos tonos enmascaradores permanece constante mientras la diferencia de frecuencia de los tonos se mantiene dentro del ancho de la banda crtica. El ancho de las bandas crticas permanece aproximadamente constante (unos 100 Hz) hasta los 500 Hz, y se incrementa en aproximadamente un 20 % de la frecuencia central por encima de los 500 Hz. En promedio, el ancho de las bandas crticas puede aproximarse por la expresin (2.3) [Zwicker90], la cual est dibujada en la gura 2.4: BWc (f ) = 25 + 75[1 + 1, 4(f /1,000)2 ]0,69 (Hz) (2.3)

Resulta usual el tratamiento del odo como un conjunto discreto de bancos de ltros, cuyos anchos de banda se corresponden con los de las bandas crticas. En ese caso, la distancia entre dos bandas crticas adyacentes se conoce normalmente como un Bark .

2.4. FUNDAMENTOS DE PSICOACSTICA6000

17

5000

Ancho de la Banda Crtica (Hz)

4000

3000

2000

1000

0

10

2

10 Frecuencia (Hz)

3

10

4

Figura 2.4: Ancho de las bandas crticas en funcin de la frecuencia central de la banda.

2.4.5.

Enmascaramiento

En psicoacstica el efecto ms importante que debe ser tenido en cuenta en codicacin de audio es el enmascaramiento. Se conoce como enmascaramiento el proceso por el cual el umbral de audicin de un sonido crece por la presencia de otro sonido. Hay dos tipos diferentes de enmascaramiento: el enmascaramiento simultneo y el enmascaramiento temporal. Enmascaramiento simultneo Dentro de los estudios sobre psicoacstica, es muy importante el concepto de enmascaramiento simultneo, que describe el efecto mediante el cual una seal dbil pero audible (seal enmascarada o "maskee") se hace inaudible cuando otra seal ms fuerte (seal enmascaradora o "masker") ocurre de forma simultnea. La gura 2.5 muestra el umbral de enmascaramiento obtenido a partir del umbral de silencio y del efecto de enmascaramiento producido por dos tonos puros localizados en 1 KHz y 4 KHz. Todas las seales con un nivel de presin sonora por debajo del umbral resultante y que sean simultneas a estos dos tonos no sern audibles. En el clculo del umbral de enmascaramiento debe contemplarse la dispersin del efecto enmascarador hacia las bandas prximas a la de la seal enmascarante. Esta dispersin viene caracterizada por la Funcin de Dispersin, cuya pendiente es ms abrupta hacia las bajas que hacia las altas frecuencias. Esta funcin realiza el efecto de ltrado paso banda que ocurre en la cclea. Una buena estimacin de esta pendiente hacia las bajas frecuencias es de 31 dB/Bark. Por su parte, la pendiente de la funcin de dispersin hacia las altas frecuencias depende, adems, del nivel de presin sonora del elemento enmascarador. As, elementos enmascaradores de mayor intensidad producen un mayor enmascaramiento hacia las altas frecuencias (una pendiente ms suave de la funcin de dispersin). Valores de -6 dB/Bark para seales de alta intensidad y de -10 dB/Bark para seales de menor intensidad se citan en [Zwicker90]. Mientras que en [Terhardt79] se aproxima por la expresin (2.4):

18

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO120

100

Nivel de Presin Sonora (dB)

80

60

40

20

02 3 4

10

10 Frecuencia (Hz)

10

Figura 2.5: Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz

230 , 10) 0, 2L (dB/Bark) (2.4) f donde f es la frecuencia del tono enmascarador y L su intensidad en dB SPL. Finalmente, hay que destacar que la capacidad de enmascaramiento depende de la tonalidad del elemento enmascarador. Un ruido de banda estrecha presenta una mayor capacidad de enmascaramiento sobre un tono que al contrario [Hell72]. Esta propiedad se conoce como asimetra en el enmascaramiento. La forma de tratar con esta caracterstica del enmascaramiento en la bibliografa [Zwicker90] es tener dos tipos de seales y dos efectos, resultando cuatro escenarios de enmascaramiento: ruido que enmascara a tonos (noise-masking-tone, NMT), tonos que enmascaran a tonos (tone-masking-tone, TMT), tonos que enmascaran a ruido (tone-masking-noise, TMN), y ruido que enmascara a tonos (noise-masking-noise, NMN). 22 + min( NMT: El nivel de enmascaramiento en la misma banda crtica depende del nivel de ruido que enmascara, as en [Hall98] se dice que el umbral se sita a 4 dB con 80 dB SPL de ruido enmascarador y a 3 dB para 60 dB SPL. TMT: Cuando tanto seal enmascaradora como enmascarada son tonos se dan [Hall98] 19 dB para un tono enmascarador de 400 Hz de 80 dB SPL, 15 dB para 60 dB SPL, y 14 dB para 40 dB SPL. Otros valores se pueden encontrar en [Zwicker90] en funcin de la frecuencia, pero son pocos los estudios realizados porque este tipo de enmascaramiento no se utiliza en codicadores por transformada. El efecto enmascarador de un tono es ms fuerte si la duracin del tono es mayor hasta un mximo de 300 ms [Par02], lo que puede ser tenido en cuenta por codicadores paramtricos. Adems, en este caso se han observado situaciones especiales, porque cuando ambos tonos estn muy prximos en frecuencia tienden a interferirse y provocar uctuaciones en la intensidad sonora [Lee03]. TMN: La mscara generada en este caso depende tanto del nivel de presin sonora del tono como de su frecuencia. Pero, comparada con el caso del ruido enmascarador, un tono

2.4. FUNDAMENTOS DE PSICOACSTICA

19

tiene menos capacidad de enmascaramiento. En [Hall98] se presentan los valores para una frecuencia de 1 KHz, as el umbral est a 21 dB para un tono de 60 dB SPL, a 24 dB para 80 dB SPL y a 28 dB para 90 dB SPL. Hay una gran conjunto de expresiones similares [Zwicker90] [Moore97] [MPEG92] para este escenario que aprovechan los diferentes modelos perceptuales que emplean los codicadores de audio. NMN: Es un valor difcil de medir en la prctica porque no se puede distinguir entre tipos de ruido. Los valores que aparecen en la bibliografa son muy diversos, as en [Hall98] aparece un valor genrico de 26 dB, mientras que en el modelo de enmascaramiento 2 de MPEG [MPEG92] se utiliza un valor de 5, 5 dB. El valor de la mscara nal se ha de obtener reconociendo cuantas seales enmascaradoras ruidosas y tonales hay en la seal. Esto se consigue de forma general calculando la tonalidad de la seal en cada banda crtica. A partir de este valor se divide la seal de entrada en parte tonal y parte ruidosa dentro de la banda crtica para obtener el umbral de enmascaramiento [MPEG92]. Un aspecto clave an no resuelto completamente en psicoacstica es la aditividad del enmascaramiento. Si existen varios elementos enmascaradores y los efectos de enmascaramiento particulares de cada uno de ellos se solapan, el enmascaramiento combinado es normalmente mayor que el esperado a partir de los clculos realizados con las energas de las seales [Beer92]. En la mayora de los casos, los modelos psicoacsticos que utilizan los codicadores de audio se limitan a calcular, a partir de la seal de entrada, el umbral de enmascaramiento simultneo en frecuencia. Este umbral de enmascaramiento se reere, en los codicadores por transformada, al ruido de cuanticacin que se puede inyectar en una frecuencia dada. Sin embargo, para el caso de los codicadores paramtricos, es recomendable calcular el umbral de enmascaramiento tanto para tonos como para ruido. Enmascaramiento temporal El efecto de enmascaramiento de una seal se extiende en el tiempo tanto a instantes previos a la propia generacin del elemento enmascarador (pre-masking o enmascaramiento hacia atrs) como a instantes posteriores a su extincin (post-masking o enmascaramiento hacia delante) como se puede observar en la gura 2.6. Este efecto hace posible que se puedan usar sistemas de anlisis/sntesis con una resolucin temporal limitada (por ejemplo, bancos de ltros con gran resolucin en frecuencia) para codicar audio digital de alta calidad. Los datos experimentales sugieren que el enmascaramiento hacia atrs presenta una gran variacin entre sujetos, as como tambin entre diferentes seales usadas como elementos enmascaradores y enmascarados. Las seales indeseadas (artefactos) generadas por el codicador que se extienden en el tiempo de forma que preceden a una transicin de la seal en el dominio temporal (por ejemplo, un ataque brusco de percusin) pueden dar lugar a distorsiones audibles conocidas como pre-ecos. Dado que los codicadores basados en bancos de ltros siempre originan una dispersin temporal del error de cuanticacin (en la mayora de los casos superior a 4 ms), el pre-eco es un problema bastante comn en los sistemas de codicacin de audio. En la gura 2.7 podemos ver un claro ejemplo de distorsin de pre-eco. La forma tpica de minimizar el efecto de pre-eco es el uso de una segmentacin adaptativa del eje temporal cuando la seal cambia su contenido, es decir, que el tamao de trama de audio

20

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

70

60 Premasking Simultneo Postmasking

50

40

30

20

10 Seal enmascaradora 0 50 100 150 200 250 300 Tiempo (ms) 350 400 450 500

Figura 2.6: Ejemplo de pre-masking y post-masking

Figura 2.7: Ejemplo de pre-eco sea variable. Teniendo en cuenta los valores de enmascaramiento temporal se pueden establecer las fronteras entre tramas de forma que el efecto de pre-eco sea inaudible.

2.4.6.

Just Noticeable Dierence

Los codicadores paramtricos de audio deben de cuanticar, no las muestras de salida de un banco de ltros, sino todo un conjunto de parmetros dependientes de la seal. Como ejemplo, para el caso de la componente tonal de la seal de audio, los parmetros extrados son la amplitud, frecuencia y fase de cada tono y, en algunos casos, su duracin. Las componentes ruidosa y transitoria tienen sus propios parmetros. Un modelo de enmascaramiento clsico slo proporciona informacin de cmo cuanticar las amplitudes de tonos y ruido no teniendo una herramienta vlida para el resto de parmetros. Ante este problema se han realizado estudios de la capacidad de discriminacin o resolucin del odo ante una serie de parmetros tonales, ruidosos o transitorios. Esta resolucin se conoce por el nombre de Just Noticeable Dierence (JND) en la bibliografa.

2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO

21

Por ejemplo, para el caso de la frecuencia de un tono el valor de JND en frecuencia depende de la duracin del mismo: 0, 2 Bark para 10 ms y 0, 01 Bark para 500 ms [Zwicker90]. La resolucin del odo respecto a otros parmetros se puede encontrar en la bibliografa relacionada con psicoacstica [Zwicker90] [Moore97].

2.5.2.5.1.

Elementos bsicos de un codicador perceptual de audioIntroduccin

El objetivo bsico en codicacin perceptual de audio digital de alta calidad consiste en ocultar la distorsin producida por la codicacin por debajo de la capacidad de enmascaramiento y resolucin propias del odo humano. Como la seal de audio es una seal no estacionaria, la primera aproximacin consiste en analizar la seal en diferentes segmentos temporales donde las caractersticas de la seal sean casi estacionarias. Entonces se estima el umbral de enmascaramiento simultneo en el dominio de la frecuencia, ocultando el efecto de la cuanticacin bajo este umbral. Sin embargo, este enfoque es diferente en un codicador paramtrico que descompone la seal en tonos, transitorios y ruido. En general, la codicacin perceptual de audio se plantea como un anlisis tiempo/frecuencia, habiendo dos enfoques principales: 1) el uso de un banco de ltros o transformada en codicacin por de forma de onda, y 2) el empleo de un modelo de la seal extrayendo los parmetros de este modelo en codicacin paramtrica de audio. Esto conduce a una estructura bsica de los codicadores perceptuales que es comn a prcticamente todos los sistemas actuales. La gura 2.8 muestra el diagrama de bloques bsico de un sistema de codicacin perceptual de audio, cuyos elementos constitutivos son:Entrada de audio Anlisis tiempo/frecuencia Cuantificacin y codificacin Salida binaria Entramado

Modelo perceptual

Figura 2.8: Diagrama de bloques de un sistema de codicacin perceptual Anlisis tiempo/frecuencia. Modelo perceptual. Cuanticacin y codicacin. Entramado.

2.5.2.

Anlisis tiempo/frecuencia

Todos los codicadores de audio utilizan alguna tcnica de anlisis tiempo-frecuencia para extraer una serie de coecientes o parmetros a partir de la seal de audio que pueden ser cuanticados y codicados, atendiendo a alguna medida de distorsin perceptual. Como se ha visto

22

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

anteriormente, en funcin del tipo de anlisis tiempo/frecuencia, se clasican los codicadores de audio en dos categoras radicalmente diferentes. Codicadores por transformada La herramienta ms usada para realizar el anlisis tiempo/frecuencia hasta hace pocos aos era un banco de ltros, el cual descompone la seal en sub-bandas de frecuencia. Este banco de ltros juega un papel importante en la determinacin de irrelevancias cuando se usa conjuntamente con un modelo perceptual. La gura 2.9 muestra el diagrama de bloques bsico de un banco de ltros de anlisis/sntesis de n canales con un factor de diezmado de k.

Banco de filtros de anlisis H0(f) H1(f) H2(f) k k kProcesamiento

Banco de filtros de sntesis k k k G0(f) G1(f) G2(f)

Procesamiento

Procesamiento

...Hn-2(f) Hn-1(f) k kProcesamiento

...k Gn-2(f) Gn-1(f)

Procesamiento

k

Figura 2.9: Diagrama de bloques de un banco de ltros de anlisis/sntesis El diseo del banco de ltros debe perseguir el objetivo general de representar la seal de entrada con el menor nmero de bits posible. Deben tenerse en cuenta varios aspectos de diseo: 1. La descomposicin debe ser invertible, es decir, el banco de ltros debe ser de reconstruccin perfecta o casi perfecta. Esta propiedad es muy importante para asegurar que la distorsin en la seal reconstruida es debida al proceso de cuanticacin. 2. Tanto los ltros de anlisis como los de sntesis deben ser muy selectivos en frecuencia, con objeto de que la aplicacin de la informacin psico-acstica sea lo ms simple posible. 3. El nmero de componentes espectrales por unidad de tiempo debe ser lo ms bajo posible. Para ello se suelen usar sistemas con muestreo crtico, donde el nmero de componentes espectrales es igual al nmero de muestras de la seal en el dominio temporal. 4. Se suele decir que el ancho de banda de los ltros del banco debe ser menor o igual que el ancho de la banda crtica ms estrecha, porque as se facilita el control de la percepcin del ruido de cuanticacin. Esta aseveracin no es rigurosamente cierta, porque si la descomposicin subbandas se adapta a la descomposicin en bandas crticas, slo es preciso asegurar que el ancho de cada subbanda sea menor o igual que el ancho de la banda crtica ms prxima.

2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO

23

5. Adems, el banco de ltros no debe dispersar el ruido de cuanticacin ms all de una ventana temporal lo sucientemente amplia como para asegurar que el umbral de enmascaramiento permanece invariable y de esta forma evitar los problemas de pre-eco. 6. El coste computacional es otro factor importante. Los ltros IIR se implementan con un bajo coste computacional y, adems, proporcionan alta selectividad, pero desafortunadamente es difcil implementar bancos de ltros de reconstruccin perfecta usando ltros IIR. 7. Bancos de ltros estticos o dinmicos. Los errores de cuanticacin de las componentes espectrales pueden manifestarse en la seal de salida, extendindose en el tiempo sobre la longitud de la ventana de sntesis, dando lugar a distorsiones audibles (pre-ecos). Este efecto indeseable puede reducirse si el banco de ltros no es esttico, sino que conmuta entre distintas resoluciones tiempo/frecuencia para los diferentes segmentos de audio. Entre los tipos de bancos de ltros que se han venido utilizando en los sistemas de codicacin perceptual de audio, podemos citar los siguientes: 1. Bancos de ltros QMF. 2. Bancos de ltros que implementan descomposiciones wavelet. 3. Bancos de ltros polifsicos. Se trata de bancos de ltros con ancho de banda uniforme que combinan la exibilidad de diseo de los bancos QMF con una baja complejidad computacional. La mayora de los diseos actuales se basan en [Rothweiler83]. Su principal inconveniente es que no permiten obtener descomposiciones no uniformes en frecuencia (todas las subbandas tienen la misma anchura). 4. Bancos de ltros basados en cancelacin del solapamiento temporal (TDAC). Dentro de ellos, destaca la Transformada Discreta del Coseno Modicada (MDCT) [Princen87], que se puede interpretar como el enfoque dual de los bancos QMF con cancelacin del solapamiento frecuencial. Combina muestreo crtico, buena resolucin en frecuencia y alta eciencia computacional. Normalmente, se emplean realizaciones que van desde 128 a 2.048 bandas igualmente espaciadas. La transformada MDCT tambin es conocida como transformada solapada modulada (MLT) [Malvar90]. 5. Bancos de ltros hbridos. Son aquellos que constan de una sucesin de diferentes tipos de bancos. Se propusieron inicialmente [Brandenburg90] para conseguir un sistema de anlisis/sntesis que combinara la posibilidad de obtener diferentes resoluciones en frecuencia a distintas frecuencias con estructuras QMF en rbol y la eciencia computacional de los algoritmos del tipo FFT. Sin embargo, en paralelo con el perfeccionamiento y estandarizacin de la codicacin que emplea bancos de ltros para analizar la seal, han surgido otros codicadores optimizados para trabajar a bajo rgimen binario y que utilizan otras herramientas para el anlisis tiempo/frecuencia.

24

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Codicadores paramtricos En la compresin de diferentes fuentes de informacin se buscan sistemas que incluyan un modelo de generacin de la fuente, con objeto de reducir la cantidad de datos necesaria para enviar la seal de forma dedigna. Siguiendo este principio, en el caso de la seal de voz, existen codicadores que alcanzan una extraordinaria tasa de compresin. Es importante resear que en este tipo de codicadores de voz no se representa la forma de onda, sino la forma de produccin de la seal. Estos valores de tasa de compresin no son alcanzables cuando se trabaja con codicadores por transformada para seales de audio. La existencia de este modelo de produccin de la seal de voz ha permitido el desarrollo de numerosas aplicaciones, no slo de codicacin, sino de reconocimiento de voz y de locutores, basndose casi siempre en la medida de las diferencias entre los parmetros del modelo de produccin o en parmetros alternativos obtenidos a partir de ellos. Desgraciadamente, en el caso de la seal de audio, este modelo de produccin no es adecuado, muy al contrario, no es posible establecer un modelo de generacin basado en principios fsicos, como en el caso de la seal de voz, debido a la diferente naturaleza de las seales que forman el audio en general. Como consecuencia, las tcnicas de codicacin estandarizadas, por muy sosticadas que sean, se engloban dentro de los codicadores por de forma de onda. Sin embargo, es posible extraer parmetros de la seal de audio dividiendo la seal en sus componentes: tonos, transitorios y ruido. Utilizando herramientas que obtengan parmetros de estas componentes es posible la obtencin de un modelo de seal adaptativo para el audio. El desarrollo de este modelo para las seales de audio musicales permite no slo conseguir altas tasas de compresin en aplicaciones de codicacin, sino que es el punto de partida en aplicaciones de clasicacin de seales, descripcin de la informacin multimedia, e indexado, que sern ampliamente demandadas en u