Tecniche di compressione segnali audio: modello psicoacustico per Mpeg 1 Layer III

Università degli studi di Università degli studi di MessinaMessina

Facoltà di Scienze MM.FF.NN.Facoltà di Scienze MM.FF.NN.Corso di laurea in Informatica Corso di laurea in Informatica

“U.Bonino”“U.Bonino”

Tecniche di compressione segnali Tecniche di compressione segnali audio: audio:

modello psicoacustico per Mpeg 1 modello psicoacustico per Mpeg 1 Layer IIILayer III

mediante MatLabmediante MatLabTesi di laurea di:Tesi di laurea di:Alberto PaganoAlberto Pagano

Relatrice:Relatrice:Prof.ssa Luigia PUCCIOProf.ssa Luigia PUCCIO

Anno Accademico 1999/2000Anno Accademico 1999/2000

Tecnologia digitaleTecnologia digitale

Il recente sviluppo delle tecnologie Il recente sviluppo delle tecnologie digitali ha reso fondamentale l’utilizzo digitali ha reso fondamentale l’utilizzo di compressione audio/video nel di compressione audio/video nel campo delle telecomunicazionicampo delle telecomunicazioni– Es. teleconferenze, videotelefonia, ecc.Es. teleconferenze, videotelefonia, ecc.

ISO ISO (International Standards Organization)(International Standards Organization)

MPEG MPEG (Moving Pictures Expert (Moving Pictures Expert Group)Group)

Sviluppare codifiche standard internazionali Sviluppare codifiche standard internazionali per la digitalizzazione, la compressione e la per la digitalizzazione, la compressione e la

decompressione audio/video decompressione audio/video

MPEGMPEG Il primo lavoro è conosciuto come Il primo lavoro è conosciuto come

MPEG 1MPEG 1 ““codifica di fotogrammi in movimento con codifica di fotogrammi in movimento con

audio associato per l’archiviazione su audio associato per l’archiviazione su memorie di massa digitali con una memorie di massa digitali con una occupazione di 1.5 Mbits al secondo”occupazione di 1.5 Mbits al secondo”

il progetto è suddiviso in 5 parti:il progetto è suddiviso in 5 parti: system;system; video;video; audio;audio; conformance testing;conformance testing; software simulation.software simulation.

MPEG 1MPEG 1

In MPEG 1 sono In MPEG 1 sono presenti 3 layer di presenti 3 layer di compressionecompressione

Dal primo al terzo troviamo Dal primo al terzo troviamo un incremento nella un incremento nella complessità dell’algoritmo e complessità dell’algoritmo e nelle performance, con un nelle performance, con un miglioramento della qualità miglioramento della qualità audio.audio.

Layer I

Layer I I

LayerI I I

Rapporti di compressioneRapporti di compressione

4:14:1

8:18:1

12:112:1

Conversione Conversione analogico/digitaleanalogico/digitale

FrequenzaFrequenzadi di

campionamentocampionamentoRisoluzioneRisoluzione

dei campionidei campioni

Musica digitaleMusica digitale Un normale CD audio viene Un normale CD audio viene

campionato ad una frequenza di campionato ad una frequenza di 44100 Hz, quantizzazione di 16 bit44100 Hz, quantizzazione di 16 bit

Campioni per secondo 44100 xCanali (stereo) 2 xByte 2 xsecondi 60 =

______________ 10.584.000 byte 10

Mbyte

Spazio occupato su disco da Spazio occupato su disco da un un minutominuto di musica stereo: di musica stereo:

Algoritmo di compressione Algoritmo di compressione MP3MP3

È l’abbreviazione di MPEG 1 layer IIIÈ l’abbreviazione di MPEG 1 layer III– formato di audio compresso nato con formato di audio compresso nato con

l’intento di consentirne la trasmissione l’intento di consentirne la trasmissione ad alta qualità attraverso le linee di ad alta qualità attraverso le linee di telecomunicazione, limitando il più telecomunicazione, limitando il più possibile l’occupazione di spazio e possibile l’occupazione di spazio e quindi di banda passantequindi di banda passante

Come funziona la Come funziona la compressionecompressione

Lossy:Lossy:– algoritmi di compressione che si basano su delle algoritmi di compressione che si basano su delle

osservazioni inerenti la percezione umana.osservazioni inerenti la percezione umana.

Audio percettivi:Audio percettivi:– non hanno lo scopo di restituire il segnale non hanno lo scopo di restituire il segnale

d’ingresso intatto dopo la decodifica, ma d’ingresso intatto dopo la decodifica, ma quello di assicurare che il segnale di uscita quello di assicurare che il segnale di uscita sia il più possibile uguale all’originalesia il più possibile uguale all’originale

Ci si è basati sulle ricerche nel campo della Ci si è basati sulle ricerche nel campo della PsicoacusticaPsicoacustica

PsicoacusticaPsicoacustica

Scienza che studia il comportamento del cervello Scienza che studia il comportamento del cervello di fronte a stimoli sonori contemporaneidi fronte a stimoli sonori contemporanei

Soglia di udibilitàSoglia di udibilità MascheramentoMascheramento

In frequenzaIn frequenza

TemporaleTemporale

Soglia di udibilitàSoglia di udibilità L’orecchio umano è in grado di percepire L’orecchio umano è in grado di percepire

suoni contenuti in uno spettro di suoni contenuti in uno spettro di frequenza che va dai 20 hz ai 20 khz frequenza che va dai 20 hz ai 20 khz (spettro dell’udibile)(spettro dell’udibile)

Mascheramento in Mascheramento in frequenzafrequenza

Emettendo un suono ad una determinata Emettendo un suono ad una determinata frequenza, l’udito non sarà capace di percepire frequenza, l’udito non sarà capace di percepire le frequenze immediatamente prossime anche le frequenze immediatamente prossime anche se hanno volume (energia) appena inferiorise hanno volume (energia) appena inferiori

Mascheramento temporaleMascheramento temporale

Suoni normalmente percepibili possono Suoni normalmente percepibili possono non esserlo più se immediatamente non esserlo più se immediatamente preceduti da suoni più intensi.preceduti da suoni più intensi.

Implementazione del modello Implementazione del modello psicoacusticopsicoacustico

Banco di filtriBanco di filtri(32 bande)(32 bande)

Quantizzazione eQuantizzazione ecodificacodifica

ModelloModellopsicoacusticopsicoacustico

Packing dei datiPacking dei datiInput audioInput audio

SMRSMR

SMR = Signal to Mask Ratio

Schema di principio di un Encoder Mpeg Layer IIISchema di principio di un Encoder Mpeg Layer III

OutputOutputaudioaudio

Prova sperimentaleProva sperimentale

Applicazione del modello psicoacustico 1 Applicazione del modello psicoacustico 1 descritto nello standard ISO/IEC 111172-3:descritto nello standard ISO/IEC 111172-3:

– ““Information technology - Coding of moving pictures Information technology - Coding of moving pictures

and associated audio for digital storage media at up to and associated audio for digital storage media at up to

1.5 Mbits/s - part 3: Audio”1.5 Mbits/s - part 3: Audio”

L’algoritmo è stato implementato tramite linguaggio MatLab™ ver. 5.2 su L’algoritmo è stato implementato tramite linguaggio MatLab™ ver. 5.2 su sistema Win 98™sistema Win 98™

Modello psicoacustiscoModello psicoacustisco

Determinazione dei massimi locali;Determinazione dei massimi locali;

1/61/6

Modello psicoacustico Modello psicoacustico Divisione in componenti tonali e non-Divisione in componenti tonali e non-

tonalitonali– tonalitonali: sinusoidale, cioè generato da una sola frequenza (suono puro): sinusoidale, cioè generato da una sola frequenza (suono puro)– non-tonalinon-tonali : suono complesso, generato da più frequenze : suono complesso, generato da più frequenze

** tonalitonali

** non-tonalinon-tonali

2/62/6

Modello psicoacustico Modello psicoacustico

Decimazione delle maschereDecimazione delle maschere

Soglia sonora in condizioni di quiete

3/63/6


Calcolo delle soglie di mascheramento per ogni Calcolo delle soglie di mascheramento per ogni componente tonale e non-tonale rimasto dopo componente tonale e non-tonale rimasto dopo la decimazionela decimazione

4/64/6


Le soglie di percettibilità delle maschere tonali Le soglie di percettibilità delle maschere tonali e non-tonali vengono combinate insieme per e non-tonali vengono combinate insieme per generare una soglia di mascheramento globale.generare una soglia di mascheramento globale.

frequenza

dB

5/65/6

Modello psicoacustico Modello psicoacustico La soglia di mascheramento globale viene La soglia di mascheramento globale viene

rapportata al livello del massimo segnale rilevato rapportata al livello del massimo segnale rilevato nelle sottobande, ottenendo così il rapporto nelle sottobande, ottenendo così il rapporto segnale/mascheramento tra l’energia del segnale segnale/mascheramento tra l’energia del segnale e la soglia di mascheramento per ogni sottobandae la soglia di mascheramento per ogni sottobanda

6/66/6

Mpeg/Audio - prestazioniMpeg/Audio - prestazioni

La compressione Mpeg/Audio dà La compressione Mpeg/Audio dà compressione “trasparente”compressione “trasparente”

Test effettuati dal comitato MPEG Test effettuati dal comitato MPEG dimostrano che esperti ascoltatori dimostrano che esperti ascoltatori statisticamente non riuscivano a distinguere statisticamente non riuscivano a distinguere il brano originale da quello codificatoil brano originale da quello codificato

3,71 3,71 MbyteMbyte

Confronto wav - mp3Confronto wav - mp3 File originaleFile originale

– 22 sec, formato 22 sec, formato WAVWAV, 16 bit 44100 , 16 bit 44100 Hz, stereo, 21 sec.Hz, stereo, 21 sec.

File compressoFile compresso– 22 sec, formato 22 sec, formato MP3MP3, 16 bit, 44100 , 16 bit, 44100 Hz, stereo, 21 sec.Hz, stereo, 21 sec.

Spazio occupato su disco:Spazio occupato su disco:

346 Kbyte346 Kbyte

Rapporto di compressione:Rapporto di compressione:

11:111:1

C:\Programmi\Winamp\Winamp.exe

Confronto tra spettri Confronto tra spettri sonorisonori

Spettro della Spettro della trasformata di Fourier trasformata di Fourier del segnale originale del segnale originale (formato WAV)(formato WAV)

Spettro della Spettro della trasformata di Fourier trasformata di Fourier del segnale compresso del segnale compresso (formato MP3)(formato MP3)

14000 Hz

Occupazione su supporto digitale Occupazione su supporto digitale per i file ai diversi campionamentiper i file ai diversi campionamenti

0

0,5

1

1,5

2

2,5

3

3,5

4

file WAV file MP3

16 bit, 44 kHz16 bit, 32 kz8 bit, 32 kHz16 bit, 22 kHz8 bit, 22 kHz8 bit, 11 kz

Mb

yte

10:110:13:13:1

ConclusioniConclusioni

Il compressore Mpeg/Audio Il compressore Mpeg/Audio è un ottimo compressore è un ottimo compressore audio per segnali digitali ad audio per segnali digitali ad alta risoluzione.alta risoluzione.

(Come i normalissimi CD Audio)(Come i normalissimi CD Audio)

Tecniche di compressione segnali audio: modello psicoacustico per Mpeg 1 Layer III

Documents