Top Banner
A Study on PNS and Block Length Switching in MPEG-4 Audio Coding 電電電 電電 電電電 : 電電電 電電電電 : 電電電 電電
46

A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Feb 13, 2016

Download

Documents

LIS

A Study on PNS and Block Length Switching in MPEG-4 Audio Coding. 電通所 碩二 研究生: 游政勳 指導教授: 尤信程 老師. Outline. 1. MPEG-4 Audio Coding 2. Psychoacoustics ( 聽覺心理學) 3.The structure of MPEG-4 General Audio Coding 4. Perceptual Noise Substitution (PNS, 類雜訊取代) - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

電通所 碩二研究生 : 游政勳

指導教授 : 尤信程 老師

Page 2: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Outline

1. MPEG-4 Audio Coding2. Psychoacoustics ( 聽覺心理學 ) 3.The structure of MPEG-4 General Audio Coding4. Perceptual Noise Substitution (PNS, 類雜訊取代 )5. The reserch of Block Length Switching6. Conclusion

Page 3: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 Audio Coding (1)

MPEG-4 Audio Coding 概分為三大類 : 1. General audio coding 2. Speech coding 3. Structured Audio

Page 4: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 Audio Coding (2)

MPEG-4 Audio Coding 之特性 :

1. Low bit-rate 之壓縮技巧 2. 音訊物件之分類 3. Scalability 之應用

Page 5: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (1)

1. 聽覺心理學 (Psychoacoustics) 描述人耳對聲音訊號 的知覺特性 2. 聽覺心理學由聽覺實驗之結果得知 3. 音訊編碼主要利用聽覺心理學來達到壓縮的目的

Page 6: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (2) 人耳在靜音環境下的絕對聽覺門檻 :

Page 7: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (3)臨界頻帶 (Critical band):

Page 8: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (4)臨界頻帶之意義 : 1. 人耳之聽覺神經可由多個帶通濾波器 (band pass filter) 所組成之 模型來近似 2. 各頻帶之頻寬 , 即為該頻帶中心頻率單頻音所能遮蔽之範圍 ( 頻域之遮蔽 )

3. 愈高頻帶頻寬愈寬 , 訊號愈容易互相遮蔽 , 使得人耳對高頻訊號 較不敏感

Page 9: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (5)聲音在頻域上之遮蔽效應 :

Page 10: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (6) 能量不同之頻域遮蔽 :

Page 11: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (7)頻域遮蔽效應之分類 : (a) Noise Masking Tone (NMT), (b) Tone Masking Noise (TMN)

Page 12: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Psychoacoustic (8)頻域遮蔽效應在音訊編碼上應用 :1. 頻域遮蔽效應可分為 intra-band 與 inter-band 來討論2. Intra-band: 用 NMT 與 TMN 之區分方式 , 來近似頻帶內之遮蔽效應3. Inter-band: 用 Spreading Function 來概略計算鄰近頻帶間之遮蔽效 應4. 依上述步驟算出各頻帶訊號之遮蔽門檻 , 量化雜訊 (Quantization Noise) 需小於遮蔽門檻

Page 13: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(1)1. MPEG-4 GA 除了沿襲自 MPEG-2 AAC, 並多了 LTP 與 PNS 兩模 組 , 以及 BSAC 與 Twin-VQ 兩編碼方式2. 將訊號在時間上作區塊 (Block) 切分 , 並以區塊為單位作時頻轉換 (MDCT) 與量化編碼 3. 有長區塊 (Long block) 與短區塊 (Short block) 兩種區塊長度可供 切換4. 將頻譜劃分成 49 個 scale factor band, 各頻帶有不同的量化單位 , 以 符合聽覺特性 Scalefactor: 各頻帶量化時之控制係數

Page 14: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(2)

Page 15: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(3)Psychoacoustic Model ( 聽覺心理模型 ):

The input of psychoacoustic model: 2048 點 (long block) 或 256 點 (short block) 之時軸訊號與取樣頻率 The output of psychoacoustic model: Signal to mask ratio(SMR) 與決定長短區塊切換之 時機

Page 16: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(4)聽覺心理模型之計算步驟 :

Step1. 將該區塊訊號以 FFT 作時頻轉換 Step2. 以前兩個區塊之頻譜來預測現在區塊之頻譜

Page 17: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(5)Step3. 求各頻帶之預測誤差總和 c(b), b: band index

Step4. 用預測誤差來算各頻帶之 tonality index , 其值介於 0 到 1 之 間 , 1 代表 tone, 0 代表 noise Step5. 由 tonality index 求各頻帶之 SMR ( 由 tonality index 可知 訊號中 tone 與 noise 所佔之比例 , 即可 利用 NMT 與 TMN 之分類 , 來計算 SMR)

Page 18: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(6)Step6. 用 Spreading function 來修正各頻帶之 SMR 值 ( 考慮 inter-band)

Step7. 將各頻帶之遮蔽門檻 , 與靜音時絕對聽覺門檻取較大值Step8. 由各頻帶之 SMR, 算出各頻帶之 Perceptual Entropy(PE), 並求 所有頻帶 PE 之總和 , 以決定長短區塊之切換 由各頻帶之 SMR 值 , 可決定各頻帶係數該用多少位元數作量化 ( 量化雜訊需小於遮蔽門檻 )

Page 19: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

MPEG-4 General Audio Coding(7)AAC Quantization and Coding:

1. 利用雙巢狀式迴圈 , 來達到量化編碼之最佳化 內迴圈 : 控制編碼所使用之位元總數 外迴圈 : 使各頻帶之量化雜訊低於遮蔽門檻 2. 使用 Huffman coding 作編碼 , 有 12 種碼簿 (code-book) 可供選擇

Page 20: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (1)PNS 之原理 : 人耳對不同雜訊之判別性低 PNS 之運作 : 1. 對 5 KHz (band 25) 以上之訊號 , 判別出類似雜訊的頻 帶 (Noise detection) 2. 類似雜訊之頻帶係數 , 不編碼不傳送 3. 解碼端以隨機產生同能量之雜訊 , 貼補於該頻帶

Page 21: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (2)PNS 之效果 :

1. 原訊號頻譜 :

2. 不啟動 PNS 解碼 後頻譜 :

3. 啟動 PNS 解碼 後頻譜 :

Page 22: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (3)

ISO 標準中之雜訊偵測方法 :

(1) 若聽覺心理模型中之 tonality index 小於某門檻值 (2) 前後區塊該頻帶能量之變化不能過大(1) 與 (2) 同時成立時 , 將該頻帶訊號判段成雜訊

Page 23: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (4)ISO 雜訊偵測方法之缺點 :1. Tonality index 對些微之頻率變化太過敏感

(1)6 KHz 弦波訊號 (2)6 ~6.1KHz 弦波訊號

Page 24: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (5)ISO 雜訊偵測方法之缺點 :1. Tonality index 對些微之頻率變化太過敏感

(1) 針對 6 KHz 弦波訊號 之統計圖

(2) 針對 6 ~6.1 KHz 弦波訊號 之統計圖

Page 25: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (6)ISO 雜訊偵測方法之缺點 :2. 用 tonality index 判別不太準確 , 且對不同類型音樂之判別性不好

Band: 1~24 Band: 25~49 ( 有作 PNS考慮之頻帶 )

Page 26: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (7)新雜訊偵測方法 (Donald Schulz 所提出之概念 )

PQF: Poly-phase Quadrature

Filter

P: 30 order linear

predictor

Page 27: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (8)Noise detection 新方法與 ISO 方法之比較 1:

(1) 針對 6 KHz 弦波訊號 (2) 針對 6 ~6.1KHz 弦波訊號

Page 28: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (9)Noise detection 新方法與 ISO 方法之比較 2: ( 針對兩首不同類型之音樂 )

新方法 :

ISO 之方法 :

Page 29: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (10)

相似性貼補之概念與作法 :

1. 除了以雜訊貼補外之另一貼補方式 2. 用相似度夠高之低頻頻帶係數 , 貼補於有啟動 PNS 之高頻頻 帶 3. 若相似度不夠高 , 仍以雜訊貼補

Page 30: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (11)相似性之計算 : 1.六個低頻頻帶為一組 , 與高頻頻帶作比較求相似性

……

……

Page 31: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (11)

相似性之計算 :

2. 將低頻與高頻頻帶 , 兩者之頻寬與總能量調整到一致 , 使兩者有相同之比較基準 3. 將兩組訊號相減求誤差 , 再將誤差作正規化 (Normalize), 以此 誤差來判斷相似性

Page 32: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (12)相似性與雜訊貼補效果之比較 :

1. 原訊號頻譜 :

2. 相似性貼補 解碼後頻譜 :

3. 雜訊貼補 解碼後頻譜 :

Page 33: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Perceptual Noise Substitution (13)聆聽實驗一 : 新雜訊偵測方法 ,

並僅以雜訊貼補聆聽實驗二 : 新雜訊偵測方法 , 並 動態切換貼補方式

比較對象 : ISO 標準之方法

Page 34: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(1)為何使用 block length switching ? (Time resolution vs. Freq resolution)

1. 短區塊 (512 點 ) 有較好之時間解析度 ( 針對 Transient signal )

2. 長區塊 (2048 點 ) 有較好之頻率解析度 , 且編碼效益較好 ( 針對 Stationary signal)

3. 對 Transient signal, 使用長區塊所算出之 SMR 值並不正確 , 僅得平 均之結果 , 無法反映出訊號頻譜分布在短時間內之變化

Page 35: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(2)區塊切換示意圖 :

Page 36: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(2)對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps)

(Short) (long)

(original)

Page 37: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(3)對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps) (橫軸 : 時間 , 縱軸 : 頻率 ) (original)

(Short) (long)

Page 38: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(4)區塊切換之缺點 :

1. 短區塊之編碼效益較差 2. Bit-rate 64 kbps 以上時 , 區塊切塊效果以不明顯 ( 位元數已 足夠 )

3. 區塊切換機制會增加編解碼器與音訊串流之複雜度

Page 39: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(5)取代區塊切換之方法 : 僅用長區塊編碼配合 Pre-processing

and Post-processing)

Page 40: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(6)取代區塊切換之方法 : (a) Pre-processing: 將該區塊訊號作倍率之調整 , 使訊號變小 (倍率約 1/6 ~ 1/10) (b) Post-processing: 將訊號以此倍率之倒數 , 還原成原大小

Page 41: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(7) 新方法之效能 :

(新方法 ) (long)

(original)

Page 42: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(8)

新方法與 ISO 區塊切換之聆聽實驗結果之比較 : ( 區塊切換門檻值 : 350)

Page 43: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(9)

新方法與 ISO 區塊切換之聆聽實驗結果之比較 : ( 區塊切換門檻值 : -1000, 此值之設定不佳 )

Page 44: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(10)

為何長區塊編碼配合此新方法 , 可取代短區塊編碼 ?

對於暫態訊號 , 人耳在短瞬間的知覺並不靈敏 , 聽覺心理模型並 不適用 , 因此僅用量化單位固定之波形編碼 (waveform coding)即 可有相當之效果

Page 45: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Reserch of Block Length Switching(11)驗證新方法類似 waveform coding: 比較原訊號與倍率調整後之訊號之量化情形 1. 原訊號量化情形 2. 倍率調整後訊號量化情形

Page 46: A Study on PNS and Block Length Switching in MPEG-4 Audio Coding

Conclusion and Future Work

1. 新雜訊偵測方法可改進 ISO 方法之缺點 , 且相似性貼補對某些類 音樂 , 可進一步提升聲音品質2. 實驗證明 , 區塊切換機制可用較簡便之方式來取代3. 未來在 PNS 的研究上 , 可考慮用不同類型或不同機率分布之雜訊 , 來動態切換貼補4. 取代區塊切換之新方法 , 是否可以建構在 MPEG-4 標準中原有 之 gain control module