03 MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発 杉本岳大 中山靖茂 小森智康 22.2ch Audio Encoder/Decoder Using MPEG-4 AAC Takehiro SUGIMOTO, Yasushige NAKAYAMA and Tomoyasu KOMORI 要 約 8Kスーパーハイビジョン放送の実現に向け,22.2マルチ チャンネル音響の音声信号を伝送する目的で,MPEG- 4 AAC(Advanced Audio Coding)を用いた22.2ch 音声符号化・復号装置を開発した。 本稿では,ARIB (Association of Radio Industries and Businesses: 電波産業会)規格に準拠した符号化・復号装置の仕様 と音声品質について説明するとともに,放送音声の多機 能化を目的に実装したダウンミックス機能とダイアログ制 御機能についても紹介する。 ABSTRACT For 8K Super Hi-Vision broadcasting, a 22.2ch audio encoder/decoder using MPEG-4 AAC was developed for the purpose of transmitting 22.2 multichannel sound signals. In this report, the specifications and audio quality of a 22.2ch audio encoder/decoder conforming to the ARIB standard are described. Moreover, downmixing and dialogue control functions were implemented to provide multifunctionality to 22.2ch sound. 40 NHK技研 R&D/No.155/2016.1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
03
MPEG-4 AACを用いた22.2ch音声符号化・復号装置の開発杉本岳大 中山靖茂 小森智康
22.2ch Audio Encoder/Decoder Using MPEG-4 AAC
Takehiro SUGIMOTO, Yasushige NAKAYAMA and Tomoyasu KOMORI
要 約
8Kスーパーハイビジョン放送の実現に向け,22.2マルチ
チャンネル音響の音声信号を伝送する目的で,MPEG-
4 AAC(Advanced Audio Coding)を用いた22.2ch
音声符号化・復号装置を開発した。本稿では,ARIB
(Association of Radio Industries and Businesses:
電波産業会)規格に準拠した符号化・復号装置の仕様
と音声品質について説明するとともに,放送音声の多機
能化を目的に実装したダウンミックス機能とダイアログ制
御機能についても紹介する。
ABSTRACT
For 8K Super Hi-Vision broadcasting, a 22.2ch audio
encoder/decoder using MPEG-4 AAC was developed
for the purpose of transmitting 22.2 multichannel
sound signals. In this report, the specifications and
audio quality of a 22.2ch audio encoder/decoder
conforming to the ARIB standard are described.
Moreover, downmixing and dialogue control functions
1図に,22.2ch音響のチャンネル配置とチャンネルラベルを示す3)。22.2ch音響は3次元的に配置した24個のチャンネルから構成される。聴取位置の上方に上層9チャンネル, 聴取者の耳の高さに中層10チャンネル,聴取位置の下方に下層3チャンネルを配置し,さらに2個の低域効果チャンネル(Low Frequency Effects:LFE)を加えている。
2図に,8K映像/ 22.2ch音声符号化装置の外観を示す。装置全体は,映像符号化・音声符号化・多重化の合わせて19枚の基板から構成されており,そのうちの1枚が音声基板である。映像の符号化方式にはMPEG-H HEVC(High Efficiency Video Coding)/ H.265を,映像・音声の多重化方式にはMPEG-H MMT(MPEG Media Transport)を採用した。復号装置は,符号化装置と同様の19枚の基板から成る対向の構成とした。
22.2ch音声符号化・復号装置の仕様を2表に示す。22.2ch音声符号化・復号装置は,ベースバンド音声信号の入出力部(AES10 / MADI(Multichannel Audio Digital Interface)),MPEG-4 AACで圧縮符号化・復号する信号処理部,MPEG-4 AACストリームの入出力部の3つのセクションから成る。
開発した22.2ch音声符号化・復号装置の性能を調べるために,音声信号の客観評価法に関するITU-R勧告14)に準 拠 し てCRC(Communications Research Centre)* 3
が開発したCRC-SEAQ(System for the Evaluation of Audio Quality)*4を用いて,客観評価試験を行った。22.2ch音響のサンプル音源の中から8Kのロゴ効果音,オーケストラ,スポーツ,ドラマを選び,非圧縮音と圧縮音を比較した。評価するビットレートは,22.2chの合計で1.4Mbpsとした。客観評価法はマルチチャンネル音響には未対応であるため,ドラマについてはダイアログが割り当てられたFCの信号に,それ以外の音源についてはFLの信号に着目して評価した。なお,マルチチャンネル音響のうちの1チャンネルのみで圧縮符号化の劣化を評価することは,マルチチャンネル音響の特徴である3次元音場の再現性や定位の精度などを評価対象から除外してしまうため,本実験は,主観評価実験の予備実験(結果を予測するための実験)として実施した。
1) T. Yamashita, K. Masaoka, K. Ohmura, M. Emoto, Y. Nishida and M. Sugawara:“Super Hi-Vision Video Parameters for Next-Generation Television,”SMPTE J.,Vol.121,pp.63-68(2012)
2) Rec. ITU-R BS.2051,“Advanced Sound System for Programme Production”(2014)
3) SMPTE ST 2036-2-2008,“Ultra High Definition Television – Audio Characteristics and Audio Channel Mapping for Program Production”(2008)
5) Rec. ITU-R BS.1909,“Performance Requirements for an Advanced Multichannel Stereophonic Sound System for Use with or without Accompanying Picture”(2012)
7) ISO/IEC 14496-3:2009,“Information Technology – Coding of Audio-Visual Objects – Part 3: Audio”(2009)
8) ISO/IEC 14496-3:2009/AMD 4:2013,“New Levels for AAC Profiles”(2013)
9) F. Rumsey:Spatial Audio,Focal Press(2001)
10) Rec. ITU-R BS.775-3,“Multichannel Stereophonic Sound System with and without Accompanying Picture”(2012)
11) T. Sugimoto, S. Oode and Y. Nakayama:“Downmixing Method for 22.2 Multichannel Sound Signal in 8K Super Hi-Vision Broadcasting,”J. Audio Eng. Soc.,Vol.63,No.7/8,pp.590-599(2015)