MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発 - …03 MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発杉本岳大中山靖茂小森智康

03

MPEG-4 AACを用いた22.2ch音声符号化・復号装置の開発杉本岳大　　中山靖茂　　小森智康

22.2ch Audio Encoder/Decoder Using MPEG-4 AAC

Takehiro SUGIMOTO, Yasushige NAKAYAMA and Tomoyasu KOMORI

要　約

8Kスーパーハイビジョン放送の実現に向け，22.2マルチ

チャンネル音響の音声信号を伝送する目的で，MPEG-

4 AAC（Advanced Audio Coding）を用いた22.2ch

音声符号化・復号装置を開発した。本稿では，ARIB

（Association of Radio Industries and Businesses：

電波産業会）規格に準拠した符号化・復号装置の仕様

と音声品質について説明するとともに，放送音声の多機

能化を目的に実装したダウンミックス機能とダイアログ制

御機能についても紹介する。

ABSTRACT

For 8K Super Hi-Vision broadcasting, a 22.2ch audio

encoder/decoder using MPEG-4 AAC was developed

for the purpose of transmitting 22.2 multichannel

sound signals. In this report, the specifications and

audio quality of a 22.2ch audio encoder/decoder

conforming to the ARIB standard are described.

Moreover, downmixing and dialogue control functions

were implemented to provide multifunctionality to

22.2ch sound.

40 NHK技研 R&D/No.155/2016.1

上層

中層

下層

TpFC

TpBC

TpSiL TpSiR

TpFRTpFL

TpBRTpBL

TpC

FC

BC

SiL SiR

FRFLFRcFLc

BRBL

BtFC

BtFRBtFLLFE2LFE1

＊１複数の音声信号から成るマルチチャンネル音声方式を，より少ないチャンネル数の音声方式に変換すること。

１．まえがき

8Kスーパーハイビジョン（以下，8K）は，既存の映像音響システムをはるかに上回る臨場感を視聴者に提供できる次世代のテレビジョンである１）。8Kは7,680×4,320個の画素を有し，現行のデジタル放送（2Kハイビジョン）の16倍の解像度を実現している。NHKは8Kの映像と組み合わせる音響システムとして，24個のチャンネルを上下方向に３層配置した22.2マルチチャンネル音響（以下，22.2ch音響）の研究開発を進めている２）３）。

わが国では，超高精細度テレビジョン放送の早期実現を目指して，2013年に4K・8K放送のロードマップが総務省から示されるとともに，次世代放送推進フォーラム

（NexTV-F）が設立された４）。このロードマップによると8K放送に関しては，2016年に試験放送，2018年に実用放送を開始し，さらに東京オリンピック・パラリンピックが開催される2020年における本格普及を目指すことが目標として定められている。22.2ch音響による放送についても，8K放送の魅力を映像・音響の両面から高めるために，ロードマップに沿った開発を進めており，その一環として，今回22.2ch音声符号化・復号装置を開発した。さらに，放送サービスとしての22.2ch音響の機能性を高めてユーザビリティー（利便性）を向上させることを目的に，ダウンミックス＊１機能とダイアログ（ナレーション，せりふ）制御機能を22.2ch音声符号化・復号装

置に実装した。本稿では，開発した22.2ch音声符号化・復号装置の仕様と性能について紹介する。

２．22.2ch音響システム

１図に，22.2ch音響のチャンネル配置とチャンネルラベルを示す３）。22.2ch音響は３次元的に配置した24個のチャンネルから構成される。聴取位置の上方に上層９チャンネル，聴取者の耳の高さに中層10チャンネル，聴取位置の下方に下層３チャンネルを配置し，さらに２個の低域効果チャンネル（Low Frequency Effects：LFE）を加えている。

8K用の音響システムとしての観点（画面とチャンネル配置との関係）からは，11個の前方チャンネルを画面の周囲と画面上に配置し（FL, FR, FC, FLc, FRc, TpFL, TpFR, TpFC, BtFC, BtFL, BtFR），５個のチャンネルを聴取者の横断面（両耳と頭頂部を含む平面）に配置し（SiL, SiR, TpC, TpSiL, TpSiR），さらに６個のチャンネルを後方に配置する（BL, BR, BC, TpBL, TpBR, TpBC）音響システムと見なせる。また，Rec. ITU-R（International Telecommunication Union - Radiocommunication Sector）BS.1909が規定する先進的なマルチチャンネル音響システムの要求条件５）（下記の

１図　22.2ch音響のチャンネル配置とチャンネルラベル

41NHK技研 R&D/No.155/2016.1

①～⑥）を満たすことも，22.2ch音響の重要な特徴である。

① 画面上の任意の位置に音像が定位可能であること② 聴取位置を取り囲む全方向から到来する音が再生

可能であること③ 自然で高品質な３次元音場が再生可能であること④ 最適な聴取範囲を拡大できること⑤ 既存のマルチチャンネル音響方式との互換性があ

ること⑥ ライブ収録および生放送に対応できること①～④は３次元音響の品質に関わる特徴であり，⑤は

実用的な音響制作システムに，また⑥は放送システムに必須の要件である。

３．22.2ch音声信号の圧縮符号化方式

日本国内の放送における22.2ch音声信号の圧縮符号化方式は，ARIB標準規格STD-B32の第２部として規格化されている６）。8K放送では，このARIB STD-B32で規定された音声符号化方式のうち，MPEG-4 AAC ７）に基づいた圧縮符号化法を用いる。また，22.2ch音声信号の各チャンネルの圧縮符号化法はMPEG（Moving Picture Experts Group）で国際標準化されており８），SCE（Single Channel Element：単一チャンネル用の圧縮符号化），CPE（Channel Pair Element：２チャンネルをペアとして扱う圧縮符号化）およびLFE（LFE Element：LFEチャンネル用の圧縮符号化）を組み合わせて圧縮符号化を行う。１表に22.2ch音声信号の圧縮符号化法を示す。

22.2ch音声信号圧縮符号化のためのツールセットを

示すAOT（Audio Object Type）としては，LC（Low Complexity）を選択した。LCは，現行のデジタル放送に採用されているMPEG-2 AACのLCプロファイルとほぼ同性能の技術であり，使用するツールを制限する代わりにデコーダーでの処理負荷を軽減するツールセットである。

４．22.2ch音声符号化・復号装置の構成

２図に，8K映像／ 22.2ch音声符号化装置の外観を示す。装置全体は，映像符号化・音声符号化・多重化の合わせて19枚の基板から構成されており，そのうちの１枚が音声基板である。映像の符号化方式にはMPEG-H HEVC（High Efficiency Video Coding）/ H.265を，映像・音声の多重化方式にはMPEG-H MMT（MPEG Media Transport）を採用した。復号装置は，符号化装置と同様の19枚の基板から成る対向の構成とした。

22.2ch音声符号化・復号装置の仕様を２表に示す。22.2ch音声符号化・復号装置は，ベースバンド音声信号の入出力部（AES10 ／ MADI（Multichannel Audio Digital Interface）），MPEG-4 AACで圧縮符号化・復号する信号処理部，MPEG-4 AACストリームの入出力部の３つのセクションから成る。

チャンネルラベル圧縮符号化法

FC SCE

FLc,FRc CPE

FL,FR CPE

SiL,SiR CPE

BL,BR CPE

BC SCE

LFE1 LFE

LFE2 LFE

TpFC SCE

TpFL,TpFR CPE

TpSiL,TpSiR CPE

TpC SCE

TpBL,TpBR CPE

TpBC SCE

BtFC SCE

BtFL,BtFR CPE

１表　22.2ch音声信号の圧縮符号化法

２図　8K映像／22.2ch音声符号化装置

制御ユニット音声基板映像基板

パラメーター値

入力チャンネル数最大22.2ch

標本化周波数 48kHz

量子化ビット数 16bit，24bit

オーディオオブジェクトタイプ LC（LowComplexity)

ダウンミックス機能 5.1ch，2ch

入出力インターフェース AES10(MADI)

２表　22.2ch音声符号化・復号装置の仕様

42 NHK技研 R&D/No.155/2016.1

報告 03

CLFE

RL

LS RS

５．22.2ch音声信号のダウンミックス機能

一般にダウンミックスの役割は，2chステレオ音声やモノ音声に対する下位互換性をマルチチャンネル音響に持たせることにある９）。現在広く普及しているダウンミックス法は，マルチチャンネル音声信号を線形変換してチャンネル数を削減する方法であり，中でもITU-Rが推奨するダウンミックス法は広く受信機に実装されている10）。22.2ch音声信号のダウンミックス法は，従来の線形変換を8Kの音響システムとしての要求条件に添って拡張し11），MPEG-4 AACの枠組み内で取り扱い可能なように，ダウンミックス式とダウンミックス係数の初期値の組み合わせとして実現したものである。

５．１　ダウンミックス式22.2chから5.1chへのダウンミックス式を下記に示す。

また，5.1ch音響のチャンネル配置を３図に示す。　L=FL+αFLc+βSiL+ε（TpFL+βTpSiL+BtFL）（1）　R=FR+αFRc+βSiR+ε（TpFR+βTpSiR+BtFR）（2）　C=FC+αFLc+αFRc+ε（TpFC+δTpC+BtFC）（3）　LFE=ζ（LFE1+LFE2）（4）　LS=BL+γBC+βSiL+ε（δTpC+TpBL+βTpSiL+γTpBC）（5）　RS=BR+γBC+βSiR+ε（δTpC+TpBR+βTpSiR+γTpBC）（6）

αはFLcとFRcのダウンミックス係数，βは側方チャンネルのダウンミックス係数，γは後方チャンネルのダウンミックス係数，δはTpCのダウンミックス係数，εは上層と下層に係るダウンミックス係数，そしてζはLFEのダウンミックス係数である。各ダウンミックス係数の値の範囲を，３表に相対レベル（デシベル値）で示す。３表における0dBは，（1）～（6）式においては係数１に相当する。

また5.1chから2chへのダウンミックス式は，Rec. ITU-R BS.775-310）の中で以下のように規定されており，既存の

受信機に実装されている。

L2ch = L＋ 1 C＋ 1 LS√2 √2 （7）

R2ch = R＋ 1 C＋ 1 RS√2 √2 （8）

ここで（1）～（6）式と（7），（8）式を組み合わせることで，5.1chを経由して22.2chから2chを得られる。

なお，ダウンミックス係数を変数にしている理由は，番組の内容やデザインによって最適なダウンミックス係数を選別するためである。

５．２　ダウンミックス係数の初期値前節では，ダウンミックス係数を放送局側で設定可能

な変数として扱った。一方で，ダウンミックス係数が伝送されない場合にも対応できるように，ほとんどの番組で破綻なく機能するダウンミックス係数の初期値を規定しておく必要がある。そこで，我々はMPEG-4 AACの枠組みで選択できるダウンミックス係数の数値的制約＊２

を考慮し，5.1chと2ch双方の音質を両立できるダウンミックス係数の初期値を導出した11）。３表に，ダウンミックス係数の初期値を相対レベル（デシベル値）で示す。

６．ダイアログ制御機能

放送音声に対する視聴者の意見の多くは，ダイアログの聞こえに関するものである12）。しかし，視聴者の音量に対する好みは年齢や興味の対象によって多様であり，現行の放送音声の仕組みですべての要望に対応することは困難である。一方，国際発信力強化の一環としての多言語放送や，音声解説放送の普及促進13），スポーツ番組におけるバックネット音声など，ダイアログに関係のある音声サービスへの関心は高まっている。これらの背景を踏まえ，22.2ch音響の放送サービスにおいて，受信機でダイアログを制御するための仕組みを開発し，ARIB

３図　5.1ch音響のチャンネル配置

ダウンミックス係数範囲（dB）初期値（dB）

α 0～－∞ －4.5

β 0～－∞ －4.5

γ 0～－∞ －3.0

δ 0～－∞ －6.0

ε 0～－∞ －0.0

ζ +10～－∞ －3.0

３表　ダウンミックス係数の範囲と初期値

＊２ MPEG-4AACにおけるダウンミックス係数は連続値をとることができず，最小で1.5dB幅の離散値テーブルから選択する必要がある。

43NHK技研 R&D/No.155/2016.1

SiR

SiL

LFE2

BC

FRc

FLc

BR

BL

LFE1

FCFRFL

22.2ch

（a）ダイアログチャンネルの例（b）ダイアログ信号の差し替え機能の例

BtFR

BtFL

BtFC

TpBC

TpSiR

TpSiL

TpBR

TpBL

TpC

TpFC

TpFR

TpFL

● 追加ダイアログ信号１：英語● 追加ダイアログ信号２：解説放送● 追加ダイアログ信号３：バックネット音声

追加３

追加２

追加１

追加 3ch

ダイアログチャンネルの例

BtFC

FC

で規格化するとともに６），22.2ch音声符号化・復号装置に実装した。

今回実装したダイアログ制御機能は，ダイアログエンハンスメント機能（受信機でのダイアログ信号のレベル調節）とダイアログ信号の差し替え機能の２種類である。従来の22.2ch音響の番組制作との整合性を考慮し，以下の２点に留意した仕組みとした。

・ダイアログ制御機能の使用可否を，放送局側で番組ごとに選択できること

・従来の22.2ch音響の番組制作を妨げないこと

６．１　ダイアログエンハンスメント機能ダイアログエンハンスメント機能は，ダイアログチャ

ンネル（ダイアログが再生されるチャンネル）とそれ以外の背景音チャンネルを番組ごとにフラグにより区別して伝送し，ダイアログチャンネルに割り当てられた信号のレベルを，背景音チャンネルの信号から独立して受信機で調節するための機能である。具体例として，４図（a）にダイアログチャンネルの例を示す。この例では，FCとBtFCの２チャンネルをダイアログチャンネルとして選択している。なお，選択可能なダイアログチャンネルの数に制限はない。

放送局側で制御できるパラメーターとしては，ダイアログチャンネルの位置・個数のほか，受信機でのレベル調節範囲の上限・下限が含まれる。また複数のダイアログチャンネルを指定した場合に，各チャンネルに異なる音声信号を割り当てることもできるが，ダイアログチャンネルのレベルは一括して調節することになる。

５図に，試作したダイアログエンハンスメント機能用のユーザーインターフェースを示す。放送局で制作されたダイアログと背景音のレベルバランスの初期値を，中央のインジケーターが示している。レベルバランスを「ダ

イアログ大」の方向に変化させると，背景音レベルが下がってダイアログが聞きやすくなる。一方，「ダイアログ小」の方向に変化させると，ダイアログのレベルが下がり，背景音（スポーツ番組における競技音など）のみを聞くことができる。

６．２　ダイアログ信号の差し替え機能ダイアログ信号の差し替え機能は，22.2chの音声信号

とは別に差し替え用の追加ダイアログ信号（例：英語／解説放送／バックネット音声）を22.2chと同一の音声ストリーム内のユーザー領域（Data Stream Element：DSE）に埋め込んで伝送し，受信機でダイアログチャンネルにもともと割り当てられていた信号（以下，初期ダイアログ信号）と差し替える機能である。

４図（b）の例に沿って，ダイアログ信号の差し替え機能の概要を説明する。

・差し替えの対象となるダイアログチャンネルが１個の場合（例：FC）は，制作時にFCに割り当てられていた初期ダイアログ信号と追加ダイアログ信号とを，受信機で差し替える。

・差し替えの対象となるダイアログチャンネルが複数の場合（例：FCとBtFC）は，対象となるすべてのダイアログチャンネルの初期ダイアログ信号が，選択された１個の追加ダイアログ信号と差し替えられる。その際，同一の音声信号を異なるレベルで各ダイアログチャンネルに割り当てている場合は，もともと指定されていたレベル分配比（例：FC→－３dB，BtFC→－０dB）に従って，各ダイアログチャンネルの初期ダイアログ信号と，選択された１個の追加ダイアログ信号とを受信機で差し替える。

・初期ダイアログ信号に含まれる背景音と，追加ダイアログ信号に含まれる背景音とを等しくすること

４図　ダイアログ制御機能の模式図

44 NHK技研 R&D/No.155/2016.1

報告 03

0.0

－1.0

－2.0

－3.0

－4.0

客観評価値

ロゴオーケストラスポーツドラマ

で，背景音を含むダイアログ信号の差し替えも可能になる。

なお，追加ダイアログ信号に背景音が含まれない場合には，ダイアログエンハンスメント機能とダイアログ信号の差し替え機能とを組み合わせて運用することも可能である。

７．客観評価試験

開発した22.2ch音声符号化・復号装置の性能を調べるために，音声信号の客観評価法に関するITU-R勧告14）に準拠してCRC（Communications Research Centre）＊３

が開発したCRC-SEAQ（System for the Evaluation of Audio Quality）＊４を用いて，客観評価試験を行った。22.2ch音響のサンプル音源の中から8Kのロゴ効果音，オーケストラ，スポーツ，ドラマを選び，非圧縮音と圧縮音を比較した。評価するビットレートは，22.2chの合計で1.4Mbpsとした。客観評価法はマルチチャンネル音響には未対応であるため，ドラマについてはダイアログが割り当てられたFCの信号に，それ以外の音源についてはFLの信号に着目して評価した。なお，マルチチャンネル音響のうちの１チャンネルのみで圧縮符号化の劣化を評価することは，マルチチャンネル音響の特徴である３次元音場の再現性や定位の精度などを評価対象から除外してしまうため，本実験は，主観評価実験の予備実験（結果を予測するための実験）として実施した。

６図に客観評価試験の結果を示す。この結果から，すべての音源の客観評価値＊５が－1.0を上回っていること

が分かる。ITU-R勧告によると，放送品質（放送に適した品質）とは「音質劣化を判別しやすい音源で主観評価値の平均が－1.0以上であること」と規定されている15）。よって今回開発した22.2ch音声符号化・復号装置は，1.4Mbpsのビットレートと評価した音源の範囲において，放送品質を満たすことが予想される。

８．むすび

本稿では，今回開発したMPEG-4 AACを用いた22.2ch音声符号化・復号装置の仕様と性能について述べた。今後は，精緻な主観評価実験を実施し，マルチチャンネル音響用の音声符号化・復号装置としての性能を評価する予定である。

本稿は，音響学会秋季講演論文集およびAESジャパンコンファレ

ンス・名古屋2015に掲載された以下の論文を元に加筆・修正したも

のである。

杉本，中山：“MPEG-4 AACを用いた22.2ch音声符号化・復号装置

の開発，”音響学会秋季講演論文集，2-P-9（2015）

杉本，小森，中山，知念，畠中：“放送サービスにおける22.2ch音響

の多機能化，”AESジャパンコンファレンス・名古屋2015，No.2（2015）

５図　ダイアログエンハンスメント機能用のユーザーインターフェース

＊３通信技術に関する研究を行うカナダの国立研究機関。

＊４ CRCが開発した音声信号の品質評価装置。

＊５非圧縮音声信号と圧縮音声信号の違いに関する評価値で，0.0は「違いを検知できない」，－1.0は「違いを検知できるが気にならない」，－4.0は「違いが非常に気になる」という評価を示す。

６図　客観評価試験の結果

45NHK技研 R&D/No.155/2016.1

杉すぎ

本もと

岳たけ

大ひろ

2001年入局。放送技術局を経て，2004年から放送技術研究所において，音響トランスデューサーおよび音声符号化方式の研究に従事。現在，放送技術研究所テレビ方式研究部に所属。博士（工学）。

１） T. Yamashita, K. Masaoka, K. Ohmura, M. Emoto, Y. Nishida and M. Sugawara：“Super Hi-Vision Video Parameters for Next-Generation Television，”SMPTE J.，Vol.121，pp.63-68（2012）

２） Rec. ITU-R BS.2051，“Advanced Sound System for Programme Production”（2014）

３） SMPTE ST 2036-2-2008，“Ultra High Definition Television – Audio Characteristics and Audio Channel Mapping for Program Production”（2008）

４）次世代放送推進フォーラム，http://www.nextv-f.jp/en/index.html

５） Rec. ITU-R BS.1909，“Performance Requirements for an Advanced Multichannel Stereophonic Sound System for Use with or without Accompanying Picture”（2012）

６）電波産業会：“デジタル放送における映像符号化，音声符号化及び多重化方式（3.3版），”ARIB STD-B32（2015）

７） ISO/IEC 14496-3:2009，“Information Technology – Coding of Audio-Visual Objects – Part 3: Audio”（2009）

８） ISO/IEC 14496-3:2009/AMD 4:2013，“New Levels for AAC Profiles”（2013）

９） F. Rumsey：Spatial Audio，Focal Press（2001）

10） Rec. ITU-R BS.775-3，“Multichannel Stereophonic Sound System with and without Accompanying Picture”（2012）

11） T. Sugimoto, S. Oode and Y. Nakayama：“Downmixing Method for 22.2 Multichannel Sound Signal in 8K Super Hi-Vision Broadcasting，”J. Audio Eng. Soc.，Vol.63，No.7/8，pp.590-599（2015）

12） NHK：“視聴者対応報告，”http://www.nhk.or.jp/css/report/

13）総務省：“情報バリアフリー環境の整備，”http://www.soumu.go.jp/main_sosiki/joho_tsusin/b_free/b_free1.html

14） Rec. ITU-R BS.1387，“Method of Objective Measurements of Perceived Audio Quality”（1999）

15） Rec. ITU-R BS.1548-4，“User Requirements for Audio Coding Systems for Digital Broadcasting”（2013）

参考文献

中なか

山やま

靖やす

茂しげ

1994年入局。盛岡放送局を経て，1996年から放送技術研究所において，音像の距離感制御および音声符号化方式の研究に従事。現在，放送技術研究所テレビ方式研究部副部長。

小こ

森もり

智とも

康やす

1994年入局。静岡放送局を経て，1997年から放送技術研究所において，音声符号化方式および人にやさしい音声放送サービスの研究に従事。現在，放送技術研究所テレビ方式研究部上級研究員。

46 NHK技研 R&D/No.155/2016.1

MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発 - …03 MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発 杉本岳大 中山靖茂 小森智康

Documents

MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発 - …03 MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発杉本岳大中山靖茂小森智康