社内勉強会にて 音声ファイルフォーマットについて

Post on 15-Apr-2017

604 Views

Category:

Engineering

6 Downloads

Preview:

Click to see full reader

Transcript

音声ファイルフォーマットについて

アジェンダ

1. イントロ2. audio用語解説3. フォーマットの種類4. まとめ

音声の再生とか録音とか、簡単!

それってどんな仕組み?

サンプリングレート

可変・固定ビットレート

チャンネル数・ビット数

動画・音声エンコード

コーデック

非可逆圧縮

コンテナフォーマット

ロスレス形式

例えば、下記の言葉

.ogg

.aac

.mp3

.wav

.aiff

.m4avp8h264

結構複雑

それぞれ説明

サンプリングレート

可変・固定ビットレート

チャンネル数

動画・音声エンコード

コーデック

非可逆圧縮

コンテナフォーマット

ロスレス形式

用      語

サンプリングレート

・音を一秒間に何回測定して記録するかの値

・サンプリング周波数ともいい、「Hz」(ヘルツ)の単位で表される

・この値が大きいほど高音質。比例してデータ量も増える

・一般的なCDのサンプリングレートは44.1KHz

・一秒間に記録するデータ量

・単位はbps(ビットパーセカンド)・この値が大きいほど多くの情報を格納できるので、高音質

・固定ビットレート

はじめから終わりまで同じビットレートで記録されたもの

・可変ビットレート

音声情報を部分によって変動させるもの。単純で音声が少ない節はビットレートを低くしたりする

ビットレート

チャンネル数

・音声出力の数をチャンネル数という

・正面用の音、後方用の音などで分けて録音される

・普通はチャンネル数分だけスピーカーが増える

1チャンネル:モノラル

2チャンネル:ステレオ

5.1チャンネル:正面、右前方、左前方、右後方、左後方、低音出力

・一回の音のサンプリングに対して何ビットの幅で音を記録するか、という値

・この値が大きいほど元の音声の波形に近い滑らかな音が記録できる

・一般的には8~24bitあたりの値が使われる

・CD16bit、MP3の最大ビット数16bit

ビット数

引用:soundengine.jp

音声ファイルはそのままだと容量が非常に大きいので、加工(暗号化)して圧縮する。これをエンコード(符号化)するという

符号化・復号化するプログラムやアルゴリズムのことをコーデックという

デジタル化した生の音声データを符号化して圧縮し、再生時にコーデックで復号化する、というのが一般的

エンコード

・非圧縮

符号化せず、生データをそのままファイルにしたもの。最もデータ量が多く、高音質

形式:WAVE・AIFF等

・可逆圧縮(ロスレス)非圧縮状態に復元できる符号化方式。圧縮率は一般に 2~3倍程度とされ、高い音質を保ったまま保存できることから音楽愛好家に好まれる

形式:FLAC・TTA・WMA Lossless・Apple Lossless

・非可逆圧縮

非圧縮に戻せない符号化方式。その分圧縮率は高く 10~20倍程度になる。

形式:MP3・AAC・WMA・OGG

エンコード方式

・さまざまな種類のデータや標準的なデータ圧縮方法を使って圧縮したデータを保持できる、ファイルフォーマット(引用:wiki)・音声や動画のデータの他に章・字幕などのメタデータを中に含んでいて、複数の符号化方式に対応しているものもある

・音声なら音声コンテナ、動画なら動画コンテナが存在し、対応するコーデックが決められている

・主な音声コンテナ

WAV, AIFF

・主な動画(音声含む)コンテナ

AVI, MP4, 3GPP, FLV, MOV, Ogg, Matroska

コンテナフォーマット

.ogg.aac.mp3.wav.aiff.m4a.webm.rm

フォーマット

.mp4

.m4v

.m4a.flv.wmv.mkv.3gp.avi

.oga

.aac.mp3.wav.aiff.m4a.mka

音声フォーマット

・非圧縮の音声形式。Windowsが開発したのがWAV、Appleが開発したのがAIFF・音楽CDなどにも使われる。一般的なCDの音質は下記

サンプリングレート:44.1kHzビット数:16bitチャンネル数:2chビットレート:1411kbps (44100×16×2=1411200)

・コンテナーフォーマットとしても扱われ、.wav、.aiffの拡張子が使われる

・バイトの中身とかここらへんに詳しく書いてあったので知りたい方はそちら

WAV・AIFF

MP3 (MPEG-1 Audio Layer-3)・非可逆な音声符号化方式。ファイルフォーマットでもあり、10倍程度の圧縮率と言われる。拡張子は.mp3・現在最も広く普及しており、ほとんどのオーディオ機器が対応している

・正式には動画圧縮規格のMPEG-1の音声規格として作られた、「MPEG-1 Audio Layer-3」と呼ばれる規格

・有償ライセンス。10万ドル以上の利益で年売上の2%もしくは20万ドル(配信サービスの場合)

・1997年にできたMP3の後継とされる非可逆な音声符号化方式。MP3より高音質・高圧縮

・様々なコンテナフォーマットに組み込まれている

例:*.mov,*.mp4,*m2ts,*.m4a,*.m4b,*.m4p,*.3gp,*.3g2(音声だけなら.aac)

・AACの中でもいくつか形式がある

- AAC-LC(Low Complexity)- HE-AAC (High-Efficiency AAC) -> 低ビットレート向け形式

・有償ライセンス。エンコーダまたはデコーダの販売に対して一台0.1~0.98ドル/5年の契約 Via Licensing

AAC (Advanced Audio Coding)

・元のデータを符号化することをエンコード・デコードと言うのに対し、エンコーダ・デ

コーダとは符号化する装置やソフトウェアのことを指す

・音声や動画以外の世界でも使われる汎用的な用語

補足:エンコーダ・デコーダ

・Oggはパテントフリーのコンテナーフォーマットで、動画データや音声データを格納

できる

・このうち、汎用的な音声フォーマットがOgg Vorbisと言われる非可逆な符号化方式

で圧縮された規格で、音声でOggと言うと大体これを指す

・LC-AACと同等の音質とされ、112kbpsでほとんどの人はCDと同等の音質に感じる

と言われる

・拡張子は.ogg, .oga(.oggは動画も含まれる、.ogaのaはaudioのaで音声のみ)・あまり普及してなさそう(フリーなのでWebではよく使う)・MP3などよりデコードにメモリ食うらしい

Ogg Vorbis

・Widowsが開発した音声圧縮方式。非可逆な符号化方式がWMAで可逆なものが

WMA Lossless。どちらも主に.wmaの拡張子が使われる

・同社によれば64kbpsまでCDと同等の音質を保てるほど高音質らしい

・今では割りと対応ソフトが多く存在する(主にWindows)・Windowsの汎用コンテナーフォーマット:ASFで音声コーデックとして使われる。拡

張子は.asf .asx .wmv .wvx .wma .wax等

WMA (Windows Media Audio)

動画フォーマット

.mp4

.m4v.ogg.flv.wmv.mkv.3gp.avi

資料が長くなってきたのでまた次の機会に…

・音声を録音する時はコーデック(符号化方式)やサンプリングレート・ビット数・チャン

ネル数等を気にするといい

・ファイルの音質を気にするならコーデック(符号化方式)とビットレート

・同じ符号化方式でも拡張子は決まってないので確認する必要がある.mp4:AAC、HE-AAC、MP3、MP2、MP1.ogg:Speex、Ogg Vorbis、CELT、Opus、FLAC、OggPCM.wma:WMA、WMA pro、WMA Lossless.flv:AAC、HE-AAC、MP3

・下記に結構まとまってる

コンテナーフォーマット・拡張子・コーデックの一覧

まとめ

ご清聴ありがとうございました

top related