G. Peeters A Large Set of Audio Features for Sound Description 2004 23/04/04 1/25 [email protected] http://www.ircam.fr/ 1 Introduction 1.1 Features taxonomy • • ! "
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 1/25
��������������� ���������������� � ��������
� ��� ������ ��� ��������������
���� ��� � � � �� � ���� ��
�������������� ����������������������������! #"%$'&($')+*,"!��-#.�/0$#&($�12/!������354� (67�#8�9��:*�-#���!;�&#�<$'=�"0�><?7@A@�BDC����E&$(��F0�E�!�A��/
[email protected]://www.ircam.fr/;�/!��$'&�9��2G�3�6 @DHEI�JD�!;��&K �I�@�@ABML
1 Introduction
1.1 Features taxonomy
N�OEP0QSRUTEVUP�N�NXWUYZR�[\VUQU]^TE_0T�O [`WEabOEcUPDaSP0QUO�dUY�P
e�cUPfOETE]gPhP�iSOEP0VSO�WEajOEcUPfRUP�N�_0Y�T k�O'TWUVlkmYMWUn0TERUP0Rpo�[XOcUPqaSP0QUOEdUY�P�N
• � �� ��� ��������
• � ���������� ��������
rts u<vUwyx zD{�|A}A~ sK���,� ~�|��� � ~ w } �,sK�2v� �y�<�Ux {
� v | �,wyv��,wyv { �y� |zD{y|A}A~ sK���,� ~�|�DxK�y�<wyx
zD{y|A}A~ sK���,� ~�|
� {y� �<� ~ wyx� �y� { xKs vUu z�{y|A}A~ sK���,� ~�|
� �UvU�<w ��{ v���wyx� ~�{y� � { v }��
r { u ��{ v��,wM��s �2v
� ������ �� �� ����� ������������ �������
�! ��������" �� ��
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 2/25
��QUo�N�OY�QU_0OEVUP�NMN � WaZOEcUP�aUP0QUO�dUYMP
P�iSOEY�QU_0OETWUVmk Y�WU_0P�NMNgWEahOcUP2aUP0QUOEd2Y�P•
•
• •
��� ���y��� ���� ������ ����(���M��������������� �����U�0���E����� ������!�"���$#0�M� �&%�'(� �'� ' � � ����)*� %�� �+���*) %�� � ����A� �0����:���� ������) ��� ���2�
• # �� ����� �� ���$ �
• # �� ����� ������
• % ����� � �������$ �
• & ������� �� ���� �������$ �
,
-.-0/ 132 4658789:2 ;6<>=? <:@�AB9:462 CD 9E;6F>=132 G"4�<>=8H0@ <>ABFI F>@ C8F>J�K�58<>=D 9�;6F>=132 G"4�<:=
L 4�78K�<>48K�<:4�F�9:587/ F>AMJ�9:@ <>=N F�78C�@ 2 J�K�9>@ 7L 4878K�<:4�K�<>48F�9>58713J�F�C8K�@ <:=N F�78C�@ 2 J�K�9>@ 7
L 4�78K�<>48K�<:4�F�9:587I F>@ C8F>J�K�58<>=N F�78C�@ 2 J�K�9:@ 7L 4878K�<>48K�<>48F�9:5�7? <:@�AB9:462 CN F�78C�@ 2 J�K�9:@ 7
O = 9:P�<>=/ F>AMJ�9:@ <>=N F�78C�@ 2 J�K�9>@ 7
Q 48F>@ G6R Q 48S�F>= 9:J / F>AMJ�9:@ <:=AT9E;6F>= 2 48GO = 9:P�<>=/ F>AMJ�9:@ <:=N F�78C�@ 2 J�K�9:@ 7
� ������' �� ���������� ����( ������� ( ��������( �� ��� ������
���������� ����������! �����������
• ) ��� �����������$ �
• * ��������� �������$ �
•
1.2 Organization of the paper
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 3/25
2 Pre-computing
• • • •
2.1 Energy envelop
� ��������$
YM] N
��� ������
�� � ��������� ��� ��������� ��� ��� �� �
� � � � � �� ��! � � � � � � � � � � � ��!�" !
2.2 Short-Time Fourier Transform
#�#%$&�' (�)�*+�,.- */10 2�' (�)�*+ ,.- */10�3�4&5' (6)�*+
7 )�2�89*)�8:*)�0�;<�2$ 0=/�>�;- *+? 0�2�@�-A' >�89;�- 2
7 )�2�8:*)�89*)�0�;<�2&5>�0�@�8�- *+
? 0�2�@ -A' >�8:;- 2
2�' (6)�*+ ,B- */10�3 4 ,B- 0�CD3 4�E%*/�>D+ 3 4
2.3 Sinusoidal Harmonic modeling
F�F%G
H�I J K�L�M�I NDOPQ ORAS1M�J I TU=MDNDVP
H5I W�J�OP�XBR OS1VXBR V�YDZ�[�\.OS�] P Z�[
H5I W�J�O�P
^�J�L�_:OJ�_:OJ�V�M�K�LQ ORAS1M�J I T`�V�L�T�RAI ]�_:MR L
X.R V�Y6a�Z [�\%OSb]DP a�Z�[
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 4/25
2.4 Perceptual model
• •
�������� ��� ����� ���� ����� ������� �� ����! !������ �!"!#%$'&(��)��� #%$��� �����
*+��,�� ���� ����'�!��,����� ������� �� �-��',��.� � ��� � � ,/ &���)��� 0���� �#�$
2.4.1 Mid-ear filtering
10-4
10-2
100
102
104
106
-120
-100
-80
-60
-40
-20
0
Frequency [Hz]
Am
plitu
de [d
b20]
� ������+ �, � - ���������������������. �����
�������
2.4.2 Mel scale
� ��������$ �
• a 12=
• a 33456678 334
56678+⋅= 9;:99<:= >�?
@ aaS_
0 0.5 1 1.5 2 2.5
x 104
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Frequency [Hz]
Number of mel bands: 24
� ������/ �, ���� �� �
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 5/25
� � oUP��:TEV�� ������� P0VUR�� � ��
==
�����������
�� ����� �� �������! #"%$���&�'(!) �
2.4.3 Bark scale
� ��������$
*+,-./
⋅+*+,-./
⋅=01012
3 a0 0.5 1 1.5 2 2.5
x 104
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Frequency [Hz]
Number of bark bands: 24
� ������0 �1 ��2 �� �� �
� ��
==
�����4576�8
49 57:�; 6) )<=>1�?!@#ACB�1�D�E( ) �
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 6/25
2.5 Amplitude and Frequency scale
2.5.1 Amplitude scales
• • �
•
2.5.2 Frequency scales
• •
0 2000 4000 60000
0.05
0.1
Freq
Am
pl
0 2000 4000 60000
2
4
6
8x 10
-3
Freq
Pow
er
0 2000 4000 60000
50
100
150
200
Freq
Log-
ampl
-10 -5 0 50
0.05
0.1
Log-freq
Am
pl
-10 -5 0 50
2
4
6
8x 10
-3
Log-freq
Pow
er
-10 -5 0 50
50
100
150
200
Log-freq
Log-
ampl
� ������3 �& ������ ���
4 �- ���5 ����- ���. ����� 6 ���- �� ���� �(
4 � � ��- ���5 ����- ���. ����� 6 ������ (
4 � � - ���5 ����- ���. ����� 6 ��- �� ���� �(
4 �- ���� 5 ���- ���. ����� 6 ���- �� ���� �(
�4 � � ��- ���� 5 ���- ���. ����� 6 ������ (
4 � � - ���� 5 �5 ���- ���. ����� 6 ��- �� ���� �
2.6 Descriptors on Spectrum / Harmonic peaks / Bark bands
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 7/25
3 Global temporal features
3.1 Envelop characterization
3.1.1 Attack / Decay / Sustain / Release envelop modeling
� ������ 7
attack decay sustain release
� ������7 �% �8 ����� �����$ ��� & 9 ���8 ���( �" �� ��
� ��������� ��������������� �����! �������
�������
:
attack rest
sustained sound
non-sustained sound
� ������: �% �8 ����� �����$ ��9 ���8 ���( �" �� ��
� ��������� ��������������� �����! �������
�������
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 8/25
3.1.2 Attack part
• •
3.1.2.1 Estimation of the start and end of the attack
� �! � �� ���� � �� �� $
time
ener
gy20%
...
start end
attack
90%
� ����8 �� � ���� � � � �� � � " ��2 ��� ����
� �� � $
OEc ;O ; OEc ;� ; O ;������ O ; �
OEc����� ; @ �
OEc 5�6 8� ; @� �@���
O ��� O 5�6 8OEc ��� OEc 5�6 8
time
ener
gy
effo
rt 1
2
threshold 2...
threshold 1
effo
rt 2
3...
start end
attack
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 9/25
3.1.2.2 Log-Attack Time (mpeg7:LogAttackTime) DT.g_lat� ��������$
� �� �����$
��� −=
3.1.2.3 Temporal increase (cuidado:TemporalIncrease) DT.g_incr� ��������
� �� ����� � ;
3.1.3 Sustain part
• •
3.1.3.1 Decrease part: Temporal decrease (cuidado:TemporalDecrease) DT.g_decr� ��������$
O������������ < �
>−−⋅= αα
3.1.3.2 Sustain part: Energy Modulation and Fundamental frequency modulation(mpeg7:AudioPower ScalableSeriesType element name="Modulation")(mpeg7:AudioFUndamentalFrequency ScalableSeriesType element name="Modulation")
� ��������
� �� �����$
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 10/25
3.1.4 Example
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20
0.5
1F:\data\class\sol\sust\bowedstring\alto\mf\alto\_a\_gref\_mf\_si3\_12.wav
0 1 2 3 4 5 6 7 8 9 100
5000
10000
15000Dlat: -0.53981 - threshold: 0.15 - Dincr: 3.265 - Ddecr: -0.28535
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20
0.5
1
satt_posn eatt_posnmaxenv_posn
incr (r-) incr2(r--) desc (r-)
� ������; �< �- ���2 �# �� ���� �# �� ������ ��������6
� ������������ ���
4 # �5 �% ����� �% �8 ����" �� ��������� ���� � ��� 8 �������������
4 , � ��5 �% ������������ ������ ���������� ���� � �
4 1 � 5 �9 �����������2 ( ������������ � ������������ ���
0 0.5 1 1.5 2 2.50
0.1
0.2
0.3
0.4
0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2-0.2
0
0.2
0.4
0.6MODam: 0.060872 - MODfr: 5.3833
0 5 10 15 20 25 30 35 40 45 500
0.005
0.01
0.015
fft(envelopv-polyfit)
envelop-vpolyfithatenvelop-v
� ������ = �% ����� �� ���������� ���
4 # �5 �% ����� �% �8 ���
4 , � ��5 �% ����� �% �8 ������� ��������� ����������� �� �
����������������
4 1 � 5 ��� ���� ��������� ���� �������� ������� ���8 ���
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 11/25
3.2 Others
3.2.1 Temporal centroid (mpeg7:TemporalCentroid) DT.g_tc� ��������$
� �� �����$
⋅=
�
���
���
���
3.2.2 Effective Duration (cuidado:TemporalEffectiveDuration) DT.g_ed
� ��������$
time
ener
gy
threshold
effective duration
4 Instantaneous temporal features
4.1 Auto-correlation (cuidado:AudioZcr) DT.i_xcorr_m
� ��������$
� �� �����$−−
=
+⋅=�
��
�
�� �
� �������
0 200 400 600 800-0.2
-0.1
0
0.1
0.2
Time
Am
plitu
de
-20 -10 0 10 20-0.5
0
0.5
1
Time
Am
plitu
de
0 1000 2000 3000 4000 5000 60000
50
100
150
200
250
Frequency
Am
plitu
de
signal xcorr
signalxcorr
� ������ �4 �- ���5 ���������4 �- ���� 5 �����-
���������������
4 � � 5 ���������� ���� ��������� ��� ��������
��8 �������� �� �� � �����- ���������� ��� � ������
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 12/25
4.2 Zero-crossing rate (cuidado:AudioXcorr) DT.i_zcr_v
� ��������$
� ������ ' �> ��- ������������� ? / + ' � � �����
8 ��� ������� ������
� ������ + �> ��- ������������� ? 7 0 = � � �����
��8 ��� ������� ������
5 Energy features
5.1 Total Energy (mpeg7:AudioPower) DE.i_tot_v� ��������
5.2 Harmonic Part Energy (cuidado:AudioHarmonicPower) DE.i_harmo_v� ��������$
5.3 Noise Part Energy (cuidado:AudioNoisePower) DE.i_noise_v� ��������$
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 13/25
6 Spectral features
6.1 Spectral shape description
6.1.1 Spectral centroid (mpeg7:AudioSpectrumCentroid) DS.i_sc_v
⋅= ���� δµ
• ��������� =
• = ��� �����
�����������
6.1.2 Spectral spread (mpeg7:AudioSpectrumSpread) DS.i_ss_v
⋅−= ���� δµσ ��
6.1.3 Spectral skewness (cuidado:AudioSpectrumSkewness) DS.i_skew_v
� �⋅−= ����� δµ ��
���σ
γ �=
• • •
• •
- 5 0 - 4 0 - 3 0 -2 0 -1 0 0 1 0 2 0 3 0 4 0 5 00
0 . 0 1
0 . 0 2
0 . 0 3
0 . 0 4
0 . 0 5
0 . 0 6
0 . 0 7
0 . 0 8
0 . 0 9
m e a n : 7 . 8 7 2 e - 0 1 7 s td : 5 s k e w : - 8 . 3 2 5 4 e - 0 1 7 k u r t: 3
d a tag a u s s f i t
- 5 0 -4 0 - 3 0 -2 0 - 1 0 0 1 0 2 0 3 0 4 0 5 00
0 .0 0 5
0 .0 1
0 .0 1 5
0 .0 2
0 .0 2 5m e a n : 1 6 .6 7 s td : 2 3 .5 7 1 4 s k e w : - 0 .5 6 5 6 9 k u r t: 2 .4
d a tag a u s s fi t
- 5 0 - 4 0 - 3 0 - 2 0 - 1 0 0 1 0 2 0 3 0 4 0 5 00
0 .0 0 5
0 .0 1
0 .0 1 5
0 .0 2
0 .0 2 5m e a n : - 1 6 .6 7 s td : 2 3 .5 7 1 4 s k e w : 0 .5 6 5 6 9 k u r t : 2 .4
d a tag a u s s f i t
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 14/25
6.1.4 Spectral kurtosis (cuidado:AudioSpectrumKurtosis) DS.i_kurto_v
� �⋅−= ����� δµ
�����
σγ �=
• • •
• •
- 5 0 - 4 0 - 3 0 - 2 0 -1 0 0 1 0 2 0 3 0 4 0 5 00
0 .0 1
0 .0 2
0 .0 3
0 .0 4
0 .0 5
0 .0 6
0 .0 7
0 .0 8
0 .0 9
m e a n : 7 .8 7 2 e -0 1 7 s td : 5 s k e w : - 8 .3 2 5 4 e - 0 1 7 k u rt : 3
d a tag a u s s f it
- 1 0 -8 - 6 - 4 - 2 0 2 4 6 8 1 0
0 .0 0 5
0 .0 1
0 .0 1 5
0 .0 2
0 .0 2 5m e a n : - 2 .1 5 9 7 e -0 1 5 s td : 2 8 .8 7 0 4 s k e w : 3 .1 2 0 4 e - 0 1 6 k u r t: 1 .8
d a tag a u s s f i t
- 1 0 -8 - 6 - 4 - 2 0 2 4 6 8 1 00
0 .2
0 .4
0 .6
0 .8
1
1 .2
m e a n : 0 .0 0 4 9 9 9 8 s td : 1 .4 1 4 2 s k e w : 5 .3 0 3 2 e - 0 0 7 k u r t: 6 .0 0 0 3
d a tag a u s s f it
6.1.5 Spectral slope (cuidado:AudioSpectrumSlope) DS.i_slope_v
� ��������$
� �� �����$ �������� � � � ��� +⋅=
� �� ��
� ������
−
−=
� �� ��
� ��������������
������� �"! ##
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 15/25
6.1.6 Spectral decrease (cuidado:AudioSpectrumDecrease) DS.i_decr_v
� ��������$
� �� �����$
==
−−= �
���
� ����
��� � ��� � � ����6.1.7 Spectral roll-off (cuidado:AudioSpectrumRollOff) DS.i_rolloff_v
� ��������$
� �� �����$
=��
��
�� ���� � �
a � N�Y����
� ������ / �4 # �5 �% ����� �������� �����
���. ����� �" �� �; 0 @ ������������- ������. �����
� 8 ��������� ������ �4 � � 5 ���� ����8 �������� �����
���. ����� �" �� �; 0 @ ������������- ������. �����
� 8 ��������� ������
6.2 Temporal variation of spectrum
6.2.1 Temporal variation of spectrum: spectral variation (cuidado:AudioSpectrumVariation)DS.i_var_v
� ��������$
Q��O ��� � Q��O �� �� �����$
−
⋅−−=
��� �
���
��
���
���
��
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 16/25
6.3 Global spectral shape description
6.3.1 Mel Frequency Cepstral Coefficients (MFCC) (cuidado:AudioMFCC) DP.i_MFCC_m
� ��������$
� �� �����$
s(n) FFT MelBand
LogDCTMFCC
0 1000 2000 3000 4000 5000 6000-20
-15
-10
-5
Frequency
Log-
am
plitu
de spectrummid-ear spectrum
0 5 10 15 20 25-3
-2
-1
0
1
Mel band
Log-
am
plit
ude Mel band spectrum
MFCC spectrum
0 2 4 6 8 10 12-10
-5
0
5
MFC coefficient
Va
lue
MFCC
� ������ 0 �4 # �5 ��������������� ��� �� � - ���
������ �������� �� ��� � ������ �4 � � ��5 �, ���� ��
������� ��� �, � � � �������� �� � ������
4 � � 5 �, � � � �����������
� ���- , � � � ( �� ���- � ���- , � � � $
�����������������
∂∂=
��
��� �
������� �
∂∂=
7 Harmonic features
7.1.1 Fundamental frequency (mpeg7:AudioFundamentalFrequency)DH.i_f0_v
7.1.2 Noisiness (mpeg7:AudioHarmonicity) DH.i_noisiness_v
����������
� ����� ��������
=
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 17/25
7.1.3 Inharmonicity (cuidado:AudioInharmonicity) DH.i_inharmo_v
−=
�
���
�� �� � � � ����� � �
� f0 2 f0 3 f0 4 f0 5 f0 6 f0 7 f0
frequency
ener
gy
f(1) f(2) f(3) f(4) f(5) f(6)
� ������ 3 �� �� ��� ����� ������������� �����$
� ��� ����� �������� � ������� ( �� ���8 � ��������
���2 ��� �������������
7.1.4 Harmonic Spectral Deviation (mpeg7:HarmonicSpectralDeviation)DH.i_devs_v
( )−= � �������� ���
Q��c � c� �
��� �c �a��c �
0 2 4 6 8 100
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
Frequency [harm number]
Am
plitu
de
Spectral deviation: 0.15374
spectral envelopharmonics
� ������ 7 �) ��� ������� ����������� ��������
��8 ��������� ������ ������� ���������� �8 ����
�������� ������
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 18/25
7.1.5 Odd to Even Harmonic Energy Ratio (cuidado:HarmonicSpectralOERatio):DH.i_oeratio_v
� ��������$ �
� �� �����$
=
==����
����
� ���
����������
0 5 10 15 200
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
Frequency [harmonic number]
Am
plitu
de
Odd/even harmonic energy ratio: 3.2431
odd harmoniceven harmonic
� ������ : �� ��� �% 8 ���� ��� �����������������
��� �
7.1.6 Tristimulus (cuidado:HarmonicSpectralTristimulus): DH.i_tri*_v� ��������$
P0ODQ�� ,
� �� �����$
= � ����
++= � ������
== ���
����
� �
0 5 10 15 200
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4tri1: 0.49442 tri2: 0.45368 tri3: 0.0519
tristimulus1tristimulus2tristimulus3
� ������ ; �� ����� ��� ����� � ���2 � ����� ( �� ��
�� ����� �� ��� ����� �� � ( ����� ��� ���� �� � ���2 �
���� ������ ������� ������� ����
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 19/25
8 Perceptual features
8.1 Features
8.1.1 Total Loudness and specific loudness (cuidado:AudioLoudness): DP.i_loud_v� ���������$
��������� �� ���� ��� � ��� � �
������=
����� ����
=���� �� �� ��� ��
��� � � �
8.1.2 Relative Specific Loudness (cuidado:AudioRelativeSpecificLoudness):DP.i_specloudnorm_m
�����������=
8.1.3 Sharpness (cuidado:AudioSharpness) DP.i_sharp_v
������
� ����� ��� = ⋅⋅
⋅=�
� � ���<=
�� ���≥⋅=
�� ����
8.1.4 Spread (cuidado:AudioSpread) DP.i_spread_v
!"#$%& −= ' (
'')+* ,
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 20/25
9 Various features
9.1 Spectral Flatness/Crest measure (mpeg7:AudioSpectrumFlatness) DP.sfm_m
& ������� � �������
∏
∈
∈
��������
=
���������
����������
������ ����������������
!�
• • • •
& ������� � ���
( )( )
∈
∈=
"�#�$�%$�&�'( )*+, *�-�.-�/�0)*, *�-�.-�/�013254
6� �8 ������& � , ��# ����� � � ������
7�8:9�;�<9�;�<>=�? ⋅= @ABCDE−
==�?9�;�<FHG�I�J�KMLON P
* ���������� �����$
QSR ( )−= TUWV XY�Z\[^] µ_a`_a`
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 21/25
10 Temporal modeling
10.1.1 Meani �
= � �������� ������ ��� �����
��� �������� ������
10.1.2 Variancei �
( )�
�−
= � � ������ � �����
"!$#�%'&() "!$#�%'&) "!$#�%'&(
* +,+,+, -
10.1.3 Deviationi �
( )..
+
−++= / 0 1�243/ 0 1�243
57698$:<;57698$:<;=5768�:<;>5768�:<;>5768�:<;5?68$:@;=A�;�6BDC EFGH
EHEFHEFGH
10.1.4 Temporal modeling an mpeg-7 audio scalable series
mpeg7::scalableseries. weight
scalableseries AudioLoudnessTypempeg7:scalableseries numOfElements=1 element name
Element Name Mpeg-7
Meanyes
VarianceYes
DerivativeExtension
Modulationextension
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 22/25
���������������� �������������� ���� ���
������� ����� �!���� � ��"
#$��! � %& �'(���)��*����
+ ��" �,��������&� -�
�,�.�-�
/ ���� �����
!����� / ���&� / �
�, �! ��� ���0� -�
12121
3�4 3�537698:69;753<0=7>&3�;769=
3�4 3�537698:69;753<0=�?0;7@ A ;�6CBD37=
#$��! � %& �'(��)��*����
3�4 3753�698:69;753<0=7E�;�F�=
3�4 3�537698:69;753<0=7G93�@ A H�;78 A H�3�=
3�4 3�537698:69;753<0=7>&I7J9K94 ;78 A I769=
� ������' = �# �� ������ ������������������� ��������$ ��! �� �������� ���� �* " ��# � ��� ��������
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 23/25
11 List of all descriptors
LLD Listframe based
number of features acronym xml tag
Temporal FeaturesGlobal Temporal FeaturesLog Attack Time n 1 DTg_lat mpeg7:LogAttackTimeTemporal Increase n 1 DTg_incr cuidado:TemporalIncreaseTemporal Decrease n 1 DTg_decr cuidado:TemporalDecreaseTemporal Centroid n 1 DTg_tc mpeg7:TemporalCentroidEffective Duration n 1 DTg_ed cuidado::TemporalEffectiveDurationInstantaneous Temporal FeaturesSignal Auto-correlation function y 12 DTi_xcorr_m cuidado:AudioXcorrZero-corssing rate y 1 DTi_zcr cuidado:AudioZcrEnergy FeaturesTotal energy y 1 DEi_tot_v mpeg7:AudioPowerTotal energy Modulation (frequency, amplitude) n 2 DTg_mod_fr, DTg_mod_am ScalableSeriesType element name="Modulation"Total harmonic energy y 1 DEi_harmo_v cuidado:AudioHarmonicPowerTotal noise energy y 1 DEi_noise_v cuidado:AudioNoisePowerSpectral FeaturesSpectral ShapeSpectral centroid y 6 DSi_sc_m mpeg7:AudioSpectrumCentroid (mpeg7:SpectralCentroid)Spectral spread y 6 DSi_ss_m mpeg7:AudioSpectrumSpreadSpectral skewness y 6 Dsi_skew_m cuidado:AudioSpectrumSkewnessSpectral kurtosis y 6 Dsi_kurto_v cuidado:AudioSpectrumKurtosisSpectral slope y 6 Dsi_slope_v cuidado:AudioSpectrumSlopeSpectral decrease y 1 Dsi_decs_c cuidado:AudioSpectrumDecreaseSpectral rolloff y 1 Dsi_rolloff_v cuidado:AudioSpectrumRollOffSpectral variation y 3 Dsi_variation_v cuidado:AudioSpectrumVariationGlobal spectral shape descriptionMFCC y 12 DPi_mfcc_m cuidado:AudioMFCCDelta MFCC y (post) 12 DPi_Dmfcc_mDelta Delta MFCC y (post) 12 DPi_DDmfcc_mHarmonic FeaturesFundamental frequency y 1 DHi_f0_v mpeg7:AudioFundamentalFrequencyFundamental fr. Modulation (frequency, amplitude) n 2 F0 Mod AM, FR ScalableSeriesType element name="Modulation"Noisiness y 1 DHi_noisiness_v mpeg7:AudioHarmonicityInharmonicity y 1 DHi_inharmo_v cuidado:AudioInharmonicityHarmonic Spectral Deviation y 3 DHi_devs_v mpeg7:HarmonicSpectralDeviationOdd to Even Harmonic Ratio y 3 Dhi_oeratio_v cuidado:HarmonicSpectralOERatioHarmonic Tristimulus y 9 Dhi_tri_v cuidado:HarmonicSpectralTristimulusHarmonic Spectral ShapeHarmonicSpectral centroid y 6 DHi_sc_m mpeg7:HarmonicSpectralCentroidHarmonicSpectral spread y 6 DHi_ss_m mpeg7:HarmonicSpectralSpreadHarmonicSpectral skewness y 6 DHi_skew_m cuidado:HarmonicSpectralSkewnessHarmonicSpectral kurtosis y 6 DHi_kurto_v cuidado:HarmonicSpectralKurtosisHarmonicSpectral slope y 6 DHi_slope_v cuidado:HarmonicSpectralSlopeHarmonicSpectral decrease y 1 DHi_decs_c cuidado:HarmonicSpectralDecreaseHarmonicSpectral rolloff y 1 DHi_rolloff_v cuidado:HarmonicSpectralRollOffHarmonicSpectral variation y 3 DHi_variation_v mpeg7:HarmonicSpectralVariationPerceptual FeaturesLoudness y 1 DPi_loud_v AudioLoudnessRelaitveSpecific Loudness y 24 DPi_specloud_m cuidado:AudioRelativeSpecificLoudnessSharpness y 1 DPi_sharp_v cuidado:AudioSharpnessSpread y 1 DPi_spread_v cuidado:AudioSpreadPerceptual Spectral Envelope ShapePerceptual Spectral centroid y 6 DPi_sc_m cuidado:AudioFilterbankCentroidPerceptual Spectral spread y 6 DPi_ss_m cuidado:AudioFilterbankSpreadPerceptual Spectral skewness y 6 DPi_skew_m cuidado:AudioFilterbandSkewnessPerceptual Spectral kurtosis y 6 DPi_kurto_v cuidado:AudioFilterbankKurtosisPerceptual Spectral Slope y 6 DPi_slope_v cuidado:AudioFilterbankSlopePerceptual Spectral Decrease y 1 DPi_decs_c cuidado:AudioFilterbankDecreasePerceptual Spectral Rolloff y 1 DPi_rolloff_v cuidado:AudioFilterbankRolloffPerceptual Spectral Variation y 3 DPi_variation_v cuidado:AudioFilterbankVariationOdd to Even Band Ratio y 3 DP_ioeratio_v cuidado:AudioFilterbankOERatioBand Spectral Deviation y 3 DPi_devs_v cuidado:AudioFilterbankDeviationBand Tristimulus y 9 DPi_tri_v cuidado:AudioFilterbankTristimulusVarious featuresSpectral flatness y 4 DPi_sfm_m mpeg7:AudioSpectrumFlatnessSpectral crest y 4 DPi_scm_m cuidado:AudioSpectrumCrestTotal Number of Features 166
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 24/25
12 Acknowledgement
13 References
� ���� � ����������� ���� ��� % ���+� �0� ��#��� ' � � � % )�� � � % � % ����� % � � ��� %�� � �3�����>���0�������A� % � � ���0���(� % � % � � �����\ 2��>��� �0� ����� � ���0� '&� �0� % � ' � �� ��� % ���3� ���>���7� % ������ ���� � ��������������������D� '(� �����!� % )�� � � % � % ���A� % � � �0� ' ��� % ���3� %�� ���#��� ' � � ��� ��� %�� � � �A������� � ������>� ��% � % � � � % ��� ��� � �7�������M���0���(� % � % � � ����A� �E�+�A� �0������ ��� �
= 0��������������������
� � � �3� �����U � ���!��������� % �������T�+�"����#�������#��$t��� �&% %�� �h�0�: ���� % �+�'����0� )*) % � %(' �)���>� � )*��� � ���2��� % ����� %�� �,+ % )")�� � � ���"%�� ' � �>)2�������� � �-�� ��� %��*� �E� � �>� % �.�*!� �� � ' �3� � � �.��.��������/:�� %�' ��� % � � )��� � �E�10.2*��� � ��� �E� � )"� ' �'� � ������)���� � % � � � ��3 �7� � �0������, �M� % �.�* ��%(' ���� % �(0 ��� % �54 � �� � ' �3� � � �"� � )76!�98 �>)��M�:��������;�9< � � )"� ' � � � ���:�E��.2*��� � ���f���7� % ' ��� % � � � � )������3�.% %�� � ��� %�� � ' ��3 %�' � ' � % %���� % �2�0�>) ����� ' � �"% �' ��� ��� %�� � � � )=+��>�p��� � � �-�� ��� %��"� ��� � �>� % ���<U���0�����,���?�;.����@��;� �D� � ��� � �A��#>�A����)B8 ����� % � ' �3���0�C� ��� % ��� � ) �*) % ���D� �*�#� %�' �+) % �E�����A���3��� � � ) ���E� %('>%�� �F���0���'� ' � ��� � U��>�����+) % � ��� �0�5�0 � /G��7� � ��� � ��HI�&�"J�K�K��;�.$ �2�L$ %�' #0�� ' �>)����M�&�p�0� ������ � ����������� � ����� � � %�� �H�� %�'&� �2�0�E� �N��� �O�-��� � )"� ' ���t��� ���M����.������������������3���(0�� % � �A� % � � )*�h� % ' #0�� )������7� � ����� '&� ���.3������ ��� � �� �3�'���7�M� �3�A�>���7� % 2"���M� ���2"�*� � � % � % ����� % � �&� ��� �+�y� � �2�0� % 2"����� �P���>�0� � ����)�� � �2�A� % 2"���
/��Q�J�R��"Q�J� ��
� ���� %�� ��HS�6� � )UTI��H % ' ��.���� .���VJ � � ���� � � ���#��� ' � � � % )�� � � % � % ����� % � � � � � �����'�!� � ���(�����>� � % � % � � � �"� ��>�3������.��Q����U�p�����M� ���-���>�9���� �' ��� % ������ % � )"��� %�% �.�:WS� � � �:� ' % ���"� ���M���M�X�#���� �;�Y4�� � % )*��� % � � �0��� ' �"��� % ) % ' � � � % � � �3�M) % �� � � ��� ' �>)����D�E�0� � �����M� � � �>�3�$) % �7� %�'&% � ��� % � % �M�� ' � � � ' ��� % ���+�y� %�' #0���������R����!�p�����M� �������>���A�0� �' ��� % ����Z[.Q0��� �0� �"���D� � ���M� �& ���>���7� % ���.�[���+�A����������\ ����� %�� ����� � �*!� ��p���0����t�����A� #0�����"����� �3�"����.����@��;��� �p�>)������E�0�����2�^ 2���) % ��� % � � �0�L$ ��������2�>� )��?]t�>�*) � ����� � � )Z ���(� % �3�:]t�>�*) � ���7��� �U��� �") % �/ � �����0�>���
/ 0��J�J����"J���K��
�p -/��P�"@C�"J�K�K�J��;� �0� �E�0� ' �A� % � � $����E� � �>���>�2�,�P� �*��� % ' ��) % � �D� � �'� � � � ���.�M� %�� � % � � �0� ���!��0�3���,�� ����5��� �") % ��� � � � Z � / �^�;$ �ZM� �_J���� � � � Z � /!�`< ��� �a.R����� �"��� J�K�K�J�� U���������� �U�S�V�bJ�K�K������ �0��� ' ��� % ��������7� % � % ���A� % � � �0�N] �������P� ��� % ���3� �0� ���#��� ' � � � � ��� �3#>�A�������� %�� �U+ % ����������� % ��� � ������7� % � % �M��c� % � ���� �!�� % ��8M�A� % �?� �V3 %�'&%ed ��� % � � � /��U�R���� �D� �9' � � � % � � ��W��.�fT��0�1%"��I� � U���������� � �S� �S�-�c� � )*� ' ��� ��� ���M�c�bJ�K�K�K��� �0� �7����� ' � � � �7�>� � )�)��M�.��� % � � % � � %�� ���y� ��� � �'�&3��^�0�,�p -/��P�"@�� � �L� �M� � ����� %�� ������ ' � � ��� U���������� �U�S� � � )S6!��8 �>)����Y�"J�K�K�J��;� ����� ' ��� % ����� ��� ����������� % � �f� % � � ���T)����.�M� %�� ���0�� �E�0�=���>� � )&�������7� % � % ����� % � � � � �L� �M�q���0����#0�0���*�������)�� � � U���������� �t�S�:� � )76I�98\�>)����:�"J�K�K����;�g+ % �����3��� % ����� ��� ���7� % � � $t����U� % � � �0� ���� % �U8M�A� % �7� ��3 %�'&%Ad ��� % � � �E�0�����y� ����A��� % � % ����� % � � �0�] �A������� ��� % �+� � �0� �7����� ' � � � � �M���3#>���7��� �� <-6���]t� � )�� � �*�HS�8M� # % � �����9]���� � ) � �� �"� � �!�;�������#�&< � � )"� ' � � � ����� �0��� � �M�����^����M�>� ��% � % � � �.W��.���"T �0�1%*�� 2�� � � % ���&�b+�� � �M�� ���2� % ������N/�� � � )7�h� � � � � ���7��.����@��� �D� � �7�#���*��� % � � � � )Z� ' � � �"��� % � � �0���h��>#>���7� ' �*�#� % �E����� �0��h� � �����+�9Z ' ��� % �&) % �.�M� % ' %�� �A���0��� � �-�� ��� � �"% ���*�y���!� ' � � �X�
G. Peeters A Large Set of Audio Features for Sound Description 2004
23/04/04 25/25
�����(�����?6I�$� � )f��� � � � �3)"�`�#���� �;�=���>� � )b�#��� � �7��0� ' ��� % � � � #>���7�+) � � ���h�h+ % �>� ]t� ' ��� �'��� % #>���'�M��� �� <-6�� � ����������� � ���� � � %�� �;�\ �>� )*�a/�� �U$�� � � � ' �h�M� ���M�G��������� �M� �A��� % � % ����� % � � �^�7���M����� � � ) ����#� % � ' �3���0� �3�") % ��� �L8M� +�� � )"#0����% �0� � �*��� % ' �+) % ��D� '&� ��� %�� ��� � �V< �0�(���[� � �>���P8M����� � ��<-] ���L8M� 2������
$ �J�K�@��"J�J�Q��
6S�V8\�>)���� �2 �$��.�bJ�K�K�.�;�, 2����+���-/ �M� %�� �&� ����� ���*��)����M)��M�.��� % � ��������!)���#>�A�;� �*%(' ��� ��3��� ��� % � � � ���+� ' �
� � % �.%�������/��V��#��@�@��#�&�M y��>�M��)"���� �E�0�!���3���+�"� ��� %�� � ���>�") � �M�7� �0�q��� '(� �0����� ��� ' �A� % � #>��� �7�>� � )���� �P� � �� � % �.%�������/��V��#����K��#�M S�7�3���2�>� ���>����� % ����� � �M��� %�� �[� � � %�� ���!�1�"4��!�����3���� � % �.%�������/�� � � )D/��V$:�����*����)0�-��� K��#�&� �� �3�'��� % ��� ���.3 � ����7� % � � �E�0�M��� % � % �����(��#>� � ) ��������� � )&�!� % � % �����B#>� � )�� % )����&���M���0� � ��� % � � �0��E��.2*��� � ����� �P� �
3 :��R�J����#R�J�R��