UNIVERSIDADE DO PORTO Faculdade de Engenharia Departamento de Engenharia Electrotécnica e de computadores Identificação de Oradores Para Estação de Anotação Audiovisual Trabalho realizado no âmbito da disciplina de Projecto, Seminário ou trabalho Final de Curso do curso de Licenciatura em Engenharia Electrotécnica e de Computadores Projecto realizado no Instituto de Engenharia de Sistemas e Computadores do Porto Orientadores FEUP: Eng.ª Maria Teresa Andrade Prof. Artur Pimenta Alves Orientadores INESC: Eng.º Luís Gustavo Martins Eng.º Sílvio Macedo Rui Miguel Martins Costa Julho de 2005
143
Embed
Identificação de Oradores Para Estação de Anotação Audiovisualpaginas.fe.up.pt/~ee98235/Files/RELATORIO-RUI COSTA.pdf · Identificação de Oradores Para Estação de Anotação
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDADE DO PORTO
Faculdade de Engenharia Departamento de Engenharia Electrotécnica e de computadores
Identificação de Oradores Para Estação de Anotação Audiovisual
Trabalho realizado no âmbito da disciplina de Projecto, Seminário ou trabalho Final de Curso
do curso de Licenciatura em Engenharia Electrotécnica e de Computadores
Projecto realizado no Instituto de Engenharia de Sistemas e Computadores do Porto
Orientadores FEUP: Eng.ª Maria Teresa Andrade Prof. Artur Pimenta Alves
Orientadores INESC: Eng.º Luís Gustavo Martins
Eng.º Sílvio Macedo
Rui Miguel Martins Costa
Julho de 2005
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
2
SUMÁRIO
Este trabalho apresenta o resultado de um estudo sobre segmentação automática de
oradores e integração com um anotador de conteúdos audiovisuais.
Segmentação automática de oradores é detectar as fronteiras de mudança de oradores
num ficheiro áudio.
Assumiu-se que o número de oradores era desconhecido, tal e qual, como se tratasse, por
exemplo, de segmentação de um noticiário, em que à partida é desconhecido o número de
jornalistas.
Foram testados dois tipos de segmentadores. Um primeiro segmentador que utiliza dois
níveis de threshold e um outro segmentador que utiliza um método de refinação
denominado por Bayesian Information Criterion.
Foi utilizada a framework MARSYAS para se extrair as características do sinal áudio. O
anotador, 4VDO ANNOTATOR, serviu como interface gráfico, onde foram criadas
tracks com as devidas segmentações.
Palavras-chave: Anotador – Segmentador – Detecção de potencial mudança de orador
– Divergence Shape – Line Spectrum Pairs – Sons vozeados, ão-vozeados e silêncio
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
3
AGRADECIMENTOS
Quero agradecer aos meus dois orientadores do INESC Porto, Sílvio Macedo e Luís
Gustavo Martins, pela sua disponibilidade, ajuda e orientação dada ao longo deste
trabalho.
Quero agradecer aos meus colegas da Unidade de Telecomunicações e Multimédia do
INESC Porto pelo seu companheirismo.
Last but not the least, quero agradecer aos meus pais e aos meus irmãos pelo indiscutível
apoio desde o primeiro dia.
A todos, um muito obrigado!
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
12.1 ANEXOS 1 – SEGMENTADOR SEM BIC....................................................... 69
12.2 ANEXOS 2 – SEGMENTADOR COM BIC ..................................................... 88
12.3 ANEXOS 3 – SEGMENTADOR COM BIC ...................................................132
13 REFERÊNCIAS E BIBLIOGRAFIA ...................................................................142
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
7
ÍNDICE DE FIGURAS
Figura 1 – Diagrama esquemático do mecanismo de produção da fala
Figura 2 – Modelo Excitação-Filtro
Figura 3 – Cálculo do número de LPCs
Figura 4 – Zeros de LSP
Figura 5 – Diagrama de blocos do processo (heurístico) para cálculo dos coeficientes mel-
cepstrais
Figura 6 – Escala de Mel
Figura 7 – Diagrama de blocos do algoritmo de classificação de segmentos em vozeado, não-
vozeado e silêncio
Figura 8 – Diagrama utilizado na detecção não supervisionada de mudança de oradores
Figura 9 – Mapa de distância de divergência LSP
Figura 10 – 4VDO ANNOTATOR
Figura 11 – Exemplo de uma segmentação
Figura 12 – Anotação no 4VDO
Figura 13 – Esquema representativo da integração do SPEAKERID no anotador
Figura 14 – Esquema representativo do segmentador
Figura 15 – API para criação manual de segmentos
Figura 16 – API usada para a segmentação automática de oradores
Figura 17 – Esquema de como são usados os intervalos de confiança
Figura 18 – Exemplo de um possível teste realizado
Figura 19 – Tabela com os valores calculados de FDR, MDR, Precision e Recall
Figura 20 – Nova API usada para a segmentação automática de oradores
Figura 21 – Histograma da duração dos segmentos do teste 13
Figura 22 – Curva Recall-False, do teste 13, com � igual 0,4
Figura 23 – Curva Recall-False, do teste 13, com � igual 0,3
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
8
ÍNDICE DE TABELAS
Tabela 1: Quadro resumo dos vários testes realizados
Tabela 2: Resumo com os melhores resultados para o segmentador sem BIC
Tabela 3: Resumo com os melhores resultados para o segmentador com BIC
Tabela 4: Tabela do teste 13, com � igual 0,4
Tabela5: Tabela do teste 13, com � igual 0,3
Tabela 6: Resumo com os melhores resultados para o segmentador com BIC
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
9
INTRODUÇÃO
As tendências e os paradigmas actuais na computação apontam para a utilização
crescente de materiais multimédia, nomeadamente do vídeo. A crescente disponibilidade
de materiais audiovisuais coloca problemas de armazenamento e acesso e sugere modelos
de reutilização para aproveitar toda a riqueza da informação existente.
Estes arquivos de multimédia necessitam de ferramentas de software capazes de
automaticamente analisar os seus conteúdos, para se proceder a operações de
identificação e pesquisa. É neste contexto que surge este projecto, detecção de mudança
de oradores para integração num sistema de anotação de conteúdos audiovisuais.
O presente relatório está essencialmente dividido em duas partes principais: uma parte
teórica (do capítulo 1 ao capítulo 7), e uma parte prática (capítulo 8 e 9). Assim será feita
uma apresentação de cada metodologia com a respectiva fundamentação teórica e com a
devida ilustração realizadas nos capítulos 8 e 9.
Inicialmente, no primeiro capítulo, é apresentado um breve estudo sobre a fala, onde é
explicado mecanismo para a produção de fala.
No segundo capítulo são apresentadas as características de sinais de voz. É explicado
qual a diferença entre sons vozeados, não vozeados e silêncio.
No terceiro capítulo apresenta-se métodos para a extracção de características, como por
exemplo Linear Spectral Pairs, LPSs.
No quarto capítulo é explicado como se realiza a segmentação de sons vozeados, não
vozeados e silêncio.
No quinto capítulo é apresentada uma breve descrição da framework MARSYAS,
ferramenta que irá servir de suporte na extracção de características.
No sexto capítulo é apresentada a solução adoptada para a segmentação não
supervisionada de oradores. É explicado todo o processo do sistema, bem como os três
módulos que o constituem: módulo de processamento front-end (I), módulo de
segmentação (II) e módulo de clustering e actualização do modelo do orador.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
10
No sétimo capítulo é constituído por uma descrição de um anotador e é feita a
apresentação do 4VDO ANNOTATOR. É também descrito o modo como foi integrado o
segmentador no anotador.
No oitavo capítulo é descrita a solução adoptada para a integração do segmentador no
anotador bem como o método adoptado para a avaliação do segmentador.
No nono capítulo são apresentados os resultados obtidos bem como algumas reflexões
sobre os mesmos.
1.1 – Apresentação da empresa
O projecto foi realizado no INESC Porto - Instituto de Engenharia de Sistemas e
Computadores do Porto, na unidade de Telecomunicações e Multimédia.
O INESC Porto é uma associação privada sem fins lucrativos reconhecida como
instituição de utilidade pública, tendo adquirido recentemente o estatuto de Laboratório
Associado. Desenvolve actividades de investigação e desenvolvimento, consultoria,
formação avançada e transferência de tecnologia nas áreas de Telecomunicações e
Multimédia, Sistemas de Energia, Sistemas de Produção, Sistemas de Informação e
Comunicação e Optoelectrónica.
A Unidade de Telecomunicações e Multimédia actua em áreas chave no âmbito das
modernas redes e serviços de comunicações, em especial Processamento de Sinal e
Imagem, Arquitecturas de Redes, Serviços de Telecomunicações e Microelectrónica.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
11
1 - PRODUÇÃO DE FALA
Falar é algo tão natural para nós humanos que nem nos damos ao trabalho de perguntar
por vezes o que é a fala. Nesta introdução iremos dar-lhe um tratamento mais científico e
explicar o que é a fala.
Há um modelo de comunicação geralmente aceite, designado cadeia de fala, que
considera três fases fundamentais neste processo de comunicação: a produção, a
transmissão e a recepção da fala.
Figura 1: Diagrama esquemático do mecanismo de produção da fala – Extraída dos acetatos da
disciplina Análise, Síntese e Reconhecimento da Fala
No processo da produção distinguem-se basicamente dois processos: no primeiro, o
orador transforma a informação que pretende transmitir em símbolos de uma estrutura
linguística. O segundo processo consiste em materializar esses símbolos em unidades
acústicas. Para tal, são accionados os músculos necessários à geração desse fluxo através
da geometria das cordas vocais e do tracto vocal. Deste modo é produzida uma onda de
pressão acústica. De notar que este sinal é realimentado no próprio falante através do seu
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
12
aparelho auditivo, permitindo-lhe, assim, avaliar e controlar o processo de produção de
fala.
Na transmissão, o sinal de fala é normalmente afectado pelos mais diversos tipos de ruído
(por exemplo, a fala de outras pessoas) e por distorções de canal de transmissão (por
exemplo, o corte das frequências superiores a 4 KHz numa comunicação via telefone).
Por fim, na recepção da fala, o(s) ouvinte(s) capta(m) a onda de pressão acústica através
do ouvido e tenta(m) extrair a informação nela contida por um processo de análise
auditiva.1
A fala é produzida através da libertação de ar dos pulmões para o tracto vocal, que é
formado basicamente por cavidades e órgãos articuladores. O ar é conduzido para fora
dos pulmões pela traqueia, passando pela laringe, onde estão as cordas vocais. O espaço
compreendido entre as cordas vocais é chamado de glote, e a sua abertura pode ser
controlada movimentando-se as cartilagens aritenóide e tiróide. É lá que o fluxo contínuo
de ar dos pulmões é geralmente transformado em vibrações rápidas e audíveis quando
falamos.
Durante a respiração, a passagem laríngea está aberta. Quando se inicia a fonação, as
cordas vocais juntam-se e inicia-se a expiração. Ao juntarem-se, as cordas vocais
provocam um aumento de pressão na área, pressão que aumenta até “forçar” as cordas a
abrirem outra vez. A pressão baixa e as cordas voltam a fechar. Este processo repete-se
rapidamente criando ondas regulares. Além da pressão subglotal, exerce-se ainda no
processo de funcionamento das cordas vocais o chamado efeito de Bernoulli que assenta
no princípio de conservação de energia. Este princípio estabelece que a velocidade e a
pressão de um fluxo de ar são inversamente relacionados: isto é, se a velocidade aumenta
a pressão diminui. Quando um fluxo de ar chega às cordas vocais quase fechadas ou
fechadas, a sua área de passagem diminui, logo a velocidade do ar aumenta e atinge o seu
máximo na glote. Em consequência, a pressão baixa à medida que o fluxo de ar vai
saindo e atravessa a glote. A redução de pressão leva as cordas a juntar-se.
Estes dois processos aerodinâmicos – a pressão glotal e efeito de Bernoulli – actuam
sobre as cordas que têm uma elasticidade que lhes permite ser modificadas de várias
maneiras. Podem ser esticadas e podem aumentar ou diminuir o volume do próprio
1 Para mais informação consultar http://telecom.inescn.pt/research/audio/cienciaviva/index.html
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
13
músculo das cordas. A espessura das cordas altera igualmente o seu movimento. Estas
variações são responsáveis pela variação do “tom” da voz, isto é, definem o pitch ou a
frequência fundamental de cada voz.
Este processo produz uma sequência de pulsos cuja frequência é controlada pela pressão
do ar e pela tensão e comprimento das cordas vocais. Os sons produzidos são chamados
de vozeados ou sonoros, e normalmente incluem as vogais. A faixa de frequência da
vibração das cordas vocais, o pitch, é de aproximadamente de 90 a 500 Hz, sendo que
entre os homens varia de 100 a 150 Hz, nas mulheres de 200 a 250 Hz e nas crianças
entre 300 a 500 Hz. A entoação é produzida pelas variações do tom da voz mais alta ou
mais baixas que o tom natural. Se o tom se mantivesse igual, seria de uma voz
monocórdica, parecendo-se a ao som produzido por um robot, lembrando-nos dos velhos
filmes de Frankenstein.
O tracto vocal é um tubo acústico não uniforme que se estende desde a glote até aos
lábios, incluindo a laringe, faringe, cavidade oral, cavidade nasal, língua, palato e dentes.
Os espaços formados entre esses componentes funcionam como cavidades ressonantes,
modificando as ondas sonoras provenientes da glote.
Para além da vibração das cordas vocais, o fluxo de ar pode tornar-se audível de duas
outras maneiras. O fluxo pode ser constringido em algum ponto do tracto vocal, por
exemplo, elevando-se a língua em direcção ao palato, tornando-se turbulento e
produzindo um ruído de espectro largo. Os sons assim formados são normalmente
chamados de fricativos, normalmente presentes em fonemas como /s/2 e /�/.
Outro método é interromper totalmente o fluxo de ar em algum ponto do tracto, e então
liberar de uma só vez a pressão formada. O som transiente é produzido por uma abertura
repentina, brusca, de uma oclusão no tracto vocálico, onde se criou uma alta pressão de
um lado da oclusão. A rápida igualização de pressão de ar de um lado e outro lado da
oclusão produz “uma explosão” sonora. Os sons assim produzidos são chamados de
oclusivos ou plosivos, presentes em consoantes como /p/ e /t/.
Estes últimos dois métodos são independentes do primeiro, isto é, sons fricativos ou
plosivos também podem ser, ou não, vozeados.
2 O Símbolo / / é usado ao longo deste relatório para designar um fonema, a unidade básica de informação lingística
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
14
Na fala, as chamadas fricativas não-vozeadas, são sons produzidos pela excitação do
tracto vocal com um fluxo de ar constante que se torna turbulento em algum ponto de
constrição (não-vozeamento), como por exemplo /v/ e /z/. As chamadas fricativas
vozeadas, resultam de excitação mista (não-vozeamento + vozeamento), como por
exemplo /s/.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
15
2 - CARACTERÍSTICAS DE SINAIS DE VOZ
Sons de fala podem-se classificar em três distintas classes de acordo com o seu modo de
excitação: sons vozeados, não vozeados e plosivos. Os sons fricativos vozeados não são
classificados como uma classe distinta porque o modo como são excitados é exactamente
igual aos sons vozeados. A única diferença entre eles, é que existe uma constrição ao ar
no caso dos fricativos.
2.1 - SONS VOZEADOS
Estes são criados pela produção quasi-periódica de pulsos de ar, que passam pela glottis,
excitando o tracto vocal. No domínio dos tempos, estes sons são ondas periódicas que
podem ter várias formas diferentes de acordo com o som produzido. A representação no
domínio das frequências destes sinais evidencia que a excitação periódica origina tons
harmónicos, relacionados com a frequência fundamental. Isto significa que o espectro
será caracterizado por ter uma estrutura harmónica, tal e qual como uma nota musical
quando tocada por um instrumento. A amplitude de cada componente do harmónico é
determinada pelo timbre. O timbre é a forma que a envolvente espectral toma aos
diferentes sons. Para sons diferentes (por exemplo, para vogais diferentes) o timbre varia.
Os formantes são as frequências em que a envolvente espectral toma valores máximos. O
que se conclui é que é possível determinar a vogal produzida com base nos dois primeiros
formantes detectados. Existe uma componente harmónica quando um som vozeado é
produzido, evidenciado pela periodicidade da forma de onda. De notar, as diferentes
localizações dos formantes em duas vogais. É por isso que os formantes constituem um
conceito muito importante no processamento da fala: dois sons vozeados podem ser
diferenciados pelo pitch em que são produzidos e pelas frequências dos seus formantes.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
16
2.2 - SONS NÃO-VOZEADOS
Como já foi dito os sons não-vozeados não têm excitação glotal. Em vez disso, o ar é
forçado através de uma constrição algures no tracto vocal, com velocidade suficiente para
criar turbulência. As formas de onda não têm periodicidade, isto é, o seu período é
considerado como infinito, e o correspondente espectro é caracterizado como ruído. As
formas de onda são quase aleatórias, evidenciando uma elevada taxa passagem por zero,
fazendo com que seja difícil modelar este tipo de onda. Analisando o comportamento dos
formantes é possível concluir que são muito instáveis, sendo esta uma das razões pela
qual estes sinais ainda não foram bem caracterizados, comparando com a caracterização
possível para os sons vozeados.
2.3 - SONS PLOSIVOS
Os sons plosivos resultam da constrição completa em alguma parte do tracto vocal, com
acumulação de pressão e libertação abrupta em seguida. O ponto de completo fechamento
pode ser efectuado em várias zonas de articulação e a excitação pode ou não causar
vibração das cordas vocais, como no caso dos sons fricativos.
Como estes sons são dinâmicos por natureza, as suas propriedades são intensamente
influenciáveis pela vogal ou consoante que se lhe segue. Por esta razão, a forma de onda
de sons plosivos dá-nos pouca informação sobre o modo de realização da consoante.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
17
3 - EXTRACÇÃO DE PARÂMETROS
Num processo de classificação, o primeiro passo baseia-se na redução da quantidade de
informação. Esta etapa de redução de informação é geralmente denominada como a fase
de extracção de características e consiste em encontrar factores importantes para a
identificação de cada evento. As características extraídas são as mesmas para cada
excerto de sinal áudio, para que posteriormente possam ser comparadas.
A extracção de todas as características foi efectuada utilizando o ambiente
MARSYAS[6].
Nos métodos tradicionais destacam-se dois grupos: os baseados no espectro de predição
linear (LPC) associado ao modelo de produção acústica da fala e os baseados no espectro
de Fourier do sinal de fala (entre eles os coeficientes mel-cepstrais – MFCC). Estes
últimos são menos exigentes computacionalmente.
Características diferentes apresentam resultados diferentes em diferentes sistemas de
reconhecimento da fala. É difícil de determinar qual a melhor característica. Contudo,
características diferentes podem complementarem-se. Tendo em consideração este facto,
iremos combinar várias características para melhorar a performance do nosso sistema.
Sendo assim, no nosso sistema utilizamos linear spectral pairs (LSPs), coeficientes mel-
cepstrais, coeficientes de predição linear (LPCs) e o pitch ou frequência fundamental.
Utiliza-se o pitch pois discrimina bem o género feminino do masculino.
3.1 - ANÁLISE DE PREDIÇÃO LINEAR (LINEAR PREDICTION
COEFFICIENTS)
Na Fala, a Análise de Predição Linear baseia-se no modelo “Excitação–Filtro” do
processo de produção da fala, conduzindo a um modelo simplificado relativamente ao
original, cuja principal diferença reside na modelação do tracto vocal por um filtro só
com pólos.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
18
O tracto vocal pode ser visto como um tubo não uniforme constituído por múltiplos
pequenos tubos concatenados, com áreas de corte transversal diferentes, mas com o
mesmo comprimento. Este tubo resultante teria um conjunto de ressonâncias semelhantes
às do tracto vocal real. Os tractos vocais reais geram ressonâncias cujo número pode ser
razoavelmente predito por modelos de tubos
Figura 2: Modelo Excitação-Filtro – Extraída dos acetatos da disciplina Análise, Síntese e
Reconhecimento da Fala.
Considere-se que uma qualquer amostra do sinal pode ser obtida através da combinação
linear das p amostras anteriores e do termo de excitação:
�=
+−=p
kk nGuknSans
1
)()()(
Aplicando a transformada-z
�=
− +=p
k
kk zGUzSzazS
1
)()()(
A função de transferência do filtro do tracto vocal fica assim definida:
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
19
�=
−−==
p
k
kk za
zGUzS
zH
1
1
1)(
)()(
Este modelo, só com pólos, apresenta limitações sobretudo na modelação de
determinadas classes de sons, como as fricativas e nasais, onde se verificam anti-
ressonâncias. Contudo este modelo funciona bem para sons vozeados, pois os filtros de
oitava ou décima ordem representam bem quatro formantes em boas condições. Os sons
não-vozeados têm um espectro mais simples, ocorrendo uma sobre parametrização.
Mesmo assim, os LPCs funcionam bem neste casos.
A questão agora é: como determinar os coeficientes do filtro? A resposta pode ser obtida
(existem várias interpretações) considerando um predictor linear de ordem p e o
respectivo erro de predição.
Seja o predictor linear, definido pelo filtro
�=
−=p
k
kk zazP
1
)(
cuja saída é
�=
−=p
kk knsans
1
)()(~
Define-se o erro de predição da amostra n como
�=
−−=−=p
kk knsansnsnsne
1
)()()(~)()(
que é a saída do sistema
�=
−−=p
k
kk zazA
1
1)(
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
20
O objectivo é então, para cada frame do sinal de fala, determinar os coeficientes ak que
minimizam uma determinada medida do erro de predição – a medida escolhida é a soma
do quadrado do erro por amostra, e(n), ao longo desse frame do sinal.
Defina-se então a função Erro de predição calculada sobre um frame do sinal (n é o
índice da amostra, ao longo do frame)
� �� ��
���
�−−==
=n
p
kk
n
knsansneE2
1
2 )()()(
Os coeficientes ak, k=1,...p podem ser obtidos fazendo
0=∂∂
kaE
, k=1,..., p
resultando o sistema de equações lineares
� � �=
��
���
� −−=−n
p
k nk lnsknsalnsns
1
)()()()( , 1� l � p
Isto resulta no método da autocorrelação da análise LPC. A autocorrelação para um
atraso � é expressa como:
�−−
+=τ
ττ1
)()()(N
lSlsr
Definindo a matriz R e os vectores r e a , onde r(�) é o estimador autocorrelação:
����
�
�
����
�
�
−−
−−
=
)0(...)2()1(............
)2(...)0()1()1(...)1()0(
rprpr
prrr
prrr
R
����
�
�
����
�
�
=
)(...
)2()1(
pr
r
r
r
�����
�
�
�����
�
�
=
pa
a
a
a...
2
1
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
21
obtém-se, a solução na forma matricial
rRa 1−=
Figura 3: Cálculo do número de LPCs – Extraída dos acetatos da disciplina Análise, Síntese e
Reconhecimento da Fala
Tal como já foi dito, o modelo de predição linear apresenta, em geral, um desempenho
melhor nos sons vozeados do que nos sons não-vozeados.
3.2 - LINE SPECTRUM PAIRS (LSPS)
Os LSPs são uma representação dos coeficientes de predição do filtro inverso A(z), em
que os p zeros de A(z) são mapeados para o círculo unitário do plano Z a partir de um par
de polinómios auxiliares de ordem p+1: P(z) e Q(z)
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
22
[ ]
)()()(
)()()(
)()(21
)(
1)1(
1)1(
−−−
−+−
⋅−=
⋅+=
+=
zAzzAzQ
zAzzAzP
zQzPZA
p
p
Onde os LSPs são as frequências dos zeros de P(z) e Q(z).
Como os coeficiente de predição são reais, o teorema fundamental da álgebra garante que
as raízes de A(z), P(z) e Q(z) vão aparecer em pares complexos conjugados. Esta
propriedade garante que a metade inferior do plano Z é redundante. Os LSPs às
frequências de 0 e +� estão sempre presentes devido à construção de P(z) e Q(z). Assim,
os coeficientes de predição podem ser representados por um numero de LSPs igual à
ordem de perdição p e são representados pelas frequências dos zeros de P e Q da metade
superior do plano Z.
Os LSPs satisfazem uma propriedade de entrelaçamento dos zeros dos polinómios P e Q.
Cada Zero complexo de A(z) é mapeado para um zero em P(z) e outro em Q(z)
Fígura 4: Zeros de LSP – extraído do livro Discrete Time Processing of Speech Signals
3.3 - COEFICIENTES CEPSTRAIS
Os coeficientes cepstrais cm podem ser derivados directamente a partir dos coeficientes
LPCs
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
23
pmacmk
aC kmk
m
kmm ≤≤∨⋅�
��
+= −
−
=� 1
1
1
pmacmk
C kmk
m
pmkm >∨⋅�
��
= −
−
−=�
1
Os coeficientes cepstrais são os coeficientes da transformada de Fourier do logaritmo da
amplitude do espectro S(w):
�+∞
−∞=
−⋅=m
jwmm ecwS )(log
O número de coeficientes cepstrais dever ser superior à ordem de predição, tipicamente
igual a Q = p * 3/2.
Por causa da sensibilidade dos coeficientes cepstrais de baixa ordem à envolvente
espectral e a sensibilidade dos coeficientes de ordem alta ao ruído (ou outras formas de
variação semelhantes a ruído, adoptou-se uma técnica de pesar os coeficientes cepstrais
utilizando uma janela para minimizar estas sensibilidade [2]:
QmQm
wQ
wm ≤≤∨��
���
���
���
+= 1sin1
π
mmm wcc ⋅=ˆ
A análise homomórfica foi desenvolvida como uma forma de desconvoluir dois sinais.
Análise homomórfica é considerada útil para o processamento da fala, pois oferece uma
metodologia para a separação do sinal de excitação da resposta impulsiva do tracto vocal.
Na modelização matemática para a produção do sinal vocal [9][16], temos que um frame
f(n) do sinal vocal (pré-enfatizado) y(n) pode ser escrito como o produto da convolução
do sinal de excitação u(n) com a resposta impulsiva do trato vocal h(n), como é visto na
equação seguinte.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
24
f(n)=u(n)* h(n)
A representação no domínio das frequências desse processo através da aplicação da
transformada de Fourier, transforma a operação de convolução em multiplicação.
Aplicando-se a função logarítmica, transformamos a multiplicação na soma (ou
sobreposição) de sinais, como mostra a equação:
log(F{f(n)})=log(F{u(n)})+log(F{h(n)})
onde F{·} representa a aplicação da transformada discreta de Fourier (DFT). Aplicando-
se a transformada inversa nesse sinal tem-se o cepstrum ou coeficientes cepstrais do sinal
de voz.
Sabe-se que a parcela do sinal de excitação varia mais rapidamente que a resposta
impulsiva do tracto vocal, então os dois sinais poderiam ser separados no domínio
cepstral. Na prática, são utilizados apenas os primeiros coeficientes componentes do
cepstrum. Tais coeficientes contêm a informação relativa ao tracto vocal, que está
intimamente relacionada com o orador.
3.4 - COEFICIENTES MEL-CEPSTRAIS
Os coeficientes mel-cepstrais (Mel Frequency Cepstral Coeficientes – MFCC’s), segundo
Logan B. (2000), representam a informação essencial para o reconhecimento da fala e de
orador. Por esse facto, os MFCC’s têm vindo a tornar-se ao longo dos tempos numa das
mais populares técnicas de extracção de características em sistemas para o
reconhecimento da fala.
Para obtenção dos coeficientes mel-cepstrais a partir dos coeficientes cepstrais, deve-se
aplicar filtros digitais espaçados segundo uma escala acusticamente definida (escala mel).
Uma forma de se fazer isso seria primeiramente mapear as frequências acústicas (em Hz)
para a escala de frequências percebidas (em mels), e depois aplicar um banco de filtros
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
25
espaçados linearmente nesse domínio (domínio mel). Isso corresponderia à aplicação de
filtros digitais espaçados segundo a escala mel, no domínio das frequências reais. O
processo de obtenção dos MFCC é matematicamente descrito na equação:
��
���
��
��
−⋅=�= K
knkSncK
k
π21
cos)(log)(1
para 0 � n < P, onde c(n) é o n-ésimo coeficiente mel-cepstral, P é o número de
coeficientes mel-cepstrais extraídos, K é o número de filtros digitais utilizados e S(k) é o
sinal de saída do banco de filtros digitais.
Figura 5: Diagrama de blocos do processo (heurístico) para cálculo dos coeficientes mel-cepstrais. – Extraída dos acetatos da disciplina Análise, Síntese e Reconhecimento da Fala
A sua eficácia deve-se essencialmente à sua capacidade de representar, de uma forma
compacta, a amplitude espectral através da filtragem efectuada com base na escala mel. A
escala Mel, uma compressão de gama dinâmica, é baseada no sistema auditivo humano,
que não se apercebe do pitch de uma forma linear. Assim, o mapeamento das baixas
frequências é feito de uma forma aproximadamente linear (abaixo de 1000 Hz) e nas
frequências altas (acima de 1000 Hz) de uma forma logarítmica, como pode observar-se
na figura seguinte
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
26
Figura 6. Escala de Mel – Extraído do relatório do projecto fim de curso “Reconhecimento de
Sons de Percussão”
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
27
4 - DESCRIÇÃO DO TRABALHO
Neste capítulo é descrito a segmentação dos sons vozeados, não vozeados e silêncio .E
também a apresentada o modo de selecção da base de dados.
4.1 - SEGMENTAÇÃO EM SONS VOZEADOS, NÃO-VOZEADOS,
SILÊNCIO
A necessidade de decidir se um dado segmento de fala é classificado como vozeado, não
vozeado ou silêncio aparece em muitos sistemas de análise de voz. Existe uma variedade
de métodos para fazer esta separação.
O método escolhido utiliza técnicas de reconhecimento de padrões para a classificação
dos segmentos permitindo combinar a contribuição de um número de medidas de fala
numa única medida capaz de fazer a separação entre as 3 classes. Para cada uma das
classes é calculada uma medida de distância (por exemplo euclidiana ou mahalanobis)
que é calculada a partir de um conjunto de parâmetros extraídos do segmento de fala a ser
classificado e o segmento é atribuído à classe com menor distância.
O sucesso deste teste de hipóteses depende das medidas que são usadas para o critério de
decisão. O problema está em seleccionar características que são simples de derivar a
partir dos segmentos de voz e que são eficientes em diferenciar as 3 classes. As seguintes
medidas foram utilizadas neste sistema:
4.1.1 - TAXA PASSAGENS POR ZERO (NZ)
O número de passagens por zero é um indicador da frequência em que a energia do sinal
está concentrada. A fala vozeada é produzida pela excitação do tracto vocal através de um
fluxo de ar periódico que normalmente tem um baixo número de passagens por zero. A
fala não vozeada é produzida devido à excitação do tracto vocal por uma fonte do tipo
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
28
ruído e como tal tem uma elevada taxa passagens por zero. Durante o silêncio é de
esperar que a taxa passagens por zero seja inferior à fala não-vozeada mas semelhante à
fala vozeada.
4.1.2 - ENERGIA
Medida de potência de termo longo (sinal de fala é sinal de potência)
�−=∞→ +
=N
NnN
nsN
P )(12
1lim 2 onde N= comprimento da janela e S(n) = sinal
Geralmente usa-se a energia, em vez da potência (equivalentes, na prática), e janela
rectangular.
�+−=
=m
Nmn
nSmE1
2 )()(
A energia do sinal para segmentos de fala é muito maior do que a energia de um
segmento de silêncio. A energia da fala não vozeada é normalmente menor do que a
vozeada mas superior à do silêncio.
4.1.3 - COEFICIENTE DE AUTOCORRELAÇÃO NORMALIZADO PARA O
ATRASO DE UMA AMOSTRA (C1)
É definido como:
�
��
�
��
−⋅=
��
�−
==
−
12
1
2
11
)()(
)1()(
N
on
N
n
N
n
nsns
nsnsC
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
29
Este parâmetro é a correlação entre amostras de voz consecutivas. Devido à concentração
de energia nas baixas frequências para os segmentos vozeados, as amostras adjacentes de
voz são altamente correlacionadas, sendo este parâmetro próximo de 1. Ao contrário, para
segmentos não-vozeados é próximo de zero.
4.1.4 - PRIMEIRO COEFICIENTE DE PREDIÇÃO (a1)
Este é o primeiro coeficiente de um codificador de predição linear (LPC) de ordem 10.
Pode ser demonstrado que este parâmetro é o simétrico do primeiro coeficiente do
espectro de Fourier.
4.1.5 - ERRO DE PREDIÇÃO NORMALIZADO (Ep)
É definido como:
��
���
+=
0
log10RE
E ip ε
� � ��
���
�−+−+=
=m
p
kki kmnsamnsE
2
1
()(
�−
=
=1
0
20 )(
1 N
n
nsN
R
Em que p é a ordem do codificador LPC, ak são os coeficientes LPC e N é o número de
amostras do segmento.
Para cada segmento é construído um vector X = [Nz Es C1 a1 Ep]T.
Este vector vai ser usado no cálculo da distância a cada uma das 3 classes. A distância à
classe i é dada por:
( ) )(1ii
Tii MXWMXd −−= −
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
30
�−
=
=1
0
)(1 iN
nii nX
NM
( )( )�−
=
−−−
=1
0
)()()1(
1 iN
n
Tiiii
ii MnXMnX
NW
Em que Ni é o numero de vectores de teste da classe i que foram usados para construir a
média Mi e a covariância Wi da classe.
Estes vectores de teste foram criados a partir de uma segmentação manual de várias
amostras de voz em regiões vozeadas, não-vozeadas e silêncio. Para a segmentação
manual foi usado o programa Praat. Os ficheiros de teste foram escolhidos aleatoriamente
de uma base de dados já existente. Foi segmentado um total de 6 minutos,
correspondendo a extractos de conversas de um minuto de 6 pessoas diferentes, homens e
mulheres. Foi criada uma biblioteca com os vários segmentos criados, num total de mais
de 2000 ficheiros.
Depois de calculadas as 3 distâncias di para um vector X, é escolhida a classe que
apresenta a menor distância.
�
Figura 7: Diagrama de blocos do algoritmo de classificação de segmentos em vozeado, não-
vozeado e silêncio – Extraído do relatório do projecto fim de curso “Reconhecimento de
Oradores”
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
31
4.2 - SELECÇÃO DOS SONS – BASE DE DADOS
A base de dados de oradores é constituída por gravações feitas a partir de canais de
televisão, em ambiente de estúdio de baixo ruído, sendo a maioria dos oradores
jornalistas e figuras públicas. Esta base de dados foi construída no âmbito de um projecto
de fim curso já realizado, contendo 70 ficheiros com diferentes oradores.
Para além desta colecção de ficheiros, foi utilizado uma outra colecção de ficheiros,
“MPEG Meetings”. A partir desta colecção foram criados vários ficheiros para teste,
onde ao contrário da colecção anterior, nem sempre o ruído é baixo, embora tratando-se
da transmissão de um telejornal, há várias reportagens de exterior onde existe ruído de
fundo. Foram criados ficheiros mistos, isto é, com oradores masculinos e femininos, mas
foram criados também ficheiros só com oradores masculinos ou femininos. Fez-se variar
também o número de oradores bem como o tempo que cada orador fala. Para a criação
destes ficheiros foram utilizados os programas Praat e Adobe Audition 1.5.
Foram criados 38 Ficheiros de oradores femininos, 28 ficheiros de oradores do sexo
masculino, 1 ficheiro de silêncio, e 1 ficheiro do telejornal da RTP1.
Todos estes 68 ficheiros têm tempos diferentes, mas formatos iguais: 8KHz, mono,
16bits. Alguns destes 68 ficheiros foram criados concatenando pedaços de conversas
realizadas pelo mesmo orador, para que desta forma se pudesse ter ficheiros mais longos.
Com esta base de dados foram então criados 15 ficheiros de teste.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
32
5 - MARSYAS
Esta secção descreve sucintamente a framework MARSYAS3 utilizada neste projecto
para a integração e implementação de classes e do sistema em si, bem como a sua
experimentação e validação.
A framework chama-se MARSYAS e as iniciais querem dizer Music Analysis Retrieval
and Synthesis for Audio Signals. O desenvolvimento desta framework surge num
contexto de crescimento exponencial da quantidade de informação armazenada em
formato electrónico e à também crescente necessidade de trabalhar toda essa informação.
As soluções encontradas resultam da pressão desta necessidade e assentam na utilização
de técnicas semi-automáticas que permitam uma adaptação rápida à permanente mudança
dos cenários que vão emergindo.
Os vários tipos de problemas de classificação utilizam invariavelmente o mesmo tipo de
características, classificadores e até mesmo algoritmos similares. Tirando partido deste
facto e tendo como perspectiva a obtenção de uma arquitectura flexível, capaz de suportar
vários modelos de classificação, foi desenvolvida uma arquitectura modular baseada em
blocos de processamento que representam uma pequena parte de todo o processo de
classificação.
Desta forma, torna-se facilitada a integração de diferentes técnicas sobre uma framework
e interface comum. Para além disso, permite também uma rápida construção de
protótipos, bem como o seu teste e validação.
5.1 - ARQUITECTURA
Foi implementada utilizando técnicas de programação orientada ao objecto. Foi
implementado em C++ e contém toda a parte de módulos de processamento de sinal e
reconhecimento de padrões de forma optimizada.
3 Para mais informações consultar http://opihi.cs.uvic.ca/marsyas/
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
33
5.2 - CLASSIFICADORES
A framework tem já disponíveis uma série de classificadores, tais como K-NN (K-
Nearest Neighbor), um classificador não paramétrico, ou um classificador Gaussiano, que
assume que cada classe pode ser representada como uma distribuição normal multi-
dimensional no espaço das características, vários classificadores GMM (Gaussian
Mixture) e recentemente sob desenvolvimento, redes neuronais.
Contudo e devido à flexibilidade da arquitectura do MARSYAS, podem ser facilmente
adicionados novos e mais avançados métodos de classificação.
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
6 - SPEAKERID – SEGMENTAÇÃO NÃO SUPERVISIONADA DE ORADORES
Neste capítulo é apresentada a solução adoptada para a segmentação não supervisionada
de oradores. É explicado todo o processo do sistema, bem como os três módulos que o
constituem: módulo de processamento front-end (I), módulo de segmentação (II) e
módulo de clustering e actualização do modelo do orador.
6.1 - DESCRIÇÃO GERAL DO SISTEMA O SPEAKERID foi uma classe desenvolvida no INESC Porto no âmbito deste projecto
utilizando a framework MARSYAS.
A figura seguinte ilustra o diagrama utilizado na implementação desta classe.
Speech Stream
Figura 8: Diagrama utilizado na detecção não supervisionada de mudança de oradores – extraído
de “Unsupervised speaker segmentation and tracking in real-time audio content analysis”
Front-end Process, feature extraction and Pre-segment
Potencial change?
Compare current segment speech with the last speaker model
Clustering and update current Speaker model
Real change?
False Speaker Change
No
Positive Speaker Change
Yes
Bayesian Decison
I
II III
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
35
Como se pode observar o diagrama é composto por 3 módulos: módulo de processamento
front-end (I), módulo de segmentação (II) e módulo de clustering e actualização do
modelo do orador.
É assumido que o stream de áudio na entrada seja só constituído apenas por fala. Tudo o
que não é fala, como por exemplo musica, é assumido que foi filtrado. No processo front-
end, o stream de áudio é dividido em subsegmentos de 3s, com 2,5s de sobreposição.
Estes subsegmentos são usados com unidade base e é realizado um pré-processamento
para remoção de sons não-vozeados e silêncio. Depois, é realizada a detecção de
mudança de oradores. Se não é detectada nenhuma mudança potencial de oradores entre
dois subsegmentos ou é confirmada como falsa uma mudança potencial de oradores4, o
modelo do orador é actualizado, com a informação do subsegmento actual.
No modelo para o orador é utilizado quasi-GMM com segmental clustering[10]. Foi
escolhido este modelo devido aos requisitos impostos, em particular o de processamento
em tempo real. Modelos como GMM não são apropriados pois consomem muito tempo
devido a número de iterações utilizadas no seu treino. Talvez se pudesse adoptar pelo
método online expectaction-maximization (EM) na actualização em tempo real de um
modelo GMM, todavia não seria possível actualizar o número de misturas, requisito
necessário também em processamento em tempo real. Assim foi utilizado, quasi-GMM,
com segmental clustering. Com este método é possível actualizar o número de misturas e
consome menos tempo. Embora não seja tão eficaz como EM tradicional, é capaz de
capturar os parâmetros principais do modelo de orador.
6.2 - SELECÇÃO DE CARACTERÍSTICAS E MEDIDA DE
DISTÂNCIA
Em trabalhos já realizados muitas características foram utilizadas no reconhecimento de
oradores. As mais utilizadas são os Linear Prediction Coefficients (LPCs), Mel
Frequency Cepstral Coefficients (MFCCs) e Line Spectrum Pairs (LSPs). Cepstral Mean
Subtraction é utilizado apenas para eliminar o efeito ambiente. Efeitos como ruído do
canal, música ambiente ou simplesmente o ruído de fundo num directo numa transmissão 4 Processo descrito com mais detalhe na secção 6.3.4 – Refinamento da fronteira de mudança de orador
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
36
televisiva, continuam a ser efeitos difíceis de prever e por isso difíceis de estimar. Esta
será uma das razões que influenciará os resultados.
6.2.1 - SELECÇÃO DE CARACTERÍSTICAS
O primeiro passo num processo de classificação é selecção de características, isto é, a
redução da quantidade de informação e consiste em descobrir factores importantes para a
identificação de cada evento.
Neste trabalho, para cada segmento foram calculadas as características LPCs e LSPs. Em
geral, estas características têm performances parecidas, mas em alguns casos especiais
bem diferentes.
Para além destas características também é calculado o pitch, por se tratar de um bom
discriminador entre homens e mulheres.
Estas características foram calculadas utilizando a framework MARSYAS.
6.2.2 - MEDIÇÃO DA DIVERGENCE SHAPE
Suponhamos que o vector de características extraído de cada subsegmento é Gaussiano, a
sua função densidade de probabilidade pode ser representada como [13]:
( ) ( )���
��� −−−= − µξµξ
πξ 1
2/12/ 21
exp)2(
1)( C
Cp T
n
onde C é a matriz da covariância estimada e µ é o vector de média estimada. A distância
entre dois subsegmentos pode ser definida como:
( ) ( )[ ] ( )( )� −=
ξ
ξξξξξ d
pp
ppDj
iji ln
Tal como foi assumido anteriormente, a função de distribuição de probabilidade das
características são n-variáveis de população normal e podem ser derivadas em:
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
2 0,6 1 0 8 0 88,8889 11 100 Tabela 73 – Tabela do teste 12, intercalado com silêncio, � igual 0,6
Lambda=0.6
50556065707580859095
100105
0 10 20 30 40
FDR (%)
MD
R (%
)
Alpha1
Figura 73 – Gráfico do teste 12, intercalado com silêncio, com � 1 a variar de 0 a 2 e � igual 0,6
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
142
13 - REFERÊNCIAS E BIBLIOGRAFIA
[1] - “Voice and Unvoice Decision” http://www.owlnet.rice.edu/~elec512/PROJECTS00/vocode/uv/uvdet.html [2] - Rabiner, L., Juang, B. H., “Fundamental of Speech Recognition”, 1993 [3] - Ting-Yao, Wu; L. Lu; Ke, Chen; H. J. Zhang (2001) Universal Background Models for Real-Time Speaker Change Detection [4] - W.B. Frakes and R.S. Baeza-Yates. Information Retrieval: Data Structures and Algorithms. Prentice Hall, 1992 [5] - Acetatos da disciplina Análise, Sintese e Reconhecimento da Fala [6] - Cook P., Tzanetakis G. (200) MARSYAS: A Framework for Audio Analysis [7] – Oliveira, Ricardo; Faria, Carlos (2001) Reconhecimento do Orador [8] – Salselas, Inês (2003) Reconhecimento de Sons de Percussão [9] - Deller, J., Hansen, J., Proakis, J., (200) “Discrete-Time Processing of Speech Signals” [10] - H. J. Zhang; L. Lu (2005) “Unsupervised speaker segmentation and tracking in real-time audio content analysis” [11] – H. J. Zhang; L. Lu (2002) “Real-time Unsupervised Speaker Change Detection” [12] – Ting-Yao, Wu; L. Lu; Ke, Chen; H. J. Zhang (2003) “UBM-based incremental Speaker adaptation” [13] – Joseph P. Campbell, JR., (1997) “Speaker Recognition - A Tutorial” [14] – H. J. Zhang; L. Lu (2002) “Speaker change detection and tracking in real-time news broadcasting analysis” [15] - http://www.ines.org.br/paginas/revista/espaco17/ESPACO2.pdf [16] – Petry, A., Zanuz, A. e Barone, D. A. C. () “Reconhecimento automático de pessoas pela voz através de técnicas de processamento digitais de sinais [17] – VISNET D40 – Network Audiovisual Media Technologies, “Rewiew of the work done in Audio-Video Fusion” 2004
IDENTIFICAÇÃO DE ORADORES PARA ESTAÇÃO DE ANOTAÇÃO AUDIOVISUAL
143
[18] – Martins, Maria Raquel Delgado, 1988, “Introdução á Fonética do Português” [19] – Rabiner, L. R., Schafer, R. W.”Digital Processing of Speech Signals”