Delimita¸ c˜ ao de Shots em V´ ıdeo Digital Thiago Teixeira Santos [email protected]Laborat´ orio de Intera¸ c˜ ao (LATIN) IME/USP Laborat´ orio de Imagens Vis˜ ao e Estruturas Espaciais (LIVES) CEI/SENAC Orientador: Prof o ¯ Carlos Hitoshi Morimoto Laborat´ orio de Intera¸ c˜ ao (LATIN) IME/USP http://www.ime.usp.br/∼thsant/mestrado.html 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
CL CLIPS-IMAG, FrancaF Universidade de Fudan, ChinaIBM IBM Almaden, EUAIC Imperial College, Reino UnidoMS Microsoft Research Asia, ChinaMBF Universidade de Glasgow, Reino UnidoMM Media Mill, Holanda
• Deteccao de transicoes graduais ainda nao atinge nıveis satisfatorios!
Thiago Santos, LATIN/LIVES 9
Sinal de Similaridades
• Considere, para uma funcao de similaridade entre dois quadros d,
fV [i] = d(qi, qi+1)
• Os shots sao delimitados analisando-se o sinal fV . Por exemplo:
LIMIAR-SBD(fV )1 Selecione um limiar k2 R← 〈q0〉3 para i de 0 ate T − 14 se fV [i] ≥ k5 R← 〈R, qi+1〉6 devolva R
Thiago Santos, LATIN/LIVES 10
Sinal de Similaridades
• As duas funcoes de similaridade mais largamente utilizadas na literatura sao:
. Diferenca entre Pixels (Casamento de Padroes)
dp(qi, qj) =∑
c∈{R,G,B}
M∑x=1
N∑y=1
|qci (x, y)− q
cj(x, y)|
0 2000 4000 6000 8000 10000 120000
10
20
30
40
50
60
70
80
Thiago Santos, LATIN/LIVES 11
Sinal de Similaridades
. Diferenca entre Histogramas
dh(qi, qj) =∑
c∈{R,G,B}
L∑l=1
|hci [l]− h
cj[l]|
0 2000 4000 6000 8000 10000 120000
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Thiago Santos, LATIN/LIVES 12
Sinal de Similaridades
• Diferenca entre pixels e sensıvel a movimentacoes (objetos ou camera).
1592 1593
• Diferenca entre histogramas e mais robusta as movimentacoes, mas sensıvel asvariacoes de luminosidade.
10140 10141
Thiago Santos, LATIN/LIVES 13
Twin-comparison [28]
• LIMIAR-SBD detecta cortes. Como adapta-lo as transicoes graduais?
• Utilizar diferencas acumuladas:
corteabrupto
qs: Possivel inicio de trans. gradual
qc: Fim de trans. gradual (nao aceito)qe: Fim de trans. gradual (confirmado)
k h
k 1
k h
i
iqs
qc
qcqe
qe qs
qs
dh(qi,qi+1)
Dh(qi,qi+1)
Thiago Santos, LATIN/LIVES 14
Incrementando a Performance das Similaridades
• Filtros para enfatizar analise local
. Yeo & Liu [26] propoem uma slide window de tamanho 2m + 1. Um corte e detectado
em qi se
? fV [i] e o maximo em fV [i−m+1], ..., fV [i− 1], fV [i], fV [i+1], ..., fV [i+
m− 1].
? fV [i] e c vezes maior que o segundo maior valor na janela, onde c e uma constante
definida previamente.
. Ferman & Tekalp [7]
? Obter fV [i] pelas passagem de um filtro passa baixas (media, mediana, media-
mediana)
? Analisar f ′V [i] = fV [i]− fV [i] ao inves de fV
Thiago Santos, LATIN/LIVES 15
Incrementando a Performance das Similaridades
• Composicao de multiplas medidas em clustering 2-medias
0 10 20 30 40 50 60 70 800
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
dp
dh
Scatter plot dp X dh
Thiago Santos, LATIN/LIVES 16
Modelagem de Transicoes Graduais
• Transicoes graduais nao podem ser identificadas pela analise simples de similari-dades entre quadros sucessivos.
• Transicoes graduais podem ser modeladas via funcoes de transicao sobre aluminosidade do pixel entre 2 estados. Autores vem utilizando modelos lineares.
• Yu et. al. [27] utilizam um funcao linear α definida entre t1 e t2 e o quadro negroq0:
. Fade-out
qt(x, y) = qt1(x, y)α(t) + q0(x, y)[1− α(t)]
. Fade-in
qt(x, y) = q0(x, y)α(t) + qt2(x, y)[1− α(t)]
. Dissolucao
qt(x, y) = qt1(x, y)α(t) + qt2
(x, y)[1− α(t)]
Thiago Santos, LATIN/LIVES 17
Modelagem de Transicoes Graduais
• Truong et. al. [21]
. Media da luminosidade com comportamento linear:
0 100 200 300 400 500 600 700 800 9000
0.1
0.2
0.3
0.4
0.5
0.6
0.7(a)
. Variancia da luminosidade com comportamento parabolico:
0 100 200 300 400 500 600 700 800 9000
1
2
3
4x 10
−4 (b)
Thiago Santos, LATIN/LIVES 18
Modelagem de Transicoes Graduais
• Yeo & Liu [26]:
. Tome propoem tomar k maior que o comprimento maximo de uma transicao gradual.
fkV [i] = d(qi, qi+k)
. Considere o seguinte modelo linear para transicoes graduais:
gn =
c1, n < α1,c2−c1α2−α1
(n− α2) + c2, α1 ≤ n < α2,
c2, n ≥ α2
. Daı, podemos esperar, em fkV , o surgimento de platos antecedendo as transicoes graduais:
dki (gn) =
0, n < α1 − k,|c2−c1|α2−α1
[n− (α1 − k)], α1 − k ≤ n < α2 − k,
|c2 − c1|, α2 − k ≤ n < α1
−|c2−c1|α2−α1
(n− α2), α1 ≤ n < α2,
0, n ≥ α2
Thiago Santos, LATIN/LIVES 19
Modelagem de Transicoes Graduais
0 200 400 600 800 1000 1200 1400 1600 18000
10
20
30
40
50
60
70
80
90
100
Thiago Santos, LATIN/LIVES 20
Analise em Baixa Resolucao [26]
• Mais rapido! Opera em imagens menores com pouquıssima perda de performance.
• Atua como filtro de suavizacao. Menor sensibilidade aos movimentos.
• Imagens DC sao facilmente obtidas do stream MPEG! Nao ha custos comdecodificacao.
Thiago Santos, LATIN/LIVES 21
Amostragem Espacial
• Xiong et. al. [24] propoem dividir a imagem em blocos:
. Divide-se a imagem em B blocos sem sobreposicao.
. Comparam-se os blocos correspondentes entre dois quadros.
. Se Bc blocos mudaram, ha uma transicao caso
Bc
B> k%
• A ideia e ganhar velocidade examinando um subconjunto de S blocos.
• O erro e dado por:
e = Pr
(Sc
S> k%|
Bc
B< k%
)+ Pr
(Sc
S< k%|
Bc
B> k%
)
• O erro e bastante pequeno (centesimos) tomando-se apenas metade dos blocos!
Thiago Santos, LATIN/LIVES 22
Amostragem Temporal
• E necessario examinar todos os quadros? Xiong & Lee [25] provam que nenhumatransicao, abrupta ou temporal, e perdida se o vıdeo for analisado comparando-se
pares de quadros ql e qr = ql+step e incrementando-se l← step2 se
2 · gtmax < step < shotmin
ql qr
ql qr
ql qr
Gradual
Abrupta
(a)
(b)
(c)
Thiago Santos, LATIN/LIVES 23
Clustering
• Os metodos vistos anteriormente dependem de limiares que podem variar muitodependendo do tipo de vıdeo (acao, drama, telejornal, clip,...) ou ate mesmodentro de um mesmo vıdeo!
• Clustering de caracterısticas.
. Quadros dentro de um mesmo cluster e sucessivos temporalmente estao no mesmo shot.
. Shots dentro de um mesmo cluster podem ser multiplas ocorrencias de um mesmo
cenario/ambiente/situacao dentro de um mesmo vıdeo. Uma boa pista para a segmentacao
em cenas!
. Menos sujeito as arbitrariedades nas escolhas dos limiares.
. Vetor medio (µ) dos clusters podem ser bons ındices (indexacao e busca).
• Varios trabalhos na literatura [5, 7, 11, 17, 22, 31].
Thiago Santos, LATIN/LIVES 24
Resultados Preliminares [19]
• Estudos em deteccao de cortes.
• Testes com dp, dh e de, essa ultima baseada em contagem de bordas.
• Casamento de Padroes:
Sem Filtragem Subtracao de Mediana Derivada DiscretaFilme Cobertura Precisao Cobertura Precisao Cobertura Precisao
. Metodos bem sucedidos: possıvel implementacao em C, JavaTM
. Frameworks para
processamento de vıdeo estao sendo considerados [34].
Thiago Santos, LATIN/LIVES 27
Referencias
[1] F. Arman, A. Hsu, M.-Y. Chiu Image Processing on Compressed Data for Large Video Databases, Proceedings of First ACM InternationalConference on Multimedia (1993).
[2] D. H. Ballard e C. M. Brown, Computer Vision, Prentice Hall (1982).
[3] J. S. Boreczky e L. D. Wilcox, A Hidden Markov Model Framework for Video Segmentation Using Audio and Image Features, FX PaloAlto Laboratory (1998).
[4] S.-F. Chang e H. Sundaram, Structural and Semantic Analysis od Video, IEEE International Conference on Multimedia (2000).
[5] M. S. Drew e J. Au, Video Summarization by Efficient Clustering of Compressed Chromaticity Signatures, International Symposium onMultimedia Infomation Processing ISMIP’00 (2000). 24
[6] R. O. Duda, P. E. Hart e D. G. Stork, Pattern Classification, Wiley-Interscience (2001). 37
[7] A. M. Ferman and A. M. Tekalp, Efficient Filtering and Clustering Methods for Temporal Video Segmentation and Visual Summarization,Journal of Visual Communication and Image Representation (1998). 15, 24, 27
[8] U. Gargi, R. Kasturi, S. Antani, Performance Characterization and Comparison of Video Indexing Algorithms, Proceedings of Conferenceon Computer Vision and Pattern Recognition (CVPR) (1995).
Thiago Santos, LATIN/LIVES 28
Referencias
[9] A. Girgensohn e J. Foote, Video Classification Using Transform Coefficients, Proceedings of the Intemational Conference on Acoustics,Speech, and Signal Processing (1999).
[10] R. C. Gonzalez e R. E. Woods, Digital Image Processing, Addison-Wesley (1992). 37
[11] B. Gunsel, A. M. Ferman e A. M. Tekalp, Temporal Video Segmentation Using Unsupervised Clustering and Semantic Object Tracking,Journal of Visual Communication and Image Representation (1998). 24
[12] K. A. Hua e J.-H. Oh, Detecting Video Shot Boundaries up to 16 Times Faster, ACM Multimedia (2000).
[13] I. Koprinska and S. Carrato, Temporal Video Segmentation: A Survey, Signal Processing: Image Comunication, Elsevier Science (2001).
[14] Y.-F. Ma, J. Sheng, Y. Chen e H.-J. Zhang, MSR-Asia at TREC-10 Video Track: Shot Boundary Detection Task, TREC-10 Video TrackReport (2001).
[15] J. M. Martınez (editor), MPEG-7 Overview, ISO/IEC N4674, Jeju (2002). 2
[16] A. Nagasaka e Y. Tanaka, Automatic Video Indexing and Full-motion Search for Object Appearances, Proceedings of Second WorkingConference on Visual Database (1991). 2
[17] C.-W. Ngo, T.-C. Pong e H.-J. Zhang, On Clustering and Retrieval of Video Shots, ACM MM (2001). 24
[18] G. M. Quenot, CLIPS System Description and Evaluation, TREC-10 Video Track Report (2001). 9
Thiago Santos, LATIN/LIVES 29
Referencias
[19] T. T. Santos e C. H. Morimoto, Comparison of Temporal Video Segmentation Techniques, LATIN/IME-USP e LIVES/CEI-SENAC(2002). 25, 26
[20] H. Sundaram e S.-F. Chang, Video Scene Segmentation Using Video and Audio Features, IEEE International Conference on Multimedia(2000).
[21] B. T. Truong, C. Dorai e S. Venkatesh, New Enhancements to Cut, Fade and Dissolve Detection Process in Video Segmentation, ACMMultimedia (2000). 18, 27, 35
[22] S. Uchihashi, J. Foote, A. Girgensohn e J. Boreczky, Video Manga: Generating Semantically Meaningful Summaries, ACM Multimedia(1999). 24
[23] N. Vasconcelos e A. Lippman, A Bayesian Video Modeling Framework for Shot Segmentation and Content Characterization, IEEEComputer Vision and Pattern Recognition Conference (1997).
[24] W. Xiong, J. C.-M. Lee, M.-C. Ip, Net Comparison: A Fast and Effective Method for Classifying Image Sequences, Proceedings of SPIEConference on Storage and Retrieval for Image and Video Databases III (1995). 22
[25] W. Xiong and J. C.-M. Lee, Efficient Scene Change Detection and Camera Motion Annotation for Video Classification, Computer Visionand Image Understanding, ACM (1998). 23
[26] B.-L. Yeo and B. Liu, Rapid Scene Analysis on Compressed Video, IEEE Transactions on Circuits and Systems for Video Technology(1995). 15, 19, 21, 27
Thiago Santos, LATIN/LIVES 30
Referencias
[27] H. Yu, G. Bozdagi e S. Harrington, Feature-based Hierarchical Video Segmentation, Proceedings of International Conference on ImageProcessing (1997). 17
[28] H.-J. Zhang, A. Kankanhalli, S. W. Smoliar, Automatic Partitioning of Full-motion Video, Multimedia Systems (1993). 2, 14
[29] H.-J. Zhang, C. Y. Low, Y. H. Gong, S. W. Smoliar, Video Parsing Using Compressed Data, Proceedings of SPIE Conference on Imageand Video Processing II (1994).
[30] H.-J. Zhang, C. Y. Low, S. W. Smoliar e J. H. Wu, Video Parsing, Retrieval and Browsing: An Integrated and Content-based Solution,ACM Multimedia (1995).
[31] Y. Zhuang, Y. Rui, T. S. Huang e S. Mehrotra, Adaptative Key Frame Extraction Using Unsupervised Clustering, Proc. ICIP’98 (1998).24
[32] The Open Video Project,http://www.open-video.org.
[33] TREC Video Retrieval Track,http://www-nlpir.nist.gov/projects/trecvid. 2
[34] GStreamer - Open Source Multimedia Framework,http://www.gstreamer.net. 27