Thiago Teixeira Santos

Delimitacao de Shots em Vıdeo Digital

Thiago Teixeira [email protected]

Laboratorio de Interacao (LATIN) IME/USPLaboratorio de Imagens Visao e Estruturas Espaciais (LIVES) CEI/SENAC

Orientador: Profo¯ Carlos Hitoshi Morimoto

Laboratorio de Interacao (LATIN) IME/USP

http://www.ime.usp.br/∼thsant/mestrado.html

1

http://www.ime.usp.br/~thsant/mestrado.html

Motivacao

• Grande capacidade de processamento (GHz!) e armazenamento dos computadorespessoais. Grandes larguras de banda disponıveis. Bibliotecas digitais.

• Vıdeo e extenso e nao-estruturado. Navegacao e difıcil.

• Necessidade de estruturar, indexar e pesquisar em vıdeo digital.

• Como pesquisar em vıdeo digital? Como recuperar informacao baseando-se noconteudo do vıdeo? Content-based information retrieval (CBIR).

• Nagasaka e Tanaka [16] (1991), Zhang et. al [28] (1993)... Area com cerca de10 anos.

• Pattern Recognition: Special Issue on Image/Video Communication (2002). Mui-tos trabalhos sendo desenvolvidos atualmente.

• Na industria:

. Surgimento do MPEG-7 [15].

. TREC Video Track [33]: modalidade de conteudo audiovisual nas Text REtrieval

Conferences.

Thiago Santos, LATIN/LIVES 2

Um framework para CBIR

Sistema de Busca

Geração de Meta Dados

VídeoDigital

Usuário

Bancode

Vídeo

Casamento de Características

Extração de CaracterísticasInterface

Indexação

Estruturação Extração de Características


Estruturacao

• O paradigma sequencial de navegacao, , nao e o ideal para vıdeodigital.

• Para obter melhores formas de navegacao e indexacao, precisamos estruturar ovıdeo, decompondo-o em unidades menores.

• Que unidades sao essas?

. Em um nıvel semantico mais alto: cenas.

. Em um nıvel semantico mais baixo: shot.

• Um shot e um conjunto de quadros temporalmente vizinhos e espacialmenteconectados. Representa uma acao contınua no espaco.


Transicoes entre Shots

• Ha varias formas de se fazer a passagem de um shot a outro, definidas pelatecnica de edicao utilizada. As transicoes mais comuns em cinema e TV sao:

. Transicoes Abruptas (Cortes)



. Transicoes Graduais

? Wipes

? Fades



. Transicoes Graduais

? Dissolucoes


O Problema da Delimitacao de ShotsSegmentacao Temporal ou Shot Boundary Detection (SBD)

• Vıdeo digital e uma sequencia V = 〈q0, q1, q2, ..., qt〉 de quadros (imagens deresolucao M ×N).

• O problema e encontrar o conjunto T de quadros qi que delimitam os shots(fronteiras).

• Seja R o conjunto de quadros obtido por uma solucao. A performance da solucaoe dada por:

cobertura =|T ∩R||T |

precisao =|T ∩R||R|


Estado da Arte

• TREC 2001 – SBD Task.

• Conjunto de testes: 42 vıdeos, 624267 quadros, 2061 cortes 1108 transicoesgraduais [18].

CL1 CL2 F1 F2 IBM1 IBM2 IC MBF MS MM1 MM2

CortesCobertura 0,988 0,989 0,970 0,970 0,979 0,965 0,935 0,816 0,928 0,947 0,909Precisao 0,904 0,771 0,961 0,961 0,963 0,963 0,893 0,590 0,926 0,726 0,886

GraduaisCobertura 0,707 0,709 0,621 0,597 0,732 0,770 0,640 0,037 0,694 0,778 0,446Precisao 0,555 0,555 0,720 0,736 0,621 0,566 0,596 1 0,649 0,667 0,870

CL CLIPS-IMAG, FrancaF Universidade de Fudan, ChinaIBM IBM Almaden, EUAIC Imperial College, Reino UnidoMS Microsoft Research Asia, ChinaMBF Universidade de Glasgow, Reino UnidoMM Media Mill, Holanda

• Deteccao de transicoes graduais ainda nao atinge nıveis satisfatorios!


Sinal de Similaridades

• Considere, para uma funcao de similaridade entre dois quadros d,

fV [i] = d(qi, qi+1)

• Os shots sao delimitados analisando-se o sinal fV . Por exemplo:

LIMIAR-SBD(fV )1 Selecione um limiar k2 R← 〈q0〉3 para i de 0 ate T − 14 se fV [i] ≥ k5 R← 〈R, qi+1〉6 devolva R



• As duas funcoes de similaridade mais largamente utilizadas na literatura sao:

. Diferenca entre Pixels (Casamento de Padroes)

dp(qi, qj) =∑

c∈{R,G,B}

M∑x=1

N∑y=1

|qci (x, y)− q

cj(x, y)|

0 2000 4000 6000 8000 10000 120000

10

20

30

40

50

60

70

80



. Diferenca entre Histogramas

dh(qi, qj) =∑

c∈{R,G,B}

L∑l=1

|hci [l]− h

cj[l]|

0 2000 4000 6000 8000 10000 120000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2



• Diferenca entre pixels e sensıvel a movimentacoes (objetos ou camera).

1592 1593

• Diferenca entre histogramas e mais robusta as movimentacoes, mas sensıvel asvariacoes de luminosidade.

10140 10141


Twin-comparison [28]

• LIMIAR-SBD detecta cortes. Como adapta-lo as transicoes graduais?

• Utilizar diferencas acumuladas:

corteabrupto

qs: Possivel inicio de trans. gradual

qc: Fim de trans. gradual (nao aceito)qe: Fim de trans. gradual (confirmado)

k h

k 1

k h

i

iqs

qc

qcqe

qe qs

qs

dh(qi,qi+1)

Dh(qi,qi+1)


Incrementando a Performance das Similaridades

• Filtros para enfatizar analise local

. Yeo & Liu [26] propoem uma slide window de tamanho 2m + 1. Um corte e detectado

em qi se

? fV [i] e o maximo em fV [i−m+1], ..., fV [i− 1], fV [i], fV [i+1], ..., fV [i+

m− 1].

? fV [i] e c vezes maior que o segundo maior valor na janela, onde c e uma constante

definida previamente.

. Ferman & Tekalp [7]

? Obter fV [i] pelas passagem de um filtro passa baixas (media, mediana, media-

mediana)

? Analisar f ′V [i] = fV [i]− fV [i] ao inves de fV


Incrementando a Performance das Similaridades

• Composicao de multiplas medidas em clustering 2-medias

0 10 20 30 40 50 60 70 800

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

dp

dh

Scatter plot dp X dh


Modelagem de Transicoes Graduais

• Transicoes graduais nao podem ser identificadas pela analise simples de similari-dades entre quadros sucessivos.

• Transicoes graduais podem ser modeladas via funcoes de transicao sobre aluminosidade do pixel entre 2 estados. Autores vem utilizando modelos lineares.

• Yu et. al. [27] utilizam um funcao linear α definida entre t1 e t2 e o quadro negroq0:

. Fade-out

qt(x, y) = qt1(x, y)α(t) + q0(x, y)[1− α(t)]

. Fade-in

qt(x, y) = q0(x, y)α(t) + qt2(x, y)[1− α(t)]

. Dissolucao

qt(x, y) = qt1(x, y)α(t) + qt2

(x, y)[1− α(t)]



• Truong et. al. [21]

. Media da luminosidade com comportamento linear:

0 100 200 300 400 500 600 700 800 9000

0.1

0.2

0.3

0.4

0.5

0.6

0.7(a)

. Variancia da luminosidade com comportamento parabolico:

0 100 200 300 400 500 600 700 800 9000

1

2

3

4x 10

−4 (b)



• Yeo & Liu [26]:

. Tome propoem tomar k maior que o comprimento maximo de uma transicao gradual.

fkV [i] = d(qi, qi+k)

. Considere o seguinte modelo linear para transicoes graduais:

gn =

c1, n < α1,c2−c1α2−α1

(n− α2) + c2, α1 ≤ n < α2,

c2, n ≥ α2

. Daı, podemos esperar, em fkV , o surgimento de platos antecedendo as transicoes graduais:

dki (gn) =

0, n < α1 − k,|c2−c1|α2−α1

[n− (α1 − k)], α1 − k ≤ n < α2 − k,

|c2 − c1|, α2 − k ≤ n < α1

−|c2−c1|α2−α1

(n− α2), α1 ≤ n < α2,

0, n ≥ α2



0 200 400 600 800 1000 1200 1400 1600 18000

10

20

30

40

50

60

70

80

90

100


Analise em Baixa Resolucao [26]

• Mais rapido! Opera em imagens menores com pouquıssima perda de performance.

• Atua como filtro de suavizacao. Menor sensibilidade aos movimentos.

• Imagens DC sao facilmente obtidas do stream MPEG! Nao ha custos comdecodificacao.


Amostragem Espacial

• Xiong et. al. [24] propoem dividir a imagem em blocos:

. Divide-se a imagem em B blocos sem sobreposicao.

. Comparam-se os blocos correspondentes entre dois quadros.

. Se Bc blocos mudaram, ha uma transicao caso

Bc

B> k%

• A ideia e ganhar velocidade examinando um subconjunto de S blocos.

• O erro e dado por:

e = Pr

(Sc

S> k%|

Bc

B< k%

)+ Pr

(Sc

S< k%|

Bc

B> k%

)

• O erro e bastante pequeno (centesimos) tomando-se apenas metade dos blocos!


Amostragem Temporal

• E necessario examinar todos os quadros? Xiong & Lee [25] provam que nenhumatransicao, abrupta ou temporal, e perdida se o vıdeo for analisado comparando-se

pares de quadros ql e qr = ql+step e incrementando-se l← step2 se

2 · gtmax < step < shotmin

ql qr

ql qr

ql qr

Gradual

Abrupta

(a)

(b)

(c)


Clustering

• Os metodos vistos anteriormente dependem de limiares que podem variar muitodependendo do tipo de vıdeo (acao, drama, telejornal, clip,...) ou ate mesmodentro de um mesmo vıdeo!

• Clustering de caracterısticas.

. Quadros dentro de um mesmo cluster e sucessivos temporalmente estao no mesmo shot.

. Shots dentro de um mesmo cluster podem ser multiplas ocorrencias de um mesmo

cenario/ambiente/situacao dentro de um mesmo vıdeo. Uma boa pista para a segmentacao

em cenas!

. Menos sujeito as arbitrariedades nas escolhas dos limiares.

. Vetor medio (µ) dos clusters podem ser bons ındices (indexacao e busca).

• Varios trabalhos na literatura [5, 7, 11, 17, 22, 31].


Resultados Preliminares [19]

• Estudos em deteccao de cortes.

• Testes com dp, dh e de, essa ultima baseada em contagem de bordas.

• Casamento de Padroes:

Sem Filtragem Subtracao de Mediana Derivada DiscretaFilme Cobertura Precisao Cobertura Precisao Cobertura Precisao

Eu, tu, eles 1 0.857 1 0.923 1 0.857Villa-Lobos 1 1 1 1 1 1

Shrek 0.951 0.609 0.951 0.928 0.951 0.928

• Comparacao de Histogramas:


Eu, tu, eles 1 1 1 1 1 1Villa-Lobos 1 1 1 1 1 1

Shrek 0.951 0.722 0.951 0.796 0.951 0.722


Resultados Preliminares [19]

• Contagem de Bordas:


Eu, tu, eles 0.917 0.846 0.917 1 0.917 0.917Villa-Lobos 1 1 1 1 1 1

Shrek 0.829 0.065 0.756 0.188 0.756 0.146

• Problemas:

. Conjunto de teste muito pequeno.

. de mostrou-se pouco eficaz.


Plano de Trabalho

• Setembro – Outubro (2002)

. Implementacoes dos varios metodos da literatura descritos anteriormente [26, 7, 21].

. Analise em varias resolucoes.

. Clustering com vetores de caracterısticas diversos.

• Novembro (2002) – Fevereiro (2003)

. Composicao de metodos. Enfase em deteccao e caracterizacao de transicoes graduais.

. Prototipos e demos (Scilab? Matlab r©?).

. Metodos bem sucedidos: possıvel implementacao em C, JavaTM

. Frameworks para

processamento de vıdeo estao sendo considerados [34].


Referencias

[1] F. Arman, A. Hsu, M.-Y. Chiu Image Processing on Compressed Data for Large Video Databases, Proceedings of First ACM InternationalConference on Multimedia (1993).

[2] D. H. Ballard e C. M. Brown, Computer Vision, Prentice Hall (1982).

[3] J. S. Boreczky e L. D. Wilcox, A Hidden Markov Model Framework for Video Segmentation Using Audio and Image Features, FX PaloAlto Laboratory (1998).

[4] S.-F. Chang e H. Sundaram, Structural and Semantic Analysis od Video, IEEE International Conference on Multimedia (2000).

[5] M. S. Drew e J. Au, Video Summarization by Efficient Clustering of Compressed Chromaticity Signatures, International Symposium onMultimedia Infomation Processing ISMIP’00 (2000). 24

[6] R. O. Duda, P. E. Hart e D. G. Stork, Pattern Classification, Wiley-Interscience (2001). 37

[7] A. M. Ferman and A. M. Tekalp, Efficient Filtering and Clustering Methods for Temporal Video Segmentation and Visual Summarization,Journal of Visual Communication and Image Representation (1998). 15, 24, 27

[8] U. Gargi, R. Kasturi, S. Antani, Performance Characterization and Comparison of Video Indexing Algorithms, Proceedings of Conferenceon Computer Vision and Pattern Recognition (CVPR) (1995).


Referencias

[9] A. Girgensohn e J. Foote, Video Classification Using Transform Coefficients, Proceedings of the Intemational Conference on Acoustics,Speech, and Signal Processing (1999).

[10] R. C. Gonzalez e R. E. Woods, Digital Image Processing, Addison-Wesley (1992). 37

[11] B. Gunsel, A. M. Ferman e A. M. Tekalp, Temporal Video Segmentation Using Unsupervised Clustering and Semantic Object Tracking,Journal of Visual Communication and Image Representation (1998). 24

[12] K. A. Hua e J.-H. Oh, Detecting Video Shot Boundaries up to 16 Times Faster, ACM Multimedia (2000).

[13] I. Koprinska and S. Carrato, Temporal Video Segmentation: A Survey, Signal Processing: Image Comunication, Elsevier Science (2001).

[14] Y.-F. Ma, J. Sheng, Y. Chen e H.-J. Zhang, MSR-Asia at TREC-10 Video Track: Shot Boundary Detection Task, TREC-10 Video TrackReport (2001).

[15] J. M. Martınez (editor), MPEG-7 Overview, ISO/IEC N4674, Jeju (2002). 2

[16] A. Nagasaka e Y. Tanaka, Automatic Video Indexing and Full-motion Search for Object Appearances, Proceedings of Second WorkingConference on Visual Database (1991). 2

[17] C.-W. Ngo, T.-C. Pong e H.-J. Zhang, On Clustering and Retrieval of Video Shots, ACM MM (2001). 24

[18] G. M. Quenot, CLIPS System Description and Evaluation, TREC-10 Video Track Report (2001). 9


Referencias

[19] T. T. Santos e C. H. Morimoto, Comparison of Temporal Video Segmentation Techniques, LATIN/IME-USP e LIVES/CEI-SENAC(2002). 25, 26

[20] H. Sundaram e S.-F. Chang, Video Scene Segmentation Using Video and Audio Features, IEEE International Conference on Multimedia(2000).

[21] B. T. Truong, C. Dorai e S. Venkatesh, New Enhancements to Cut, Fade and Dissolve Detection Process in Video Segmentation, ACMMultimedia (2000). 18, 27, 35

[22] S. Uchihashi, J. Foote, A. Girgensohn e J. Boreczky, Video Manga: Generating Semantically Meaningful Summaries, ACM Multimedia(1999). 24

[23] N. Vasconcelos e A. Lippman, A Bayesian Video Modeling Framework for Shot Segmentation and Content Characterization, IEEEComputer Vision and Pattern Recognition Conference (1997).

[24] W. Xiong, J. C.-M. Lee, M.-C. Ip, Net Comparison: A Fast and Effective Method for Classifying Image Sequences, Proceedings of SPIEConference on Storage and Retrieval for Image and Video Databases III (1995). 22

[25] W. Xiong and J. C.-M. Lee, Efficient Scene Change Detection and Camera Motion Annotation for Video Classification, Computer Visionand Image Understanding, ACM (1998). 23

[26] B.-L. Yeo and B. Liu, Rapid Scene Analysis on Compressed Video, IEEE Transactions on Circuits and Systems for Video Technology(1995). 15, 19, 21, 27


Referencias

[27] H. Yu, G. Bozdagi e S. Harrington, Feature-based Hierarchical Video Segmentation, Proceedings of International Conference on ImageProcessing (1997). 17

[28] H.-J. Zhang, A. Kankanhalli, S. W. Smoliar, Automatic Partitioning of Full-motion Video, Multimedia Systems (1993). 2, 14

[29] H.-J. Zhang, C. Y. Low, Y. H. Gong, S. W. Smoliar, Video Parsing Using Compressed Data, Proceedings of SPIE Conference on Imageand Video Processing II (1994).

[30] H.-J. Zhang, C. Y. Low, S. W. Smoliar e J. H. Wu, Video Parsing, Retrieval and Browsing: An Integrated and Content-based Solution,ACM Multimedia (1995).

[31] Y. Zhuang, Y. Rui, T. S. Huang e S. Mehrotra, Adaptative Key Frame Extraction Using Unsupervised Clustering, Proc. ICIP’98 (1998).24

[32] The Open Video Project,http://www.open-video.org.

[33] TREC Video Retrieval Track,http://www-nlpir.nist.gov/projects/trecvid. 2

[34] GStreamer - Open Source Multimedia Framework,http://www.gstreamer.net. 27


http://www.open-video.org

http://www-nlpir.nist.gov/projects/trecvid

http://www.gstreamer.net

Perguntas?


Apendice A: Sobre o termo DCT(0,0) e imagens DC

• A transformada dos cossenos discreta (DCT) e dada por

DCT (u, v) = α(u)α(v)N−1∑x=0

N−1∑y=0

f(x, y)cos[(2x + 1)uπ

2N

] [(2y + 1)vπ

2N

],

onde

α(n) =

√

1N para u = 0√2N para u = 1, 2, ..., N − 1


Apendice A: Sobre o termo DCT(0,0) e imagens DC

• Considere um bloco b de um quadro q(x, y). Como os blocos tem dimensao 8×8,temos que:

DCT qb(0, 0) =

√18·√

18·

N−1∑x=0

N−1∑y=0

qb(x, y) · cos 0 · cos 0

=18

N−1∑x=0

N−1∑y=0

qb(x, y)

• DCT qb(0, 0) encontra-se armazenado diretamente na stream JPEG. Esse termo e

8 vezes maior que a media dos pixels do bloco b.


Apendice B: Cobertura e Precisao Ponderadas [21]

• Tx = {qi, qi+1, ..., qj}, i ≤ j e o conjunto de quadros de uma transicao x.

• T = {T1, T2, ..., Tn} e o conjunto de transicoes existentes no vıdeo V .

• T = {T1, T2, ..., Tm} e o conjunto de transicoes candidatas dado por uma solucao.

• Cobertura Ponderada (R):

R =∑n

i=1 θi

|Υ|

Υ = {Ti, i ∈ [1, n] | ∃j ∈ [1,m] e Ti ∩ Tj 6= ∅},

θi =

{0, se Ti /∈ Υ,|Ti∩Tτ(i)|

|Ti|caso contrario


Apendice B: Cobertura e Precisao Ponderadas

• Precisao Ponderada (P):

P =∑n

i=1 θi

|Υ|

θi =

{0, se Ti /∈ Υ,|Ti∩Tτ(i)||Tτ(i)|

caso contrario

• τ(i) e a transicao correspondente a Ti em T .


Apendice C: JPEG e MPEG

• JPEG [10]:

. Compressao via transformada DCT:

? Menor erro raiz media quadratica.

? Artefato de Bloco: mais suave.

. Quantizacao: reter os coeficientes com maior quantidade de informacao.

Codificador de HuffmanQuantificador JPEG

Transformada CossenoDiscretaimagens 8 X 8

Subdividir emImagem


Apendice C: JPEG e MPEG

• MPEG

. Reduz a redundancia temporal.

. I quadros: imagens JPEG

. P e B quadros: reconstruıdos a partir de I (ou P) quadros via macroblocos e vetores demovimento.


Thiago Teixeira Santos

Documents