Page 1
UNIVERSIDADE FEDERAL DE PERNAMBUCO
Centro de Ciências Exatas e da Natureza – CCEN
Departamento de Química Fundamental – DQF
CAROLINA SANTOS SILVA
USO DE IMAGENS HIPERESPECTRAIS NA
REGIÃO DO INFRAVERMELHO PRÓXIMO PARA
IDENTIFICAR FRAUDES EM DOCUMENTOS
Recife
2013
Page 2
CAROLINA SANTOS SILVA
USO DE IMAGENS HIPERESPECTRAIS NA
REGIÃO DO INFRAVERMELHO PRÓXIMO PARA
IDENTIFICAR FRAUDES EM DOCUMENTOS
Dissertação de Mestrado submetida
ao curso de Pós-graduação de Química da
Universidade Federal de Pernambuco,
como parte dos requisitos para a
obtenção do título de Mestre em Química
Orientadora: Maria Fernanda Pimentel
Co-orientador: Ricardo Saldanha Honorato
Recife
2013
Page 3
Catalogação na fonte
Bibliotecária Alice Maria dos Santos Costa, CRB 4-711
Silva, Carolina Santos. Uso de imagens hiperespectrais na região do infra vermelho próximo para identificar fraudes de documentos. / Carolina Santos Silva. – Recife: O Autor, 2013. 80 f.: fig., tab.
Orientadora: Maria Fernanda Pimentel. Dissertação (Mestrado) - Universidade Federal de Pernambuco. CCEN. Química Fundamental, 2013. Inclui referências.
1. Química analítica. 2. Espectroscopia de infravermelho. 3. Análise multivariada. I. Pimentel, Maria Fernanda (orientadora). II. Título.
543 (22. ed.) FQ 2014- 31
Page 4
Dissertação submetida ao Corpo Docente do Programa de Pós-Graduação em
Química do Departamento de Química Fundamental da Universidade Federal de
Pernambuco como parte dos requisitos necessários para a obtenção do Grau de Mestre
em Química.
Aprovada:
____________________________________________________________
Profª Maria Fernanda Pimentel Avelar (Orientadora)
Departamento de Engenharia Química
Universidade Federal de Pernambuco
____________________________________________________________
Profª Simone da Silva Simões Departamento de Química
Universidade Estadual da Paraíba
____________________________________________________________
ProfJez Willian Batista Braga Instituto de Química
Universidade de Brasília
Uso de Imagens Hiperespectrais na Região do Infravermelho
Próximo para Identificar Fraudes em Documentos
Por
Carolina Santos Silva
Departamento de Química Fundamental
Centro de Ciências Exatas e da Natureza
Universidade Federal de Pernambuco
Recife – PE – Brazil
23 de Agosto de 2013
Page 5
Por toda atenção, dedicação e paciência,
Dedico este trabalho à minha família e à minha orientadora.
Page 6
AGRADECIMENTOS
De todas as conquistas que se fazem na vida, a melhor delas é conhecer as pessoas
que lhe ajudaram a alcançar seus objetivos. Existem aqueles que estavam lá, presentes
nas discussões e participando diretamente para o desenvolvimento do trabalho e
aqueles, que de uma forma indireta ajudaram, e muito, a construir esse trabalho.
Primeiramente, gostaria de agradecer à minha orientadora, Prof.ª Dr.ª Mª
Fernanda Pimentel, que desde a iniciação científica teve grande paciência e foi, além de
orientadora, professora, educadora foi também conselheira. Me ensinou a trilhar meus
primeiros passos na pesquisa e me ensinou como criar um ambiente de grupo de
pesquisa que é capaz de crescer junto, aprender, ensinar e apoiar uns aos outros quando
necessário. Pelo incentivo, apoio, discussões e absolutamente todas as conquistas
profissionais, agradeço.
Gostaria também de agradecer ao perito Dr. Ricardo Honorato pela orientação,
entusiasmo e levantamento de questões que sempre foram muito construtivas no
desenvolvimento do trabalho.
Aos Professores Doutores Alberto Ferrer e José Manuel Prats-Montalbán pelo
acolhimento durante minha estadia na Universitat Politecnica de Valencia, por toda a
disponibilidade de ensinar e discutir resultados e por me receber como parte do grupo.
Ao professor Dr. Célio Pasquini pelas contribuições significativas.
Às alunas de iniciação científica, Laís França e Ananda Sá, que estavam sempre
dispostas a ajudar e trabalhando muito para entender e desenvolver o trabalho.
À FACEPE, pela bolsa concedida, ao INCTAA e ao NUQAAPE pelo incentivo ao
projeto, à UFPE pelo suporte institucional e ao Laboratório de Combustíveis (LAC) por
proporcionar a efetivação da pesquisa.
Aos amigos, companheiros, atuais e futuros colegas de trabalho e amigos para a
vida toda, Alianda, Neirivaldo, Vitor, Leandro, Fernanda V. Cruz e Eduardo por todas
as discussões feitas nos corredores, nos cafés, nos bares, pelos estudos em conjunto e
pelos passeios e histórias incríveis que vivemos juntos. Por toda a ajuda na área pessoal
e profissional. Agradeço profundamente.
Page 7
Um agradecimento especial a Leandro por ter realizado diversas medidas para a
elaboração desse trabalho. E à sua esposa Sara, por ser uma pessoa absolutamente
fantástica e uma amiga incrível.
A toda a família que faz do LAC nossa segunda casa. A Carol, Cláudio, Giseli,
Sylvio e Kaline por toda a ajuda na hora de resolver questões trabalho e viagens de
congressos.
Aos amigos do DQF, Amanda, Elaine, Rodolfo, Suelle e Diego por toda
caminhada que fizemos juntos até aqui. Pela força durante as disciplinas, os cafés e todo
suporte que me deram quando mais precisei. Agradeço.
Aos amigos incríveis e inesperados Raffaele, Abel, José Maria e Elizabeth pelas
incríveis aventuras, discussões, cervejas, sorvetes e, principalmente, por me acolherem
como família quando estava longe de casa.
Aos amigos queridos Anaís, Rodrigo, Thalles e Juliana que estavam sempre
presentes, mesmo de longe.
Aos amigos de uma vida inteira, Ana Beatriz, Catarina, Miriam, Gabriela B.,
Gabriela M., Rafaela e Heitor.
A Danilo pela amizade de todos os anos, companheirismo e muita, muita
paciência.
A minha vó Jovem e Tia Goretti por absolutamente tudo.
Aos meus irmãos Júlia, Eduardo e Renato pelas fofocas, filmes e trelas,
respectivamente. A Finha pela ajuda de mãe.
Aos meus pais, Ascendino e Fátima pelo apoio, conselhos, cervejas, brincadeiras,
viagens e por tornarem possíveis cada uma das conquistas feitas.
A todos aqueles que participaram de alguma forma para minha formação
acadêmica e pessoal, agradeço.
Page 8
“Essentially, all models are wrong, but some are useful”
George E. P. Box
Page 9
RESUMO
A análise de documentos adulterados representa um problema comum nas unidades de
Polícia Científica. Frequentemente, fraudes são realizadas por meio de adições de
textos ou ocultação de partes dos textos originais. O desenvolvimento de métodos não
destrutivos são de extrema importância para auxiliar a solução de casos litigiosos,
garantindo a integridade das amostras. As imagens hiperespectrais na região do
infravermelho próximo (HI-NIR) associadas a técnicas quimiométricas mantém a
integridade das amostras fornecendo importantes informações não só sobre a
composição química, mas também a respeito da distribuição dos componentes na
amostra estudada. Neste trabalho foram propostas três diferentes abordagens para
simular problemas e identificar adulterações típicas em documentos. A primeira delas,
é a adulteração por adição de texto, em que diferentes canetas pretas com o mesmo
diâmetro de ponta e tons de pretos semelhantes foram utilizadas para escrever um
número em uma folha de cheque e uma outra caneta usada para modificar a quantidade
inicial por adição de novos algarismos. A segunda abordagem consiste na adulteração
por obliteração, em que 10 canetas pretas de diferentes tipos e marcas foram usadas
para realizar diferentes combinações em que uma caneta foi usada para produzir um
pequeno texto que foi, em seguida, oculto por uma sobrecarga de outra caneta. A
terceira abordagem consiste no problema de cruzamento de traços, em que uma linha
produzida por tinta de caneta foi interceptada por uma linha de toner, para identificar se
a linha do toner foi adicionada após a linha da tinta ou o inverso. Foram adquiridas
imagens hiperespectrais na faixa de 928-2524 nm, com resolução espectral e espacial
de 6,3 nm e 10 µm, respectivamente por uma câmera de imagens hiperespectrais
(SisuChema) de cada uma das amostras produzidas para as três abordagens. Após o
pré-processamento dos dados, diferentes técnicas quimiométricas foram utilizadas para
a avaliação de cada problema. Uma Análise de Componentes Principais (PCA) foi
realizada para avaliar as duas primeiras abordagens (adulteração por adição de texto e
adulteração por obliteração), enquanto a técnicas de MCR-ALS e PLS-DA, como
ferramenta de seleção de variáveis, foram usadas para estudar a terceira abordagem
(problema de cruzamento de traços). A adulteração da abordagem 1 foi identificada
através das imagens dos escores da PCA, para todas as amostras. Para a abordagem 2,
foi possível identificar o texto oculto a partir das imagens dos escores da PCA de 39
das 90 amostras produzidas (43,3% das amostras). Finalmente, para a abordagem 3, as
amostras cuja linha da tinta se encontrava abaixo da linha do toner apresentaram uma
descontinuidade no ponto de interseção que não pode ser visualizado nas amostras cuja
linha da tinta estava por cima da linha do toner. Para este caso, apenas três dos vinte
pares de amostras não apresentaram este comportamento. Os resultados das abordagens
descritas mostraram o potencial da HI-NIR associada a técnicas quimiométricas para a
solução de problemas de fraudes de documentos.
Palavras-chave: Imagem hiperespectral. Infravermelho próximo. Forense.
Documentoscopia. PCA. MCR-ALS.
Page 10
ABSTRACT
The analysis of forged documents represents a common problem at forensic science
units. Often, frauds are carried out by means of text addition or concealment of parts
from the original documents. The development of non-destructive methods is
extremely important to assist in the solution of contentious cases, ensuring the integrity
of samples. Hyperspectral images in the near infrared (HI-NIR) range associated with
chemometric tools maintain the integrity of the samples, providing important
information about the chemical composition, as well as the distribution of the sample
components. In this work, three different approaches have been proposed to simulate
typical problems and to identify document forgeries. The first one is forgery by adding
text, for which different black pens with the same tip diameter and the similar shades of
black were used to write a number on a checkbook sheet and another pen used to
modify the initial register by adding new numbers. The second approach is alteration
by obliteration. Using ten black pens of different types and brands in different
combinations: one pen was used to produce a short text which was then overwritten by
another pen. The third approach is the crossing lines problem, where a line produced by
an ink pen is intercepted by a toner line in order to identify whether the toner line was
added before or after the ink line. Samples used in each approach were submitted to
HI-NIR in the range of 928-2524nm, with spectral and spatial resolution of 6.3nm and
10 µm, respectively, by a hyperspectral imaging camera (SisuChema). After pre-
processing the data, different chemometeric techniques were used to evaluate each
problem. A Principal Component Analysis (PCA) was performed to evaluate the first
two approaches (adulteration by adding text and adulteration by obliteration), while the
techniques MCR-ALS and PLS-DA, as a variable selection tool, were used to study the
third approach (the problem of crossing lines). The approach 1 forgery of was
successfully identified for all samples using the score images of the PCA. For the
second approach, the hidden text was identified using the score images in 39 of the
90samples produced (43.3% of the samples). Finally, for the third approach, the
samples where the ink line was below the toner line showed a discontinuity at the
intersection point, that cannot be seen in samples where the ink line was above the
toner line. In this case, just three out of twenty sample pairs did not show this behavior.
The results of these approaches demonstrate the potential of HI-NIR associated with
chemometric tools to solve document forgery issues.
Key-words: Hyperspectral images. Near infrared. Forensic. Document forgery. PCA.
MCR-ALS.
Page 11
LISTA DE FIGURAS
Figura 1 Diferentes modos de vibração em uma molécula triatômica heteronuclear
(Adaptado de SKOOG, 2006). ....................................................................................... 20
Figura 2 Gráfico da energia potencial da ligação em função da distância entre os
átomos para o modelo do oscilador anarmônico (PASQUINI, 2003). ........................... 22
Figura 3 Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh,
1889. ............................................................................................................................... 22
Figura 4 Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c)
hiperespectrais. ............................................................................................................... 23
Figura 5 Desdobramento das matrizes 3D de imagens (a) em RGB e (b)
hiperespectrais. ............................................................................................................... 24
Figura 6 Desdobramento considerando a informação espacial (textura e distribuição)
em imagens em (a) escala de cinza e (b) RGB. .............................................................. 24
Figura 7 Desdobramento da matriz tridimensional de dados em uma matriz
bidimensional e sua decomposição em perfis de concentração relativa e espectros puros.
........................................................................................................................................ 25
Figura 8 Construção do mapa de distribuição (a) a partir de um comprimento de onda
específico e (b) a partir da soma das intensidades em todos os comprimentos de onda. 26
Figura 9 Esquema da construção de um modelo de PLS-DA. ...................................... 33
Figura 10 Exemplo das amostras preparadas para abordar o problema da adulteração
por adição de texto. Amostras (a) S1, (b) S2, (c) S3, (d) S4 e (e) S5. ............................ 41
Figura 11 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1
realizadas com as técnicas de pré-processamento (a) SNV e (b) MSC; e para a amostra
S3, também com as técnicas de (d) SNV e (e) MSC. ..................................................... 44
Figura 12 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1
realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de
3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com
polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. .............. 45
Figura 13 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S3
realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de
3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com
polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. .............. 46
Page 12
Figura 14 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2
(vermelho) para a amostra S1; (b) Espectros médios pré-processados do papel (azul),
das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S1. ................................ 47
Figura 15 Gráficos dos pesos para a amostra S1 pré-processada com SNV. ................ 48
Figura 16 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2
(vermelho) para a amostra S3; (b) Espectros médios pré-processados do papel (azul),
das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S3. ................................ 49
Figura 17 Gráficos dos pesos para a amostra S3 pré-processada com SNV. ................ 50
Figura 18 Imagens dos escores das PCs de três diferentes amostras; (a) PC1 e PC2 da
amostra S1; (b) PC1 e PC3 da amostra S2; (c) PC1 e PC5 da amostra S3; (d) PC2 e PC8
da amostra S4 e (e) PC1 e PC4 da amostra S5. .............................................................. 51
Figura 19 Exemplos de amostras que abordam o problema de falsificação por
obliteração; em (a) uma caneta (caneta 1, por exemplo) foi usada para escrever um texto
que foi oculto pela caneta 2; em (b) a caneta 2 foi usada para escrever um pequeno texto
que foi oculto pela caneta 1. ........................................................................................... 55
Figura 20 Imagens dos escores das 2 PCs mais informativas realizadas para a amostra
E2_1 com as técnicas de pré-processamento (a) SNV; (b) MSC; (c) 1ª derivada de S.G.
com janela de 7 pontos e polinômio de 3ª ordem; (d) 1ª derivada de S.G. com janela de
9 pontos e polinômio de 3ª ordem; (e) 1ª derivada de S.G. com janela de 15 pontos e
polinômio de 3ª ordem; (f) 2ª derivada de S.G. com janela de 7 pontos e polinômio de 3ª
ordem; (g) 2ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (h) 2ª
derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem. ............................ 57
Figura 21 (a) Espectros médios do papel (azul), e de uma região contendo carga e
caneta (vermelho) para a amostra E2_1; (b) Espectros médios pré-processados com
SNV do papel (azul), e de uma região contendo carga e caneta (vermelho) para a
amostra E2_1; ................................................................................................................. 58
Figura 22 Gráficos dos pesos para a amostra E2_1 pré-processada com SNV. ............ 59
Figura 23 Imagem dos escores das duas primeiras PCs de três amostras diferentes; (a)
na 1ª coluna E5 foi usada para esconder o texto feito com G2 (amostra G2_5); (b) na 2ª
coluna, E2 é usada para escrever o texto ocultado por E3 (amostra E2_1); (c) na coluna
3, E1 é usada para escrever o texto oculto por G2 (E1_1). ............................................ 60
Figura 24 Exemplo das amostras para o problema do cruzamento de traços. Duas linhas
se cruzando, feitas com a mesma caneta e o mesmo toner, em (a) a linha da tinta
(vertical) está por cima da linha do toner (horizontal); em (b) a linha de toner (vertical)
está por cima da linha da caneta (horizontal). ................................................................ 63
Page 13
Figura 25 Espectros do papel (azul), os espectros do toner (vermelho) e tinta da caneta
E4 (verde) registrados sobre papel. ................................................................................ 65
Figura 26 Previsão para 4 amostras diferentes preparadas com diferentes canetas. As
barras azuis mostram a previsão para os pixels que contém apenas papel, as barras em
verde para a tinta e as barras em vermelho, para o toner................................................ 66
Figura 27 Gráficos dos pesos das 4 LV do PLS-DA para a amostra 1.1. A 1ª LV está
relacionada com o valor médio dos espectros, enquanto a 2ª e a 3ª LV fornecem
informações relevantes e a 4ª LV é, basicamente, ruído. ............................................... 67
Figura 28 Mapas de distribuição para dois pares de amostras. A colunas 1, 2 e 3
mostram os mapas de distribuição do papel, da tinta e do toner, respectivamente. A
amostra 1.1 (1ª linha), 1.2 (2ª linha), 5.1 (3ª linha) e 5.2 (4ª linha). Nas amostras 1.1 e
5.1 a linha da tinta está por cima do toner e nas amostras 1.2 e 5.2, a linha da tinta está
por baixo da linha do toner. ............................................................................................ 68
Figura 29 Mapas de distribuição para dois pares de amostras. Amostra 4.1 a tinta está
sobre a linha do toner; a amostra 4.2 a tinta está por baixo da linha do toner; as amostras
8.1 e 8.2 foram preparadas com a mesma marca de caneta gel (G2), porém na amostra
8.1 a linha da tinta está por cima do toner e na amostra 8.2, está por baixo. ................. 70
Page 14
LISTA DE TABELAS
Tabela 1 Resumo das amostras do problema de adulteração por adição de texto. ........ 42
Tabela 2 Resumo de resultados para o problema de obliteração. .................................. 61
Tabela 3 Resumo dos resultados para o problema de cruzamento de traços. Marcado
com um X estão as amostras que a sequência das linhas não pôde ser identificada com
sucesso e, em V, as que puderam ser identificadas. ....................................................... 70
Page 15
LISTA DE ABREVIATURAS
ATR Refletância Total Atenuada (Attenuated Total Reflectance)
CLS Mínimos Quadrados Clássicos (Classical Least Squares)
FIR Infravermelho Distante (Far Infrared)
FT-IR Infravermelho com Transformada de Fourier (Fourier Transformed –
Infrared)
HI Imagem Hiperespectral (Hyperspectral Image)
HPLC Cromatografia Líquida de Alta Resolução (High Performance Liquid
Chromatography)
IR Infravermelho (Infrared)
LDA Análise Discriminante Linear (Linear Discriminant Analysis)
lof Falta de Ajuste (Lack of Fit)
LV Variáveis Latentes (Latent Variables)
MCR-ALS Resolução Multivariada de Curvas (Multivariate Curve Resolution –
Alternating Least Squares)
MIA Análise Multivariada de Imagens (Multivariate Image Analysis)
MIR Infravermelho Médio (Middle Infrared)
MSC Correção Multiplicativa de Espalhamento (Multiplicative Scattering
Correction)
NIR Infravermelho Próximo (Near Infrared)
PC Componente Principal (Principal Component)
PCA Análise de Componentes Principais (Principal Component Analysis)
PLS Mínimos Quadrados Parciais (Partial Least Squares)
PLS-DA Análise Discriminante por Mínimos Quadrados Parciais (Partial Least
Squares – Discriminant Analysis)
RGB Vermelho, Verde e Azul (Red, Green and Blue)
SG Derivada de Savitzky Golay (Savitzky Golay Derivative)
SIMPLISMA Simple-to-use Interactive Self-modeling Mixture Analysis
SNV Variação Normal Padrão (Standard Normal Variate)
vis Região Espectral do Visível
Page 16
SUMÁRIO
CAPÍTULO 1 ............................................................................................................................. 16
1 INTRODUÇÃO ................................................................................................................ 17
2 OBJETIVOS GERAIS ..................................................................................................... 19
2.1 OBJETIVOS ESPECÍFICOS ................................................................................................. 19
3 FUNDAMENTAÇÃO TEÓRICA ................................................................................... 19
3.1 INFRAVERMELHO............................................................................................................ 19
3.2 IMAGEM HIPERESPECTRAL E ANÁLISE MULTIVARIADA DE IMAGEM ............................ 22
3.2.1 Análise de Componentes Principais de Imagens ................................................... 29
3.2.2 MCR-ALS ............................................................................................................... 30
3.2.3 PLS-DA .................................................................................................................. 32
3.2.4 Pré-processamento de dados ................................................................................. 34
4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES ......................... 36
CAPÍTULO 2 ............................................................................................................................. 40
1 CONTEXTUALIZAÇÃO DO PROBLEMA ................................................................. 41
2 MATERIAIS E MÉTODOS ............................................................................................ 41
2.1 AMOSTRAS ..................................................................................................................... 41
2.2 AQUISIÇÃO DE IMAGENS ................................................................................................ 42
2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ................................................................ 42
3 RESULTADOS E DISCUSSÃO...................................................................................... 43
4 CONCLUSÃO................................................................................................................... 52
CAPÍTULO 3 ............................................................................................................................. 54
1 CONTEXTUALIZAÇÃO DO PROBLEMA ................................................................. 55
2 MATERIAIS E MÉTODOS ............................................................................................ 55
2.1 AMOSTRAS ..................................................................................................................... 55
2.2 AQUISIÇÃO DAS IMAGENS .............................................................................................. 55
2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS................................................................. 55
3 RESULTADOS E DISCUSSÃO...................................................................................... 56
4 CONCLUSÃO................................................................................................................... 61
CAPÍTULO 4 ............................................................................................................................. 62
1 CONTEXTUALIZAÇÃO DO PROBLEMA ................................................................. 63
2 MATERIAIS E MÉTODOS ............................................................................................ 63
2.1 AMOSTRAS ..................................................................................................................... 63
2.2 AQUISIÇÃO DAS IMAGENS .............................................................................................. 64
2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ................................................................ 64
3 RESULTADOS E DISCUSSÃO...................................................................................... 64
4 CONCLUSÃO................................................................................................................... 71
Page 17
CAPÍTULO 5 ............................................................................................................................. 72
1 CONCLUSÕES GERAIS ................................................................................................ 73
2 PERSPECTIVAS FUTURAS .......................................................................................... 74
REFERÊNCIAS ........................................................................................................................ 76
Page 18
16
CAPÍTULO 1 Introdução e Fundamentação Teórica
Page 19
17
1 INTRODUÇÃO
Da certidão de nascimento à certidão de óbito, a vida de um indivíduo é sempre
documentada de alguma maneira. Atestar a legitimidade de documentos de compras de
imóveis, carros, hipotecas, passaportes, receitas médicas, impostos, etc., que estão
sempre presentes na vida de um indivíduo é necessário.De fato, a legitimidade deles é
de extrema importância, principalmente na solução de casos litigiosos. A área da ciência
forense que trata dos estudos de manipulações de documentos é conhecida como
documentoscopia (BRUNELLE; 2003).
As canetas são instrumentos de escrita largamente utilizados no cotidiano e na
produção de manuscritos, e sua identificação em documentos representa uma importante
ferramenta na elucidação dos mais diversos crimes. As tintas das canetas utilizadas na
assinatura destes documentos são sistemas bastantes complexos constituídos por uma
grande variedade de compostos químicos (EDELMAN et al., 2012).
As unidades de polícia científica costumam empregar para a identificação e/ou
diferenciação de tintas, vídeo-comparadores espectrais, que se utilizam de câmera
digital, lâmpadas, espelhos e filtros na região do visível e pequena região do
infravermelho próximo para distinguir os registros produzidos por canetas distintas.
Todavia, a inspeção por visualização direta das imagens, sem processamento
matemático, limita os resultados positivos e deixa as análises mais subjetivas.
Devido a relevância de se preservar a integridade do documento questionado, a
espectroscopia na região do Infravermelho (IR) associada a técnicas quimiométricas
para tratamento dos dados se apresenta como uma boa alternativa aos procedimentos
usuais, pois fornece informações sobre a composição orgânica das tintas, é rápida e não
destrutiva (SKOOG et al., 2006). Silvaet al desenvolveram um método não destrutivo
utilizando a espectroscopia no infravermelho médio (MIR) e a análise discriminante
linear (LDA: Linear Discrimant Analysis) para classificar tintas de canetas azuis
segundo o tipo (gel, rollerball e esferográfica) e a marca (SILVA et al., 2013).
A partir da metade do século XX, o desenvolvimento de novos dispositivos
elétricos e eletrônicos permitiu a obtenção de imagens digitais. Com os recentes
avanços tecnológicos, foi possível adquirir não só imagens em escalas de cinza e RGB
(RGB: Red, Green, Blue), mas também foi possível realizar a aquisição das chamadas
Imagens Hiperespectrais. Estas imagens, além de possuírem informações espaciais,
também contém informações a respeito da composição química, apresentando um
Page 20
18
espectro ou canais espectrais para cada pixel da imagem. Desta forma, têm-se
informações locais sobre a composição, bem como sobre a distribuição dos
componentes na amostra. Quando desdobradas em uma matriz de dados, essas imagens
podem ser submetidas a técnicas quimiométricas adequadas (GELADI et al. 2007).
O uso de imagens hiperespectrais possui uma vasta aplicação em diversas áreas de
conhecimento. Na área de fármacos, pode ser utilizada para analisar a uniformidade da
distribuição de diversos comprimidos comerciais (CRUZ et al; 2011;CRUZ et al.,
2009). Na indústria alimentícia, pode ser utilizada para controle de qualidade, como a
detecção de defeitos e contaminações na superfície da casca de diferentes tipos de
maçãs (MEHL et al., 2004). Na área médica, podem ser utilizadas juntamente com
técnicas específicas de análise para avaliar imagens, como imagens Raman para o
estudo de cálculo renal (PIQUERAS et al., 2011).
Na área das ciências forenses, a imagem hiperespectral foi utilizada na
identificação de impressões digitais (TAHTOUH et al. 2011), detecção de componentes
de explosivos (RUXTON et al., 2012), identificação de manchas de sangue em locais de
crime (EDELMAN et al. 2012;SCHULER et al., 2012), entre outras aplicações que
podem ser vistas no artigo de Edelman et al(EDELMAN et al., 2012).
Poucos trabalhos forampublicados até o momento abordando problemas na área
da documentoscopia. Chaikovsky et al.(CHAIKOVSKY et al., 2003) propuseram um
método de análise de imagens RGB baseado em separações de cores usando programas
comercias usuais de tratamento de imagens para separar tintas de carimbos de tintas de
canetas. Com o objetivo identificar a sequência das linhas numa interseção de traços
feitos com diferentes instrumentos gráficos (BOJKO et al., 2008), foram adquiridas
imagens hiperespectrais na região do Infravermelho Médio de documentos, utilizando
um microscópio com acessório de Refletância Total Atenuada (micro-ATR).
Quando estamos trabalhando com imagens no infravermelho, cujos espectros são
similares (como duas canetas esferográficas, por exemplo), é necessário empregar
técnicas quimiométricas com a finalidade de extrair informações relevantes que podem
ser visualmente imperceptíveis. Assim, técnicas de redução de dimensionalidade,
segmentação, análise exploratória, resolução, compressão, entre outras se fazem
necessárias. A Análise de Componentes Principais (PCA: Principal Component
Analysis) se apresenta como uma ferramenta muito comum e eficaz na redução de
dimensionalidade, mantendo as informações mais relevantes do conjunto de
dados(BEEBE et al., 1998). A aplicação da PCA em imagens hiperespectrais é de
Page 21
19
grande utilidade para a extração de informações a respeito de características importantes
da amostra, uma vez que é possível comprimir os dados, preservando informações
fundamentais e interpretar a correlação entre as variáveis utilizadas e a estrutura da
amostra. Assim, a PCA pode ser utilizada como um instrumento para seleção de
características da imagem. Um método bem difundido para a análise quantitativa de
dados espectrais, a regressão por Mínimos Quadrados Parciais (PLS: Partial Least
Squares) se apresenta como outra técnica de projeção eficaz para a Análise Multivariada
de Imagens (MIA: Multivariate Image Analysis). Técnicas para o aprimoramento da
resolução como SIMPLISMA (SIMPLISMA: Simple-to-use Interactive Self-modeling
Mixture Analysis) e MCR-ALS (MCR-ALS: Multivariate Curve Resolution –
Alternating Least Squares) também têm muitas aplicações (PRATS-MONTALBÁN et
al., 2011).
2 OBJETIVOS GERAIS
Este trabalho tem como objetivo geral, desenvolver métodos rápidos, confiáveis e
não destrutivos utilizando imagens hiperespectrais no infravermelho próximo (HI-
NIR)e ferramentas quimiométricas para auxiliar na solução de problemas de falsificação
e adulteração de documentos.
2.1 Objetivos específicos
Avaliar a utilização de HI-NIR e Análise Multivariada de Imagens para
identificar adulteração por adição de texto com uma caneta diferente.
Avaliar a utilização de HI-NIR e MIA para identificação do texto oculto em
documentos após acréscimo de sobrecarga.
Identificar a sequência de linhas em cruzamento de traços de canetas com toner
utilizando HI-NIR e ferramentas quimiométricas de resolução de imagens.
3 FUNDAMENTAÇÃO TEÓRICA
3.1 Infravermelho
A espectrometria de absorção molecular na região infravermelho (IR: infrared)
pode ser uma poderosa ferramenta na análise qualitativa e quantitativa de diversos tipos
de amostras. Além de ser uma técnica com diversas formas de aquisição espectral(como
transmitância direta, refletância difusa, refletância total atenuada, etc.), é simples, rápida
Page 22
20
e quase não necessita de preparo de amostras.O infravermelho compreende a região
espectral em que o número de onda está entre 12.800 cm-1
e 10 cm-1
. Essa região
espectral pode ser subdividida em três, que são denominadas de infravermelho próximo
(NIR:Near Infrared), médio (MIR:Middle Infrared) e distante (FIR:Far Infrared)
(SKOOG et al., 2005).
As frequências de radiação na região do infravermelho são baixas e, quando
absorvidas por um sistema molecular são convertidas em energias rotacionais e
vibracionais (SILVERSTEIN et al., 2005).Entretanto, a absorção na região do IR só
ocorre quando há uma variação no momento de dipolo da molécula em decorrência dos
diferentes estiramentos e deformações (Figura 1), permitindo a interação entre o campo
eletromagnético da radiação IR e o sistema molecular, que sofre uma mudança na
amplitude vibracional em decorrência dessa absorção. Assim, é possível perceber que
sistemas moleculares diatômicos homonucleares (como O2, N2, H2, etc.) não são
capazes de absorver radiação IR, pois suas vibrações não ocasionam variação do
momento de dipolo da molécula (SKOOG et al., 2006).
VIBRAÇÕES DE ESTIRAMENTO
Estiramento Simétrico Estiramento Assimétrico
DEFORMAÇÕES ANGULARES
Balanço no Plano Tesoura no Plano Torção fora do
Plano
Sacudida fora do
Plano
Figura 1Diferentes modos de vibração em uma molécula triatômica heteronuclear (Adaptado de
SKOOG, 2006).
Page 23
21
Para sistemas moleculares, as energias de ligação obedecem ao modelo do
oscilador anarmônico, que considera comportamentos como repulsão entre as nuvens
eletrônicas dos átomos em decorrência da aproximação de seus núcleos e a variação da
energia potencial da ligação com o afastamento dos átomos, levando à dissociação da
ligação. Para esse modelo, as transições ativas não só obedecem à regra de seleção
∆𝜐 = ±1 (relativa aos modos normais de vibração), mas também às regras de seleção
∆𝜐 = ±2 e ∆𝜐 = ±3, que explicam os sobretons e as bandas de combinação (Figura 2)
(PASQUINI , 2003).
A região do NIR corresponde à faixa de número de onda que vai de 12.800cm-1
a
4000cm-1
(o equivalente a comprimentos de onda que vão de 750nm a 2500nm). Essa
região corresponde, principalmente aos sobretons eàscombinações das vibrações
fundamentais associadas às ligações O-H, C-H, N-H e S-H (PASQUINI, 2003), que
podem fornecer informações importantes a respeito da composição orgânica das
amostras.
Durante a década de 70, as técnicas de imagens hiperespectrais na região do NIR
(HI-NIR: Near Infrared – Hyperspectral Images) eram aplicadas a análises de
sensoriamento remoto, e, apenas a partir dos anos 90 essas técnicas começaram a ser
utilizadas na área de alimentos (BELLON-MAUREL, 2009). Atualmente, uma grande
variedade de trabalhos são apresentados na literatura com aplicações das técnicas de HI-
NIR para a avaliação de produtos farmacêuticos (CRUZ et al., 2011;CRUZ et al,. 2009;
ELLISON et al., 2008; AMIGO et al., 2009; PRATS-MONTALBÁN et al., 2012).
Page 24
22
Figura 2Gráfico da energia potencial da ligação em função da distância entre os átomos para o modelo
do oscilador anarmônico(PASQUINI, 2003).
3.2 Imagem Hiperespectral e Análise Multivariada de Imagem
A análise de imagens está inserida numa área conhecida como processamento de
imagens, que consiste na extração de informações relevantes ou na melhoria de
qualidade da imagem estudada. Esta área pode utilizar diferentes propriedades das
imagens, tais como textura, cor e forma, para extrair essas informações.
Para imagens digitais, o menor elemento formador de uma imagem é o pixel (para
imagens de superfície, ou seja, em duas dimensões) ou o voxel (para imagens
tridimensionais). Cada pequena porção da imagem está determinada por coordenadas
espaciais – x e y, para os pixels e x, y e z, para os voxels. Na Figura 3, é possível
observar que a ampliação sucessiva da imagem do quadro Noite Estrelada do autor
Vincent van Gogh, datada de 1889, fornece a visualização dos pixels que compõem a
imagem digital(PRATS-MONTALBÁN et al., 2011).
Figura 3Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh, 1889.
As imagens digitais são formadas pelas coordenadas espaciais e valores
numéricos para cada pixel que representam a escala de cores utilizada. Quando a
Page 25
23
imagem estudada está representada na escala de cinza, tem-se uma matriz de dados
bidimensional e cada pixel está associado a um valor de intensidade na escala de cinza
(Figura 4a). Já para imagens em RGB – formadas a partir dos três canais de cores,
vermelho, verde e azul (RGB: Red, Green, Blue) –, tem-se uma matriz de dados
tridimensional, formada a partir de três matrizes de dados concatenadas, em que cada
pixel terá três valores de intensidade, um para cada canal de cor (Figura 4b), (PRATS-
MONTALBÁN et al., 2011).
Existe um tipo particular de imagem que, além de fornecer as informações
espaciais da amostra, também fornece informações a respeito da composição química da
mesma. Estas imagens possuem um espectro de alta resolução ou alguns comprimentos
de onda associados a cada pixel da imagem e são chamadas de imagens hiperespectrais
(HI: Hyperspectral Images) ou multiespectrais, respectivamente (Figura 4c). Esses
espectros podem ser obtidos por diversas técnicas analíticas, como Raman,
Infravermelho, Fluorescência, UV-vis, etc., sendo as técnicas de Raman e de
Infravermelho, geralmente, as mais informativas (DE JUAN, 2009).
Figura 4Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c) hiperespectrais.
Para realizar a análise de imagens, é preciso transformar a imagem estudada em
uma matriz de dados que possa ser matematicamente manipulada. Desta forma, é
preciso realizar um desdobramento da matriz 3D (para imagens em RGB,
multiespectrais e hiperespectrais) em uma matriz bidimensional. Cada pixel será
considerado como uma amostra e os valores de intensidade serão dispostos em colunas,
respeitando a ordem sugerida na Figura 5a. O desdobramento para imagens em RGB e
multi/hiperespectrais está esquematizado nas Figuras 5a e 5b, respectivamente.
Page 26
24
(a) (b)
Figura 5Desdobramento das matrizes 3D de imagens (a) em RGB e (b) hiperespectrais.
Esse desdobramento da matriz de dados causa a perda da informação espacial
(textura e distribuição), pois não considera a relação de intensidade entre os pixels
vizinhos. Por isso, quando existe a necessidade de realizar uma análise espacial, o
desdobramento pode ser realizado considerando os pixels vizinhos de uma janela com
tamanho previamente determinado, geralmente de 9 pixels, como na Figura 6 (PRATS-
MONTALBÁN et al., 2011).
(a)
(b)
Figura 6Desdobramento considerando a informação espacial (textura e distribuição) em imagens
em (a) escala de cinza e (b) RGB.
As imagens hiperespectrais possuem uma grande vantagem com relação obtenção
dos espectros clássicos de uma determinada amostra, pois variações espectrais de pixel
Page 27
25
a pixel fornecem informações a respeito da distribuição de componentes na superfície
da amostra analisada. Entretanto, como nos conjuntos de dados espectroscópicos
clássicos, os espectros das imagens hiperespectrais também obedecem à linearidade da
lei de Beer-Lambert, e portanto podem ser representados pela Equação 1:
𝑿 = 𝑪𝑺𝒕 + 𝑬 (1)
Em que X é a matriz dos dados, C é a matriz de intensidade relativade cada
componente presente, S é a matriz que contém os espectros dos constituintes puros e E
é a matriz de erros (associada àquelas informações que o modelo não consegue
modelar), (Figura 7). Com a reconstituição da imagem, é possível observar o mapa de
distribuição dos compostos com suas respectivas concentrações relativas (PRATS-
MONTALBÁN et al., 2011).
Figura 7Desdobramento da matriz tridimensional de dados em uma matriz bidimensional e sua
decomposição em perfis de concentração relativa e espectros puros.
Para a análise de imagens hiperespectrais, é fundamental submeter os espectros a
determinadas técnicas de pré-processamento. Desta forma, as técnicas clássicas de pré-
tratamentos espectrais podem ser aplicadas, como será discutido mais adiante. Porém,
um problema que está relacionado ao tratamento das imagens hiperespectrais é o
tamanho do conjunto de dados dessas imagens. Para redução do conjunto de dados sem
perda significativa da informação, é indicado utilizarferramentas de compressão como
PCA, seleção de características baseada em wavelets, etc,(PRATS-MONTALBÁN et
al., 2011). Existem ainda duas formas básicas de se realizar a análise de uma imagem
hiperespectral a partir de uma redução significativa de dados, sem submetê-la a técnicas
de compressão. A primeira é construir uma imagem contendo apenas as informações de
absorbância/transmitância de um único comprimento de onda que deve estar
Page 28
26
diretamente associado ao composto que se deseja analisar (Figura 8a). A segunda
maneira consiste na construção de um mapa de distribuição global da imagem, assim
para cada pixel teremos um valor numérico que corresponde à soma de todos os valores
de absorbância/transmitância em todos os comprimentos de onda (Figura 8b). Porém, é
importante perceber que a obtenção do mapa de distribuição de qualquer uma das duas
formas descritas implica na perda da riqueza de informação fornecida pela imagem
hiperespectral (DE JUAN, 2009).
(a)
(b)
Figura 8Construção do mapa de distribuição (a) a partir de um comprimento de onda específico e (b) a
partir da soma das intensidades em todos os comprimentos de onda.
Para realizar o tratamento de imagens multiespectrais, hiperespectrais, em RGB
ou em outros canais de cores, foram desenvolvidas as técnicas de Análise Multivariada
de Imagens (ESBENSEN, 1989). Estas técnicas começaram a surgir no final dos anos
80 (GELADI, 1989). Até então, as técnicas de análise desenvolvidas estudavam as
imagens como um todo, porém a adesão das ferramentas estatísticas permitiu o
desenvolvimento de estudos mais completos, olhando para as imagens como um
conjunto de pequenas unidades (os pixels). A essa nova forma de análise, deu-se então o
nome de Análise Multivariada de Imagem. Atualmente, pode ser utilizada como
ferramenta de classificação, segmentação, previsão, etc (PRATS-MONTALBÁN et al.,
2011).
Page 29
27
A Análise de Componentes Principais pode ser aplicada na análise de imagens
com o objetivo de reduzir a dimensionalidade da matriz de dados, conservando as
informações relevantes e descartando as redundantes. Além disso, uma grande
vantagem da aplicação da PCA em dados de imagem é que ela é capaz de resolver o
problema da alta correlação entre as intensidades de pixels vizinhos. Este método é bem
estabelecido na literatura para aplicações de conjuntos espectrais clássicos e já possui
grande aceitação na área de análise de imagens pela comunidade científica.
Desta forma, é possível reconstruir uma imagem de scores para cada componente
principal obtida a partir da análise. Assim, as novas imagens irão reter as informações
mais relevantes da amostra e a dimensionalidade do conjunto de dados será
significativamente menor, uma vez que apenas algumas poucas componentes trazem
informações realmente relacionadas com a composição química da amostra (DE JUAN,
2009). Apesar das novas componentes não apresentarem um significado químico, as
imagens geradas são capazes de representar eficientemente a distribuição de diferentes
componentes na amostra.
Os métodos de segmentação são bastante úteis na análise de imagens, pois têm
como objetivo realizar uma seleção de pixels similares. Essas similaridades devem estar
associadas às características que se deseja estudar, sejam elas de natureza química,
biológica, espacial, relativa à textura, etc. Existem diversas ferramentas para realizar a
segmentação de uma imagem que podem variar de acordo com a forma de realizar a
classificação dos pixels e/ou com os conhecimentos utilizados na implementação do
processo (DE JUAN, 2009).
Duas variações de uma técnica bastante utilizada em conjuntos clássicos de
espectros e que vêm sendo empregadas na análise de imagens são a Regressão por
Mínimos Quadrados Parciais (PLS: Partial Least Squares), para calibrações, e, para fins
classificatórios, Análise Discriminante por Regressão dos Mínimos Quadrados Parciais
(PLS-DA: Partial Least Squares – Discriminant Analysis).
A técnica PLS cria um modelo de projeção utilizando variáveis latentes, porém,
diferentemente da PCA, que procura as variáveis que explicam a maior variância dos
dados, PLS fornece as variáveis que apresentam a maior correlação entre a matriz X
(matriz dos dados de medições) e Y (matriz das propriedades que se deseja avaliar)
(PRATS-MONTALBÁN et al., 2011).
Page 30
28
As técnicas de tratamento de imagens descritas anteriormente podem ser
utilizadas para estudar imagens em escalas de cinza, RGB, multiespectrais ou
hiperespectrais. Porém existem técnicas que foram desenvolvidas especificamente para
tratar de imagens multi e hiperespectrais.
Ao lidar com imagens hiperespectrais, conforme já citado, é de extrema
importância realizar determinadas correções nos dados para aumentar a qualidade dos
resultados ao final da análise. Portanto, técnicas de pré-processamento são bastante
utilizadas para contornar alguns problemas típicos não só relacionados com as variações
de medidas de imagens, mas também com as variações comuns observadas em um
conjunto clássico de espectros. Assim, ferramentas usuais como normalização,
suavização, derivadas, correções de linha de base, entre outras, podem ser empregadas
com seus objetivos originais. Existem, entretanto, outras ferramentas mais específicas
para corrigir pixels anômalos, outliers – como substituir o valor do pixel pela média dos
pixels vizinhos –, realizar compressões de imagens, etc., que, quando utilizadas
adequadamente, aumentam significativamente a qualidade dos resultados analisados
(DE JUAN, 2009).
Após submeter os dados às técnicas adequadas de pré-processamento, é possível
melhorar a análise utilizando ferramentas para aperfeiçoar a resolução da imagem. No
caso de imagens hiperespectrais, a resolução está associada à capacidade de identificar a
informação química para cada pixel. Ou seja, os métodos de resolução procuram as
contribuições individuais de cada componente de um sistema de forma que a
combinação delas representem a resposta instrumental do sistema (DE JUAN,
2003).Uma das técnicas que pode ser utilizada com essa finalidade é o SIMPLISMA
(PRATS-MONTALBÁN et al., 2011). SIMPLISMA (SIMPLISMA: Simple-to-use
Interactive Self-modeling Mixture Analysis) é uma ferramenta de análiseexploratória
que procura os pixels mais puros da imagem e/ou os canais espectrais mais puros
através de um índice de pureza. Uma vez que os pixels mais puros são obtidos, é
possível gerar um mapa de distribuição para cada um dos componentes selecionados,
gerando uma nova imagem que seja compatível com os valores reais de cada
componente (DE JUAN, 2009).
Caso o pesquisador já tenha conhecimento a respeito dos espectros puros (ou os
mais próximos dos puros) dos componentes da amostra ou já tenha realizado algum
Page 31
29
procedimento para encontrá-los (como SIMPLISMA), é possível usar tais informações
como entradas para aprimorar a resolução da imagem. Um algoritmo de resolução,
muito utilizado no tratamento de imagens multi e hiperespectrais, é o MCR-ALS.
O MCR-ALS é um algoritmo iterativo que utiliza os espectros de entrada para
encontrar soluções otimizadas para os espectros puros. Na verdade, essa ferramenta
pode ser utilizada para qualquer conjunto de dados que obedeça a modelos bilineares,
independente da natureza da medida desses dados. Assim, o MCR-ALS busca soluções
para a Equação 1 de forma iterativa. Porém, visto que existem muitas variações no
comportamento dos espectros para medidas de imagem, é preciso impor algumas
restrições para que as soluções da equação sejam aceitáveis (JAUMOT et al., 2005).
3.2.1 Análise de Componentes Principaisde Imagens
A Análise de Componentes Principais é uma ferramenta de análise exploratória
capaz de identificar similaridades e diferenças entre amostras do conjunto de dados.
É,provavelmente, a técnica de reconhecimento de padrões não supervisionada que
possui uma maior aceitação pela comunidade científica e é largamente utilizada em
diversas aplicações (BRERETON, 2003), inclusive na avaliação de tintas de canetas
para conjuntos clássicos de dados, como Cromatografia líquida de alto desempenho
(HPLC:High-Performance Liquid Chromatography) (KHER et al., 2006), UV-vis
(ADAM et al, 2008) e visível (THANASOULIAS et al., 2003).
A PCA de imagens transforma a matriz de dados em um modelo bilinear que
obedece a Equação 2.
𝑿 = 𝑻𝑳𝒕 + 𝑬 (2)
Em que T é a matriz dos scores (que são as coordenadas das amostras no novo
sistema de eixos), LT é a matriz dos pesos (ou loadings, que são os cossenos dos
ângulos entre os eixos originais e as componentes principais) e E é a matriz dos erros
associados ao modelo construído. Esse novo modelo é formado a partir de uma
combinação linear das variáveis originais de forma que as novas variáveis, componentes
principais (PC: Principal Component), serão ortogonais entre si e representarão, de
forma decrescente, a maior variância dos dados (BEEBE et al., 1998). Quando aplicado
a imagens hiperespectrais, são os vetores da matriz T que, quando reorganizados,
fornecem as imagens dos escores (GELADI et al., 1989; DUCHESNE et al., 2012).
Page 32
30
Apesar de não possuir sentido químico claro e ser de difícil interpretação
(KEENAN; 2007), as imagens dos escores podem fornecer importantes informações
sobre o conjunto de dados, especialmente quando combinadas com os gráficos dos
pesos. Muitas vezes a primeira componente principal pode conter informações a
respeito da intensidade de iluminação e a capacidade da superfície da amostra de refletir
radiação (GELADI et al., 1989).
A PCA aplicada a imagens também possui uma outra aplicação de extrema
importância. É possível se obter um gráfico de dispersão com a matriz desdobrada de
uma imagem de escores de uma componente versus outra. Este tipo de gráfico pode
fornecer informações sobre outliers e diferentes classes no conjunto de dados analisados
(GELADI et al., 1989).
3.2.2 MCR-ALS
Um método de resolução de sinais que pode ser aplicado a imagens é o MCR-
ALS (MCR-ALS: Multivariate Curve Resolution – Alternating Least
Squares)(TAULER, 1993). Essa ferramenta é capaz de analisar qualquer conjunto de
dados que possa ser descrito por um modelo bilinear, como dados eletroquímicos e
espectroscópicos.
Utilizando, como dados de entrada, estimativas dos espectros puros dos
componentes presentes na amostra, o algoritmo tem como objetivo encontrar as
contribuições de cada componente da amostra a partir da decomposição bilinear da
matriz X (Equação 1). Portanto, como já comentado, o MCR-ALS busca soluções para
a Equação 1 de forma iterativa, otimizando a matriz de intensidade relativaC e de
espectros puros S de forma a ajustar-se ao conjunto de dados experimentais X
(JAUMOT et al., 2005).
A busca de soluções realizada pelo algoritmo é feita obedecendo a determinadas
restrições impostas pelo operador, dependendo do tipo de dados que estão sendo
analisados. Condições de normalização, seletividade, valores conhecidos,
unimodalidade e não negatividade podem ser impostas de forma a encontrar os
resultados ótimos e aceitáveis para o problema. A restrição de não negatividade é,
provavelmente, a mais utilizada, pois impede que o algoritmo encontre soluções com
valores negativos para a matriz C e para os valores da matriz ST(TAULER, 2001). É
importante ressaltar que a restrição de não negatividade não pode ser usada na direção
Page 33
31
espectral quando os dados forem pré-processados com derivadas e SNV, pois os perfis
espectrais podem possuir valores negativos.
Para avaliar o modelo construído pelo algoritmo, existem alguns parâmetros que
podem ser considerados, como a percentagem de falta de ajuste (lof), a variância
explicada (R2) e o desvio padrão (σ), representados nas Equações 3, 4 e 5,
respectivamente.
𝑙𝑜𝑓(%) = 100 × √∑ 𝑒𝑖𝑗
2𝑖,𝑗
∑ 𝑥𝑖𝑗2
𝑖,𝑗
(3)
𝑅2 =∑ 𝑥𝑖𝑗
2𝑖,𝑗 − ∑ 𝑒𝑖𝑗
2𝑖,𝑗
∑ 𝑥𝑖𝑗2
𝑖,𝑗
(4)
𝜎 = √∑ 𝑒𝑖𝑗
2𝑖,𝑗
𝑛𝑙𝑖𝑛ℎ𝑎𝑠 ∙ 𝑛𝑐𝑜𝑙𝑢𝑛𝑎𝑠
(5)
Em que nlinhas e ncolunas são o número de linhas e de colunas da matriz X,
respectivamente, eij2 é a diferença entre o elemento de entrada e o calculado pelo MCR-
ALS, xij2 é o elemento de entrada(JAUMOT et al., 2005).
O MCR-ALS também pode tratar mais de uma matriz de dados ao mesmo
tempo, quando se tem vários experimentos realizados com a mesma técnica
espectroscópica (Equação 6), quando se tem o mesmo sistema químico avaliado por
mais de uma técnica espectroscópica (Equação 7) ou, até mesmo quando se tem vários
experimentos realizados com mais de uma técnica espectroscópica(Equação
8)(TAULER, 1995).
[𝑋1
𝑋2] = [𝐶1
𝐶2] 𝑆𝑇 + [𝐸
1
𝐸2] (6)
[𝑋1 𝑋2] = 𝐶[𝑆𝐴𝑡 𝑆𝐵
𝑡 ] + [𝐸𝐴 𝐸𝐵] (7)
[𝑋𝐴1 𝑋𝐵
1
⋮ ⋮𝑋𝐴𝑛 𝑋𝐵
𝑛] = [𝐶
1
𝐶2] [𝑆𝐴
𝑡 𝑆𝐵𝑡 ] + [
𝐸𝐴1 𝐸𝐵
1
⋮ ⋮𝐸𝐴2 𝐸𝐵
2]
(8)
Em que a matriz 𝑋𝑗𝑖 corresponde à matriz do sistema i monitorado pela técnica j; 𝐶𝑖é a
matriz de concentração do sistema i; 𝑆𝑗𝑡 é a matriz transposta dos espectros puros dos
Page 34
32
componentes obtidos pela técnica j e 𝐸𝑗𝑖 corresponde à matriz residual do sistema i
monitorado pela técnica j(JAUMOT et al., 2005).
O MCR-ALS fornece as matrizes C e S otimizadas partindo de estimativas
iniciais de uma das duas através das Equações 9 e 10.
𝑪+𝑿∗ = 𝑪+𝑪𝑺𝑻 = 𝑺𝑻 (9)
𝑿∗(𝑺𝑻)+ = 𝑪(𝑺𝑻)(𝑺𝑻)+ = 𝑪 (10)
Em que C+ é a pseudoinversa de C, (S
T)+é a pseudoinversa da matriz S
T e X
* é a matriz
dos valores singulares de X contendo apenas as PCs escolhidas [TAULER, 1995].
3.2.3 PLS-DA
Muitas vezes o analista possui duas matrizes de dados com diferentes variáveis (X
e Y), aparentemente independentes. Para analisar se existem tendências de variações
que sejam comuns aos dois conjuntos de dados desprezando os erros aleatórios
experimentais, Wold (WOLD, 1976; WOLD, 2001) propôs a técnica dos Mínimos
Quadrados Parciais (PLS: Partial Least Squares).
Uma forma simples de entender a construção de um modelo PLS é realizar uma
regressão entre os escores das matrizes X e Y. Assim, PLS é uma técnica que consiste
na construção de um modelo que considera as relações internas dos dados de cada
matriz (matriz X e matriz Y separadamente) estabelecendo um vínculo entre elas
(GELADI;1986).
Enquanto a PCA calcula componentes com a mínima correlação entre as variáveis
originais (componentes principais que sejam ortogonais entre si) e que maximizam a
variância em X, o PLS procura variáveis latentes (análogas às componentes principais)
que expliquem a máxima correlação entre as matrizes X e Y, como já ressaltado
anteriormente. Desta forma, as variáveis latentes (LV: Latent Variables) podem ser
interpretadas geometricamente como uma leve rotação das PCs de forma a aumentar a
correlação entre os dois conjuntos de dados (WOLD, 2001;BRUNS, 1985).
Matematicamente, o PLS consiste na decomposição das matrizes X e Y como
mostrado nas equações 11 e 12, respectivamente:
𝑿 = 𝑻𝑷𝒕 + 𝑬 (11)
𝒀 = 𝑼𝑸𝒕 + 𝑭 (12)
Page 35
33
Em que T e U são análogas às matrizes dos escores em uma PCA e P e Q, análogas às
matrizes dos pesos (ver equação 2). Assim, o PLS ajusta as equações 9 e 10 de forma
que E e F sejam aproximadamente zero e constrói uma relação entre U e T (equação 13)
(KALIVAS, 2006):
𝑼 = 𝑻𝑾 (13)
Assim, caso haja uma amostra onde suas variáveis x (𝑥 ∈ 𝑿) são conhecidas, é possível
prever suas variáveis y (𝑦 ∈ 𝒀) a partir das relações anteriores.
Com objetivos de classificação, o método da Análise Discriminante por
Mínimos Quadrados Parciais pode ser usado, como ilustrado na Figura 9, em que a
matriz Y em geral é uma matriz que contém apenas 0 e 1 em seus elementos. Suponha
um sistema que contém 3 classes. A matriz X será composta por 3 matrizes
concatenadas contendo os espectros referentes às amostras das classes 1 (X1), 2 (X2) e
3 (X3). A matriz Y será uma matriz de 0 e 1 em que cada coluna estará relacionada com
a classe do componente (1, 2 ou 3). Assim, quando uma amostra desconhecida com um
determinado perfil espectral for projetada no modelo construído, é possível prever o
valor de Y dessa amostra no modelo e determinar em que classe ela será classificada. O
valor para Y da amostra será 1, quando ela pertencer à determinada classe e 0 quando
não pertencer. A forma mais simples é utilizar um limiar para a classificação da amostra
de 0,5, ou seja, quando uma amostra apresentar um valor igual ou maior que 0,5,
significa que ela pertence à classe e questão.
Figura 9Esquema da construção de um modelo de PLS-DA.
Page 36
34
3.2.4 Pré-processamento de dados
Os dados espectrais de infravermelho, geralmente necessitam de correções antes
de serem submetidos a técnicas de modelagem quimiométricas (MILLER, 2005). Para
minimizar as fontes irrelevantes de informações tais como variações aleatórias ou
sistemáticas, que não estão relacionadas com a propriedade de interesse, nesse sentido,
algumas técnicas de pré-processamento podem ser utilizadas. É sempre bom ter em
mente que, uma vez aplicadas as técnicas de pré-processamento, os resultados do
conjunto de dados podem mudar significativamente, tanto para melhor como para pior,
e é a escolha apropriada da técnica que vai fornecer o melhor resultado. As técnicas de
pré-processamento podem operar nas amostras (normalização, suavização, MSC,
derivadas, SNV, etc.) ou nas variáveis (centrar na média, autoescalonamento, etc.)
(BEEBE et al., 1998). Cada pré-processamento possui um objetivo diferente, e a
escolha da técnica deve ser tomada de acordo com o tipo de correção que se deseja fazer
nos dados, com o objetivo da análise e, por vezes, com o resultado da modelagem.
Das diversas variações presentes em um conjunto de dados, as mais comuns para
dados de refletância são as flutuações sistemáticas geradas devido ao espalhamento de
luz. Para corrigir problemas como esse, técnicas de correção como Variação Normal
padrão (SNV: Standard Normal Variate) e Correção Multiplicativa de Espalhamento
(MSC: Multiplicative Scattering Correction) são bastante utilizadas. As duas são
similares e fornecem resultados muito parecidos, uma vez que o formato das equações
que descrevem cada uma são semelhantes (FEARN et al., 2009).
MSC foi primeiramente proposto por Martens et. al. (MARTENS et al., 1983) e,
em seguida adaptado por Geladi et. al. (GELADI et al., 1985). Esta técnica corrige os
efeitos indesejados de espalhamento em, basicamente duas etapas: (1) estimando os
coeficientes de correção e, em seguida (2) corrigindo o espectro original (RINNAN et
al., 2009). As equações 14 e 15 mostram como são realizadas as etapas (1) e (2),
respectivamente.
𝒙𝑜𝑟𝑔 = 𝑏0 + 𝑏𝑟𝑒𝑓,1 ∙ 𝒙𝑟𝑒𝑓 + 𝒆 (14)
𝒙𝒄𝒐𝒓𝒓 =𝒙𝒐𝒓𝒈 − 𝑏0
𝑏𝑟𝑒𝑓,1= 𝒙𝒓𝒆𝒇 +
𝒆
𝑏𝑟𝑒𝑓,1
(15)
Em que xorg é a matriz dos espectros medidos, xref é o espectro de referência usado para
processar todo o conjunto de dados, e é a matriz residual, xcorr é a matriz com os
Page 37
35
espectros corrigidos, b0e bref,1 são parâmetros escalares que variam de acordo com a
amostra (RINNAN et al., 2009). Os parâmetros b0 e bref,1 estimam os efeitos aditivos e
multiplicativos, respectivamente, enquanto o erro (ou matriz de resíduos) e pode ser
relacionado com as informações químicas. Caso haja a detecção e remoção de outliers
no conjunto de dados, o espectro médio (xref) mudará, e, consequentemente xcorr
também mudará, fazendo com que o MSC seja uma técnica que dependente do conjunto
de dados (DHANOA et al. 1994;FERNÁNDEZ-CABANÁS et al., 2007).
Diferentemente do MSC, SNV não necessita de um espectro de referência para a
obtenção dos espectros corrigidos. Essa transformação ocorre individualmente para cada
espectro do conjunto de dados de acordo com a equação 16:
𝒙𝒄𝒐𝒓𝒓 =𝒙𝒐𝒓𝒈 − 𝑎0
𝑎1
(16)
Em que a0 é o valor médio do espectro a ser corrigido e a1 é o desvio-padrão do
espectro de cada amostra.
A relação entre as os espectros corrigidos com MSC e SNV podem ser
resumidas na equação 15:
𝒙𝑴𝑺𝑪 ≈ 𝒙𝑺𝑵𝑽 ∙ �̅�𝑿 + �̿� (15)
Em que xMSCé a matriz dos espectros corrigidos com MSC, xSNV é a matriz dos espectros
corrigidos com SNV, �̅�𝑿 é a média do desvio padrão de todos os espectros brutos
(obtidos de xorg) e �̿� é a média geral de todos os espectros brutos.
Existem diversas outras técnicas de correção de dados. As derivadas também são
ferramentas matemáticas que podem ser utilizadas para corrigir efeitos de linha de base
além de evidenciar sinais que não estão muito visíveis. A derivada de Savitzky-Golay
(SG) (SAVITZKY, 1964) foi proposta em 1964 e é uma técnica bastante utilizada em
dados espectroscópicos, que, além de resolver os problemas de linha de base já
mencionados, também suaviza os espectros.
A normalização é outra técnica de pré-processamento muito utilizada. Ela segue a
Equação 16, porém, para a normalização, a0 é igual a 0 e a1 pode ser diferentes fatores,
dependendo do tipo de normalização que se deseja realizar. Geralmente, a1 é a soma
Page 38
36
total dos valores absolutos dos elementos do vetor ou a raiz quadrada da soma dos
elementos (RINNAN et al., 2009).
Para centralizar os dados na média, é necessário subtrair o espectro médio das
amostras do espectro de cada uma das amostras. Essa técnica é capaz de facilitar a
visualização das diferenças relativas nas intensidades dos valores de
absorbância/refletância/transmitância de cada comprimento de onda (BEEBE et al.,
1998). Além dessas, outras ferramentas de pré-processamento estão dispostas na
literatura e podem ser utilizadas de acordo com o tipo de correção que se deseja fazer na
matriz de dados.
4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES
O uso de imagens hiperespectrais tem ganhado muitas aplicações na área forense.
Alguns trabalhos tem sido publicados utilizando análise dessas imagens para resolver
diferentes problemas de interesse polícial. Em 2007, Tahtouh et al (TAHTOUH et al.,
2007) publicaram um trabalho em que utilizaram imagens hiperespectrais na região do
infravermelho médio (HI-MIR) para melhorar a localização e obtenção de impressões
digitais. Os autores avaliaram diversos parâmetros para otimizar a aquisição das
imagens de impressões digitais que foram aplicadas sobre diferentes superfícies (vidros,
notas de $5 australianos, papel sulfite, fitas adesivas, latas de alumínio, etc.). Para cada
uma das superfícies selecionadas, os autores determinaram os melhores parâmetros
instrumentais de aquisição das imagens (como resolução espacial, resolução espectral,
número de varreduras, etc.) para a detecção das impressões e tiveram sucesso na
identificação das impressões em todas as superfícies usadas.
Edelman et al. (EDELMAN et al., 2012)utilizaram HI-NIR/vis para datação de
manchas de sangue em locais de crime. Nesse trabalho, os autores utilizaram uma
amostra de sangue colocada em uma superfície de algodão para criar um conjunto de
dados de referência. Essa amostra foi armazenada no laboratório à temperatura ambiente
e, a partir dela, foram obtidas imagens durante os 200 dias de armazenamento (uma vez
por mês após o primeiro mês de armazenamento e diariamente no primeiro mês). Os
dados foram pré-processados com SNV e um modelo não-linear de decomposição
espectral (non-linear spectral unmixing model) foi usado para estimar a idade absoluta
de manchas de sangue a partir das concentrações relativas de oxihemoglobina,
metahemoglobina e hemicromo. A idade relativa de manchas de sangue numa mesma
Page 39
37
cena de crime também foi estimada usando análise de agrupamento por k-médias (k-
meansCluster Analysis). Ambas as abordagens foram bem sucedidas, e o erro relativo
na estimativa da idade absoluta das amostras de testes a partir da referência foi igual a
13,4%.
Schuler et al. (SCHULER et al., 2012)publicaram um trabalho avaliando o
potencial de HI-NIR na identificação de padrões de manchas de sangue em tecidos
pretos. As imagens obtidas foram normalizadas e, após a remoção do fundo (tecido),
uma PCA foi realizada para observar as diferenças relativas entre as manchas em cada
amostra e as imagens em cada comprimento de onda. A identificação das manchas de
sangue foram realizadas com sucesso, sendo diferenciadas das manchas de outras
substâncias.
Edelman et al. (EDELMAN et al., 2012)discutem, em um trabalho de revisão, o
potencial das imagens hiperespectrais para resolução de diferentes problemas no âmbito
forense. Entretanto, poucas aplicações na área de documentoscopia podem ser
encontrados quando se trata de imagens hiperespectrais. Geralmente os trabalhos que
envolvem análise de imagens para identificar fraudes em documentos avaliam imagens
em RGB ou outras escalas de cores (CMYK, HSB, HSL, L*a*b, etc).
Em 1982, Igoe e Reynolds (IGOE, 1982)propuseram uma metodologia para a
identificação da sequência de linhas em um cruzamento de traços. A primeira etapa é
baseada na aplicação de um papel fotográfico (KromeKote), que possui alta afinidade
com tintas, em cima do texto que se deseja analisar. Em seguida esse papel é
cuidadosamente removido e o registro do cruzamento inspecionado visualmente. Os
autores atestaram que a análise das margens dos traços pode fornecer informações
importantes sobre a sequência de duas linhas que se interceptam, de forma que, quando
a tinta é removida pelo papel, a continuidade das margens dos traços sugerem quais os
traços de tintas que estão por cima ou por baixo.
No mesmo ano, Godown (GODOWN, 1982) publicou um trabalho propondo duas
modificações para a técnica proposta de Igoe-Reynolds. A primeira consistindo no uso
de um papel adesivo para remover as tintas no documento analisado e a segunda
consistindo no uso de timol para melhorar a remoção dessas tintas, principalmente para
documentos mais antigos.
Os trabalhos de Igoe-Reynolds e Godown, entretanto, propõem técnicas
destrutivas de análise para abordar esse problema,o que é muito comum nos
departamentos de polícia.
Page 40
38
Atualmente, os peritos podem utilizar novas tecnologias para tentar buscar
soluções mais eficientes para problemas antigos. O trabalho de Chaikovsky et al.
(CHAIKOVSKY et al., 2003)emprega programas de computador usuais de tratamento
de imagens para separar tintas de carimbos de tintas de canetas pela análise das imagens
obtidas, com câmeras fotográficas, das amostras de casos reais bastante específicos.
Utilizando determinadas funções automáticas do programa Adobe Photoshop®, os
autores do trabalho tentaram evidenciar assinaturas e textos que se encontravam
parcialmente ocultos pela presença de tintas de carimbos.Embora tenham sido bem
sucedidos na tentativa de separar diferentes tintas nas amostras analisadas utilizando
esta metodologia, a combinação dessas tarefas automáticas depende muito do caso
analisado. Ou seja, a combinação de tintas presentes na amostra analisada é que define
qual função do programa deve ser utilizada para tentar evidenciar a assinatura. Portanto,
apesar de ser uma metodologia simples e não destrutiva, o autor deixa claro que a
proposta do trabalho é servir como um guia, pois as amostras usadas possuem
combinações de cores específicas e a sequência de tratamentos das imagens não pode
ser generalizada para todas as amostras. Além disso, a amostragem dos autores não foi
representativa, e como a qualidade dos resultados depende muito da amostra analisada,
é preciso encontrar um método mais robusto para a solução deste tipo de problema.
Com o objetivo identificar a sequência das linhas numa interseção de traços feitos
com diferentes instrumentos gráficos, Bojkoet al. (BOJKO et al., 2008)adquiriram
imagens hiperespectrais na região do Infravermelho Médio (MIR) de
documentos,utilizando um microscópio com acessório de Refletância Total Atenuada
(micro-ATR). Diversas amostras foram produzidas com diferentes tipos e marcas de
canetas, além de impressoras a laser e a jato de tinta. As amostras produzidas pelos
autores do trabalho também foram preparadas sob diferentes condições (tempo de
armazenamento da amostra, pressão usada na elaboração do traço, etc.). Os autores só
conseguiram identificar a sequência de traços daquelas amostras produzidas a partir da
combinação de tintas de canetas esferográficas com tintas de impressora a laser (toner).
Todas as outras combinações de instrumentos gráficos utilizados para reproduzir as
amostras forneceram resultados insatisfatórios. As imagens obtidas do cruzamento de
traços de tintas de canetas esferográficas pretas e tintas de toner foram avaliadas apenas
em dois comprimentos de onda separadamente, um para cada instrumento gráfico, ou
seja, não houve tratamento dos espectros e nenhuma técnica quimiométrica foi aplicada
neste trabalho.
Page 41
39
Berger (BERGER, 2013) propôs uma metodologia utilizando imagem RGB para
discriminar tintas de canetas esferográficas azuis em amostras que foram adulteradas
com uma caneta diferente da que foi usada para produzir o documento original.
Duzentas e sessenta e duas canetas esferográficas azuis foram usadas para produzir as
amostras.Cada uma das amostras produzidas foi preparada utilizando duas canetas
distintas. Uma delas era usada para escrever um número três vezes. Enquanto a outra era
usada para: escrever outro número por cima de um dos registros feitos com a primeira
caneta; colocar uma linha espiral por cima de outro número registrado com a primeira
caneta; e, por fim, usada para escrever um quarto número não sobreposto aos três
registrados com a primeira caneta. As amostras foram analisadas pela realização da
deconvolução das cores das tintas em que os parâmetros foram escolhidos a partir da
seleção de máscaras nos histogramas bidimensionais e a partir da técnica de SVM
(SVM: Support vector machines). A metodologia proposta conseguiu diferenciar as
tintas com sucesso, falhando apenas em três amostras diferentes.
Kaur et al. (KAUR et al., 2013) propuseram um método para avaliar a sequência
de linhas produzidas com diferentes instrumentos de escrita em um ponto de interseção.
Os autores utilizaram o programa de computador DocuCenter Expert (PIA-6000) para
avaliar os pontos de interseção de diversos documentos produzidos a partir de
combinações de diferentes instrumentos gráficos, como impressoras a laser, máquinas
de escrever, impressoras a base de jato de tinta, canetas do tipo esferográfica, gel e de
pena (de diversas cores). Utilizando funções específicas do programa, os autores
atestaram que a sequência das linhas numa interseção não pode ser identificada com o
programa selecionado. Linhas de instrumentos gráficos mais escuros geralmente
aparentam estar se sobrepondo à outra linha na interseção. As linhas produzidas com
tinta de impressoras a jato de tinta sempre parecem estar por baixo das linhas feitas com
os demais instrumentos gráficos. Além disso, cruzamentos realizados com instrumentos
cujas tintas apresentavam cores similares foram erroneamente identificados. O trabalho
evidencia a necessidade de uma metodologia eficaz para a solução desse tipo de
problema.
Page 42
40
CAPÍTULO 2 Problema 1: Adulteração por adição de texto
Page 43
41
1 CONTEXTUALIZAÇÃODO PROBLEMA
Um dos problemas de falsificação de documentos comum nos departamentos de
polícia é quando um documento é produzido com uma caneta e, posteriormente
adulterado. Modificação de valores em cheques, datas em atestados médicos ou
carteiras de trabalho são problemas que podem ser solucionados, caso seja possível
atestar que mais de uma caneta foi utilizada para produzir o documento. A Figura 10
exemplifica o problema estudado. Em todas as amostras, uma caneta foi utilizada para
registrar um valor e uma outra caneta foi utilizada para escrever os dois zeros antes da
vírgula.
(a)
(b)
(c)
(d)
(e)
Figura 10Exemplo das amostras preparadas para abordar o problema da adulteração por adição de texto.
Amostras (a) S1, (b) S2, (c) S3, (d) S4 e (e) S5.
O objetivo específico desta abordagem é avaliar o uso de HI-NIR e análise
multivariada de imagens para identificar a adulteração por adição de texto com uma
caneta diferente.
2 MATERIAIS E MÉTODOS
2.1 Amostras
Dez canetas pretas de diferentes tipos e marcas foram adquiridas em
estabelecimentos comerciais, sendo elas de 4 tipos diferentes: 6 marcas do tipo
esferográfica (E1, E2, E3, E4, E5 e E6), 2 marcas de canetas do tipo gel (G1 e G2), 1
marca de rollerball (RB1) e 1 marca de hidrográfica (H1). As marcas escolhidas foram
as mais comercializadas do mercado. As amostras foram produzidas em uma folha de
cheque para representar casos reais de falsificação.
Page 44
42
Após uma inspeção visual de registros feitos com as dez canetas, foram
selecionadas aquelas com os mesmos tons de negro e o mesmo diâmetro de ponta. Isto
é, as amostras adulteradas foram produzidas apenas com as canetas que não são
diferenciadas com segurança por inspeção visual dos registros, resultando em 5
amostras. Na folha de cheque, uma caneta foi utilizada para escrever um valor que foi,
posteriormente, modificado utilizando uma outra caneta similar à primeira (Figura 10).
A tabela 1 mostra as combinações fornecidas pelas canetas adquiridas, obedecendo os
critérios mencionados.
Tabela 1Resumo das amostras do problema de adulteração por adição de texto.
Nome da
Amostra
Caneta 1 Caneta 2 O que foi escrito com cada
caneta
S1 E5 G2 20 ,00(1)
00 (2)
S2 E4 G2 70 ,00 (1)
00 (2)
S3 E4 G1 70 ,00 (1)
00 (2)
S4 E3 E4 30 ,00 (1)
00 (2)
S5 G1 G2 40 ,00 (1)
00 (2)
2.2 Aquisição de imagens
Uma Imagem Hiperespectral na região do Infravermelho Próximo (NIR-HI) foi
adquirida para cada amostra utilizando o sistema de imagem química SisuCHEMA da
Specim®. A faixa espectral utilizada foi de 928-2524 nm, com resolução espectral e
espacial de 6,3nm e 10µm, respectivamente. As imagens foram adquiridas com macro-
lentes e tamanho de pixel de 30x30 µm. O próprio equipamento realiza a calibração de
iluminação, obtendo referências de claro e escuro. O número de pixels varia de imagem
para imagem e a integridade das amostras foi completamente preservada durante toda a
aquisição dos dados espectrais.
2.3 Análise e Pré-Processamentode dados
As técnicas de pré-processamento SNV, MSC, 1ª e 2ª derivada de SG (polinômios
de 2ª e 3ª ordem com janelas de 7, 9 e 15 pontos) foram avaliadas. Em seguida, o
conjunto de dados foi submetido a uma PCA para tentar identificar se o documento foi
ou não produzido com mais de uma caneta. Todo o tratamento quimiométrico foi
realizado utilizando o Matlab® R2012a.
Page 45
43
3 RESULTADOS E DISCUSSÃO
Utilizando os dados pré-processados, uma Análise de Componentes Principais foi
realizada com o conjunto de dados e as primeiras 10 componentes principais foram
obtidas. Na maioria das amostras, as informações mais importantes foram obtidas nas
primeiras PCs.
Para ilustrar os efeitos dos pré-processamentos, as amostras S1 e S3 serão tomadas
como exemplo. As Figuras 11, 12 e 13 mostram as comparações entre as imagens dos
escores obtidos a partir da PCA das imagens espectrais, com diferentes pré-
processamentos.
As duas primeiras componentes principais da amostra S1 processadas com SNV
(Figura 11a) conseguem representar a variabilidade entre os espectros da tinta da caneta
2 e do papel e da tinta da caneta 1 e o papel, respectivamente. É possível perceber que,
no caso da amostra S1, a técnica de MSC (Figura 11b) falhou e a PCA das imagens
processadas não foi capaz de identificar variabilidade significativa entre as tintas usadas
na amostra S1. Para os demais pré-processamentos, é possível identificar que os
registros foram realizados com duas canetas diferentes, embora usando PCs mais
elevadas.
Em compensação, para a amostra S3, é possível perceber que a correção feita por
MSC (Figura 11d) forneceu imagens de escores da PCA satisfatórias, em que é possível
identificar o número produzido com a caneta 1. Entretanto, os resultados obtidos a partir
da PCA para os dados pré-processados com SNV (Figura 11c) ainda foram melhores do
que os obtidos com MSC. Os resultados obtidos com as derivadas para a amostra S1
mostraram bons resultados para as imagens dos escores da PCA (Figura 12), porém para
a amostra S3 (Figura 13) as imagens dos escores fornecidas mostraram uma perda de
informação que ocorreu também para as demais amostras.
Page 46
44
Amostra S1
(a)
(b)
Amostra S3
(c)
(d)
Figura 11Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1 realizadas com as
técnicas de pré-processamento (a) SNV e (b) MSC; e para a amostra S3, também com as técnicas de (d)
SNV e (e) MSC.
PC 1
-40
-20
0
PC 2
-30
-20
-10
0
SNV
PC 3
-10
-5
0
5
10
PC 4
0
5
10
PC 5
-4
-2
0
2
PC 6
-2
0
2
4
PC 7
-2
0
2
4
PC 8
-2
-1
0
1
2
PC 9
-2
-1
0
1
2
PC 10
-2
0
2
PC 1
-4
-2
0
x 104 PC 2
-1000
-500
0
500
MSC
PC 3
-400
-200
0
200
PC 4
-200
0
200
PC 5
-300
-200
-100
0
100
PC 6
0
100
200
PC 7
0
100
200
PC 8
-100
-50
0
50
PC 9
-50
0
50
PC 10
-50
0
50
100
PC 1
-20
-15
-10
-5
0
PC 2
-15
-10
-5
0
5
SNV
PC 3
-1
0
1
2
PC 4
-1
0
1
2
PC 5
0
2
4
PC 6
-2
-1
0
1
PC 7
-1
0
1
PC 8
-1
0
1
PC 9
-1
0
1
PC 10
-1
0
1
2
PC 1
-3
-2
-1
0
PC 2
-2
-1
0
MSC
PC 3
-0.1
0
0.1
PC 4
-0.6
-0.4
-0.2
0
PC 5
0
0.2
0.4
0.6
0.8
PC 6
-0.1
-0.05
0
0.05
0.1
PC 7
-0.1
-0.05
0
0.05
0.1
PC 8
-0.2
-0.1
0
0.1PC 9
-0.1
-0.05
0
0.05
0.1
PC 10
-0.1
0
0.1
Page 47
45
(a)
(b)
(c)
(d)
(e)
(f)
Figura 12Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1 realizadas com as
técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos;
(b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e)
9 pontos; (f) 15 pontos.
PC 1
-0.2
0
0.2
0.4
PC 2
-1.5
-1
-0.5
0
1ª DERIVADA (J7 P3)
PC 3
-0.1
0
0.1
0.2
PC 4
-0.05
0
0.05
0.1
PC 5
-0.05
0
0.05
PC 6
-0.05
0
0.05
PC 7
-0.06
-0.04
-0.02
0
0.02
0.04
PC 8
-0.02
0
0.02
PC 9
-0.04
-0.02
0
0.02
PC 10
-0.02
0
0.02
0.04
PC 1
-0.4
-0.2
0
PC 2
-1
-0.5
0
1ª DERIVADA (J9 P3)
PC 3
-0.05
0
0.05
0.1
PC 4
-0.05
0
0.05
PC 5
-0.05
0
0.05
PC 6
-0.04
-0.02
0
0.02
PC 7
-0.02
0
0.02
PC 8
-0.02
-0.01
0
0.01
0.02
PC 9
-0.02
0
0.02
PC 10
-0.02
-0.01
0
0.01
0.02
PC 1
-0.4
-0.2
0
PC 2
-0.2
0
0.2
0.4
1 ª DERIVADA (J15 P3)
PC 3
-0.02
0
0.02
0.04
0.06
PC 4
-0.04
-0.02
0
0.02
0.04
PC 5
-0.02
-0.01
0
0.01
0.02
PC 6
-0.02
-0.01
0
0.01
0.02
PC 7
-0.01
0
0.01
PC 8
-0.02
-0.01
0
0.01
0.02
PC 9
-0.01
0
0.01
PC 10
-0.01
0
0.01
PC 1
0
0.5
1
PC 2
-0.2
-0.1
0
2ª DERIVADA (J7 P3)
PC 3
-0.05
0
0.05
PC 4
-0.05
0
0.05
PC 5
-0.02
0
0.02
PC 6
-0.02
-0.01
0
0.01
0.02
PC 7
-0.01
0
0.01
0.02
PC 8
-0.01
0
0.01
0.02PC 9
-0.01
0
0.01
PC 10
-0.01
0
0.01
PC 1
-0.2
0
0.2
0.4
0.6
PC 2
-0.1
-0.05
0
2ª DERIVADA (J9 P3)
PC 3
-0.02
0
0.02
PC 4
-0.02
-0.01
0
0.01
PC 5
-0.01
0
0.01
PC 6
-0.01
0
0.01PC 7
-5
0
5
x 10-3 PC 8
-0.01
-0.005
0
0.005
0.01
PC 9
-5
0
5
x 10-3 PC 10
-5
0
5
x 10-3
PC 1
0
0.1
0.2
0.3
PC 2
-0.01
0
0.01
0.02
2ª DERIVADA (J15 P3)
PC 3
-0.02
0
0.02
0.04
PC 4
-5
0
5
x 10-3 PC 5
-4
-2
0
2
4
x 10-3
PC 6
-2
0
2
x 10-3 PC 7
-4
-2
0
2
x 10-3 PC 8
-2
0
2
4x 10
-3 PC 9
-2
0
2
x 10-3 PC 10
-2
0
2
x 10-3
Page 48
46
(a)
(b)
(c)
(d)
(e)
(f)
Figura 13Imagens dos escores das 5 primeiras PCs realizadas para a amostra S3 realizadas com as
técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos;
(b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e)
9 pontos; (f) 15 pontos.
PC 1
-0.1
0
0.1
0.2
PC 2
-0.15
-0.1
-0.05
0
0.05
1ªDERIVADA S.G. (J7 P3)
PC 3
-0.05
0
0.05
0.1
0.15
PC 4
-0.05
0
0.05
PC 5
-0.05
0
0.05
PC 6
-0.02
0
0.02
PC 7
-0.02
0
0.02
PC 8
-0.02
-0.01
0
0.01
0.02
PC 9
-0.02
-0.01
0
0.01
0.02
PC 10
-0.02
-0.01
0
0.01
0.02
PC 1
-0.1
0
0.1
PC 2
0
0.05
0.1
0.15
0.2
1ª DERIVADA S.G. (J9 P3)
PC 3
-0.04
-0.02
0
0.02
0.04
PC 4
-0.04
-0.02
0
0.02
0.04
PC 5
-0.02
0
0.02
PC 6
-0.02
0
0.02
0.04
PC 7
-0.02
-0.01
0
0.01
0.02
PC 8
-0.02
-0.01
0
0.01
PC 9
-0.01
0
0.01
0.02
PC 10
-0.01
0
0.01
PC 1
-0.1
-0.05
0
0.05
0.1PC 2
-0.15
-0.1
-0.05
0
1ª DERIVADA S.G. (J15 P3)
PC 3
-0.02
0
0.02
0.04
PC 4
-0.02
-0.01
0
0.01
0.02
PC 5
-0.01
0
0.01
0.02
PC 6
-0.01
0
0.01
PC 7
-0.01
0
0.01
PC 8
-0.01
0
0.01
PC 9
-0.01
0
0.01
PC 10
-0.01
0
0.01
PC 1
-0.2
-0.1
0
0.1
PC 2
-0.04
-0.02
0
0.02
0.04
2ª DERIVADA (J7 P3)
PC 3
-0.02
0
0.02
PC 4
-0.06
-0.04
-0.02
0
0.02
PC 5
-0.01
0
0.01
PC 6
-0.01
-0.005
0
0.005
0.01
PC 7
-0.01
-0.005
0
0.005
0.01
PC 8
-0.01
-0.005
0
0.005
0.01
PC 9
-0.01
-0.005
0
0.005
0.01
PC 10
-0.01
-0.005
0
0.005
0.01
PC 1
-0.1
-0.05
0
0.05
0.1
PC 2
-0.02
-0.01
0
0.01
0.02
0.03
2ª DERIVADA (J9 P3)
PC 3
-0.04
-0.02
0
PC 4
-5
0
5
x 10-3 PC 5
-5
0
5
x 10-3
PC 6
-5
0
5
x 10-3 PC 7
-5
0
5
x 10-3 PC 8
-5
0
5
x 10-3 PC 9
-5
0
5
x 10-3 PC 10
-5
0
5
x 10-3PC 1
-0.04
-0.02
0
0.02
0.04
0.06
0.08PC 2
-0.01
0
0.01
2ª DERIVADA (J15 P3)
PC 3
-5
0
5
10
x 10-3 PC 4
-5
0
5
x 10-3 PC 5
-2
0
2
x 10-3
PC 6
-2
0
2
x 10-3 PC 7
-2
0
2
x 10-3 PC 8
-2
0
2
x 10-3 PC 9
-2
0
2
x 10-3 PC 10
-2
-1
0
1
2
x 10-3
Page 49
47
Assim como ilustrado para o caso das amostras S1 e S3, o pré-processamento por
SNV também se mostrou o mais adequado para as outras amostras.
Na Figura 14 estão apresentados os espectros médios brutos (14a) e pré-
processados por SNV (14b) das tintas das canetas 1 e 2 (sobre o papel) e do papel para a
amostra S1. Os espectros da amostra em questão mostram que, neste caso, há uma
grande variabilidade entre os espectros da tinta da caneta 2 e dos demais componentes.
A tinta da caneta 2 é significativamente diferente do papel e da tinta da caneta 1, como é
possível observar nas Figuras 14a e14b.
(a)
(b)
Figura 14 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a
amostra S1; (b) Espectros médios pré-processados do papel (azul), das tintas das canetas 1(verde) e 2
(vermelho) para a amostra S1.
928 1237 1551 1864 2176 25240
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Comprimento de onda (nm)
Refletâ
ncia
Papel
Caneta 1
Caneta 2
928 1237 1551 1864 2176 2524-6
-5
-4
-3
-2
-1
0
1
2
3
4
Comprimento de onda (nm)
Valo
res c
orr
igid
os c
om
MS
C
Papel
Caneta 1
Caneta 2
Page 50
48
A PC1 (Figura 11a) mostra que os valores altos e baixos dos escores estão
associados com as informações do papel e da tinta da caneta 2, respectivamente. É
possível observar, no gráfico dos pesos (Figura 15), a região espectral que explica essa
variabilidade. Observando os espectros corrigidos com SNV (Figura 14b), vê-se
claramente que a maior variabilidade entre os espectros da tinta da caneta 2 e do papel
realmente correspondem à região com altos valores no gráfico dos pesos da respectiva
PC.
No gráfico dos espectros médios corrigidos com SNV (Figura 14b), vê-se que a
região espectral que representa a segunda maior variabilidade dos dados (mostrada na
PC2 Figura 11a) está associada com as diferenças entre os espectros das canetas 1 e 2.
Essa região está evidenciada no gráfico dos pesos da PC2 da Figura 15.
Figura 15 Gráficos dos pesos para a amostra S1 pré-processada com SNV.
Analisando os gráficos mostrados na Figura 16 e fazendo a comparação com as
imagens dos escores da Figura 11c, podemos observar que os valores negativos dos
escores na PC1 estão associados com a variabilidade espectral da tinta da caneta 1,
evidenciada no gráfico dos pesos (Figura 17). Nota-se que, a região de maior
variabilidade espectral sugerida pelo gráfico dos pesos corresponde à faixa de 928-1237
nm que, no gráfico dos espectros processados (Figura 16b), diferencia a caneta 1 dos
demais componentes.
928 1237 1551 1864 2176 2524-0.1
0
0.1
0.2
0.3PC 1
928 1237 1551 1864 2176 2524-0.2
-0.1
0
0.1
0.2PC 2
928 1237 1551 1864 2176 2524-0.2
0
0.2
0.4
0.6PC 3
928 1237 1551 1864 2176 2524-0.5
0
0.5
1PC 4
928 1237 1551 1864 2176 2524-1
-0.5
0
0.5PC 5
Page 51
49
Já no gráfico dos pesos da PC5 (Figura 17), observa-se os valores negativos dos
pesos, que correspondem à região espectral de 2176-2524 nm mostra uma pequena
variabilidade entre os espectros dos três componentes (Figura 16b), e pode ser
observada na imagem dos escores da PC5 (Figura 11c).
Seguindo a mesma linha de raciocínio, é possível observar que na PC5 da Figura
11c é evidenciada alguma informação sobre a tinta da caneta 2, cujas regiões espectrais
mais importantes podem ser visualizadas no gráfico dos pesos (Figura 17).
(a)
(b)
Figura 16 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a
amostra S3; (b) Espectros médios pré-processados do papel (azul), das tintas das canetas 1(verde) e 2
(vermelho) para a amostra S3.
928 1237 1551 1864 2176 25240.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Comprimento de onda (nm)
Refletâ
ncia
Papel
Caneta 1
Caneta 2
928 1237 1551 1864 2176 2524-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
Comprimento de onda (nm)
Valo
res c
orr
igid
os c
om
SN
V
Papel
Caneta 1
Caneta 2
Page 52
50
Figura 17Gráficos dos pesos para a amostra S3 pré-processada com SNV.
A Figura 18 mostra as imagens dos escores de duas componentes principais (mais
informativas com relação à adulteração estudada) das cinco amostras. As duas primeiras
componentes da amostra S1 (combinação das canetas G2 e E5) são capazes de fornecer
as informações necessárias para diferenciar as duas canetas (Figura 18a). Observa-se
que enquanto PC1 explica a variabilidade entre a caneta G2 e o papel, a PC2 é capaz de
fornecer informações que estão relacionadas com as diferenças entre os espectros de E5
e G2. Neste caso, é possível atestar, claramente, que duas canetas diferentes foram
utilizadas para produzir o documento em questão. O mesmo comportamento pode ser
observado para a amostra S2 (Figura 18b), em que as PCs 1 e 3 são capazes de
evidenciar variabilidade dos dados das canetas usadas (E4 e G2).
928 1237 1551 1864 2176 2524-0.2
-0.1
0
0.1
0.2
0.3
PC 1
928 1237 1551 1864 2176 2524-0.1
0
0.1
0.2
0.3
0.4
PC 2
928 1237 1551 1864 2176 2524-1
-0.5
0
0.5
PC 3
928 1237 1551 1864 2176 2524-1
-0.5
0
0.5
1
PC 4
928 1237 1551 1864 2176 2524-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
PC 5
Page 53
51
(a) (b)
S1
S2
(c) (d)
S3
S4
(e)
S5
Figura 18Imagens dos escores das PCs de três diferentes amostras; (a) PC1 e PC2 da amostra S1; (b)
PC1 e PC3 da amostra S2; (c) PC1 e PC5 da amostra S3; (d) PC2 e PC8 da amostra S4 e (e) PC1 e PC4
da amostra S5.
As informações contidas na PC1 da amostra S3 (Figura 18c) estão altamente
relacionadas com a variabilidade entre os espectros da tinta da caneta E4 e o espectro do
PC 1
-50
-40
-30
-20
-10
0
PC 2
-30
-25
-20
-15
-10
-5
0
5
PC 1
-50
-40
-30
-20
-10
0
10
PC 3
-14
-12
-10
-8
-6
-4
-2
0
2
4
6
PC 1
-20
-15
-10
-5
0
PC 5
-1
0
1
2
3
4
5
PC 2
-2
0
2
4
6
8
10
12
14
PC 8
-1.5
-1
-0.5
0
0.5
1
1.5
2
PC 1
-10
0
10
20
30
40
50
PC 4
-4
-2
0
2
4
6
Page 54
52
papel. A tinta da caneta G1, usada para produzir os dois zeros do meio do texto, mal
pode ser visualizada na PC1. As informações relativas a essa caneta estão contidas
principalmente na PC5, que mostra a pequena variabilidade entre as informações
espectrais da tinta de G1 e o papel. Essa diferença não é muito clara devido à grande
similaridade entre os espectros do papel e da tinta da caneta E4.
A imagem dos escores da amostra S4 (Figura 18d) é capaz de resolver bem a caneta
2 (E4) na PC2 e, observando atentamente, é possível identificar alguma informações
relacionadas com a caneta 1 (E3) apenas na PC8. É importante saber que enquanto todas
as demais canetas são de tipos e/ou marcas diferentes, E3 e E4, além de serem ambas
esferográficas, pertencem a mesma marca e só se diferenciam pelo modelo. No caso da
amostra S5, as imagens dos scores da PC1 e PC4 (Figura 18e) permitem distinguir que
os registros foram realizados com diferentes canetas na produção da amostra.
A grande dificuldade de obter espectros de tintas em uma superfície a base de papel
por refletância na região do infravermelho é devido à alta absorção da celulose nesta
região. O que ocorre é que a alta absorção dos compostos de celulose superpõem o
espectro da tinta, fazendo com que esta última não possua um espectro claramente
diferenciado dos componentes de celulose (TAHTOUH et al., 2007). O espectro da
caneta G2 sobre o papel, entretanto, é bem diferente do espectro papel e das demais
canetas. Assim, quando essa caneta é empregada, o registro efetuado é evidenciado na
imagens dos escores de PC1.
O ponto interessante desta abordagem é que as tintas empregadas para a produção
de detalhes e caracteres impressos na matriz dos cheques quase não podem ser
percebidas nas PCs. Além disso, as tintas impressas podem ser separadas das tintas das
canetas por simples PCA, contribuindo para que a PCA seja capaz de fornecer um meio
eficaz para identificar se houve acréscimo de caracteres em um determinado documento
(com caneta distinta da empregada para produzir os registros originais), com o intuito de
alterar documentos.
4 CONCLUSÃO
Dentre as técnicas de pré-processamento utilizadas para corrigir variações
indesejadas no conjunto de dados, SNV apresentou os melhores resultados quando
associados a PCA. Todas as amostras utilizadas na análise foram identificadas com
Page 55
53
sucesso e a PCA das imagens foi capaz de discriminar com clareza pelo menos uma das
duas canetas utilizadas na produção das amostras que simularam um problema de fraude
por adição de texto.
Page 56
54
CAPÍTULO 3 Problema 2: Adulteração por obliteração
Page 57
55
1 CONTEXTUALIZAÇÃODO PROBLEMA
Outro problema muito comum nos departamentos de polícia ocorrem quando o
indivíduo utiliza uma caneta para ocultar uma informação previamente registrada em
um documento. Este tipo de adulteração é denominada falsificação por obliteração. A
Figura 19 mostra um exemplo das amostras preparadas para simular esse tipo de
problema.
(a) (b)
Figura 19Exemplos de amostras que abordam o problema de falsificação por obliteração; em (a) uma
caneta (caneta 1, por exemplo) foi usada para escrever um texto que foi oculto pela caneta 2; em (b) a
caneta 2 foi usada para escrever um pequeno texto que foi oculto pela caneta 1.
O objetivo específico dessa abordagem é avaliar a utilização de análise por
componentes principais associada HI-NIR para identificar o texto que foi oculto.
2 MATERIAIS E MÉTODOS
2.1 Amostras
As 10 canetas pretas mencionadas na subseção2.1 do capítulo 2 foram usadas
para produzir o conjunto de amostras usadas para avaliar a abordagem de falsificação
por obliteração. Cada caneta foi utilizada para escrever um pequeno texto em 9 pedaços
de papel sulfite tamanho A4, provenientes do mesmo lote, enquanto que as outras
canetas foram utilizadas para ocultar o texto previamente escrito através de sobrecarga
(Figura 19), resultando em 90 amostras. A ocultação foi realizada uma semana depois
da escrita do texto, para que a mistura entre as tintas fosse minimizada.
2.2 Aquisição das imagens
As imagens das amostras produzidas para simular adulterações por obliteração
foram adquiridas conforme já descrito no item2.2 do Capítulo 2.
2.3 Análise e Pré-processamento de dados
Diversas técnicas de pré-processamento foram testadas no conjunto de dados. As
técnicas SNV, MSC, 1ª e 2ª derivadas de SG (polinômios de 2ª e 3ª com janelas de 7, 9
Page 58
56
e 15 pontos) foram avaliadas. Em seguida, o conjunto de dados foi submetido a uma
PCA para tentar identificar o texto escrito. Apenas a PCA foi utilizada para avaliar as
amostras para esta abordagem, pois as técnicas de resolução disponíveis não são
aplicáveis para solucionar este tipo de problema, pois, em geral, exigem um
conhecimento prévio dos espectros dos componentes da amostra.Todo o tratamento
quimiométrico foi realizado utilizando o Matlab® R2012a.
3 RESULTADOS E DISCUSSÃO
Após os pré-processamentos dos dados, foi realizada uma PCA para cada uma das
90 amostras e as 10 primeiras PCs foram obtidas. A Figura 20 mostra a PCA realizada
com diferentes técnicas de pré-processamento para uma amostra que será tomada como
exemplo. É possível perceber, de imediato, a perda de informação relativa às tintas das
canetas, quando o conjunto de dados é submetido aos algoritmos derivativos (Figuras
20c-20h). Comparando os resultados obtidos para SNV e MSC, é possível perceber que,
apesar de ambos fornecerem informações relativas à tinta, os gráficos dos escores para
os dados processados com MSC não mostram claramente a sobrecarga. Observa-se
ainda que a informação relacionada à sobrecarga na amostra só é evidente na PC8
(Figura 20b), enquanto para SNV é possível observá-la na PC2 (Figura 20a).
Page 59
57
(a) SNV
(b) MSC
(c) 1ª DERIVADA S.G. (J7 P3)
(d) 1ª DERIVADA S.G. (J9 P3)
(e) 1ª DERIVADA S.G. (J15 P3)
(f) 2ª DERIVADA S.G. (J7 P3)
(g) 2ª DERIVADA S.G. (J9 P3)
(h) 2ª DERIVADA S.G. (J15 P3)
Figura 20Imagens dos escores das 2 PCs mais informativas realizadas para a amostra E2_1 com as
técnicas de pré-processamento (a) SNV; (b) MSC; (c) 1ª derivada de S.G. com janela de 7 pontos e
polinômio de 3ª ordem; (d) 1ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (e) 1ª
derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem; (f) 2ª derivada de S.G. com janela de
7 pontos e polinômio de 3ª ordem; (g) 2ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª
ordem; (h) 2ª derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem.
PC 1
-2
-1
0
1
2
3
4
5
6
7
8
PC 2
-2
-1
0
1
2
3
4
PC 2
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
PC 8
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
PC 1
-0.2
0
0.2
0.4
0.6
0.8
PC 5
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
PC 3
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
PC 5
-0.04
-0.02
0
0.02
0.04
0.06
PC 2
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
PC 4
-0.05
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
PC 2
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
PC 4
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
PC 1
-0.35
-0.3
-0.25
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
PC 3
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
PC 3
-6
-4
-2
0
2
4
6
8
10
12
14
x 10-3 PC 4
-6
-4
-2
0
2
4
6
8
10
x 10-3
Page 60
58
Assim como mostrado no caso da amostra E2_1, para todas as outras amostras,
SNV foi a técnica de pré-processamento que melhor evidenciou os textos ocultos.
A Figura 21a mostra os espectros médios brutos obtidos em regiões onde se
encontrava o texto acrescido da sobrecarga, bem como onde só se encontrava o papel,
para a amostra E2_1. Na Figura 21b, são mostrados os espectros pré-processados por
SNV. O gráfico dos pesos das duas primeiras componentes é apresentado na Figura 22.
Na Figura 20a, pode-se observar que a PC1 explica a maior variabilidade entre o papel e
a tinta da caneta usada para escrever o texto. Já a PC2 da Figura 20a mostra,
basicamente, a variabilidade entre a sobrecarga e o papel. No gráfico dos pesos, ficam
evidenciadas as regiões espectrais mais importantes para esta distinção(Figura 22).
(a)
(b)
Figura 21 (a) Espectros médios do papel (azul), e de uma região contendo carga e caneta (vermelho) para
a amostra E2_1; (b) Espectros médios pré-processados com SNV do papel (azul), e de uma região
contendo carga e caneta (vermelho) para a amostra E2_1;
Page 61
59
Figura 22Gráficos dos pesos para a amostra E2_1 pré-processada com SNV.
Na Figura 23, são apresentados os resultados da PCA obtidos para três amostras
com comportamentos distintos, tomados como exemplo. Na primeira coluna, é possível
observar a imagem visível e as imagens dos escores das duas primeiras PCs (Figura
23a) para a amostra com a combinação das canetas G2 e E5 (G2 foi usada para escrever
o texto e a sobrecarga foi produzida com a caneta E5). É possível observar, claramente,
o texto que foi oculto pela caneta E5, pois a PC1 mostra a variabilidade entre a o
espectro da caneta G2 e o espectro do papel. Já a PC2 explica, basicamente, a
variabilidade entre os espectros das canetas G2 e E5. Desta forma, é possível não só
observar o texto que foi oculto, mas também a sobrecarga.
Na segunda coluna, é possível observar a imagem visível da amostra produzida a
partir da combinação das canetas E2 e E3 (Figura 23b). Nesta amostra, a caneta E2 foi
usada para escrever o texto enquanto a caneta E3 foi usada para ocultá-lo. A imagem
dos escores da PC1 explica a variabilidade entre o espectro de E2 e do papel, permitindo
a visualização do texto que foi oculto. Já a PC2, contém informações sobre a tinta usada
para produzir a carga.
Na terceira coluna, é possível observar a imagem visível da amostra E1_1, na qual a
caneta E1 foi usada para escrever o texto oculto por G2 (Figura 23c), além da PC1 e da
PC2. Neste caso, nenhuma das 10 componentes foram capazes de diferenciar a caneta
usada para escrever o texto (E1) da caneta usada para ocultá-lo (G2) nem do papel.
938 1237 1551 1864 2176 2524-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
Comprimento de onda (nm)
PC1
938 1237 1551 1864 2176 2524-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
Comprimento de onda (nm)
PC2
Page 62
60
(a) IMAGEM VISÍVEL (b) IMAGEM VISÍVEL (c) IMAGEM VISÍVEL
PC1 (G2 + E5) PC1 (E2+E3) PC1 (E1+G2)
PC2 (G2 + E5) PC2 (E2+E3) PC2 (E1+G2)
Figura 23Imagem dos escores das duas primeiras PCs de três amostras diferentes; (a) na 1ª coluna E5
foi usada para esconder o texto feito com G2 (amostra G2_5); (b) na 2ª coluna, E2 é usada para
escrever o texto ocultado por E3 (amostra E2_1); (c) na coluna 3, E1 é usada para escrever o texto
oculto por G2 (E1_1).
A tabela 2 resume os resultados obtidos na análise de todas as amostras para esta
abordagem. Com um V verde estão as combinações em que foram possíveis identificar
o texto em pelo menos uma das 10 PCs. Com um X vermelho, estão representadas as
combinações que não foram identificadas e em cinza, as combinações produzidas com a
mesma caneta (não foram produzidas amostras).
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
G2
PC
1
G2
PC
2
E2
PC
1
E2
PC
2
E1
PC
1
E1
PC
2
-20
020
40
-202468
020
40
-10
010
20
-2024
-10
010
20
Page 63
61
Tabela 2Resumo de resultados para o problema de obliteração.
Os textos de 39 das 90 amostras foram identificados com sucesso. Quando três
marcas de canetas esferográficas (E1, E3 e E6), a caneta rollerball (RB1) e a
hidrográfica foram usadas para escrever o texto, não foi possível identificá-los em
nenhuma das 10 PCs. Para as amostras produzidas com as canetas G2 e E5, os textos
foram identificados com sucesso independentemente da caneta usada para acrescentar
carga.
4 CONCLUSÃO
A comparação das imagens dos escores das PCs do conjunto de dados tratados
com diferentes técnicas de pré-processamento mostrou que os dados tratados com SNV
forneceram os melhores resultados. Das 90 amostras produzidas a partir da combinação
das 10 canetas descritas no item 2.1 do capítulo 2, foi possível identificar o texto oculto
de 39, evidenciando que uma análise de componentes principais nas imagens NIR pode
auxiliar na identificação desse tipo de adulteração em documentos.
Page 64
62
CAPÍTULO 4 Problema 3: Cruzamento de traços
Page 65
63
1 CONTEXTUALIZAÇÃO DO PROBLEMA
O terceiro e último problema abordado neste trabalho também é comum aos peritos
da documentoscopia – o cruzamento de traços. Muitas vezes, termos adicionais e novas
cláusulas podem ser adicionados a documentos oficiais sem o conhecimento do
signatário. Assim, é preciso saber se o texto impresso (com toner, por exemplo) está
disposto acima ou abaixo da linha da tinta da caneta usada para assinar o documento. A
Figura 24 ilustra este caso, em que há dois registros de cruzamento de traços produzidos
por uma mesma caneta e impressora a toner. Em uma situação (Figura 24a) a linha da
caneta (vertical) está por cima da linha do toner (horizontal). No outro caso (Figura
24b), a linha de toner (vertical) está por cima da linha da caneta (horizontal).
(a)
(b)
Figura 24Exemplo das amostras para o problema do cruzamento de traços. Duas linhas se cruzando,
feitas com a mesma caneta e o mesmo toner, em (a) a linha da tinta (vertical) está por cima da linha do
toner (horizontal); em (b) a linha de toner (vertical) está por cima da linha da caneta (horizontal).
Portanto, o objetivo específico dessa abordagem é identificar a sequência de
registro no ponto de interseção entre o traço registrado com a caneta e a traço registrado
com o toner.
2 MATERIAIS E MÉTODOS
2.1 Amostras
Duas impressoras diferentes (identificadas por toner 1 e toner 2)foram usadas para
produzir as linhas de toner nas amostras. Cada caneta foi utilizada para produzir duas
amostras. Cada amostra consiste em um cruzamento de traços realizado com uma linha
produzida com uma das 10 canetas descritas no item 2.1 do capítulo 2 e a outra linha
impressa com uma impressora a laser (toner). Em uma das duas amostras, a linha da
tinta da caneta foi registrada depois da impressão da linha com toner (tinta sobre toner)
e na outra amostra, a linha da tinta da caneta foi registrada antes da impressão da linha
200 400 600 800 1000 1200
100
200
300
400
500
600
700
800
900 200 400 600 800 1000 1200
100
200
300
400
500
600
700
800
900
Page 66
64
do toner (toner sobre tinta). Assim, foram produzidas 40 amostras semelhantes às
mostradas pela Figura 24, sendo 20 pares utilizando as dez canetas com os dois tipos de
toner. Em todas as amostras, a linha que sobrepõe a outra foi produzida uma semana
depois da primeira, de forma que a mistura de tintas no ponto de interseção fosse
minimizada.
2.2 Aquisição das imagens
As imagens foram adquiridas conforme já descrito noitem 2.2 do capítulo
2.Apenas a região de interseção das linhas foi avaliada, isolando esta região da imagem
original utilizando o Matlab.
2.3 Análise e Pré-Processamento de dados
SNV, MSC, derivadas de SG (polinômios de 3ª ordem com janelas de 7, 9 e 15
pontos) e autoescalonamento foram as técnicas avaliadas para o pré-processamento dos
dados. Foram obtidos espectros de referência da tinta, toner e papel, a partir dos
espectros médios dos pixels de uma região da amostra contendo apenas tinta em papel,
toner no papel e papel.
Um modelo PLS-DA foi construído com os dados pré-processados como
ferramenta de seleção de variáveis, com o objetivo de facilitar a separação dos
componentes da amostra (papel, tinta e toner). Três regiões de cada amostra contendo
apenas papel, apenas tinta e apenas toner foram usadas para a construção do modelo
PLS-DA. Em seguida, usando os coeficientes de regressão e os pesos das variáveis
latentes, os valores de refletância das variáveis selecionadas foram usados como
entradas no algoritmo MCR-ALS. Os mapas de concentração dos componentes foram
obtidos para cada amostra com o objetivo de identificar a sequência dos instrumentos
gráficos usados para produzir o cruzamento de traços, ou seja, para saber se a linha da
tinta foi feita antes da linha do toner (possível fraude) ou depois.
3 RESULTADOS E DISCUSSÃO
Os espectros médios do papel, toner e tinta de caneta estão apresentados na Figura
25. É possível perceber, de imediato, a grande diferença entre o espectro do toner e os
espectros do papel e da tinta da caneta. Como discutido no capítulo 2, compostos de
celulose apresentam altas absorções na região do infravermelho e, portanto, o espectro
do papel, geralmente sobrepõe o espectro da tinta, fazendo com que o espectro desta
Page 67
65
última não seja facilmente discriminado do espectro do papel, daí a necessidade da
utilização de técnicas quimiométricas para realizar a identificação de cada um dos
componentes.
Para o pré-processamento do conjunto de dados, as técnicas SNV, MSC utilizando
a média dos espectros como referência e o autoescalonamento não forneceram bons
resultados. Isso ocorreu porque, como os espectros do papel e da tinta são muito
similares, as técnicas de resolução usadas para analisar os espectros pré-processados
com SNV, MSC e o autoescalonamento mostraram uma ambiguidade na resolução dos
componentes. Isto é, muitas vezes a tinta era identificada como sendo papel e vice-
versa. Além disso, como o espectro do toner é muito diferente do espectro da tinta e do
papel (Figura 25), qualquer técnica que utilize uma média de espectros de toda a
amostra irá fornecer uma perda na informação da tinta e do papel, uma vez que o
espectro do toner possui altos valores de refletância na região do NIR. O melhor
resultado na etapa de pré-processamento foi obtido com o MSC usando o espectro da
tinta na amostra como espectro de referência. O uso desse espectro como referência é
importante para enfatizar a informação da tinta no conjunto de dados e facilitar sua
diferenciação do espectro do papel.
Figura 25Espectros do papel (azul), os espectros do toner (vermelho) e tinta da caneta E4 (verde)
registrados sobre papel.
Com o conjunto de dados pré-processados, foi construído um modelo PLS-DA para
realizar a seleção das variáveis mais importantes. Para isso, três diferentes regiões da
928 1237 1551 1864 2176 25240.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Comprimento de onda (nm)
Refletâ
ncia
Papel
Tinta (E4)
Toner
Page 68
66
amostra – quadrados de 20x10 pixels – contendo apenas papel, tinta e toner,
respectivamente, foram usados para construir um modelo utilizando 4 variáveis latentes
(LV). Na Figura 26, são apresentadas as previsões de classificação dos pixels de cada
um dos componentes (papel, tinta e toner) usados na construção do modelo para quatro
amostras diferentes, produzidas com 4 canetas diferentes. É possível notar que o toner
não é um problema no processo de modelagem, pois seu espectro realmente difere da
tinta e do papel. Entretanto algumas tintas de canetas se confundem bastante com o
papel (ver amostras 2.1 e 7.1 na Figura 26). Essa similaridade entre os espectros do
papel e da tinta da caneta varia de acordo com a marca e o tipo.
Figura 26Previsão para 4 amostras diferentes preparadas com diferentes canetas. As barras azuis
mostram a previsão para os pixels que contém apenas papel, as barras em verde para a tinta e as barras em
vermelho, para o toner.
Avaliando os gráficos dos pesos (Figura 27), foi possível identificar as variáveis
mais relevantes. Pode-se observar que a 2ª e a 3ª LV fornecem as informações mais
importantes, umas vez que a 1ª LV está relacionada com os valores médios, pois os
dados não foram centrados na média. Assim, foram selecionados os comprimentos de
onda mais relevantes, cujos pesos apresentaram os maiores e os menores valores. Para
Page 69
67
garantir que variáveis irrelevantes não foram selecionadas, os coeficientes de regressão
do modelo PLS-DA foram também avaliados. Variáveis diferentes foram selecionadas
para cada amostra, uma vez que um modelo PLS-DA foi construído para cada uma
delas.
Figura 27Gráficos dos pesos das 4 LV do PLS-DA para a amostra 1.1. A 1ª LV está relacionada com o
valor médio dos espectros, enquanto a 2ª e a 3ª LV fornecem informações relevantes e a 4ª LV é,
basicamente, ruído.
Os valores de refletância das variáveis selecionadas foram usados como entradas no
MCR-ALS. As restrições de não-negatividade para concentração e para a direção
espectral foram adotadas. A partir dos resultados do MCR-ALS foi possível obter os
mapas de concentração para cada componente da amostra (papel, tinta e toner). A
Figura 28 mostra os mapas de concentração para dois pares de amostras. As amostras
1.1 e 1.2 foram produzidas com a mesma caneta e mesmo toner, na amostra 1.1, a linha
da caneta está por cima do toner e na amostra 1.2 a linha da caneta está abaixo da linha
do toner. O mesmo procedimento foi utilizado para produzir as amostras 5.1 e 5.2,
entrretanto, uma caneta diferente foi usada na combinação.
Na Figura 28, os pixels vermelhos representam os valores altos da concentração
relativa para cada componente, enquanto os pixels azuis representam baixas
concentrações daquele mesmo composto na região da amostra. Isto é, para cada amostra
tem-se 3 mapas de distribuição, cada um representando a quantidade relativa de um dos
1017 1325 1639 1951 2263 24870
0.02
0.04
0.06
0.08LV 1
Comprimento de onda (nm)1017 1325 1639 1951 2263 2487
-0.15
-0.1
-0.05
0
0.05
0.1LV 2
Comprimento de onda (nm)
1017 1325 1639 1951 2263 2487-0.1
0
0.1
0.2
0.3LV 3
Comprimento de onda (nm)1017 1325 1639 1951 2263 2487
-0.4
-0.2
0
0.2
0.4LV 4
Comprimento de onda (nm)
Page 70
68
3 componentes da amostra (toner, tinta e papel). As três imagens da primeira linha na
Figura 28 mostram os mapas de distribuição do papel (esquerda), tinta (meio) e toner
(direita) obtidos após a modelagem MCR-ALS para a amostra 1.1 (linha da tinta sobre
linha do toner). É possível perceber que os mapas de distribuição podem, facilmente,
diferenciar os componentes nas amostras, uma vez que nos 4 mapas de distribuição do
papel, as concentrações mais baixas de papel estão associadas à região onde há presença
de toner e tinta. Da mesma forma, os mapas de distribuição da tinta e do toner mostram
altas concentrações apenas onde há tinta e toner, respectivamente.
Quando a linha da tinta está abaixo da linha do toner, é possível perceber uma
descontinuidade (ou gap) no ponto de interseção nos mapas de distribuição do toner
(ver mapas de distribuição do toner para as amostras 1.2 e 5.2 na Figura 28). Quando a
linha da tinta está sobre a linha do toner, não é possível observar este gap (ver mapas de
distribuição do toner para as amostras 1.1 e 5.1 na Figura 28). Dos 20 pares de amostras
analisadas, 17 apresentaram este mesmo comportamento.
Figura 28Mapas de distribuição para dois pares de amostras. A colunas 1, 2 e 3 mostram os mapas de
distribuição do papel, da tinta e do toner, respectivamente. A amostra 1.1 (1ª linha), 1.2 (2ª linha), 5.1 (3ª
linha) e 5.2 (4ª linha). Nas amostras 1.1 e 5.1 a linha da tinta está por cima do toner e nas amostras 1.2 e
5.2, a linha da tinta está por baixo da linha do toner.
Page 71
69
Essa presença da descontinuidade deve-se ao fato de que a superfície do papel é
muito importante para a deposição do toner. Assim, quando o toner é depositado numa
superfície previamente modificada pela presença da tinta, a quantidade e distribuição do
toner muda, permitindo a visualização do gap na linha do toner. Como o toner possui
altos valores de refletância na região do NIR, quando a linha produzida como toner está
abaixo da tinta, não é possível observar o gap, pois o espectro de refletância do toner
encobre o espectro da tinta, e este último não pode ser diferenciado do toner. Em dois
casos (dois pares de amostras feitas com a mesma caneta – do tipo hidrográfica, marca
H1 – e com os dois tipos de toner) não foi possível identificar a tinta utilizando as
técnicas escolhidas. Também não foi possível a visualização da descontinuidade na
linha do toner. As duas primeiras linhas da Figura 29 mostram os mapas de distribuição
para um par de amostras preparadas com a caneta hidrográfica (H1) e o toner 1. Foi
possível perceber que o mapa de distribuição do toner não mostra a descontinuidade
esperada na amostra 4.2 (em que a linha da tinta está por baixo do toner). Neste caso, o
MCR-ALS também não foi capaz de identificar a tinta da caneta (ver mapas de
distribuição da tinta para as amostras 4.1 e 4.2 na Figura 29). O outro caso que
apresentou falhas na identificação está exposto nas linhas 3 e 4 da Figura 29 (amostras
8.1 e 8.2), em que foi possível observar que, apesar do MCR-ALS ser capaz de
distinguir cada um dos compostos da amostra (e facilmente identificar a tinta da caneta),
uma descontinuidade é observada no mapa de distribuição do toner independentemente
da sequência das linhas. Isto é, mesmo quando a tinta desta caneta (marca G2) está
acima da linha do toner, é possível observar uma descontinuidade. Contudo, a maior
parte das amostras foi identificada com sucesso. Dezessete pares dos vinte produzidos
mostraram o mesmo comportamento. Para aplicações forenses, este tipo de análise pode
ser bastante útil, uma vez que a presença da descontinuidade na linha do toner no mapa
de distribuição do toner sugere que o texto escrito com a caneta foi realizado antes da
impressão da linha, indicando uma possível fraude.
Page 72
70
Figura 29Mapas de distribuição para dois pares de amostras. Amostra 4.1 a tinta está sobre a linha do
toner; a amostra 4.2 a tinta está por baixo da linha do toner; as amostras 8.1 e 8.2 foram preparadas com
a mesma marca de caneta gel (G2), porém na amostra 8.1 a linha da tinta está por cima do toner e na
amostra 8.2, está por baixo.
A tabela 3 resume os resultados obtidos para cada par de amostras analisadas. Os
pares utilizando as canetas esferográficas, a rollerball e uma das duas marcas da gel
foram corretamente identificados. Apenas a caneta hidrográfica e uma das marcas da
caneta gel apresentaram problemas na identificação.
Tabela 3Resumo dos resultados para o problema de cruzamento de traços. Marcado com um X estão as
amostras que a sequência das linhas não pôde ser identificada com sucesso e, em V, as que puderam ser
identificadas.
Page 73
71
4 CONCLUSÃO
O pré-processamento MSC utilizando a tinta da caneta como referência apresentou-
se como a melhor técnica para eliminar as informações irrelevantes no conjunto de
dados, enfatizando a informação espectral associada aos espectros das tintas das
canetas. PLS-DA foi utilizado com sucesso como ferramenta de seleção de variáveis
para selecionar a região espectral mais informativa e usá-la como entrada no MCR-
ALS. A partir da análise dos mapas de distribuição obtidos para cada amostra, foi
possível perceber uma descontinuidade (ou gap) no ponto de interseção no mapa de
distribuição do toner quando a linha da tinta da caneta está abaixo da linha do toner.
Quando a linha da tinta está sobre a linha do toner, não é possível observar este gap. A
presença dessa descontinuidade deve-se ao fato de que quando o toner é depositado
numa superfície previamente modificada pela presença da tinta, a quantidade e a
distribuição do toner mudam, permitindo a visualização do gap na linha do toner. Dos
20 pares de amostras analisados, 17 deles apresentaram o comportamento esperado,
podendo identificar a descontinuidade na interseção das amostras em que a linha do
toner foi impressa por cima da linha da tinta.
De qualquer maneira, a metodologia proposta mostrou um bom potencial na
identificação da sequência de linhas em um cruzamento de traços, mostrando que o uso
de HI-NIR associadas a técnicas quimiométricas pode ser bastante útil na identificação
de fraudes em documentos.
Page 74
72
CAPÍTULO 5 Considerações finais
Page 75
73
1 CONCLUSÕES GERAIS
É possível observar que, para todos os casos abordados, a alta absorção de
celulose na região do infravermelho próximo faz com que o espectro do papel se
sobreponha ao espectro da tinta, sendo difícil diferenciá-los em muitos casos. A
dificuldade de diferenciação do papel e da tinta depende do tipo e da marca da caneta,
pois a composição de cada tinta está diretamente relacionada com o fabricante. Por
exemplo, o espectro da caneta G2 é significativamente diferente do espectro do papel e
das demais canetas. Porntanto, no caso de adulteração por adição de texto e por
obliteração, essa caneta é facilmente observada nas imagens dos escores, possibilitando
identificar uma possível falsificação com a mesma. Por outro lado, no caso do
cruzamento de traços, a presença da caneta G2 leva a uma descontinuidade no
cruzamento, independente da sua posição (amostras 8.1 e 8.2 da Figura 29).
Para cada um dos casos tratados, as mesmas técnicas de pré-processamento
avaliadas apresentaram diferentes resultados. Portanto, tem-se a necessidade de
selecionar o pré-processamento mais adequado para o tipo de problema abordado. De
uma forma geral, SNV foi mais eficiente na questão de adulterações por adição de texto
e obliteração e MSC (usando como referência o espectro da tinta sobre o papel)
mostrou-se mais adequada para a identificação da ordem de registro no cruzamento de
traços.
Não só a seleção do melhor pré-processamento é importante, mas também o tipo
técnica de análise que se deve escolher para responder ao problema de interesse. Por
exemplo, no caso dos problemas de fraudes por adição de texto e obliteração, a questão
imposta pelo analista está relacionada com o uso de duas tintas diferentes na produção
de um mesmo documento. Assim, a Análise de Componentes Principais foi selecionada
para responder essa questão, uma vez que essa é uma técnica que busca a variabilidade
natural do conjunto de dados e pode ajudar na identificação de diferentes componentes
de uma amostra de composição desconhecida.
Para o problema do cruzamento de traços, a técnica de MCR-ALS e PLS-DA
(como ferramenta para seleção de variáveis) são mais apropriadas para responder a
questão imposta pelo analista. Nessa abordagem, a dúvida está associada à sequência de
linhas no ponto de interseção, ou seja, deseja-se saber se a linha da tinta da caneta está
por cima ou por baixo da linha do toner (se o texto foi escrito depois ou antes da
Page 76
74
impressão, respectivamente). Neste caso, a informação sobre a quantidade relativa dos
componentes foi importante na solução da questão, pois, nos casos em que a tinta estava
abaixo do toner, a presença de uma descontinuidade no ponto de interseção pôde ser
vista e essa descontinuidade está diretamente associada com a quantidade de toner
depositada naquele ponto.
Na abordagem sobre falsificação por adição de texto, todas as amostras avaliadas
foram identificadas com sucesso e a PCA das imagens foi capaz de discriminar com
clareza pelo menos uma das duas canetas utilizadas na produção das amostras que
simularam essa fraude.
Para o problema de adulterações por obliteração, das 90 amostras produzidas a
partir da combinação das 10 canetas, foi possível identificar nas imagens dos escores o
texto oculto de 39. Os textos produzidos com as canetas E1, E3, E6, RB1 e H1 (três
marcas de canetas esferográficas, a caneta rollerball e a hidrográfica) não foram
identificados em nenhuma das 10 PCs calculadas. Para as amostras produzidas com as
canetas G2 (gel) e E5 (esferográfica), os textos foram identificados com sucesso
independentemente da caneta usada para acrescentar carga.
Na questão do cruzamento de traços, utilizando-se MCR-ALS, uma
descontinuidade (ou gap) no ponto de interseção nos mapas de distribuição do toner
pôde ser observada nas amostras em que a linha da tinta está abaixo da linha do toner.
Dos 20 pares de amostras analisadas, 17 deles apresentaram o comportamento esperado,
podendo identificar com clareza a ordem dos registros.
Os resultados obtidos para os três problemas abordadosdemonstram o potencial
das HI-NIR associadas a técnicas quimiométricas para auxiliar na solução de problemas
da documentoscopia.
2 PERSPECTIVAS FUTURAS
Estudos posteriores são necessários para propor metodologias cada vez mais
eficientes e independentes da habilidade e experiência do analista, fazendo com que
essas análises tornem-se menos subjetivas e mais eficazes. É possível ampliar o
conjunto inicial de canetas aumentando as possibilidades de combinações, usando
canetas de diferentes tipos (caneta de pena, ponta de feltro, etc.) e explorar diferentes
Page 77
75
marcas dos tipos de canetas que apresentaram falhas nas análises, como a caneta
hidrográfica e rollerball. Para a abordagem do cruzamento de traços, também é possível
ampliar o conjunto de amostras utilizando impressoras a jato de tinta e outras marcas de
toner. Para todos os casos, diferentes técnicas quimiométricas podem ser exploradas
para tornar as análises cada vez mais eficazes.
Page 78
76
REFERÊNCIAS
ADAM, C. D.; SHERRATT, S. L.; ZHOLOBENKO, V. L. Classification and
individualization of black ballpoint pen inks using principal component analysis of UV-
vis absorption spectra. Forensic science international, v. 174, n. 1, p. 16–25, 2008.
AMIGO, J. M.; RAVN, C. Direct quantification and distribution assessment of major
and minor components in pharmaceutical tablets by NIR-chemical imaging. European
journal of pharmaceutical sciences : official journal of the European Federation
for Pharmaceutical Sciences, v. 37, n. 2, p. 76–82, 2009.
BEEBE, K. R.; PELL, R. J.; SEASHOLTZ, M. B. Chemometrics: a practical guide.
New York: Wiley-Interscience, 1998.
BELLON-MAUREL, V.; DUBOIS, J. Near - Infrared Hyperspectral Imaging in Food
and Agricultural Science. In: R. Salzer; H. W. Siesler (Eds.); Infrared and Raman
Spectroscopic Imaging. p.259–294, 2009. Weinheim: WILEY-VCH.
BERGER, C. E. H. Objective ink color comparison through image processing and
machine learning. Science & justice : journal of the Forensic Science Society, v. 53,
n. 1, p. 55–59, 2013.
BOJKO, K.; ROUX, C.; REEDY, B. J. An examination of the sequence of intersecting
lines using attenuated total reflectance-Fourier transform infrared spectral imaging.
Journal of forensic sciences, v. 53, n. 6, p. 1458–1467, 2008.
BRERETON, R. G. Pattern Recognition. Chemometrics: Data Analysis for the
Laboratory and Chemical Plant. v. 8, p.183–270, 2003. Bristol: John Wiley & Sons.
BRUNELLE, R. L.; CRAWFORD, K. R. Advances in the Forensic Analysis and
Dating of Writing Ink. Charles C Thomas Pub Ltd, 2003.
BRUNS, R.; FAIGLE, J. F. G. Quimiometria. Química Nova, p. 84–99, 1985.
CHAIKOVSKY, A.; BROWN, S.; DAVID, L. S.; BALMAN, A.; BARZOVSKI, A.
Color Separation of Signature and Stamp Inks to Facilitate Handwriting Examination.
Journal of forensic sciences, v. 48, n. 6, p. 1396–1405, 2003.
CRUZ, J.; BAUTISTA, M.; AMIGO, J. M.; BLANCO, M. Nir-chemical imaging study
of acetylsalicylic acid in commercial tablets. Talanta, v. 80, n. 2, p. 473–478, 2009.
CRUZ, J.; BLANCO, M. Content uniformity studies in tablets by NIR-CI. Journal of
pharmaceutical and biomedical analysis, v. 56, n. 2, p. 408–412, 2011.
DHANOA, M. S.; LISTER, S.; SANDERSON, R.; BARNES, R. J. The link between
Multiplicative Scatter Correction (MSC) and Standard Normal Variate (SNV)
transformations of NIR. Near Infrared Spectroscopy, v. 2, p. 43–47, 1994.
Page 79
77
DUCHESNE, C.; LIU, J. J.; MACGREGOR, J. F. Multivariate image analysis in the
process industries: A review. Chemometrics and Intelligent Laboratory Systems, v.
117, p. 116–128, 2012.
EDELMAN, G. J.; GASTON, E.; VAN LEEUWEN, T. G.; CULLEN, P. J.;
AALDERS, M. C. G. Hyperspectral imaging for non-contact analysis of forensic traces.
Forensic science international, v. 223, n. 1-3, p. 28–39, 2012.
EDELMAN, G.; VAN LEEUWEN, T. G.; AALDERS, M. C. G. Hyperspectral imaging
for the age estimation of blood stains at the crime scene. Forensic science
international, v. 223, n. 1-3, p. 72–77, 2012.
ELLISON, C. D.; ENNIS, B. J.; HAMAD, M. L.; LYON, R. C. Measuring the
distribution of density and tabletting force in pharmaceutical tablets by chemical
imaging. Journal of pharmaceutical and biomedical analysis, v. 48, n. 1, p. 1–7,
2008.
ESBENSEN, K.; GELADI, P. Strategy of multivariate image analysis (MIA).
Chemometrics and Intelligent Laboratory Systems, v. 7, n. 1-2, p. 67–86, 1989.
FEARN, T.; RICCIOLI, C.; GARRIDO-VARO, A.; GUERRERO-GINEL, J. E. On the
geometry of SNV and MSC. Chemometrics and Intelligent Laboratory Systems, v.
96, n. 1, p. 22–26, 2009.
FERNÁNDEZ-CABANÁS, V. M.; GARRIDO-VARO, A.; OLMO, J. G.; DE PEDRO,
E.; DARDENNE, P. Optimisation of the spectral pre-treatments used for Iberian pig fat
NIR calibrations. Chemometrics and Intelligent Laboratory Systems, v. 87, p. 104–
112, 2007.
GELADI, P. Analysis of Multi-Way Data.Chemometrics and Intelligent Laboratory
Systems, v. 7, p. 11–30, 1989.
GELADI, P.; GRAHN, H. F.; BURGER, J. E. Multivariate Images, Hyperspectral
Imaging: Background and equipment. In: P. . GELADI; H. F. GRAHN (Eds.);
Techniques and Applications of Hyperspectral Image Analysis. p.1–15, 2007. John
Wiley & Sins Ltd.
GELADI, P.; ISAKSSON, H.; LINDQVIST, L.; WOLD, S.; ESBENSEN, K. Principal
component analysis of multivariate images. Chemometrics and Intelligent
Laboratory Systems, v. 5, n. 3, p. 209–220, 1989.
GELADI, P.; KOWALSKI, B. R. Partial least-squares regression: a tutorial. Analytica
Chimica Acta, v. 185, p. 1–17, 1986.
GELADI, P.; MACDOUGALL, D.; MARTENS, H. Linearization and Scatter-
Correction for Near-Infrared Reflectance Spectra of Meat. Applied Spectroscopy, v.
39, n. 3, p. 491–500, 1985.
GODOWN, L. Recent Developments in Writing Sequence Determination. Forensic
Science International, v. 20, p. 227–232, 1982.
Page 80
78
IGOE, T. J.; REYNOLDS, B. L. A Lifting Process For Determining The Writing
Sequence Of Two Intersecting Ball-Point Pen Strokes.Forensic Science International,
v. 20, p. 201–205, 1982.
JAUMOT, J.; GARGALLO, R.; DE JUAN, A.; TAULER, R. A graphical user-friendly
interface for MCR-ALS: a new tool for multivariate curve resolution in MATLAB.
Chemometrics and Intelligent Laboratory Systems, v. 76, n. 1, p. 101–110, 2005.
DE JUAN, A.; TAULER, R. Chemometrics applied to unravel multicomponent
processes and mixtures. Analytica Chimica Acta, v. 500, n. 1-2, p. 195–210, 2003.
DE JUAN, A; MAEDER, M; HANCEWICZ, T; DUPONCHEL, L; TAULER, R.
Chemometrics tools for image analysis. In: H. W. SALZER, R.; SIESLER (Ed.);
Infrared and Raman Spectroscopic Imaging. p.65–106, 2009. Inglaterra: WILEY-
VCH.
KALIVAS, J. H.; GEMPERLINE, P. J. Calibration. In: P. GEMPERLINE (Ed.);
Practical Guide to Chemometrics. 2nd ed., p.105–165, 2006. Boca Raton: Taylor &
Francis Group.
KAUR, R.; SAINI, K.; SOOD, N. C. Sequencing the intersections of printed strokes
with writing instrument strokes using DocuCentre expert (PIA 6000-EDF). Science &
justice : journal of the Forensic Science Society, v. 53, n. 2, p. 206–211, 2013.
KEENAN, M. R. Multivariate Analysis of Spectral Images Composed of Count Data.
In: H. Grahn; P. Geladi (Eds.); Techniques and Applications of Hyperspectral Image
Analysis. p.89–126, 2007. West Sussex: John Wiley & Sons.
KHER, A.; MULHOLLAND, M.; GREEN, E.; REEDY, B. Forensic classification of
ballpoint pen inks using high performance liquid chromatography and infrared
spectroscopy with principal components analysis and linear discriminant analysis.
Vibrational Spectroscopy, v. 40, n. 2, p. 270–277, 2006.
MARTENS, H.; JENSEN, S. A.; GELADI, P. Multivariate linearity transformations for
near infrared reflectance spectroscopy. In: O. H. J. Christie (Ed.); Proc. Nordic Symp.
Applied Statistics. p.205–234, 1983. Stavanger: Stokkand Forlag.
MEHL, P. M.; CHEN, Y.-R.; KIM, M. S.; CHAN, D. E. Development of hyperspectral
imaging technique for the detection of apple surface defects and contaminations.
Journal of Food Engineering, v. 61, n. 1, p. 67–81, 2004.
MILLER, C. E. Chemometrics in Process Analytical. In: K. A. Bakeev (Ed.); Process
Analytical Technology: Spectroscopic Tools and Implementation Strategies for the
Chemical and Pharmaceutical Industries. p.226–328, 2005. Oxford: Wiley-
Blackwell.
PASQUINI, C. Near infrared spectroscopy: Fundamentals, practical aspects and
analytical applications. Journal of the Brazilian Chemical Society, v. 14, n. 2, p. 198–
219, 2003.
Page 81
79
PIQUERAS, S.; DUPONCHEL, L.; TAULER, R.; DE JUAN, A. Resolution and
segmentation of hyperspectral biomedical images by multivariate curve resolution-
alternating least squares. Analytica chimica acta, v. 705, n. 1-2, p. 182–92, 2011.
PRATS-MONTALBÁN, J. M.; JEREZ-ROZO, J. I.; ROMAÑACH, R. J.; FERRER, A.
MIA and NIR Chemical Imaging for pharmaceutical product characterization.
Chemometrics and Intelligent Laboratory Systems, v. 117, p. 240–249, 2012.
PRATS-MONTALBÁN, J. M.; DE JUAN, A.; FERRER, A. Multivariate image
analysis: A review with applications. Chemometrics and Intelligent Laboratory
Systems, v. 107, n. 1, p. 1–23, 2011.
RINNAN, Å.; BERG, F. VAN DEN; ENGELSEN, S. B. Review of the most common
pre-processing techniques for near-infrared spectra. TrAC Trends in Analytical
Chemistry, v. 28, n. 10, p. 1201–1222, 2009.
RUXTON, K.; ROBERTSON, G.; MILLER, W.; MALCOLM, G. P. A.; MAKER, G.
T. Mid-infrared hyperspectral imaging for the detection of explosive compounds. (C.
Lewis &D. Burgess, Eds.), v. 8546, p. 85460V–85460V–9, 2012. Disponível em:
<http://proceedings.spiedigitallibrary.org/proceeding.aspx?articleid=1388187>. Acesso
em: 30/7/2013.
SAVITZKY, A.; GOLAY, M. Smoothing + differentiation of data by simplified least
squares procedures. Analytical Chemistry, v. 36, n. 8, p. 16-27, 1964.
SCHULER, R. L.; KISH, P. E.; PLESE, C. A. Preliminary observations on the ability of
hyperspectral imaging to provide detection and visualization of bloodstain patterns on
black fabrics. Journal of forensic sciences, v. 57, n. 6, p. 1562–1569, 2012.
SILVA, C. S.; BORBA, F. D. S. L.; PIMENTEL, M. F.; et al. Classification of blue pen
ink using infrared spectroscopy and linear discriminant analysis. Microchemical
Journal, v. 109, p. 122–127, 2013.
SILVERSTEIN, R. M.; WEBSTER, F. X.; KIEMLE, D. J. Spectrometric
Identification of Organic Compounds. 7th ed. Danvers: John Wiley & Sons, 2005.
SKOOG, D. A.; HOLLER, F. J.; CROUCH, S. R. Principles of Instrumental
Analysis. Brooks Cole, 2006.
SKOOG, D. A.; WEST, D. M.; HOLLER, F. J.; CROUCH, S. R. Fundamentos de
Química Analítica. 8a ed. São Paulo, 2005.
TAHTOUH, M.; DESPLAND, P.; SHIMMON, R.; KALMAN, J. R.; REEDY, B. J.
The application of infrared chemical imaging to the detection and enhancement of latent
fingerprints: method optimization and further findings. Journal of forensic sciences, v.
52, n. 5, p. 1089–1096, 2007.
TAHTOUH, M.; SCOTT, S. A; KALMAN, J. R.; REEDY, B. J. Four novel alkyl 2-
cyanoacylate monomers and their use in latent fingermark detection by mid-infrared
spectral imaging. Forensic science international, v. 207, n. 1-3, p. 223–238, 2011.
Page 82
80
TAULER, R. Simultaneous analysis of several spectroscopictitrations with self-
modelling curve resolution. Chemometrics and Intelligent Laboratory Systems, v.
18, p. 293-300, 1993.
TAULER, R. Multivariate curve resolution applied to second order data.
Chemometrics and Intelligent Laboratory Systems, v. 30, n. 1, p. 133–146, 1995.
TAULER, R. Calculation of maximum and minimum band boundaries of feasible
solutions for species profiles obtained by multivariate curve resolution. Journal of
Chemometrics, v.15, September 2000, p. 627–646, 2001.
THANASOULIAS, N. C.; PARISIS, N. A.; EVMIRIDIS, N. P. Multivariate
chemometrics for the forensic discrimination of blue ball-point pen inks based on their
Vis spectra. Forensic Science International, v. 138, p. 75–84, 2003.
WOLD, S. Pattern recognition by means of disjoint principal components models.
Pattern Recognition, v. 8, n. 3, p. 127–139, 1976.
WOLD, S. PLS-regression: a basic tool of chemometrics. Chemometrics and
Intelligent Laboratory Systems, v. 58, n. 2, p. 109–130, 2001.