USO DE IMAGENS HIPERESPECTRAIS NA REGIÃO DO …‡… · Ao professor Dr. Célio Pasquini pelas contribuições significativas. Às alunas de iniciação científica, Laís França

UNIVERSIDADE FEDERAL DE PERNAMBUCO

Centro de Ciências Exatas e da Natureza – CCEN

Departamento de Química Fundamental – DQF

CAROLINA SANTOS SILVA

USO DE IMAGENS HIPERESPECTRAIS NA

REGIÃO DO INFRAVERMELHO PRÓXIMO PARA

IDENTIFICAR FRAUDES EM DOCUMENTOS

Recife

2013

CAROLINA SANTOS SILVA

USO DE IMAGENS HIPERESPECTRAIS NA

REGIÃO DO INFRAVERMELHO PRÓXIMO PARA

IDENTIFICAR FRAUDES EM DOCUMENTOS

Dissertação de Mestrado submetida

ao curso de Pós-graduação de Química da

Universidade Federal de Pernambuco,

como parte dos requisitos para a

obtenção do título de Mestre em Química

Orientadora: Maria Fernanda Pimentel

Co-orientador: Ricardo Saldanha Honorato

Recife

2013

Catalogação na fonte

Bibliotecária Alice Maria dos Santos Costa, CRB 4-711

Silva, Carolina Santos. Uso de imagens hiperespectrais na região do infra vermelho próximo para identificar fraudes de documentos. / Carolina Santos Silva. – Recife: O Autor, 2013. 80 f.: fig., tab.

Orientadora: Maria Fernanda Pimentel. Dissertação (Mestrado) - Universidade Federal de Pernambuco. CCEN. Química Fundamental, 2013. Inclui referências.

1. Química analítica. 2. Espectroscopia de infravermelho. 3. Análise multivariada. I. Pimentel, Maria Fernanda (orientadora). II. Título.

543 (22. ed.) FQ 2014- 31

Dissertação submetida ao Corpo Docente do Programa de Pós-Graduação em

Química do Departamento de Química Fundamental da Universidade Federal de

Pernambuco como parte dos requisitos necessários para a obtenção do Grau de Mestre

em Química.

Aprovada:

____________________________________________________________

Profª Maria Fernanda Pimentel Avelar (Orientadora)

Departamento de Engenharia Química

Universidade Federal de Pernambuco

____________________________________________________________

Profª Simone da Silva Simões Departamento de Química

Universidade Estadual da Paraíba

____________________________________________________________

ProfJez Willian Batista Braga Instituto de Química

Universidade de Brasília

Uso de Imagens Hiperespectrais na Região do Infravermelho

Próximo para Identificar Fraudes em Documentos

Por

Carolina Santos Silva

Departamento de Química Fundamental

Centro de Ciências Exatas e da Natureza

Universidade Federal de Pernambuco

Recife – PE – Brazil

23 de Agosto de 2013

Por toda atenção, dedicação e paciência,

Dedico este trabalho à minha família e à minha orientadora.

AGRADECIMENTOS

De todas as conquistas que se fazem na vida, a melhor delas é conhecer as pessoas

que lhe ajudaram a alcançar seus objetivos. Existem aqueles que estavam lá, presentes

nas discussões e participando diretamente para o desenvolvimento do trabalho e

aqueles, que de uma forma indireta ajudaram, e muito, a construir esse trabalho.

Primeiramente, gostaria de agradecer à minha orientadora, Prof.ª Dr.ª Mª

Fernanda Pimentel, que desde a iniciação científica teve grande paciência e foi, além de

orientadora, professora, educadora foi também conselheira. Me ensinou a trilhar meus

primeiros passos na pesquisa e me ensinou como criar um ambiente de grupo de

pesquisa que é capaz de crescer junto, aprender, ensinar e apoiar uns aos outros quando

necessário. Pelo incentivo, apoio, discussões e absolutamente todas as conquistas

profissionais, agradeço.

Gostaria também de agradecer ao perito Dr. Ricardo Honorato pela orientação,

entusiasmo e levantamento de questões que sempre foram muito construtivas no

desenvolvimento do trabalho.

Aos Professores Doutores Alberto Ferrer e José Manuel Prats-Montalbán pelo

acolhimento durante minha estadia na Universitat Politecnica de Valencia, por toda a

disponibilidade de ensinar e discutir resultados e por me receber como parte do grupo.

Ao professor Dr. Célio Pasquini pelas contribuições significativas.

Às alunas de iniciação científica, Laís França e Ananda Sá, que estavam sempre

dispostas a ajudar e trabalhando muito para entender e desenvolver o trabalho.

À FACEPE, pela bolsa concedida, ao INCTAA e ao NUQAAPE pelo incentivo ao

projeto, à UFPE pelo suporte institucional e ao Laboratório de Combustíveis (LAC) por

proporcionar a efetivação da pesquisa.

Aos amigos, companheiros, atuais e futuros colegas de trabalho e amigos para a

vida toda, Alianda, Neirivaldo, Vitor, Leandro, Fernanda V. Cruz e Eduardo por todas

as discussões feitas nos corredores, nos cafés, nos bares, pelos estudos em conjunto e

pelos passeios e histórias incríveis que vivemos juntos. Por toda a ajuda na área pessoal

e profissional. Agradeço profundamente.

Um agradecimento especial a Leandro por ter realizado diversas medidas para a

elaboração desse trabalho. E à sua esposa Sara, por ser uma pessoa absolutamente

fantástica e uma amiga incrível.

A toda a família que faz do LAC nossa segunda casa. A Carol, Cláudio, Giseli,

Sylvio e Kaline por toda a ajuda na hora de resolver questões trabalho e viagens de

congressos.

Aos amigos do DQF, Amanda, Elaine, Rodolfo, Suelle e Diego por toda

caminhada que fizemos juntos até aqui. Pela força durante as disciplinas, os cafés e todo

suporte que me deram quando mais precisei. Agradeço.

Aos amigos incríveis e inesperados Raffaele, Abel, José Maria e Elizabeth pelas

incríveis aventuras, discussões, cervejas, sorvetes e, principalmente, por me acolherem

como família quando estava longe de casa.

Aos amigos queridos Anaís, Rodrigo, Thalles e Juliana que estavam sempre

presentes, mesmo de longe.

Aos amigos de uma vida inteira, Ana Beatriz, Catarina, Miriam, Gabriela B.,

Gabriela M., Rafaela e Heitor.

A Danilo pela amizade de todos os anos, companheirismo e muita, muita

paciência.

A minha vó Jovem e Tia Goretti por absolutamente tudo.

Aos meus irmãos Júlia, Eduardo e Renato pelas fofocas, filmes e trelas,

respectivamente. A Finha pela ajuda de mãe.

Aos meus pais, Ascendino e Fátima pelo apoio, conselhos, cervejas, brincadeiras,

viagens e por tornarem possíveis cada uma das conquistas feitas.

A todos aqueles que participaram de alguma forma para minha formação

acadêmica e pessoal, agradeço.

“Essentially, all models are wrong, but some are useful”

George E. P. Box

RESUMO

A análise de documentos adulterados representa um problema comum nas unidades de

Polícia Científica. Frequentemente, fraudes são realizadas por meio de adições de

textos ou ocultação de partes dos textos originais. O desenvolvimento de métodos não

destrutivos são de extrema importância para auxiliar a solução de casos litigiosos,

garantindo a integridade das amostras. As imagens hiperespectrais na região do

infravermelho próximo (HI-NIR) associadas a técnicas quimiométricas mantém a

integridade das amostras fornecendo importantes informações não só sobre a

composição química, mas também a respeito da distribuição dos componentes na

amostra estudada. Neste trabalho foram propostas três diferentes abordagens para

simular problemas e identificar adulterações típicas em documentos. A primeira delas,

é a adulteração por adição de texto, em que diferentes canetas pretas com o mesmo

diâmetro de ponta e tons de pretos semelhantes foram utilizadas para escrever um

número em uma folha de cheque e uma outra caneta usada para modificar a quantidade

inicial por adição de novos algarismos. A segunda abordagem consiste na adulteração

por obliteração, em que 10 canetas pretas de diferentes tipos e marcas foram usadas

para realizar diferentes combinações em que uma caneta foi usada para produzir um

pequeno texto que foi, em seguida, oculto por uma sobrecarga de outra caneta. A

terceira abordagem consiste no problema de cruzamento de traços, em que uma linha

produzida por tinta de caneta foi interceptada por uma linha de toner, para identificar se

a linha do toner foi adicionada após a linha da tinta ou o inverso. Foram adquiridas

imagens hiperespectrais na faixa de 928-2524 nm, com resolução espectral e espacial

de 6,3 nm e 10 µm, respectivamente por uma câmera de imagens hiperespectrais

(SisuChema) de cada uma das amostras produzidas para as três abordagens. Após o

pré-processamento dos dados, diferentes técnicas quimiométricas foram utilizadas para

a avaliação de cada problema. Uma Análise de Componentes Principais (PCA) foi

realizada para avaliar as duas primeiras abordagens (adulteração por adição de texto e

adulteração por obliteração), enquanto a técnicas de MCR-ALS e PLS-DA, como

ferramenta de seleção de variáveis, foram usadas para estudar a terceira abordagem

(problema de cruzamento de traços). A adulteração da abordagem 1 foi identificada

através das imagens dos escores da PCA, para todas as amostras. Para a abordagem 2,

foi possível identificar o texto oculto a partir das imagens dos escores da PCA de 39

das 90 amostras produzidas (43,3% das amostras). Finalmente, para a abordagem 3, as

amostras cuja linha da tinta se encontrava abaixo da linha do toner apresentaram uma

descontinuidade no ponto de interseção que não pode ser visualizado nas amostras cuja

linha da tinta estava por cima da linha do toner. Para este caso, apenas três dos vinte

pares de amostras não apresentaram este comportamento. Os resultados das abordagens

descritas mostraram o potencial da HI-NIR associada a técnicas quimiométricas para a

solução de problemas de fraudes de documentos.

Palavras-chave: Imagem hiperespectral. Infravermelho próximo. Forense.

Documentoscopia. PCA. MCR-ALS.

ABSTRACT

The analysis of forged documents represents a common problem at forensic science

units. Often, frauds are carried out by means of text addition or concealment of parts

from the original documents. The development of non-destructive methods is

extremely important to assist in the solution of contentious cases, ensuring the integrity

of samples. Hyperspectral images in the near infrared (HI-NIR) range associated with

chemometric tools maintain the integrity of the samples, providing important

information about the chemical composition, as well as the distribution of the sample

components. In this work, three different approaches have been proposed to simulate

typical problems and to identify document forgeries. The first one is forgery by adding

text, for which different black pens with the same tip diameter and the similar shades of

black were used to write a number on a checkbook sheet and another pen used to

modify the initial register by adding new numbers. The second approach is alteration

by obliteration. Using ten black pens of different types and brands in different

combinations: one pen was used to produce a short text which was then overwritten by

another pen. The third approach is the crossing lines problem, where a line produced by

an ink pen is intercepted by a toner line in order to identify whether the toner line was

added before or after the ink line. Samples used in each approach were submitted to

HI-NIR in the range of 928-2524nm, with spectral and spatial resolution of 6.3nm and

10 µm, respectively, by a hyperspectral imaging camera (SisuChema). After pre-

processing the data, different chemometeric techniques were used to evaluate each

problem. A Principal Component Analysis (PCA) was performed to evaluate the first

two approaches (adulteration by adding text and adulteration by obliteration), while the

techniques MCR-ALS and PLS-DA, as a variable selection tool, were used to study the

third approach (the problem of crossing lines). The approach 1 forgery of was

successfully identified for all samples using the score images of the PCA. For the

second approach, the hidden text was identified using the score images in 39 of the

90samples produced (43.3% of the samples). Finally, for the third approach, the

samples where the ink line was below the toner line showed a discontinuity at the

intersection point, that cannot be seen in samples where the ink line was above the

toner line. In this case, just three out of twenty sample pairs did not show this behavior.

The results of these approaches demonstrate the potential of HI-NIR associated with

chemometric tools to solve document forgery issues.

Key-words: Hyperspectral images. Near infrared. Forensic. Document forgery. PCA.

MCR-ALS.

LISTA DE FIGURAS

Figura 1 Diferentes modos de vibração em uma molécula triatômica heteronuclear

(Adaptado de SKOOG, 2006). ....................................................................................... 20

Figura 2 Gráfico da energia potencial da ligação em função da distância entre os

átomos para o modelo do oscilador anarmônico (PASQUINI, 2003). ........................... 22

Figura 3 Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh,

1889. ............................................................................................................................... 22

Figura 4 Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c)

hiperespectrais. ............................................................................................................... 23

Figura 5 Desdobramento das matrizes 3D de imagens (a) em RGB e (b)

hiperespectrais. ............................................................................................................... 24

Figura 6 Desdobramento considerando a informação espacial (textura e distribuição)

em imagens em (a) escala de cinza e (b) RGB. .............................................................. 24

Figura 7 Desdobramento da matriz tridimensional de dados em uma matriz

bidimensional e sua decomposição em perfis de concentração relativa e espectros puros.

........................................................................................................................................ 25

Figura 8 Construção do mapa de distribuição (a) a partir de um comprimento de onda

específico e (b) a partir da soma das intensidades em todos os comprimentos de onda. 26

Figura 9 Esquema da construção de um modelo de PLS-DA. ...................................... 33

Figura 10 Exemplo das amostras preparadas para abordar o problema da adulteração

por adição de texto. Amostras (a) S1, (b) S2, (c) S3, (d) S4 e (e) S5. ............................ 41

Figura 11 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1

realizadas com as técnicas de pré-processamento (a) SNV e (b) MSC; e para a amostra

S3, também com as técnicas de (d) SNV e (e) MSC. ..................................................... 44


realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de

3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com

polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. .............. 45


realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de

3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com

polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. .............. 46

Figura 14 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2

(vermelho) para a amostra S1; (b) Espectros médios pré-processados do papel (azul),

das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S1. ................................ 47

Figura 15 Gráficos dos pesos para a amostra S1 pré-processada com SNV. ................ 48

Figura 16 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2

(vermelho) para a amostra S3; (b) Espectros médios pré-processados do papel (azul),

das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S3. ................................ 49

Figura 17 Gráficos dos pesos para a amostra S3 pré-processada com SNV. ................ 50

Figura 18 Imagens dos escores das PCs de três diferentes amostras; (a) PC1 e PC2 da

amostra S1; (b) PC1 e PC3 da amostra S2; (c) PC1 e PC5 da amostra S3; (d) PC2 e PC8

da amostra S4 e (e) PC1 e PC4 da amostra S5. .............................................................. 51

Figura 19 Exemplos de amostras que abordam o problema de falsificação por

obliteração; em (a) uma caneta (caneta 1, por exemplo) foi usada para escrever um texto

que foi oculto pela caneta 2; em (b) a caneta 2 foi usada para escrever um pequeno texto

que foi oculto pela caneta 1. ........................................................................................... 55

Figura 20 Imagens dos escores das 2 PCs mais informativas realizadas para a amostra

E2_1 com as técnicas de pré-processamento (a) SNV; (b) MSC; (c) 1ª derivada de S.G.

com janela de 7 pontos e polinômio de 3ª ordem; (d) 1ª derivada de S.G. com janela de

9 pontos e polinômio de 3ª ordem; (e) 1ª derivada de S.G. com janela de 15 pontos e

polinômio de 3ª ordem; (f) 2ª derivada de S.G. com janela de 7 pontos e polinômio de 3ª

ordem; (g) 2ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (h) 2ª

derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem. ............................ 57

Figura 21 (a) Espectros médios do papel (azul), e de uma região contendo carga e

caneta (vermelho) para a amostra E2_1; (b) Espectros médios pré-processados com

SNV do papel (azul), e de uma região contendo carga e caneta (vermelho) para a

amostra E2_1; ................................................................................................................. 58

Figura 22 Gráficos dos pesos para a amostra E2_1 pré-processada com SNV. ............ 59

Figura 23 Imagem dos escores das duas primeiras PCs de três amostras diferentes; (a)

na 1ª coluna E5 foi usada para esconder o texto feito com G2 (amostra G2_5); (b) na 2ª

coluna, E2 é usada para escrever o texto ocultado por E3 (amostra E2_1); (c) na coluna

3, E1 é usada para escrever o texto oculto por G2 (E1_1). ............................................ 60

Figura 24 Exemplo das amostras para o problema do cruzamento de traços. Duas linhas

se cruzando, feitas com a mesma caneta e o mesmo toner, em (a) a linha da tinta

(vertical) está por cima da linha do toner (horizontal); em (b) a linha de toner (vertical)

está por cima da linha da caneta (horizontal). ................................................................ 63

Figura 25 Espectros do papel (azul), os espectros do toner (vermelho) e tinta da caneta

E4 (verde) registrados sobre papel. ................................................................................ 65

Figura 26 Previsão para 4 amostras diferentes preparadas com diferentes canetas. As

barras azuis mostram a previsão para os pixels que contém apenas papel, as barras em

verde para a tinta e as barras em vermelho, para o toner................................................ 66

Figura 27 Gráficos dos pesos das 4 LV do PLS-DA para a amostra 1.1. A 1ª LV está

relacionada com o valor médio dos espectros, enquanto a 2ª e a 3ª LV fornecem

informações relevantes e a 4ª LV é, basicamente, ruído. ............................................... 67

Figura 28 Mapas de distribuição para dois pares de amostras. A colunas 1, 2 e 3

mostram os mapas de distribuição do papel, da tinta e do toner, respectivamente. A

amostra 1.1 (1ª linha), 1.2 (2ª linha), 5.1 (3ª linha) e 5.2 (4ª linha). Nas amostras 1.1 e

5.1 a linha da tinta está por cima do toner e nas amostras 1.2 e 5.2, a linha da tinta está

por baixo da linha do toner. ............................................................................................ 68

Figura 29 Mapas de distribuição para dois pares de amostras. Amostra 4.1 a tinta está

sobre a linha do toner; a amostra 4.2 a tinta está por baixo da linha do toner; as amostras

8.1 e 8.2 foram preparadas com a mesma marca de caneta gel (G2), porém na amostra

8.1 a linha da tinta está por cima do toner e na amostra 8.2, está por baixo. ................. 70

LISTA DE TABELAS

Tabela 1 Resumo das amostras do problema de adulteração por adição de texto. ........ 42

Tabela 2 Resumo de resultados para o problema de obliteração. .................................. 61

Tabela 3 Resumo dos resultados para o problema de cruzamento de traços. Marcado

com um X estão as amostras que a sequência das linhas não pôde ser identificada com

sucesso e, em V, as que puderam ser identificadas. ....................................................... 70

LISTA DE ABREVIATURAS

ATR Refletância Total Atenuada (Attenuated Total Reflectance)

CLS Mínimos Quadrados Clássicos (Classical Least Squares)

FIR Infravermelho Distante (Far Infrared)

FT-IR Infravermelho com Transformada de Fourier (Fourier Transformed –

Infrared)

HI Imagem Hiperespectral (Hyperspectral Image)

HPLC Cromatografia Líquida de Alta Resolução (High Performance Liquid

Chromatography)

IR Infravermelho (Infrared)

LDA Análise Discriminante Linear (Linear Discriminant Analysis)

lof Falta de Ajuste (Lack of Fit)

LV Variáveis Latentes (Latent Variables)

MCR-ALS Resolução Multivariada de Curvas (Multivariate Curve Resolution –

Alternating Least Squares)

MIA Análise Multivariada de Imagens (Multivariate Image Analysis)

MIR Infravermelho Médio (Middle Infrared)

MSC Correção Multiplicativa de Espalhamento (Multiplicative Scattering

Correction)

NIR Infravermelho Próximo (Near Infrared)

PC Componente Principal (Principal Component)

PCA Análise de Componentes Principais (Principal Component Analysis)

PLS Mínimos Quadrados Parciais (Partial Least Squares)

PLS-DA Análise Discriminante por Mínimos Quadrados Parciais (Partial Least

Squares – Discriminant Analysis)

RGB Vermelho, Verde e Azul (Red, Green and Blue)

SG Derivada de Savitzky Golay (Savitzky Golay Derivative)

SIMPLISMA Simple-to-use Interactive Self-modeling Mixture Analysis

SNV Variação Normal Padrão (Standard Normal Variate)

vis Região Espectral do Visível

SUMÁRIO

CAPÍTULO 1 ............................................................................................................................. 16

1 INTRODUÇÃO ................................................................................................................ 17

2 OBJETIVOS GERAIS ..................................................................................................... 19

2.1 OBJETIVOS ESPECÍFICOS ................................................................................................. 19

3 FUNDAMENTAÇÃO TEÓRICA ................................................................................... 19

3.1 INFRAVERMELHO............................................................................................................ 19

3.2 IMAGEM HIPERESPECTRAL E ANÁLISE MULTIVARIADA DE IMAGEM ............................ 22

3.2.1 Análise de Componentes Principais de Imagens ................................................... 29

3.2.2 MCR-ALS ............................................................................................................... 30

3.2.3 PLS-DA .................................................................................................................. 32

3.2.4 Pré-processamento de dados ................................................................................. 34

4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES ......................... 36

CAPÍTULO 2 ............................................................................................................................. 40

1 CONTEXTUALIZAÇÃO DO PROBLEMA ................................................................. 41

2 MATERIAIS E MÉTODOS ............................................................................................ 41

2.1 AMOSTRAS ..................................................................................................................... 41

2.2 AQUISIÇÃO DE IMAGENS ................................................................................................ 42

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ................................................................ 42

3 RESULTADOS E DISCUSSÃO...................................................................................... 43

4 CONCLUSÃO................................................................................................................... 52

CAPÍTULO 3 ............................................................................................................................. 54



2.1 AMOSTRAS ..................................................................................................................... 55

2.2 AQUISIÇÃO DAS IMAGENS .............................................................................................. 55

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS................................................................. 55


4 CONCLUSÃO................................................................................................................... 61

CAPÍTULO 4 ............................................................................................................................. 62



2.1 AMOSTRAS ..................................................................................................................... 63

2.2 AQUISIÇÃO DAS IMAGENS .............................................................................................. 64

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ................................................................ 64


4 CONCLUSÃO................................................................................................................... 71

CAPÍTULO 5 ............................................................................................................................. 72

1 CONCLUSÕES GERAIS ................................................................................................ 73

2 PERSPECTIVAS FUTURAS .......................................................................................... 74

REFERÊNCIAS ........................................................................................................................ 76

16

CAPÍTULO 1 Introdução e Fundamentação Teórica

17

1 INTRODUÇÃO

Da certidão de nascimento à certidão de óbito, a vida de um indivíduo é sempre

documentada de alguma maneira. Atestar a legitimidade de documentos de compras de

imóveis, carros, hipotecas, passaportes, receitas médicas, impostos, etc., que estão

sempre presentes na vida de um indivíduo é necessário.De fato, a legitimidade deles é

de extrema importância, principalmente na solução de casos litigiosos. A área da ciência

forense que trata dos estudos de manipulações de documentos é conhecida como

documentoscopia (BRUNELLE; 2003).

As canetas são instrumentos de escrita largamente utilizados no cotidiano e na

produção de manuscritos, e sua identificação em documentos representa uma importante

ferramenta na elucidação dos mais diversos crimes. As tintas das canetas utilizadas na

assinatura destes documentos são sistemas bastantes complexos constituídos por uma

grande variedade de compostos químicos (EDELMAN et al., 2012).

As unidades de polícia científica costumam empregar para a identificação e/ou

diferenciação de tintas, vídeo-comparadores espectrais, que se utilizam de câmera

digital, lâmpadas, espelhos e filtros na região do visível e pequena região do

infravermelho próximo para distinguir os registros produzidos por canetas distintas.

Todavia, a inspeção por visualização direta das imagens, sem processamento

matemático, limita os resultados positivos e deixa as análises mais subjetivas.

Devido a relevância de se preservar a integridade do documento questionado, a

espectroscopia na região do Infravermelho (IR) associada a técnicas quimiométricas

para tratamento dos dados se apresenta como uma boa alternativa aos procedimentos

usuais, pois fornece informações sobre a composição orgânica das tintas, é rápida e não

destrutiva (SKOOG et al., 2006). Silvaet al desenvolveram um método não destrutivo

utilizando a espectroscopia no infravermelho médio (MIR) e a análise discriminante

linear (LDA: Linear Discrimant Analysis) para classificar tintas de canetas azuis

segundo o tipo (gel, rollerball e esferográfica) e a marca (SILVA et al., 2013).

A partir da metade do século XX, o desenvolvimento de novos dispositivos

elétricos e eletrônicos permitiu a obtenção de imagens digitais. Com os recentes

avanços tecnológicos, foi possível adquirir não só imagens em escalas de cinza e RGB

(RGB: Red, Green, Blue), mas também foi possível realizar a aquisição das chamadas

Imagens Hiperespectrais. Estas imagens, além de possuírem informações espaciais,

também contém informações a respeito da composição química, apresentando um

18

espectro ou canais espectrais para cada pixel da imagem. Desta forma, têm-se

informações locais sobre a composição, bem como sobre a distribuição dos

componentes na amostra. Quando desdobradas em uma matriz de dados, essas imagens

podem ser submetidas a técnicas quimiométricas adequadas (GELADI et al. 2007).

O uso de imagens hiperespectrais possui uma vasta aplicação em diversas áreas de

conhecimento. Na área de fármacos, pode ser utilizada para analisar a uniformidade da

distribuição de diversos comprimidos comerciais (CRUZ et al; 2011;CRUZ et al.,

2009). Na indústria alimentícia, pode ser utilizada para controle de qualidade, como a

detecção de defeitos e contaminações na superfície da casca de diferentes tipos de

maçãs (MEHL et al., 2004). Na área médica, podem ser utilizadas juntamente com

técnicas específicas de análise para avaliar imagens, como imagens Raman para o

estudo de cálculo renal (PIQUERAS et al., 2011).

Na área das ciências forenses, a imagem hiperespectral foi utilizada na

identificação de impressões digitais (TAHTOUH et al. 2011), detecção de componentes

de explosivos (RUXTON et al., 2012), identificação de manchas de sangue em locais de

crime (EDELMAN et al. 2012;SCHULER et al., 2012), entre outras aplicações que

podem ser vistas no artigo de Edelman et al(EDELMAN et al., 2012).

Poucos trabalhos forampublicados até o momento abordando problemas na área

da documentoscopia. Chaikovsky et al.(CHAIKOVSKY et al., 2003) propuseram um

método de análise de imagens RGB baseado em separações de cores usando programas

comercias usuais de tratamento de imagens para separar tintas de carimbos de tintas de

canetas. Com o objetivo identificar a sequência das linhas numa interseção de traços

feitos com diferentes instrumentos gráficos (BOJKO et al., 2008), foram adquiridas

imagens hiperespectrais na região do Infravermelho Médio de documentos, utilizando

um microscópio com acessório de Refletância Total Atenuada (micro-ATR).

Quando estamos trabalhando com imagens no infravermelho, cujos espectros são

similares (como duas canetas esferográficas, por exemplo), é necessário empregar

técnicas quimiométricas com a finalidade de extrair informações relevantes que podem

ser visualmente imperceptíveis. Assim, técnicas de redução de dimensionalidade,

segmentação, análise exploratória, resolução, compressão, entre outras se fazem

necessárias. A Análise de Componentes Principais (PCA: Principal Component

Analysis) se apresenta como uma ferramenta muito comum e eficaz na redução de

dimensionalidade, mantendo as informações mais relevantes do conjunto de

dados(BEEBE et al., 1998). A aplicação da PCA em imagens hiperespectrais é de

19

grande utilidade para a extração de informações a respeito de características importantes

da amostra, uma vez que é possível comprimir os dados, preservando informações

fundamentais e interpretar a correlação entre as variáveis utilizadas e a estrutura da

amostra. Assim, a PCA pode ser utilizada como um instrumento para seleção de

características da imagem. Um método bem difundido para a análise quantitativa de

dados espectrais, a regressão por Mínimos Quadrados Parciais (PLS: Partial Least

Squares) se apresenta como outra técnica de projeção eficaz para a Análise Multivariada

de Imagens (MIA: Multivariate Image Analysis). Técnicas para o aprimoramento da

resolução como SIMPLISMA (SIMPLISMA: Simple-to-use Interactive Self-modeling

Mixture Analysis) e MCR-ALS (MCR-ALS: Multivariate Curve Resolution –

Alternating Least Squares) também têm muitas aplicações (PRATS-MONTALBÁN et

al., 2011).

2 OBJETIVOS GERAIS

Este trabalho tem como objetivo geral, desenvolver métodos rápidos, confiáveis e

não destrutivos utilizando imagens hiperespectrais no infravermelho próximo (HI-

NIR)e ferramentas quimiométricas para auxiliar na solução de problemas de falsificação

e adulteração de documentos.

2.1 Objetivos específicos

Avaliar a utilização de HI-NIR e Análise Multivariada de Imagens para

identificar adulteração por adição de texto com uma caneta diferente.

Avaliar a utilização de HI-NIR e MIA para identificação do texto oculto em

documentos após acréscimo de sobrecarga.

Identificar a sequência de linhas em cruzamento de traços de canetas com toner

utilizando HI-NIR e ferramentas quimiométricas de resolução de imagens.

3 FUNDAMENTAÇÃO TEÓRICA

3.1 Infravermelho

A espectrometria de absorção molecular na região infravermelho (IR: infrared)

pode ser uma poderosa ferramenta na análise qualitativa e quantitativa de diversos tipos

de amostras. Além de ser uma técnica com diversas formas de aquisição espectral(como

transmitância direta, refletância difusa, refletância total atenuada, etc.), é simples, rápida

20

e quase não necessita de preparo de amostras.O infravermelho compreende a região

espectral em que o número de onda está entre 12.800 cm-1

e 10 cm-1

. Essa região

espectral pode ser subdividida em três, que são denominadas de infravermelho próximo

(NIR:Near Infrared), médio (MIR:Middle Infrared) e distante (FIR:Far Infrared)

(SKOOG et al., 2005).

As frequências de radiação na região do infravermelho são baixas e, quando

absorvidas por um sistema molecular são convertidas em energias rotacionais e

vibracionais (SILVERSTEIN et al., 2005).Entretanto, a absorção na região do IR só

ocorre quando há uma variação no momento de dipolo da molécula em decorrência dos

diferentes estiramentos e deformações (Figura 1), permitindo a interação entre o campo

eletromagnético da radiação IR e o sistema molecular, que sofre uma mudança na

amplitude vibracional em decorrência dessa absorção. Assim, é possível perceber que

sistemas moleculares diatômicos homonucleares (como O2, N2, H2, etc.) não são

capazes de absorver radiação IR, pois suas vibrações não ocasionam variação do

momento de dipolo da molécula (SKOOG et al., 2006).

VIBRAÇÕES DE ESTIRAMENTO

Estiramento Simétrico Estiramento Assimétrico

DEFORMAÇÕES ANGULARES

Balanço no Plano Tesoura no Plano Torção fora do

Plano

Sacudida fora do

Plano

Figura 1Diferentes modos de vibração em uma molécula triatômica heteronuclear (Adaptado de

SKOOG, 2006).

21

Para sistemas moleculares, as energias de ligação obedecem ao modelo do

oscilador anarmônico, que considera comportamentos como repulsão entre as nuvens

eletrônicas dos átomos em decorrência da aproximação de seus núcleos e a variação da

energia potencial da ligação com o afastamento dos átomos, levando à dissociação da

ligação. Para esse modelo, as transições ativas não só obedecem à regra de seleção

∆𝜐 = ±1 (relativa aos modos normais de vibração), mas também às regras de seleção

∆𝜐 = ±2 e ∆𝜐 = ±3, que explicam os sobretons e as bandas de combinação (Figura 2)

(PASQUINI , 2003).

A região do NIR corresponde à faixa de número de onda que vai de 12.800cm-1

a

4000cm-1

(o equivalente a comprimentos de onda que vão de 750nm a 2500nm). Essa

região corresponde, principalmente aos sobretons eàscombinações das vibrações

fundamentais associadas às ligações O-H, C-H, N-H e S-H (PASQUINI, 2003), que

podem fornecer informações importantes a respeito da composição orgânica das

amostras.

Durante a década de 70, as técnicas de imagens hiperespectrais na região do NIR

(HI-NIR: Near Infrared – Hyperspectral Images) eram aplicadas a análises de

sensoriamento remoto, e, apenas a partir dos anos 90 essas técnicas começaram a ser

utilizadas na área de alimentos (BELLON-MAUREL, 2009). Atualmente, uma grande

variedade de trabalhos são apresentados na literatura com aplicações das técnicas de HI-

NIR para a avaliação de produtos farmacêuticos (CRUZ et al., 2011;CRUZ et al,. 2009;

ELLISON et al., 2008; AMIGO et al., 2009; PRATS-MONTALBÁN et al., 2012).

22

Figura 2Gráfico da energia potencial da ligação em função da distância entre os átomos para o modelo

do oscilador anarmônico(PASQUINI, 2003).

3.2 Imagem Hiperespectral e Análise Multivariada de Imagem

A análise de imagens está inserida numa área conhecida como processamento de

imagens, que consiste na extração de informações relevantes ou na melhoria de

qualidade da imagem estudada. Esta área pode utilizar diferentes propriedades das

imagens, tais como textura, cor e forma, para extrair essas informações.

Para imagens digitais, o menor elemento formador de uma imagem é o pixel (para

imagens de superfície, ou seja, em duas dimensões) ou o voxel (para imagens

tridimensionais). Cada pequena porção da imagem está determinada por coordenadas

espaciais – x e y, para os pixels e x, y e z, para os voxels. Na Figura 3, é possível

observar que a ampliação sucessiva da imagem do quadro Noite Estrelada do autor

Vincent van Gogh, datada de 1889, fornece a visualização dos pixels que compõem a

imagem digital(PRATS-MONTALBÁN et al., 2011).

Figura 3Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh, 1889.

As imagens digitais são formadas pelas coordenadas espaciais e valores

numéricos para cada pixel que representam a escala de cores utilizada. Quando a

23

imagem estudada está representada na escala de cinza, tem-se uma matriz de dados

bidimensional e cada pixel está associado a um valor de intensidade na escala de cinza

(Figura 4a). Já para imagens em RGB – formadas a partir dos três canais de cores,

vermelho, verde e azul (RGB: Red, Green, Blue) –, tem-se uma matriz de dados

tridimensional, formada a partir de três matrizes de dados concatenadas, em que cada

pixel terá três valores de intensidade, um para cada canal de cor (Figura 4b), (PRATS-

MONTALBÁN et al., 2011).

Existe um tipo particular de imagem que, além de fornecer as informações

espaciais da amostra, também fornece informações a respeito da composição química da

mesma. Estas imagens possuem um espectro de alta resolução ou alguns comprimentos

de onda associados a cada pixel da imagem e são chamadas de imagens hiperespectrais

(HI: Hyperspectral Images) ou multiespectrais, respectivamente (Figura 4c). Esses

espectros podem ser obtidos por diversas técnicas analíticas, como Raman,

Infravermelho, Fluorescência, UV-vis, etc., sendo as técnicas de Raman e de

Infravermelho, geralmente, as mais informativas (DE JUAN, 2009).

Figura 4Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c) hiperespectrais.

Para realizar a análise de imagens, é preciso transformar a imagem estudada em

uma matriz de dados que possa ser matematicamente manipulada. Desta forma, é

preciso realizar um desdobramento da matriz 3D (para imagens em RGB,

multiespectrais e hiperespectrais) em uma matriz bidimensional. Cada pixel será

considerado como uma amostra e os valores de intensidade serão dispostos em colunas,

respeitando a ordem sugerida na Figura 5a. O desdobramento para imagens em RGB e

multi/hiperespectrais está esquematizado nas Figuras 5a e 5b, respectivamente.

24

(a) (b)

Figura 5Desdobramento das matrizes 3D de imagens (a) em RGB e (b) hiperespectrais.

Esse desdobramento da matriz de dados causa a perda da informação espacial

(textura e distribuição), pois não considera a relação de intensidade entre os pixels

vizinhos. Por isso, quando existe a necessidade de realizar uma análise espacial, o

desdobramento pode ser realizado considerando os pixels vizinhos de uma janela com

tamanho previamente determinado, geralmente de 9 pixels, como na Figura 6 (PRATS-


(a)

(b)

Figura 6Desdobramento considerando a informação espacial (textura e distribuição) em imagens

em (a) escala de cinza e (b) RGB.

As imagens hiperespectrais possuem uma grande vantagem com relação obtenção

dos espectros clássicos de uma determinada amostra, pois variações espectrais de pixel

25

a pixel fornecem informações a respeito da distribuição de componentes na superfície

da amostra analisada. Entretanto, como nos conjuntos de dados espectroscópicos

clássicos, os espectros das imagens hiperespectrais também obedecem à linearidade da

lei de Beer-Lambert, e portanto podem ser representados pela Equação 1:

𝑿 = 𝑪𝑺𝒕 + 𝑬 (1)

Em que X é a matriz dos dados, C é a matriz de intensidade relativade cada

componente presente, S é a matriz que contém os espectros dos constituintes puros e E

é a matriz de erros (associada àquelas informações que o modelo não consegue

modelar), (Figura 7). Com a reconstituição da imagem, é possível observar o mapa de

distribuição dos compostos com suas respectivas concentrações relativas (PRATS-


Figura 7Desdobramento da matriz tridimensional de dados em uma matriz bidimensional e sua

decomposição em perfis de concentração relativa e espectros puros.

Para a análise de imagens hiperespectrais, é fundamental submeter os espectros a

determinadas técnicas de pré-processamento. Desta forma, as técnicas clássicas de pré-

tratamentos espectrais podem ser aplicadas, como será discutido mais adiante. Porém,

um problema que está relacionado ao tratamento das imagens hiperespectrais é o

tamanho do conjunto de dados dessas imagens. Para redução do conjunto de dados sem

perda significativa da informação, é indicado utilizarferramentas de compressão como

PCA, seleção de características baseada em wavelets, etc,(PRATS-MONTALBÁN et

al., 2011). Existem ainda duas formas básicas de se realizar a análise de uma imagem

hiperespectral a partir de uma redução significativa de dados, sem submetê-la a técnicas

de compressão. A primeira é construir uma imagem contendo apenas as informações de

absorbância/transmitância de um único comprimento de onda que deve estar

26

diretamente associado ao composto que se deseja analisar (Figura 8a). A segunda

maneira consiste na construção de um mapa de distribuição global da imagem, assim

para cada pixel teremos um valor numérico que corresponde à soma de todos os valores

de absorbância/transmitância em todos os comprimentos de onda (Figura 8b). Porém, é

importante perceber que a obtenção do mapa de distribuição de qualquer uma das duas

formas descritas implica na perda da riqueza de informação fornecida pela imagem

hiperespectral (DE JUAN, 2009).

(a)

(b)

Figura 8Construção do mapa de distribuição (a) a partir de um comprimento de onda específico e (b) a

partir da soma das intensidades em todos os comprimentos de onda.

Para realizar o tratamento de imagens multiespectrais, hiperespectrais, em RGB

ou em outros canais de cores, foram desenvolvidas as técnicas de Análise Multivariada

de Imagens (ESBENSEN, 1989). Estas técnicas começaram a surgir no final dos anos

80 (GELADI, 1989). Até então, as técnicas de análise desenvolvidas estudavam as

imagens como um todo, porém a adesão das ferramentas estatísticas permitiu o

desenvolvimento de estudos mais completos, olhando para as imagens como um

conjunto de pequenas unidades (os pixels). A essa nova forma de análise, deu-se então o

nome de Análise Multivariada de Imagem. Atualmente, pode ser utilizada como

ferramenta de classificação, segmentação, previsão, etc (PRATS-MONTALBÁN et al.,

2011).

27

A Análise de Componentes Principais pode ser aplicada na análise de imagens

com o objetivo de reduzir a dimensionalidade da matriz de dados, conservando as

informações relevantes e descartando as redundantes. Além disso, uma grande

vantagem da aplicação da PCA em dados de imagem é que ela é capaz de resolver o

problema da alta correlação entre as intensidades de pixels vizinhos. Este método é bem

estabelecido na literatura para aplicações de conjuntos espectrais clássicos e já possui

grande aceitação na área de análise de imagens pela comunidade científica.

Desta forma, é possível reconstruir uma imagem de scores para cada componente

principal obtida a partir da análise. Assim, as novas imagens irão reter as informações

mais relevantes da amostra e a dimensionalidade do conjunto de dados será

significativamente menor, uma vez que apenas algumas poucas componentes trazem

informações realmente relacionadas com a composição química da amostra (DE JUAN,

2009). Apesar das novas componentes não apresentarem um significado químico, as

imagens geradas são capazes de representar eficientemente a distribuição de diferentes

componentes na amostra.

Os métodos de segmentação são bastante úteis na análise de imagens, pois têm

como objetivo realizar uma seleção de pixels similares. Essas similaridades devem estar

associadas às características que se deseja estudar, sejam elas de natureza química,

biológica, espacial, relativa à textura, etc. Existem diversas ferramentas para realizar a

segmentação de uma imagem que podem variar de acordo com a forma de realizar a

classificação dos pixels e/ou com os conhecimentos utilizados na implementação do

processo (DE JUAN, 2009).

Duas variações de uma técnica bastante utilizada em conjuntos clássicos de

espectros e que vêm sendo empregadas na análise de imagens são a Regressão por

Mínimos Quadrados Parciais (PLS: Partial Least Squares), para calibrações, e, para fins

classificatórios, Análise Discriminante por Regressão dos Mínimos Quadrados Parciais

(PLS-DA: Partial Least Squares – Discriminant Analysis).

A técnica PLS cria um modelo de projeção utilizando variáveis latentes, porém,

diferentemente da PCA, que procura as variáveis que explicam a maior variância dos

dados, PLS fornece as variáveis que apresentam a maior correlação entre a matriz X

(matriz dos dados de medições) e Y (matriz das propriedades que se deseja avaliar)

(PRATS-MONTALBÁN et al., 2011).

28

As técnicas de tratamento de imagens descritas anteriormente podem ser

utilizadas para estudar imagens em escalas de cinza, RGB, multiespectrais ou

hiperespectrais. Porém existem técnicas que foram desenvolvidas especificamente para

tratar de imagens multi e hiperespectrais.

Ao lidar com imagens hiperespectrais, conforme já citado, é de extrema

importância realizar determinadas correções nos dados para aumentar a qualidade dos

resultados ao final da análise. Portanto, técnicas de pré-processamento são bastante

utilizadas para contornar alguns problemas típicos não só relacionados com as variações

de medidas de imagens, mas também com as variações comuns observadas em um

conjunto clássico de espectros. Assim, ferramentas usuais como normalização,

suavização, derivadas, correções de linha de base, entre outras, podem ser empregadas

com seus objetivos originais. Existem, entretanto, outras ferramentas mais específicas

para corrigir pixels anômalos, outliers – como substituir o valor do pixel pela média dos

pixels vizinhos –, realizar compressões de imagens, etc., que, quando utilizadas

adequadamente, aumentam significativamente a qualidade dos resultados analisados

(DE JUAN, 2009).

Após submeter os dados às técnicas adequadas de pré-processamento, é possível

melhorar a análise utilizando ferramentas para aperfeiçoar a resolução da imagem. No

caso de imagens hiperespectrais, a resolução está associada à capacidade de identificar a

informação química para cada pixel. Ou seja, os métodos de resolução procuram as

contribuições individuais de cada componente de um sistema de forma que a

combinação delas representem a resposta instrumental do sistema (DE JUAN,

2003).Uma das técnicas que pode ser utilizada com essa finalidade é o SIMPLISMA

(PRATS-MONTALBÁN et al., 2011). SIMPLISMA (SIMPLISMA: Simple-to-use

Interactive Self-modeling Mixture Analysis) é uma ferramenta de análiseexploratória

que procura os pixels mais puros da imagem e/ou os canais espectrais mais puros

através de um índice de pureza. Uma vez que os pixels mais puros são obtidos, é

possível gerar um mapa de distribuição para cada um dos componentes selecionados,

gerando uma nova imagem que seja compatível com os valores reais de cada

componente (DE JUAN, 2009).

Caso o pesquisador já tenha conhecimento a respeito dos espectros puros (ou os

mais próximos dos puros) dos componentes da amostra ou já tenha realizado algum

29

procedimento para encontrá-los (como SIMPLISMA), é possível usar tais informações

como entradas para aprimorar a resolução da imagem. Um algoritmo de resolução,

muito utilizado no tratamento de imagens multi e hiperespectrais, é o MCR-ALS.

O MCR-ALS é um algoritmo iterativo que utiliza os espectros de entrada para

encontrar soluções otimizadas para os espectros puros. Na verdade, essa ferramenta

pode ser utilizada para qualquer conjunto de dados que obedeça a modelos bilineares,

independente da natureza da medida desses dados. Assim, o MCR-ALS busca soluções

para a Equação 1 de forma iterativa. Porém, visto que existem muitas variações no

comportamento dos espectros para medidas de imagem, é preciso impor algumas

restrições para que as soluções da equação sejam aceitáveis (JAUMOT et al., 2005).

3.2.1 Análise de Componentes Principaisde Imagens

A Análise de Componentes Principais é uma ferramenta de análise exploratória

capaz de identificar similaridades e diferenças entre amostras do conjunto de dados.

É,provavelmente, a técnica de reconhecimento de padrões não supervisionada que

possui uma maior aceitação pela comunidade científica e é largamente utilizada em

diversas aplicações (BRERETON, 2003), inclusive na avaliação de tintas de canetas

para conjuntos clássicos de dados, como Cromatografia líquida de alto desempenho

(HPLC:High-Performance Liquid Chromatography) (KHER et al., 2006), UV-vis

(ADAM et al, 2008) e visível (THANASOULIAS et al., 2003).

A PCA de imagens transforma a matriz de dados em um modelo bilinear que

obedece a Equação 2.

𝑿 = 𝑻𝑳𝒕 + 𝑬 (2)

Em que T é a matriz dos scores (que são as coordenadas das amostras no novo

sistema de eixos), LT é a matriz dos pesos (ou loadings, que são os cossenos dos

ângulos entre os eixos originais e as componentes principais) e E é a matriz dos erros

associados ao modelo construído. Esse novo modelo é formado a partir de uma

combinação linear das variáveis originais de forma que as novas variáveis, componentes

principais (PC: Principal Component), serão ortogonais entre si e representarão, de

forma decrescente, a maior variância dos dados (BEEBE et al., 1998). Quando aplicado

a imagens hiperespectrais, são os vetores da matriz T que, quando reorganizados,

fornecem as imagens dos escores (GELADI et al., 1989; DUCHESNE et al., 2012).

30

Apesar de não possuir sentido químico claro e ser de difícil interpretação

(KEENAN; 2007), as imagens dos escores podem fornecer importantes informações

sobre o conjunto de dados, especialmente quando combinadas com os gráficos dos

pesos. Muitas vezes a primeira componente principal pode conter informações a

respeito da intensidade de iluminação e a capacidade da superfície da amostra de refletir

radiação (GELADI et al., 1989).

A PCA aplicada a imagens também possui uma outra aplicação de extrema

importância. É possível se obter um gráfico de dispersão com a matriz desdobrada de

uma imagem de escores de uma componente versus outra. Este tipo de gráfico pode

fornecer informações sobre outliers e diferentes classes no conjunto de dados analisados

(GELADI et al., 1989).

3.2.2 MCR-ALS

Um método de resolução de sinais que pode ser aplicado a imagens é o MCR-

ALS (MCR-ALS: Multivariate Curve Resolution – Alternating Least

Squares)(TAULER, 1993). Essa ferramenta é capaz de analisar qualquer conjunto de

dados que possa ser descrito por um modelo bilinear, como dados eletroquímicos e

espectroscópicos.

Utilizando, como dados de entrada, estimativas dos espectros puros dos

componentes presentes na amostra, o algoritmo tem como objetivo encontrar as

contribuições de cada componente da amostra a partir da decomposição bilinear da

matriz X (Equação 1). Portanto, como já comentado, o MCR-ALS busca soluções para

a Equação 1 de forma iterativa, otimizando a matriz de intensidade relativaC e de

espectros puros S de forma a ajustar-se ao conjunto de dados experimentais X

(JAUMOT et al., 2005).

A busca de soluções realizada pelo algoritmo é feita obedecendo a determinadas

restrições impostas pelo operador, dependendo do tipo de dados que estão sendo

analisados. Condições de normalização, seletividade, valores conhecidos,

unimodalidade e não negatividade podem ser impostas de forma a encontrar os

resultados ótimos e aceitáveis para o problema. A restrição de não negatividade é,

provavelmente, a mais utilizada, pois impede que o algoritmo encontre soluções com

valores negativos para a matriz C e para os valores da matriz ST(TAULER, 2001). É

importante ressaltar que a restrição de não negatividade não pode ser usada na direção

31

espectral quando os dados forem pré-processados com derivadas e SNV, pois os perfis

espectrais podem possuir valores negativos.

Para avaliar o modelo construído pelo algoritmo, existem alguns parâmetros que

podem ser considerados, como a percentagem de falta de ajuste (lof), a variância

explicada (R2) e o desvio padrão (σ), representados nas Equações 3, 4 e 5,

respectivamente.

𝑙𝑜𝑓(%) = 100 × √∑ 𝑒𝑖𝑗

2𝑖,𝑗

∑ 𝑥𝑖𝑗2

𝑖,𝑗

(3)

𝑅2 =∑ 𝑥𝑖𝑗

2𝑖,𝑗 − ∑ 𝑒𝑖𝑗

2𝑖,𝑗

∑ 𝑥𝑖𝑗2

𝑖,𝑗

(4)

𝜎 = √∑ 𝑒𝑖𝑗

2𝑖,𝑗

𝑛𝑙𝑖𝑛ℎ𝑎𝑠 ∙ 𝑛𝑐𝑜𝑙𝑢𝑛𝑎𝑠

(5)

Em que nlinhas e ncolunas são o número de linhas e de colunas da matriz X,

respectivamente, eij2 é a diferença entre o elemento de entrada e o calculado pelo MCR-

ALS, xij2 é o elemento de entrada(JAUMOT et al., 2005).

O MCR-ALS também pode tratar mais de uma matriz de dados ao mesmo

tempo, quando se tem vários experimentos realizados com a mesma técnica

espectroscópica (Equação 6), quando se tem o mesmo sistema químico avaliado por

mais de uma técnica espectroscópica (Equação 7) ou, até mesmo quando se tem vários

experimentos realizados com mais de uma técnica espectroscópica(Equação

8)(TAULER, 1995).

[𝑋1

𝑋2] = [𝐶1

𝐶2] 𝑆𝑇 + [𝐸

1

𝐸2] (6)

[𝑋1 𝑋2] = 𝐶[𝑆𝐴𝑡 𝑆𝐵

𝑡 ] + [𝐸𝐴 𝐸𝐵] (7)

[𝑋𝐴1 𝑋𝐵

1

⋮ ⋮𝑋𝐴𝑛 𝑋𝐵

𝑛] = [𝐶

1

𝐶2] [𝑆𝐴

𝑡 𝑆𝐵𝑡 ] + [

𝐸𝐴1 𝐸𝐵

1

⋮ ⋮𝐸𝐴2 𝐸𝐵

2]

(8)

Em que a matriz 𝑋𝑗𝑖 corresponde à matriz do sistema i monitorado pela técnica j; 𝐶𝑖é a

matriz de concentração do sistema i; 𝑆𝑗𝑡 é a matriz transposta dos espectros puros dos

32

componentes obtidos pela técnica j e 𝐸𝑗𝑖 corresponde à matriz residual do sistema i

monitorado pela técnica j(JAUMOT et al., 2005).

O MCR-ALS fornece as matrizes C e S otimizadas partindo de estimativas

iniciais de uma das duas através das Equações 9 e 10.

𝑪+𝑿∗ = 𝑪+𝑪𝑺𝑻 = 𝑺𝑻 (9)

𝑿∗(𝑺𝑻)+ = 𝑪(𝑺𝑻)(𝑺𝑻)+ = 𝑪 (10)

Em que C+ é a pseudoinversa de C, (S

T)+é a pseudoinversa da matriz S

T e X

* é a matriz

dos valores singulares de X contendo apenas as PCs escolhidas [TAULER, 1995].

3.2.3 PLS-DA

Muitas vezes o analista possui duas matrizes de dados com diferentes variáveis (X

e Y), aparentemente independentes. Para analisar se existem tendências de variações

que sejam comuns aos dois conjuntos de dados desprezando os erros aleatórios

experimentais, Wold (WOLD, 1976; WOLD, 2001) propôs a técnica dos Mínimos

Quadrados Parciais (PLS: Partial Least Squares).

Uma forma simples de entender a construção de um modelo PLS é realizar uma

regressão entre os escores das matrizes X e Y. Assim, PLS é uma técnica que consiste

na construção de um modelo que considera as relações internas dos dados de cada

matriz (matriz X e matriz Y separadamente) estabelecendo um vínculo entre elas

(GELADI;1986).

Enquanto a PCA calcula componentes com a mínima correlação entre as variáveis

originais (componentes principais que sejam ortogonais entre si) e que maximizam a

variância em X, o PLS procura variáveis latentes (análogas às componentes principais)

que expliquem a máxima correlação entre as matrizes X e Y, como já ressaltado

anteriormente. Desta forma, as variáveis latentes (LV: Latent Variables) podem ser

interpretadas geometricamente como uma leve rotação das PCs de forma a aumentar a

correlação entre os dois conjuntos de dados (WOLD, 2001;BRUNS, 1985).

Matematicamente, o PLS consiste na decomposição das matrizes X e Y como

mostrado nas equações 11 e 12, respectivamente:

𝑿 = 𝑻𝑷𝒕 + 𝑬 (11)

𝒀 = 𝑼𝑸𝒕 + 𝑭 (12)

33

Em que T e U são análogas às matrizes dos escores em uma PCA e P e Q, análogas às

matrizes dos pesos (ver equação 2). Assim, o PLS ajusta as equações 9 e 10 de forma

que E e F sejam aproximadamente zero e constrói uma relação entre U e T (equação 13)

(KALIVAS, 2006):

𝑼 = 𝑻𝑾 (13)

Assim, caso haja uma amostra onde suas variáveis x (𝑥 ∈ 𝑿) são conhecidas, é possível

prever suas variáveis y (𝑦 ∈ 𝒀) a partir das relações anteriores.

Com objetivos de classificação, o método da Análise Discriminante por

Mínimos Quadrados Parciais pode ser usado, como ilustrado na Figura 9, em que a

matriz Y em geral é uma matriz que contém apenas 0 e 1 em seus elementos. Suponha

um sistema que contém 3 classes. A matriz X será composta por 3 matrizes

concatenadas contendo os espectros referentes às amostras das classes 1 (X1), 2 (X2) e

3 (X3). A matriz Y será uma matriz de 0 e 1 em que cada coluna estará relacionada com

a classe do componente (1, 2 ou 3). Assim, quando uma amostra desconhecida com um

determinado perfil espectral for projetada no modelo construído, é possível prever o

valor de Y dessa amostra no modelo e determinar em que classe ela será classificada. O

valor para Y da amostra será 1, quando ela pertencer à determinada classe e 0 quando

não pertencer. A forma mais simples é utilizar um limiar para a classificação da amostra

de 0,5, ou seja, quando uma amostra apresentar um valor igual ou maior que 0,5,

significa que ela pertence à classe e questão.

Figura 9Esquema da construção de um modelo de PLS-DA.

34

3.2.4 Pré-processamento de dados

Os dados espectrais de infravermelho, geralmente necessitam de correções antes

de serem submetidos a técnicas de modelagem quimiométricas (MILLER, 2005). Para

minimizar as fontes irrelevantes de informações tais como variações aleatórias ou

sistemáticas, que não estão relacionadas com a propriedade de interesse, nesse sentido,

algumas técnicas de pré-processamento podem ser utilizadas. É sempre bom ter em

mente que, uma vez aplicadas as técnicas de pré-processamento, os resultados do

conjunto de dados podem mudar significativamente, tanto para melhor como para pior,

e é a escolha apropriada da técnica que vai fornecer o melhor resultado. As técnicas de

pré-processamento podem operar nas amostras (normalização, suavização, MSC,

derivadas, SNV, etc.) ou nas variáveis (centrar na média, autoescalonamento, etc.)

(BEEBE et al., 1998). Cada pré-processamento possui um objetivo diferente, e a

escolha da técnica deve ser tomada de acordo com o tipo de correção que se deseja fazer

nos dados, com o objetivo da análise e, por vezes, com o resultado da modelagem.

Das diversas variações presentes em um conjunto de dados, as mais comuns para

dados de refletância são as flutuações sistemáticas geradas devido ao espalhamento de

luz. Para corrigir problemas como esse, técnicas de correção como Variação Normal

padrão (SNV: Standard Normal Variate) e Correção Multiplicativa de Espalhamento

(MSC: Multiplicative Scattering Correction) são bastante utilizadas. As duas são

similares e fornecem resultados muito parecidos, uma vez que o formato das equações

que descrevem cada uma são semelhantes (FEARN et al., 2009).

MSC foi primeiramente proposto por Martens et. al. (MARTENS et al., 1983) e,

em seguida adaptado por Geladi et. al. (GELADI et al., 1985). Esta técnica corrige os

efeitos indesejados de espalhamento em, basicamente duas etapas: (1) estimando os

coeficientes de correção e, em seguida (2) corrigindo o espectro original (RINNAN et

al., 2009). As equações 14 e 15 mostram como são realizadas as etapas (1) e (2),

respectivamente.

𝒙𝑜𝑟𝑔 = 𝑏0 + 𝑏𝑟𝑒𝑓,1 ∙ 𝒙𝑟𝑒𝑓 + 𝒆 (14)

𝒙𝒄𝒐𝒓𝒓 =𝒙𝒐𝒓𝒈 − 𝑏0

𝑏𝑟𝑒𝑓,1= 𝒙𝒓𝒆𝒇 +

𝒆

𝑏𝑟𝑒𝑓,1

(15)

Em que xorg é a matriz dos espectros medidos, xref é o espectro de referência usado para

processar todo o conjunto de dados, e é a matriz residual, xcorr é a matriz com os

35

espectros corrigidos, b0e bref,1 são parâmetros escalares que variam de acordo com a

amostra (RINNAN et al., 2009). Os parâmetros b0 e bref,1 estimam os efeitos aditivos e

multiplicativos, respectivamente, enquanto o erro (ou matriz de resíduos) e pode ser

relacionado com as informações químicas. Caso haja a detecção e remoção de outliers

no conjunto de dados, o espectro médio (xref) mudará, e, consequentemente xcorr

também mudará, fazendo com que o MSC seja uma técnica que dependente do conjunto

de dados (DHANOA et al. 1994;FERNÁNDEZ-CABANÁS et al., 2007).

Diferentemente do MSC, SNV não necessita de um espectro de referência para a

obtenção dos espectros corrigidos. Essa transformação ocorre individualmente para cada

espectro do conjunto de dados de acordo com a equação 16:

𝒙𝒄𝒐𝒓𝒓 =𝒙𝒐𝒓𝒈 − 𝑎0

𝑎1

(16)

Em que a0 é o valor médio do espectro a ser corrigido e a1 é o desvio-padrão do

espectro de cada amostra.

A relação entre as os espectros corrigidos com MSC e SNV podem ser

resumidas na equação 15:

𝒙𝑴𝑺𝑪 ≈ 𝒙𝑺𝑵𝑽 ∙ �̅�𝑿 + �̿� (15)

Em que xMSCé a matriz dos espectros corrigidos com MSC, xSNV é a matriz dos espectros

corrigidos com SNV, �̅�𝑿 é a média do desvio padrão de todos os espectros brutos

(obtidos de xorg) e �̿� é a média geral de todos os espectros brutos.

Existem diversas outras técnicas de correção de dados. As derivadas também são

ferramentas matemáticas que podem ser utilizadas para corrigir efeitos de linha de base

além de evidenciar sinais que não estão muito visíveis. A derivada de Savitzky-Golay

(SG) (SAVITZKY, 1964) foi proposta em 1964 e é uma técnica bastante utilizada em

dados espectroscópicos, que, além de resolver os problemas de linha de base já

mencionados, também suaviza os espectros.

A normalização é outra técnica de pré-processamento muito utilizada. Ela segue a

Equação 16, porém, para a normalização, a0 é igual a 0 e a1 pode ser diferentes fatores,

dependendo do tipo de normalização que se deseja realizar. Geralmente, a1 é a soma

36

total dos valores absolutos dos elementos do vetor ou a raiz quadrada da soma dos

elementos (RINNAN et al., 2009).

Para centralizar os dados na média, é necessário subtrair o espectro médio das

amostras do espectro de cada uma das amostras. Essa técnica é capaz de facilitar a

visualização das diferenças relativas nas intensidades dos valores de

absorbância/refletância/transmitância de cada comprimento de onda (BEEBE et al.,

1998). Além dessas, outras ferramentas de pré-processamento estão dispostas na

literatura e podem ser utilizadas de acordo com o tipo de correção que se deseja fazer na

matriz de dados.

4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES

O uso de imagens hiperespectrais tem ganhado muitas aplicações na área forense.

Alguns trabalhos tem sido publicados utilizando análise dessas imagens para resolver

diferentes problemas de interesse polícial. Em 2007, Tahtouh et al (TAHTOUH et al.,

2007) publicaram um trabalho em que utilizaram imagens hiperespectrais na região do

infravermelho médio (HI-MIR) para melhorar a localização e obtenção de impressões

digitais. Os autores avaliaram diversos parâmetros para otimizar a aquisição das

imagens de impressões digitais que foram aplicadas sobre diferentes superfícies (vidros,

notas de $5 australianos, papel sulfite, fitas adesivas, latas de alumínio, etc.). Para cada

uma das superfícies selecionadas, os autores determinaram os melhores parâmetros

instrumentais de aquisição das imagens (como resolução espacial, resolução espectral,

número de varreduras, etc.) para a detecção das impressões e tiveram sucesso na

identificação das impressões em todas as superfícies usadas.

Edelman et al. (EDELMAN et al., 2012)utilizaram HI-NIR/vis para datação de

manchas de sangue em locais de crime. Nesse trabalho, os autores utilizaram uma

amostra de sangue colocada em uma superfície de algodão para criar um conjunto de

dados de referência. Essa amostra foi armazenada no laboratório à temperatura ambiente

e, a partir dela, foram obtidas imagens durante os 200 dias de armazenamento (uma vez

por mês após o primeiro mês de armazenamento e diariamente no primeiro mês). Os

dados foram pré-processados com SNV e um modelo não-linear de decomposição

espectral (non-linear spectral unmixing model) foi usado para estimar a idade absoluta

de manchas de sangue a partir das concentrações relativas de oxihemoglobina,

metahemoglobina e hemicromo. A idade relativa de manchas de sangue numa mesma

37

cena de crime também foi estimada usando análise de agrupamento por k-médias (k-

meansCluster Analysis). Ambas as abordagens foram bem sucedidas, e o erro relativo

na estimativa da idade absoluta das amostras de testes a partir da referência foi igual a

13,4%.

Schuler et al. (SCHULER et al., 2012)publicaram um trabalho avaliando o

potencial de HI-NIR na identificação de padrões de manchas de sangue em tecidos

pretos. As imagens obtidas foram normalizadas e, após a remoção do fundo (tecido),

uma PCA foi realizada para observar as diferenças relativas entre as manchas em cada

amostra e as imagens em cada comprimento de onda. A identificação das manchas de

sangue foram realizadas com sucesso, sendo diferenciadas das manchas de outras

substâncias.

Edelman et al. (EDELMAN et al., 2012)discutem, em um trabalho de revisão, o

potencial das imagens hiperespectrais para resolução de diferentes problemas no âmbito

forense. Entretanto, poucas aplicações na área de documentoscopia podem ser

encontrados quando se trata de imagens hiperespectrais. Geralmente os trabalhos que

envolvem análise de imagens para identificar fraudes em documentos avaliam imagens

em RGB ou outras escalas de cores (CMYK, HSB, HSL, L*a*b, etc).

Em 1982, Igoe e Reynolds (IGOE, 1982)propuseram uma metodologia para a

identificação da sequência de linhas em um cruzamento de traços. A primeira etapa é

baseada na aplicação de um papel fotográfico (KromeKote), que possui alta afinidade

com tintas, em cima do texto que se deseja analisar. Em seguida esse papel é

cuidadosamente removido e o registro do cruzamento inspecionado visualmente. Os

autores atestaram que a análise das margens dos traços pode fornecer informações

importantes sobre a sequência de duas linhas que se interceptam, de forma que, quando

a tinta é removida pelo papel, a continuidade das margens dos traços sugerem quais os

traços de tintas que estão por cima ou por baixo.

No mesmo ano, Godown (GODOWN, 1982) publicou um trabalho propondo duas

modificações para a técnica proposta de Igoe-Reynolds. A primeira consistindo no uso

de um papel adesivo para remover as tintas no documento analisado e a segunda

consistindo no uso de timol para melhorar a remoção dessas tintas, principalmente para

documentos mais antigos.

Os trabalhos de Igoe-Reynolds e Godown, entretanto, propõem técnicas

destrutivas de análise para abordar esse problema,o que é muito comum nos

departamentos de polícia.

38

Atualmente, os peritos podem utilizar novas tecnologias para tentar buscar

soluções mais eficientes para problemas antigos. O trabalho de Chaikovsky et al.

(CHAIKOVSKY et al., 2003)emprega programas de computador usuais de tratamento

de imagens para separar tintas de carimbos de tintas de canetas pela análise das imagens

obtidas, com câmeras fotográficas, das amostras de casos reais bastante específicos.

Utilizando determinadas funções automáticas do programa Adobe Photoshop®, os

autores do trabalho tentaram evidenciar assinaturas e textos que se encontravam

parcialmente ocultos pela presença de tintas de carimbos.Embora tenham sido bem

sucedidos na tentativa de separar diferentes tintas nas amostras analisadas utilizando

esta metodologia, a combinação dessas tarefas automáticas depende muito do caso

analisado. Ou seja, a combinação de tintas presentes na amostra analisada é que define

qual função do programa deve ser utilizada para tentar evidenciar a assinatura. Portanto,

apesar de ser uma metodologia simples e não destrutiva, o autor deixa claro que a

proposta do trabalho é servir como um guia, pois as amostras usadas possuem

combinações de cores específicas e a sequência de tratamentos das imagens não pode

ser generalizada para todas as amostras. Além disso, a amostragem dos autores não foi

representativa, e como a qualidade dos resultados depende muito da amostra analisada,

é preciso encontrar um método mais robusto para a solução deste tipo de problema.

Com o objetivo identificar a sequência das linhas numa interseção de traços feitos

com diferentes instrumentos gráficos, Bojkoet al. (BOJKO et al., 2008)adquiriram

imagens hiperespectrais na região do Infravermelho Médio (MIR) de

documentos,utilizando um microscópio com acessório de Refletância Total Atenuada

(micro-ATR). Diversas amostras foram produzidas com diferentes tipos e marcas de

canetas, além de impressoras a laser e a jato de tinta. As amostras produzidas pelos

autores do trabalho também foram preparadas sob diferentes condições (tempo de

armazenamento da amostra, pressão usada na elaboração do traço, etc.). Os autores só

conseguiram identificar a sequência de traços daquelas amostras produzidas a partir da

combinação de tintas de canetas esferográficas com tintas de impressora a laser (toner).

Todas as outras combinações de instrumentos gráficos utilizados para reproduzir as

amostras forneceram resultados insatisfatórios. As imagens obtidas do cruzamento de

traços de tintas de canetas esferográficas pretas e tintas de toner foram avaliadas apenas

em dois comprimentos de onda separadamente, um para cada instrumento gráfico, ou

seja, não houve tratamento dos espectros e nenhuma técnica quimiométrica foi aplicada

neste trabalho.

39

Berger (BERGER, 2013) propôs uma metodologia utilizando imagem RGB para

discriminar tintas de canetas esferográficas azuis em amostras que foram adulteradas

com uma caneta diferente da que foi usada para produzir o documento original.

Duzentas e sessenta e duas canetas esferográficas azuis foram usadas para produzir as

amostras.Cada uma das amostras produzidas foi preparada utilizando duas canetas

distintas. Uma delas era usada para escrever um número três vezes. Enquanto a outra era

usada para: escrever outro número por cima de um dos registros feitos com a primeira

caneta; colocar uma linha espiral por cima de outro número registrado com a primeira

caneta; e, por fim, usada para escrever um quarto número não sobreposto aos três

registrados com a primeira caneta. As amostras foram analisadas pela realização da

deconvolução das cores das tintas em que os parâmetros foram escolhidos a partir da

seleção de máscaras nos histogramas bidimensionais e a partir da técnica de SVM

(SVM: Support vector machines). A metodologia proposta conseguiu diferenciar as

tintas com sucesso, falhando apenas em três amostras diferentes.

Kaur et al. (KAUR et al., 2013) propuseram um método para avaliar a sequência

de linhas produzidas com diferentes instrumentos de escrita em um ponto de interseção.

Os autores utilizaram o programa de computador DocuCenter Expert (PIA-6000) para

avaliar os pontos de interseção de diversos documentos produzidos a partir de

combinações de diferentes instrumentos gráficos, como impressoras a laser, máquinas

de escrever, impressoras a base de jato de tinta, canetas do tipo esferográfica, gel e de

pena (de diversas cores). Utilizando funções específicas do programa, os autores

atestaram que a sequência das linhas numa interseção não pode ser identificada com o

programa selecionado. Linhas de instrumentos gráficos mais escuros geralmente

aparentam estar se sobrepondo à outra linha na interseção. As linhas produzidas com

tinta de impressoras a jato de tinta sempre parecem estar por baixo das linhas feitas com

os demais instrumentos gráficos. Além disso, cruzamentos realizados com instrumentos

cujas tintas apresentavam cores similares foram erroneamente identificados. O trabalho

evidencia a necessidade de uma metodologia eficaz para a solução desse tipo de

problema.

40

CAPÍTULO 2 Problema 1: Adulteração por adição de texto

41

1 CONTEXTUALIZAÇÃODO PROBLEMA

Um dos problemas de falsificação de documentos comum nos departamentos de

polícia é quando um documento é produzido com uma caneta e, posteriormente

adulterado. Modificação de valores em cheques, datas em atestados médicos ou

carteiras de trabalho são problemas que podem ser solucionados, caso seja possível

atestar que mais de uma caneta foi utilizada para produzir o documento. A Figura 10

exemplifica o problema estudado. Em todas as amostras, uma caneta foi utilizada para

registrar um valor e uma outra caneta foi utilizada para escrever os dois zeros antes da

vírgula.

(a)

(b)

(c)

(d)

(e)

Figura 10Exemplo das amostras preparadas para abordar o problema da adulteração por adição de texto.

Amostras (a) S1, (b) S2, (c) S3, (d) S4 e (e) S5.

O objetivo específico desta abordagem é avaliar o uso de HI-NIR e análise

multivariada de imagens para identificar a adulteração por adição de texto com uma

caneta diferente.

2 MATERIAIS E MÉTODOS

2.1 Amostras

Dez canetas pretas de diferentes tipos e marcas foram adquiridas em

estabelecimentos comerciais, sendo elas de 4 tipos diferentes: 6 marcas do tipo

esferográfica (E1, E2, E3, E4, E5 e E6), 2 marcas de canetas do tipo gel (G1 e G2), 1

marca de rollerball (RB1) e 1 marca de hidrográfica (H1). As marcas escolhidas foram

as mais comercializadas do mercado. As amostras foram produzidas em uma folha de

cheque para representar casos reais de falsificação.

42

Após uma inspeção visual de registros feitos com as dez canetas, foram

selecionadas aquelas com os mesmos tons de negro e o mesmo diâmetro de ponta. Isto

é, as amostras adulteradas foram produzidas apenas com as canetas que não são

diferenciadas com segurança por inspeção visual dos registros, resultando em 5

amostras. Na folha de cheque, uma caneta foi utilizada para escrever um valor que foi,

posteriormente, modificado utilizando uma outra caneta similar à primeira (Figura 10).

A tabela 1 mostra as combinações fornecidas pelas canetas adquiridas, obedecendo os

critérios mencionados.

Tabela 1Resumo das amostras do problema de adulteração por adição de texto.

Nome da

Amostra

Caneta 1 Caneta 2 O que foi escrito com cada

caneta

S1 E5 G2 20 ,00(1)

00 (2)

S2 E4 G2 70 ,00 (1)

00 (2)

S3 E4 G1 70 ,00 (1)

00 (2)

S4 E3 E4 30 ,00 (1)

00 (2)

S5 G1 G2 40 ,00 (1)

00 (2)

2.2 Aquisição de imagens

Uma Imagem Hiperespectral na região do Infravermelho Próximo (NIR-HI) foi

adquirida para cada amostra utilizando o sistema de imagem química SisuCHEMA da

Specim®. A faixa espectral utilizada foi de 928-2524 nm, com resolução espectral e

espacial de 6,3nm e 10µm, respectivamente. As imagens foram adquiridas com macro-

lentes e tamanho de pixel de 30x30 µm. O próprio equipamento realiza a calibração de

iluminação, obtendo referências de claro e escuro. O número de pixels varia de imagem

para imagem e a integridade das amostras foi completamente preservada durante toda a

aquisição dos dados espectrais.

2.3 Análise e Pré-Processamentode dados

As técnicas de pré-processamento SNV, MSC, 1ª e 2ª derivada de SG (polinômios

de 2ª e 3ª ordem com janelas de 7, 9 e 15 pontos) foram avaliadas. Em seguida, o

conjunto de dados foi submetido a uma PCA para tentar identificar se o documento foi

ou não produzido com mais de uma caneta. Todo o tratamento quimiométrico foi

realizado utilizando o Matlab® R2012a.

43

3 RESULTADOS E DISCUSSÃO

Utilizando os dados pré-processados, uma Análise de Componentes Principais foi

realizada com o conjunto de dados e as primeiras 10 componentes principais foram

obtidas. Na maioria das amostras, as informações mais importantes foram obtidas nas

primeiras PCs.

Para ilustrar os efeitos dos pré-processamentos, as amostras S1 e S3 serão tomadas

como exemplo. As Figuras 11, 12 e 13 mostram as comparações entre as imagens dos

escores obtidos a partir da PCA das imagens espectrais, com diferentes pré-

processamentos.

As duas primeiras componentes principais da amostra S1 processadas com SNV

(Figura 11a) conseguem representar a variabilidade entre os espectros da tinta da caneta

2 e do papel e da tinta da caneta 1 e o papel, respectivamente. É possível perceber que,

no caso da amostra S1, a técnica de MSC (Figura 11b) falhou e a PCA das imagens

processadas não foi capaz de identificar variabilidade significativa entre as tintas usadas

na amostra S1. Para os demais pré-processamentos, é possível identificar que os

registros foram realizados com duas canetas diferentes, embora usando PCs mais

elevadas.

Em compensação, para a amostra S3, é possível perceber que a correção feita por

MSC (Figura 11d) forneceu imagens de escores da PCA satisfatórias, em que é possível

identificar o número produzido com a caneta 1. Entretanto, os resultados obtidos a partir

da PCA para os dados pré-processados com SNV (Figura 11c) ainda foram melhores do

que os obtidos com MSC. Os resultados obtidos com as derivadas para a amostra S1

mostraram bons resultados para as imagens dos escores da PCA (Figura 12), porém para

a amostra S3 (Figura 13) as imagens dos escores fornecidas mostraram uma perda de

informação que ocorreu também para as demais amostras.

44

Amostra S1

(a)

(b)

Amostra S3

(c)

(d)

Figura 11Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1 realizadas com as

técnicas de pré-processamento (a) SNV e (b) MSC; e para a amostra S3, também com as técnicas de (d)

SNV e (e) MSC.

PC 1

-40

-20

0

PC 2

-30

-20

-10

0

SNV

PC 3

-10

-5

0

5

10

PC 4

0

5

10

PC 5

-4

-2

0

2

PC 6

-2

0

2

4

PC 7

-2

0

2

4

PC 8

-2

-1

0

1

2

PC 9

-2

-1

0

1

2

PC 10

-2

0

2

PC 1

-4

-2

0

x 104 PC 2

-1000

-500

0

500

MSC

PC 3

-400

-200

0

200

PC 4

-200

0

200

PC 5

-300

-200

-100

0

100

PC 6

0

100

200

PC 7

0

100

200

PC 8

-100

-50

0

50

PC 9

-50

0

50

PC 10

-50

0

50

100

PC 1

-20

-15

-10

-5

0

PC 2

-15

-10

-5

0

5

SNV

PC 3

-1

0

1

2

PC 4

-1

0

1

2

PC 5

0

2

4

PC 6

-2

-1

0

1

PC 7

-1

0

1

PC 8

-1

0

1

PC 9

-1

0

1

PC 10

-1

0

1

2

PC 1

-3

-2

-1

0

PC 2

-2

-1

0

MSC

PC 3

-0.1

0

0.1

PC 4

-0.6

-0.4

-0.2

0

PC 5

0

0.2

0.4

0.6

0.8

PC 6

-0.1

-0.05

0

0.05

0.1

PC 7

-0.1

-0.05

0

0.05

0.1

PC 8

-0.2

-0.1

0

0.1PC 9

-0.1

-0.05

0

0.05

0.1

PC 10

-0.1

0

0.1

45

(a)

(b)

(c)

(d)

(e)

(f)


técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos;

(b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e)

9 pontos; (f) 15 pontos.

PC 1

-0.2

0

0.2

0.4

PC 2

-1.5

-1

-0.5

0

1ª DERIVADA (J7 P3)

PC 3

-0.1

0

0.1

0.2

PC 4

-0.05

0

0.05

0.1

PC 5

-0.05

0

0.05

PC 6

-0.05

0

0.05

PC 7

-0.06

-0.04

-0.02

0

0.02

0.04

PC 8

-0.02

0

0.02

PC 9

-0.04

-0.02

0

0.02

PC 10

-0.02

0

0.02

0.04

PC 1

-0.4

-0.2

0

PC 2

-1

-0.5

0


PC 3

-0.05

0

0.05

0.1

PC 4

-0.05

0

0.05

PC 5

-0.05

0

0.05

PC 6

-0.04

-0.02

0

0.02

PC 7

-0.02

0

0.02

PC 8

-0.02

-0.01

0

0.01

0.02

PC 9

-0.02

0

0.02

PC 10

-0.02

-0.01

0

0.01

0.02

PC 1

-0.4

-0.2

0

PC 2

-0.2

0

0.2

0.4

1 ª DERIVADA (J15 P3)

PC 3

-0.02

0

0.02

0.04

0.06

PC 4

-0.04

-0.02

0

0.02

0.04

PC 5

-0.02

-0.01

0

0.01

0.02

PC 6

-0.02

-0.01

0

0.01

0.02

PC 7

-0.01

0

0.01

PC 8

-0.02

-0.01

0

0.01

0.02

PC 9

-0.01

0

0.01

PC 10

-0.01

0

0.01

PC 1

0

0.5

1

PC 2

-0.2

-0.1

0


PC 3

-0.05

0

0.05

PC 4

-0.05

0

0.05

PC 5

-0.02

0

0.02

PC 6

-0.02

-0.01

0

0.01

0.02

PC 7

-0.01

0

0.01

0.02

PC 8

-0.01

0

0.01

0.02PC 9

-0.01

0

0.01

PC 10

-0.01

0

0.01

PC 1

-0.2

0

0.2

0.4

0.6

PC 2

-0.1

-0.05

0


PC 3

-0.02

0

0.02

PC 4

-0.02

-0.01

0

0.01

PC 5

-0.01

0

0.01

PC 6

-0.01

0

0.01PC 7

-5

0

5

x 10-3 PC 8

-0.01

-0.005

0

0.005

0.01

PC 9

-5

0

5

x 10-3 PC 10

-5

0

5

x 10-3

PC 1

0

0.1

0.2

0.3

PC 2

-0.01

0

0.01

0.02


PC 3

-0.02

0

0.02

0.04

PC 4

-5

0

5

x 10-3 PC 5

-4

-2

0

2

4

x 10-3

PC 6

-2

0

2

x 10-3 PC 7

-4

-2

0

2

x 10-3 PC 8

-2

0

2

4x 10

-3 PC 9

-2

0

2

x 10-3 PC 10

-2

0

2

x 10-3

46

(a)

(b)

(c)

(d)

(e)

(f)


técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos;

(b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e)

9 pontos; (f) 15 pontos.

PC 1

-0.1

0

0.1

0.2

PC 2

-0.15

-0.1

-0.05

0

0.05

1ªDERIVADA S.G. (J7 P3)

PC 3

-0.05

0

0.05

0.1

0.15

PC 4

-0.05

0

0.05

PC 5

-0.05

0

0.05

PC 6

-0.02

0

0.02

PC 7

-0.02

0

0.02

PC 8

-0.02

-0.01

0

0.01

0.02

PC 9

-0.02

-0.01

0

0.01

0.02

PC 10

-0.02

-0.01

0

0.01

0.02

PC 1

-0.1

0

0.1

PC 2

0

0.05

0.1

0.15

0.2

1ª DERIVADA S.G. (J9 P3)

PC 3

-0.04

-0.02

0

0.02

0.04

PC 4

-0.04

-0.02

0

0.02

0.04

PC 5

-0.02

0

0.02

PC 6

-0.02

0

0.02

0.04

PC 7

-0.02

-0.01

0

0.01

0.02

PC 8

-0.02

-0.01

0

0.01

PC 9

-0.01

0

0.01

0.02

PC 10

-0.01

0

0.01

PC 1

-0.1

-0.05

0

0.05

0.1PC 2

-0.15

-0.1

-0.05

0

1ª DERIVADA S.G. (J15 P3)

PC 3

-0.02

0

0.02

0.04

PC 4

-0.02

-0.01

0

0.01

0.02

PC 5

-0.01

0

0.01

0.02

PC 6

-0.01

0

0.01

PC 7

-0.01

0

0.01

PC 8

-0.01

0

0.01

PC 9

-0.01

0

0.01

PC 10

-0.01

0

0.01

PC 1

-0.2

-0.1

0

0.1

PC 2

-0.04

-0.02

0

0.02

0.04


PC 3

-0.02

0

0.02

PC 4

-0.06

-0.04

-0.02

0

0.02

PC 5

-0.01

0

0.01

PC 6

-0.01

-0.005

0

0.005

0.01

PC 7

-0.01

-0.005

0

0.005

0.01

PC 8

-0.01

-0.005

0

0.005

0.01

PC 9

-0.01

-0.005

0

0.005

0.01

PC 10

-0.01

-0.005

0

0.005

0.01

PC 1

-0.1

-0.05

0

0.05

0.1

PC 2

-0.02

-0.01

0

0.01

0.02

0.03


PC 3

-0.04

-0.02

0

PC 4

-5

0

5

x 10-3 PC 5

-5

0

5

x 10-3

PC 6

-5

0

5

x 10-3 PC 7

-5

0

5

x 10-3 PC 8

-5

0

5

x 10-3 PC 9

-5

0

5

x 10-3 PC 10

-5

0

5

x 10-3PC 1

-0.04

-0.02

0

0.02

0.04

0.06

0.08PC 2

-0.01

0

0.01


PC 3

-5

0

5

10

x 10-3 PC 4

-5

0

5

x 10-3 PC 5

-2

0

2

x 10-3

PC 6

-2

0

2

x 10-3 PC 7

-2

0

2

x 10-3 PC 8

-2

0

2

x 10-3 PC 9

-2

0

2

x 10-3 PC 10

-2

-1

0

1

2

x 10-3

47

Assim como ilustrado para o caso das amostras S1 e S3, o pré-processamento por

SNV também se mostrou o mais adequado para as outras amostras.

Na Figura 14 estão apresentados os espectros médios brutos (14a) e pré-

processados por SNV (14b) das tintas das canetas 1 e 2 (sobre o papel) e do papel para a

amostra S1. Os espectros da amostra em questão mostram que, neste caso, há uma

grande variabilidade entre os espectros da tinta da caneta 2 e dos demais componentes.

A tinta da caneta 2 é significativamente diferente do papel e da tinta da caneta 1, como é

possível observar nas Figuras 14a e14b.

(a)

(b)

Figura 14 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a

amostra S1; (b) Espectros médios pré-processados do papel (azul), das tintas das canetas 1(verde) e 2

(vermelho) para a amostra S1.

928 1237 1551 1864 2176 25240

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Comprimento de onda (nm)

Refletâ

ncia

Papel

Caneta 1

Caneta 2

928 1237 1551 1864 2176 2524-6

-5

-4

-3

-2

-1

0

1

2

3

4


Valo

res c

orr

igid

os c

om

MS

C

Papel

Caneta 1

Caneta 2

48

A PC1 (Figura 11a) mostra que os valores altos e baixos dos escores estão

associados com as informações do papel e da tinta da caneta 2, respectivamente. É

possível observar, no gráfico dos pesos (Figura 15), a região espectral que explica essa

variabilidade. Observando os espectros corrigidos com SNV (Figura 14b), vê-se

claramente que a maior variabilidade entre os espectros da tinta da caneta 2 e do papel

realmente correspondem à região com altos valores no gráfico dos pesos da respectiva

PC.

No gráfico dos espectros médios corrigidos com SNV (Figura 14b), vê-se que a

região espectral que representa a segunda maior variabilidade dos dados (mostrada na

PC2 Figura 11a) está associada com as diferenças entre os espectros das canetas 1 e 2.

Essa região está evidenciada no gráfico dos pesos da PC2 da Figura 15.

Figura 15 Gráficos dos pesos para a amostra S1 pré-processada com SNV.

Analisando os gráficos mostrados na Figura 16 e fazendo a comparação com as

imagens dos escores da Figura 11c, podemos observar que os valores negativos dos

escores na PC1 estão associados com a variabilidade espectral da tinta da caneta 1,

evidenciada no gráfico dos pesos (Figura 17). Nota-se que, a região de maior

variabilidade espectral sugerida pelo gráfico dos pesos corresponde à faixa de 928-1237

nm que, no gráfico dos espectros processados (Figura 16b), diferencia a caneta 1 dos

demais componentes.

928 1237 1551 1864 2176 2524-0.1

0

0.1

0.2

0.3PC 1

928 1237 1551 1864 2176 2524-0.2

-0.1

0

0.1

0.2PC 2

928 1237 1551 1864 2176 2524-0.2

0

0.2

0.4

0.6PC 3

928 1237 1551 1864 2176 2524-0.5

0

0.5

1PC 4

928 1237 1551 1864 2176 2524-1

-0.5

0

0.5PC 5

49

Já no gráfico dos pesos da PC5 (Figura 17), observa-se os valores negativos dos

pesos, que correspondem à região espectral de 2176-2524 nm mostra uma pequena

variabilidade entre os espectros dos três componentes (Figura 16b), e pode ser

observada na imagem dos escores da PC5 (Figura 11c).

Seguindo a mesma linha de raciocínio, é possível observar que na PC5 da Figura

11c é evidenciada alguma informação sobre a tinta da caneta 2, cujas regiões espectrais

mais importantes podem ser visualizadas no gráfico dos pesos (Figura 17).

(a)

(b)

Figura 16 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a

amostra S3; (b) Espectros médios pré-processados do papel (azul), das tintas das canetas 1(verde) e 2

(vermelho) para a amostra S3.

928 1237 1551 1864 2176 25240.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4


Refletâ

ncia

Papel

Caneta 1

Caneta 2

928 1237 1551 1864 2176 2524-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

3


Valo

res c

orr

igid

os c

om

SN

V

Papel

Caneta 1

Caneta 2

50

Figura 17Gráficos dos pesos para a amostra S3 pré-processada com SNV.

A Figura 18 mostra as imagens dos escores de duas componentes principais (mais

informativas com relação à adulteração estudada) das cinco amostras. As duas primeiras

componentes da amostra S1 (combinação das canetas G2 e E5) são capazes de fornecer

as informações necessárias para diferenciar as duas canetas (Figura 18a). Observa-se

que enquanto PC1 explica a variabilidade entre a caneta G2 e o papel, a PC2 é capaz de

fornecer informações que estão relacionadas com as diferenças entre os espectros de E5

e G2. Neste caso, é possível atestar, claramente, que duas canetas diferentes foram

utilizadas para produzir o documento em questão. O mesmo comportamento pode ser

observado para a amostra S2 (Figura 18b), em que as PCs 1 e 3 são capazes de

evidenciar variabilidade dos dados das canetas usadas (E4 e G2).

928 1237 1551 1864 2176 2524-0.2

-0.1

0

0.1

0.2

0.3

PC 1

928 1237 1551 1864 2176 2524-0.1

0

0.1

0.2

0.3

0.4

PC 2

928 1237 1551 1864 2176 2524-1

-0.5

0

0.5

PC 3

928 1237 1551 1864 2176 2524-1

-0.5

0

0.5

1

PC 4

928 1237 1551 1864 2176 2524-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

PC 5

51

(a) (b)

S1

S2

(c) (d)

S3

S4

(e)

S5

Figura 18Imagens dos escores das PCs de três diferentes amostras; (a) PC1 e PC2 da amostra S1; (b)

PC1 e PC3 da amostra S2; (c) PC1 e PC5 da amostra S3; (d) PC2 e PC8 da amostra S4 e (e) PC1 e PC4

da amostra S5.

As informações contidas na PC1 da amostra S3 (Figura 18c) estão altamente

relacionadas com a variabilidade entre os espectros da tinta da caneta E4 e o espectro do

PC 1

-50

-40

-30

-20

-10

0

PC 2

-30

-25

-20

-15

-10

-5

0

5

PC 1

-50

-40

-30

-20

-10

0

10

PC 3

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

PC 1

-20

-15

-10

-5

0

PC 5

-1

0

1

2

3

4

5

PC 2

-2

0

2

4

6

8

10

12

14

PC 8

-1.5

-1

-0.5

0

0.5

1

1.5

2

PC 1

-10

0

10

20

30

40

50

PC 4

-4

-2

0

2

4

6

52

papel. A tinta da caneta G1, usada para produzir os dois zeros do meio do texto, mal

pode ser visualizada na PC1. As informações relativas a essa caneta estão contidas

principalmente na PC5, que mostra a pequena variabilidade entre as informações

espectrais da tinta de G1 e o papel. Essa diferença não é muito clara devido à grande

similaridade entre os espectros do papel e da tinta da caneta E4.

A imagem dos escores da amostra S4 (Figura 18d) é capaz de resolver bem a caneta

2 (E4) na PC2 e, observando atentamente, é possível identificar alguma informações

relacionadas com a caneta 1 (E3) apenas na PC8. É importante saber que enquanto todas

as demais canetas são de tipos e/ou marcas diferentes, E3 e E4, além de serem ambas

esferográficas, pertencem a mesma marca e só se diferenciam pelo modelo. No caso da

amostra S5, as imagens dos scores da PC1 e PC4 (Figura 18e) permitem distinguir que

os registros foram realizados com diferentes canetas na produção da amostra.

A grande dificuldade de obter espectros de tintas em uma superfície a base de papel

por refletância na região do infravermelho é devido à alta absorção da celulose nesta

região. O que ocorre é que a alta absorção dos compostos de celulose superpõem o

espectro da tinta, fazendo com que esta última não possua um espectro claramente

diferenciado dos componentes de celulose (TAHTOUH et al., 2007). O espectro da

caneta G2 sobre o papel, entretanto, é bem diferente do espectro papel e das demais

canetas. Assim, quando essa caneta é empregada, o registro efetuado é evidenciado na

imagens dos escores de PC1.

O ponto interessante desta abordagem é que as tintas empregadas para a produção

de detalhes e caracteres impressos na matriz dos cheques quase não podem ser

percebidas nas PCs. Além disso, as tintas impressas podem ser separadas das tintas das

canetas por simples PCA, contribuindo para que a PCA seja capaz de fornecer um meio

eficaz para identificar se houve acréscimo de caracteres em um determinado documento

(com caneta distinta da empregada para produzir os registros originais), com o intuito de

alterar documentos.

4 CONCLUSÃO

Dentre as técnicas de pré-processamento utilizadas para corrigir variações

indesejadas no conjunto de dados, SNV apresentou os melhores resultados quando

associados a PCA. Todas as amostras utilizadas na análise foram identificadas com

53

sucesso e a PCA das imagens foi capaz de discriminar com clareza pelo menos uma das

duas canetas utilizadas na produção das amostras que simularam um problema de fraude

por adição de texto.

54

CAPÍTULO 3 Problema 2: Adulteração por obliteração

55

1 CONTEXTUALIZAÇÃODO PROBLEMA

Outro problema muito comum nos departamentos de polícia ocorrem quando o

indivíduo utiliza uma caneta para ocultar uma informação previamente registrada em

um documento. Este tipo de adulteração é denominada falsificação por obliteração. A

Figura 19 mostra um exemplo das amostras preparadas para simular esse tipo de

problema.

(a) (b)

Figura 19Exemplos de amostras que abordam o problema de falsificação por obliteração; em (a) uma

caneta (caneta 1, por exemplo) foi usada para escrever um texto que foi oculto pela caneta 2; em (b) a

caneta 2 foi usada para escrever um pequeno texto que foi oculto pela caneta 1.

O objetivo específico dessa abordagem é avaliar a utilização de análise por

componentes principais associada HI-NIR para identificar o texto que foi oculto.


2.1 Amostras

As 10 canetas pretas mencionadas na subseção2.1 do capítulo 2 foram usadas

para produzir o conjunto de amostras usadas para avaliar a abordagem de falsificação

por obliteração. Cada caneta foi utilizada para escrever um pequeno texto em 9 pedaços

de papel sulfite tamanho A4, provenientes do mesmo lote, enquanto que as outras

canetas foram utilizadas para ocultar o texto previamente escrito através de sobrecarga

(Figura 19), resultando em 90 amostras. A ocultação foi realizada uma semana depois

da escrita do texto, para que a mistura entre as tintas fosse minimizada.

2.2 Aquisição das imagens

As imagens das amostras produzidas para simular adulterações por obliteração

foram adquiridas conforme já descrito no item2.2 do Capítulo 2.

2.3 Análise e Pré-processamento de dados

Diversas técnicas de pré-processamento foram testadas no conjunto de dados. As

técnicas SNV, MSC, 1ª e 2ª derivadas de SG (polinômios de 2ª e 3ª com janelas de 7, 9

56

e 15 pontos) foram avaliadas. Em seguida, o conjunto de dados foi submetido a uma

PCA para tentar identificar o texto escrito. Apenas a PCA foi utilizada para avaliar as

amostras para esta abordagem, pois as técnicas de resolução disponíveis não são

aplicáveis para solucionar este tipo de problema, pois, em geral, exigem um

conhecimento prévio dos espectros dos componentes da amostra.Todo o tratamento

quimiométrico foi realizado utilizando o Matlab® R2012a.


Após os pré-processamentos dos dados, foi realizada uma PCA para cada uma das

90 amostras e as 10 primeiras PCs foram obtidas. A Figura 20 mostra a PCA realizada

com diferentes técnicas de pré-processamento para uma amostra que será tomada como

exemplo. É possível perceber, de imediato, a perda de informação relativa às tintas das

canetas, quando o conjunto de dados é submetido aos algoritmos derivativos (Figuras

20c-20h). Comparando os resultados obtidos para SNV e MSC, é possível perceber que,

apesar de ambos fornecerem informações relativas à tinta, os gráficos dos escores para

os dados processados com MSC não mostram claramente a sobrecarga. Observa-se

ainda que a informação relacionada à sobrecarga na amostra só é evidente na PC8

(Figura 20b), enquanto para SNV é possível observá-la na PC2 (Figura 20a).

57

(a) SNV

(b) MSC

(c) 1ª DERIVADA S.G. (J7 P3)

(d) 1ª DERIVADA S.G. (J9 P3)

(e) 1ª DERIVADA S.G. (J15 P3)

(f) 2ª DERIVADA S.G. (J7 P3)

(g) 2ª DERIVADA S.G. (J9 P3)

(h) 2ª DERIVADA S.G. (J15 P3)

Figura 20Imagens dos escores das 2 PCs mais informativas realizadas para a amostra E2_1 com as

técnicas de pré-processamento (a) SNV; (b) MSC; (c) 1ª derivada de S.G. com janela de 7 pontos e

polinômio de 3ª ordem; (d) 1ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (e) 1ª

derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem; (f) 2ª derivada de S.G. com janela de

7 pontos e polinômio de 3ª ordem; (g) 2ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª

ordem; (h) 2ª derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem.

PC 1

-2

-1

0

1

2

3

4

5

6

7

8

PC 2

-2

-1

0

1

2

3

4

PC 2

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

PC 8

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

PC 1

-0.2

0

0.2

0.4

0.6

0.8

PC 5

-0.08

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

PC 3

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

PC 5

-0.04

-0.02

0

0.02

0.04

0.06

PC 2

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

PC 4

-0.05

-0.04

-0.03

-0.02

-0.01

0

0.01

0.02

0.03

PC 2

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

PC 4

-0.04

-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

PC 1

-0.35

-0.3

-0.25

-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

PC 3

-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

PC 3

-6

-4

-2

0

2

4

6

8

10

12

14

x 10-3 PC 4

-6

-4

-2

0

2

4

6

8

10

x 10-3

58

Assim como mostrado no caso da amostra E2_1, para todas as outras amostras,

SNV foi a técnica de pré-processamento que melhor evidenciou os textos ocultos.

A Figura 21a mostra os espectros médios brutos obtidos em regiões onde se

encontrava o texto acrescido da sobrecarga, bem como onde só se encontrava o papel,

para a amostra E2_1. Na Figura 21b, são mostrados os espectros pré-processados por

SNV. O gráfico dos pesos das duas primeiras componentes é apresentado na Figura 22.

Na Figura 20a, pode-se observar que a PC1 explica a maior variabilidade entre o papel e

a tinta da caneta usada para escrever o texto. Já a PC2 da Figura 20a mostra,

basicamente, a variabilidade entre a sobrecarga e o papel. No gráfico dos pesos, ficam

evidenciadas as regiões espectrais mais importantes para esta distinção(Figura 22).

(a)

(b)

Figura 21 (a) Espectros médios do papel (azul), e de uma região contendo carga e caneta (vermelho) para

a amostra E2_1; (b) Espectros médios pré-processados com SNV do papel (azul), e de uma região

contendo carga e caneta (vermelho) para a amostra E2_1;

59

Figura 22Gráficos dos pesos para a amostra E2_1 pré-processada com SNV.

Na Figura 23, são apresentados os resultados da PCA obtidos para três amostras

com comportamentos distintos, tomados como exemplo. Na primeira coluna, é possível

observar a imagem visível e as imagens dos escores das duas primeiras PCs (Figura

23a) para a amostra com a combinação das canetas G2 e E5 (G2 foi usada para escrever

o texto e a sobrecarga foi produzida com a caneta E5). É possível observar, claramente,

o texto que foi oculto pela caneta E5, pois a PC1 mostra a variabilidade entre a o

espectro da caneta G2 e o espectro do papel. Já a PC2 explica, basicamente, a

variabilidade entre os espectros das canetas G2 e E5. Desta forma, é possível não só

observar o texto que foi oculto, mas também a sobrecarga.

Na segunda coluna, é possível observar a imagem visível da amostra produzida a

partir da combinação das canetas E2 e E3 (Figura 23b). Nesta amostra, a caneta E2 foi

usada para escrever o texto enquanto a caneta E3 foi usada para ocultá-lo. A imagem

dos escores da PC1 explica a variabilidade entre o espectro de E2 e do papel, permitindo

a visualização do texto que foi oculto. Já a PC2, contém informações sobre a tinta usada

para produzir a carga.

Na terceira coluna, é possível observar a imagem visível da amostra E1_1, na qual a

caneta E1 foi usada para escrever o texto oculto por G2 (Figura 23c), além da PC1 e da

PC2. Neste caso, nenhuma das 10 componentes foram capazes de diferenciar a caneta

usada para escrever o texto (E1) da caneta usada para ocultá-lo (G2) nem do papel.

938 1237 1551 1864 2176 2524-0.1

-0.05

0

0.05

0.1

0.15

0.2

0.25


PC1

938 1237 1551 1864 2176 2524-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2


PC2

60

(a) IMAGEM VISÍVEL (b) IMAGEM VISÍVEL (c) IMAGEM VISÍVEL

PC1 (G2 + E5) PC1 (E2+E3) PC1 (E1+G2)

PC2 (G2 + E5) PC2 (E2+E3) PC2 (E1+G2)

Figura 23Imagem dos escores das duas primeiras PCs de três amostras diferentes; (a) na 1ª coluna E5

foi usada para esconder o texto feito com G2 (amostra G2_5); (b) na 2ª coluna, E2 é usada para

escrever o texto ocultado por E3 (amostra E2_1); (c) na coluna 3, E1 é usada para escrever o texto

oculto por G2 (E1_1).

A tabela 2 resume os resultados obtidos na análise de todas as amostras para esta

abordagem. Com um V verde estão as combinações em que foram possíveis identificar

o texto em pelo menos uma das 10 PCs. Com um X vermelho, estão representadas as

combinações que não foram identificadas e em cinza, as combinações produzidas com a

mesma caneta (não foram produzidas amostras).

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

G2

PC

1

G2

PC

2

E2

PC

1

E2

PC

2

E1

PC

1

E1

PC

2

-20

020

40

-202468

020

40

-10

010

20

-2024

-10

010

20

61

Tabela 2Resumo de resultados para o problema de obliteração.

Os textos de 39 das 90 amostras foram identificados com sucesso. Quando três

marcas de canetas esferográficas (E1, E3 e E6), a caneta rollerball (RB1) e a

hidrográfica foram usadas para escrever o texto, não foi possível identificá-los em

nenhuma das 10 PCs. Para as amostras produzidas com as canetas G2 e E5, os textos

foram identificados com sucesso independentemente da caneta usada para acrescentar

carga.

4 CONCLUSÃO

A comparação das imagens dos escores das PCs do conjunto de dados tratados

com diferentes técnicas de pré-processamento mostrou que os dados tratados com SNV

forneceram os melhores resultados. Das 90 amostras produzidas a partir da combinação

das 10 canetas descritas no item 2.1 do capítulo 2, foi possível identificar o texto oculto

de 39, evidenciando que uma análise de componentes principais nas imagens NIR pode

auxiliar na identificação desse tipo de adulteração em documentos.

62

CAPÍTULO 4 Problema 3: Cruzamento de traços

63

1 CONTEXTUALIZAÇÃO DO PROBLEMA

O terceiro e último problema abordado neste trabalho também é comum aos peritos

da documentoscopia – o cruzamento de traços. Muitas vezes, termos adicionais e novas

cláusulas podem ser adicionados a documentos oficiais sem o conhecimento do

signatário. Assim, é preciso saber se o texto impresso (com toner, por exemplo) está

disposto acima ou abaixo da linha da tinta da caneta usada para assinar o documento. A

Figura 24 ilustra este caso, em que há dois registros de cruzamento de traços produzidos

por uma mesma caneta e impressora a toner. Em uma situação (Figura 24a) a linha da

caneta (vertical) está por cima da linha do toner (horizontal). No outro caso (Figura

24b), a linha de toner (vertical) está por cima da linha da caneta (horizontal).

(a)

(b)

Figura 24Exemplo das amostras para o problema do cruzamento de traços. Duas linhas se cruzando,

feitas com a mesma caneta e o mesmo toner, em (a) a linha da tinta (vertical) está por cima da linha do

toner (horizontal); em (b) a linha de toner (vertical) está por cima da linha da caneta (horizontal).

Portanto, o objetivo específico dessa abordagem é identificar a sequência de

registro no ponto de interseção entre o traço registrado com a caneta e a traço registrado

com o toner.


2.1 Amostras

Duas impressoras diferentes (identificadas por toner 1 e toner 2)foram usadas para

produzir as linhas de toner nas amostras. Cada caneta foi utilizada para produzir duas

amostras. Cada amostra consiste em um cruzamento de traços realizado com uma linha

produzida com uma das 10 canetas descritas no item 2.1 do capítulo 2 e a outra linha

impressa com uma impressora a laser (toner). Em uma das duas amostras, a linha da

tinta da caneta foi registrada depois da impressão da linha com toner (tinta sobre toner)

e na outra amostra, a linha da tinta da caneta foi registrada antes da impressão da linha

200 400 600 800 1000 1200

100

200

300

400

500

600

700

800

900 200 400 600 800 1000 1200

100

200

300

400

500

600

700

800

900

64

do toner (toner sobre tinta). Assim, foram produzidas 40 amostras semelhantes às

mostradas pela Figura 24, sendo 20 pares utilizando as dez canetas com os dois tipos de

toner. Em todas as amostras, a linha que sobrepõe a outra foi produzida uma semana

depois da primeira, de forma que a mistura de tintas no ponto de interseção fosse

minimizada.

2.2 Aquisição das imagens

As imagens foram adquiridas conforme já descrito noitem 2.2 do capítulo

2.Apenas a região de interseção das linhas foi avaliada, isolando esta região da imagem

original utilizando o Matlab.

2.3 Análise e Pré-Processamento de dados

SNV, MSC, derivadas de SG (polinômios de 3ª ordem com janelas de 7, 9 e 15

pontos) e autoescalonamento foram as técnicas avaliadas para o pré-processamento dos

dados. Foram obtidos espectros de referência da tinta, toner e papel, a partir dos

espectros médios dos pixels de uma região da amostra contendo apenas tinta em papel,

toner no papel e papel.

Um modelo PLS-DA foi construído com os dados pré-processados como

ferramenta de seleção de variáveis, com o objetivo de facilitar a separação dos

componentes da amostra (papel, tinta e toner). Três regiões de cada amostra contendo

apenas papel, apenas tinta e apenas toner foram usadas para a construção do modelo

PLS-DA. Em seguida, usando os coeficientes de regressão e os pesos das variáveis

latentes, os valores de refletância das variáveis selecionadas foram usados como

entradas no algoritmo MCR-ALS. Os mapas de concentração dos componentes foram

obtidos para cada amostra com o objetivo de identificar a sequência dos instrumentos

gráficos usados para produzir o cruzamento de traços, ou seja, para saber se a linha da

tinta foi feita antes da linha do toner (possível fraude) ou depois.


Os espectros médios do papel, toner e tinta de caneta estão apresentados na Figura

25. É possível perceber, de imediato, a grande diferença entre o espectro do toner e os

espectros do papel e da tinta da caneta. Como discutido no capítulo 2, compostos de

celulose apresentam altas absorções na região do infravermelho e, portanto, o espectro

do papel, geralmente sobrepõe o espectro da tinta, fazendo com que o espectro desta

65

última não seja facilmente discriminado do espectro do papel, daí a necessidade da

utilização de técnicas quimiométricas para realizar a identificação de cada um dos

componentes.

Para o pré-processamento do conjunto de dados, as técnicas SNV, MSC utilizando

a média dos espectros como referência e o autoescalonamento não forneceram bons

resultados. Isso ocorreu porque, como os espectros do papel e da tinta são muito

similares, as técnicas de resolução usadas para analisar os espectros pré-processados

com SNV, MSC e o autoescalonamento mostraram uma ambiguidade na resolução dos

componentes. Isto é, muitas vezes a tinta era identificada como sendo papel e vice-

versa. Além disso, como o espectro do toner é muito diferente do espectro da tinta e do

papel (Figura 25), qualquer técnica que utilize uma média de espectros de toda a

amostra irá fornecer uma perda na informação da tinta e do papel, uma vez que o

espectro do toner possui altos valores de refletância na região do NIR. O melhor

resultado na etapa de pré-processamento foi obtido com o MSC usando o espectro da

tinta na amostra como espectro de referência. O uso desse espectro como referência é

importante para enfatizar a informação da tinta no conjunto de dados e facilitar sua

diferenciação do espectro do papel.

Figura 25Espectros do papel (azul), os espectros do toner (vermelho) e tinta da caneta E4 (verde)

registrados sobre papel.

Com o conjunto de dados pré-processados, foi construído um modelo PLS-DA para

realizar a seleção das variáveis mais importantes. Para isso, três diferentes regiões da

928 1237 1551 1864 2176 25240.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9


Refletâ

ncia

Papel

Tinta (E4)

Toner

66

amostra – quadrados de 20x10 pixels – contendo apenas papel, tinta e toner,

respectivamente, foram usados para construir um modelo utilizando 4 variáveis latentes

(LV). Na Figura 26, são apresentadas as previsões de classificação dos pixels de cada

um dos componentes (papel, tinta e toner) usados na construção do modelo para quatro

amostras diferentes, produzidas com 4 canetas diferentes. É possível notar que o toner

não é um problema no processo de modelagem, pois seu espectro realmente difere da

tinta e do papel. Entretanto algumas tintas de canetas se confundem bastante com o

papel (ver amostras 2.1 e 7.1 na Figura 26). Essa similaridade entre os espectros do

papel e da tinta da caneta varia de acordo com a marca e o tipo.

Figura 26Previsão para 4 amostras diferentes preparadas com diferentes canetas. As barras azuis

mostram a previsão para os pixels que contém apenas papel, as barras em verde para a tinta e as barras em

vermelho, para o toner.

Avaliando os gráficos dos pesos (Figura 27), foi possível identificar as variáveis

mais relevantes. Pode-se observar que a 2ª e a 3ª LV fornecem as informações mais

importantes, umas vez que a 1ª LV está relacionada com os valores médios, pois os

dados não foram centrados na média. Assim, foram selecionados os comprimentos de

onda mais relevantes, cujos pesos apresentaram os maiores e os menores valores. Para

67

garantir que variáveis irrelevantes não foram selecionadas, os coeficientes de regressão

do modelo PLS-DA foram também avaliados. Variáveis diferentes foram selecionadas

para cada amostra, uma vez que um modelo PLS-DA foi construído para cada uma

delas.

Figura 27Gráficos dos pesos das 4 LV do PLS-DA para a amostra 1.1. A 1ª LV está relacionada com o

valor médio dos espectros, enquanto a 2ª e a 3ª LV fornecem informações relevantes e a 4ª LV é,

basicamente, ruído.

Os valores de refletância das variáveis selecionadas foram usados como entradas no

MCR-ALS. As restrições de não-negatividade para concentração e para a direção

espectral foram adotadas. A partir dos resultados do MCR-ALS foi possível obter os

mapas de concentração para cada componente da amostra (papel, tinta e toner). A

Figura 28 mostra os mapas de concentração para dois pares de amostras. As amostras

1.1 e 1.2 foram produzidas com a mesma caneta e mesmo toner, na amostra 1.1, a linha

da caneta está por cima do toner e na amostra 1.2 a linha da caneta está abaixo da linha

do toner. O mesmo procedimento foi utilizado para produzir as amostras 5.1 e 5.2,

entrretanto, uma caneta diferente foi usada na combinação.

Na Figura 28, os pixels vermelhos representam os valores altos da concentração

relativa para cada componente, enquanto os pixels azuis representam baixas

concentrações daquele mesmo composto na região da amostra. Isto é, para cada amostra

tem-se 3 mapas de distribuição, cada um representando a quantidade relativa de um dos

1017 1325 1639 1951 2263 24870

0.02

0.04

0.06

0.08LV 1

Comprimento de onda (nm)1017 1325 1639 1951 2263 2487

-0.15

-0.1

-0.05

0

0.05

0.1LV 2


1017 1325 1639 1951 2263 2487-0.1

0

0.1

0.2

0.3LV 3

Comprimento de onda (nm)1017 1325 1639 1951 2263 2487

-0.4

-0.2

0

0.2

0.4LV 4


68

3 componentes da amostra (toner, tinta e papel). As três imagens da primeira linha na

Figura 28 mostram os mapas de distribuição do papel (esquerda), tinta (meio) e toner

(direita) obtidos após a modelagem MCR-ALS para a amostra 1.1 (linha da tinta sobre

linha do toner). É possível perceber que os mapas de distribuição podem, facilmente,

diferenciar os componentes nas amostras, uma vez que nos 4 mapas de distribuição do

papel, as concentrações mais baixas de papel estão associadas à região onde há presença

de toner e tinta. Da mesma forma, os mapas de distribuição da tinta e do toner mostram

altas concentrações apenas onde há tinta e toner, respectivamente.

Quando a linha da tinta está abaixo da linha do toner, é possível perceber uma

descontinuidade (ou gap) no ponto de interseção nos mapas de distribuição do toner

(ver mapas de distribuição do toner para as amostras 1.2 e 5.2 na Figura 28). Quando a

linha da tinta está sobre a linha do toner, não é possível observar este gap (ver mapas de

distribuição do toner para as amostras 1.1 e 5.1 na Figura 28). Dos 20 pares de amostras

analisadas, 17 apresentaram este mesmo comportamento.

Figura 28Mapas de distribuição para dois pares de amostras. A colunas 1, 2 e 3 mostram os mapas de

distribuição do papel, da tinta e do toner, respectivamente. A amostra 1.1 (1ª linha), 1.2 (2ª linha), 5.1 (3ª

linha) e 5.2 (4ª linha). Nas amostras 1.1 e 5.1 a linha da tinta está por cima do toner e nas amostras 1.2 e

5.2, a linha da tinta está por baixo da linha do toner.

69

Essa presença da descontinuidade deve-se ao fato de que a superfície do papel é

muito importante para a deposição do toner. Assim, quando o toner é depositado numa

superfície previamente modificada pela presença da tinta, a quantidade e distribuição do

toner muda, permitindo a visualização do gap na linha do toner. Como o toner possui

altos valores de refletância na região do NIR, quando a linha produzida como toner está

abaixo da tinta, não é possível observar o gap, pois o espectro de refletância do toner

encobre o espectro da tinta, e este último não pode ser diferenciado do toner. Em dois

casos (dois pares de amostras feitas com a mesma caneta – do tipo hidrográfica, marca

H1 – e com os dois tipos de toner) não foi possível identificar a tinta utilizando as

técnicas escolhidas. Também não foi possível a visualização da descontinuidade na

linha do toner. As duas primeiras linhas da Figura 29 mostram os mapas de distribuição

para um par de amostras preparadas com a caneta hidrográfica (H1) e o toner 1. Foi

possível perceber que o mapa de distribuição do toner não mostra a descontinuidade

esperada na amostra 4.2 (em que a linha da tinta está por baixo do toner). Neste caso, o

MCR-ALS também não foi capaz de identificar a tinta da caneta (ver mapas de

distribuição da tinta para as amostras 4.1 e 4.2 na Figura 29). O outro caso que

apresentou falhas na identificação está exposto nas linhas 3 e 4 da Figura 29 (amostras

8.1 e 8.2), em que foi possível observar que, apesar do MCR-ALS ser capaz de

distinguir cada um dos compostos da amostra (e facilmente identificar a tinta da caneta),

uma descontinuidade é observada no mapa de distribuição do toner independentemente

da sequência das linhas. Isto é, mesmo quando a tinta desta caneta (marca G2) está

acima da linha do toner, é possível observar uma descontinuidade. Contudo, a maior

parte das amostras foi identificada com sucesso. Dezessete pares dos vinte produzidos

mostraram o mesmo comportamento. Para aplicações forenses, este tipo de análise pode

ser bastante útil, uma vez que a presença da descontinuidade na linha do toner no mapa

de distribuição do toner sugere que o texto escrito com a caneta foi realizado antes da

impressão da linha, indicando uma possível fraude.

70

Figura 29Mapas de distribuição para dois pares de amostras. Amostra 4.1 a tinta está sobre a linha do

toner; a amostra 4.2 a tinta está por baixo da linha do toner; as amostras 8.1 e 8.2 foram preparadas com

a mesma marca de caneta gel (G2), porém na amostra 8.1 a linha da tinta está por cima do toner e na

amostra 8.2, está por baixo.

A tabela 3 resume os resultados obtidos para cada par de amostras analisadas. Os

pares utilizando as canetas esferográficas, a rollerball e uma das duas marcas da gel

foram corretamente identificados. Apenas a caneta hidrográfica e uma das marcas da

caneta gel apresentaram problemas na identificação.

Tabela 3Resumo dos resultados para o problema de cruzamento de traços. Marcado com um X estão as

amostras que a sequência das linhas não pôde ser identificada com sucesso e, em V, as que puderam ser

identificadas.

71

4 CONCLUSÃO

O pré-processamento MSC utilizando a tinta da caneta como referência apresentou-

se como a melhor técnica para eliminar as informações irrelevantes no conjunto de

dados, enfatizando a informação espectral associada aos espectros das tintas das

canetas. PLS-DA foi utilizado com sucesso como ferramenta de seleção de variáveis

para selecionar a região espectral mais informativa e usá-la como entrada no MCR-

ALS. A partir da análise dos mapas de distribuição obtidos para cada amostra, foi

possível perceber uma descontinuidade (ou gap) no ponto de interseção no mapa de

distribuição do toner quando a linha da tinta da caneta está abaixo da linha do toner.

Quando a linha da tinta está sobre a linha do toner, não é possível observar este gap. A

presença dessa descontinuidade deve-se ao fato de que quando o toner é depositado

numa superfície previamente modificada pela presença da tinta, a quantidade e a

distribuição do toner mudam, permitindo a visualização do gap na linha do toner. Dos

20 pares de amostras analisados, 17 deles apresentaram o comportamento esperado,

podendo identificar a descontinuidade na interseção das amostras em que a linha do

toner foi impressa por cima da linha da tinta.

De qualquer maneira, a metodologia proposta mostrou um bom potencial na

identificação da sequência de linhas em um cruzamento de traços, mostrando que o uso

de HI-NIR associadas a técnicas quimiométricas pode ser bastante útil na identificação

de fraudes em documentos.

72

CAPÍTULO 5 Considerações finais

73

1 CONCLUSÕES GERAIS

É possível observar que, para todos os casos abordados, a alta absorção de

celulose na região do infravermelho próximo faz com que o espectro do papel se

sobreponha ao espectro da tinta, sendo difícil diferenciá-los em muitos casos. A

dificuldade de diferenciação do papel e da tinta depende do tipo e da marca da caneta,

pois a composição de cada tinta está diretamente relacionada com o fabricante. Por

exemplo, o espectro da caneta G2 é significativamente diferente do espectro do papel e

das demais canetas. Porntanto, no caso de adulteração por adição de texto e por

obliteração, essa caneta é facilmente observada nas imagens dos escores, possibilitando

identificar uma possível falsificação com a mesma. Por outro lado, no caso do

cruzamento de traços, a presença da caneta G2 leva a uma descontinuidade no

cruzamento, independente da sua posição (amostras 8.1 e 8.2 da Figura 29).

Para cada um dos casos tratados, as mesmas técnicas de pré-processamento

avaliadas apresentaram diferentes resultados. Portanto, tem-se a necessidade de

selecionar o pré-processamento mais adequado para o tipo de problema abordado. De

uma forma geral, SNV foi mais eficiente na questão de adulterações por adição de texto

e obliteração e MSC (usando como referência o espectro da tinta sobre o papel)

mostrou-se mais adequada para a identificação da ordem de registro no cruzamento de

traços.

Não só a seleção do melhor pré-processamento é importante, mas também o tipo

técnica de análise que se deve escolher para responder ao problema de interesse. Por

exemplo, no caso dos problemas de fraudes por adição de texto e obliteração, a questão

imposta pelo analista está relacionada com o uso de duas tintas diferentes na produção

de um mesmo documento. Assim, a Análise de Componentes Principais foi selecionada

para responder essa questão, uma vez que essa é uma técnica que busca a variabilidade

natural do conjunto de dados e pode ajudar na identificação de diferentes componentes

de uma amostra de composição desconhecida.

Para o problema do cruzamento de traços, a técnica de MCR-ALS e PLS-DA

(como ferramenta para seleção de variáveis) são mais apropriadas para responder a

questão imposta pelo analista. Nessa abordagem, a dúvida está associada à sequência de

linhas no ponto de interseção, ou seja, deseja-se saber se a linha da tinta da caneta está

por cima ou por baixo da linha do toner (se o texto foi escrito depois ou antes da

74

impressão, respectivamente). Neste caso, a informação sobre a quantidade relativa dos

componentes foi importante na solução da questão, pois, nos casos em que a tinta estava

abaixo do toner, a presença de uma descontinuidade no ponto de interseção pôde ser

vista e essa descontinuidade está diretamente associada com a quantidade de toner

depositada naquele ponto.

Na abordagem sobre falsificação por adição de texto, todas as amostras avaliadas

foram identificadas com sucesso e a PCA das imagens foi capaz de discriminar com

clareza pelo menos uma das duas canetas utilizadas na produção das amostras que

simularam essa fraude.

Para o problema de adulterações por obliteração, das 90 amostras produzidas a

partir da combinação das 10 canetas, foi possível identificar nas imagens dos escores o

texto oculto de 39. Os textos produzidos com as canetas E1, E3, E6, RB1 e H1 (três

marcas de canetas esferográficas, a caneta rollerball e a hidrográfica) não foram

identificados em nenhuma das 10 PCs calculadas. Para as amostras produzidas com as

canetas G2 (gel) e E5 (esferográfica), os textos foram identificados com sucesso

independentemente da caneta usada para acrescentar carga.

Na questão do cruzamento de traços, utilizando-se MCR-ALS, uma

descontinuidade (ou gap) no ponto de interseção nos mapas de distribuição do toner

pôde ser observada nas amostras em que a linha da tinta está abaixo da linha do toner.

Dos 20 pares de amostras analisadas, 17 deles apresentaram o comportamento esperado,

podendo identificar com clareza a ordem dos registros.

Os resultados obtidos para os três problemas abordadosdemonstram o potencial

das HI-NIR associadas a técnicas quimiométricas para auxiliar na solução de problemas

da documentoscopia.

2 PERSPECTIVAS FUTURAS

Estudos posteriores são necessários para propor metodologias cada vez mais

eficientes e independentes da habilidade e experiência do analista, fazendo com que

essas análises tornem-se menos subjetivas e mais eficazes. É possível ampliar o

conjunto inicial de canetas aumentando as possibilidades de combinações, usando

canetas de diferentes tipos (caneta de pena, ponta de feltro, etc.) e explorar diferentes

75

marcas dos tipos de canetas que apresentaram falhas nas análises, como a caneta

hidrográfica e rollerball. Para a abordagem do cruzamento de traços, também é possível

ampliar o conjunto de amostras utilizando impressoras a jato de tinta e outras marcas de

toner. Para todos os casos, diferentes técnicas quimiométricas podem ser exploradas

para tornar as análises cada vez mais eficazes.

76

REFERÊNCIAS

ADAM, C. D.; SHERRATT, S. L.; ZHOLOBENKO, V. L. Classification and

individualization of black ballpoint pen inks using principal component analysis of UV-

vis absorption spectra. Forensic science international, v. 174, n. 1, p. 16–25, 2008.

AMIGO, J. M.; RAVN, C. Direct quantification and distribution assessment of major

and minor components in pharmaceutical tablets by NIR-chemical imaging. European

journal of pharmaceutical sciences : official journal of the European Federation

for Pharmaceutical Sciences, v. 37, n. 2, p. 76–82, 2009.

BEEBE, K. R.; PELL, R. J.; SEASHOLTZ, M. B. Chemometrics: a practical guide.

New York: Wiley-Interscience, 1998.

BELLON-MAUREL, V.; DUBOIS, J. Near - Infrared Hyperspectral Imaging in Food

and Agricultural Science. In: R. Salzer; H. W. Siesler (Eds.); Infrared and Raman

Spectroscopic Imaging. p.259–294, 2009. Weinheim: WILEY-VCH.

BERGER, C. E. H. Objective ink color comparison through image processing and

machine learning. Science & justice : journal of the Forensic Science Society, v. 53,

n. 1, p. 55–59, 2013.

BOJKO, K.; ROUX, C.; REEDY, B. J. An examination of the sequence of intersecting

lines using attenuated total reflectance-Fourier transform infrared spectral imaging.

Journal of forensic sciences, v. 53, n. 6, p. 1458–1467, 2008.

BRERETON, R. G. Pattern Recognition. Chemometrics: Data Analysis for the

Laboratory and Chemical Plant. v. 8, p.183–270, 2003. Bristol: John Wiley & Sons.

BRUNELLE, R. L.; CRAWFORD, K. R. Advances in the Forensic Analysis and

Dating of Writing Ink. Charles C Thomas Pub Ltd, 2003.

BRUNS, R.; FAIGLE, J. F. G. Quimiometria. Química Nova, p. 84–99, 1985.

CHAIKOVSKY, A.; BROWN, S.; DAVID, L. S.; BALMAN, A.; BARZOVSKI, A.

Color Separation of Signature and Stamp Inks to Facilitate Handwriting Examination.

Journal of forensic sciences, v. 48, n. 6, p. 1396–1405, 2003.

CRUZ, J.; BAUTISTA, M.; AMIGO, J. M.; BLANCO, M. Nir-chemical imaging study

of acetylsalicylic acid in commercial tablets. Talanta, v. 80, n. 2, p. 473–478, 2009.

CRUZ, J.; BLANCO, M. Content uniformity studies in tablets by NIR-CI. Journal of

pharmaceutical and biomedical analysis, v. 56, n. 2, p. 408–412, 2011.

DHANOA, M. S.; LISTER, S.; SANDERSON, R.; BARNES, R. J. The link between

Multiplicative Scatter Correction (MSC) and Standard Normal Variate (SNV)

transformations of NIR. Near Infrared Spectroscopy, v. 2, p. 43–47, 1994.

77

DUCHESNE, C.; LIU, J. J.; MACGREGOR, J. F. Multivariate image analysis in the

process industries: A review. Chemometrics and Intelligent Laboratory Systems, v.

117, p. 116–128, 2012.

EDELMAN, G. J.; GASTON, E.; VAN LEEUWEN, T. G.; CULLEN, P. J.;

AALDERS, M. C. G. Hyperspectral imaging for non-contact analysis of forensic traces.

Forensic science international, v. 223, n. 1-3, p. 28–39, 2012.

EDELMAN, G.; VAN LEEUWEN, T. G.; AALDERS, M. C. G. Hyperspectral imaging

for the age estimation of blood stains at the crime scene. Forensic science

international, v. 223, n. 1-3, p. 72–77, 2012.

ELLISON, C. D.; ENNIS, B. J.; HAMAD, M. L.; LYON, R. C. Measuring the

distribution of density and tabletting force in pharmaceutical tablets by chemical

imaging. Journal of pharmaceutical and biomedical analysis, v. 48, n. 1, p. 1–7,

2008.

ESBENSEN, K.; GELADI, P. Strategy of multivariate image analysis (MIA).

Chemometrics and Intelligent Laboratory Systems, v. 7, n. 1-2, p. 67–86, 1989.

FEARN, T.; RICCIOLI, C.; GARRIDO-VARO, A.; GUERRERO-GINEL, J. E. On the

geometry of SNV and MSC. Chemometrics and Intelligent Laboratory Systems, v.

96, n. 1, p. 22–26, 2009.

FERNÁNDEZ-CABANÁS, V. M.; GARRIDO-VARO, A.; OLMO, J. G.; DE PEDRO,

E.; DARDENNE, P. Optimisation of the spectral pre-treatments used for Iberian pig fat

NIR calibrations. Chemometrics and Intelligent Laboratory Systems, v. 87, p. 104–

112, 2007.

GELADI, P. Analysis of Multi-Way Data.Chemometrics and Intelligent Laboratory

Systems, v. 7, p. 11–30, 1989.

GELADI, P.; GRAHN, H. F.; BURGER, J. E. Multivariate Images, Hyperspectral

Imaging: Background and equipment. In: P. . GELADI; H. F. GRAHN (Eds.);

Techniques and Applications of Hyperspectral Image Analysis. p.1–15, 2007. John

Wiley & Sins Ltd.

GELADI, P.; ISAKSSON, H.; LINDQVIST, L.; WOLD, S.; ESBENSEN, K. Principal

component analysis of multivariate images. Chemometrics and Intelligent

Laboratory Systems, v. 5, n. 3, p. 209–220, 1989.

GELADI, P.; KOWALSKI, B. R. Partial least-squares regression: a tutorial. Analytica

Chimica Acta, v. 185, p. 1–17, 1986.

GELADI, P.; MACDOUGALL, D.; MARTENS, H. Linearization and Scatter-

Correction for Near-Infrared Reflectance Spectra of Meat. Applied Spectroscopy, v.

39, n. 3, p. 491–500, 1985.

GODOWN, L. Recent Developments in Writing Sequence Determination. Forensic

Science International, v. 20, p. 227–232, 1982.

78

IGOE, T. J.; REYNOLDS, B. L. A Lifting Process For Determining The Writing

Sequence Of Two Intersecting Ball-Point Pen Strokes.Forensic Science International,

v. 20, p. 201–205, 1982.

JAUMOT, J.; GARGALLO, R.; DE JUAN, A.; TAULER, R. A graphical user-friendly

interface for MCR-ALS: a new tool for multivariate curve resolution in MATLAB.

Chemometrics and Intelligent Laboratory Systems, v. 76, n. 1, p. 101–110, 2005.

DE JUAN, A.; TAULER, R. Chemometrics applied to unravel multicomponent

processes and mixtures. Analytica Chimica Acta, v. 500, n. 1-2, p. 195–210, 2003.

DE JUAN, A; MAEDER, M; HANCEWICZ, T; DUPONCHEL, L; TAULER, R.

Chemometrics tools for image analysis. In: H. W. SALZER, R.; SIESLER (Ed.);

Infrared and Raman Spectroscopic Imaging. p.65–106, 2009. Inglaterra: WILEY-

VCH.

KALIVAS, J. H.; GEMPERLINE, P. J. Calibration. In: P. GEMPERLINE (Ed.);

Practical Guide to Chemometrics. 2nd ed., p.105–165, 2006. Boca Raton: Taylor &

Francis Group.

KAUR, R.; SAINI, K.; SOOD, N. C. Sequencing the intersections of printed strokes

with writing instrument strokes using DocuCentre expert (PIA 6000-EDF). Science &

justice : journal of the Forensic Science Society, v. 53, n. 2, p. 206–211, 2013.

KEENAN, M. R. Multivariate Analysis of Spectral Images Composed of Count Data.

In: H. Grahn; P. Geladi (Eds.); Techniques and Applications of Hyperspectral Image

Analysis. p.89–126, 2007. West Sussex: John Wiley & Sons.

KHER, A.; MULHOLLAND, M.; GREEN, E.; REEDY, B. Forensic classification of

ballpoint pen inks using high performance liquid chromatography and infrared

spectroscopy with principal components analysis and linear discriminant analysis.

Vibrational Spectroscopy, v. 40, n. 2, p. 270–277, 2006.

MARTENS, H.; JENSEN, S. A.; GELADI, P. Multivariate linearity transformations for

near infrared reflectance spectroscopy. In: O. H. J. Christie (Ed.); Proc. Nordic Symp.

Applied Statistics. p.205–234, 1983. Stavanger: Stokkand Forlag.

MEHL, P. M.; CHEN, Y.-R.; KIM, M. S.; CHAN, D. E. Development of hyperspectral

imaging technique for the detection of apple surface defects and contaminations.

Journal of Food Engineering, v. 61, n. 1, p. 67–81, 2004.

MILLER, C. E. Chemometrics in Process Analytical. In: K. A. Bakeev (Ed.); Process

Analytical Technology: Spectroscopic Tools and Implementation Strategies for the

Chemical and Pharmaceutical Industries. p.226–328, 2005. Oxford: Wiley-

Blackwell.

PASQUINI, C. Near infrared spectroscopy: Fundamentals, practical aspects and

analytical applications. Journal of the Brazilian Chemical Society, v. 14, n. 2, p. 198–

219, 2003.

79

PIQUERAS, S.; DUPONCHEL, L.; TAULER, R.; DE JUAN, A. Resolution and

segmentation of hyperspectral biomedical images by multivariate curve resolution-

alternating least squares. Analytica chimica acta, v. 705, n. 1-2, p. 182–92, 2011.

PRATS-MONTALBÁN, J. M.; JEREZ-ROZO, J. I.; ROMAÑACH, R. J.; FERRER, A.

MIA and NIR Chemical Imaging for pharmaceutical product characterization.

Chemometrics and Intelligent Laboratory Systems, v. 117, p. 240–249, 2012.

PRATS-MONTALBÁN, J. M.; DE JUAN, A.; FERRER, A. Multivariate image

analysis: A review with applications. Chemometrics and Intelligent Laboratory

Systems, v. 107, n. 1, p. 1–23, 2011.

RINNAN, Å.; BERG, F. VAN DEN; ENGELSEN, S. B. Review of the most common

pre-processing techniques for near-infrared spectra. TrAC Trends in Analytical

Chemistry, v. 28, n. 10, p. 1201–1222, 2009.

RUXTON, K.; ROBERTSON, G.; MILLER, W.; MALCOLM, G. P. A.; MAKER, G.

T. Mid-infrared hyperspectral imaging for the detection of explosive compounds. (C.

Lewis &D. Burgess, Eds.), v. 8546, p. 85460V–85460V–9, 2012. Disponível em:

<http://proceedings.spiedigitallibrary.org/proceeding.aspx?articleid=1388187>. Acesso

em: 30/7/2013.

SAVITZKY, A.; GOLAY, M. Smoothing + differentiation of data by simplified least

squares procedures. Analytical Chemistry, v. 36, n. 8, p. 16-27, 1964.

SCHULER, R. L.; KISH, P. E.; PLESE, C. A. Preliminary observations on the ability of

hyperspectral imaging to provide detection and visualization of bloodstain patterns on

black fabrics. Journal of forensic sciences, v. 57, n. 6, p. 1562–1569, 2012.

SILVA, C. S.; BORBA, F. D. S. L.; PIMENTEL, M. F.; et al. Classification of blue pen

ink using infrared spectroscopy and linear discriminant analysis. Microchemical

Journal, v. 109, p. 122–127, 2013.

SILVERSTEIN, R. M.; WEBSTER, F. X.; KIEMLE, D. J. Spectrometric

Identification of Organic Compounds. 7th ed. Danvers: John Wiley & Sons, 2005.

SKOOG, D. A.; HOLLER, F. J.; CROUCH, S. R. Principles of Instrumental

Analysis. Brooks Cole, 2006.

SKOOG, D. A.; WEST, D. M.; HOLLER, F. J.; CROUCH, S. R. Fundamentos de

Química Analítica. 8a ed. São Paulo, 2005.

TAHTOUH, M.; DESPLAND, P.; SHIMMON, R.; KALMAN, J. R.; REEDY, B. J.

The application of infrared chemical imaging to the detection and enhancement of latent

fingerprints: method optimization and further findings. Journal of forensic sciences, v.

52, n. 5, p. 1089–1096, 2007.

TAHTOUH, M.; SCOTT, S. A; KALMAN, J. R.; REEDY, B. J. Four novel alkyl 2-

cyanoacylate monomers and their use in latent fingermark detection by mid-infrared

spectral imaging. Forensic science international, v. 207, n. 1-3, p. 223–238, 2011.

80

TAULER, R. Simultaneous analysis of several spectroscopictitrations with self-

modelling curve resolution. Chemometrics and Intelligent Laboratory Systems, v.

18, p. 293-300, 1993.

TAULER, R. Multivariate curve resolution applied to second order data.

Chemometrics and Intelligent Laboratory Systems, v. 30, n. 1, p. 133–146, 1995.

TAULER, R. Calculation of maximum and minimum band boundaries of feasible

solutions for species profiles obtained by multivariate curve resolution. Journal of

Chemometrics, v.15, September 2000, p. 627–646, 2001.

THANASOULIAS, N. C.; PARISIS, N. A.; EVMIRIDIS, N. P. Multivariate

chemometrics for the forensic discrimination of blue ball-point pen inks based on their

Vis spectra. Forensic Science International, v. 138, p. 75–84, 2003.

WOLD, S. Pattern recognition by means of disjoint principal components models.

Pattern Recognition, v. 8, n. 3, p. 127–139, 1976.

WOLD, S. PLS-regression: a basic tool of chemometrics. Chemometrics and

Intelligent Laboratory Systems, v. 58, n. 2, p. 109–130, 2001.

USO DE IMAGENS HIPERESPECTRAIS NA REGIÃO DO …‡… · Ao professor Dr. Célio Pasquini pelas contribuições significativas. Às alunas de iniciação científica, Laís França

Documents