UNIVERSIDADE DE CAXIAS DO SUL – UCS CAMPUS UNIVERSITÁRIO DA REGIÃO DOS VINHEDOS – CARVI CENTRO DE CIÊNCIAS EXATAS DA NATUREZA E DE TECNOLOGIA – CENT ENGENHARIA ELÉTRICA ALEX DE SOUZA DESENVOLVIMENTO E VALIDAÇÃO DE ESTEGANOGRAFIA EM ÁUDIO COM UTILIZAÇÃO DA TRANSFORMADA DE HARTLEY BENTO GONÇALVES 2013
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDADE DE CAXIAS DO SUL – UCS
CAMPUS UNIVERSITÁRIO DA REGIÃO DOS VINHEDOS – CARVI
CENTRO DE CIÊNCIAS EXATAS DA NATUREZA E DE TECNOLOGIA – CENT
ENGENHARIA ELÉTRICA
ALEX DE SOUZA
DESENVOLVIMENTO E VALIDAÇÃO DE ESTEGANOGRAFIA EM ÁUDIO COM
UTILIZAÇÃO DA TRANSFORMADA DE HARTLEY
BENTO GONÇALVES
2013
ALEX DE SOUZA
DESENVOLVIMENTO E VALIDAÇÃO DE ESTEGANOGRAFIA EM ÁUDIO COM
UTILIZAÇÃO DA TRANSFORMADA DE HARTLEY
Trabalho de Conclusão do curso de graduação em Engenharia Elétrica, apresentado ao Centro de Ciências Exatas, da Natureza e de Tecnologia Da Universidade de Caxias do Sul Como requisito parcial para obtenção do título de Engenheiro Eletricista.
Orientador: Prof. Me. Ricardo Becker
BENTO GONÇALVES
2013
ALEX DE SOUZA
DESENVOLVIMENTO E VALIDAÇÃO DE ESTEGANOGRAFIA EM ÁUDIO COM
UTILIZAÇÃO DA TRANSFORMADA DE HARTLEY
Trabalho de Conclusão do curso de graduação em Engenharia Elétrica, apresentado ao Centro de Ciências Exatas, da Natureza e de Tecnologia Da Universidade de Caxias do Sul Como requisito parcial para obtenção do título de Engenheiro Eletricista.
Aprovado em_____de_______________de_______,
BANCA EXAMINADORA
_____________________________________
Prof. Dra. Marilda Spindola - UCS
_____________________________________
Prof. Me. Ricardo Balbinot - UCS
_____________________________________
Prof. Me. Ricardo Becker – UCS
AGRADECIMENTOS
Agradeço primeiramente a Deus, por ter chego até aqui!
Agradeço ao Professor Ricardo Becker, por ter sido um grande incentivador
deste trabalho, me apoiando até a sua conclusão.
A minha família e minha noiva, pois participaram de todos os momentos, os
bons e inclusive os ruins, porém, sempre presentes me apoiando e demonstrando
apoio, e retribuo afirmando: “- Aqui estamos”.
Aos meus grandes amigos: Israel Schimitz dos Santos, Leonardo Cechet
Moro, Felipe A. Tondo, Diego C. Borsato, Daniel Costi, Mailson Forest, Luciano
Salerno, Marcelo Zanetti, Carlos A. Mattoso Pereira., Henrique Berselli, Fernando
Rigon, e tantos outros que compõem uma grande lista! Amizades que nasceram no
decorrer da caminhada pela graduação e que desejo que perdure por muito tempo
após o término desta primeira etapa.
RESUMO
O presente trabalho apresenta o uso da Transformada de Hartley como uma nova ferramenta para a esteganografia em mídias de áudio, sendo aplicada a um algoritmo de ocultação e extração de informação. O algoritmo será desenvolvido com o software de modelamento matemático MatLab. Esta aplicação se resume na inserção de texto em mídias de áudio, no domínio da frequência pela Transformada Discreta de Hartley, com o método de esteganografia do bit menos significativo (LSB). Para a validação do algoritmo, serão aplicados métodos de análise subjetiva e correlação entre o arquivo original e o estenografado. Também é realizada uma validação da transformada discreta de Hartley por associações com a transformada discreta de Fourier.
Ao início do trabalho é apresentada a revisão bibliográfica com o conteúdo para a compreensão da aplicação, seguida da descrição das ferramentas e o método utilizado. Por fim, os resultados com as avaliações subjetivas, a conclusão e sugestões para trabalhos posteriores.
Palavras chave: Matlab, Esteganografia, Transformada Discreta de Hartley, Análise
Subjetiva.
ABSTRACT
This work presents the use of the Hartley Transform as a new tool for steganography in audio media, being applied to a blind algorithm and information extraction. The algorithm will be developed with the software MatLab mathematical modeling. This application consists on inserting a text in audio media, in the frequency domain by using Discrete Hartley Transform, steganography method with the least significant bit. To validate the algorithm, one will apply methods and subjective correlations between the original file and the one with the hidden data. As well as validating the discrete Hartley transform associations involving discrete Fourier transform.
At the beginning of the work, one presents the literature review for understanding the contents of the application, according to the description of the tools and the used methods. Finally, the results of the subjective evaluations, the conclusion and suggestions for further work.
2.2.1 Terminologia da Esteganografia ......................................................................................................... 18
2.2.2 Técnicas de Esteganografia Digital ..................................................................................................... 19
2.2.3 Técnicas de Esteganografia em Áudio ................................................................................................. 19
2.2.3.1 Inserção no bit Menos Significativo (LSB) ..................................................................................................... 22
2.2.3.2 Codificação em Fase ..................................................................................................................................... 23
2.2.3.4 Ocultação de Dados pelo Eco........................................................................................................................ 25
2.3 TRANSFORMAÇÃO DE DOMÍNIO ................................................................. 26
2.3.1 Transformada de Fourier ..................................................................................................................... 26
2.4.2 Transformada Discreta de Hartley ...................................................................................................... 27
2.5 AVALIAÇÃO DA QUALIDADE DA VOZ ........................................................... 29
3. DESENVOLVIMENTO ................................................................................................................................... 34
Tabela 18 - Análise subjetiva com método CCR, para aplicação de dois diferentes níveis de
inserção de sinal e alternando entre o 7º e o 8º bit. respectiva a segunda avaliação subjetiva. 67
Tabela 19 - Avaliação subjetiva de comparação, com áudio original, Utilizando a técnica
deste trabalho de esteganografia com FHT, e LSB normal (aplicado no domínio do tempo). . 68
LISTA DE ABREVIATURAS E SIGLAS
ACR Absolute Category Rating
ASCII Ameriican Standard Code for Incormation Interchange (Código Padrão
Americano para o Intercâmbio de Informação)
BIT Binary Digit (Dígito Binário)
CCR Comparison Category Rating
CMOS Comparative Mean Opinion Score
DB Decibél
DCT Discrete Cosseno Transform
DFT Discrete Fourier Transform
DHT Discrete Hartley Transform
DSSS Direct Sequence Spread Spectrum
FFT Fast Fourier Transform
FHSS Frequency Hopping Spread Spectrum
FHT Fast Hartley Transform
ITU International Telecommunication Union
LSB Least Signicant bit (Bit Menos Significativo)
MATLAB Matrix Laboratóry
MOS Mean Oponion Score (Nota Média de Opinião)
MSB Most Significant bit (Bit Mais Significativo)
PCM Pulse-code Modulation
SAH System Human Audition
SS Spread Spectrum
WAVE Wave Form áudio format
14
1. INTRODUÇÃO
A segurança digital é uma área com grande potencial para pesquisa e para o
desenvolvimento. Tem se tornado cada vez maior o número de pessoas que tentam,
a todo custo, ludibriar as defesas para ter acesso à informação digital. Por outro
lado, existe outro grupo de pessoas que buscam o desenvolvimento e o estudo de
técnicas para a proteção das comunicações digitais. As ferramentas e técnicas que
promovem a segurança da informação são inúmeras e a criptografia está entre elas
(JULIO, BRAZIL e ALBUQUERQUE, 2007).
Um dos ramos da criptografia é a esteganografia. Esteganografia deriva do
grego, de onde estegano é o mesmo que esconder ou mascarar, e grafia o mesmo
que escrita. Assim, esteganografia é a arte da escrita encoberta (POPA, 1998).
Esta técnica é utilizada para inserir mensagens secretas em arquivos
aparentemente inofensivos, de forma que previna sua detecção por parte de
terceiros.
Há outras áreas em que a esteganografia digital se aplica. Citando duas,
podem ser destacados os estudos referentes às ferramentas de copyright e
watermarking de documentos eletrônicos. À medida que aumenta a quantidade de
cópias não autorizadas pela rede mundial de computadores, novos meios de
proteção intelectual são desenvolvidos com o intuito de conter as cópias não
autorizadas.
A esteganografia também inclui vasta aplicação para ocultar mensagens e,
dentre elas e ao qual este trabalho aborda, está a esteganografia em arquivos de
áudio.
Segundo Bender (1996), as características do Sistema Auditivo Humano
(SAH) tornam o processo de ocultação de dados desafiador, sendo necessário
explorar as fragilidades de sua estrutura para obter êxito na ocultação de uma
mensagem em um arquivo de áudio digital.
Neste trabalho serão descritos quatro métodos esteganográficos voltados a
mídias de áudio, com o intuito de prover um embasamento teórico para que o leitor
15
possa compreender as aplicações onde a esteganografia está presente, e, inclusive
a deste trabalho.
1.1 OBJETIVO GERAL
O presente trabalho objetiva o desenvolvimento e avaliação de um algoritmo
de inserção e extração de texto em arquivos de áudio digital baseado na técnica de
esteganografia de LSB (Bits Menos Significativos), e com o uso da DHT
(Transformada Discreta de Hartley), no software Matlab.
1.2 OBJETIVOS ESPECÍFICOS
Para a realização plena do objetivo geral proposto faz-se necessário a
conclusão dos tópicos citados a seguir:
• Implementar e validar o algoritmo da transformada de Hartley;
• Especificar a técnica esteganográfica LSB, que será utilizada para
ocultação de mensagens de texto nos arquivos de áudio;
• Desenvolver um algoritmo de inserção e extração de texto em áudio,
com controle de quantidade de informação na inserção.
• Analisar via método de avaliação subjetiva e por correlação a
degradação causada pela inserção do texto no áudio, inicialmente no
LSB e posterior no 3º, 7º e 13º bits, a fim de provocar diferentes níveis
de degradação no áudio.
1.3 RESTRIÇÕES
As seguintes restrições são aplicadas ao presente trabalho com a finalidade
de limita-lo aos objetivos já discutidos:
16
a) Este trabalho será restrito ao desenvolvimento e avaliação da técnica
esteganográfica LSB, porém, com aplicações no 7º e 8º das amostras
de um arquivo PCM, 8 bits e 13º bit das amostras de um arquivo PCM
de 16 bits. As aplicações serão feitas no domínio da frequência pela
Transformada de Hartley.
b) As aplicações serão em arquivos de extensão wav1, com a inserção
de textos de extensão txt;
1.4 APRESENTAÇÃO DO TRABALHO
O trabalho proposto está disposto na seguinte estrutura:
a) O capítulo dois é composto por uma pesquisa bibliográfica que
abintervaloconceitos básicos para a consolidação do trabalho
desenvolvido neste projeto.
b) O capítulo três trata da metodologia de desenvolvimento a ser
utilizada para se obter um algoritmo de esteganografia de método
LSB com uso da DHT.
c) O capítulo quatro apresenta os resultados obtidos pelas avaliações
subjetivas e correções realizadas
d) O capítulo cinco vislumbra as conclusões e a indicação de trabalhos
futuros.
1 Maiores detalhes do formato wav, podem ser encontrados na secção 3.3 do capítulo 3 deste trabalho.
17
2. PESQUISA BIBLIOGRÁFICA
Neste capítulo será abordada a revisão bibliográfica necessária para a
compreensão do trabalho que será desenvolvido.
2.1 CRIPTOGRAFIA
A Criptografia2 é a ciência que estuda as formas de escrever uma
mensagem em código. Trata-se de um conjunto de técnicas que permitem tornar
incompreensível uma mensagem originalmente escrita com clareza, de forma a
buscar permitir que só o destinatário a decifre como esperado (CAVALCANTE,
2004).
Uma mensagem de texto claro3 pode ser ocultada de duas maneiras:
criptografia ou esteganografia (STALLINGS, 2008). Quanto a sua implementação,
segundo Tanerbaum e Wetherall (2011), algoritmos criptográficos podem ser
desenvolvidos em hardware, a fim de se obter maior velocidade ou em software
quando o objetivo é flexibilidade no deslocamento da ferramenta.
2.2 ESTEGANOGRAFIA
A esteganografia é um ramo da criptografia que consiste no estudo das
formas de ocultação de uma mensagem em outro meio de informação. Porém, vê-se
a esteganografia como um ramo paralelo à criptografia, pois, ao invés de cifrá-la4, a
esteganografia busca tornar a sua presença imperceptível (KOUBUSZEWSKI,
2004).
2 Palavra de origem grega que significa “escrita secreta”. 3 Texto Claro é a nomenclatura utilizada para descrever um texto não criptografado. 4 Cifrar – na Criptografia, é o mesmo que transformada a sua forma original para outra ilegível, de forma que possa ser conhecida apenas por seu destinatário.
18
2.2.1 Terminologia da Esteganografia
De acordo Peticolas et al. (1999), a esteganografia possui sua própria
terminologia, que pode ser vista no diagrama da figura 1.
Figura 1 - Diagrama da aplicação da Esteganografia com sua respectiva terminologia.
Fonte: Adaptado dos autores Peticolas, Anderson e Kuhn (1999).
Observa-se, pelo diagrama da Figura 1, os seguintes termos:
a) Dado Agregado (do inglês, embedded data): entende-se como a informação que
se deseja ocultar em uma mídia digital: áudio, imagem e vídeo;
b) Estego-chave (do inglês, Stego-Key): denominação dada ao método utilizado
para inserção da mensagem na mídia digital;
c) Portadora ou mensagem de cobertura (do inglês, Cover-message): mídia digital
a ser utilizada para o transporte do dado agregado, ou seja, a informação a ser
ocultada. Para as seguintes mídias digitais a esteganografia possui a sua própria
terminologia:
• Áudio de cobertura (do inglês, Cover-audio);
• Vídeo de cobertura (do inglês, Cover-video);
• Imagem de cobertura (do inglês, Cover-image).
19
d) Estego-objeto (do inglês, Stego-object) ou estego-recipiente (do inglês, Stego-
Carrier), é a mídia digital com informação já ocultada.
2.2.2 Técnicas de Esteganografia Digital
Segundo Popa (1998), os principais algoritmos da esteganografia digital são
baseados na inserção de uma mensagem pseudo-randômica em substituição de
componentes de ruído da mensagem de cobertura. Todavia esses algoritmos podem
ser usados em variados tipos de mídias digitais como textos (TEIXEIRA, 2011),
imagens (KHALIL, 2011), vídeos (BHOLE e PATEL, 2012) e áudios (SCHUTZ,
2009). Neste trabalho, no entanto, focar-se-á apenas em técnicas de esteganografia
para áudio digital.
2.2.3 Técnicas de Esteganografia em Áudio
A ocultação de dados em conteúdo sonoro exige o estudo e a correta
utilização das vulnerabilidades do Sistema Auditivo Humano (do inglês, system
human audition). De acordo com Albuquerque et al. (2007), o sistema auditivo
humano trabalha com uma extensa gama de frequências. Conforme Freitas (2009)
essa gama está adaptada para escutar sons entre 20 Hz e 20 kHz.
Com aplicação pioneira em atividades militares, a esteganografia em sons
foi uma importante evolução nas telecomunicações (ALBUQUERQUE, JULIO e
BRASIL, 2007). A princípio, seu objetivo era evitar detecções e tentativas de
alteração de mensagens secretas por forças inimigas. Seguindo a evolução dos
equipamentos transmissores e receptores de áudio, sua utilização foi sendo
expandida para outros propósitos, como marcas d’água usadas em proteção de
propriedade intelectual, autenticações e detecção de alterações e rastreamento de
cópias. (SCHUTZ, 2009).
Atualmente, uma vez que há diferentes métodos esteganográficos em áudio,
a transmissão do sinal entre codificador e decodificador, isto é, o caminho a ser
20
percorrido necessita ser utilizado como fator na escolha. Segundo Albuquerque et al.
(2007), os caminhos de transmissão podem ser definidos como:
• Ambiente fim a fim: o arquivo de áudio é copiado entre máquinas sem
sofrer alterações, sendo a classe que menos interfere na escolha do
método esteganográfico;
• Sinal re-amostrado: o sinal permanece digital, porém é amostrado a uma
taxa maior ou menor que a original, preservando a magnitude e a fase da
maioria dos sinais, não mudando as suas características temporais;
• Reprodução em dispositivo analógico (digital-analógico-digital): o sinal é
transmitido em uma linha analógica com baixa ocorrência de ruídos e,
posteriormente, re-amostrado. Nesta classe, não é preservada a sua
magnitude, taxa de amostragem e quantização inicial, apenas a fase do
sinal pode ser preservada;
• Sinal reproduzido no ambiente e posteriormente amostrado por um
transdutor: esse sinal possivelmente sofrerá modificações em sua
amplitude, fase, ecos e mudança de componentes.
Contornados os obstáculos técnicos, a tecnologia pôde ser aplicada para
diversas finalidades. Sistemas relacionados à esteganografia foram desenvolvidos
desde a modernização desse tipo de técnica, sendo auxiliada pela evolução da
computação pessoal, iniciada em 1985.
Como resultado desta evolução podemos citar o Steganography Analysis
and Research Center (SARC), que é um centro americano de segurança com foco
exclusivamente em pesquisas voltadas à esteganografia e esteganálise, possuindo
atualmente um catálogo com mais de 800 aplicações comerciais voltadas à
esteganografia digital.
Direcionado a aplicações em áudio, a agregação de conteúdo em arquivos
de música se mostra um potencial mercado para a ocultação de dados, pois, é
possível utilizar as mesmas premissas expostas para acrescentar textos do artista,
fotos e demais conteúdos que sejam relevantes ao consumidor. Essa não é uma
tarefa trivial, pois, conforme Schutz (2009), a capacidade e a transparência da
ocultação das informações estão diretamente relacionadas. Ou seja, não é
21
interessante aumentar a quantidade de informações que podem ser escondidas se,
com isso, houver degradação da qualidade do sinal hospedeiro.
Na aplicação da esteganografia, segundo Albuquerque et al. (2007), é
necessita satisfazer a três quesitos: a segurança, o carregamento útil e a sua
robustez.
No que se refere à segurança, quanto à informação oculta, deseja-se que
essa seja invisível perceptivelmente e estatisticamente. Porém, este requisito não
deve ocasionar complexidade computacional que exija demasiado tempo de
processamento comparado aos atuais algoritmos.
Área disponível para a ocultação de informação, a esteganografia deve
firmar um compromisso relativo com à quantia de dados que pode ser transmitida.
Para esta finalidade, o envio parcial da mensagem não é aceitável, sendo
necessária a escolha de uma mensagem de cobertura maior, ou redução da
mensagem a ser oculta.
E, por fim, a sua robustez5 quanto a operações comuns realizadas em
conteúdos de multimídia, como compressão, agrega confiabilidade e utilidade do
sistema. Estes requisitos são flexíveis e frequentemente contraditórios à aplicação
da esteganografia. Dependendo dos argumentos da aplicação, um acordo deve ser
estabelecido para evitar a perda da mensagem oculta (BRAZIL e ALBURQUERQUE,
2007).
Uma vez definidas as restrições e características da esteganografia, é
possível compreender as técnicas que foram desenvolvidas ao longo da sua história.
Segundo Koubuszewski (2004), portanto, as técnicas de ocultamento de dados em
áudio mais conhecidas, são:
a) Bit menos significativo (do ingles, Least Significant bit - LSB);
b) Codificação de fases;
c) Espalhamento espectral;
d) Ocultação de dados no eco.
5 Capacidade de manter integra a esteganografia mesmo com edição do objeto de cobertura.
22
2.2.3.1 Inserção no bit Menos Significativo (LSB)
A técnica de modificação dos bits menos significativos se destaca como a
técnica mais comum na inserção de informações em um arquivo digital. Consiste em
utilizar o bit menos significativo de cada amostra do sinal digital para ocultar a
mensagem, pois, a alteração desses bits dentro do arquivo não alteram de forma
significativa a sua informação (JASCONE, 2003).
A desvantagem dessa técnica é a sua vulnerabilidade, pois os dados podem
ser facilmente destruídos computacionalmente pela utilização de algoritmos de
compressão de dados com perda (PETRI, 2004).
Como exemplo de aplicação do método LSB em arquivos digitais, tem-se a
tabela 1.
Tabela 1 - Exemplo de uso do método LSB. (a) 100 67 58 4 184 48 198 142
A linha (a) contém oito valores decimais contidos em um arquivo digital, e
na linha (b) seus respectivos valores binários. Se, por exemplo, deseja-se ocultar o
byte com valor decima 117, com o valor binário correspondente à 01110101( linha
c), simplesmente se substitui os bits menos significativos de cada byte do arquivo
digital original da linha (b), por cada um dos bits do byte a ser oculto do arquivo da
linha (c). Desta forma, após ocultar oito bits de informaçãoo, em oito bytes de um
arquivo digital (linha d), obten-se o valor expresso em binário da linha (d), e em
decima na linha (e) (KOUBUSZEWSKI, 2004).
Pode-se verificar claramente que os valores das amostras do arquivo digital
foram alterados, no máximo, em um valor decimal apenas, comparando-se as linhas
(a) com a (e). Caso seja aplicada a lei da probabilidade, é correto afirmar que as
quantidades de amostras alteradas tendem a 50%, já que é de 0,5 (possibilidade
23
bínaria, 1 ou 0) a probabilidade de que o LSB da amostra coincida com a informação
cuja inclusão é desejada.
Em se tratando de arquivo digitais de áudio, estas pequenas alterações são
inaudíveis para o ouvido humano. Esta é a teoria na qual trabalham, em sua maioria,
as ferramentas de esteganografia em arquivos de áudio (KOUBUSZEWSKI, 2004).
2.2.3.2 Codificação em Fase
A codificação em fase consistem em substituir a fase de um segmento inicial
de áudio, por uma fase de referência que representa os dados a serem escondidos,
conforme figura 2. A principal vantagem desse método é que a relação sinal - ruído
(SNR) percebido é mínima a ponto de ser imperceptível pelo ouvido humano (POPA,
1998).
Figura 2 - O sinal Original podendo ser o bit 0, e o mesmo sinal com sua fase deslocada 90º, sendo o sinal codificado, representa o bit 1.
Fonte: Adaptado do autor de Albuquerque et al. (2007).
Quando em cada componente de frequência a relação de fase é mudada
drasticamente, uma dispersão de fase será notada, mas se as modificações das
fases forem pequenas, a codificação fica inaudível. Este é um dos mais efetivos
métodos para decodificação em termos de percepção do ruído (ALBUQUERQUE,
JULIO e BRASIL, 2007).
24
2.2.3.3 Espalhamento Espectral
A técnica de espalhamento espectral (do inglês, Spread Spectrum – SS) é
baseada no ato de espalhar informações secretas sobre espectro de frequência de
áudio. Ela é análoga à LSB, que, randomicamente, espalha os bits da mensagem
em todo o arquivo de áudio. Entretanto, diferentemente da LSB, a SS espalha a
mensagem sobre o espectro de frequência do arquivo de áudio através de uma
codificação que é independente do sinal. Assim, o sinal resultante ocupa uma banda
superior à utilizada na transmissão do sinal original (ALBUQUERQUE, JULIO e
BRASIL, 2007).
Segundo Koubuszewski (2004), a diferença entre o SS para o LSB se
resume no fato de que o LSB distribui a informação que se deseja ocultar através
dos bits menos significativos do arquivo de áudio. Já o SS utiliza o próprio conteúdo
sonoro durante o processo, conforme figura 3.
Figura 3 - Funcionamento da técnica de Espalhamento Espectral (SS).
Fonte: Aquino (2011).
A técnica SS pode ser usada de duas maneiras dentro da esteganografia
digital: pela sequência direta do espalhamento espectral (do inglês, Direct Sequence
Spread Spectrum - DSSS), e espalhamento espectral por saltos de frequência (do
inglês, Frequency Hopping Spread Spectrum - FHSS).
25
No DSSS, a mensagem secreta é espalhada utilizando uma chave chamada
chip rate 6e depois modulada com um sinal pseudo-randômico, para, em seguida,
ser misturada ao sinal de cobertura. No FHSS, o espectro de frequência do arquivo
de áudio é alterado de modo que a mensagem seja codificada segundo um padrão
de saltos entre as frequências do espectro (ALBUQUERQUE, JULIO e BRASIL,
2007).
2.2.3.4 Ocultação de Dados pelo Eco
Neste método de esteganografia a informação é escondida em um arquivo
de áudio através da introdução de um eco. Para esconder a informação de maneira
eficaz, são manipulados três parâmetros do sinal de eco: amplitude, taxa de
deterioração e variação do sinal original (offset). Esses parâmetros são configurados
abaixo dos limites que o ouvido humano pode perceber facilmente.
O offset é utilizado para representar a mensagem binária codificada. O
codificador utiliza dois valores de tempo de atraso: um para representar o bit 1 e
outro para o bit 0, conforme figura 4 (ALBUQUERQUE, JULIO e BRASIL, 2007).
Figura 4 - Ilustração da aplicação da informação no método de codificação por eco.
Fonte: Adaptado do autor Albuquerque et al. (2007).
Apenas um bit de informação será codificado se um eco do sinal original for
produzido, por isso o sinal original é quebrado em blocos antes do processo de 6 No espectro de propagação, é a taxa em que os bits, ou os símbolos de código, são utilizados para modular os bits de dados.
26
codificação iniciar. Cada bloco será codificado com os valores 1 e 0, dependendo da
mensagem a ser transmitida. Uma vez que a codificação for concluída, os blocos
serão concatenados novamente. Para recuperar a mensagem, usar a mesma estego
chave para que o sinal esteja na mesma sequência de blocos utilizada na fase de
codificação, e utilizará função de auto correlação do sinal para decodificação da
mensagem, pois, essa revela um ponto em cada offset do tempo de eco, permitindo
que a mensagem seja reconstituída (ALBUQUERQUE, JULIO e BRASIL, 2007).
2.3 TRANSFORMAÇÃO DE DOMÍNIO
A transformação de domínios consiste em mapear amostras de um sinal que
se encontra no domínio do tempo, a fim de reescrevê-lo em componentes espectrais
no domínio da frequência. Esta seção irá discorrer a respeito de duas
transformadas, Fourier e Hartley, cuja gama de aplicações inclui o campo da
esteganografia.
2.3.1 Transformada de Fourier
A transformada de Fourier é a transformada mais conhecida e utilizada para
processamento digital de sinais (DSP). Com essa é possível se obter uma série de
informação a respeito do sinal, como os espectros de magnitude, fase e de potência.
Sua definição – soma infinita de senóides e cossenóides, representadas no plano
complexo ou na forma polar como magnitude e fase (DINIZ, NETTO e SILVA, 2004)
A Transformada Discreta de Fourier (do Inglês, Discrete Fourier Transform -
DFT) pode ser aplicada a uma série s(n) com comprimento finito N, conforme
equação ( 1 ) (NALON, 2009).
���� = � ������ ��� �� ��� ��
������������� = 0,1,2, … ,� − 1�( 1 )
27
Onde, x(n) se refere a sequência de amostras de comprimento N. Cada
amostra X(k) de uma série de Fourier representa uma exponencial complexa com
frequência �,ou seja, o coeficiente�� ��� �� �, que é gerado por cos�2!��/�� e
pelo sin�2!��/��. E para o domínio da frequência contínua, esse coeficiente
representado pela exponencial complexa passa a ser um impulso (NALON, 2009).
2.4.2 Transformada Discreta de Hartley
Segundo Mintchev et al. (1995), Ralph Hartley em 1942, criou uma
transformada com propriedades semelhantes à transformada de Fourier. Esta
transformada foi chamada de transformada de Hartley, sendo associada como uma
simplificação da transformada de Fourier, apenas para números reais.
Ao contrário da transformada de Fourier, que pode ser aplicada em sinais
reais ou complexos, Hartley aplica-se unicamente a sinais reais. Para calcular a
transformada discreta de Hartley (em inglês, Discrete Hartley transform - DHT),
utiliza-se a equação ( 2 ) (ULLMANN, 1984) (FRIGO e JOHNSON, 2006).
Nesta seção será apresentada a metodologia utilizada para o
desenvolvimento do algoritmo de esteganografia em mídias de áudio com o método
LSB, utilizando o Software Matlab.
3.1 METODOLOGIA
Para a compreensão do desenvolvimento do trabalho, tem-se o diagrama de
implementação exibido na figura 5, com as principais tarefas do algoritmo e o
fluxograma do algoritmo no Apêndice E.
Inicialmente, é realizada a importação do arquivo de cobertura e do dado
agregado, para o software Matlab, ou seja, a mídia de áudio e da mensagem que se
desejará ocultar.
Após importados os arquivos, é aplicada a transformada de Hartley pelas
associações com a DFT, conforme visto na revisão bibliográfica. Tendo o conteúdo
dos arquivos transformados do domínio do tempo passados para o da frequência, é
aplicada a técnica esteganográfica e inserido o dado agregado na mensagem de
cobertura.
Ao fim da inserção da mensagem, é aplicada a transformada inversa, para
modificação do domínio da frequência para o tempo via Transformada inversa de
Hartley. Por fim, exporta-se o arquivo como mídia de áudio no formato wav.
Quando da extração da informação, importa-se o arquivo de áudio (estego-
objeto) para o software Matlab, aplica-se a transformada de Hartley e, no domínio da
frequência, realiza-se a extração do bits da informação inserida. Por fim o texto é
reconstruído e exportado para um arquivo de texto.
Nos próximos tópicos, serão discutidos: a escolha do software, técnica
esteganográfica desenvolvida e a análise da qualidade do sinal obtido.
35
Figura 5 – Diagrama do desenvolvimento da esteganografia LSB no domínio da frequência com a transformada de Hartley.
Fonte: O próprio autor (2013).
3.1.1 Software
O software MatLab, originado das palavras Matrix Laboratory, é uma
ferramenta onde a linguagem das operações é modelada através do uso de
matrizes. O software é direcionado à computação científica.
Este trabalho utilizou o software Matlab para todas as etapas do diagrama
da Figura 5.
36
3.1.2 Formato Waveform
O formato waveform, também conhecido por suas extensão (.wav) é
utilizado como extensão para formatos padrões de arquivos das empresas Microsoft
e IBM, para armazenar fluxos de bits (bit stream) de áudio em microcomputadores
pessoais. A codificação (codec) utiliza o formato PCM10 (do inglês, Pulse-Code
Modulation) (BATTEZZATI, 2009).
A escolha da mídia digital, resultou em arquivos de áudio com: codificação
PCM; extensão wav; 8 bits por amostra; mono (1 canal); taxa de amostragem de 8
kHz.
Foram utilizados quatro áudios para as aplicações desse trabalho, com as
seguintes frases: “Guardei o livro na primeira gaveta”, “O banco fechou sua conta”,
“Ela precisa esperar na fila” e “Choveu muito neste fim de semana”, adaptados do
trabalho de (BECKER, BALBINOT, et al., 2005).
3.1.3 Mensagem Oculta
Para as aplicações utilizou-se um texto padrão em todas as inserções. O
arquivo é possui extensão .txt e é apresentado no Apêndice A.
O texto nas etapas de preparação da informação para ser inserida e na sua
recuperação, isto é, extração da informação da mídia de áudio, é constituído pelo
padrões da tabela ASCII.
3.2 TRANSFORMADA
A fim de sancionar a escolha pela a DHT, será demonstrado as diferenças
entre a DHT e a DFT. Inicialmente é apresentado no domínio das frequências na
10 Método utilizado na representação digital de sinais analógicos. Atualmente é a o método padrão para áudio digital em computadores e em vários formatos de Blu-ray, DVD e Discos Compactos ( do inglês, Compact Disc
- CD).
37
figura 6 e na figura 7, o sinal de áudio “O banco fechou sua conta.wav”, composto
das seguintes características: um canal, taxa de amostragem de 8 kHz, tamanho
22,5 kB, taxa de bits 64 kbps, 8 bits por amostra.
Figura 6 – Domínio da frequência. a) Aplicação da DHT com o sua respectiva sequencia de números reais. b) Aplicação da DFT com o sua respectiva sequencia
de números complexos.
Fonte: O próprio autor (2013).
A aplicação da DHT, segundo seção 2.4.2, no domínio da frequência é
resultado de uma sequencia de números reais, todavia, para a DFT no domínio da
frequência haverá uma sequencia de números complexos, conforme figura 6 - b.
Conforme é possivel analisar na figura 7, foi aplicado o módulo aos valores
dos sinais da figura 6, modelando para que os gráficos da frequência de Hartley e da
frequência de Fourier estivessem no mesmo eixo.
Em ambos os gráficos, é demonstrado a simetria conjugada entre as
transformadas, diferindo, no entanto, no espectro de magnitude da aplicação do
módulo da DHT, obtendo-se maiores amplitudes na aplicação da DHT (figura 7 – b),
comparando com a aplicação da DFT (figura 7 – a).
A escolha se deteve a DHT, por essa se utilização de uma sequencia de
números reais no domínio do tempo e da frequência, e por ser um método
alternativo em relação à DFT, de acordo com o equacionamento matemático
apresentado na seção 2.4.2.
38
Figura 7 – Gráficos obtidos com o módulo das sequencias de valores no domínio da frequência. a) Aplicação da DFT b) Aplicação da DHT.
Fonte: Adaptada de Nascimento e Toscano (2004).
Na inserção de informação para o domínio das frequências, aplicou-se
simetricamente a informação a partir do centro do gráfico, neste caso condizente
com 4 kHz, conforme figura 7 – b, de acordo com a metodologia que os autores
Nascimento e Toscano (2004) aplicaram em seu algoritmo de criptografia em tempo
real com a DHT, conforme ilustração na figura 8.
Figura 8 – Representação do domínio de Hartley, onde N é o número de amostras do sinal no domínio do tempo, sendo a representação para um sinal com máxima
frequência em 4 kHz.
Fonte: Adaptado de (NASCIMENTO e TOSCANO, 2004).
39
3.3 MÉTODO ESTEGANOGRÁFICO
Neste tópico, será relatada a técnica de esteganografia e as etapas de
desenvolvimento do trabalho.
Em conformidade com o referencial bibliográfico citado, o método
esteganográfico a ser utilizado foi o LSB. Sua escolha se deteve à necessidade de
uma técnica de informação possível de ser aplicada com a utilização da
Transformada de Hartley.
A forma de inserção da informação no domínio da frequência para o sinal de
áudio resultou da disposição do conjugado simétrico da transformada discreta de
Hartley. De acordo com a Figura 9 o algoritmo foi desenvolvido para encontrar o
centro do vetor de amostras e inserir, simetricamente, metade da informação para
cada direção. As porcentagens padronizadas de informação no LSB foram: 30%,
70% e 100%.
Figura 9 - Método de inserção e porcentagens padronizadas para este trabalho, da informação a ser ocultada.
Fonte: O próprio autor (2013)
3.4 ANÁLISE DE QUALIDADE DO ÁUDIO
A inserção de informação em um arquivo digital pelo método LSB provocam
alterações possíveis de serem percebidas por um usuário. Todavia, a razão da
40
fidelidade da mídia alterada pela sua original é essencial na aplicação da
esteganografia.
Em se tratando de uma mídia de áudio, a impressão da redução de
qualidade é percebida por um usuário quando ocorrem as seguintes alterações:
• Modificação do bit mais significativo – para o exemplo, em um arquivo
de 8 bits, a percepção de modificação é agravada na escolha do bit a
ser inserida a informação, quando esta for alternada no sentido do
menos significativo para o mais significativo;
• Quantidade da área útil de inserção preenchida – todo arquivo em
dependência à sua técnica utilizada possui uma área útil de inserção.
Quanto maior a ocupação dessa área entende-se que maior será a
alteração percebida na reprodução da mídia.
Para avaliar mídias digitais, quanto a sua qualidade ou seu nível de
degradação, será utilizado o método subjetivo com o mínimo de 20 avaliações para
cada grupo de amostras.
Para estas avaliações, serão submetidos os grupos aleatoriamente a
avaliações, separados conforme esquema da Figura 10.
Figura 10 – Esquema da proposta de avaliações com os as aplicações.
Fonte: O próprio Autor (2013).
Observa-se pelo esquema da Figura 10 as seguintes aplicações:
� 1º avaliação: utilizando o método ACR, serão avaliados sete grupos a
respeito da qualidade dos áudios. Sobre as amostras, realizaram-se três
41
diferentes níveis de inserção, sendo: 30%, 70% e 100% de informação, e
aplicações no 7º 11 e 8º bits.
� 2º avaliação: utilizando o método CCR, serão avaliados 3 grupos a
respeito da degradação do áudio, realizaram-se dois níveis diferentes de
inserção, sendo: 30% e 100%, e aplicações no 7º e 8º bits.
� 3º avaliação: utilizando o método CCR, serão avaliados 4 grupos com o
propósito de comparar a degradação do áudio, entre a aplicação do
método LSB com a DHT, e com o método LSB sem a DHT. As aplicações
serão apenas em dois áudios das quatro amostras disponíveis, com
aplicação de 100% de inserção apenas no 8º bit.
Na Classificação por categoria de comparação – CCR, Como o próprio nome
sugere, na avaliação é submetido ao usuário o áudio original e o estego-objeto, a fim
de compara-los.
3.5 CORRELAÇÃO
O sinal de áudio que é inserido no algoritmo, passa por arredondamentos e
modificações de formatos, como: int812, double13, single14, decima para binário, e
uint815.
Devido a estas alterações de formatos, esta seção será destinada à
descrição de correlação entre o sinal inserido no algoritmo e o que é obtido em sua
saída, já com a informação oculta, ou seja, o estego-objeto importado.
Para esta etapa, foi utilizada uma função de correlação de coeficientes
disponíveis no toobox do Matlab, sendo que a função desempenha via algoritmo o
papel do coeficiente de correlação de Pearson, conforme equação 16.
11 A aplicação no 7º bit, de acordo com os objetivos específicos, é uma proposta de aplicação que geram maior degradação no sinal. A fim de se avaliar qual será o nível de aceitação por parte dos avaliados. 12 Inteiro de 8 bits, com intervalo de -128 a 127 (em decimal). 13 Double – formato de ponto flutuante de dupla precisão, ocupa 8 bytes, ou seja 64 bits. 14 Single – formato de ponto flutuante de simples precisão, ocupa 4 bytes, ou seja 32bits. 15 Inteiro de 8 bits sem sinal, onde seu intervalo é de 0 a 255 (em decimal).
A imagem gerada na figura 15 é formada por componentes de frequência
harmônica de 120 Hz. Os sinais são demonstrados no espectro de magnitude, como
um conjugado simétrico a partir do valor de 2,25 kHz no eixo da frequência.
Figura 15 - Gráfico das componentes harmônicas do domínio da frequência de Hartley, composto de harmônicas de 120 Hz.
Fonte: O próprio autor (2013).
4.2 ALTERAÇÃO DO TAMANHO DO ARQUIVO
Os arquivo de entrada no algoritmo proposto são de 8 bits por amostra.
Idealmente, a saída necessitaria ter mesma escala, 8 bits, pois se trata de um
método de substituição do bit menos significativo.
No algoritmo desenvolvido, quando da utilização da função fft( ), para as
associações matemáticas da DHT pela DFT, fora necessário a troca de formato do
vetor do sinal de áudio, inicialmente uint8 (0 a 255) para Double (double – precision
float-point, 64 bits).
Seguindo a etapa do funcionamento do algoritmo, o sinal é processado para
o domínio da frequência por Hartley, e preparado para a inserção de sinal. As
amostras no domínio da frequência são convertidas de double para uint8 e em
46
seguida, convertidas de decimal para binário. No LSB que é o 8º bit inserida a
informação e realizado o processo inverso.
Para a finalização do algoritmo de inserção, é necessário exportar este
arquivo com atual formato double, para um áudio com formato wav, de 8 bits (uint8).
A última conversão, do arquivo (estego-objeto), provoca arrendondamentos
devido ao seu nível de quantização de apenas 8 bits, enquanto um double de 64
bits, todavia essa diferença provocam a perda da informação inserida no bit menos
significativo, neste caso, o mais vulnerável a arredondamento.
A solução para este problema foi exportar os arquivos como uint1617, ou
seja, 16 bits, havendo um intervalo de 0 a 65.535, e não mais de 0 a 255. Nesta
aplicação, a recuperação do sinal foi em 100% para inserção das amostras dos bits
7º ao 13º18.
Porém, para as amostras, como por exemplo “o banco fechou sua
conta.wav”, de tamanho 22,4 kB e taxa de bits 64 kbps, o arquivo passou para 44,8
kB de tamanho e 128 kbps de taxa de bits.
Na tabela 5, são demonstrados os tamanhos das quatro amostras originais e
dos estego-objetos utilizados nesse trabalho.
Tabela 5 - Tamanhos dos arquivos originais e com esteganografia. Áudios Utilizados no presente trabalho Arquivo Original Estego-Objeto
Choveu muito neste fim de semana.wav 19,7 kB 37,4 kB Ela precisa esperar na fila.wav 17,7 kB 35,3 kB
Guardei o livro na primeira gaveta.wav 20,7 kB 41,4 kB O banco fechou sua conta.wav 22,4 kB 44,8 kB
Fonte: O próprio autor (2013).
4.3 CORRELAÇÃO
Com a análise da correlação, avaliou-se o áudio original e o estego-objeto
com aplicações no 3º, 7º e 8º bit e diferentes níveis de informação inserida. Na
primeira avaliação foi correlacionada a aplicação do método esteganográfico com a
DHT (domínio da frequência) e a esteganografia sem a DHT (domínio do tempo).
17 Formato Inteiro de 16 bits, com o intervalo de 0 a 65.535. 18 Aplicações empíricas realizadas pelo próprio Autor (2013).
47
A segunda análise por correlação foi aplicada aos arquivos exportados com
8 bits e com 16 bits, como já discutido na seção 4.2,
Para as avaliações foram utilizadas as análises de correlação para dois
áudios: “O banco fechou sua conta” e “Choveu muito neste fim de semana”.
Na primeira avaliação foram submetidos os áudios “O banco fechou sua
conta” e “Choveu muito neste fim de semana”. Na tabela 6 e Tabela 7 são
demostradas estas correlações.
Tabela 6 – Correlação entre áudio original e estego-objeto.
Áudio Porcentagem Inserção Com DHT Sem DHT
Correlação 30% 70% 100% 3º 7º 8º 3º 7º 8º
O banco fechou sua conta.wav
x x 0,9995 x x 0,9997 x x 0,9989 x x 0,9994 x x 0,9984 x x 0,9992 x x 0,9981 x x 0,9992 x x 0,9957 x x 0,9983 x x 0,9938 x x 0,9976 x x 0,5248 x x 0,6997
Fonte: O próprio Autor (2013).
Tabela 7 - Correlação entre áudio original e estego-objeto.
Áudio Porcentagem Inserção Com DHT Sem DHT
Correlação 30% 70% 100% 3º 7º 8º 3º 7º 8º
Choveu muito neste fim de semana.wav
x x 0,9995 x x 0,9996 x x 0,9990 x x 0,9984 x x 0,9984 x x 0,9980 x x 0,9984 x x 0,9983 x x 0,9965 x x 0,9955 x x 0,9951 x x 0,9939 x x 0,6082 x x 0,6494
Fonte: O próprio Autor (2013).
Os resultados dessa primeira análise de correlações somente tiveram
alteração a partir da terceira casa decimal após a vírgula. Isto é, por serem
48
alterações nos últimos bits, 7º e 8º, a significância das alterações dos sinais em
relação ao original são baixas.
A correlação entre arquivo que utilizaram a DHT foi menor do que arquivos
que não a utilizaram, todavia, apenas é relevante essa diferença na aplicação com
100% de informação inserida no 3º bit, sendo aproximadamente 6,77% a redução da
correlação na aplicação com a DHT.
Para a segunda análise de correlação, que visa a diferença entre os
arquivos exportados com 8 bits e 16 bits, conforme os resultados são demonstrados
na tabela 8 e tabela 9.
Tabela 8 – Correlação analisando a exportação entre 8 bits e 16 bits. Para o áudio original e estego-objeto, com DHT.
Áudio Porcentagem Inserção Com DHT Exportação
Correlação 30% 70% 100% 3º 7º 8º 8 bits 16 bits
O banco fechou sua conta
x x x 0,9995 x x x 0,9994 x x x 0,9989 x x x 0,9988 x x x 0,9984 x x x 0,9983 x x x 0,9981 x x x 0,9980 x x x 0,9957 x x x 0,9956 x x x 0,9938 x x x 0,9937 x x x 0,5248 x x x 0,5245
Fonte: O próprio autor (2013).
Tabela 9 – Correlação analisando a exportação entre 8 bits e 16 bits. Para o áudio original e estego-objeto, com DHT.
Áudio Porcentagem Inserção Com DHT Exportação
Correlação 30% 70% 100% 3º 7º 8º 8 bits 16 bits
Choveu muito neste fim de
semana
x x x 0,9995 x x x 0,9992 x x x 0,9990 x x x 0,9987 x x x 0,9984 x x x 0,9984 x x x 0,9984 x x x 0,9982 x x x 0,9965 x x x 0,9963 x x x 0,9951 x x x 0,9949 x x x 0,6082 x x x 0,6082
Fonte: O próprio autor (2013).
49
Com essas análises, pode-se verificar que a diferença se resume em valores
na 4º casa decimal, podendo afirmar que estes são resultados dos arredondamentos
na conversão da variável double para uint8, que ocorre antes da exportação do
arquivo.
4.4 AVALIAÇÕES SUBJETIVAS
Neste tópico serão apresentadas as avaliações subjetivas de aplicações
desenvolvidas com os quatro áudios citados na seção 3.1.2. Conforme descritos na
seção 3.4 da metodologia, os índices utilizados para esta análise serão o ACR e o
CCR.
Na primeira avaliação, foram submetidos sete grupos de áudios para uma
avaliação subjetiva, com a proposta de analisar sua qualidade. Cada grupo utilizou
aplicações de esteganografia diferentes, as quais estão apresentadas na tabela 10.
As avaliações ocorreram a partir da execução dos áudios em um notebook19
particular que foi disponibilizado aos entrevistados, acompanhado do headphone
SONY, de modelo MDR-ZX100. A intensidade do áudio foi disposta à: 85% no
sistema operacional e 100% do software Windows Media Player.
Para a avaliação foi desenvolvido o formulário do Apêndice B, para cada
usuário foi submetido dois grupos aleatórios de áudios, a fim de serem analisados.
Tabela 10 - Divisões dos grupos e suas respectivas aplicações de esteganografia.
Fonte: O próprio autor (2013).
19 A configuração deste notebook : Dell Vostro 3500, i5, 4 GB de memoria RAM, 650 GB de Disco Rígido, sem placa de vídeo e áudio dedicadas, tela 15.6” de led, sistema operacional Windows 7, 32bits.
Grupo Aplicação da Esteganografia Grupo 1 Arquivos de áudio Originais Grupo 2 Arquivos de áudio com inserção de 100% no 8º bit. Grupo 3 Arquivos de áudio com inserção de 100% no 7º bit. Grupo 4 Arquivos de áudio com inserção de 70% no 8º bit. Grupo 5 Arquivos de áudio com inserção de 70% no 7º bit. Grupo 6 Arquivos de áudio com inserção de 30% no 8º bit. Grupo 7 Arquivos de áudio com inserção de 30% no 7º bit.
50
No teste aplicado, solicitou-se que o participante se acomodasse em uma
cadeira previamente disposta no ambiente. Então, houve o esclarecimento do
formulário, ajuste do headphone, e espera da confirmação para início da reprodução
dos grupos da análise.
Os áudios foram executados sequencialmente, havendo única pausa entre
ambos para a respectiva pontuação. Ao fim, foi solicitado ao avaliador que
preenchesse alguns dados para complemento da pesquisa, como:
• Gênero;
• Idade;
• Se este praticava algum instrumento (sim-não), e, se sim há quanto tempo;
• Se o participante já havia participado de algum teste semelhante à este.
Segue na tabela 11 o resumo da primeira avaliação subjetiva. A tabela
completa pode ser vista no Apêndice C.
Tabela 11 – Resumo da avaliação da Qualidade de áudio. Método ACR.
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 7
Os dados obtidos na tabela 11, especificamente, a pontuação MOS de cada
grupo, resultaram em valores aproximados, mesmo com amostras com aplicações
distintas. Não foi possível encontrar associações entre as médias das amostras e
suas respectivas degradações causadas pela inserção de informação.
De acordo com a Tabela 10, as aplicações no 7º bit, respectivamente os
grupos 3, 5 e 7 deveriam ter uma pontuação MOS consideravelmente menor do que
os demais grupos (aplicações no 8º bit), em especial o grupo 1 que são os áudios
originais, ou seja, idealmente sem nenhuma degradação.
O desvio padrão do grupo 3 ficou em 0,93, sendo o maior desvio padrão e
especificamente a aplicação do grupo com a maior degradação do sinal (100% no 8º
bit).
51
A segunda avaliação subjetiva foi analisada com o método CCR em três
grupos de áudios, com diferentes aplicações conforme tabela 12.
As avaliações foram realizadas via um único formulário online, composto por
cada um dos grupos (1 a 3), e o grupo com os áudios originais. Cada grupo é
constituído pela concatenação dos quatro diferentes áudios desse trabalho, todavia,
coma mesmas aplicações.
Tabela 12 – Legenda da 2º avaliação da degradação do áudio pelo método CCR. Legenda
Original Áudio formado pela concatenação dos quatro áudios. Grupo 1 Áudio Original x LSB com DHT, de 30% no 8 bit Grupo 2 Áudio Original x LSB com DHT, de 100% no 8 bit Grupo 3 Áudio Original x inserção com DHT, de 100% no 7 bit
Fonte: O próprio autor (2013).
Para a pontuação das análises desta avaliação utilizou-se a tabela 13,
composta na coluna das descrições textuais da escala, por adjetivos que auxiliam o
avaliador na comparação dos grupos.
Por fim, a tabela 14, possui os valores das vinte análises realizadas para
essa segunda avaliação subjetiva.
Tabela 13 - Escala CMOS, utilizada na avaliação da degradação do sinal. Descrição textual da escala Escala
Muito bom 3 Bom 2
Próximo de bom 1 Mesmo áudio 0
Próximo de ruim -1 Ruim -2
Muito Ruim -3 Fonte: Adaptado norma (ITU-T REC.P.800., 1996).
Tabela 14 - Resultado da avaliação da degradação do áudio, pelo aumento da inserção de informação.
Grupo 1 Grupo 2 Grupo 3 Desvio Padrão 1,73 1,55 2,03
CMOS 0,75 -0,1 -1,15 Quantidade de Avaliações 20 20 20 Somatório das Avaliações 15 -2 -23
Fonte: O próprio autor (2013).
52
A respeito da tabela 14, os valores referentes aos grupos 1, 2 e 3, da linha
do somatório das avaliações, convergem com a degradação do sinal proporcionada
aos estego-objetos avaliados.
Não somente o somatório das avaliações acompanha o resultado esperado,
como também a análise resultante pelo CMOS, que para a avaliação de 30% no 8
bit (grupo 1) obteve a maior pontuação em relação a aplicação com maior
degradação dessa avaliação subjetiva, sendo de 100% no 7 bit (grupo 3).
Na terceira e ultima análise subjetiva, foram comparadas aplicações no LSB
no domínio da frequência com a DHT e no domínio do tempo; essa comparação foi
com a aplicação do método CCR.
Utilizou-se apenas dois dos quatro áudios disponíveis no trabalho para à
aplicação. Cada áudio teve aplicações no domínio do tempo e no domínio da
frequência, com 100% de informação no 8 bit, conforme tabela 15, onde é descrito
em maiores detalhes as aplicações, e os áudios utilizados.
Tabela 15 - Legenda da avaliação subjetiva para a comparação do nível de ruído com o método de esteganografia LSB, do domínio do tempo e no domínio da
frequência. Legenda
Áudio 1 Frase original - "Guardei o livro na primeira gaveta."
Áudio 2 Frase original - "O banco fechou sua conta."
Sem Hartley Inserção de 100% de informação no LSB, no domínio do tempo.
Com Hartley Inserção de 100% de informação no LSB, no domínio da frequência. Fonte: O próprio autor (2013).
A escala utlizada para análise dos grupos a serem avaliados foi a presente
na tabela 13, ou seja, a mesma da segunda avaliação, e o resultado desta ultima
análise é apresentado na tabela 16.
Tabela 16 - Resultado da comparação entre esteganografia LSB, em Áudios no domínio do tempo e no domínio da frequência, por Hartley.
A aplicação da esteganografia LSB para o domínio do tempo degradou em
uma menor proporção o sinal final, todavia, para os quatro grupos os valores das
avaliações assim como o CMOS foram positivos. Com esta análise se conclui que
não houve uma degradação do sinal susceptível, apenas baixa da qualidade em
comparação com os arquivos originais.
54
5. CONCLUSÕES
Diante do panorama exposto, considera-se que o desenvolvimento e
avaliação do algoritmo para a aplicação de esteganografia, no domínio da
frequência, com o uso da Transformada Hartley foi alcançado. Com relação à
realização de avaliações subjetivas, as mesmas também apresentaram resultados
dentro da recomendação P.800 de satisfação da qualidade do áudio e possiveis
para a aplicação da esteganografia.
A respeito da quantidade de informação e a região da aplicação, que são
estratégias características dessa aplicação e com intuito de uma menor percepção
do usuário; na aplicação deste trabalho não foi considerado que no domínio da
frequência, os dados inicialmente de valor decimal zero eram incrementados,
quando da inserção de informação, provocando o surgimento de um ruído no
arquivo de áudio.
Em se tratando dos resultados das avaliações subjetivas, na primeira, houve
proximidade dos valores, convergindo para uma média igual a 3, com base na P.800
valores próximos a 3 são caracterizados como amostras regulares.
Para a segunda avaliação, na aplicação de 100% no LSB (grupo 2), o CMOS
resultou em um valor próximo a zero (-0,1). Ou seja, de acordo com a Tabela 13,
trata-se de uma aplicação resultante de características aproximadas ou iguais a
original (nomenclatura da tabela “mesmo áudio”).
Nas terceira avaliação (método LSB e uso da DHT em relação ao sem a
DHT), nos resultados obtidos, houve maior pontuação para a técnica sem o método
proposto nesse trabalho; porém, os resultados de ambas as aplicações,
considerando os quatro grupos, ficam com o CMOS acima de zero, a partir da
tabela, essa pontuação justifica um áudio aceitável pela maioria dos avaliadores.
Uma vez que o objetivo deste trabalho não é o de buscar alta eficiência na
ocultação da informação e, sim, apresentar uma nova técnica de esteganografia,
nota-se satisfatório os resultados das pesquisas. Todavia, há possibilidade de
melhora do algoritmo de inserção de informação, para que este no mínimo se iguale
aos resultados da utilização do algoritmo sem a DHT.
55
Não foram utilizadas técnicas de esteganálise20 neste trabalho, a fim de
avaliar a robustez da proposta em relação às aplicações atuais. Todavia, uma busca
no banco de dados do portal IEEE Explore21, com as palavras Steganography e
Discrete Hartley Transform não resultou em conteúdo cientifico a respeito de
qualquer aplicação com as mesmas características.
Como a robustez na esteganografia é sinônimo do nível de dificuldade para
interceptar e recuperação informação, a ausência de material, torna a robustez
desse novo método maior. Isso se dá devido ao fato de que, em se tratando da
recuperação da informação por terceiros, há a necessidade de estar no domínio de
Hartley para a recuperação da informação inicialmente inserida.
Na utilização da transformada de Hartley, conforme descrito acima, não
foram encontrados trabalhos relacionados, sendo este um auxilio da aplicação de
métodos esteganográficos em áudio com uso da DHT. As dificuldades encontradas
nesta aplicação e suas justificativas trazem à tona a técnica como uma aplicação
nova, e encoraja a possibilidade de ser utilizada em futuras pesquisas e aplicações
na área de Esteganografia e Criptografia.
20 Área da esteganografia responsável pela análise da robustez dos métodos esteganográficos. Essa área busca ferramentas que possibilitam encontrar ou alertar sobre arquivos com informações estenografadas. 21 Endereço para o portal IEEE Explore http://ieeexplore.ieee.org/Xplore/home.jsp .
56
6. TRABALHOS FUTUROS
Ao longo do desenvolvimento deste trabalho, foram encontradas
possibilidades de melhorias e ampliação do que foi desenvolvido. Em forma de lista,
são citadas algumas dessas possibilidades.
• Estudo e desenvolvimento da escolha das melhores regiões do áudio
do domínio da frequência para a inserção de informação. Neste
trabalho não foi relevado os valores que, no domínio da frequência
estão zerados e partir da inserção de informação, começam a valer
com unidades decimais baixas, porém são perceptíveis ao ouvido
humano;
• Aplicar a Rápida transformada de Hartley sem suas relações com a
FFT, isto é, por meio do seu algoritmo;
• Desenvolver essa técnica de esteganografia em áudios de formatos
diferentes do Wav, como, por exemplo, mp3;
• Desenvolver o mesmo algoritmo em um software diferente do Matlab,
pois se acredita que a dificuldade de exportar um arquivo de 8 bits
possa ser devido também às funções encontradas no toolbox do
Matlab, não desenvolvidas para esta aplicação. Sendo assim, estas
não têm total êxito nesta aplicação.
57
REFERÊNCIAS BIBLIOGRÁFICAS
ALBUQUERQUE, C.; JULIO, E. P.; BRASIL, W. G. Esteganografia e suas aplicações.
Sociedade Brasileira da Computação. Rio de Janeiro, p. 54-102. 2007.
AQUINO, L. D. Sistema de Ocultação de Dados em Áudio Através de Técnicas de
Compactação e Espalhamento Espectral. Universidade Regional de Blumenau. Blumenau.
2011.
BATTEZZATI, S. C. C. Comunicação Social com Software Livre. Universidade Metodista
de São Paulo - UMESP. São Bernado do Campo. 2009.
BECKER, R. et al. A SILENCE DETECTION AND SUPPRESSION TECHNIQUE
DESIGN FOR VOICE OVER IP SYSTEMS. Communications, Computers and signal
Processing, 2005. PACRIM. 2005 IEEE Pacific Rim Conference on, 24-26 Agosto 2005.
173 - 176.
BENDER, W. E. A. Techniques for data hiding. IBM Systems Journal, 35 p.313-336, Fev
Tabela 18 - Análise subjetiva com método CCR, para aplicação de dois diferentes níveis de inserção de sinal e alternando entre o 7º e o 8º bit. respectiva a segunda
avaliação subjetiva.
Gênero Idade Pratica Musica
Tempo (anos)
Participou de algum teste semelhante
Grupo_1 Grupo_2 Grupo_3
Masc 28 Não Não -2 -1 -1 Masc 21 Não Não 1 -2 -2 Masc 40 Sim 4 Não 1 -1 -3 Masc 21 Não Não 2 -1 -1 Fem 29 Não Não 0 -1 -2 Masc 33 Não Sim 2 1 0 Masc 19 Sim 6 Sim -3 -2 -3 Masc 25 Não Não -1 -2 -3 Fem 21 Não Sim -2 -1 -3 Masc 25 Não Não 1 -1 -3 Masc 28 Não Não 3 2 1 Masc 19 Sim 3 Sim 2 -1 -3 Masc 20 Não Não 2 2 2 Fem 21 Não Não 0 1 -1 Masc 22 Não Sim 2 2 2 Masc 33 Não Não -1 -2 -2 Fem 25 Não Sim 3 0 -3 Masc 25 Sim 10 Não 3 3 3 Fem 26 Não Não 1 1 -3 Fem 25 Não Não 1 1 2
Quantidade de Avaliações 20 20 20
Somatório das Avaliações 15 -2 -23
Média 0,75 -0,10 -1,15
Desvio Padrão 1,73 1,55 2,03 Fonte: O próprio Autor (2013)
68
Tabela 19 - Avaliação subjetiva de comparação, com áudio original, Utilizando a técnica deste trabalho de esteganografia com FHT, e LSB normal (aplicado no
domínio do tempo).
Gênero Idade Pratica Musica
Tempo (anos)
Participou de algum
teste semelhante
Grupo_1 Grupo_2 Grupo_3 Grupo_4
Masc 22 Não Não -3 -3 -3 -3 Fem 21 Não Sim 2 2 -2 2 Masc 33 Não Não 1 1 0 2 Masc 29 Não
APÊNDICE E – FLUXOGRAMA DO CÓDIGO FONTE DE ESTEGANOGRAFIA COM
DHT.
Figura 21 - Fluxograma do código fonte.
Fonte: O próprio autor (2013).
70
APÊNDICE F – CÓDIGO FONTE DE ESTEGANOGRAFIA COM DHT,
DESENVOLVIDO NO MATLAB.
%Alex de Souza %29/10/2003 % SET - INSERÇÃO DE WAV - INSERÇÃO DO TEXTO %===================================================================== clear all; vet_mais_menos = 2; %1,2 Se a inserção for menor que 30% por 1. %Set do algoritmo. LSB=7; %Set do bit que se deseja inserir o a informação Porcentagem_insercao = 30; %ex: 30, 70 100. intervalo= 0 a 100! befor_fft=1; %Fatores de correção para inserção em audios de 16 bits Multipli=1; %Fatores de correção para inserção em audios de 16 bits %lê audio [y_in, Fs,nbits,readinfo] = wavread( 'C:\Users\Keki\Documents\MATLAB\MATLAB_PROGRAMAS\sons_pcm\Choveu muito neste fim de semana\Choveu muito neste fim de semana.wav','double'); size_audio=length(y_in);% Comprimento do vetor com audio wav_dbl_8_bits=double(y_in(:,1));% Passa valores de inteiros para double. wav_dbl=(wav_dbl_8_bits); %Importa texto a ser ocultado. fid = fopen('C:\Users\Keki\Documents\MATLAB\MATLAB_PROGRAMAS\dado_ocultar\hino_gremio.txt', 'rt'); %arquivo a ser codificado arq_texto = fread(fid)'; %conteúdo do arquivo texto_bin=dec2bin(arq_texto); %Organiza conteudo em bin do arq_texto em uma unica célula. acum=0; size_texto = size(texto_bin); for linhas=1:size_texto(1,1) for colunas= 1:size_texto(1,2) acum=acum+1; vet_data_acum(1,acum)=texto_bin(linhas,colunas); end end % Logica da porcentagem de inserção de texto no áudio. Porc_insercao=(size_audio*(Porcentagem_insercao/100)-nbits); %Mensura quantas vezes irão caber do texto dentro do áudio. size_texto_acum=length(vet_data_acum); espaco_lsb_8bits=size_audio./nbits; texto_inteiro=fix((Porc_insercao./nbits)./size_texto(1,1)); letras_soltas=fix((Porc_insercao./nbits)-texto_inteiro*size_texto(1,1)); texto_100_porc = letras_soltas*nbits+size_texto(1,1)*texto_inteiro*nbits; %incrementa o vetor de acordo com a porcentagem desejada a ser inserida. new_vet_acum=0;
71
if texto_inteiro==0; new_vet_acum = [vet_data_acum(1,1:(letras_soltas*nbits))]; else for aux=1:texto_inteiro new_vet_acum=[new_vet_acum vet_data_acum]; if texto_inteiro == aux new_vet_acum= [new_vet_acum vet_data_acum(1,1:(letras_soltas*nbits))]; end; end; end; size_new_vet=length(new_vet_acum); %===================================================================== %Alex de Souza %29/10/2003 %DHT - OCULTAÇÃO - EXPORTA WAV %===================================================================== wav_dbl=(wav_dbl.*befor_fft);% fator de conversão para áudios de 16bits Eixo_y_fft = fft(wav_dbl);%função FFT Eixo_y_fht = real(Eixo_y_fft) - imag(Eixo_y_fft);%Equivalência do Hartley com Fourier. Eixo_y_fht(1:2,1) = 1; %limpa ruido DC caracteristico do programa para sinal WAV. Eixo_y_fht_multip=Eixo_y_fht.*Multipli;%Multiplica vetor float para áudios de 16bits Eixo_y_fht_int = round(Eixo_y_fht_multip);%Arredonda valores. %Cria vetor com sinais para retornar no final. for m=1:1:(size(Eixo_y_fht_int)) Eixo_y_fht_int(m,1); if Eixo_y_fht_int(m,1)<0; Eixo_y_fht_sinal(m,1)=-1; else Eixo_y_fht_sinal(m,1)=1; end; end; Eixo_y_fht_int_posit=abs(Eixo_y_fht_int);%Encontra o módulo dos valores (função ABS();). size_vet_fht=(size(Eixo_y_fht_int_posit));%Comprimento do vetor vet_bin_freq = dec2bin (Eixo_y_fht_int_posit);%converte decimal para binário size_vet_bin=size(vet_bin_freq); size_vet_bin=size_vet_bin(1,2); %ESSE TRECHO INSERIR DADOS DO DOMINIO DA FREQUENCIA DE HARTLEY size_vet_fht=size_vet_fht(1,1); %Metade do vetor do audio em frequencia metade=size_vet_fht/2; % Encontra posição para iniciar a inserção de texto no audio. size_vet_data_acum_metade=size_new_vet/2; inicio=(metade-size_vet_data_acum_metade)-1; inicio=fix(inicio); fim=size_new_vet; % Inserção do texto no vetor de áudio. for freq_inicio=1:1:fim local_vet=0; local_vet=inicio+freq_inicio; vet_bin_freq(local_vet,LSB)= new_vet_acum(1,freq_inicio); end
72
%Manipula vetor, convertendo para decimal=>double=>retirando_ganho_áudio_16bits vet_dec_freq=bin2dec(vet_bin_freq); dbl_fht=double(vet_dec_freq); %Converte para Double. dbl_fht=dbl_fht.*Eixo_y_fht_sinal; % Adiciona sinal retirado função (abs) wav_dbl_fht=dbl_fht./Multipli; % Retira ganho para sinais 16 bits. % Inicial a Transformada Inversa de Hartley. Eixo_y_fft_ret = fft(wav_dbl_fht); Eixo_y_ifht = (real(Eixo_y_fft_ret) - imag(Eixo_y_fft_ret))/prod(size(Eixo_y_fft_ret)); Eixo_y_ifht=(Eixo_y_ifht./befor_fft); % Retira ganho para sinais 16 bits. % Reproduz áudio antes de exportar, com mensagem já inserida. sound(Eixo_y_ifht,Fs); wavwrite(Eixo_y_ifht,Fs,16,'C:\Users\Keki\Documents\MATLAB\MATLAB_PROGRAMAS\sons_pcm\Choveu muito neste fim de semana\Choveu muito_30_7bit.wav') %===================================================================== %Alex de Souza %29/10/2003 % Importa - Extrai Texto - Exporta Texto %===================================================================== [y_ext, Fs_ext,nbits_ext,readinfo_ext] = wavread('C:\Users\Keki\Documents\MATLAB\MATLAB_PROGRAMAS\sons_pcm\Choveu muito neste fim de semana\Choveu muito_30_7bit.wav','double'); size_ext=size(y_ext); size_ext=size_ext(1,1); % Passa valores de inteiros para double. wav_dbl_rec=double(y_ext); wav_dbl_rec=(wav_dbl_rec.*befor_fft);%Ganho para sinais 16 bits Eixo_y_fft_ext = fft(wav_dbl_rec);%função FFT %Equivalência do Hartley com Fourier. Eixo_y_fht_ext = real(Eixo_y_fft_ext) - imag(Eixo_y_fft_ext); Eixo_y_fht_ext(1:2,1) = 1; %Multiplica vetor float(evitar grande perda de qualidade)para sinais 16 bits Eixo_y_fht_multip_ext=Eixo_y_fht_ext.*Multipli; %Ganho para sinais 16 bits Eixo_y_fht_int_ext = round(Eixo_y_fht_multip_ext);%Arredonda valores. %Cria vet com sinais para retornar no final. for m=1:1:(size(Eixo_y_fht_int_ext)) Eixo_y_fht_int_ext(m,1); if Eixo_y_fht_int_ext(m,1)<0; Eixo_y_fht_sinal_ext(m,1)=-1; else Eixo_y_fht_sinal_ext(m,1)=1; end; end; %Encontra o módulo dos valores função ABS(). Eixo_y_fht_int_posit_ext=abs(Eixo_y_fht_int_ext); size_vet_fht_ext=(size(Eixo_y_fht_int_posit_ext));%Comprimento do vetor vet_bin_freq_ext = dec2bin (Eixo_y_fht_int_posit_ext);%converte decimal para binario
73
%RECUPERA TEXTO. start=(inicio+vet_mais_menos); stop=(start+fim)-1; bb1=vet_bin_freq_ext(start:stop,LSB); linha_ext=fix(size_new_vet/8); inc=0; for x=1:1:linha_ext for y=1:1:8 inc=inc+1; texto_recuperado(x,y)=bb1(inc,1); end end texto_dec=bin2dec(texto_recuperado); texto_dec=texto_dec'; texto_char=char(texto_dec); texto_original=char(arq_texto);%texto original size_coluna=size(texto_original); size_coluna=size_coluna(1,2); ah=0; colunas=size_coluna; size_char=size(texto_char); linhas=size_char./colunas; for mx=1:colunas for my=1:linhas ah=ah+1; texto_fim_0(my,mx)=texto_char(ah,1); end; end; %Exporta para um arquivo TXT. fid = fopen('C:\Users\Keki\Documents\MATLAB\MATLAB_PROGRAMAS\dado_ocultar\decoded.txt', 'wt'); fwrite(fid, texto_dec, 'char'); fclose(fid); %Manipula vetor, convertendo para decimal=>double=>retirando_ganho vet_dec_freq_ext=bin2dec(vet_bin_freq); vet_dbl_ext=double(vet_dec_freq_ext); vet_dbl_ext=vet_dbl_ext.*Eixo_y_fht_sinal_ext; wav_dbl2_ext=vet_dbl_ext./Multipli; wav_dbl2_ext=double(wav_dbl2_ext); % Inicial a Transformada Inversa de Hartley. Eixo_y_fft_ret_ext = fft(wav_dbl2_ext); Eixo_y_ifht_ext = (real(Eixo_y_fft_ret_ext) - imag(Eixo_y_fft_ret_ext))/prod(size(Eixo_y_fft_ret_ext)); Eixo_y_ifht_ext=Eixo_y_ifht_ext./befor_fft; Plot(Eixo_y_ifht_ext); %=====================================================================