APLICAÇÕES DE TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL PARA CLASSIFICAÇÃO GENÉTICA DE AMOSTRAS DE ÓLEO DA PORÇÃO TERRESTRE, BACIA POTIGUAR, BRASIL Erica Tavares de Morais DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL. Aprovada por: _____________________________________________ Prof. Luiz Landau, D.Sc. _____________________________________________ Dr. Henrique Luiz de Barros Penteado, Ph.D. _____________________________________________ Prof. Nelson Francisco Favilla Ebecken, D.Sc. _____________________________________________ Dr. Luiz Antonio Freitas Trindade, Ph.D. _____________________________________________ Dr. Eugênio Vaz dos Santos Neto, Ph.D. RIO DE JANEIRO, RJ – BRASIL JUNHO DE 2007
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
APLICAÇÕES DE TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL PARA
CLASSIFICAÇÃO GENÉTICA DE AMOSTRAS DE ÓLEO DA PORÇÃO TERRESTRE,
BACIA POTIGUAR, BRASIL
Erica Tavares de Morais
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS
PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE
FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS
PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA
CIVIL.
Aprovada por:
_____________________________________________
Prof. Luiz Landau, D.Sc.
_____________________________________________
Dr. Henrique Luiz de Barros Penteado, Ph.D.
_____________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
_____________________________________________
Dr. Luiz Antonio Freitas Trindade, Ph.D.
_____________________________________________
Dr. Eugênio Vaz dos Santos Neto, Ph.D.
RIO DE JANEIRO, RJ – BRASIL
JUNHO DE 2007
ii
MORAIS, ERICA TAVARES DE
Aplicações de Técnicas de Inteligência
Artificial para Classificação Genética de
Amostras de Óleo da Porção Terrestre, da
Bacia Potiguar, Brasil [Rio de Janeiro] 2007
XVII, 277 p. 29,7 cm (COPPE/UFRJ,
M.Sc., Engenharia Civil, 2007)
Dissertação – Universidade Federal do Rio
de Janeiro, COPPE
1. Geoquímica Orgânica;
2. Inteligência Artificial;
3. Bacia Potiguar.
I. COPPE/UFRJ II. Título (série).
iii
“O grande segredo dos negócios é
saber aquilo que ninguém mais sabe”. Aristóteles Onassis.
“Dedico esta dissertação ao meu pai”.
(in memorian).
iv
AGRADECIMENTOS:
Agradeço a todos que estiveram ao meu lado e ajudaram de alguma forma
direta ou indiretamente, e especialmente:
A minha mãe por ter me dado durante toda a minha vida um grande exemplo e
ter me incentivado a todo o momento.
Ao meu noivo Thiago, por ter me dado amor e carinho, durante os momentos
de felicidade e tristeza, e por ter me ajudado na confecção de alguns perfis.
A PETROBRAS pela liberação dos dados e incentivo não apenas a seus
funcionários, mas a estudantes na aquisição do conhecimento.
Ao gerente da Gerência de Geoquímica, Luiz Antonio Freitas Trindade, por ter
me dado a oportunidade e apoio na execução deste trabalho mesmo antes,
quando apenas aluna, e depois já como funcionária.
Ao meu orientador Henrique Penteado pelas horas de ensinamento, apoio e
dedicação que fizeram este trabalho ganhar forma, por quem tenho respeito e
admiração.
Ao programa de Eng. Civil da COPPE/UFRJ e todos os seus funcionários.
Ao professor Luiz Landau pela dedicação com seus alunos e por ter
transformado “O Sistemas Petrolíferos” uma referência em qualidade e
formação.
Ao geólogo Jarbas V. P. Guzzo, por ter me apresentado à Bacia Potiguar,
cenário deste estudo. E por ter me cedido, gentilmente, sua tabela de
classificação de óleos, ainda em estudo.
Aos integrantes da banca Luiz Antonio Freitas Trindade, Eugênio Vaz dos
Santos Neto e Nelson Francisco Favilla Ebecken por terem aceitado o convite
e acrescentaram sugestões valiosas ao trabalho.
A todos os técnicos em química da Gerência de Geoquímica pela execução
das análises laboratoriais.
Ao geólogo Mário Duncan Rangel pela eterna orientação e amizade ao longo
destes anos de convivência.
À professora Soraia Gardel Carelli por ter acreditado, e ter se tornado uma
peça chave a minha inserção no setor do petróleo.
As amigas Helen, Aninha e Joelma pela amizade, sugestões e especialmente
os momentos inenarráveis de diversão.
Aos colegas de trabalho da Gerência de Geoquímica.
Deixo aqui registrado o meu MUITO OBRIGADO a todos!
v
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
APLICAÇÕES DE TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL PARA
CLASSIFICAÇÃO GENÉTICA DE AMOSTRAS DE ÓLEO DA PORÇÃO TERRESTRE,
BACIA POTIGUAR, BRASIL
Erica Tavares de Morais
Junho/2007
Orientadores: Henrique Luiz de Barros Penteado
Luiz Landau
Programa: Engenharia Civil
A Geoquímica Orgânica é uma poderosa ferramenta no auxílio à exploração de
petróleo. Com o passar dos anos e o constante desenvolvimento das técnicas
analíticas, tem-se observado uma incalculável proliferação de dados, onde
conhecimento se encontra “escondido”. A busca por novos padrões de informações e
a rapidez nas respostas são variáveis que assombram especialistas na exploração de
petróleo. Neste contexto, este trabalho descreve a aplicação de duas técnicas de
Inteligência Artificial (Árvores de Decisão - AD’s e Redes Neurais Artificiais – RNA’s)
no auxílio à determinação das classes genéticas em amostras de óleo com bases em
parâmetros geoquímicos. Para o desenvolvimento do trabalho, foi escolhida a Bacia
Potiguar (porção terrestre) por possuir mais de um Sistema Petrolífero conhecido e
uma vasta literatura a respeito do assunto. A primeira etapa do estudo consistiu na
amostragem a partir do banco de dados original. Para isto, foi proposta uma
metodologia que agrega a seleção aleatória tradicional com Análise de Cluster, que se
mostrou bastante eficiente. Em um segundo momento, foi realizado um refinamento na
classificação genética pré-existente dos óleos, e estas novas classes foram aplicadas
na terceira etapa do trabalho, onde foram gerados os modelos a partir das técnicas de
AD’s e RNA’s. A última etapa consistiu na avaliação dos resultados obtidos por cada
técnica através de um estudo comparativo. Os resultados obtidos mostram que é
possível desenvolver, com sucesso, algoritmos eficientes para determinar a classe
genética em amostras de óleo, auxiliando assim no processo de tomada de decisões
em Geoquímica Orgânica.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
APPLICATION OF ARTIFICIAL INTELLIGENCE TECHNIQUES FOR THE GENETIC
CLASSIFICATION OF OIL SAMPLES FROM ONSHORE POTIGUAR BASIN, BRAZIL
Erica Tavares de Morais
June/2007
Advisors: Henrique Luiz de Barros Penteado
Luiz Landau
Department: Civil Engineering
Organic Geochemistry is a powerful tool for petroleum exploration. As time goes
by, the constant development of the analytical techniques, has produced an impressive
proliferation of data where much information is “hidden”. The search for new patterns of
information and the speed in the answers are variables that astonish specialists in
petroleum exploration. In this context, this work describes the application of two
techniques of Artificial Intelligence (Decision Trees and Neural Networks) as an aid to
the determination of the genetic classes of oil samples based on geochemical
parameters. For the development of this work, the Potiguar Basin (onshore) was
chosen, because it contains more than one Petroleum System and a vast literature
about the subject. The first stage of the study consisted in sampling from the original
database. A methodology was proposed that joins the traditional random selection with
Cluster Analysis. This combination was shown to be quite efficient. In a second step, a
refinement was accomplished in the previous genetic classification of the oils, and
these new classes were applied to the third stage of this work, in which models were
generated using the techniques of Decision Trees and Neural Networks. The last stage
consisted in the evaluation of the results obtained by each technique by a comparative
study. The results show that it is possible to successfully develop, efficient algorithms
to determine the genetic classes in oil samples, thus helping decision making process
2.4) Estratigrafia da Bacia Potiguar -----------------------------------------------------------------16
CAPÍTULO 3: SISTEMAS PETROLÍFEROS E GEOQUÍMICA DAS ROCHAS GERADORAS E ÓLEOS ------------------------------------------------------------------------------23
Índice de Figuras: CAPÍTULO 1 Figura 1.1: Etapas do KDD, segundo FAYYAD et al. (1996). ---------------------------------5 CAPÍTULO 2 Figura 2.1: Mapa de localização da Bacia Potiguar (modificado de BERTANI et al.,
Figura 2.2: Gráfico mostrando a participação na produção de óleo da Bacia Potiguar
(terra) na produção nacional (terra e mar) (ANP, 2007). ----------------------------------------9
Figura 2.3: Principais feições estruturais da Província Borborema (BRITO NEVES,
1998). -------------------------------------------------------------------------------------------------------10 Figura 2.4: Mapa estrutural com as principais unidades do arcabouço estrutural da
Bacia Potiguar (Modificado de FRANÇOLIN & SZATMARI, 1987). ------------------------14
Figura 2.5: Seção geológica da Bacia Potiguar (terra) da área indicada no mapa da
Fig. 2.4 (modificado de MATOS, 1987). -----------------------------------------------------------15 Figura 2.6: Carta estratigráfica da Bacia Potiguar (modificado de ARARIPE & FEIJÓ
1994). -------------------------------------------------------------------------------------------------------17 CAPÍTULO 3 Figura 3.1: Modelos de acumulação na seqüência rift (modificado de BERTANI et al.
Figura 3.2: Modelos de acumulação na seqüência transicional (modificado de
BERTANI et al. 1991). ----------------------------------------------------------------------------------29
Figura 3.3: Modelos de acumulação na seqüência drift transgressiva (modificado de
BERTANI et al., 1991). ---------------------------------------------------------------------------------31
Figura 3.4: Modelo de acumulação na seqüência drift regressiva (modificado de
BERTANI et al., 1991). ---------------------------------------------------------------------------------32 Figura 3.5: Carta de eventos para os sistemas petrolíferos Pendência (!) e Alagamar-
Açu (!) (modificado de ANP, 2002). -----------------------------------------------------------------33 Figura 3.6: Perfil geoquímico do poço 1-UPN-1-RN mostrando os valores de COT, S2,
IH, IO, Ro, Tmax e S1 dos depósitos hipersalinos na Formação Pendência, segundo
(MELLO et al., 1993). -----------------------------------------------------------------------------------36
xi
CAPÍTULO 4 Figura 4.1: Fluxograma mostrando as técnicas analíticas realizadas nos laboratórios
do Centro de Excelência em Geoquímica e na Gerência de Avaliação de Petróleo. --42 Figura 4.2: Diagrama ternário mostrando o comportamento na concentração dos
compostos do petróleo de acordo com o aumento da degradação (modificado de
TISSOT & WELTE, 1984). ----------------------------------------------------------------------------43 Figura 4.3: Equipamento para cromatografia líquida Knauer MPLC. ----------------------44 Figura 4.4: Cromatógrafo a gás Hewlett-Packard, modelo HP 6890A. --------------------45
Figura 4.5: Modelo esquemático do funcionamento de um cromatógrafo a gás
(modificado de COLLINS et al., 1997). -------------------------------------------------------------46 Figura 4.6: Exemplo de cromatograma gasoso e respectivos fragmentogramas dos
íons (m/z) 191 e 217 de uma amostra de óleo lacustre da Bacia Potiguar. --------------48 Figura 4.7: Espectrômetro de massas Micromass acoplado ao cromatógrafo a gás
Hewlett-Packard, modelo HP 6890 Series. -------------------------------------------------------48
Figura 4.8: Modelo esquemático de um cromatógrafo acoplado a um espectrômetro de
massas e suas respectivas funções (modificado de PETERS & MOLDOWAN, 1993).---
Figura 4.9: Espectrômetro e massas MAT 252 da Finnigan utilizado na análise
isotópica de carbono em óleos. ----------------------------------------------------------------------51
Figura 4.10: Densitômetro digital ANTON PARR, modelo DMA-602. ----------------------52 CAPÍTULO 5 Figura 5.1: Exemplo de arquitetura de uma RNA de três camadas. -----------------------57 Figura 5.2: Tipos de neurônios biológicos (SILVA JÚNIOR & SASSON, 1996). --------58 Figura 5.3: Esquema da propagação do impulso nervoso em um neurônio (modificado
de LOPES, 1997). ---------------------------------------------------------------------------------------59 Figura 5.4: Modelo esquemático da unidade fundamental de uma RNA, o neurônio
artificial. ----------------------------------------------------------------------------------------------------60 Figura 5.5: Exemplo de funções de ativação. ----------------------------------------------------61 Figura 5.6: Estrutura unidirecional em uma RNA de quatro camadas. --------------------63 Figura 5.7: Estrutura recorrente em uma das camadas de uma RNA. --------------------64 Figura 5.8: Esquema de aprendizado supervisionado. ----------------------------------------65 Figura 5.9: Esquema de aprendizado não supervisionado. ----------------------------------66 Figura 5.10: Exemplo de arquitetura de uma rede neural artificial de quatro camadas
tipo MLP. ---------------------------------------------------------------------------------------------------67 Figura 5.11: Fluxo do sinal no neurônio de saída k. --------------------------------------------69
xii
Figura 5.12: Panorama do erro quadrático com um mínimo local (modificado de
KOVÁCS, 1996). -----------------------------------------------------------------------------------------71 Figura 5.13: Exemplo de estrutura de uma Árvore de Decisão binária. -------------------75 Figura 5.14: Exemplo de partições de um espaço de objetos que possui apenas duas
classes (modificado de LUCENA & DE PAULA, 2001). ---------------------------------------76 Figura 5.15: Árvore de Decisão obtida para o conjunto de dados apresentados na
tabela 5.1. -------------------------------------------------------------------------------------------------78 Figura 5.16: Gráfico mostrando os valores de entropia em função da probabilidade.--81 CAPÍTULO 6 Figura 6.1: Perfis cromatográficos de óleo total, fragmentogramas de massas e valores
isotópicos de carbono para as três diferentes famílias de óleos encontradas na porção
terrestre da Bacia Potiguar (modificado de RODRIGUES et al., 1983). -------------------87 Figura 6.2: Mapa com a localização dos principais campos da Bacia Potiguar
(modificado de BERTANI et al., 1991). ------------------------------------------------------------88 Figura 6.3: Perfis cromatográficos de óleo total, fragmentogramas de massas e valores
isotópicos para as três diferentes famílias de óleos encontradas na porção terrestre da
Bacia Potiguar (modificado de MELLO et al., 1984). -------------------------------------------90 Figura 6.4: Mapa com a distribuição geográfica dos diferentes tipos de óleos
encontrados na Bacia Potiguar terra (modificado de SANTOS NETO et al., 1990). ---94 Figura 6.5: Cromatogramas gasosos de quatro amostras de óleo mostrando diferentes
níveis de biodegradação. ------------------------------------------------------------------------------95 Figura 6.6: Fluxograma mostrando as etapas seguidas para a seleção das amostras. --
---------------------------------------------------------------------------------------------------------------106 Figura 6.7: Distância Euclidiana entre dois pontos em um espaço bidimensional para
as variáveis X1 e X2. -----------------------------------------------------------------------------------109 Figura 6.8: Diagramas triangulares representando as porcentagens de compostos
saturados, aromáticos e NOS (resinas e asfaltenos) para as 200 amostras de óleo na
Bacia Potiguar terrestre separadas em suas diferentes classes. -------------------------111 Figura 6.9: Gráfico entre o grau API versus porcentagem de enxofre para as amostras
da porção terrestre da Bacia Potiguar utilizadas neste estudo. ----------------------------112 Figura 6.10: Gráfico entre o grau API versus porcentagem de compostos NOS (resinas
e asfaltenos) para as amostras da porção terrestre da Bacia Potiguar utilizadas neste
estudo. ----------------------------------------------------------------------------------------------------112 Figura 6.11: Cromatogramas Gasosos representando as diferentes classes de óleo
recuperados na Bacia Potiguar terra. -------------------------------------------------------------113
xiii
Figura 6.12: Mapa com a distribuição geográfica das diferentes classes de óleos
encontradas na Bacia Potiguar terra, baseadas neste estudo. ----------------------------114
Figura 6.13: Exemplos de fragmentogramas de massas m/z 191, m/z 217 e m/z 259 de
óleos das classes lacustre siliciclástico, subgrupos A e B. Observar a diferença quanto
à concentração dos compostos tricíclicos em relação aos pentacíclicos. ---------------117 Figura 6.14: Gráficos mostrando os principais diferenças observadas nos óleos
classificados como lacustre siliciclástico. --------------------------------------------------------118 Figura 6.15: Gráficos mostrando os principais diferenças observadas nos óleos
classificados como lacustre. ------------------------------------------------------------------------122 Figura 6.16: Exemplos de fragmentogramas de massas m/z 191, m/z 217 e m/z 259 de
óleos das classes lacustre A e B. Observar a presença em maior proporção dos
compostos C29Ts e diahopano na amostra da classe lacustre B. -------------------------123 Figura 6.17: Gráficos mostrando as diferenças de qualidade nos óleos mistos dos
Trends de Carnaubais e Areia Branca. Em (a) parâmetros globais º API x %S, e em (b)
dados de cromatografia líquida. --------------------------------------------------------------------126 Figura 6.18: Gráficos mostrando os principais diferenças observadas nos óleos
classificados como mistos. --------------------------------------------------------------------------127 Figura 6.19: Gráficos mostrando os principais diferenças observadas nos óleos
classificados como mistos. --------------------------------------------------------------------------128 Figura 6.20: Fragmentogramas de massas íons m/z 191, 217 e 259 de um óleo da
classe Misto Trend de Areia Branca e outro Misto Trend de Carnaubais. --------------129 Figura 6.21: Exemplos de resultados de cromatografia líquida e gasosa,
espectrometria de massas e isótopos de carbono total em óleos pertencentes às
Bacias do Ceará e Potiguar, mostrando a alta correlação óleo-óleo entre as duas
amostras e classificados como óleos marinho-evaporíticos. -------------------------------130 Figura 6.22: Gráficos mostrando a menor qualidade dos óleos da classe marinho-
evaporítico em relação aos demais óleos da bacia. Em (a) parâmetros globais º API x
%S, e em (b) dados de cromatografia líquida. -------------------------------------------------131 Figura 6.23: Gráfico entre porcentagem de compostos NSO e somatório de
biomarcadores (hopanos e esteranos) em ppm na fração dos C14+ saturados. -------132 Figura 6.24: Gráficos mostrando as principais diferenças observadas nos óleos da
classe marinho-evaporítico em relação às demais classes da bacia Potiguar, porção
terrestre. --------------------------------------------------------------------------------------------------133 Figura 6.25: Gráficos mostrando a correlação entre os óleos da classe marinho-
evaporítico com os extratos da Formação Alagamar (CES 07 e SO-05) e os óleos
marinho-evaporítico dos poços CES-08 e 14. --------------------------------------------------134
xiv
Figura 6.26: Fragmentogramas de massas íons m/z 191, 217 e 259 de um óleo
marinho-evaporítico e outro misto Trend de Carnaubais mostrando a semelhança
visual entre os perfis. ---------------------------------------------------------------------------------136
Figura 6.27: Gráfico mostrando o aumento na salinidade da água do ambiente da
rocha geradora, dos óleos da porção terrestre da Bacia Potiguar. -----------------------137 CAPÍTULO 7 Figura 7.1: Tela de apresentação do programa WEKA e suas principais
Figura 7.2: Exemplo de tabela de dados em formato .csv para entrada de dados no
software WEKA, visualizada no editor de texto Word pad®. -------------------------------141 Figura 7.3: Arquitetura da Árvore de Decisão gerada com 60 variáveis e Fator de
Confiança de 0,02. -------------------------------------------------------------------------------------150 Figura 7.4: Arquitetura da AD gerada com 60 variáveis e Fator de Confiança 0,5. --152 Figura 7.5: Arquitetura da AD com 25 variáveis e Fator de Confiança de 0,02. -------157 CAPÍTULO 8 Figura 8.1: Esquema ilustrando o momento em que a Árvore de Decisão foi podada e
acarretou a classificação incorreta de uma amostra da classe Lacustre B como
Lacustre A. Os gráficos apresentam os limites empregados pelo algoritmo na distinção
das classes. Observar a amostra classificada erroneamente destacada com um
quadrado vermelho no gráfico DIA/C27αα versus αββ/(αββ+ααα). -----------------------168 Figura 8.2: Criação da 11ª regra da Árvore de Decisão que permitiu a classificação
correta da amostra da classe Lacustre B. Árvore gerada com 60 variáveis e Fator de
Confiança de 0,5 e 0,9. -------------------------------------------------------------------------------169 Figura 8.3: Árvore de Decisão gerada com 25 variáveis e Fator de Confiança de 0,02,
0,5 e 0,9. -------------------------------------------------------------------------------------------------172 Figura 8.4: Gráfico mostrando a presença de 17 amostras (35%) da classe Lacustre A
que possuem valores da razão Gam/H30 inferior a 0,2151, concordando com a regra
apresentada pela Árvore de Decisão. ------------------------------------------------------------173 Figura 8.5: Gráficos mostrando os limites das razões 21+22/STER e TR23/H30. Em (a)
observar a presença de poucas amostras da classe Misto Trend de Areia Branca na
vizinhança do valor limite calculado. Em (b) observar a grande quantidade de amostras
da classe Misto Trend de Carnaubais próximo ao limite da razão para a classe
Figura 8.6: Fragmentogramas de massas m/z 191 e 217 de um óleo típico da classe
Lacustre A, do óleo classificado incorretamente e de um óleo da classe Lacustre
Siliciclástico B e outro da classe Lacustre B. ---------------------------------------------------177
xvi
Índice de Tabelas: CAPÍTULO 3 Tabela 3.1: Comparação proposta por RODRIGUES (1983) para os óleos de origem
continental e transicional. ------------------------------------------------------------------------------39
CAPÍTULO 5 Tabela 5.1: Exemplo de dados para construção de uma Árvore de Decisão. -----------78 CAPÍTULO 6 Tabela 6.1: Parâmetros geoquímicos diagnósticos adotados para discriminação
genética de óleos na Bacia Potiguar. -------------------------------------------------------102/104 Tabela 6.2: Número de amostras por classe contidas no conjunto amostrado. -------110 Tabela 6.3: Principais parâmetros geoquímicos adotados para discriminação genética
dos óleos presentes no conjunto amostrado da Bacia Potiguar, porção terrestre. ---116 CAPÍTULO 7 Tabela 7.1: Variáveis de entrada empregadas para a construção do modelo “baseado
em todas as variáveis”. ------------------------------------------------------------------------------142 Tabela 7.2: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 60 variáveis para os dados brutos. ---------------------------144 Tabela 7.3: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 60 variáveis para os dados padronizados. -----------------145 Tabela 7.4: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 60 variáveis para os dados organizados aleatoriamente. ---
---------------------------------------------------------------------------------------------------------------146 Tabela 7.5: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 60 variáveis e Fator de Confiança de 0,02. ----------------149 Tabela 7.6: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 60 variáveis e com Fator de Confiança de 0,5. -----------151 Tabela 7.7: Variáveis de entrada empregadas para a construção do modelo “baseado
nas variáveis escolhidas durante a classificação”. --------------------------------------------155 Tabela 7.8: Relatório-padrão do software WEKA com os resultados da classificação
por Árvore de Decisão com 25 variáveis com Fator de Confiança de 0,02. ------------156 Tabela 7.9: Relatório-padrão do software WEKA com os resultados da classificação
por Redes Neurais Artificiais para o conjunto com 60 variáveis. --------------------------161
xvii
Tabela 7.10: Relatório-padrão do software WEKA com os resultados da classificação
por Redes Neurais Artificiais para o conjunto com 25 variáveis. --------------------------164
1
CAPÍTULO
1
1. INTRODUÇÃO Este capítulo tem como objetivo introduzir o leitor ao contexto do trabalho através de uma visão geral do assunto abordado. Para isso, este capítulo destacará a importância do tema estudado, a definição do problema, suas justificativas, objetivos e, por fim, a organização do trabalho.
1.1) Considerações Iniciais A Geoquímica Orgânica possui grande importância na exploração de petróleo,
visto o grande desenvolvimento das técnicas analíticas que possibilitaram a aquisição
de dados para apoiar o entendimento do processo de geração-migração-acumulação
do petróleo.
A intensificação dos trabalhos no setor de exploração de petróleo do final da
década de 60 em diante, em especial após a descoberta de acumulações comerciais
na plataforma continental e em terra, tornou disponível cada vez mais uma crescente
proliferação de dados.
Durante os últimos anos, em função não apenas da demanda da exploração,
mas também do desenvolvimento das técnicas analíticas, tem-se verificado um
crescimento substancial da quantidade de dados armazenados de forma digital. Estes
dados, produzidos e armazenados em larga escala, acabam-se tornando inviáveis de
serem lidos ou analisados por especialistas através de métodos manuais tradicionais,
tais como planilhas de cálculo e relatórios informativos operacionais, onde o
especialista testa sua hipótese contra a base de dados.
Desta forma, em meio a esta imensa quantidade de dados, pode-se esconder
informações valiosas. Portanto, não basta apenas simplesmente armazenar dados, é
preciso transformá-los em informação! Um dado se transforma em informação quando
ganha um significado para seu usuário, caso contrário continua sendo simplesmente
um dado.
2
Como explorar um Banco de Dados e extrair deste as informações úteis? O
processo de capaz de descobrir conhecimento em Banco de Dados chama-se KDD
(Knowledge Discovery Database). O processo de KDD foi proposto em 1989 para
referir-se às etapas que produzem conhecimento a partir de dados e, principalmente, à
etapa de mineração de dados, que é a fase que transforma dados em informação
(FAYYAD et al., 1996). Este processo envolve desde encontrar a interpretar padrões
nos dados, de modo iterativo, interativo, cognitivo e exploratório, através da repetição
dos algoritmos e da análise de seus resultados. Este processo apresenta diversas
fases (Figura 1.1) com muitas decisões realizadas pelo analista, conforme descrito
por, FAYYAD et al. (1996):
Criação de um conjunto de dados alvos (SELEÇÃO): consiste em selecionar
um conjunto de dados, ou focar em um subconjunto, onde a descoberta deverá
ser realizada.
Limpeza dos dados e pré-processamento (PRÉ-PROCESSAMENTO): um dos
grandes problemas encontrados quando se trabalha com muitos dados é a
presença de dados de baixa qualidade, o que impõe uma perda na qualidade
dos resultados do aprendizado automático. Buscando-se minimizar estas
perdas, o pré-processamento dos dados é uma fase importante. Operações
básicas devem ser realizadas tais como remoção de ruídos quando necessário,
coleta da informação necessária para modelar ou estimar ruído, escolha de
estratégias para manipular campos de dados ausentes, e formatação de dados
de forma a adequá-los à ferramenta de mineração.
Redução de dados e projeção (TRANSFORMAÇÃO): compreende a
localização de características úteis para representar os dados em função do
objetivo da tarefa, visando a redução do número de variáveis e/ou instâncias a
serem consideradas para o conjunto de dados final, bem como o
enriquecimento semântico das informações.
Busca por padrões e/ou associações (MINERAÇÃO DE DADOS): consiste em
selecionar os métodos a serem utilizados para localizar padrões nos dados,
seguido da efetiva busca por modelos de interesse numa forma particular de
representação ou conjunto de representações; busca pelo melhor ajuste dos
parâmetros do algoritmo para a tarefa em questão.
Interpretação dos padrões minerados (INTERPRETAÇÃO): é a fase onde o(s)
especialista(s) avalia(m) os resultados obtidos e pode(m) retornar aos passos
anteriores para reparar algum equívoco ou falha, ou então incorporar o
conhecimento alcançado à performance do sistema, documentá-lo e reportá-lo
às partes interessadas.
3
Figura 1.1: Etapas do Knowledge Discovery Database (KDD), segundo FAYYAD et al. (1996).
Diferentes modelos podem ser aplicados aos bancos de dados para dar o
suporte necessário aos distintos problemas nas mais diversas áreas que possam
necessitar da busca por informações implícitas e padrões ocultos. Estes modelos são
divididos de acordo com a natureza da atividade, e os principais são:
PREDIÇÃO: realizado a partir de uma modelagem de dados do passado e do
presente, este sistema tem como produto final uma determinada previsão do
futuro. Ele baseia sua solução na análise do comportamento dos dados
recebidos do passado, e possui mecanismos para verificar os vários futuros
possíveis, a partir da análise do comportamento desses dados fazendo uso de
raciocínios hipotéticos e verificando a tendência de acordo com a variação dos
dados de entrada.
AGRUPAMENTO (CLUSTERING): o algoritmo cria classes através da
produção de partições dos dados em conjunto de tuplas. As partições são
realizadas de modo que as tuplas com valores de atributos semelhantes, ou
seja, propriedades de interesse comuns, sejam reunidas em uma mesma
classe.
CLASSIFICAÇÃO: consiste em associar um item a uma classe através do
relacionamento entre os atributos do objeto e os das classes em questão.
Estes modelos podem ser obtidos através de diferentes técnicas baseadas em
conceitos de aprendizado de máquina (Machine Learning), reconhecimento de
padrões e estatística. Alguns exemplos são: Lógica Fuzzy, Descoberta de Regras de
SELEÇÃOSELEÇÃO
Dados
DadosAlvo
DadosPré-processados
DadosTransformados
Padrões
Conhecimento
PRÉPRÉ--PROCESSAMENTOPROCESSAMENTO
TRANSFORMAÇÃOTRANSFORMAÇÃO
MINERAÇÃO DOS DADOSMINERAÇÃO DOS DADOS
INTERPRETAÇÃOINTERPRETAÇÃO
SELEÇÃOSELEÇÃO
Dados
DadosAlvo
DadosPré-processados
DadosTransformados
Padrões
Conhecimento
PRÉPRÉ--PROCESSAMENTOPROCESSAMENTO
TRANSFORMAÇÃOTRANSFORMAÇÃO
MINERAÇÃO DOS DADOSMINERAÇÃO DOS DADOS
INTERPRETAÇÃOINTERPRETAÇÃO
4
Associação, Árvores de Decisão, Algoritmos Genéticos, Redes Neurais Artificiais,
entre outros (DIAS, 2002 e CARVALHO, 2005).
Embora sistemas automáticos e especialistas humanos possam em alguns
casos desempenhar tarefas idênticas, as características de ambos são criticamente
diversas. Ainda que algumas vantagens evidentes associadas aos sistemas
automatizados existam, eles não poderão substituir os especialistas humanos em
todas as situações em virtude de algumas limitações inerentes, como por exemplo a
imparcialidade frente à capacidade discriminatória humana.
A capacidade mais útil de um sistema automático é sua especialidade de alto
nível que auxilia na solução dos mais diversos problemas. Este conhecimento
especializado pode representar a experiência dos melhores peritos no campo
estudado. Desta forma, sua especialização de alto nível, aliada à habilidade de
aplicação, torna seu custo competitivo e apto a ganhar credibilidade nas corporações.
A flexibilidade do sistema também auxilia no seu crescimento e aquisição de mais
informação através da sua atualização à medida que o conhecimento e o volume de
dados na área estudada aumenta e os especialistas humanos resolvem reportá-los ao
sistema.
O corpo de conhecimento que compõe um sistema automatizado representa a
memória institucional. Assim, se a base de informações foi desenvolvida através da
interação das pessoas-chave da organização, então esta compilação vem a ser o
consenso de opiniões de mais alto nível e se tornará um registro permanente das
melhores estratégias utilizadas, representando o conhecimento do grupo. Desta forma,
caso estas pessoas-chave venham a se desligar do grupo, suas experiências
permanecerão.
1.2) Motivação De um modo geral, as pesquisas baseadas em grandes volumes de dados na
área de Geoquímica Orgânica vêm sendo norteadas a partir de uma perspectiva
descritiva e preditiva, onde a Estatística, com toda sua fundamentação matemática é
uma ferramenta bem difundida e aceita. Atualmente, para montar as bases de
conhecimento, são montadas as regras como um primeiro formalismo para expressar
o conhecimento de uma maneira simbólica. As regras têm a vantagem de um
formalismo simples, uniforme, transparente e fácil de se fazer inferências, o que leva a
supor ser esta a melhor maneira de representar o conhecimento do mundo real.
5
A construção de modelos estatísticos costuma ser o método tradicionalmente
utilizado para derivar estas tendências. Entretanto, estatísticas tradicionais são
limitadas se levarmos em conta que a análise se torna trabalhosa o bastante quando o
número de variáveis a serem investigadas cresce seguidamente, os métodos
estatísticos possuem condições que limitam o número de casos a utilizar, fazendo com
que apenas uma pequena parte do universo esteja disponível para análise e, quando
os relacionamentos dos dados não são lineares, torna-se difícil empregar os métodos
estatísticos tradicionais. Além destes pontos, raramente se dispõe de técnicos
especializados para essa tarefa tão específica, que mesmo com ajuda de estatísticos
pode-se levar semanas para compor modelos tão complexos.
As pesquisas envolvendo Inteligência Artificial na Geoquímica Orgânica ainda
têm sua atuação de forma pontual. Na Geologia de uma maneira geral, concentram-se
esforços no desenvolvimento de Sistemas Especialistas para auxílio nas áreas de
mineração e caracterização de fácies reservatório.
Diante deste cenário, buscou-se testar a performance da metodologia de
descoberta de conhecimento no apoio à classificação genética de amostras de óleo a
partir de parâmetros geoquímicos. Para tal, seria necessário uma bacia que reunisse
um vasto e consagrado conhecimento técnico, possuísse pelo menos duas classes de
óleo, e cujo banco de dados fosse suficiente para uma amostragem. De acordo com
tais premissas, foi então escolhida a Bacia Potiguar.
A Bacia Potiguar está localizada na porção nordeste do continente Sul
Americano, nos estados do Rio Grande do Norte e Ceará, Brasil. A bacia ocupa uma
área de aproximadamente 60.000 Km2, dos quais 40% correspondem à porção
emersa, os demais se localizam na porção da plataforma e talude continental
(BERTANI et al, 1991). Estudos de Geoquímica Orgânica ao longo das últimas três
décadas identificaram pelo menos duas seqüências distintas de rochas geradoras
através da correlação óleo-rocha (RODRIGUES, 1983; MELLO et al., 1984;
2000). Porém, os óleos recuperados na bacia correspondem não apenas a
acumulações formadas pela carga individual destes geradores. A bacia apresenta
acumulações constituídas da mistura destes dois end-members de seqüências de
rochas geradoras, o que a torna mais propícia ao escopo proposto por este trabalho.
6
1.3) Objetivos
Este trabalho propõe o desenvolvimento de um classificador automático
baseado no estudo remoto por algoritmos associado ao conhecimento humano. Para
tal, foram escolhidas duas técnicas: a de Árvores de Decisão (AD’s), conhecida por ser
um modelo “caixa branca” que permite o usuário entender a formulação, bem como o
resultado do modelo gerado, e a de Redes Neurais Artificiais (RNA’s), técnica bastante
aceita na comunidade científica por sua capacidade de aprendizado e generalização,
mas que possui uma formulação estilo “caixa preta” que exclui o usuário do
entendimento por trás dos módulos de desenvolvimento e o deixa livre apenas no que
diz respeito à construção da topologia empregada.
A intenção de se utilizar duas técnicas tão diferentes é fazer a comparação dos
resultados obtidos em cada uma delas, verificando-se assim qual oferece a menor
porcentagem de erros e suas vantagens e desvantagens para o contexto do trabalho,
ou seja, a classificação genética de famílias de óleos na Bacia Potiguar em sua porção
terrestre, utilizando parâmetros geoquímicos.
De forma complementar, o trabalho ainda traz uma proposta de metodologia
para amostragem que garante uma maior representatividade do conjunto amostrado.
Este trabalho ainda propõe um refinamento da classificação genética de óleos para a
bacia, e estas novas classes serão utilizadas para a construção e aplicação dos
modelos.
O desenvolvimento apresentado neste trabalho não tratará do pré-
processamento de dados, uma vez que esta etapa foi realizada durante a seleção das
amostras junto ao banco de dados do Centro de Excelência em Geoquímica da
Petrobras (CEGEQ/Gerência de Geoquímica), localizado no Centro de Pesquisas
Leopoldo A. Miguez de Melo (CENPES). Desta forma, as duzentas amostras
apresentadas aqui já possuem um pré-tratamento.
1.4) Organização do Trabalho
O trabalho foi dividido em nove capítulos como se segue, incluindo este
introdutório.
Neste capítulo, destacou-se a importância da Geoquímica Orgânica na
exploração de petróleo e das técnicas de Inteligência Artificial frente às necessidades
modernas que os cientistas encontram em virtude do explosivo crescimento de dados.
7
Abordou-se também o problema que será estudado, bem como as técnicas de
Inteligência Artificial escolhidas para o seu desenvolvimento.
No Capítulo 2, será apresentada a revisão da geologia da Bacia Potiguar,
abordando os aspectos de evolução tectônica, arcabouço estrutural e seqüência
estratigráfica.
No Capítulo 3, o conceito de Sistema Petrolífero, seus elementos e processos
serão apresentados ao leitor, além de uma breve abordagem da caracterização e
classificação das rochas geradoras e óleos recuperados na bacia.
No Capítulo 4, será descrita a metodologia das técnicas analíticas empregadas
para a obtenção dos dados utilizados na caracterização geoquímica das amostras de
óleo no Centro de Excelência em Geoquímica da Petrobras (CEGEQ/Gerência de
Geoquímica).
No Capítulo 5, será feita uma revisão dos principais fundamentos teóricos
relacionados às técnicas de Inteligência Artificial escolhidas para o cumprimento dos
objetivos deste estudo, e serão discutidas suas vantagens e desvantagens.
No Capítulo 6, será apresentada uma revisão literária detalhada dos trabalhos
de Geoquímica Orgânica ao longo dos últimos 25 anos, no que diz respeito à
classificação genética de óleos na Bacia Potiguar. Ainda neste capítulo, será
demonstrada como foi realizada a seleção das amostras apresentando uma
metodologia, aqui proposta, como alternativa à amostragem homogênea em
populações não homogêneas. Ao final deste capítulo, será apresentado e discutido um
refinamento da classificação anterior, obtido já a partir do conjunto de amostras
selecionado.
No Capítulo 7, serão disponibilizados os resultados alcançados a partir da
aplicação das técnicas de Inteligência Artificial no conjunto amostrado.
No Capítulo 8, os resultados obtidos pelas técnicas de Inteligência Artificial
serão discutidos em um estudo comparativo de suas performances, bem como no
contraste com a análise realizada no capítulo anterior.
O Capítulo 9, encerramento do trabalho, conterá as conclusões sobre as
metodologias aplicadas e sugestões para as perspectivas futuras.
8
CAPÍTULO
2
2. GEOLOGIA DA ÁREA ESTUDADA Neste capítulo será realizada a revisão da geologia da Bacia Potiguar. Os tópicos abordados serão a evolução tectônica, o arcabouço estrutural e a seqüência estratigráfica, conceitos os quais são fundamentais para a investigação e aplicação dos conceitos geoquímicos neste estudo.
2.1) Introdução
A Bacia Potiguar está situada no limite entre as margens leste e equatorial
brasileira. Limita-se a oeste pelo Alto de Fortaleza (CE), ao sul pelo embasamento
cristalino e a norte e leste se estende até os limites do talude de plataforma continental
até isóbatas de 2000m (MATOS et al., 1987, BERTANI et al., 1991). Em área, abrange
cerca de 60.000 Km2, sendo aproximadamente 40% na porção emersa e a parte
restante na plataforma e talude continental (Figura 2.1).
Figura 2.1: Mapa de localização da Bacia Potiguar (modificado de BERTANI et al., 1991).
9
A história tectônica da bacia teve início no Neocomiano e pode ser dividida em
três fases distintas, identificadas por BERTANI et al. (1991), quais sejam rift,
transicional e deriva continental (drift). O preenchimento sedimentar da bacia durante
cada uma destas fases tectônicas foi caracterizado, respectivamente, pela deposição
das megasseqüências continental, transicional e marinha (CHANG & KOWSMANN,
1987, CHANG et al., 1992).
A atividade exploratória nesta bacia experimentou dois notáveis incrementos, o
primeiro na década de 70 na porção marítima (Campo de Ubarana em 1973) e o
segundo na década de 80 em terra (Campo de Mossoró em 1979) (BERTANI, et al.,
1991, ARARIPE & FEIJÓ, 1994). Até dezembro de 2005, foram descobertos 58
campos de petróleo com reservas provadas de 66,4 milhões de m3 de óleo e
18.612,47 milhões de m3 de gás, com produção de cerca de 13.752,51 m3 /dia de óleo
e 1.357,62 m3 /dia de gás (Figura 2.2) (ANP, 2007).
96%
4%
Produção nacional anual 2005 Potiguar Terra anual 2005
Figura 2.2: Gráfico mostrando a participação na produção de óleo da Bacia Potiguar (terra) na
produção nacional (terra e mar) (ANP, 2007).
2.2) Aspectos de Geotectônica
A evolução da Bacia Potiguar está diretamente associada às estruturas do
embasamento Pré-Cambriano do paleocontinente Gondwana e ao conjunto de
tensões atuantes durante a sua separação na formação dos continentes Africano e
Sul-Americano. Segundo ALMEIDA et al., (1977) e SÁ (1984), as bacias sedimentares
do nordeste brasileiro implantaram-se na Província Borborema, a qual é constituída de
diversas faixas de rochas supracrustais dispersas através de um terreno gnáissico-
10
migmatítico, com trends estruturais a norte e a sul das grandes Zonas de
Cisalhamento E-W de Patos e Pernambuco (Figura 2.3).
Figura 2.3: Principais feições estruturais da Província Borborema (BRITO NEVES, 1998).
A característica marcante da província é os sistemas de dobramentos,
resultantes da superposição de diversos eventos tectônicos, metamórficos e
magmáticos em sedimentos e rochas vulcânicas acumuladas durante o Proterozóico
médio e superior (ALMEIDA & HASUI, 1984).
Os maciços migmatíticos-graníticos são caracteristicamente policíclicos com
eventos arqueanos (pré-Transamazônicos) e proterozóicos (Transamazônicos e
Brasilianos) (MATOS et al., 1987).
Os lineamentos e geofraturas da província são de grande expressão e marcam
um regime compressional de direção NW de idade Brasiliana com reativações até o
Coberturas fanerozóicas pós-silurianas
Afloramentos de bacias cambro-ordovicianas
Bacias cambro-ordovicianas sob a Bacia do Parnaíba
ARAÚJO et al. (1978), SOUZA (1982), MATOS et al. (1987), MOREIRA (1987),
OJEDA & SANTOS (1982) e ARARIPE & FEIJÓ (1994).
EMBASAMENTO:
O complexo cristalino que forma o embasamento da Bacia Potiguar apresenta-
se predominantemente constituído por uma seqüência de migmatitos e gnaisses
intensamente dobrados, com eixos anticlinais e sinclinais seguindo um alinhamento
geral de direção NNE-SSW. Ocorrências locais de quartzitos e micaxistos também são
conhecidas, além de pequenos maciços graníticos intrusivos. Veios de pegmatitos
(mais abundantes) e anfibolitos (menos abundantes) são freqüentes através da região.
Rochas intrusivas básicas cortam as rochas Pré-Cambrianas sob a forma de
diques distribuídos segundo três alinhamentos gerais de direção E-W, e, ainda, sob a
forma de plugs e necks ocorrentes em distribuição irregular no embasamento.
Seqüência Rift: FORMAÇÃO PENDÊNCIA:
Espessa seção clástica sotoposta em discordância aos clásticos e carbonatos
da Formação Alagamar, e sobreposta também discordantemente ao embasamento
cristalino. Esta unidade ocorre preferencialmente preenchendo os baixos estruturais
de grande porte síncronos a sua deposição, e mostra decréscimo de granulometria
das falhas principais para os depocentros.
Litologia: é caracterizada por intercalações de folhelho cinza esverdeado médio
a escuro, siltito cinza médio a claro e cinza esbranquiçado muito fino a médio,
calcífero.
Ambiente deposicional: leques aluviais associados a falhamentos e sistemas
flúvio-deltaicos progradando sobre pelitos lacustres, com ocorrência de turbiditos.
17
Idade: as datações com base nos palinomorfos e ostracodes não marinhos
indicam idades Neo-Rio da Serra a Jiquiá.
Figura 2.6: Carta estratigráfica da Bacia Potiguar (modificado de ARARIPE & FEIJÓ 1994).
18
FORMAÇÃO PESCADA:
Cunha clástica sintectônica constatada apenas no bloco baixo da Falha de
Pescada, a cuja atividade está geneticamente ligada, adjacente à região onde está
presente o campo produtor de Pescada. Os contatos inferior, com a Formação
Pendência, e superior com a Formação Alagamar são discordantes.
Litologia: esta unidade é caracterizada por arenito médio branco e arenito fino
cinzento, com intercalações de folhelho e siltito cinzento.
Ambiente deposicional: o principal sistema deposicional responsável pela
deposição destes sedimentos é o de leques aluviais coalescentes, mas há também
sistemas flúvio-deltaicos com pelitos lacustres intercalados por depósitos turbidíticos,
em pacotes mais uniformes e espessos que na Formação Pendência.
Idade: datações com palinomorfos e ostracodes não marinhos indicam idade
Eoalagoas para estes sedimentos.
Seqüência Transicional:
FORMAÇÃO ALAGAMAR:
Seção areno-carbonática sotoposta em discordância à Formação Açu. Seu
contato inferior também é discordante sobre as Formações Pescada ou Pendência, ou
sobre o embasamento. Esta unidade é constituída por dois membros separados por
uma seção pelítica denominada de Camadas Ponta do Tubarão.
Litologia: o Membro Upanema, basal, é predominantemente arenoso com
intercalações de calcário e folhelho. As Camadas Ponta do Tubarão são formadas por
calcarenito e calcilutito ostracoidais e folhelho escuro euxínico, e o Membro Galinhos é
predominantemente pelítico, com folhelho cinza-escuro e calcilutito creme-claro.
Ambiente deposicional: os sistemas deposicionais interpretados são flúvio-
deltáico para o Membro Upanema, lagunar para as Camadas Ponta do Tubarão,
marcando o final da deposição lacustrina e nerítico para o Membro Galinhos,
representando um sistema transicional deltaico já com influência marinha.
Idade: Alagoas a Albiano, segundo estudos palinológicos, havendo
possibilidades da porção basal do Membro Upanema ser de idade Jiquiá (ostracodes
não marinhos).
Seqüência Marinha Transgressiva:
FORMAÇÃO AÇU:
19
Formação composta de arenitos que recobrem o embasamento na faixa
aflorante. Seu contato inferior é discordante com a Formação Alagamar, e
lateralmente, interdigita-se com as Formações Ponta do Mel e Quebradas, e está
sotoposta concordantemente à Formação Jandaíra. As rochas da Formação Açu
foram subdivididas em Açu 1, 2, 3 e 4 através de perfis elétricos (VASCONCELOS et
al., 1990).
Litologia: camadas relativamente espessas de arenito médio a muito grosso
esbranquiçado, intercalado com folhelho e argilito verde claro e siltito castanho-
avermelhado.
Ambiente deposicional: nesta formação, são reconhecidos na seção inferior
fácies de leque aluvial e fluvial (anastomosado e meandrante), e na seção superior
fácies deltaico-estuarino, baía e praia.
Idade: de acordo com datações a partir de palinomorfos, os sedimentos da
Formação Açu abrangem idades do Albiano ao Cenomaniano.
FORMAÇÃO PONTA DO MEL:
Esta formação foi depositada como uma plataforma carbonática, não é
aflorante e está restrita praticamente à porção offshore da bacia (TIBANA & TERRA,
1981). A Formação Ponta do Mel interdigita-se lateralmente e recobre
concordantemente a Formação Açu, e está recoberta em discordância pela Formação
Quebradas.
Litologia: contém calcarenito oolítico creme, doloespatito castanho-claro e
calcilutito branco, com camadas de folhelho verde-claro.
Ambiente deposicional: estas rochas foram depositadas predominantemente
em plataforma rasa, associada à planície de maré e mar aberto. Durante a deposição
desta unidade, as áreas mais profundas da bacia eram famintas, o que explicaria a
ausência quase completa de pelitos.
Idade: Neoalbiana obtida a partir de datações com foraminíferos planctônicos,
nanofósseis calcários e palinomorfos.
FORMAÇÃO QUEBRADAS:
Esta formação ocupa uma posição intermediária entre os arenitos do Açu e os
pelitos albocenomanianos da Formação Ubarana, com os quais se interdigita
lateralmente. O contato inferior é discordante com a Formação Ponta do Mel, e o
contato superior é concordante com a Formação Jandaíra. A formação é dividida em
dois membros: Redonda e Porto do Mangue.
20
Litologia: arenito fino cinza-claro, folhelho e siltito cinza-esverdeado. O Membro
Redonda é formado por intercalações de arenito, folhelho e siltito, enquanto que o
Membro Porto do Mangue é representado sobretudo por folhelhos, e arenito
subordinado.
Ambiente deposicional: inclui plataforma e talude, com presença de turbiditos.
Idade: datações bioestratigráficas disponíveis apontam para idade
cenomaniana.
FORMAÇÃO JANDAÍRA:
Seção carbonática de alta energia sobreposta aos arenitos da Formação Açu.
O contato inferior da Formação Jandaíra é concordante com a Formação Açu ou com
a Formação Quebradas. Lateralmente, interdigita-se com a parte inferior da Formação
Ubarana. O contato superior é discordante sob o Grupo Agulha (Formações Ubarana,
Guamaré e Tibau).
Litologia: esta unidade é tipicamente composta por calcarenito bioclástico a
foraminíferos bentônicos, por vezes associados a algas verdes. Também ocorre
calcilutito com marcas de raízes, dismicrito e gretas de contração.
Ambiente deposicional: o modelo deposicional desta unidade apresenta fácies
de planície de maré, laguna rasa, plataforma rasa e mar aberto, em uma bacia
faminta.
Idade: a partir do seu conteúdo fossilífero a formação foi datada como
turoniana a mesocampaniana.
Seqüência Marinha Regressiva:
FORMAÇÃO UBARANA:
Seção pelítica de talude perfurada em quase todos os poços da plataforma
continental das bacias Potiguar e Ceará. Estas rochas estão lateralmente
interdigitadas, em direção ao continente, com as do Grupo Apodi (Formação Açu e
Jandaíra) e as da Formação Guamaré.
Litologia: caracteriza-se por uma espessa seção de folhelho e argilito cinzento,
intercalada por camadas relativamente delgadas de arenito grosso a fino
esbranquiçado, siltito cinza-acastanhado e calcarenito fino creme-claro.
Ambiente deposicional: estes sedimentos foram depositados em ambiente de
talude e bacia.
Idade: os pelitos desta formação foram datados como desde o Albiano ao
Holoceno.
21
FORMAÇÃO GUAMARÉ:
Seqüência carbonática interposta lateralmente aos pelitos da Formação
Ubarana e aos arenitos da Formação Tibau. Esta unidade se apresenta mais espessa
nas áreas próximas à borda da plataforma continental atual e adelgaça-se em direção
à costa. Os seus contatos com as unidades sobre e subjacentes são gradacionais ou
discordantes.
Litologia: calcarenito creme acastanhado, bioclástico, em parte recristalizado e
dolomitizado, com intercalações de calcilutito, folhelho e arenito.
Ambiente deposicional: representa fácies de plataforma carbonática e talude
carbonático na fase marinha regressiva da bacia.
Idade: a partir do seu conteúdo fossilífero a idade determinada varia do
Neocampaniano ao Holoceno.
FORMAÇÃO TIBAU:
Clásticos grossos justapostos aos carbonatos Guamaré. Esta formação possui
contato inferior discordante com a Formação Jandaíra e, na parte submersa, tem
contato lateral transicional com a Formação Guamaré. O contato superior com a
Formação Barreiras é de difícil definição, assim como o superior com os sedimentos
recentes na área sul.
Litologia: arenito grosso a conglomerático hialino e mal selecionado, com
intercalções de calcarenito e argila amarelada.
Ambiente deposicional: dominantemente ambiente de leques costeiros.
Idade: Neocampaniano ao Holoceno.
Além das rochas sedimentares, três episódios vulcânicos, individualizados em
formações, estão presentes na Bacia Potiguar.
FORMAÇÃO RIO CEARÁ-MIRIM:
Esta formação está presente na borda da bacia na forma de diques de diabásio
toleítico orientados na direção E-W. As datações radiométricas obtidas em amostras
de superfície e subsuperfície apontam para idades entre 120 e 140 M.a., o que
equivale às idades Valanginiano a Aptiano. A idade destas manifestações vulcânicas
equivale à da Formação Cabiúnas das bacias de Campos e Espírito Santo.
FORMAÇÃO SERRA DO CUÓ:
22
Estes diques de diabásio de tendência alcalina, com idades radiométricas da
ordem de 83 ± 6 M.a., ou Santoniano-Campaniano, ocorrem na serra do mesmo
nome, no sul da bacia (LIMA NETO, 1985).
FORMAÇÃO MACAU:
Derrames de olivina-basalto afanítico eocênicos e oligocênicos intercalados
com as rochas sedimentares das formações Tibau, Guamaré e Ubarana. As datações
radiométricas pelo método de K-Ar disponíveis apontam para idades entre 29 e 45
M.a.. Esta unidade é correlacionada com a Formação Abrolhos, da Bacia do Espírito
Santo (MIZUSAKI, 1987).
As ocorrências magmáticas da Fm. Macau se deram ao longo de um trend N-S,
iniciando entre as localidades de Pedro Avelino e Lages (RN) prosseguindo em
direção às localidades de Pendências e Macau (RN), na porção emersa da bacia, e
adentrando no mar em direção à reentrância de Ubarana, onde pode atingir 1500 m de
espessura.
23
CAPÍTULO
3
3. SISTEMAS PETROLÍFEROS E GEOQUÍMICA DAS ROCHAS GERADORAS
E ÓLEOS Este capítulo abordará o conceito de “Sistemas Petrolíferos”, seus elementos e processos na Bacia Potiguar, além de revisar brevemente a caracterização e classificação das rochas geradoras e óleos.
3.1) Sistemas Petrolíferos
3.1.1) Introdução O termo “oil system” foi apresentado por DOW (1974) e baseou-se no conceito
de correlação óleo-rocha. O termo “Petroleum System” foi utilizado primeiramente por
PERRODON (1980). Independentemente, DEMAISON (1984) concebeu o termo
“Generative Basin” e MEISSNER et al. (1984) descreveram o “Hydrocarbon Machine”.
Todos estes conceitos são similares ao proposto por DOW (1974). Após anos de
pesquisas e detalhamento dos trabalhos anteriores, estes autores, entre outros, como
Leslie Magoon, formalizaram um critério para identificação, mapeamento, e
denominação do “Sistema Petrolífero” de uma bacia.
Em 1994, MAGOON e DOW definiram o “Sistema Petrolífero” como um
sistema natural que compreende um pod de rocha geradora ativa, que inclui todos os
elementos geológicos e processos que são necessários para que uma acumulação de
petróleo exista. O conceito de sistema petrolífero implica que os caminhos de
migração devem existir, atualmente ou no passado, ligando a rocha geradora com as
acumulações. Através do uso dos princípios da geologia do petróleo e da geoquímica,
este sistema pode ser mapeado e melhor entendido com o passar do tempo
(MAGOON & DOW, 2000).
Para MAGOON e DOW (1994), o termo “Sistema” descreve a interdependência
entre os elementos e os processos que constituem a unidade funcional e compõem as
24
acumulações de petróleo. Os elementos essenciais incluem a rocha geradora, a rocha
reservatório, a rocha selo e a sobrecarga (soterramento). Os processos são a
formação da trapa e o trinômio geração-migração-acumulação de petróleo. Estes
elementos essenciais e processos devem ocorrer em um tempo e espaço suficientes
para que a matéria orgânica contida na rocha geradora possa ser convertida em
petróleo e acumulada em um reservatório. Por conseguinte, é denominado de
momento crítico o ponto, no tempo, que o pesquisador entende como melhor
representante do trinômio geração-migração-acumulação da maior parte do petróleo
encontrado.
3.1.2) Rochas Geradoras
A Bacia Potiguar apresenta duas seqüências de rochas geradoras, os folhelhos
lacustres neocomianos da Formação Pendência e os folhelhos e margas aptianos da
Formação Alagamar, depositados em ambiente lacustre a marinho restrito
(RODRIGUES et al., 1983).
Os folhelhos pretos e cinza escuros da Formação Pendência estão intercalados
com finas camadas de arenitos. Valores de carbono orgânico total (COT) alcançam até
7%, com intervalos de centenas de metros apresentando valores médios entre 2% e
3%. Dados de pirólise Rock-Eval indicam um potencial gerador (S2) bom a muito bom,
em média de 25 Kg HC/ton rocha nos intervalos mais ricos. O querogênio é
essencialmente tipo I/II, como observado através do índice de hidrogênio (IH) que
apresenta valores de 600 a 900 mg HC/g COT. Nestes folhelhos COT, IH e S2
reduzem sistematicamente com o aumento do índice de produção e a Tmax, refletindo
altos níveis de evolução térmica e conseqüente geração e expulsão de
hidrocarbonetos (TRINDADE et al., 1992).
Os folhelhos e margas da Formação Alagamar foram depositados sob
condições lacustres, hipersalinas restritas e deltaicas. O teor de carbono orgânico total
pode alcançar valores de até 8%, com uma média de 5%. Dados de pirólise Rock-Eval
mostram um potencial gerador (S2) bom a muito bom, em média de 45 Kg HC/ton
rocha nos intervalos mais ricos. O querogênio é tipo II/I, como observado nos valores
de IH que variam de 500 a 800 mg HC/g TOC (TRINDADE et al., 1992).
No item 3.2.1, deste capítulo estes valores serão mais detalhados e
confrontados com os obtidos por outros autores.
25
3.1.3) Rochas Reservatórios
Os principais reservatórios da Bacia Potiguar são os arenitos das formações
Pendência, Alagamar e Açu. Dados obtidos por perfis elétricos nos poços perfurados
nesta bacia indicam que os arenitos da Formação Açu possuem características permo-
porosas mais favoráveis para reservatórios de petróleo (ARARIPE & FEIJÓ, 1994).
Os arenitos da Formação Pendência foram depositados em ambiente
continental sob a forma de leques aluviais e sistemas flúvio-deltaicos progradando
sobre pelitos lacustres, e por vezes turbiditos. As melhores características de
reservatório observadas estão associadas aos depósitos flúvio-deltaicos que possuem
porosidade média de 24% e permeabilidade variando entre 100 e 4000 mD (MATOS et
al., 1987).
Os arenitos reservatório da Formação Alagamar foram depositados em
ambiente continental a transicional e representam depósitos flúvio-deltaicos. Estes
arenitos, quando deltaicos, possuem granulometria fina a média e, intensamente
diagenizados, apresentam porosidades variando de 12 a 14%. Arenitos finos a médios
flúvio-deltaicos apresentam porosidades entre 14 e 16% (BERTANI et al.,1991).
Os arenitos da Formação Açu constituem o principal reservatório da bacia,
atingindo 85% do petróleo descoberto. Estes arenitos foram reconhecidos na seção
inferior como fácies de leque aluvial e fluvial, e na seção superior como fácies deltaico-
estuarino, de baía e praia. As características permo-porosas são excelentes, atingindo
até 33% de porosidade e permeabilidade de 5 a 10 D (BERTANI et al.,1991).
3.1.4) Rochas Selantes
As rochas selantes são os folhelhos das Formações Pendência, Alagamar e
Ubarana sobrepostos e/ou intercalados às acumulações além dos intervalos de baixa
permeabilidade na Formação Açu.
3.1.5) Modelos de Plays Exploratórios
A produção de petróleo na bacia é oriunda principalmente de reservatórios
siliciclásticos que foram depositados ao longo da sua evolução tectônica. Os
condicionantes tectônicos influenciaram decisivamente na estruturação, qualidade do
26
reservatório e rotas de migração, resultando em diferentes tipos de plays exploratórios
de acordo com a fase tectônica em questão.
Os modelos de trapas encontrados nesta bacia são estratigráficas, estruturais
ou mistas. A migração do óleo se dá por planos de falhas ou contato direto gerador-
reservatório.
Em relação à migração, estruturação e acumulação de petróleo nas diferentes
seqüências tectônicas da Bacia Potiguar, BERTANI et al. (1991) descreveram os
seguintes modelos:
SEQÜÊNCIA RIFT
As acumulações de petróleo na seqüência rift possuem trapas do tipo
estruturais ou combinadas estrutural-estratigráficas. Os principais prospectos
mapeados estão associados à falhas normais com rotação de blocos, falhas normais
antitéticas, falhas normais reativadas com rejeito lateral, falhas de transferência e
deslizamento gravitacionais. Em todos os casos, o óleo foi gerado nos folhelhos
estratigraficamente associados aos reservatórios.
Os prospectos associados a falhas normais ocorrem ao longo das principais
falhas de borda dos grabens, podendo ser exemplificados pelos Campos de Upanema
e Janduí (Figura 3.1 A-A’). Normalmente, o fechamento é essencialmente estrutural,
dado pela rotação dos blocos e pelo arrasto associado à falha.
O principal controle na estruturação dos campos tipo Lorena e Rio Mossoró são
as falhas normais antitéticas (Figura 3.1 B-B’). O fechamento mergulho acima é dado
pelas próprias falhas, pela justaposição dos reservatórios contra folhelhos do bloco
baixo ou pelo truncamento erosional dos mesmos, seguido de capeamento por
folhelhos da seqüência sedimentar subseqüente.
Falhas de transferência e normais com rejeito lateral foram responsáveis pela
formação de complexas estruturas em flor, que são portadoras de óleo nos Campos
de Pescada, Livramento e Cachoeirinha.
Os prospectos associados a deslizamentos gravitacionais são observados no
Campo de Serraria, onde o colapso sin- e pós-sedimentar de seqüências deltaicas
(1988); SANTOS NETO et al. (1990); TRINDADE (1992); TRINDADE et al. (1992);
MELLO et al. (1993); PENTEADO (1995) e SANTOS NETO & HAYES (1999).
3.2.1) Rochas Geradoras
Dois principais grupos de rochas geradoras, baseados em características
geológicas, geoquímicas e paleontológicas, foram reconhecidos na Bacia Potiguar: as
rochas geradoras da seqüência rift continental, representadas pela Formação
Pendência (Neocomiano), e as rochas geradoras da seqüência transicional,
representadas pela Formação Alagamar (Aptiano) (RODRIGUES et al., 1983;
SANTOS & RODRIGUES, 1986 e MELLO, 1988).
RODRIGUES et al. (1983) estudaram os folhelhos da Formação Pendência e
obtiveram valores de carbono orgânico total (COT) entre 1,3 e 7%, índice de
hidrogênio (IH) na ordem de 350 a 846 mg HC/g COT.
No estudo de avaliação geoquímica da Bacia Potiguar, MELLO et al. (1984)
analisaram os folhelhos geradores da Formação Pendência e obtiveram valores de
COT em torno de 2%, IH variando de 100 a 300 mg HC/g COT e potencial gerador
com valores médios a bons, sendo constituídos predominantemente por matéria
orgânica do tipo II.
A Formação Pendência, segundo MATOS et al. (1987), foi dividida analisando
atributos bio-, sismo-, crono- e litoestratigráficos, além de dados geoquímicos, em
cinco unidades.
35
A Unidade I representa os sedimentos Neocomianos mais antigos perfurados
na bacia e é constituída de sedimentos lacustres com contribuição flúvio-deltáica
provenientes do Graben de Guamaré. Esta unidade apresenta teor médio de carbono
orgânico total (COT) entre 1,1% e 4,5%, com enriquecimento na direção NE. A matéria
orgânica presente é derivada essencialmente de restos vegetais terrestres, sendo
classificada como dos tipos II e III, conforme indicado pelo índice de hidrogênio (IH) e
potencial gerador (S2), capacitada para gerar em grande parte hidrocarbonetos
gasosos.
A Unidade II é composta de folhelhos, siltitos e arenitos finos a muito finos de
idade Rio da Serra com indicação de deposição subaquosa. Aparentemente, toda a
bacia foi tomada por depósitos lacustres com contribuição de sedimentos proximais
em Apodi e Umbuzeiro Nordeste. Nesta unidade, é encontrada uma das principais
seções geradoras de petróleo da Formação Pendência, apresentando teores médios
de COT entre 1,2% e 5%, IH e S2 propícios à geração de hidrocarbonetos líquidos e
gasosos. A matéria orgânica é de tipos I e II.
A Unidade III é caracterizada por folhelhos, siltitos e arenitos interlaminados na
base, e pacotes expressivos de arenitos intercalados a folhelhos em geral radioativos
e ricos em matéria orgânica no topo. A exemplo da unidade anterior, é uma
importantíssima seção geradora de hidrocarbonetos líquidos e gasosos, caracterizada
pela presença de matéria orgânica de tipos I e II e valores de COT entre 1,3% e 4,8%.
A Unidade IV apresenta pacotes de folhelhos e arenitos bem definidos
marcando a ampliação e implantação definitiva da deposição deltaico-lacustrina por
toda a bacia. Os pelitos desta unidade estão em condições de geração de
hidrocarbonetos apenas em parte da bacia, com COT geralmente superiores a 1% e
matéria orgânica de tipo II e secundariamente de tipo III.
A Unidade V completa o assoreamento da porção emersa com fácies fluvial a
flúvio-lacustre. Corpos bem desenvolvidos de arenitos porosos e espessos ocorrem
com intercalações menores de folhelho. Esta unidade se encontra imatura, porém
apresenta teores médios de COT de até 8,5% com matéria orgânica dos tipos I, II e III.
CERQUEIRA (1985) e MELLO et al. (1988) discutem características
geoquímicas dos folhelhos cinza escuros e negros da Formação Pendência e
apresentam como característica para esta seção geradora: COT acima de 4%, com
bom S2, alcançando 35 Kg HC/ton rocha. Por toda a bacia, o IH está entre 100 e 700
mg HC/g COT combinado com índice de oxigênio (IO) dominantemente inferior a 100
mg CO2/g COT, indicando predominância de querogênio dos tipos I e II.
MELLO et al. (1993) reconheceram um ambiente hipersalino na Formação
Pendência e os folhelhos carbonáticos geradores estudados apresentaram COT
36
superior a 6%, com moderada concentração de enxofre (> 0,6%), IH superior a 700
mg HC/g COT e S2 superior a 50 Kg HC/ton rocha. Dados de petrografia orgânica
sugerem matéria orgânica do tipo I (Figura 3.6).
Figura 3.6: Perfil geoquímico do poço 1-UPN-1-RN mostrando os valores de COT, S2, IH, IO,
Ro, Tmax e S1 dos depósitos hipersalinos na Formação Pendência, segundo (MELLO et al., 1993).
Os dados composicionais e de biomarcadores dos extratos da Formação
Pendência (fácies hipersalino) apresentam dominância de C27 esteranos sobre C28 e
C29 esteranos, presença de 28, 30-bisnorhopano e ausência de C30 esteranos (24-n-
propilcolestano), ausência de dinosteranos (4, 23, 24-trimetil colestano), escassez de
diasteranos, alta abundância de fitano, gamacerano e isoprenóides acíclicos (i-C25 e i-
37
C30) e, δ13C em torno de –30‰. Tais dados sugerem a presença de um clima árido a
semi-árido durante a deposição destes sedimentos (MELLO et al., 1993).
Em 1983, RODRIGUES et al. analisaram os folhelhos e margas da Formação
Alagamar e obtiveram valores de COT entre 1,2 e 7,8% (com valores médios entre 2 e
3%), IH entre 300 e 900 mg HC/g COT. Os intervalos geradores mais atrativos estão
associados às Camadas Ponta do Tubarão, nestes níveis os teores de COT são
superiores a 3% e o IH apresenta valores entre 500 e 900 mg HC/g COT,
predominando matéria orgânica dos tipos I e II.
No estudo de avaliação geoquímica da Bacia Potiguar MELLO et al. (1984)
analisaram além dos folhelhos geradores da Formação Pendência, avaliaram os
folhelhos e margas da Formação Alagamar e obtiveram valores de COT na ordem de
2% a 4%, IH variando de 400 a 600 mg HC/g COT e potencial gerador com valores
bons a muito bons, sendo constituídos predominantemente por matéria orgânica do
tipo II.
A Formação Alagamar para CERQUEIRA (1985) e MELLO et al. (1988) se
constitui dos folhelhos e margas depositados a partir do Aptiano em ambiente
transicional hipersalino. Estas rochas apresentam excelentes características para
rochas geradoras de petróleo, para as quais estes autores citaram COT superior a 6%,
querogênio dos tipos I e II, valores de S2 superiores a 40 Kg HC/ton rocha, IH superior
a 500 mg HC/g COT e IO inferior a 50 mg CO2/g COT.
A Formação Alagamar estudada por PENTEADO (1995) apresentou para as
Camadas Ponta do Tubarão valores de COT variáveis, atingindo um máximo de
24,50% e mesmo nos intervalos mais pobres correspondentes a níveis calcários, o
autor destaca que teores de COT são superiores a 2%. Os valores de S2 são acima de
4 Kg HC/ton rocha, chegando a 188 Kg HC/ton rocha para a amostra de maior valor de
COT.
PENTEADO (1995) descreveu além das características das rochas da
Formação Alagamar, as características dos extratos obtidos a partir destas rochas. Os
extratos mostram cromatograma gasoso com predominância de pristano e fitano sobre
as n-parafinas, razão pristano/fitano<1, relativa abundância de n-parafinas no intervalo
de n-C16 a n-C20 e presença de compostos tais como i-C25, i-C30 e β-carotano. Dados
de cromatografia gasosa acoplada a espectrometria de massas (CG-EM) em
compostos saturados apresentam razão hopanos/esteranos<2, baixos valores para a
razão tricíclicos/pentacíclicos, alta abundância de C24 tetracíclicos quando comparados
com tricíclicos, alta razão bisnorhopano/C30 hopano, Ts/Tm e C29Ts/norhopano<1,
metilesteranos/esteranos entre 0,3 e 1, e baixa abundância relativa de diasteranos.
38
3.2.2) Óleos
RODRIGUES (1983) elaborou um estudo de caracterização e correlação dos
óleos recuperados na Bacia Potiguar emersa a partir de técnicas de cromatografia
gasosa, análise de biomarcadores e de isótopos estáveis de carbono, concluindo pela
existência de três tipos, os quais seriam provenientes da seqüência continental
eocretácica, da seqüência transicional e aqueles representativos da mistura dos dois
tipos anteriores.
Dentre as características moleculares observadas por RODRIGUES (1983), os
óleos da seqüência continental possuem distribuição simétrica das parafinas normais;
relação pristano/fitano superior a dois (2,0); valores de δ13C mais negativos que - 28‰;
ausência ou baixa proporção de gamacerano. Na porção terrestre da bacia Potiguar,
os óleos foram gerados e acumulados na seqüência continental (Formação
Pendência), além de exemplos de acumulações que tiveram óleos com sua origem
nessa seqüência, mas que migraram e se acumularam em formações sobrepostas.
Por outro lado, em relação aos óleos de origem marinha ou transicional,
possuem os óleos da seqüência continental uma proporção maior de parafinas, menor
viscosidade, teores de enxofre mais baixos e pontos de fluidez mais elevados. Essas e
outras diferenças entre os dois grupos de óleos estão sumarizadas na tabela 3.1.
Para os óleos gerados na seqüência transicional (Formação Alagamar),
RODRIGUES (1983) destacou: a distribuição assimétrica das parafinas normais, com
predominância de compostos ao redor de n-C17, relação pristano/fitano inferior a um
(1,0), valores de δ13C variando entre –25,7‰ e –26,7‰, presença marcante de
esteranos e proporção semelhante de gamacerano e hopano entre os terpanos. Na
parte emersa da bacia, a maior parte dos óleos gerados na seqüência transicional
migrou e se acumulou em diferentes níveis da Formação Açu sobreposta. A
proximidade da faixa de afloramentos no caso dos campos de Fazenda Belém,
Estreito, Alto do Rodrigues, Monte Alegre, São Luiz e Fazenda Pocinhos tornou
favorável a atuação de processos secundários de alteração desses óleos pela
infiltração da água meteórica. Apesar da biodegradação ter eliminado praticamente
todas as parafinas normais e isoparafinas, não foi observada qualquer desmetilação
dos terpanos.
Ainda na parte emersa da bacia, o autor identificou um grupo de óleos que
corresponderia a uma mistura dos dois anteriormente descritos. Estes possuem dados
cromatográficos (relação pristano/fitano), isotópicos e de terpanos e esteranos
intermediários, quando comparados com os de origem continental e transicional.
39
Tabela 3.1: Comparação proposta por RODRIGUES (1983) para os óleos de origem continental e transicional.
Em 1990, SANTOS NETO et al. discutiram as características dos óleos
recuperados na Bacia Potiguar, suas principais feições geoquímicas estão resumidas
a seguir.
Os óleos Pendência apresentam elevada porcentagem de hidrocarbonetos
saturados (>60%), baixo teor de enxofre (0,1%) e valores isotópicos de carbono <-
28‰. Cromatograficamente, estes óleos apresentam presença conspícua ou
predominância de alcanos normais de alto peso molecular (>n-C23), elevada razão
pristano/fitano (> 1) e predominância dos alcanos normais ímpares sobre os pares.
Dentre os terpanos, observa-se a ausência ou baixa razão bisnorhopano/hopano,
elevada razão entre os isômeros dos hopanos em C34/C35, razão Ts/Tm>1 e baixa
proporção relativa do gamacerano em relação ao hopano. Com relação aos esteranos,
foi observada a predominância dos compostos em C29, sobre aqueles de 27 e 28
átomos de carbono, sendo a abundância relativa dos diasteranos elevada.
Estes óleos apresentam baixo índice preferencial de carbono, baixas razões
pristano/n-C17 e fitano/n-C18. Os esteranos estão presentes em baixas abundâncias e,
as razões αββ/(ααα+αββ) e S/(S+R) dos compostos em C29 já atingiram seu equilíbrio.
A partir das características observadas estes autores consideram estes óleos como de
elevada evolução térmica (SANTOS NETO et al., 1990).
Continental Transicional
HC parafínicos (%)Teores elevados65-77%
Teores baixos 38-49%
HC aromáticos (%) 13-23% 16-39%
Res. + Asfaltenos (%)Teores baixos 8-18%
Teores elevados35-36%
Pristano/Fitano > 1 (1,62-2,83) < 1 (0,37-0,70)
Pristano/n -C17
Valores muitos baixos0,20-0,56
Valores variávis, mais altos0,61-1,23
Fitano/n -C18
Valores muitos baixos(<1)=0,10-0,30
Valores elevados(>1)=1,11-3,75
δ 13C‰Depleção em 13C-31,5 a -28,3
-26,3 a -26,7
ºAPI Óleos leves (39-40º) Óleos pesados(11-26º)
Enxofre total (%)Teores muito baixos(0,11-0,12%)
Teores regulares(0,54-1,69%)
40
Os óleos marinho evaporíticos da Formação Alagamar apresentam
hidrocarbonetos saturados em torno de 55%, teor de enxofre considerado elevado
para os óleos brasileiros (>0,5%) e valores de δ13C >-26,6‰. Suas características
cromatográficas também são muito particulares, com predominância dos alcanos
normais de baixo peso molecular (<n-C19), razão pristano/fitano <1, presença
conspícua dos iso-alcanos em C25 e em C30. Entre os terpanos, é típica a elevada
proporção relativa do gamacerano em relação ao hopano, a presença de
bisnorhopano, a baixa razão entre os isômeros dos homopanos em C34 e C35, e a
predominância do Tm (22,29,30-trisnorhopano) sobre o Ts (22,29,30-trisnorneopano).
Entre os esteranos, os compostos em C27 predominam sobre aqueles em C28 e C29 e
os esteranos de baixo peso molecular ocorrem em baixa proporção relativa.
Os óleos mistos são resultantes da mistura dos óleos marinho evaporítico com
óleos gerados a partir dos folhelhos lacustres de água doce, desta forma, apresentam
para SANTOS NETO et al., 1990 e SANTOS NETO et al., 2003 predominância de
características geoquímicas ora relacionadas a ambiente lacustre de água doce, ora a
ambiente marinho hipersalino. É comum óleos Alagamar e mistos apresentarem
biodegradação, em alguns incipiente notando apenas um decréscimo relativo dos
alcanos normais de baixo peso molecular. Já em outros a biodegradação agiu
severamente eliminando quase que todos os alcanos normais e desmetilando os
hopanos.
41
CAPÍTULO
4
4. PROCEDIMENTOS ANALÍTICOS Neste capítulo serão descritos e discutidos sucintamente os métodos das técnicas analíticas empregados para a caracterização geoquímica de petróleo utilizados na realização deste estudo. Os métodos analíticos seguem a rotina dos laboratórios do Centro de Excelência em Geoquímica (CEGEQ) e da Gerência de Avaliação de Petróleo, ambos do Centro de Pesquisas e Desenvolvimento da Petrobras.
4.1) Introdução
Um dos interesses da exploração petrolífera consiste em estabelecer
correlações entre acumulações de petróleo de diferentes campos em uma mesma
bacia sedimentar com intuito de avaliar a origem, o grau de evolução térmica, a
qualidade de óleo, as rotas de migração, entre outros, permitindo com a integração
destas informações entender melhor o contexto de sistema petrolífero e subsidiar o
destino da exploração. A utilização das técnicas geoquímicas permite correlacionar os óleos entre si e
com as rochas geradoras caracterizadas, correlações essas que podem levar a
conclusões a respeito dos tipos de petróleo presentes em uma província produtora, e
seus graus de evolução térmica (MELLO & MAGOON, 1996).
Para cumprir o objetivo deste trabalho, foram selecionadas a partir do banco de
dados do Centro de Excelência em Geoquímica da Petrobras (CEGEQ/Gerência de
Geoquímica), localizado no Centro de Pesquisas Leopoldo A. Miguez de Melo
(CENPES), duzentas amostras de óleo da Bacia Potiguar (porção emersa).
A preparação das amostras e os métodos analíticos empregados seguem a
rotina dos laboratórios do Centro de Excelência em Geoquímica da Petrobras, e a
determinação das propriedades físico-químicas dos óleos foi realizada pelos
laboratórios da Gerência de Avaliação de Petróleo também no CENPES.
42
A seguir são descritas sucintamente as diferentes técnicas analíticas utilizadas
no presente estudo. A Figura 4.1 mostra o fluxograma da rotina de uma amostra de
óleo nos laboratórios da Geoquímica no CENPES.
Figura 4.1: Fluxograma mostrando as técnicas analíticas realizadas nos laboratórios do Centro
de Excelência em Geoquímica e na Gerência de Avaliação de Petróleo.
4.2) Preparação das Amostras
As amostras de óleo, à medida que foram coletadas ao longo dos anos de
exploração na bacia, foram encaminhadas primeiramente ao Laboratório de
Preparação de Amostras (LPA), onde foi feito o registro, e em seguida encaminhadas
aos diferentes laboratórios.
4.3) Cromatografia Líquida (CL)
A cromatografia líquida é uma técnica que permite separar dos óleos e extratos
obtidos das rochas geradoras suas frações constituintes básicas: hidrocarbonetos
saturados (parafinas lineares, ramificadas e cíclicas), aromáticos e compostos polares
ou heteroatômicos (resinas e asfaltenos). O princípio desta técnica consiste em um
Amostra de ÓleoRegistro
Determinação deGrau API e Enxofre.
Análise de Isótoposde Carbono δ13C.
Cromatografia Líquida
Cromatografia GasosaÓleo Total (Whole oil).
Aromáticos Resinas e Asfaltenos(NSO)
Saturados
Cromatografia Gasosaacoplada à Espectrometriade Massas.
Amostra de ÓleoRegistro
Determinação deGrau API e Enxofre.
Análise de Isótoposde Carbono δ13C.
Cromatografia Líquida
Cromatografia GasosaÓleo Total (Whole oil).
Aromáticos Resinas e Asfaltenos(NSO)
Saturados
Cromatografia Gasosaacoplada à Espectrometriade Massas.
43
meio inorgânico mineral (fase estacionária), por onde percolam compostos orgânicos
diluídos em solventes de diferentes polaridades (fase móvel). De acordo com as
propriedades do solvente e da fase estacionária, compostos químicos pertencentes a
diferentes classes eluem seletivamente pela coluna cromatográfica. As amostras com
as frações separadas são encaminhadas para as análises de biomarcadores e, caso
desejado, para a cromatografia gasosa.
A determinação da quantidade e das porcentagens das três frações pode
auxiliar nas interpretações sobre a origem da matéria orgânica, ambiente deposicional,
estágio de evolução térmica, processos de migração, biodegradação, geração e
expulsão (Figura 4.2).
Figura 4.2: Diagrama ternário mostrando o comportamento na concentração dos compostos do petróleo de acordo com o aumento da degradação (modificado de TISSOT & WELTE, 1984).
A separação é realizada através do sistema Medium Pressure Liquid
Cromatography (MPLC), em um equipamento Knauer MPLC com coluna de vidro
preparada utilizando uma combinação de sílica termicamente ativada e n-hexano
como eluente para a separação das frações (Figura 4.3). O sistema comporta 15
amostras com processo de injeção automática das mesmas, possui uma bomba para
fornecimento da fase líquida, um detector UV (ultravioleta) e um IR (índice de refração)
para monitoramento da eluição das frações, um coletor automático para recuperação
das frações e um controlador.
As amostras são diluídas em aproximadamente 1mL de n-hexano e acrescidas
de 50μL de solução padrão de 4-colestano. Após a injeção automática, as amostras
% Aromáticos
% Saturados % NSO
80 20
60 40
40 60
20 80Aumento dadegradação
Óleos mais pesados
Óleos mais leves
% Aromáticos
% Saturados % NSO
80 20
60 40
40 60
20 80Aumento dadegradação
Óleos mais pesados
Óleos mais leves
% Aromáticos
% Saturados % NSO
80 20
60 40
40 60
20 80Aumento dadegradação
Óleos mais pesados
Óleos mais leves
44
sofrem um bombeio em direção às pré-colunas preenchidas com sílica (70% sílica fina
e 30% sílica mais grossa) e umedecidas previamente por n-hexano pelo aparelho.
Nesta etapa, os compostos polares ficam retidos nas pré-colunas seguindo apenas
para a coluna principal os hidrocarbonetos. Estes compostos polares são retirados
manualmente, offline, pressurizados com etanol, extraídos, concentrados e
armazenados em frascos separados para posterior cálculo composicional. Na coluna
principal, os compostos aromáticos e as parafinas são separados. As parafinas
passam com maior facilidade e menor tempo de retenção e são encaminhadas para os
frascos coletores. As duas frações são posteriormente concentradas no
rotoevaporador Turbovap 500. As parafinas que são carreadas pelo n-hexano são
registradas através de um pico no detector de IR e acondicionadas em um recipiente
próprio. Após a queda na intensidade do registro o que indica a saída completa das
parafinas, o fluxo de n-hexano pela coluna principal é invertido e o tubo para coleta é
trocado. Os hidrocarbonetos aromáticos são então arrastados para fora da coluna e
coletados, sendo acusados por ambos os detectores (IR e UV) e registrados sob a
forma de dois picos concomitantes.
Figura 4.3: Equipamento para cromatografia líquida Knauer MPLC.
4.4) Cromatografia em Fase Gasosa (CG)
A cromatografia em fase gasosa permite uma separação mais refinada dos
compostos orgânicos presentes em óleos ou extrato de rocha do que a cromatografia
líquida. Seus resultados são apresentados sob a forma de gráfico (cromatograma)
onde é observada a distribuição dos compostos orgânicos presentes. No eixo das
45
ordenadas é registrada a abundância relativa de cada composto, e no das abscissas é
representado o tempo de análise. Ambos os eixos estão em escala linear e com
valores crescentes.
No cromatograma as parafinas normais ou lineares são geralmente os picos
predominantes. As isoparafinas ou parafinas ramificadas ocorrem como numerosos
picos entre as parafinas normais, sendo o pristano e fitano as mais importantes do
ponto de vista geoquímico. As cicloparafinas também podem ocorrer como picos entre
as parafinas normais, tais como os esteranos e terpanos na região do C25. Algumas
amostras de óleo apresentam um deslocamento acentuado da linha base em função
da presença elevada de compostos não resolvidos pelo método cromatográfico. Esta
feição é conhecida como UCM (Unresolved Complex Mixture) ou “hump”
cromatográfico.
A análise de óleo total (Whole oil) é realizada em um cromatógrafo a gás
Hewlett-Packard, modelo HP 6890A (Figura 4.4), equipado com injetor split-splitless,
DIC (Detector de Ionização de Chama), coluna capilar de metilsilicone J&W DB5 de
30m de comprimento com 0,25mm de diâmetro interno e 0,25μm de fase estacionária.
A programação de temperatura abrange o intervalo de 40ºC a 320ºC, numa taxa de
aquecimento de 4ºC/min. O injetor é mantido a uma temperatura de 300ºC e o detector
a 340ºC. O tempo médio para a análise de cada amostra é de 130 minutos.
Figura 4.4: Cromatográfo a gás Hewlett-Packard, modelo HP 6890A.
Uma amostra de 1μL de óleo diluída em diclorometano é injetada no aparelho,
onde suas moléculas são vaporizadas e misturadas com um gás de arraste inerte
(hélio), num fluxo de 50 cm/s a 40ºC. Esta mistura gasosa percola um tubo com
espessura capilar constituído de sílica fundida e superfície interna revestida por uma
46
película de um líquido não volátil (fase estacionária). À medida que as moléculas
orgânicas se movem pelo tubo capilar são repetidamente retidas e liberadas pela fase
estacionária com diferentes eficiências. As moléculas com maior massa molecular são
retidas por mais tempo, por serem menos voláteis. Assim, a temperatura do tubo
capilar precisa ser gradualmente aumentada para permitir a retirada das moléculas
maiores. Na saída da coluna capilar, as moléculas são detectadas por um detector por
ionização em chama de hidrogênio. O sinal analógico gerado pelo cromatógrafo é
então processado pelo sistema Agilent Chemstation (Figura 4.5).
Figura 4.5: Modelo esquemático do funcionamento de um cromatógrafo a gás (modificado de
COLLINS et al., 1997).
A magnitude da corrente iônica resultante é representada num gráfico
denominado cromatograma, onde cada pico indica a proporção de moléculas com
determinado número de átomos de carbono (OURISSON et al., 1984).
O aspecto do cromatograma, ou seja, a distribuição das parafinas normais
fornece indicações sobre a origem da matéria orgânica. Óleos de origem continental
normalmente apresentam predominância nas parafinas mais pesadas (n-C15 a n-C25) e
os de origem marinha, nas de peso molecular mais baixo (n-C12 a n-C17). A
predominância de parafinas ímpares em relação às pares, a razão pristano/fitano e a
presença de isoprenóides como i-C25, i-C30 e β-carotano também são utilizados como
indicadores ambientais.
A evolução térmica também pode ser caracterizada pela distribuição das
parafinas. À medida que a evolução térmica se acentua, a distribuição das n-parafinas
é deslocada em direção aos homólogos de menor peso molecular. A quantidade de
parafinas pares e ímpares pode também ser empregada para avaliar evolução térmica,
47
de forma que amostras com predominância em parafinas ímpares são menos
evoluídas termicamente, e provavelmente, provenientes de sedimentos clásticos,
enquanto que amostras que possuem predominância em parafinas pares devem estar
mais evoluídas termicamente e provavelmente são provenientes de ambiente com
fácies carbonáticas (PETERS & MOLDOWAN, 1993).
A biodegradação também pode ser observada pelo cromatograma gasoso.
Neste caso, a biodegradação resulta na depleção das n-parafinas prioritariamente em
relação às outras classes de compostos como os isoprenóides e as parafinas cíclicas
(PETERS & MOLDOWAN, 1993).
4.5) Cromatografia em Fase Gasosa Acoplada à
Espectrometria de Massas (CG-EM)
A cromatografia em fase gasosa (CG) isoladamente não revela detalhes sobre
a estrutura ou massa de uma molécula, sendo então necessário recorrer ao seu
acoplamento com a espectrometria de massas (EM) para se obter a identificação de
compostos específicos de interesse (biomarcadores).
Biomarcadores são componentes traços no petróleo. Foram definidos por
PHILP (1985) como compostos orgânicos presentes na geosfera, cujas estruturas
podem ser indubitavelmente relacionadas aos constituintes de organismos atuais.
Qualquer alteração que possa ocorrer ao esqueleto carbônico do biomarcador, durante
a deposição e soterramento do material orgânico dentro do registro sedimentar, deve
ser mínima e limitada apenas às mudanças estereoquímicas. Assim, relações precisas
entre precursor/produto têm sido estabelecidas para muitas classes de biomarcadores.
Cada composto separado no cromatógrafo mostra uma distribuição específica
de fragmentos de massas, ou seja, um espectro de massa característico. Os espectros
de massa são utilizados para a identificação dos compostos orgânicos porque estes
possuem fragmentações típicas, rompendo-se em ligações químicas mais fracas.
Assim, pode-se monitorar seletivamente os compostos, obtendo-se os perfis de
distribuição para o íon de uma determinada razão massa/carga (m/z) característica de
uma certa classe. Na Geoquímica de Petróleo, as classes de biomarcadores mais
estudadas são: os esteranos, os hopanos, os esteróides monoaromáticos e os
esteróides triaromáticos, utilizando-se os fragmentogramas m/z 217, 191, 253 e 231,
Embora a técnica permita a identificação de compostos aromáticos, neste
estudo serão utilizados apenas os compostos identificados a partir da fração de
48
saturados obtida pelo método de cromatografia líquida conforme descrito
anteriormente.
Figura 4.6: Exemplo de cromatograma gasoso e respectivos fragmentogramas dos íons (m/z)
191 e 217 de uma amostra de óleo lacustre da Bacia Potiguar.
As análises de CG-EM são realizadas em um conjunto de aparelhos que
consiste de um cromatógrafo a gás modelo HP 6890 Series acoplado a um
espectrômetro de massas Micromass (Figura 4.7).
Figura 4.7: Espectrômetro de massas Micromass acoplado ao cromatógrafo a gás Hewlett-
Packard, modelo HP 6890 Series.
49
Cerca de 1μL de amostra (fração de hidrocarbonetos saturados) diluído em n-
hexano é injetado automaticamente no cromatógrafo, sendo os compostos arrastados
por um gás inerte (hélio) com um fluxo de 33 cm/s através de uma coluna capilar J&W
composta de sílica fundida com 60m de comprimento, 0,25mm de diâmetro interno,
contendo uma fina película (0,25μm) de fase estacionária. A rampa de temperatura
programada é de 55º a 320ºC, sendo de 55º a 150º com gradiente de 20ºC/mim e de
150º a 320º, com gradiente de 1,5ºC/min. Os compostos vão saindo do cromatógrafo
segundo seus tempos de retenção que são função da sua massa e sua interação com
a coluna capilar, ou seja, compostos mais leves saem primeiro e com o aumento da
temperatura os compostos mais pesados e polares começam a sair. Após saírem do
cromatógrafo, estes compostos atingem uma zona de interface
cromatógrafo/espectrômetro de massas que deve ser mantida a uma temperatura de
310ºC. No espectrômetro de massas, a amostra sofre um “bombardeio” de elétrons
com energia de 70eV, ocorrendo a fragmentação dos compostos e a formação dos
íons moleculares. Estes íons seguem para um analisador quadrupolo, onde são
separados os íons específicos ou conjunto de íons através de suas razões
massa/carga (m/z). As moléculas produzem uma variedade de íons fragmentados,
com diferentes massas. Esta mistura de íons passa através de um campo magnético
que separa os íons de diferentes razões massa/carga pré-selecionados passando em
seguida por um detector. O registro dos íons presentes, e suas concentrações
relativas correspondem, ao que se denomina fragmentograma, que é obtido pelo
sistema Agilent Chemistation através da comparação do tempo de retenção dos
compostos e um padrão conhecido (Figura 4.8).
Figura 4.8: Modelo esquemático de um cromatógrafo acoplado a um espectrômetro de massas
e suas respectivas funções (modificado de PETERS & MOLDOWAN, 1993).
Separação dos compostos Interface Fonte de Íons
Análise deMassas
Detecçãode Íons Processamento de Dados
Cromatógrafo a Gás Espectrômetro de Massas
Seringa
Coluna Cromatográfica
Fonte de Íons
Linha detransferência Analisador de massas
(quadrupolos magnéticos)
Multiplicador de elétrons
Gravadormagnético
Impressora
Terminal
Separação dos compostos Interface Fonte de Íons
Análise deMassas
Detecçãode Íons Processamento de Dados
Cromatógrafo a Gás Espectrômetro de Massas
Seringa
Coluna Cromatográfica
Fonte de Íons
Linha detransferência Analisador de massas
(quadrupolos magnéticos)
Multiplicador de elétrons
Gravadormagnético
Impressora
Terminal
50
4.6) Isótopos Estáveis de Carbono (δ13C)
A razão isotópica 13C/12C de hidrocarbonetos é utilizada para a caracterização e
interpretação do paleoambiente de deposição. Ela reflete a composição isotópica
original do CO2 utilizado na fotossíntese, e é dependente do tipo de organismo
fotossintetizador, da produtividade e preservação da matéria orgânica, assim como
dos processos sin- e pós-deposionais. O processo de fotossíntese concentra
preferencialmente 12C na matéria orgânica, pois é o isótopo mais leve, de modo que a
sua razão 13C/12C é menor do que do CO2 empregado em suas reações.
A razão isotópica de carbono é expressa na notação delta em partes por mil
(‰) utilizando como referência um padrão secundário ajustado ao padrão internacional
PDB (carbonatos da Formação Pee Dee Belemnites no Estado da Carolina do Sul).
Esta notação é expressa pela relação:
[ ( )( ) ] 313 10×−= Rp
RpRaCδ ( )1.4
Onde Ra e Rp se referem às relações 13C/12C da amostra e do padrão,
respectivamente. Portanto, os valores medidos representam o desvio em relação ao
padrão secundário calibrado ao padrão internacional PDB.
Para se obter a composição isotópica do carbono (óleo total) é realizada uma
combustão em uma atmosfera oxidante temporária. Esta reação promove a
combustão e a oxidação completa de todas as substâncias orgânicas e algumas
inorgânicas presentes na amostra que serão posteriormente separados em uma
coluna cromatográfica e finalmente, detectados por espectrômetro de massas. Pesa-se cerca de 200μg de amostra em uma cápsula de estanho. Esta cápsula
é levada a um amostrador automático onde é purificada em fluxo contínuo de gás
hélio. A amostra é transferida para um tubo vertical constituído de quartzo onde será
realizada a combustão. A uma temperatura de 900ºC o gás hélio é enriquecido
temporariamente com oxigênio puro para formar uma atmosfera oxidante, onde ocorre
a oxidação da amostra pela reação “flash combustion”. Nesta fase, são formados CO2,
H2O e compostos nitrogenados. Os compostos nitrogenados, por possuírem massa
próxima do CO2, devem ser retirados para não interferirem nos resultados. Então a
amostra passa por um forno de redução a 680ºC contendo Cu e Cu2O, onde os
compostos nitrogenados são retirados. A água formada na reação fica retida em um
trap de percolato de magnésio. O CO2 e o N2 são separados em uma coluna
51
cromatográfica e transferidos para uma interface. Nesta interface, o CO2 é diluído com
hélio e transferido para um espectrômetro de massas MAT 252 da Finnigan (Figura
4.9). No espectrômetro as moléculas de CO2 são bombardeadas por um feixe de
elétrons, formando CO2+. O íon CO2
+ pode apresentar massas 44, 45 ou 46,
dependendo da combinação dos isótopos (13C/12C e 16O/18O). Cada íon formado segue
a um coletor pré-determinado, através de campos magnéticos específicos. O resultado
é então ampliado e comparado com o gás padrão de referência, e então é obtido o
valor de δ.
Figura 4.9: Espectrômetro e massas MAT 252 da Finnigan utilizado na análise isotópica de
carbono em óleos.
4.7) Determinação do Grau API (Densidade)
A densidade dos óleos apresenta valores entre 0,73-1,0. Óleos parafínicos são
comumente leves, enquanto os asfálticos são pesados. A densidade é por convenção
expressa pela letra grega ρ (rho). O American Petroleum Institute (API) desenvolveu
uma escala padrão de medida da densidade do óleo segundo a seguinte equação
(4.2).
5,1315,141−=
ρAPI ( )2.4
onde ρ é a densidade do óleo a 60ºF comparada com a da água na mesma
temperatura expressa em g/cm3.
Segundo HUNT (1996), as designações “leve” e “pesado” são comumente
empregadas na indústria do petróleo. O termo “leve” é aplicado a óleos com API
52
maiores que 31,1ºAPI, “médio” entre 22,3 e 31,1ºAPI, e “pesado” entre 10 e 22,3ºAPI.
Óleos com densidades menores que 10ºAPI são tidos como extrapesados. Logo, este
parâmetro é um indicador direto da evolução térmica a que esteve submetida à rocha
geradora do petróleo e da biodegradação após a expulsão do petróleo da mesma. O grau API é determinado nos laboratórios da Gerência de Avaliação de
Petróleo em um densitômetro digital ANTON PARR, modelo DMA-602 (Figura 4.10),
onde é introduzida uma pequena quantidade de amostra (cerca de 1mL) em um tubo
oco em forma de “U”. O equipamento mede as modificações na oscilação do tubo
causadas pelas modificações de massa forçadas por uma oscilação harmônica. A
norma utilizada é a ISO 12185 e os resultados obtidos em Kg/m3, a uma temperatura
de referência de 15º ou 20ºC. A densidade medida a 15ºC (60ºF) é convertida em grau
API através da equação 4.2.
Figura 4.10: Densitômetro digital ANTON PARR, modelo DMA-602.
4.8) Teor de Enxofre (S)
O conteúdo de enxofre é considerado como um parâmetro bulk e é comumente
aplicado para subsidiar relações entre amostras de petróleo. Por exemplo, gráficos
binários de ºAPI ou isótopos estáveis de carbono (δ13C) versus % de enxofre podem
ser aplicados para agrupar famílias de óleos e ajudar na sua caracterização (PETERS
& MOLDOWAN, 1993).
O teor de enxofre em óleos e betumes varia de 0,1 a 14%, porém a maioria
está entre 0,1 a 3% sendo poucos os petróleos com valores superiores a 4%. A maior
parte dos componentes sulfurados encontrados no petróleo está ligada a átomos de
carbono e ocorrem em maior proporção nas frações com alto ponto de ebulição ou nas
residuais (que não são destiláveis). Óleos pesados são geralmente ricos em
compostos sulfurados. Esta tendência geral de aumento de enxofre com o decréscimo
53
do grau API resulta da combinação de fatores ligados a alteração do óleo, onde por
eliminação das frações mais leves e concentração das mais pesadas ocorre o
enriquecimento de enxofre (FREITAS & SANTOS, 1982).
Além dos processos de alteração secundária, que podem aumentar
relativamente a concentração de enxofre no óleo, a origem da matéria orgânica
também influencia. Considerando que a maioria dos compostos orgânicos sulfurados é
formada a partir do querogênio, logo querogênios com altos teores de enxofre
produzem óleos com altos valores de enxofre e vice-versa. Segundo FREITAS &
SANTOS (1982), a solubilidade do enxofre na água salgada (Eh elevado) é bastante
superior a solubilidade desse elemento em água doce (Eh baixo), e devido a este fato
a concentração de enxofre na matéria orgânica de ambiente marinho, de uma maneira
geral, apresenta maior concentração de enxofre do que a matéria orgânica de origem
continental, o que acarreta na geração de óleos com teores variáveis de enxofre em
função do ambiente deposicional de sua matéria orgânica. A determinação da porcentagem de enxofre é realizada pela combustão da
amostra a uma temperatura de 1371ºC em uma atmosfera de oxigênio. Desta forma, o
enxofre contido na amostra é oxidado a dióxido de enxofre (SO2), que é medido em
um detector de infravermelho. Um microprocessador acoplado ao equipamento calcula
a porcentagem de enxofre em massa, com relação ao peso da amostra. O sinal obtido
no detector é integrado a um fator de calibração pré-determinado.
54
CAPÍTULO
5
5. TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL
Serão apresentados neste capítulo alguns fundamentos teóricos relacionados aos modelos e às técnicas de inteligência artificial empregadas neste trabalho para classificação, bem como suas vantagens e desvantagens.
5.1) Introdução
A curiosidade, a busca e a descoberta de novos conhecimentos surgiram
desde que o homem veio ao mundo. Esta inquietação permanente provocada pelo
exercício contínuo do pensamento é reflexo daquilo que só os seres humanos têm de
forma plena: a inteligência (LEAL & MARTINS, 2003).
As áreas governamentais, corporativas e científicas têm promovido um
crescimento explosivo em seus bancos de dados, superando em muito a usual
capacidade de interpretar e examinar estes dados, gerando a necessidade de novas
ferramentas e técnicas para análise automática e inteligente de bancos de dados. Na
geoquímica orgânica não ocorre de forma diferente. O desenvolvimento de novas
metodologias analíticas e o aperfeiçoamento das mais antigas permitem a cada dia um
aumento no número de compostos orgânicos que podem ser identificados e
quantificados. Esta capacidade permite os especialistas atacar problemas cada vez
mais complexos, mas por outro lado, o número de amostras e de constituintes gerados
por amostra analisada tornam o conjunto de dados extenso e complexo.
Neste contexto, um dos grandes problemas dos especialistas em análise de
informação é a transformação de dados em informação. Então, como fazer isso de
uma forma automatizada e no menor tempo possível? Uma saída para esta questão
seria a combinação de técnicas de estatística clássica e técnicas de inteligência
artificial, o que resultaria em uma técnica muito comentada atualmente, a Mineração
de Dados (Data Mining).
55
As técnicas de mineração de dados são aplicadas em sistemas de descoberta
de conhecimento em bancos de dados com o objetivo de extrair informações
estratégicas escondidas em grandes bancos de dados, por meio da pesquisa dessas
informações e da determinação de padrões, classificações e associações entre elas.
5.2) Classificação de Dados
A mineração de dados pode ser aplicada de duas formas: como processo de
verificação e como processo de descoberta. No processo de verificação, o usuário
sugere uma hipótese acerca da relação entre os dados e tenta prová-la aplicando
técnicas como análises estatísticas e multidimensionais sobre um banco de dados
contendo informações passadas. No processo de descoberta não é feita nenhuma
suposição antecipada. Este processo usa técnicas tais como: descoberta de regras de
associação, árvores de decisão, algoritmos genéticos e redes neurais. Dentre as
diferentes aplicações da mineração de dados, destacam-se a classificação, estimativa,
associação, segmentação e sumarização (DIAS, 2002).
Os modelos de classificação de dados são preditivos, pois desempenham
inferências nos dados com o objetivo de predizer a que classe de objetos pertence
uma nova observação. O problema a ser tratado por este estudo é do tipo
classificação; abaixo estão citados alguns exemplos de aplicações práticas para os
modelos de classificação:
MARKETING DIRETO: determinar se um cliente responderá “sim” ou “não” à
determinada oferta de produto ou serviço, com base nos dados demográficos,
consumo e na utilização de serviços. A partir de uma amostra de clientes que
já responderam questionários de pesquisa de opinião, pode-se criar um modelo
para a antecipação da resposta dos demais clientes.
SEGUROS E PLANOS DE SAÚDE: predição de quais clientes ou grupos de
clientes comprariam novas apólices de seguro, ou planos de saúde,
identificação de clientes/pacientes de risco, verificação de quais procedimentos
médicos e/ou odontológicos são utilizados conjuntamente.
SETOR BANCÁRIO: detectar padrões de uso de cartão de crédito fraudulento,
identificar clientes “leais”, determinar gastos com cartão de crédito por grupos
de clientes.
CIÊNCIA: podem ajudar cientistas em suas pesquisas, como encontrar
padrões em estruturas moleculares, dados genéticos, dar suporte à decisão na
escolha de áreas propícias a minérios, entre outras.
56
Diversas técnicas foram desenvolvidas para a criação de modelos de
classificação, entre elas: Árvores de Decisão, K-Vizinhos Mais Próximos, Naive Bayes,
Support Vector Machine e Redes Neurais Artificiais (DIAS, 2002).
Estas técnicas criam automaticamente um modelo a partir de um conjunto
inicial de registros. Este conjunto que serve de exemplo é chamado de conjunto de
treinamento. Os registros do conjunto de treinamento devem pertencer a um pequeno
grupo de classes predefinidas. O modelo é composto de padrões, essencialmente
generalizações em relação aos registros, os quais são utilizados para diferenciar as
classes. Uma vez obtido o modelo, este é usado para classificar automaticamente os
demais registros.
O modo como as classes são criadas oferece vantagens em relação a métodos
estatísticos clássicos. Os padrões podem ser produzidos a partir de um conjunto
localizado de fenômenos, ao passo que métodos estatísticos devem agir sobre
populações inteiras e de distribuição bem conhecida. Desta forma, é possível prever
características de um pequeno percentual de conjunto de registros, o que não seria
alcançado estatisticamente dada a inexpressividade dos registros sendo avaliados.
5.3) Redes Neurais Artificiais (RNA’s)
As redes neurais artificiais (RNA’s) começaram a ser desenvolvidas na década
de 40. No entanto, passaram a ser empregadas em larga escala apenas a partir da
década de 80, com o desenvolvimento das redes tipo “Perceptron” de múltiplas
camadas (“Multi Layer Perceptron”, ou simplesmente MLP).
As redes neurais artificiais são definidas como sistemas paralelos e distribuídos
por unidades de processamento simples (nós ou neurônios), que calculam
determinadas funções matemáticas (normalmente não lineares). Tais unidades são
dispostas em uma ou mais camadas e interligadas por um grande número de
conexões (sinapses), geralmente unidirecionais. Na maioria dos modelos, essas
conexões estão associadas a pesos, os quais armazenam o conhecimento
representado no modelo e servem para ponderar a entrada recebida por cada
neurônio da rede (BRAGA et al., 2000).
As redes neurais artificiais consistem em um método para solucionar
problemas na área de inteligência artificial através da construção de um sistema que
tenha circuitos que simulem o cérebro humano, inclusive seu comportamento, ou seja,
aprendendo, errando e fazendo descobertas. São mais que isso; são técnicas
computacionais que apresentam um modelo inspirado na estrutura neural dos
57
organismos inteligentes, que adquirem conhecimento através da experiência. Uma
rede neural pode ter centenas ou até milhares de unidades de processamento,
enquanto que o cérebro de um mamífero pode ter muitos bilhões de neurônios.
Estruturalmente, uma rede neural artificial é semelhante ao sistema biológico,
consistindo em um número de elementos interconectados (neurônios) organizados em
camadas que aprendem pela modificação da conexão (pesos). Por convenção, a
camada que recebe os dados é chamada de camada de entrada e a camada que
mostra o resultado é chamada de camada de saída. Em redes com mais de duas
camadas, as que se encontram entre as de entrada e de saída desempenham o
processamento interno e são denominadas camadas escondidas ou ocultas. Uma rede
neural artificial pode conter uma ou várias camadas ocultas, de acordo com a
complexidade do problema (Figura 5.1).
Figura 5.1: Exemplo de arquitetura de uma RNA de três camadas.
As variantes de uma rede neural são muitas, e são alteradas de acordo com a
aplicação e com o tipo de problema a ser resolvido. O que permite a diferenciação
entre as redes neurais artificiais são os tipos de conexões e formas de treinamento.
Basicamente, os itens que compõem uma rede neural artificial e estão sujeitos a
modificações são: a forma de conexões entre as camadas, o número de camadas
escondidas, a quantidade de neurônios em cada camada, a função de transferência e
o algoritmo de aprendizado.
Camadade Entrada
CamadaEscondida
Camadade Saída
Camadade Entrada
CamadaEscondida
Camadade Saída
58
5.3.1) O Neurônio Biológico
No sistema nervoso, a unidade morfológica e funcional é a célula nervosa ou
neurônio, que recebe e transmite o impulso nervoso. O cérebro humano é composto
por mais ou menos 1011 neurônios de diversos tipos diferentes, com distintas funções
dependendo da sua localização e estrutura morfológica, mas que em geral,
constituem-se dos mesmos componentes básicos (SILVA JÚNIOR & SASSON, 1996)
(Figura 5.2) :
CORPO DO NEURÔNIO: também chamado de soma, é onde está contido o
núcleo e pericário, que dá suporte metabólico a toda célula.
AXÔNIO: fibra nervosa sob a forma de um fino filamento que é responsável
pela condução do impulso nervoso para o próximo neurônio. Pode ser
revestido ou não por mielina (bainha axonial, que desempenha o papel de
isolante e facilita a transmissão do impulso nervoso).
DENDRITOS: são prolongamentos menores em forma de ramificações
(dendron = árvore) que emergem do pericário e do final do axônio, sendo, na
maioria das vezes, responsáveis pela comunicação entre os neurônios
através das sinapses. De uma forma geral, os dendritos têm por função
receber os estímulos transmitidos pelos outros neurônios.
Figura 5.2: Tipos de neurônios biológicos (SILVA JÚNIOR & SASSON, 1996).
59
O percurso do impulso nervoso no neurônio é sempre no sentido
dendrito axônio. Quando em repouso, a membrana celular do axônio está polarizada,
isto é possui carga elétrica positiva do lado externo e carga elétrica negativa do lado
interno. Ao receber um estímulo, ela se despolariza, isto é, sofre modificações,
havendo inversão das cargas elétricas: externamente, ficam as cargas negativas, e
internamente, as positivas (Figura 5.3). A inversão vai sendo transmitida ao longo do
axônio, e todo esse processo é considerado impulso nervoso (LOPES, 1997).
Figura 5.3: Esquema da propagação do impulso nervoso em um neurônio (modificado de
LOPES, 1997).
A transmissão do impulso nervoso entre o axônio de um neurônio e o corpo
celular ou os dendritos do neurônio receptor (ou entre o neurônio e uma célula de
outro órgão) é feita através de uma junção especializada chamada sinapse (= fenda).
Quando o estímulo nervoso chega à extremidade do axônio, este libera para a fenda
sináptica um mediador químico conhecido por neurotransmissor. O neurotransmissor
liberado na fenda sináptica atua sobre a membrana plasmática do neurônio receptor,
causando a despolarização da membrana, isto é, passa o impulso nervoso para o
outro neurônio. Esse processo se repete até chegar ao órgão alvo, onde o impulso
nervoso provoca uma resposta que pode ser de contração ou relaxamento (LOPES,
1997).
Portanto, a transmissão do sinal de uma célula para a outra é um complexo
processo químico, no qual substâncias específicas são liberadas pelo neurônio
transmissor. O efeito é um aumento ou uma queda no potencial elétrico no corpo da
célula receptora. Se este potencial alcançar o limite de ativação da célula, um pulso ou
uma ação potencial de potência e duração fixa é enviado através do axônio. Diz-se
Um neurônio pode receber ou enviar impulsos através de 1.000 a 100.000
conexões sinápticas em relação a outros neurônios, dependendo do seu tipo e
localização no sistema nervoso. O número e a qualidade das sinapses em um
neurônio pode variar, entre outros fatores, pela experiência e aprendizagem,
demonstrando a capacidade plástica do sistema nervoso.
5.3.2) O Neurônio Artificial
O neurônio artificial foi projetado para “imitar” as características primárias do
neurônio biológico. Desta forma, neurônio artificial é uma estrutura lógico-matemática
que procura simular o comportamento e as funções de um neurônio biológico, onde os
dendritos foram substituídos por entradas cujas ligações com o corpo celular artificial
são realizadas através de elementos chamados de peso (simulando as sinapses). Os
estímulos captados pelas entradas são processados pela função de soma, e o
lançamento do estímulo do neurônio biológico foi substituído pela função de
transferência (KOVÁCS, 1996) (Figura 5.4).
Figura 5.4: Modelo esquemático da unidade fundamental de uma RNA, o neurônio artificial.
A função básica de um neurônio artificial frente a um tratamento
supervisionado, por exemplo, é depois de acumular o valor somado dos produtos
ocorridos entre as entradas e os pesos, processar esse valor através de uma função
de ativação e passá-lo adiante através da saída (tal processo é conhecido como
Função de Transferência).
ƒ
Σ
Função de transferência
Função de soma W1
W2
W3
ENTRADAS
Pesos
SAÍDA
ƒ
Σ
Função de transferência
Função de soma W1
W2
W3
ENTRADAS
Pesos
SAÍDA
61
Segundo KRÖSE e SMAGT (1993), o vetor de entrada “u” que representa um
conjunto de “n” entradas, é multiplicado por um vetor de pesos “w” e o produto, p=u.w,
é aplicado aos canais de entrada do neurônio. A soma de todas as entradas
ponderadas é então processada por uma função de ativação, φ(.), que vai produzir o
sinal de saída “yk” do neurônio “k”, este modelo representa o neurônio de McCulloch-
Pitt (Equação 5.1).
( )θϕ += ∑ ii ik wuy ( )1.5
O parâmetro θ é um valor de limiar (threshold) adicionado a soma ponderada,
que às vezes é omitido, mas constitui uma polarização externa (unidade bias) com o
intuito de aumentar o número de graus de liberdade disponíveis no modelo, permitindo
que a rede neural tenha maior capacidade de se ajustar ao conhecimento fornecido.
5.3.3) Funções de Ativação
A função de ativação define as propriedades computacionais de um neurônio.
É através da função de ativação que são calculadas as respostas geradas pelas
unidades. De acordo com HAYKIN (1994), esta função pode ter várias formas
conforme a figura 5.5 e as equações 5.2 a 5.5.
Figura 5.5: Exemplo de funções de ativação.
ƒ(x)
x
ƒ(x)
xβ
1
1
ƒ(x)
x
ƒ(x)
x
1
-1
(a) Linear (b) Degrau (lógica)
(c) Logística Sigmoidal (d) Tangente Hiperbólica
ƒ(x)
x
ƒ(x)
x
ƒ(x)
xβ
1ƒ(x)
xβ
1
1
ƒ(x)
x
1
ƒ(x)
x
ƒ(x)
x
1
-1
ƒ(x)
x
1
-1
(a) Linear (b) Degrau (lógica)
(c) Logística Sigmoidal (d) Tangente Hiperbólica
62
O exemplo mais simples de função de ativação é o da função linear, que não é
limitada e os neurônios com este tipo de função de propagação podem ser utilizados
como aproximadores lineares sendo, ela é definida segundo a equação 5.2:
( ) ii ik wuxxy ∑===ϕ ( )2.5
Outra função de ativação é a função degrau (lógica), que limita a saída do
neurônio a apenas dois valores (binário: 0 ou 1, ou bipolar: -1 ou 1). Normalmente é
utilizada para criar neurônios que tomem decisões binárias, como nos classificadores.
Este tipo de função não é contínua em x=β, o que dificulta a utilização de algoritmos
eficientes de treinamento.
A versão contínua da função de ativação degrau é a função logística sigmoidal,
encontrada em diversas aplicações de redes neurais artificiais, e definida pela
equação 5.3:
( ) xk exy αϕ −+== 11 ( )3.5
onde o parâmetro α modifica a derivada da função sigmóide nas vizinhanças do ponto
x=0 e serve para ajustar a “velocidade” da transição. Este tipo de função limita a saída
de um neurônio no intervalo [0,1], ou seja, independente do valor de entrada (-∞ e +∞),
a função comprimirá os valores em um intervalo fixo entre zero e um. É a função
geralmente adotada em redes neurais em virtude de ser contínua, monotônica, não
linear e facilmente diferenciável em qualquer ponto como demonstrado na equação
5.4:
( ) ( )yyxdxdy
−== 1'ϕ ( )4.5
Em algumas aplicações, um melhor desempenho é obtido no treinamento da
rede com saídas no intervalo [-1,+1], obtido a partir da função de ativação tangente
hiperbólica, tendo as mesmas características da função logística sigmoidal, porém
possibilitando que as saídas sejam simétricas (Equação 5.5).
( ) xx
k eexxy −
−
+−=⎟
⎠⎞
⎜⎝⎛== 1
12
tanhϕ ( )5.5
63
5.3.4) Topologia da Rede
Topologia (do grego topos=forma, e logos=estudo) é o ramo da matemática
que estuda as formas, ou seja, os espaços topológicos. Em termos de informática, a
topologia de uma rede descreve como será o layout dos dispositivos conectados e
meio pelo qual haverá a propagação das informações. No estudo de redes neurais, a
topologia da rede confere a arquitetura a ser empregada na construção para um
determinado problema.
A capacidade de resolução do problema, o desempenho do treinamento e a
fidelidade dos resultados estão intimamente ligados à qualidade da representação
adotada (THOMÉ, 2003). Dependendo do algoritmo empregado para treinar a rede, a
maneira pela qual os neurônios da rede são estruturados sofre influência. Duas
classes fundamentais de arquitetura de redes são mais conhecidas: as redes
progressivas e as redes recorrentes.
REDES PROGRESSIVAS:
Nesta arquitetura de rede, os neurônios são organizados em forma de
camadas, com a primeira camada de vetores de entrada ligada às camadas
intermediárias e estas, por conseguinte, ligadas a uma camada de saída.
Todas as conexões entre neurônios diferentes obedecem necessariamente à
direção entrada saída, não havendo conexões entre neurônios de uma mesma
camada. Esta estrutura é totalmente conectada, uma vez que todas as saídas dos
neurônios de uma camada são conectadas com as entradas de todos os neurônios da
camada seguinte imediatamente à direita (Figura 5.6). Os neurônios da camada de
entrada diferem de todos os demais, operando apenas como ponto de ligação, uma
vez que desempenham a função de conectar o mundo exterior com o mundo interior
da rede neural artificial (THOMÉ, 2003).
Figura 5.6: Estrutura unidirecional em uma RNA de quatro camadas.
64
REDES RECORRENTES:
Uma rede neural artificial recorrente difere de uma rede neural artificial
progressiva por possuir pelo menos um “loop” de realimentação (feedback loop).
Nesta topologia, as redes possuem realimentação, onde um neurônio pode ser
direta ou indiretamente retroalimentado pela sua saída. Cada camada pode conter
conexões entre os elementos de processamento da mesma camada, como se fossem
estímulos laterais, das camadas anteriores e das camadas posteriores (Figura 5.7). Na
topologia recorrente, não existe um sentido único para o fluxo dos sinais entre
neurônios ou entre camadas (THOMÉ, 2003). A rede mais conhecida é a rede de
Hopfield.
Figura 5.7: Estrutura recorrente em uma das camadas de uma RNA.
5.3.5) Modelos de Treinamento
É durante a fase de treinamento que uma rede neural artificial “aprende” o
problema e vai tentar resolvê-lo auto-ajustando seus parâmetros internos. Ao
aprender, isto é, ter adquirido condições de onde o erro obtido seja satisfatório ao
especialista avaliador, seus parâmetros são congelados e ela, a partir de então, está
pronta para ser utilizada com os dados do problema corrente. Como as redes neurais artificiais aprendem por “experiência” através de
exemplos e eventos de tentativas e erros, são conhecidos dois modelos de
treinamento de redes neurais:
SUPERVISIONADO:
Neste tipo de aprendizado, os padrões de entrada e as saídas (também
conhecidas como targets, respostas desejadas ou classes) são apresentados à rede,
ou seja, é fornecida a classe de cada amostra durante a fase de treinamento.
65
O ciclo de treinamento começa com a entrada de um primeiro vetor, a partir do
qual a saída da rede é calculada e comparada com o vetor de saída correspondente.
O erro encontrado é realimentado através da rede e os pesos são atualizados de
acordo com um algoritmo determinado para minimizar este erro. Este ciclo é repetido
até que o erro para os vetores de treinamento tenha alcançado níveis mínimos (Figura
5.8).
Figura 5.8: Esquema de aprendizado supervisionado.
NÃO SUPERVISIONADO:
Neste tipo de aprendizado, o rótulo da classe de cada amostra de treinamento
não é apresentado, e a rede irá analisar o conjunto de dados apresentado a ela sem a
necessidade de um conjunto de pares de entrada e saída como no caso do
treinamento supervisionado, ou seja, são empregados no aprendizado apenas os
valores de entrada (Figura 5.9).
A rede irá analisar os vetores de entrada e organizá-los de modo a classificá-
los mediante algum critério de semelhança. Este tipo de rede utiliza os neurônios
como classificadores e os dados de entrada como elementos de classificação
(THOMÉ, 2003).
PesosAjustáveis
(W)
Cálculo do erro(e)
SAÍDA(s)
Valor desejado(t)
PADRÃO DEENTRADA
(X)
e (t,s)
PesosAjustáveis
(W)
Cálculo do erro(e)
SAÍDA(s)
Valor desejado(t)
PADRÃO DEENTRADA
(X)
e (t,s)
66
Figura 5.9: Esquema de aprendizado não supervisionado.
5.3.6) Modelos de Redes Neurais Artificiais
Na literatura, podem ser encontrados diversos modelos de redes neurais
artificiais, cada qual advindo de uma linha de pesquisa diferente, e sempre visando um
melhor desempenho na solução de um determinado problema. Estes modelos são
classificados de acordo com suas características como, por exemplo, forma de
treinamento, topologia e finalidade de aplicação.
Para as tarefas de classificação e predição de dados, os modelos mais
empregados são: Perceptron, Redes Lineares, Multi Layer Perceptron (MLP) e Radial
Basis Function (RBF). Já nos problemas de agrupamento, as redes mais empregadas
são os Mapas Auto-Organizáveis de Kohonen, as Redes de Hopfield e Memória
Associativa Bidirecional (SIMEÃO, 1999).
Dentre estes, o modelo que mais difundido e que se considera mais para
solucionar o problema, não linearmente separável, proposto neste estudo foi o de Multi
Layer Perceptron, o qual será mais detalhado no próximo item.
5.3.7) Modelo de Multi Layer Perceptron (MLP)
As redes Perceptron Multicamadas (Multi Layer Perceptron) são conhecidas
pela sua capacidade de generalização. É o tipo de rede mais adotado para previsão
de dados, pois pode aproximar muito bem funções não lineares (KOVÁCS, 1996).
Estas redes apresentam uma ou mais camadas entre as camadas de entrada e de
saída. Seu treinamento é do tipo supervisionado através do algoritmo de
retropropagação (backpropagation) (Figura 5.10).
PesosAjustáveis
(W)
SAÍDA(s)
PADRÃO DEENTRADA
(X)
PesosAjustáveis
(W)
SAÍDA(s)
PADRÃO DEENTRADA
(X)
PesosAjustáveis
(W)
SAÍDA(s)
PADRÃO DEENTRADA
(X)
67
Figura 5.10: Exemplo de arquitetura de uma rede neural artificial de quatro camadas tipo MLP.
As redes neurais artificiais de múltiplas camadas são de redes progressivas,
onde as saídas dos neurônios se conectam exclusivamente às entradas dos neurônios
da camada seguinte, sem a presença de ciclos de realimentação. Ou seja, o sinal de
entrada se propaga através da rede, camada a camada, em um sentido progressivo.
A configuração de uma rede neural artificial de múltiplas camadas é variável e
dependente do problema analisado. A quantidade de nós na camada de entrada e de
saída é determinada, respectivamente, pela quantidade de sinais de entrada e pela
quantidade de respostas desejadas, sendo por isso dados inerentes do problema em
questão. Desta forma, na etapa de construção de um projeto de uma rede neural
artificial de múltiplas camadas, os aspectos que precisam ser determinados
prioritariamente são:
Número de camadas escondidas;
Números de neurônios para cada camada escondida; e
Pesos sinápticos que conectam os neurônios.
O número de camadas escondidas não pode ser determinado por regras pré-
estabelecidas, visto que estas não existem! O que se encontra na literatura é a
menção a não utilização de um grande número de camadas.
SILVA & CANÊDO (2001) destacam que a última camada (camada de saída) é
a única camada que tem uma noção precisa do erro cometido pela rede, visto que a
última camada escondida recebe uma estimativa sobre o erro e a penúltima camada
escondida recebe uma estimativa da estimativa, e assim por diante. Testes empíricos
com rede neural artificial de múltiplas camadas backpropagation não demonstram
vantagem significativa no uso de duas camadas escondidas ao invés de uma para
problemas menores. Por isso, para a grande maioria dos problemas, utiliza apenas
uma camada escondida, quando muito duas, não mais que isso.
Camadade Entrada
1ªCamada
Escondida
Camadade Saída
Entr
adas
2ªCamada
Escondida
Saídas
Camadade Entrada
1ªCamada
Escondida
Camadade Saída
Entr
adas
2ªCamada
Escondida
Saídas
68
O algoritmo de retropropagação para redes neurais artificiais de múltiplas
camadas foi essencialmente inventado e popularizado por Rummerlhart, Hinton e
Williams, resolvendo uma das limitações fundamentais para o treinamento de redes
complexas. O algoritmo foi desenvolvido originalmente para redes de neurônios com
funções de ativação semilineares (KOVÁCS, 1996).
O algoritmo de retropropagação é o método empregado no treinamento de
redes neurais artificiais de múltiplas camadas. Durante o treinamento a rede atua em
uma seqüência de dois passos. No primeiro, um padrão é apresentado à camada de
entrada da rede. A atividade resultante flui através da rede, camada após camada, até
que atinja a camada de saída e a resposta seja produzida. No segundo passo, a saída
obtida é comparada à saída desejada. Caso esta não esteja correta, o erro é
calculado. O erro é então retropropagado desde a camada de saída até a camada de
entrada, e os pesos das conexões das unidades das camadas escondidas vão sendo
modificados conforme o erro é retropropagado (CARVALHO, 2000).
O ajuste dos pesos é realizado através do cálculo do gradiente descendente da
função de erro nos neurônios de saída, denominado de Regra de Delta Generalizada.
Esta regra opera na tomada do valor obtido na saída e calcula a diferença entre este e
o valor esperado. Este erro é retropropagado pela rede, de forma que se faça o cálculo
da diferença a aplicar nos pesos e sua posterior atualização. Em uma de rede neural
artificial de múltiplas camadas, o conhecimento aprendido sobre o ambiente é
representado pelos valores assumidos pelos pesos sinápticos da rede. Como estes
valores não são apresentados para o usuário, esta técnica é considerada por muitos
como “modelo caixa preta”.
5.3.7.1) Aprendizado das Redes MPL
A capacidade limitada de representação das redes neurais artificiais com uma
única camada foi superada na década de 60, a partir do perfeito entendimento do
problema de separabilidade linear. Contudo, apesar de se ter descoberto como
aumentar a capacidade de representação da rede com o acréscimo de novas
camadas, faltava ainda uma forma de treinar a rede. Esta forma só foi descoberta em
meados da década de 70, com a criação de vários algoritmos, entre eles o de
retropropagação (backpropagation). O backpropagation se tornou um dos algoritmos
mais populares para treinamento, sendo em parte responsável pelo ressurgimento do
interesse da área de redes neurais artificiais (AURÉLIO et al., 1999).
69
O algoritmo de retropropagação pode ser modelado por funções matemáticas
simples. Considere uma unidade de saída, o neurônio yk, sendo alimentado por um
conjunto de sinais resultante dos neurônios da sua camada à esquerda, segundo a
figura 5.11.
Figura 5.11: Fluxo do sinal no neurônio de saída k.
O potencial de ativação xk aplicado na entrada do neurônio k é definido pela
equação 5.6:
∑=
+=m
iikik ywx
0.θ ( )6.5
onde m é o número total de entradas aplicadas ao neurônio k. O peso sináptico θ,
corresponde à entrada fixa y0=-1, e define a unidade bias aplicada ao neurônio k. wki é
o peso sináptico conectado à saída do neurônio i ao neurônio k e yk é o sinal de saída
do neurônio i. O sinal yj resultante na saída do neurônio k é igual a:
( )kkk xy ϕ= ( )7.5
onde φk(.) representa a função de ativação associada ao neurônio k.
A diferença entre a saída esperada em k, representada por tk, apresentada pelo
padrão de treinamento, e o valor da saída calculado, yk, é o valor no qual a rede está
buscando minimizar, este erro (Ε) é dado por:
kkk yt −=Ε ( )8.5
O valor do erro quadrático para o neurônio k é definido como:
ykwkiyi Σ
Neurônio k
y0=-1
θ
xk
ϕ(.)ykwkiyi Σ
Neurônio k
y0=-1
θ
xk
ϕ(.)
70
2
21
kk Ε=Ε ( )9.5
A soma de todos os erros quadráticos para todos os neurônios da camada de
saída de uma rede neural artificial de múltiplas camadas é igual a:
∑∈
Ε=ΕCk
k2
21 ( )10.5
Onde o conjunto C inclui todos os neurônios da camada de saída. Como a
técnica utiliza para o ajuste de pesos o gradiente decrescente da função de erro nos
neurônios de saída, o erro quadrático médio é calculado nos neurônios de saída e a
atualização do peso do neurônio i para o k é dada por:
( ) ( ) ( )11 +Δ+=+ nwnwnw kikiki ( )11.5
O termo ∆wki é a alteração do peso desta conexão em cargo da apresentação
de um par padrão de entrada (t) e saída (y), definido da seguinte forma:
ikki yw δη.=Δ ( )12.5
onde η é a taxa de aprendizado (constante de proporcionalidade), δk é o gradiente
local do neurônio k e yi é a i-ésima entrada da unidade k.
Já o gradiente local em cada unidade, δ ou delta, é calculado para os
neurônios da camada de saída por um calculo direto:
( )kkk x'.ϕδ Ε= ( )13.5
onde φ’k(xk) á a derivada parcial da função de ativação em relação à entrada total no
neurônio k, e Εk é o erro na saída do neurônio k.
Nos neurônios das camadas escondidas, os valores alvos (ou padrões) não
são fornecidos. Desta forma, é necessário um cálculo indireto a partir do erro
calculado nos neurônios de saída, da seguinte forma:
( ) zk
m
zzkkk wx ..'
0∑=
= δϕδ ( )14.5
71
5.3.7.2) O Termo Momentum
A taxa de aprendizado, η, determina a velocidade de treinamento. Este
parâmetro tem grande influência durante o processo de treinamento da rede neural
artificial. Uma taxa de aprendizado muito baixa torna o aprendizado da rede muito
lento, ao passo que uma taxa de aprendizado muito alta provoca oscilações no
treinamento e impede a convergência do processo de aprendizado (SILVA &
CANÊDO, 2001).
Com isso, uma alternativa para reduzir o tempo de treinamento, assegurando
um maior grau de estabilidade da rede e visando aumentar o desempenho do cálculo
pelo método do gradiente descendente, foi proposto por Rummerlhart, Hinton e
Williams em 1986, a adição de um parâmetro denominado de Termo “Momentum” ou
Momento (AURÉLIO et al., 1999).
Desta forma, o termo momentum leva em consideração o efeito de mudanças
anteriores de pesos na direção do movimento atual no espaço de pesos. Então, se
durante o treinamento for encontrado um mínimo local, o erro para o conjunto de
treinamento irá estabilizar, ou seja, o cálculo vai estacionar em um valor maior que o
aceitável (Figura 5.12). Com o emprego deste parâmetro, a taxa de aprendizado pode
ser maior e o método converge mais rápido. O cálculo da diferença de peso, a cada
passo, então passa a ser:
( ) ( )nwynw kikkki Δ+=+Δ ...1 αδη ( )15.5
onde α é o termo momentum.
Figura 5.12: Panorama do erro quadrático com um mínimo local (modificado de KOVÁCS,
1996).
Mínimo GlobalMínimo Local
Mínimo GlobalMínimo Local
72
5.3.7.3) Atualização dos Pesos
O processo de aprendizado é a fase em que a rede neural artificial adapta seus
parâmetros (em geral, os pesos das conexões entre os neurônios) de forma a garantir
os resultados esperados pelo especialista. A dinâmica de treinamento representa a
freqüência com que estes parâmetros (os pesos) são atualizados. A atualização dos
pesos pode ser processada de duas formas: a cada padrão ou por ciclo.
No treinamento por padrão (incremental), os pesos são atualizados a cada
exemplo de treinamento, ou seja, os pesos da rede neural artificial são ajustados ao
final do processamento de cada observação (THOMÉ, 2003). Neste caso, a
apresentação de cada exemplo é importante para a velocidade de aprendizado da
rede neural artificial e, em alguns casos, deve-se reorganizar esta ordem de forma a
acelerar treinamento. A dinâmica de treinamento por padrão é estável se a taxa de
aprendizado for pequena. Quando taxas de aprendizado elevadas são utilizadas, a
rede neural artificial geralmente se torna instável. A abordagem por padrão é
geralmente mais rápida, principalmente se o conjunto de treinamento for grande e
redundante. Uma outra vantagem desta técnica é que ela requer menos memória
(SILVA & CANÊDO, 2001).
No treinamento por ciclo (Batch ou Epoch), os pesos são atualizados ao final
de cada ciclo - processamento de todo o conjunto de observações -, ou seja, os
parâmetros da rede são ajustados somente ao final e cada ciclo. Esta técnica é
geralmente mais estável e o treinamento é menos influenciado pela ordem de
apresentação dos padrões, mas ela pode ser lenta se o conjunto de treinamento for
grande e redundante. Uma outra desvantagem é que ela requer mais memória (SILVA
& CANÊDO, 2001).
Comparativamente com o treinamento incremental, o treinamento por ciclos é
considerado mais estável, embora demande mais tempo computacional.
5.3.7.4) Fim de Treinamento
Alguns critérios podem ser adotados para determinação do fim do treinamento
de uma rede neural artificial. Normalmente, o próprio erro médio quadrático é
estipulado como indicador de parada, ou outro erro que o especialista entenda como
interessante de calcular. Neste caso, a parada ocorre quando o erro calculado pelo
algoritmo de treinamento converge para um erro menor que o mínimo estipulado como
critério de término.
73
Um outro critério de fim de treinamento é a quantidade de ciclos percorridos,
porém neste caso o processo de aprendizado pára independentemente do nível de
aprendizado alcançado pela rede neural artificial. Este tipo de parada é útil nos casos
onde a convergência está difícil de ser alcançada e o processo de treinamento é
interminável.
Segundo SILVA & CANÊDO (2001), um número excessivo de ciclos pode levar
a rede neural artificial à perda do poder de generalização e ocorrer um super-ajuste da
mesma aos dados do conjunto de treinamento (“overfitting”). Por outro lado, com um
pequeno número de ciclos, um bom desempenho pode não ser atingido
(“underfitting”). Sugere-se então, um valor entre 500 e 3000 ciclos de treinamento.
Para os treinamentos realizados a partir do valor do erro médio quadrático, não é
aconselhável valores muito baixos, visto que estes não garantem boa generalização.
Este valor depende muito do problema, então é válido estabelecer um valor de 0,01 no
primeiro treinamento e posteriormente ajustá-lo em função do resultado.
5.3.7.5) Pesos Iniciais
Na literatura, são encontradas sugestões a respeito dos valores empregados
nos pesos iniciais. Geralmente, apontam-se para valores pequenos, aleatoriamente
escolhidos, positivos e negativos, e totalmente diferentes entre si.
Segundo GALLANT (1994), os valores dos pesos iniciais devem estar entre o
intervalo [-2/k,2/k], onde k é a quantidade de entradas de uma unidade. Já HERTZ et
al. (1990) recomendam o uso de valores em torno de 1/k.
5.3.7.6) Escala dos Valores de Entrada
A representação dos dados é uma variável muito importante. Caso as decisões
sobre a representação dos dados sejam feitas erroneamente, pode-se tornar
impossível que a rede neural artificial aprenda o relacionamento que está sendo
apresentado a ela. De uma forma geral, quanto mais explícita a representação dos
dados, mais fácil será para a rede neural artificial aprender.
O pré-processamento dos dados pode ser realizado através de normalizações,
escalonamentos e conversões de formato para torná-los mais apropriados a sua
utilização na rede neural artificial.
74
5.4) Árvores de Decisão
O aprendizado de máquina é uma área de pesquisa da Inteligência Artificial
cujo objetivo é extrair regras heurísticas que porventura existam embutidas em
grandes massas de dados. Estes algoritmos permitem uma boa modelagem dos
dados, permitindo previsões e classificações (CARVALHO, 2005).
Um dos muitos algoritmos de aprendizado de máquina, e dos mais utilizados,
são os chamados algoritmos de particionamento sucessivo. Estes algoritmos partem
da massa de dados original e a particionam gerando subgrupos que são, por sua vez,
também particionados até que se atinja o nível de detalhe desejado para extrair regras
heurísticas precisas sobre os padrões encontrados nos dados. Normalmente, estes
subgrupos são gerados a partir de um grupo através de uma regra heurística que
classifica os dados do grupo em um outro subgrupo. Sendo assim, uma boa
representação para o particionamento sucessivo é uma árvore binária chamada de
Árvore de Decisão (CARVALHO, 2005).
Quinlan e Breitman são considerados os personagens mais conhecidos no que
diz respeito ao desenvolvimento de algoritmos de indução de árvores de decisão. Os
seus softwares ID3 e CHART, respectivamente, se tornaram famosos no final da
década de 80/início 90 (OSÓRIO, 2001).
Proposto em QUINLAN (1986), o algoritmo ID3 pode ser aplicado para
conjuntos de instâncias com atributos discretos ou discretizados. Este algoritmo possui
uma implementação simples e desempenho razoável, o que o levou a ser um dos mais
populares. Sua estrutura é a mesma de um algoritmo básico de construção de árvores
de decisão, porém Quinlan inovou com a inserção de um critério de seleção de
atributos para o particionamento, que é o critério de entropia. Já em 1993, o mesmo
autor estendeu a capacidade do ID3, que só tratava dados discretos, para um novo
algoritmo, o C4.5, que tem a capacidade de lidar com dados contínuos.
De uma forma simplória, as árvores de decisão são amplamente utilizadas em
algoritmos de classificação, e consistem em representações simples do conhecimento
e um meio eficiente de construir classificadores que predizem classes baseadas nos
valores de atributos de um conjunto de dados (GARCIA, 2000).
Uma Árvore de Decisão utiliza a estratégia chamada “dividir para conquistar”,
de forma que um problema complexo é decomposto em sub-problemas mais simples,
e de uma forma recursiva a mesma estratégia é aplicada a cada próximo sub-
problema (GAMA, 2000).
75
As árvores de decisão são estudadas em vários campos de pesquisa como
ciências sociais, estatística, engenharia, entre muitas outras. Atualmente, elas têm
sido aplicadas, com sucesso, em um enorme campo de tarefas, desde diagnóstico de
casos médicos até avaliação de risco de crédito de requerentes de empréstimo.
5.4.1) Estrutura de uma Árvore de Decisão
As árvores de decisão consistem em uma estrutura composta de nós que
representam os atributos, de arcos (ramos) os quais são provenientes destes nós e
que recebem os valores possíveis para estes atributos, ou seja, cada ramo
descendente corresponde a um possível valor deste atributo, e de folhas, que
representam as diferentes classes apresentadas no conjunto de treinamento (Figura
5.13).
Figura 5.13: Exemplo de estrutura de uma Árvore de Decisão binária.
Na figura 5.13, os círculos representam os nós internos, os quadrados
representam os nós-folhas, as linhas representam os ramos que interligam os dois
nós, X1 e X2 representam as variáveis decisórias. Chama-se de variável decisória a
variável que levará a uma nova divisão, em relação a um possível valor.
A interpretação da representação gráfica da Árvore de Decisão ilustrada na
figura anterior é descrita da seguinte forma: quando a condição é satisfeita (por
exemplo, X1≤0,7), os dados seguem para o nó esquerdo (SIM) e , caso contrário, os
dados seguem para o nó direito (NÃO), e assim sucessivamente até que seja atingido
o fim da árvore, ou seja, a amostra seja classificada.
Segundo BRAGA (2003), as árvores de decisão consistem em uma estrutura
de dados do tipo Árvore n-ária, usada para a dedução da classe de uma tupla de
atributos (objetos não classificados), que possui as seguintes propriedades:
t1
t3t2
t4 t5
Sim Não
Sim Não
X1<=0,7
X2<=0,5
t1
t3t2
t4 t5
Sim Não
Sim Não
X1<=0,7
X2<=0,5
76
Um nó-folha representa uma única classe, mas uma classe pode estar
representada em mais de um nó-folha.
Um nó interno é chamado de nó-decisão, pois representa um teste sobre o
valor de um atributo da tupla.
Cada aresta que sai de um nó decisão até um de seus nós filhos representa
um dos possíveis resultados do teste sobre o valor do atributo.
Se considerarmos um conjunto com todos os objetos (n atributos) possíveis
como pontos em um espaço n-dimensional, existirá um eixo para cada atributo,
enumerando todos os valores possíveis para os mesmos. Assim, nota-se que cada nó-
decisão particiona o espaço de objetos em k-partições, onde k é o número de arestas
que partem do nó. A interseção entre os particionamentos efetuados por cada nó
decisão da árvore resulta em um espaço totalmente dividido em partições ainda
menores, para os quais é atribuída uma única classe (Figura 5.14). Através desta
analogia, em outras palavras, verifica-se que um nó da árvore representa um sub-
espaço. O nó-raiz representa então o próprio espaço de objetos. Os nós-filho de um
nó representam as partições da partição do espaço representada pelo nó-pai. Os nós-
folha representam partições em que, pelo menos teoricamente, só estão contidos
elementos de uma mesma classe (LUCENA & DE PAULA, 2001).
Figura 5.14: Exemplo de partições de um espaço de objetos que possui apenas duas classes
(modificado de LUCENA & DE PAULA, 2001).
Desta forma, portanto, a classificação de um objeto por uma Árvore de Decisão
é aproximada. Para problemas reais, haverá um pequeno subconjunto de objetos, em
geral localizados próximo às arestas que separam duas partições, que serão
5 10
8
X2
X1
X1
X2
X1
<=10 >10
<=8 >8
<=5 >5
5 10
8
X2
X1
X1
X2
X1
<=10 >10
<=8 >8
<=5 >5
77
erroneamente classificados. O problema é o quão pequeno este subconjunto deve ser
para efetivamente minimizar a relação entre erros e acertos (BRAGA, 2003).
5.4.2) Construção de uma Árvore de Decisão
O processo de construção de uma Árvore de Decisão é considerado como
aprendizado supervisionado, ou seja, o método irá partir de um conjunto de
treinamento composto de casos conhecidos (que já possuam classes), e gerar regras
que representem cada uma destas classes e as separem das demais. Para avaliar o
desempenho das regras geradas, um conjunto de validação e/ou teste que contenha
exemplos das classes empregadas no treinamento será analisado.
Segundo QUINLAN (1993), seja T o conjunto de treinamento, composto pelas
classes {c1, c2, ... , cn}. A idéia básica do algoritmo é dividir T em subconjuntos que
contenham os casos, todos pertencendo a uma mesma classe cj. Essa divisão é feita
baseada em um atributo que possua valores mutuamente exclusivos {v1, v2, v3, ... , vn}.
O conjunto T é particionado em subconjuntos T1, T2, ... , Tn, onde Ti contém todos os
casos com valores vi. A Árvore de Decisão T consiste de um nó de decisão
identificando o teste para o atributo e um galho para cada valor do atributo.
Recursivamente, cada subconjunto Ti é visto como T até que todos os elementos de Ti
pertençam a uma mesma classe cj.
Considerando a tabela 5.1, o algoritmo acima descrito será aplicado em um
pequeno o número de casos. Estes dados representam um problema de um
determinado jogador de tênis que, a partir de uma amostragem de fatos históricos (14
dias), irá decidir se joga ou não joga tênis, utilizando para esta classificação quatro
atributos (condição do céu, temperatura, umidade e vento).
Inicialmente, T é composto por todos os casos. Como todos os casos que
pertencem a T não fazem parte da mesma classe, o algoritmo irá escolher um atributo
que tenha grande participação na subdivisão do conjunto T em subconjuntos Tn. Neste
caso, o atributo escolhido como teste foi a “Condição do Céu”, na divisão dos casos, já
que ainda não foi determinada a condição final proposta pelo problema. O conjunto T
será dividido em três subconjuntos: T1 para os casos com resultado “Sol”, T2 para os
casos com “Nuvens” e T3 para os com “Chuva”. Como os grupos T1 e T2 não possuem
ainda classificação, eles serão novamente avaliados como no passo anteriormente
descrito, sendo então escolhidos os atributos “Umidade” e “Vento”, respectivamente,
para subdividir e alcançar o resultado. Para o grupo T3, o atributo “Condição do céu” =
78
”Nuvens” seleciona casos de uma mesma classe, e cessando desta forma o algoritmo
(Figura 5.15).
Tabela 5.1: Exemplo de dados para construção de uma Árvore de Decisão.
Figura 5.15: Árvore de Decisão obtida para o conjunto de dados apresentados na tabela 5.1.
Após a construção de uma Árvore de Decisão, é possível derivar regras. Esta
transformação da Árvore de Decisão em regras geralmente é feita com intuito de
facilitar a leitura humana. Desta forma, as árvores de decisão podem ser
representadas como conjunto de regras do tipo “SE-ENTÃO” (IF-THEN). Estas regras
são descritas considerando o percurso da amostra ao longo da árvore, em outras
Cond. Céu
Sol Nuvens Chuva
Umidade Vento
Elevada Normal Fraco Forte
Não Sim
Sim
NãoSim
Cond. Céu
Sol Nuvens Chuva
Umidade Vento
Elevada Normal Fraco Forte
Não Sim
Sim
NãoSim
Dia Cond. Céu Temperatura Umidade Vento Jogar Tênis
1 Sol Quente Elevada Fraco Não2 Sol Quente Elevada Forte Não3 Nuvens Quente Elevada Fraco Sim4 Chuva Ameno Elevada Fraco Sim5 Chuva Fresco Normal Fraco Sim6 Chuva Fresco Normal Forte Não7 Nuvens Fresco Normal Fraco Sim8 Sol Ameno Elevada Fraco Não9 Sol Fresco Normal Fraco Sim
10 Chuva Ameno Normal Forte Não11 Sol Ameno Normal Forte Sim12 Nuvens Ameno Elevada Forte Sim13 Nuvens Quente Normal Fraco Sim14 Chuva Ameno Elevada Forte Não
79
palavras, o trajeto do nó-raiz até uma folha da árvore. Em determinados casos, as
árvores de decisão tendem a crescer muito e então elas são muitas das vezes
substituídas apenas por suas regras e então modularizadas em softwares para
classificação.
Tomando como base a Árvore de Decisão obtida com os dados da tabela 5.1, a
derivação de regras pode ser demonstrada pelos seguintes exemplos:
SE “Condição do Céu” = “Nuvens” ENTÃO classe = “Sim”
SE “Condição do Céu” = “Sol” e “Umidade” = “Elevada” ENTÃO classe = “Não”
Para gerar uma Árvore de Decisão com alta taxa de predição, é necessário
fazer a escolha correta dos atributos que serão usados como teste no agrupamento
dos casos. Estes testes devem gerar uma árvore com o menor número possível de
subconjuntos, fazendo com que cada folha da árvore contenha um número
significativo dos casos. O ideal é escolher os testes de modo que a árvore final seja a
menor possível.
Se a seleção de atributos for aleatória, o fato empírico da maioria dos atributos
ter baixo poder de predição levará a árvores maiores e com baixo poder de
generalização e predição.
Segundo BRAGA (2003,), vários são os problemas a serem superados em
qualquer algoritmo de construção de árvores de decisão para que as mesmas sejam
ótimas em quesitos como altura, eficiência de classificação, tempo de construção,
entre outros. Alguns destes, que ainda hoje são temas de pesquisas são listados a
seguir:
Escolha da melhor partição para um nó, em geral por escolha do atributo;
Estratégias para limitação no crescimento da árvore;
Tratamento de valores desconhecidos no conjunto de objetos empregados
para treino e para teste;
Partições baseadas em características discretas x contínuas.
Como analisar todas as possíveis possibilidades de árvores geradas seria algo,
no mínimo, absurdo, foram desenvolvidos vários métodos aplicados na escolha dos
atributos e dos testes a serem utilizados. Dentre estes, são mais conhecidos os
critérios de entropia e ganho de informação.
80
5.4.3) Entropia
Para medir a homogeneidade dos grupos, os algoritmos se utilizam do conceito
de variância ou entropia. Na Física, especialmente na Termodinâmica, o conceito de
entropia está associado à desordem, sendo definido pela equação diferencial:
TdQdS rev= ( )16.5
onde dS é a variação de entropia, dQrev é a variação de calor e T a temperatura. Desta
equação, segue que a entropia é uma função unívoca e uma propriedade extensiva do
sistema, onde a diferencial dS é uma diferencial exata. Para uma transformação finita,
do estado 1 ao estado 2, teríamos (CASTELLAN, 1986):
∫=−=Δ2
121 TdQSSS rev ( )17.5
Em outras palavras, sempre é preciso uma diferença de temperatura entre as
quais possa fluir energia (calor) de uma fonte quente para uma fonte fria, sendo parte
desta energia em fluxo transformada no trabalho útil realizado pela máquina.
Na ciência da computação, a entropia, chamada de entropia da informação,
indica a quantidade de informação adicional necessária para se entender um
fenômeno ou sistema. A entropia mede o grau de aleatoriedade dos valores que uma
variável aleatória X pode assumir.
Segundo CARVALHO (2005), a quantidade de informação Q sobre um
fenômeno é medida pela sua probabilidade de ocorrência p. Quanto mais improvável o
fenômeno (baixa probabilidade de ocorrência), maior o valor da informação capaz de
prevê-lo. A relação entre a quantidade da informação Q e a probabilidade p é inversa:
( )pQ 2log−= ( )18.5
Se, por exemplo, a probabilidade do Sol nascer amanhã é 1 (total certeza do
fato), a quantidade Q desta informação é nula, pois o logaritmo de 1 é zero. Porém, se
for levada em conta a previsão de que horas o Sol nascerá amanhã, a probabilidade
de acerto será pequena e, conseqüentemente, o valor Q será grande. Desta forma, a
quantidade de informação necessária para ser entendido que o Sol nascerá amanhã é
81
zero, pois isso já é sabido. No entanto, a quantidade de informação necessária para
saber a que horas exatamente o Sol nascerá amanhã é grande, pois o fenômeno não
é facilmente previsível.
Assim, a entropia da informação é a quantidade média de informações
necessárias para que um fenômeno seja entendido. Se um fenômeno depende de n
fatores ou eventos i = 1, 2, 3,...n, a entropia da informação sobre o fenômeno é a
média da quantidade de informação que se necessita para prever cada evento, e pode
ser sumarizada com a equação 5.19 e visualizada no gráfico da figura 5.16:
( ) ii ppSEntropia ∑= 2log ( )19.5
Figura 5.16: Gráfico mostrando os valores de entropia em função da probabilidade.
A entropia (S) tem máximo valor para (log2Pi) se Pi = Pj para qualquer i ≠ j e a
entropia seria igual a zero, se existe um i tal que pi = 1, ou seja, todos os elementos da
mesma classe. Por exemplo, se P for dado por (0,5; 0,5), então a entropia de P será
igual a 1; se P for dada por (0,67; 0,33) então a entropia de P será 0,92, e se P for
dada por (1) então a entropia será 0.
5.4.4) Ganho de Informação (Critério Gain)
O ganho de informação é definido por OSÓRIO (2001) como a redução
esperada na entropia de S causada pelo particionamento dos exemplos em relação a
um atributo escolhido A, e é dado pela equação 5.20:
0
0,5
1
0,5 10
p
Entr
opia (S)
0
0,5
1
0,5 10
p
Entr
opia (S)
82
( ) ( ) ( )v
N
v
v SEntropiaSS
SEntropiaASGanho .||||
,1∑=
−= ( )20.5
onde A é o atributo considerado, N é o número de valores possíveis que este atributo
pode assumir, e Sv é o subconjunto onde o atributo A possui o valor v. Esta equação
deve ser maximizada no domínio de atributo das classes, obtendo-se o atributo para o
qual se tem o maior ganho de informação, a fim de escolher a melhor configuração de
particionamento de um nó-pai.
Algumas pesquisas levaram à conclusão de que o critério da entropia favorece
a escolha dos atributos que levam a um maior número m de partições, sendo m a
quantidade de valores assumíveis pelo atributo A. A solução que BRAGA (2003)
apresentou para este problema considera, no momento da escolha do atributo
maximizador, o ganho da informação proporcional pela entropia das partições dos nós
filho de t (gain ratio), ou seja:
( )( )AH
SEntropiaMax ( )21.5
tal que:
( ) ( ) ( )i
N
ii tptpAH 2
1log.∑
=
−= ( )22.5
onde A é a variável aleatória para atributos das classes e p(ti) é a proporção da i-
ésima partição decorrente da divisão de t pelo atributo A em relação à partição do nó
pai. A medida H(A) denominada de Split Information é um normalizador que funciona
ajustando o ganho e a entropia S em relação ao atributo A, enquanto que a única
entropia considerada anteriormente era em relação ao atributo de classificação e
indicava o quanto melhor o atributo divide o conjunto de treino.
5.4.5) Poda
O sistema de geração de Árvores de Decisão adotado pode gerar árvores
complexas que acabam perdendo seu valor de predição. Ou seja, após construir a
Árvore de Decisão, é possível que ela esteja muito específica para o conjunto de
treinamento empregado e não classifique bem os objetos do conjunto de teste. Desta
83
forma, faz-se necessário adotar algumas medidas para tornar árvores complexas em
árvores mais simples.
Para contornar este problema e aumentar o poder de generalização da árvore
gerada, o particionamento recursivo empregado na construção das Árvores de
Decisão pode ser interrompido, permitindo a obtenção de árvores mais simples ao
decidir-se não continuar a dividir o conjunto de dados de treinamento ou removendo
retrospectivamente alguma estrutura já construída pelo método. Estas alternativas são
conhecidas como pré-poda e pós-poda, respectivamente.
Na pré-poda o procedimento é realizado durante o processo de indução da
árvore e impõe um limiar (threshold) para a proporção da classe mais freqüente na
qual o nó é forçado a ser folha, não prosseguindo o particionamento por este ramo.
Por exemplo, se a classe mais freqüente responde por mais de 80% dos objetos em
uma partição, este nó não será mais particionado.
Na pós-poda, a árvore é gerada até seu tamanho máximo e somente então
métodos de evolução confiáveis são utilizados para selecionar a árvore podada de
tamanho certo desde o modelo inicial. Isto é, se a taxa de erros de classificação for
reduzida perante uma substituição da sub-árvore por um único nó terminal, então a
árvore é podada nesta parte.
Ambos os métodos apresentam seus pontos negativos. No caso da pré-poda, o
risco seria de selecionar uma árvore sub-ótima ao interromper o crescimento da
árvore. Já na pós-poda, a ineficiência computacional em virtude de se achar domínios
onde uma árvore excessivamente grande (de milhares de nós) possa ser podada em
centenas de nós demandaria um tempo computacional grande e sem necessidade.
Desta forma, uma alternativa de parada no procedimento de crescimento da árvore é
interromper o crescimento tão logo a divisão seja considerada não-confiável.
5.5) Vantagens x Desvantagens
Muitos são os algoritmos que se propõem a extrair conhecimento de bases de
dados, e não há uma forma de determinar qual deles é o melhor, visto que um
algoritmo pode ter melhor desempenho em determinada situação e outro pode ser
mais eficiente em outro tipo. O processo de descoberta de conhecimento em grandes
bases de dados é complexo e, ainda hoje, muito dependente da experiência e do
trabalho do analista, que vai desde a formulação do problema, preparação dos dados,
análises e interpretação dos resultados, sendo o mesmo indispensável.
84
Neste estudo, foram escolhidas técnicas de inteligência artificial para avaliar o
problema de classificação proposto, em detrimento da utilização de modelos mais
tradicionais como os estatísticos, que são limitados se for levado em conta que:
A análise se torna trabalhosa devido ao grande número de variáveis a serem
investigadas.
As condições oferecidas pelos métodos estatísticos tradicionais limitam o
número de casos a utilizar, fazendo com que apenas uma pequena parte do
universo esteja disponível para a análise.
O problema envolve relacionamentos não linearmente separáveis, o que torna
difícil a aplicação de métodos tradicionais.
Porém, no universo das técnicas de inteligência artificial, cada uma delas
apresenta suas vantagens e desvantagens. Dos métodos escolhidos para este estudo,
as árvores de decisão, por exemplo, são fáceis de entender e interpretar e lidam com
variáveis sem a necessidade de um pré-processamento refinado, enquanto que as
redes neurais artificiais, apesar de serem consideradas a mais poderosa arma de
mineração de dados, possuem uma taxação de modelo “caixa-preta” devido ao seu
difícil entendimento.
De uma maneira geral, as principais vantagens da aplicação de técnicas de
inteligência artificial são:
Maior velocidade na resolução dos problemas;
A decisão é fundamentada em uma base de conhecimento;
Segurança;
Custo x Benefício;
Estabilidade;
Possibilidade de integração de ferramentas.
Dentre as desvantagens poderiam ser citadas:
A fragilidade: os sistemas gerados por estas técnicas possuem acesso a um
conhecimento altamente específico do seu domínio, não possuindo
conhecimentos mais genéricos quando a necessidade surge.
Falta de metaconhecimento, ou seja, não conseguem raciocinar sobre seu
próprio escopo. A dificuldade para generalização e para a aquisição de
conhecimento continua sendo um dos maiores obstáculos.
Validação: a medição do desempenho é difícil porque a quantificação do uso
de conhecimento em casos novos se torna muito complicada.
85
CAPÍTULO
6
6. CLASSIFICAÇÃO E SELEÇÃO DAS
AMOSTRAS Neste capítulo será descrita a metodologia empregada na seleção do conjunto de amostras utilizadas neste estudo. Ainda neste capítulo, será apresentada a classificação geoquímica mais detalhada das amostras de óleo encontradas na literatura, bem como a classificação adotada para a implementação das técnicas de inteligência artificial a serem realizadas no próximo capítulo.
6.1) Introdução
No Capítulo 3 foi apresentada uma breve revisão da classificação das rochas
geradoras e óleos recuperados na Bacia Potiguar. Neste capítulo será realizada uma
revisão mais detalhada a respeito da classificação dos óleos descobertos na bacia.
A classificação anterior teve um papel fundamental na fase inicial deste
trabalho, onde foi realizada a seleção das amostras. O sub-grupo de 200 amostras
recuperadas através da análise de cluster associada a sua distribuição geográfica, e
finalmente a uma amostragem aleatória simples, será apresentada neste trabalho
como uma alternativa à amostragem para casos onde a população apresenta
heterogeneidade no número de casos por classe, além da presença de sub-classes
contidas nas classes maiores. Desta forma, a associação destas técnicas teve como
objetivo garantir de uma forma mais concisa uma amostragem que refletisse as
características guardadas no banco de dados de amostras de óleo da bacia.
Além de subsídio à fase de seleção das amostras, o conhecimento prévio das
classes atua diretamente no resultado obtido por algoritmos que utilizam tratamento
supervisionado como forma de aprendizado, ou seja, a classe é fornecida a cada
amostra durante a etapa de treinamento. Logo, é necessário que seus pares
amostra/classe estejam devidamente elucidados de forma a não comprometer o
modelo gerado.
86
6.2) Classificação Anterior
A Bacia Potiguar teve duas principais fases exploratórias, uma na década de
70 (descoberta do Campo de Ubarana na porção offshore) e outra na década de 80
(descoberta do Campo de Mossoró na porção onshore). Foi durante a década de 80
que os trabalhos de geoquímica se tornaram rotineiros na caracterização das
amostras de óleo recuperadas na bacia em virtude da necessidade de entender
melhor o contexto geração-migração-acumulação.
O primeiro destes foi o realizado por RODRIGUES et al. (1983) em um relatório
interno do CENPES/PETROBRAS, que posteriormente foi publicado por RODRIGUES
(1983) no Boletim Técnico da Petrobras. Neste estudo, os autores utilizaram as
técnicas de cromatografia gasosa, espectrometria de massas e isótopos estáveis de
carbono para distinguir as diferentes características dos óleos até então recuperados
na bacia. Segundo estes autores, foram reconhecidas três classes de óleos (Figura
6.1). A classe de origem continental que apresentava como características principais:
valores de δ13C mais negativos que –28,0‰, ausência de esteranos (não detectados
na época, por estarem em ↓[]) e ausência ou pequena proporção de gamacerano entre
os terpanos, e distribuição simétrica das parafinas normais com valores da relação
pristano/fitano superior a dois (2,0). De uma maneira geral, estes corresponderiam aos
óleos gerados a partir de folhelhos lacustres da Formação Pendência acumulados na
própria seqüência geradora ou em seqüências geneticamente diferentes sobrepostas.
Para os óleos gerados de seqüências sujeitas a influências marinhas (seqüência
transicional) da Formação Alagamar, são destacadas como características básicas
valores de δ13C menos negativos que –26,7‰, quantidades substanciais de esteranos
e proporção de gamacerano elevada, que ao ser comparada ao composto C30 hopano
se encontra idêntica ou superior, distribuição assimétrica das parafinas normais e
relação pristano/fitano inferior a um (1,0). São exemplos para estes tipos de óleos os
produzidos pelos campos de Fazenda Belém, Rio Panon, Estreito, Alto do Rodrigues,
São Luiz, Monte Alegre, Fazenda Pocinho e Macau (Figura 6.2). Aquelas amostras de
óleo que apresentam características geoquímicas intermediárias entre os dois tipos
descritos acima seriam classificadas como uma mistura destes. Os campos de
Mossoró e Fazenda São João produzem óleos com estas características.
Os óleos recuperados na porção offshore e estudados por MELLO et al. (1984),
assim como os recuperados na porção onshore e estudados por RODRIGUES et al.
(1983), foram divididos em três grupos (Figura 6.3). Os óleos de origem continental
representados pelos Campos de Agulha 1 e 2, e pelo poço 1-RNS-27
87
Figura 6.1: Perfis cromatográficos de óleo total, fragmentogramas de massas e valores isotópicos de carbono para as três diferentes famílias de óleos encontradas na porção terrestre da Bacia Potiguar (modificado de RODRIGUES et al., 1983). Para identificação dos compostos consultar Anexo I.
Figura 6.2: Mapa com a localização dos principais campos da Bacia Potiguar (modificado de BERTANI et al., 1991).
89
possuem características típicas de matéria orgânica depositada em ambiente lacustre,
ou seja, cromatogramas gasosos com parafinas normais na faixa de n-C19-n-C25,
razão média pristano/n-C17 igual a 0,32, fitano/n-C18 igual a 0,11 e pristano/fitano igual
a 1,8. A distribuição dos biomarcadores nestes óleos de origem lacustre mostrou
ausência ou baixa concentração de esteranos, pequenas quantidades de gamacerano,
concentração elevada de C29 (norhopanos), razões Ts/Tm C27 (trisnorhopanos)
maiores que um (1,0) e presença de diterpanos. Para as definições das razões de
biomarcadores consultar o Anexo II. O óleo do poço 1-RNS-27 apresentou
características que o diferenciaram dos demais óleos continentais. Seu cromatograma
gasoso reflete uma tendência ao enriquecimento nas parafinas normais de menor
peso molecular, enquanto o perfil de biomarcadores mostra um empobrecimento ou
ausência dos triterpanos. Estes fatores, associados ao elevado grau API (42º API),
sugerem para este óleo um elevado grau de evolução térmica, e a presença de duas
geradoras continentais distintas na bacia, uma responsável pelo óleo do 1-RNS-27 e
outra pelo óleo recuperado no poço 1-RNS-7 no Campo de Agulha. Dos óleos
analisados no estudo de MELLO et al. (1984), apenas o recuperado no poço 1-RNS-
10A apresentou características geoquímicas que permitiram classificá-lo como de
origem marinha. Ao contrário dos óleos continentais, esta amostra apresentou
predominância de parafinas normais na faixa de n-C15-n-C17, razão pristano/ n-C17 igual
a 0,41, fitano/n-C18 igual a 0,32, razão pristano/fitano igual a 1,5 e razão isotópica de
carbono de –25,0‰. O perfil de biomarcadores apresenta presença de esteranos,
particularmente do C27 (colestano), altas concentrações de gamacerano, razão Ts/Tm
C27 inferiores a um (1,0) e a presença de diterpanos não foi constatada devido a baixa
evolução térmica do óleo. Os óleos mistos, assim como aqueles encontrados na
porção on-shore da bacia são resultado da mistura de óleos continentais e marinhos, o
que resulta em características geoquímicas intermediárias entre estes dois tipos.
MELLO et al. (op. cit.) analisaram os óleos produzidos pelos poços 1-RNS-33, 4-RNS-
35 e 1-RNS-36 e os do Campo de Ubarana, e as características principais observadas
foram razões isotópicas entre –26,0‰ e –27,5‰, cromatogramas gasosos com
distribuição bimodal das parafinas normais com predominância nas faixas de n-C13-n-
C17 e n-C25- n-C28, razão pristano/ n-C17 igual a 0,41, fitano/ n-C18 igual a 0,26 e
pristano/fitano igual a 1,72. Em relação ao perfil de biomarcadores, foi observado que
os teores de esteranos e diterpanos apresentam valores intermediários entre os óleos
marinhos e continentais. Os triterpanos, de um modo geral, não sofrem grandes
variações, pois se encontram presentes em proporções semelhantes as dos tipos
continental e marinho.
90
Figura 6.3: Perfis cromatográficos de óleo total, fragmentogramas de massas e valores isotópicos para as três diferentes famílias de óleos encontradas na porção terrestre da Bacia Potiguar (modificado de MELLO et al., 1984). Para identificação dos compostos consultar Anexo I.
Neste estudo de caracterização geoquímica de óleos da plataforma continental,
MELLO et al. (1984) concluíram também que as variações nos óleos considerados
mistos deveriam ser reflexo da diferente contribuição de óleos de origem continental e
marinha na mistura, além dos efeitos de evolução térmica.
Em CERQUEIRA (1985), os óleos recuperados na plataforma continental da
Bacia Potiguar foram agrupados, quanto a sua origem em três famílias distintas:
lacustres, marinho-evaporítico e mistos. Os óleos lacustres gerados pela seqüência
continental (folhelhos da Fm. Pendência e Mb. Upanema da F. Alagamar) possuem
teores de relativos de hidrocarbonetos saturados, aromáticos e NSO em torno de 70,
20 e 10%, respectivamente. Os valores isotópicos de carbono total variam de –28 a
30‰, teor de enxofre baixo, em torno de 0,1% e grau API ao redor de 30º. Os
resultados de cromatografia gasosa revelaram cromatogramas com predominância de
parafinas normais na faixa n-C19-n-C25, razões médias entre pristano/n-C17 iguais a
0,32, de fitano/n-C18 igual a 0,11 e pristano/fitano igual a 1,8. O autor ainda observou
que alguns cromatogramas de óleos continentais apresentam bimodalidade na
predominância das parafinas, e associa esta feição à mistura de óleos gerados por
folhelhos de duas seqüências de idade e maturação distintas (Formação Pendência do
Barremiano-Neocomiano e Membro Upanema da Formação Alagamar de idade
aptiana). No que diz respeito aos biomarcadores observou-se que os esteranos estão
ausentes ou presentes em baixas concentrações. Dentre os hopanos, o gamacerano
está presente em menor quantidade quando comparados com os óleos gerados pela
seqüência proto-oceânica, o composto C29 apresenta-se com elevadas concentrações,
a razão Ts/Tm dos trisnorhopanos em C27 é superior a 1,0.
Os óleos caracterizados como gerados pela seqüência proto-oceânica por
CERQUEIRA (1985) apresentam em seus cromatogramas gasosos predominância de
parafinas normais na faixa n-C15-n-C17, razões pristano/n-C17 igual a 0,41, fitano/n-C18
igual 0,32 e pristano/fitano igual a 1,5. A cromatografia líquida mostrou teores relativos
de hidrocarbonetos saturados, aromáticos e NSO de 51, 22 e 27%. A razão isotópica
de carbono total é de -25‰. Dentre os biomarcadores, os esteranos foi observada a
presença marcante dos C27 esteranos em maior proporção aos esteranos em C28 e
C29, já os hopanos apresentaram alta concentração de gamacerano, razão Ts/Tm em
C27 inferior a 1,0 e não foi constatada a presença dos diterpanos devido a baixa
evolução térmica das amostras estudadas por este autor.
CERQUEIRA (1985) identificou os óleos mistos da bacia segundo as seguintes
características geoquímicas, nos cromatogramas gasosos foi observada bimodalidade
na distribuição das parafinas normais, com predominância das faixas n-C13-n-C17, e n-
C25-n-C28, razões médias de pristano/n-C17 igual a 0,41, fitano/n-C18 igual a 0,26 e
92
pristano/fitano igual a 1,72. Os dados de cromatografia líquida apresentaram, em
média, teores relativos de hidrocarbonetos saturados, aromáticos e NSO de 65, 16,
19%, respectivamente. As amostras desta classe apresentaram valores de grau API
em torno de 33º, razões isotópicas de carbono em óleo total entre –25,9 e –28,1‰.
Com relação aos biomarcadores, as concentrações entre os esteranos e os hopanos
são intermediárias em relação as dos óleos caracterizados como lacustres e marinho-
evaporíticos. Os esteranos estão presentes em pequenas quantidades ou ausentes,
quando a predominância na mistura é de óleo de origem continental (Formação
Pendência e Membro Upanema da Formação Alagamar). Os hopanos, segundo o
autor, de um modo geral, não sofreram grandes variações, pois se encontram
presentes em proporções semelhantes em ambos os óleos da mistura, sendo o
gamacerano, algumas vezes, ausente ou presente em concentrações variadas.
No estudo geoquímico dos óleos do Campo de Canto do Amaro, RODRIGUES
(1989) caracterizou além da origem, a evolução térmica e a direção de biodegradação
nos óleos acumulados no Arenito Mossoró considerados como mistura de óleos
lacustres e marinhos. A comparação dos óleos dos diferentes reservatórios permitiu ao
autor observar uma série de gradativas mudanças composicionais dos mesmos, a
partir dos reservatórios mais rasos para os mais profundos. De uma forma geral, os
óleos mistos do campo de Canto do Amaro tornam-se mais leves, isotopicamente mais
negativos, apresentam uma redução nos valores de pristano/ n-C17 e fitano/ n-C18 a
medida em que se caminha em direção ao continente. Essa associação de parâmetros
foi apontada como indicativa de óleos gerados em níveis de evolução térmica
crescente, ou seja, os óleos acumulados nos reservatórios mais rasos teriam sido
gerados e representariam os óleos menos evoluídos da área do Campo de Canto do
Amaro. Os dados referentes aos biomarcadores mostram uma tendência similar
observada nas informações cromatográficas e isotópicas. Das relações utilizadas,
principalmente terpanos tricíclicos/terpanos pentacíclicos e hopanos C27 Ts/Tm podem
ser interpretadas em termos de evolução térmica e origem. Como estes óleos foram
considerados originados em uma mesma seqüência geradora (Formação Alagamar)
localizada no Graben de Boa Vista, logo a diferença composicional entre eles foi
atribuída a variações entre os níveis de evolução térmica.
MELLO (1988) e MELLO et al. (1988) através do estudo de integração de
parâmetros geoquímicos em amostras de óleo de diferentes bacias sedimentares
brasileiras separaram os óleos pertencentes a Bacia Potiguar em dois grupos
principais. O primeiro grupo é composto pelas amostras de óleo que possuem
predominância de n-alcanos de alto peso molecular (>n-C23), razão pristano/fitano
elevadas (>1,0) e valores de δ13C menores que –28,0‰. A distribuição dos
93
biomarcadores baseada na presença ou ausência de compostos específicos sugere
aos óleos deste grupo uma origem lacustre associada a folhelhos típicos do
Neocomiano ao Aptiano. Em geral, as amostras deste grupo possuem baixa
concentração de esteranos e ausência de C30 esteranos, predominância de C27 sobre
C29 esteranos. Os terpanos possuem alta abundância do composto C24 tetracíclico
terpano, o pico dominante no fragmentograma de massas m/z 191 (terpanos) é o C30
hopano na faixa C27 a C35, estando o C28 ausente, o C27 Ts domina sobre o seu
isômero Tm determinado a razão Ts/Tm superior a 1,0. O segundo grupo são
representados pelos óleos gerados pelos folhelhos e margas marinho-evaporíticos,
estas amostras apresentam razão pristano/fitano menor que 0,6, valores de δ13C entre
–25,4 e -26,6‰. Os esteranos ocorrem em altas concentrações, sendo os diasteranos
em menores proporções, principalmente em C27, dentre os esteranos regulares ocorre
a dominância do C27 sobre o C28 e C29. O composto C30 esterano é detectado nas
amostras deste grupo. Os terpanos apresentam abundância de gamacerano,
predominância de H35 sobre H34 homopanos, presença de C28 (bisnorhopano), altas
abundâncias dos hopanos entre C29 e C35, e razão Ts/Tm (<1,0).
No trabalho de caracterização geoquímica dos óleos da Bacia Potiguar,
SANTOS NETO et al. (1990) observaram que os óleos acumulados na bacia
apresentavam características peculiares herdadas do ambiente deposicional das
rochas geradoras, ou seja, marinho evaporítico (Fm. Alagamar) e continental (Fm.
Pendência).
Os óleos gerados na seção continental apresentam as seguintes
características principais: em seus cromatogramas gasosos dominam o baixo índice
preferencial de carbono, razões pristano/n-C17 e fitano/ n-C18 com valores
relativamente baixos e presença marcante das parafinas normais de alto peso
molecular (>n-C23); dentre as características nos fragmentogramas de massas do íon
m/z 191(terpanos), observa-se nos óleos continentais a ausência ou baixa razão
bisnorhopano/hopano, elevada razão C34/C35 homopanos, razão Ts/Tm>1, e baixa
proporção relativa do composto gamacerano em relação ao composto hopano. No
fragmentograma de massas m/z 217 (esteranos), estes óleos apresentam predomínio
de C29 sobre C27 e C28 esteranos e abundância de diasteranos. Os esteranos, de uma
forma geral, se encontram praticamente ausentes, e quando presentes em
abundâncias mensuráveis, as razões ααβ/(ααα+αββ) e S/(S+R) dos compostos em C29
já atingiram o seu equilíbrio, sugerindo óleos com elevada evolução térmica; em
termos isotópicos, os valores de isótopos estáveis de carbono dos óleos contientais
apresentam valores <-28,0‰. Estes óleos estão concentrados na parte terrestre da
bacia, ao sul do alinhamento estrutural que passa a norte dos Campos de Fazenda
94
Curral, Serraria e Janduí, sendo o óleo de Nordeste do Morro do Rosado no Graben
de Boa Vista a única exceção (Figura 6.4). Estes óleos foram gerados pelos folhelhos
da Fm. Pendência, seqüência continental geradora na bacia (SANTOS NETO et al.,
1990).
Figura 6.4: Mapa com a distribuição geográfica dos diferentes tipos de óleos encontrados na Bacia Potiguar terra (modificado de SANTOS NETO et al., 1990).
Os óleos classificados como marinho-evaporíticos por SANTOS NETO et al.
(1990) apresentam alto teor de enxofre (>0,5%) quando comparados com outros óleos
brasileiros, seus valores isotópicos de carbono são relativamente pesados (>-26,6‰) e
os cromatogramas gasosos apresentam predominância de alcanos de baixo peso
molecular (<n-C19) e de isoalcanos i-C25 e i-C30. O fragmentograma de massas do íon
m/z 191 mostra presença marcante dos compostos gamacerano e bisnorhopano em
relação ao hopano, baixas razões entre os compostos C34/C35 e Ts/Tm. Já no
fragmentograma de massas do íon m/z 217, os compostos em C27 predominam sobre
os em C28 e C29 e ocorre baixa proporção relativa dos esteranos de baixo peso
molecular. Óleos com estas características se encontram acumulados nos campos
localizados ao longo do Sistema de Falhas de Carnaubais e Alto de Macau (Estreito,
Rio Panon, São Pedro, Alto do Rodrigues, Palmeiras, Fazenda Pocinho e Guamaré)
tendo sido gerados pelos níveis depositados em ambientes evaporíticos com influência
marinha das Camadas Ponta do Tubarão da Fm. Alagamar (Figura 6.4).
95
Ainda neste trabalho, SANTOS NETO et al. (1990) classificaram como mistos
os óleos acumulados na plataforma continental dos Campos de Ubarana, Aratum e
áreas dos poços RNS-36 e RNS-43 (próximas ao Alto de Macau) e os óleos da porção
emersa da bacia, como os dos campos localizados ao longo da Linha de Charneira de
Areia Branca (Campos de Canto do Amaro, Mossoró, Cajazeira, Alto da Pedra, Salina
Vermelha e Redonda) (Figura 6.4). Estes óleos apresentam características
geoquímicas ora relacionadas a ambiente lacustre, ora a ambiente marinho
hipersalino, tendo sido gerados pelos folhelhos lacustres da Fm. Pendência ou do
Membro Upanema, e pelos folhelhos e margas das Camadas Ponta do Tubarão e
Membro Galinhos, respectivamente.
Estes autores ressaltam que é comum os óleos marinho-evaporíticos e mistos
apresentarem biodegradação. Quando a biodegradação é incipiente é possível apenas
notar um decréscimo relativo dos alcanos normais de baixo peso molecular, porém em
outros casos a biodegradação agiu severamente, eliminando quase todos os alcanos
normais e causando a desmetilação dos hopanos (Figura 6.5).
Figura 6.5: Cromatogramas gasosos de quatro amostras de óleo mostrando diferentes níveis
de biodegradação.
A presença marcante de óleos com diferentes contribuições dos óleos gerados
pela seção lacustre (folhelhos da Fm. Pendência e Mb. Upanema da Fm. Alagamar) e
pela marinho-evaporítica (folhelhos e margas do Mb. Galinhos e Camadas Ponta do
96
Tubarão da Fm. Alagamar) levou TRINDADE (1992) e TRINDADE et al. (1992) a
estudarem em detalhe as variações na composição dos biomarcadores e dos
parâmetros de evolução térmica destes óleos com intuito de entender melhor a
distribuição dos óleos classificados como mistos, bem como explicar a migração e o
preenchimento dos reservatórios ao longo da bacia. Primeiramente, destacaram como
características discriminantes entre óleos de origem continental versus marinhos: no
íon m/z 191, o alto índice de tricíclicos1 (>50) para os óleos de origem lacustre em
contrapartida com os valores mais baixos dos óleos de origem marinho-evaporítica,
índice de gamacerano2 variável com a salinidade do ambiente deposicional,
acarretando altos valores nos óleos marinhos (>60) e menores nos lacustres (<50),
índice de bisnorhopano3 significantemente baixo em amostras lacustres (<5) em
relação às marinhas (>10) e razão C34/C35 normalmente superior a 1,0 em amostras
marinhas; no íon m/z 217, aqueles autores destacam que a concentração de C27
20S+20R 14α(H), 17α(H) esteranos é comumente baixa em óleos lacustres (<50 ppm)
e alta em marinhos (>800 ppm); a relação entre hopanos/esteranos é alta nas
amostras classificadas como lacustres e baixa nas classificadas como marinhas; a
presença do composto C30 esterano, detectado por cromatografia gasosa acoplada à
espectrometria de massas acoplada à espectrometria de massas (CG-EM-EM), em
amostras marinhas e ausência do mesmo em amostras lacustres.
Para os óleos mistos, TRINDADE (1992) e TRINDADE et al. (1992)
observaram que a baixa concentração dos compostos bisnorhopano e gamacerano,
que nos óleos marinho-evaporíticos, está relacionada a maior distância de migração
dos óleos, o que sugere que a contribuição de óleos lacustres é maior à medida que
se distancia da cozinha de geração. Assim como ocorre com os parâmetros de fonte,
observa-se também com os de evolução térmica, que a medida em que as
acumulações se encontram localizadas mais distantes da cozinha de geração, situada
na porção marítima da bacia, os óleos apresentam uma menor evolução térmica.
Assim, os óleos, que migraram maior distância possuem uma maior contribuição de
óleos de origem lacustre, visto que a fase inicial de geração de petróleo ocorreu nas
fácies lacustres basais da Fm. Alagamar (Mb. Upanema), tendo o óleo migrado e
preenchido os reservatórios mais rasos e distantes da porção marítima onde a Fm
Alagamar gerou petróleo.
Os óleos acumulados ao longo do Alinhamento de Carnaubais e do Alto de
Macau estudados por SANTOS NETO et al. (1995) apresentam valores de enxofre em 1 Índice de Tricíclicos = soma de C19 a C29 (excluindo-se C22 e C27) terpanos tricíclicos/17α(H),21β(H)-hopano. 2 Índice de Gamacerano = área do gamaceranox100/17α(H),21β(H)-hopano. 3 Índice de Bisnorhopano = área do 28,30-bisnorhopanox100/17α(H),21β(H)-hopano.
97
torno de 0,5% atingindo, em alguns casos, como em óleos biodegradados valores da
ordem de 0,9%. A composição isotópica é muito similar entre os óleos destas áreas,
com valores de δ13C em torno de –26,0‰. A diferenciação em termos de origem só
pôde ser estabelecida após a análise dos resultados de cromatografia gasosa e
espectrometria de massas, que revelaram dois grupos de óleos característicos para os
óleos recuperados no Alinhamento de Carnaubais e Alto de Macau.
O primeiro grupo é composto pelos óleos classificados como marinho-
evaporíticos dos campos de Guamaré, Palmeira, Fazenda Pocinho, Monte Alegre, Alto
do Rodrigues, São Luiz, Estreito, Rio Panon, São Pedro, Conceição, Salina Cristal,
Macau e Soledade. Estes óleos apresentam nos cromatogramas gasosos razão
pristano/fitano inferior a 1,0, distribuição de n-alcanos (nos óleos com menor
biodegradação aparente) com predominância dos compostos entre n-C16 e n-C20,
notável presença de iso-alcanos com 25 e 30 átomos de carbono, além da presença
do composto β-carotano na maioria destes óleos. No perfil de biomarcadores do íon
m/z 191, é observada uma abundância relativa dos compostos pentacíclicos sobre o
tricíclicos, razão gamacerano/hopano superior a 0,80, Ts maior que o Tm, razão entre
os homohopanos (22S e 22R) em C34 e C35 próxima a 1,0, além da presença dos
compostos trisnorhopano e bisnorhopano. Entre os esteranos íon m/z 217 ocorre a
predominância dos compostos com 27 átomos de carbono sobre aqueles com 28 e 29,
e uma baixa proporção relativa de diasteranos em relação aos esteranos.
O segundo grupo é constituído pelos óleos mistos que estão localizados
restritamente, na área de estudo, à porção submersa do Alto de Macau. Estes óleos
apresentam em seus cromatogramas gasosos predominância de n-alcanos entre n-C14
e n-C18, com decréscimo contínuo nos n-alcanos com moléculas sucessivamente
maiores, até n-C40, razão pristano/fitano superior a 1,0, e ausência ou baixa
concentração do composto β-carotano. Entre os hopanos (íon m/z 191), apresentam
maior abundância relativa dos compostos tricíclicos sobre os pentacíclicos, razão
gamacerano/hopano inferior a 0,80, predominância do Ts sobre o Tm, e razão entre os
homohopanos (22S e 22R) em C34 e C35 superior a 1,0. Com relação aos esteranos
(íon m/z 217), os óleos apresentaram predominância dos compostos com 27 átomos
de carbono sobre aqueles com 28 e 29, e proporção de diasteranos em relação aos
esteranos mais elevada que no caso dos óleos classificados como marinho-
evaporíticos do primeiro grupo.
Assim como MELLO et al. (1984), TRINDADE (1992) e TRINDADE et al. (1992)
observaram que as variações nas características dos óleos mistos são função da
diferente contribuição dos end-members lacustre e marinho-evaporítico na mistura,
SANTOS NETO et al. (1995) também destacaram que este é o principal condicionante
98
à grande variedade de características geoquímicas nos óleos deste grupo, e
apontaram, neste sentido, que a amostra de óleo recuperado no poço 3-RNS-74-RN é
a que apresenta maior contribuição de óleo lacustre.
SANTOS NETO (1996) e SANTOS NETO & HAYES (1999) caracterizaram 26
amostras de óleos da Bacia Potiguar, porção terrestre, representados nas três
diferentes classes: marinho-evaporítico, lacustre e misto. Os óleos marinho-
evaporíticos apresentaram como principais feições cromatográficas razão
pristano/fitano inferior a um (1,0), distribuição das n-parafinas proeminente na região
de n-C16-n-C18, abundante presença dos compostos i-C25, i-C30 e β-carotano; os perfis
de massas mostram para as razões hopanos/esteranos e Ts/(Ts+Tm) valores
relativamente baixos, predominância de pentacíclicos sobre os tricíclicos, razões
bisnorhopano/hopano e gamacerano/hopano com valores elevados, perfil bem
definido para a série dos homopanos estendidos até C35. Nos esteranos, predominam
os compostos em C27 sobre os C28 e C29 havendo, baixa ou muito baixa concentração
de diasteranos; em termos isotópicos, os óleos marinho-evaporíticos se encontram
depletados em deutério (D) e enriquecidos em δ13C, com valores de δ variando de –
135 a –114‰, e –26,5 a –25,7‰, respectivamente.
Nos óleos lacustres, SANTOS NETO (1996) e SANTOS NETO & HAYES
(1999) destacaram que existe nos cromatogramas gasosos uma leve predominância
de parafinas com números ímpares de carbono sobre aquelas que possuem números
pares, razão pristano/fitano alta (1,3 a 2,2), presença de n-alcanos de elevado peso
molecular (por exemplo, superiores a n-C38) e distribuição de n-alcanos típica de óleos
parafínicos cerosos; possuem altas razões hopanos/esteranos (6,1 a 15), entre os
terpanos apresentam maior abundância de tricíclicos em relação aos pentacíclicos,
baixa razão gamacerano/hopano, o composto bisnorhopano está ausente, ou quando
presente, em baixíssima concentração, assim como os homopanos em C33, C34 e C35.
Dentre os esteranos, observa-se a predominância de compostos em C29 e C27 sobre
os em C28, e a presença mais relevante de diasteranos quando comparados com os
óleos marinho-evaporíticos; são enriquecidos em deutério e depletados em 13C, os
valores de δD e δ13C variam de –101 a –88‰ e –33,6 a –30,2‰, respectivamente.
Os óleos mistos analisados por SANTOS NETO (1996) e SANTOS NETO &
HAYES (1999) possuem características nos cromatogramas gasosos e
fragmentogramas de massas intermediárias entre os óleos marinho-evaporíticos e
lacustres. Com relação ao sinal isotópico, os autores destacam que os valores de δD e
δ13C variam de –113 a –104‰ e –27,7 a –26,1‰, respectivamente.
99
Ainda neste estudo, os autores propuserem uma forma de quantificar a
contribuição dos diferentes end-members, a partir dos resultados de δD ou δ13C,
segundo a equação 6.1:
( )melacmememix ff −+= 1δδδ ( )1.6
onde:
δmix pode ser δD ou δ13C do óleo misto;
δme pode ser δD ou δ13C do óleo marinho evaporítico;
δlac pode ser δD ou δ13C do óleo lacustre;
fme é a fração de contribuição do óleo marinho evaporítico na mistura, e
(1- fme) é a fração de contribuição do óleo lacustre na mistura.
SANTOS NETO & TAKAKI (2000) estudaram as diferenças entre os óleos
classificados como lacustre na Bacia Potiguar, porção terrestre. Estes óleos
apresentam variações significantes em suas composições isotópicas e moleculares,
sendo então divididos em duas famílias pelos autores. Entre os resultados de
Cromatografia Gasosa e Espectrometria de Massas acoplada à Cromatografia Gasosa
as principais diferenças são observadas nas razões: pristano/fitano (valores em torno
de 3,0 para a Família I e em torno de 2,5 para a Família II), hopanos/esteranos
(valores inferiores a 17 para a Família I e superiores a 20 para a Família II) e
tricíclicos/pentacíclicos (valores inferiores a 0,2 para a Família I e em torno de 1,0 para
a Família II). O valor de isotópico de carbono total é o parâmetro mais importante para
distinguir as duas famílias de óleos lacustres reconhecidos como gerados pela
Formação Pendência, a Família I possui valores de δ13C maiores que –30,00‰ e a
Família II menor que –31,00‰. SANTOS NETO & TAKAKI (2000) associam estas
variações a heterogeneidades nos fácies orgânicos geradores da Formação
Pendência ao longo do tempo.
Durante o desenvolvimento do estudo do risco exploratório em reservatórios
portadores de óleos biodegradados, MAGNIER & PENTEADO (2000) caracterizaram
geoquimicamente os óleos do Trend de Carnaubais. Dentre as características
principais destacam-se grau API variando de 14 a 24º, porcentagem de compostos
saturados entre 39 e 66%, porcentagem de compostos NSO entre 18 e 36% e
isótopos estáveis de carbono total entre –25,5 e –27,0‰. Na maioria dos reservatórios
rasos foi observada depleção de n-alcanos, sendo ainda observado isoprenóides
como pristano e fitano nos óleos localizados a NE do trend, e nos óleos recuperados a
SW é observado, na maioria, apenas a UCM. Os dados de biomarcadores refletem
100
uma mistura de diferentes matérias orgânicas de ambiente marinho-evaporítico
associadas à Formação Alagamar, como por exemplo, altos valores para as razões:
H35/H34 homopanos, TET24/26TRI, H29/H30 e gamacerano/hopano; baixos valores
para a razão hopanos/esteranos. As amostras apresentam boa correlação de
parâmetros moleculares indicativos de evolução térmica com a profundidade como,
por exemplo, αββ/(αββ+ααα) e S/(S+R), exceto nos campos de Guamaré, Fazenda
Pocinho e Palmeira. A respeito da biodegradação, os autores destacam que a
intensidade de biodegradação caminha da região offshore no extremo NE do trend em
direção ao continente até os campos de Rio Panon e São Pedro. A alteração nos
parâmetros de biomarcadores só foi evidenciada nos óleos onde a biodegradação foi
mais intensa.
PARENTE (2006) estudou os óleos recuperados nos Campos de Baixa do
Algodão, Fazenda Malaquias, Alto do Rodrigues, Fazenda Pocinho, Guamaré, Pajeú e
São Miguel, e a partir de parâmetros como grau API, cromatografia gasosa, isótopos
de carbono e biomarcadores, separou os óleos através de análise de cluster e
componentes principais em dois grupos principais. O primeiro grupo é composto pelos
óleos dos Campos de Fazenda Malaquias e Baixa do Algodão. Estes são classificados
como lacustres por apresentarem elevada razão hopano/esterano (>10,0), baixa razão
diasteranos/C27ααα (<0,2), isotopicamente apresentam valores de δ13C mais pesados
que –26,0‰. Neste segundo grupo, a autora destaca que os óleos dos Campos de
Pajeú e São Miguel apresentam características geoquímicas ligeiramente diferentes
(são mais depletados em δ13C e apresentam valores da razão gamacerano/hopano
inferiores) dos demais óleos pertencentes ao mesmo grupo.
BEHAR et al. (2006) estudaram as perdas de hidrocarbonetos durante os
processos de biodegradação. Para realização do estudo os autores selecionaram 12
amostras de óleo recuperadas ao longo do Trend de Carnaubais, sendo três de óleos
não biodegradados e nove de óleos biodegradados. Dentre as características
ressaltadas pelos autores em termos de biomarcadores estão o aumento da
concentração de hopanos e esteranos nos óleos mais biodegradados, embora não
101
tenha sido observado o aumento contínuo com o avanço da biodegradação. A razão
25-norhopano/C30 Hopano (m/z 177) não mostra variações significativas com a
biodegradação e os valores para as amostras biodegradados possuem faixas
semelhantes às amostras não biodegradadas.
J.V.P.GUZZO (Inf. Verbal) apresentou um refinamento a respeito dos óleos
classificados como lacustre. Anteriormente, estes óleos eram considerados apenas
lacustres, porém GUZZO propõe uma subdivisão baseada na hipótese de alguns
destes óleos, em particular os localizados no Graben de Apodi, apresentarem a razão
diasteranos/C27ααα elevada (>0,5) chegando até valores como três (3,0). A elevada
abundância relativa de diasteranos é relacionada a geradores associados a ambientes
com alto aporte sedimentar (PETERS et al., 2005). Desta forma, os óleos que
possuem esta razão elevada podem estar associados a um fácies mais siliciclástico do
gerador lacustre. Além desta razão, GUZZO também observou para estes óleos,
variações nas razões 19/23TRI e TET24/26TRI, que já foram reportadas na literatura
(PHILP & GILBERT, 1986, ISAKSEN, 1995 e PETERS et al., 2005) como indicadoras
de ambientes com alto aporte de sedimentos terrígenos.
Em resumo, os dados geoquímicos apontam para a presença de pelo menos
três classes de óleos pertencentes à porção terrestre da Bacia Potiguar sumarizados
na Tabela 6.1. Os óleos lacustres gerados pelos folhelhos lacustres da Formação
Pendência e Mb. Upanema da Fm. Alagamar, os óleos marinho-evaporíticos gerados
pelos folhelhos e margas da Formação Alagamar e os óleos mistos resultado da
mistura em diferentes proporções dos óleos lacustres (Pendência e/ou Upanema) e
marinho-evaporíticos.
102
Tabela 6.1: Parâmetros geoquímicos diagnósticos adotados para discriminação genética de óleos na Bacia Potiguar.
Classe Autor (es) Lacustre Marinho-Evaporítico Misto
RODRIGUES et al., 1983 e RODRIGUES, 1983
Distribuição simétrica entre as n-parafinas. pristano/fitano > 1,0. δ13C < -28,0‰ . Ausência de esteranos. Ausência ou baixa proporção de gamacerano.
Distribuição assimétrica entre as n-parafinas. pristano/fitano < 1,0. δ13C < -26,7‰ . Elevada concentração de esteranos. Alta proporção de gamacerano.
Valores intermediários entre os apresentados pelos óleos lacustres e marinho-evaporítico.
MELLO et al., 1984
Predominância de n-parafinas entre n-C14-n-C25. Razão pristano/n-C17=0,32. Razão fitano/n-C18=0,11. Razão pristano/fitano=1,8. Ausência ou baixa concentração de esteranos. Baixa proporção de gamacerano. Alta proporção de C29. Razão Ts/Tm > 1.
Predominância de n-parafinas entre n-C15-n-C17. Razão pristano/n-C17=0,41. Razão fitano/n-C18=0,32. Razão pristano/fitano=1,5. δ13C > -25,0‰ . Presença de esteranos. Alta proporção de gamacerano. Razão Ts/Tm < 1.
Predominância de n-parafinas entre n-C13-n-C17 e n/C25-n-C28. Razão pristano/n-C17=0,41. Razão fitano/n-C18=0,26. Razão pristano/fitano=1,72. δ13C < -26,0 e -27,5‰ . Concentração de biomarcadores intermediária aos óleos lacustres e marinho-evaporíticos.
CERQUEIRA, 1985
%S=0,1 ºAPI=30 Predominância de n-parafinas entre n-C19-n-C25. Razão pristano/n-C17=0,32. Razão fitano/n-C18=0,11. Razão pristano/fitano=1,8. Ausência ou baixa concentração de esteranos. Baixa proporção de gamacerano. Alta proporção de C29. Razão Ts/Tm > 1.
Predominância de n-parafinas entre n-C15-n-C17. Razão pristano/n-C17=0,41. Razão fitano/n-C18=0,32. Razão pristano/fitano=1,5. δ13C > -25,0‰ . Presença de esteranos. Alta proporção de gamacerano. Razão Ts/Tm < 1.
Predominância de n-parafinas entre n-C13-n-C17 e n/C25-n-C28. Razão pristano/n-C17=0,41. Razão fitano/n-C18=0,26. Razão pristano/fitano=1,72. δ13C < -25,9 e -28,1‰ . Concentração de biomarcadores intermediária aos óleos lacustres e marinho-evaporíticos.
MELLO, 1988 e MELLO et al., 1988
n-alcanos de alto peso molecular (>n-C23). Pristano/fitano > 1. δ13C < -28,0‰. Baixa concentração de esteranos. Ausência de C30 esterano. C27 esteranos > C29 esteranos. Alta abundância de C24 TET. Ts>Tm.
Pristano/fitano < 0,6. δ13C=-25,0 a - 26,6‰. Alta concentração de esteranos. Presença de C30 esterano. C27 esteranos > C28 e C29 esteranos. Alta abundância de gamacerano. H35>H34 homopanos. Ts<Tm.
-----------
103
Tabela 6.1: Parâmetros geoquímicos diagnósticos adotados para discriminação genética de óleos na Bacia Potiguar (continuação).
Classe Autor (es) Lacustre Marinho-Evaporítico Misto
SANTOS NETO et al., 1990
Baixo CPI. n-alcanos de alto peso molecular (>n-C23). Razão pristano/n-C17 baixa. Razão fitano/n-C18 baixa. δ13C < -28,0‰ . Baixa proporção de gamacerano. Ts/Tm > 1,0. H34>>H35. Alta proporção de C29 sobre C27 e C28 esteranos. Razões de ααβ/(ααα+αββ) e S/(S+R) em C29 já equilibradas.
Baixo CPI. n-alcanos de baixo peso molecular (<n-C19). Presença de isoalcanos i-C25 e i-C30. δ13C > -26,6‰ . Alta proporção de gamacerano e bisnorhopano. Ts/Tm << 1,0. H34<<H35. Alta proporção de C27 sobre C28 e C29 esteranos.
Estes óleos apresentam características ora de ambiente lacustre ora de ambiente marinho-evaporítico.
TRINDADE, 1992 e TRINDADE et al., 1992
Baixo Índice de tricíclicos, de gamacerano e bisnorhopano. Razão H34/H35 < 1,0. Baixa concentração de C27 esteranos (<50ppm). Razão hopanos/esteranos alta. Ausência de C30 esterano.
Alto Índice de tricíclicos, de gamacerano e bisnorhopano. Razão H34/H35 > 1,0. Alta concentração de C27 esteranos (>800ppm). Razão hopanos/esteranos baixa. Presença de C30 esterano.
Os óleos apresentam características intermediárias aos end-members, e a predominância em determinados parâmetros é função da diferente contribuição de cada end-member à mistura.
SANTOS NETO et al., 1995 -----------
Predominância de n-parafinas entre n-C16-n-C20. Presença de isoalcanos i-C25 e i-C30. Presença de β-carotano. Razão pristano/fitano<1,0. Predominância de C27 sobre C28 e C29 esteranos. Baixa proporção relativa de diasteranos sobre esteranos. Razão gamacerano/hopano > 0,8. Ts>Tm.
Predominância de n-parafinas entre n-C14-n-C18. Decréscimo contínuo das n-parafinas até n-C40. Presença de β-carotano em baixa proporção ou ausência. Razão pristano/fitano>1,0. Predominância de C27 sobre C28 e C29 esteranos. Maior proporção relativa de diasteranos sobre esteranos. H34/H34>1,0. Razão gamacerano/hopano < 0,8. Ts>Tm.
104
Tabela 6.1: Parâmetros geoquímicos diagnósticos adotados para discriminação genética de óleos na Bacia Potiguar.
Classe Autor (es) Lacustre Marinho-Evaporítico Misto
SANTOS NETO, 1996 e SANTOS NETO & HAYES, 1999
Presença de n-parafinas de alto peso molecular (>n-C38). Razão pristano/fitano alta. δ13C -33,6 a –30,2‰ . δD -101 a -88‰ . Alta razão hopano/esterano. Baixa razão gamacerano/hopano. Bisnorhopano presente em baixa concentração ou ausente. Predominância de C29 sobre C27 e C28 esteranos. Proporção de diasteranos maior quando comparados aos óleos marinho-evaporíticos.
Predominância de n-parafinas entre n-C16-n-C18. Razão pristano/fitano<1,0. Presença de isoalcanos i-C25 e i-C30. Presença de β-carotano. δ13C -26,5 a -25,7‰ . δD -135 a -114‰ . Razões hopanos/esteranos e Ts/(Ts+Tm) baixas. Razões bisnorhopano/hopano e gamacerano/hopano elevadas. Predominância de C27 sobre C28 e C29 esteranos. Predominância de esteranos sobre diasteranos.
Possuem características em seus cromatogramas gasosos e fragmentogramas de massas intermediárias entre os óleos lacustres e marinho-evaporíticos. O sinal isotópico de δ13C -27,7 a –26,1‰ . δD -113 a -104‰ .
Amostras, em maio parte, depletadas em n-alcanos e isoprenóides. δ13C -27,0 a –25,6‰ . Razão hopanos/esteranos baixa. Razões H35/H34, H29/H30, 24TET/26TRI, e gamacerano/hopano altas. Boa correlação entre parâmetros de evolução térmica com a profundidade.
fatores em destaque são os valores da razão gamacerano/hopano que são superiores
a 0,25 nas amostras da classe lacustre siliciclástico B, e finalmente
cromatograficamente a razão fitano/n-C18, em geral, apresenta inferiores a 0,15 para a
classe lacustre siliciclástico A (Figura 6.14).
116
Tabela 6.3: Principais parâmetros geoquímicos adotados para discriminação genética dos óleos presentes no conjunto amostrado da Bacia Potiguar, porção terrestre. Para definição dos parâmetros geoquímicos consultar anexos I e II.
Parâmetros Lacustre
Siliciclástico A
Lacustre Siliciclástico
B Lacustre
A Lacustre
B Misto Trend
de Areia Branca
Misto Trend de
Carnaubais Marinho-
Evaporítico
Grau API 25-45º 34-47,5º 14-42,6º 6-40º 15-46º ≈ 30º 3-42º ≈ 20º 12-27º % S 0,05-0,28 0,06 0,07-0,26 0,04-0,06 0,05-0,5 0,2-0,8 0,75-1,1 % Saturados 59-87 61-80 51-90 54-78 45-82 38-72 29-39 % NSO 5-27 4-19 3-27 3-24 5-39 13-38 >35 δ13C (‰) -28,0 a -30,5 -29,0 a -31,0 -27,9 a -32,7 -29,9 a -32,4 -26,1 a -28,5 -25,5 a -26,8 >-26,0 Cromatografia Gasosa
21/23TRI<0,8 24/25TRI<1,2 26/25TRI<1,2 Gam/H30>0,6, em grande parte 0,8-1,0. H28/H29>0,05 H28/TR23>0,5 H29/H30>0,56 NorH/H30>0,03 TET24/26TRI>0,5 TRI/HOP<0,2, em geral. Ts/(Ts+Tm)<0,4
TPP (m/z 259) <0,7 >0,7 >0,96 <0,96 >0,5, em geral <0,5, em geral <0,47
117
Figura 6.13: Exemplos de fragmentogramas de massas m/z 191, m/z 217 e m/z 259 de óleos das classes lacustre siliciclástico, subgrupos A e B. Observar a diferença quanto à concentração dos compostos tricíclicos em relação aos pentacíclicos. Para identificação dos compostos consultar
Anexo I.
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC2
7BBS
C27
RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29BB
RC2
9BBS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC2
7BBS
C27
RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29BB
RC2
9BBS
C29
R
TR20
TR21
TR22
TR23 TR24
TR25ATR25B
TET24TR
26ATR26B
TR28A
TR28A
TR28BTR
29ATR
29BTS TM TR30A
TR30B
NO
R25HH
29C
29TSD
H30
M29
H30
NO
R30HM
30H
31SH
31RG
AM H
32SH
32R
H33S H
33R
H34S
H34R
H35S
H35R
Lacustre Siliciclástico A
Lacustre Siliciclástico B
m/z 191
Tricíclicos
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
Tricíclicos
Pentacíclicos
Pentacíclicos
D27
SD
27R
C30
TP1
C30
TP2
m/z 191
m/z 259
D27
SD
27R
C30T
P1C3
0TP2
m/z 259
m/z 217
m/z 217
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB
_D29
SC
27BB
SC2
7RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29B
BRC2
9BB
SC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC2
7BBS
C27
RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29BB
RC2
9BBS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC2
7BBS
C27
RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29BB
RC2
9BBS
C29
R
TR20
TR21
TR22
TR23 TR24
TR25ATR25B
TET24TR
26ATR26B
TR28A
TR28A
TR28BTR
29ATR
29BTS TM TR30A
TR30B
NO
R25HH
29C
29TSD
H30
M29
H30
NO
R30HM
30H
31SH
31RG
AM H
32SH
32R
H33S H
33R
H34S
H34R
H35S
H35R
TR20
TR21
TR22
TR23 TR24
TR25ATR25B
TET24TR
26ATR26B
TR28A
TR28A
TR28BTR
29ATR
29BTS TM TR30A
TR30B
NO
R25HH
29C
29TSD
H30
M29
H30
NO
R30HM
30H
31SH
31RG
AM H
32SH
32R
H33S H
33R
H34S
H34R
H35S
H35R
Lacustre Siliciclástico A
Lacustre Siliciclástico B
m/z 191
Tricíclicos
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
Tricíclicos
Pentacíclicos
Pentacíclicos
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R
C30
TP1
C30
TP2
m/z 191
m/z 259
D27
SD
27R
C30T
P1C3
0TP2
D27
SD
27R
C30T
P1C3
0TP2
m/z 259
m/z 217
m/z 217
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB
_D29
SC
27BB
SC2
7RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29B
BRC2
9BB
SC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB
_D29
SC
27BB
SC2
7RC
28S
C28B
BR
C28B
BSC
28R
C29
SC
29B
BRC2
9BB
SC
29R
118
Figura 6.14: Gráficos mostrando os principais diferenças observadas nos óleos classificados como lacustre siliciclástico. Para definição das razões de
parâmetros geoquímicos consultar Anexo II.
0
0.15
0.3
0.45
0.6
0 0.1 0.2 0.3 0.4 0.5
Gam/H30
Phy/
nC
18
La c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3
26/25TRI
19/2
3TR
ILa c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
TET24/26TRI
TR23
/H30
La c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
TPP
TRI/H
OP
La c us tre S ilic . A La c us tre S ilic . B
0
0.15
0.3
0.45
0.6
0 0.1 0.2 0.3 0.4 0.5
Gam/H30
Phy/
nC
18
La c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3
26/25TRI
19/2
3TR
ILa c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
TET24/26TRI
TR23
/H30
La c us tre S ilic . A La c us tre S ilic . B
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
TPP
TRI/H
OP
La c us tre S ilic . A La c us tre S ilic . B
119
CLASSE LACUSTRE:
Esta classe possui 70 amostras que representam os óleos localizados
principalmente no Graben de Umbuzeiro, secundariamente no Graben de Boa Vista, e
em menor quantidade no Graben de Apodi (Figura 6.12). As principais características
apresentadas pelas amostras desta classe são grau ºAPI geralmente superior a 20º,
índice de enxofre inferior a 0,5%, alta concentração de compostos saturados (superior
a 50%), predominância de n-alcanos de alto peso molecular, razão pristano/fitano
superior a 2,0, razão hopanos/esteranos com valores superiores a 10, baixo índice de
gamacerano, razão 26/25TRI maior que 1,6, razão entre os homopanos H35/H34 em
geral entre 0,4 e 0,8, predominância de C29 esteranos sobre seus homólogos com 27 e
28 átomos de carbono, e valores de isotópicos de carbono em óleo total em grande
parte inferiores a –30,00‰.
Assim como na classe lacustre siliciclástico foram detectadas diferenças que
permitiram a subdivisão do grupo em dois, na classe das amostras lacustres também
foram observadas particularidades que resultaram na criação de dois subgrupos. As
diferenças composicionais que levaram à criação das duas subclasses denominadas
de lacustre A e lacustre B são: valores na razão diasteranos/C27ααα, em geral,
maiores que 0,4, predominância dos hopanos C29 Ts sobre seu homólogo Tm, razão
H28/H29 (<0,05), H28/TR23 (<0,5), H29/H30 (<0,56, embora com superposição de
valores os óleos deste grupo tendem apresentar valores mais baixos), Nor25H/H30
(<0,03), TET24/26TRI (<0,5), TPP (em geral, >0,5), tricíclicos/hopanos (em geral,
>0,2) e Ts/(Ts+Tm) em geral superior a 0,4. Os valores isotópicos de carbono total são
mais leves (<-26,00‰) para as amostras do Trend de Areia Branca e geralmente mais
pesados para os óleos do Trend de Carnaubais (>-26,80‰).
126
Figura 6.17: Gráficos mostrando as diferenças de qualidade nos óleos mistos dos Trends de
Carnaubais e Areia Branca. Em (a) parâmetros globais º API x %S, e em (b) dados de cromatografia líquida.
Segundo J.V.P. GUZZO (Inf. Verbal), as 20 amostras que pertencem a campos
localizados na porção NW da bacia, na Plataforma de Aracati, foram classificadas
como mistas. No entanto, estas amostras compreendem óleos com feições típicas dos
óleos marinho-evaporíticos recuperados na Bacia do Ceará, como observado nos
trabalhos de RODRIGUES, 1993, MELLO et al., 1988, PENTEADO et al., 1995,
SANTOS NETO, 1996 e SANTOS NETO & HAYES, 1999, e neste trabalho serão
assim classificadas e descritas no próximo item.
% Saturados
% NSO
7 2
1513
5 1
2 22 8
0
15
30
45
60
75
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40 50 60
ºAPI
%S
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a(a)
(b) % Saturados
% NSO
7 2
1513
5 1
2 22 8
0
15
30
45
60
75
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40 50 60
ºAPI
%S
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a(a)
(b)
127
Figura 6.18: Gráficos mostrando os principais diferenças observadas nos óleos classificados como mistos. Para definição das razões de parâmetros
geoquímicos consultar Anexo II.
-29
-28
-27
-26
-25
-240 0.3 0.6 0.9 1.2 1.5
GAM/H30
δ13 C
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2
PRISTANO/FITANO
TPP
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.02
0.04
0.06
0.08
0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
TRI/HOP
Nor
25H
/H30
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.4
0.8
1.2
0 0.5 1 1.5 2
21/23TRI
26/2
5TR
IM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
-29
-28
-27
-26
-25
-240 0.3 0.6 0.9 1.2 1.5
GAM/H30
δ13 C
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2
PRISTANO/FITANO
TPP
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.02
0.04
0.06
0.08
0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
TRI/HOP
Nor
25H
/H30
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.4
0.8
1.2
0 0.5 1 1.5 2
21/23TRI
26/2
5TR
IM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
128
Figura 6.19: Gráficos mostrando os principais diferenças observadas nos óleos classificados como mistos. Para definição das razões de parâmetros
geoquímicos consultar Anexo II.
0
0.4
0.8
1.2
0 0.04 0.08 0.12 0.16 0.2
H28/H29
27/2
9ββS
(m/z
218
)
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1
Ts/(Ts+Tm)
TET2
4/26
TRI
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.5
1
1.5
2
0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
H29/H30
24/2
5TR
I
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.5
1
1.5
2
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2
Diah/H30
H28
/TR
23M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.4
0.8
1.2
0 0.04 0.08 0.12 0.16 0.2
H28/H29
27/2
9ββS
(m/z
218
)
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1
Ts/(Ts+Tm)
TET2
4/26
TRI
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.5
1
1.5
2
0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
H29/H30
24/2
5TR
I
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
0
0.5
1
1.5
2
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2
Diah/H30
H28
/TR
23M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
129
Figura 6.20: Fragmentogramas de massas íons m/z 191, 217 e 259 de um óleo da classe Misto Trend de Areia Branca e outro Misto Trend de
Carnaubais. Para identificação dos compostos consultar Anexo I.
TR19
TR20
TR21
TR22 TR
23TR
24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
BH
28N
OR2
5HH
29C
29TS
DH
30 M29
H30
NO
R30
H M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19
TR20
TR21
TR22 TR
23TR
24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
BH
28N
OR2
5HH
29C
29TS
DH
30 M29
H30
NO
R30
H M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R
C30
TP1
C30
TP2
m/z 191
m/z 217
m/z 259
Misto Trend de Areia Branca
Misto Trend de Carnaubaism/z 191
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC
27B
BS C
27R
C28
SC2
8BBR
C28
BB
SC2
8RC
29S
C29
BBR
C29B
BSC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC
27B
BS C
27R
C28
SC2
8BBR
C28
BB
SC2
8RC
29S
C29
BBR
C29B
BSC
29R
TR19 TR
20 TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
TR19 TR
20 TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
m/z 217m/z 259
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB_
D29
SC2
7BB
SC2
7RC2
8SC
28BB
RC
28BB
SC
28R
C29
SC2
9BBR
C29
BBS
C29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB_
D29
SC2
7BB
SC2
7RC2
8SC
28BB
RC
28BB
SC
28R
C29
SC2
9BBR
C29
BBS
C29R
D27
SD
27R
C30T
P1C
30TP
2
D27
SD
27R
C30T
P1C
30TP
2
TR19
TR20
TR21
TR22 TR
23TR
24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
BH
28N
OR2
5HH
29C
29TS
DH
30 M29
H30
NO
R30
H M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19
TR20
TR21
TR22 TR
23TR
24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
BH
28N
OR2
5HH
29C
29TS
DH
30 M29
H30
NO
R30
H M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R
C30
TP1
C30
TP2
m/z 191
m/z 217
m/z 259
Misto Trend de Areia Branca
Misto Trend de Carnaubaism/z 191
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC
27B
BS C
27R
C28
SC2
8BBR
C28
BB
SC2
8RC
29S
C29
BBR
C29B
BSC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SBB
_D29
SC
27B
BS C
27R
C28
SC2
8BBR
C28
BB
SC2
8RC
29S
C29
BBR
C29B
BSC
29R
TR19 TR
20 TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
TR19 TR
20 TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28
NO
R25H
H29
C29T
SD
H30
M29
H30
NO
R30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
m/z 217m/z 259
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB_
D29
SC2
7BB
SC2
7 RC2
8SC
28BB
RC
28BB
SC
28R
C29
SC2
9BBR
C29
BBS
C29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27S
BB_
D29
SC2
7BB
SC2
7 RC2
8SC
28BB
RC
28BB
SC
28R
C29
SC2
9BBR
C29
BBS
C29R
D27
SD
27R
C30T
P1C
30TP
2
D27
SD
27R
C30T
P1C
30TP
2
130
CLASSE MARINHO-EVAPORÍTICO:
Esta classe é composta por 20 amostras de óleos localizados na porção NW da
bacia, na Plataforma de Aracati (Figura 6.12). Anteriormente, embora na literatura
tenham sido consideradas como óleos gerados por fácies marinho-evaporítica, por
exemplo, RODRIGUES et al. 1983, MELLO et al., 1988, PENTEADO et al., 1995,
SANTOS NETO, 1996 e SANTOS NETO & HAYES, 1999, atualmente no banco de
dados da Gerência de Geoquímica, estes se encontravam classificados como óleos
mistos. Em função da sua alta correlação óleo-óleo com os óleos marinho-evaporíticos
da Bacia do Ceará, foi estabelecido para este trabalho que estas amostras
pertenceriam à classe marinho-evaporítica ao invés de permanecerem classificadas
como mistas (Figura 6.21).
Figura 6.21: Exemplos de resultados de cromatografia líquida e gasosa, espectrometria de massas e isótopos de carbono total em óleos pertencentes às Bacias do Ceará e Potiguar, mostrando a alta correlação óleo-óleo entre as duas amostras e classificados como óleos
marinho-evaporíticos. Para identificação dos compostos consultar Anexo I.
Os óleos recuperados nesta porção da bacia apresentaram os menores valores
de grau ºAPI, geralmente inferiores a 15º, as maiores porcentagens de enxofre
(>0,75%) e as maiores porcentagens de compostos NSO (>35%) como pode ser
observado na Figura 6.22 (a) e (b).
131
Figura 6.22: Gráficos mostrando a menor qualidade dos óleos da classe marinho-evaporítico
em relação aos demais óleos da bacia. Em (a) parâmetros globais º API x %S, e em (b) dados de cromatografia líquida.
Geoquimicamente, estes óleos apresentam perfil cromatográfico com ausência
ou baixa proporção de n-alcanos e isoprenóides (pristano e fitano) decorrente de
processos de alteração secundária (biodegradação). As bactérias degradam
preferencialmente as frações mais leves dos hidrocarbonetos saturados (n-alcanos e
isoprenóides), permanecendo no óleo os compostos de maior peso molecular
(TISSOT & WELTE, 1984 e HUNT, 1996). No caso destes óleos, são os compostos
cíclicos (naftênicos) que apresentam um enriquecimento relativo na composição global
do óleo, como pode ser observado pela alta concentração de biomarcadores
saturados e presença de um deslocamento da linha de base no cromatogramas
gasosos (“hump” ou UCM - Unresolved Complex Mixture) (Figura 6.23).
3 6 19 4 5
5 1 2 1 2 8
7 2 15 13
7 1 16 13
7 0 17 13
7 5 13 12
7 8 13 9
0% 20% 40% 60% 80% 100%
M A R . EVP .
M IS T . T . C A R .
M IS T . T . A R B .
LA C . A
LA C . B
LA C . S IL. A
LA C . S IL. B
%Saturados %Aromáticos %NSO
0
0.5
1
1.5
0 10 20 30 40 50 60ºAPI
% S
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
(b)
3 6 19 4 5
5 1 2 1 2 8
7 2 15 13
7 1 16 13
7 0 17 13
7 5 13 12
7 8 13 9
0% 20% 40% 60% 80% 100%
M A R . EVP .
M IS T . T . C A R .
M IS T . T . A R B .
LA C . A
LA C . B
LA C . S IL. A
LA C . S IL. B
%Saturados %Aromáticos %NSO
0
0.5
1
1.5
0 10 20 30 40 50 60ºAPI
% S
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
(b)
132
Figura 6.23: Gráfico entre porcentagem de compostos NSO e somatório de biomarcadores
(hopanos e esteranos) em ppm na fração dos C14+ saturados, mostrando o enriquecimento dos compostos naftênicos com o aumento da biodegradação. O cromatograma gasoso apresenta
um óleo marinho evaporítico biodegradado com ausência de n-alcanos e isoprenóides, um deslocamento da linha de base (UCM) e um enriquecimento de compostos naftênicos
decorrentes da biodegradação.
Os parâmetros moleculares de biomarcadores nestes óleos apresentam as
esteranos (<0,35) e C29 αββ/( αββ+ ααα) esteranos (<0,3). Os valores de isótopos
estáveis de carbono total são pesados (>-26,00‰) em relação aos demais óleos da
bacia (Figura 6.24). Estes óleos apresentam boa correlação com os extratos da
Formação Alagamar estudados por PENTEADO (1995), e quando comparados com os
óleos estudados por RODRIGUES (1983), apresenta algumas diferenças, que podem
estar associadas ao fato de que os óleos estudados por RODRIGUES (1983) não
estarem afetados por biodegradação como os do presente trabalho (Figura 6.25).
Ausência de n-alcanos e isoprenóides.
UCMUnresolved Complex Mixture
Enriquecimento relativode compostos naftênicos.
0
10
20
30
40
50
60
0 20000 40000 60000 80000Total de Biomarcadores (Hopanos+Esteranos) ppm
%N
SO
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
Ausência de n-alcanos e isoprenóides.
UCMUnresolved Complex Mixture
Enriquecimento relativode compostos naftênicos.
Ausência de n-alcanos e isoprenóides.
UCMUnresolved Complex Mixture
Enriquecimento relativode compostos naftênicos.
0
10
20
30
40
50
60
0 20000 40000 60000 80000Total de Biomarcadores (Hopanos+Esteranos) ppm
%N
SO
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
133
Figura 6.24: Gráficos mostrando as principais diferenças observadas nos óleos da classe marinho-evaporítico em relação às demais classes da bacia Potiguar, porção terrestre. Para definição das razões de parâmetros geoquímicos consultar Anexo II.
0
0.3
0.6
0.9
1.2
0 0.3 0.6 0.9 1.2Gam/H30
TET2
4/26
TRI
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
0.5
0.9
1.3
1.7
0.5 0.7 0.9 1.121/23TRI
24/2
5TR
I
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(b)
0
0.05
0.1
0.15
0.2
0 0.3 0.6 0.9 1.2TRI/HOP
H28
/H29
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(c)
-33
-32
-31
-30
-29
-28
-27
-26
-25
-240 0.2 0.4 0.6 0.8 1
Ts/(Ts+Tm)
δ13 C
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(d)
0
0.3
0.6
0.9
1.2
0 0.3 0.6 0.9 1.2Gam/H30
TET2
4/26
TRI
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
0.5
0.9
1.3
1.7
0.5 0.7 0.9 1.121/23TRI
24/2
5TR
I
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(b)
0
0.05
0.1
0.15
0.2
0 0.3 0.6 0.9 1.2TRI/HOP
H28
/H29
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(c)
-33
-32
-31
-30
-29
-28
-27
-26
-25
-240 0.2 0.4 0.6 0.8 1
Ts/(Ts+Tm)
δ13 C
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(d)
134
Figura 6.25: Gráficos mostrando a correlação entre os óleos da classe marinho-evaporítico com os extratos da Formação Alagamar (CES 07 e SO-05)
e os óleos marinho-evaporíticos dos poços CES-08 e 14. Para definição das razões de parâmetros geoquímicos consultar Anexo II.
-33-32-31-30-29-28-27-26-25-24-23
0 0.3 0.6 0.9 1.2
TRI/HOP
δ13 C
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
-33-32-31-30-29-28-27-26-25-24-23
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
TPP
δ13 C
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4DITERP/H30
19/2
3TR
I
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
0
0.4
0.8
1.2
1.6
2
0 0.02 0.04 0.06 0.08 0.1TET24/H30
26/2
8TR
I
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
-33-32-31-30-29-28-27-26-25-24-23
0 0.3 0.6 0.9 1.2
TRI/HOP
δ13 C
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
-33-32-31-30-29-28-27-26-25-24-23
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
TPP
δ13 C
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5 3 3.5 4DITERP/H30
19/2
3TR
I
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
0
0.4
0.8
1.2
1.6
2
0 0.02 0.04 0.06 0.08 0.1TET24/H30
26/2
8TR
I
La c us tre S ilic . A La c us tre S ilic . BLa c us tre A La c us tre BM is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc aM a rinho Ev a po rít ic o Extra to s C ES 0 7Extra to s S O 0 5 Óle o C ES 0 8 e 14
135
Quando comparados com os óleos mistos do Trend de Carnaubais, os perfis
de biomarcadores dos óleos marinho-evaporíticos nos íons m/z 191 e 217 são
semelhantes visualmente (Figura 6.26), porém alguns parâmetros permitem a
distinção entre os óleos das duas famílias. Dentre estes parâmetros, destacam-se
para os óleos marinho-evaporíticos a razão gamacerano/hopano superior a 0,98,
razão H28/H30 maior que 0,11, TET24/25TRI geralmente inferior a 1,0,
diahopano/hopano inferior a 0,03, gamacerano/TR23 maior que 26 e Ts/(Ts+Tm)
menor que 0,3. A maioria destes parâmetros é controlada pela anoxia da coluna de
água no ambiente deposicional da rocha geradora, segundo PETERS & MOLDOWAN
(1993). Desta forma, o ambiente gerador dos óleos marinho evaporíticos da bacia se
encontrava sob condições marinhas restritas. A figura 6.27 contrasta dois parâmetros
indicativos de anoxia de coluna de água citados por PETERS & MOLDOWAN (op. cit.),
e mostra um aumento no valor da razão gamacerano/hopano a medida em que os
óleos gradam para a classificação de marinho-evaporíticos.
136
Figura 6.26: Fragmentogramas de massas íons m/z 191, 217 e 259 de um óleo marinho-evaporítico e outro misto Trend de Carnaubais mostrando a
semelhança visual entre os perfis. Para identificação dos compostos consultar Anexo I.
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TM
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30
H31
SG
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
m/z 191
m/z 217
Óleo misto Trend de Carnaubais
Óleo marinho-evaporítico
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
SC
28B
BR
C28
BB
S C28
RC
29S
C29
BB
RC
29B
BS
C29
R
TR19
TR20 TR
21
TR22 TR
23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
H28
NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
m/z 191m/z 217
m/z 259
m/z 259
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R C3
0TP1 C30
TP2D27
SD
27R C3
0TP1 C30
TP2
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TM
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30
H31
SG
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TM
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30
H31
SG
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
m/z 191
m/z 217
Óleo misto Trend de Carnaubais
Óleo marinho-evaporítico
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
SC
28B
BR
C28
BB
S C28
RC
29S
C29
BB
RC
29B
BS
C29
R
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
SC
28B
BR
C28
BB
S C28
RC
29S
C29
BB
RC
29B
BS
C29
R
TR19
TR20 TR
21
TR22 TR
23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
H28
NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
TR19
TR20 TR
21
TR22 TR
23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B
H28
NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
SH
35R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
SC
27R
C28
S C28
BB
RC
28B
BS
C28
RC
29S C29
BB
RC
29B
BS
C29
R
m/z 191m/z 217
m/z 259
m/z 259
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R
C30
TP1
C30
TP2
D27
SD
27R C3
0TP1 C30
TP2D27
SD
27R C3
0TP1 C30
TP2
137
Figura 6.27: Gráfico mostrando o aumento na salinidade da água do ambiente da rocha
geradora, dos óleos da porção terrestre da Bacia Potiguar. Observar a variação na razão pristano/fitano e crescimento da razão gamacerano/hopano de acordo com o aumento da
anoxia. Para definição das razões de parâmetros geoquímicos consultar Anexo II.
6.5) Discussão da Classificação de Óleos
Os gráficos da figura 6.22 sugerem que os óleos mistos constituem uma
mistura em diferentes proporções de um end-member marinho evaporítico e um
lacustre. Entretanto o contínuo entre os óleos marinho-evaporíticos e lacustres,
englobando os óleos mistos, tem diferentes end-members lacustres de acordo com o
par de parâmetros geoquímicos selecionados. Em vários casos, parece haver um
contínuo entre os óleos marinho-evaporíticos e os lacustres A e B (Figura 6.24 (a), (b)
e (c)). Por outro lado, a figura 6.24 (d) parece sugerir uma mistura entre os óleos
marinho-evaporíticos e os lacustres siliciclásticos. Conseqüentemente, o end-member
lacustre contribuindo para os óleos mistos aparentemente não seria representado
pelas classes lacustre e lacustre siliciclástico, associadas a geradoras da Fm.
Pendência. Resta provar se o componente lacustre nos óleos mistos provém
unicamente do Mb. Upanema da Fm. Alagamar, como sugerido por autores como
TRINDADE, 1992 e TRINDADE et al., 1992.
Assim, a caracterização precisa do end-member lacustre nos óleos mistos deve
ser objeto de investigação futura, estando além do escopo do presente trabalho. Por
fim, cabe mencionar, que os óleos mistos do Trend de Carnaubais possuem um maior
componente de biomarcadores oriundos de uma fácies marinha evaporítica do que os
0
1
2
3
4
5
0 0.3 0.6 0.9 1.2Gam/H30
PRY/
FIT
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
0
1
2
3
4
5
0 0.3 0.6 0.9 1.2Gam/H30
PRY/
FIT
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
138
óleos do Trend de Areia Branca, os quais teriam uma proporção relativamente maior
do componente lacustre entre os biomarcadores.
139
CAPÍTULO
7
7. IMPLEMENTAÇÃO DAS TÉCNICAS Neste capítulo serão apresentados a ferramenta computacional utilizada para a realização do trabalho (software WEKA), a organização dos dados de entrada e os resultados obtidos para cada uma das técnicas de inteligência artificial: Árvore de Decisão e Redes Neurais Artificiais.
7.1) Introdução
Muitas são as ferramentas encontradas no mercado que seriam passíveis de
serem utilizadas na execução deste estudo. Dentre elas destacam-se: o Statistica®,
MatLab®, Clementine®, Intelligent Miner® e ODM®. Porém, optou-se pela utilização
do WEKA versão 3.4.10 por ser um software de domínio público, de fácil interface com
o usuário e com módulos de visualização já contemplados no pacote.
O conjunto de dados estudado compreende 200 amostras de óleo da Bacia
Potiguar, porção terrestre, selecionadas segundo a metodologia descrita no capítulo
anterior. A partir deste banco de dados, foram implementadas as técnicas de
inteligência artificial de Árvores de Decisão e de Redes Neurais Artificiais.
7.1.1) O Software WEKA
O pacote WEKA (Waikato Environment Knowledge Analysis) foi desenvolvido
na Universidade de Waikato na Nova Zelândia (WITTEN & FRANK, 2000) e se
encontra disponível no site da mesma: http://www.cs.waikato.ac.nz/ml/weka. Este
sistema foi desenvolvido a partir de uma linguagem de programação orientada a objeto
(JAVA) e possui seu código aberto disponível na Web. Por possuir linguagem de
programação JAVA, o código pode ser rodado em diferentes plataformas (Windows®,
Linux®, Unix® e Macintosh®), conferindo uma boa portabilidade ao software.
Além de atuar em domínio público esta ferramenta apresenta uma interface
gráfica com o usuário, o que reduz o tempo empregado na análise dos resultados,
140
devido a não necessidade de recorrer a outros programas para obter esta
visualização.
O WEKA é operado através de uma tela principal GUI (Guided User Interface)
onde são fornecidos relatórios com dados analíticos e estatísticos do domínio
minerado (Figura 7.1). Todavia, o software também pode ser operado através de linha
de comando.
Figura 7.1: Tela de apresentação do programa WEKA e suas principais funcionalidades.
O programa é formado pelo seguinte conjunto de pacotes: Preprocess,
Classify, Cluster, Associate, Select Attributes e Visualize. O pacote Preprocess é a
primeira tela ativa quando se abre o Explorer do WEKA. Nesta tela, é possível
selecionar o arquivo a ser aberto, visualizar informações a respeito dos atributos
contidos no arquivo, empregar filtros nos dados e salvar possíveis modificações
atribuídas ao conjunto de dados. O pacote Classify oferece dezenas de algoritmos de
aprendizagem de máquina, tais como: NaiveBayes, MultiLayerPerceptron, Kstar e J48.
O pacote Cluster contém cinco métodos de aprendizagem. Já o WEKA Associate
possui algoritmos de regras de associação Apriori, PredictiveApriori e Tertius. O
pacote Select Attributes, como o próprio nome diz possui algoritmos para selecionar
atributos de uma base de dados para posteriormente realizar a extração de padrões. O
último pacote é o Visualize onde é possível visualizar através de uma matriz de
gráficos o cruzamento de todas as variáveis.
141
7.1.2) Organização dos Dados de Entrada
Atualmente, o software permite a leitura de arquivos em formato .csv (variáveis
separados por vírgulas), independentemente do algoritmo utilizado, o que facilitou
muito a construção do arquivo de entrada de dados. Nas versões anteriores, o padrão
de entrada de dados era o ARFF o que demandava um bom tempo na preparação do
arquivo.
O arquivo com as 200 amostras foi então construído na forma de uma tabela
no editor de tabelas e gráficos do pacote Microsoft Office Excel®. Na primeira linha,
estão contidos todos os rótulos das variáveis e nas demais linhas (2ª-201ª) estão os
casos (amostras). Nas colunas, são alocados os valores de cada variável sendo a
última com a classe (classificação do tipo de óleo) referente a cada caso. Em outras
palavras, cada linha corresponde a informações de uma amostra de óleo em suas n
variaríeis, e cada valor na linha corresponde ao valor da n’ variável naquela amostra
de óleo. Esta tabela é salva no formato .csv (separados por vírgulas), estando pronta
para ser aberta no WEKA (Figura 7.2).
Figura 7.2: Exemplo de tabela de dados em formato .csv para entrada de dados no software
WEKA, visualizada no editor de texto Word pad®.
142
7.2) Aplicação da Técnica de Árvores de Decisão
Para a aplicação da técnica de Árvores de Decisão (AD) foi escolhido o
algoritmo J48. Os arquivos de entrada foram construídos baseados nas 200 amostras
e suas 60 variáveis selecionadas para o estudo, mais a classificação em uma das sete
classes atribuídas às amostras e discutidas anteriormente. As 60 variáveis escolhidas
para compor o banco de dados do trabalho, dentre os parâmetros geoquímicos de
possível utilização na caracterização geoquímica, são apresentadas na tabela 7.1.
Tabela 7.1: Variáveis de entrada empregadas para a construção do modelo “baseado em todas
as variáveis”. Para identificação dos parâmetros e razões, consultar Anexos I e II.
As variáveis geoquímicas selecionadas apresentam diferentes valores e limites.
Por exemplo, os dados de cromatografia líquida se encontram em porcentagem, os de
isótopos em valores negativos e os de biomarcadores em partes por milhão na fração
de saturados. Em virtude da diferença entre as escalas das variáveis empregadas
PRI/PHY 29/30H Pri/nC17 30/29BBS(218) Parâmetros de Cromatografia GasosaPHY/NC18 DIA/C27αα Parâmetros de Cromatografia Líquida17/(17+C27) DIA30/C27αα Isótopo de Carbono TotalALTURA TOTAL DIAH/H30 Parâmetros Bulk% Saturados DITERP/H30 Parâmetros de Biomarcadores% Aromáticos GAM/H30 % NSO GAM/TR23 δ13C H28/H29 API H28/H30 Enxofre (%) H28/TR23 %27ββS(218) H29/C29TS %28ββS(218) H29/H30 %29ββS(218) H30/C27αα%H31 H35/H34 %H32 HOP/STER %H33 NOR25H/H29 %H34 NOR25H/H30 %H35 NORNEO/H29 19/23TRI Total Esteranos 20S/(20S+20R) St Total Hopanos 21/23TRI TET24/26TRI 21+22/STER TET24/H30 23/24TRI TPP 24/25TRI TR23/H30 25NOR/HOPANE TRIC/HOP 26/25TRI TRIC/STER 26/28TRI TS/(TS+TM) 27/29ββS(218) TS/TM 28/29ββS(218) αββ/(αββ+ααα)
143
para a construção do modelo, foi decidido, por critérios de segurança e validação,
construir além do arquivo original, mais dois arquivos compostos com os 200 casos,
60 variáveis e 7 classes, porém um com as varáveis padronizadas (valores entre –1 e
1) e o outro com os casos organizados aleatoriamente.
Os modelos foram então construídos para os três arquivos e seus resultados
estão apresentados nas tabelas 7.2, 7.3 e 7.4. As variáveis foram omitidas das tabelas
de resultados, porém são as mesmas que constam na tabela 7.1.
O relatório-padrão gerado pelo software WEKA é composto de três partes
principais:
CABEÇALHO (RUN INFORMATION): onde é informado ao usuário o tipo de
classificador empregado (Scheme), o arquivo no qual o modelo foi gerado
(Relation), o número de casos do arquivo (Instances), o número de variáveis do
arquivo (Attributes) e o método de teste empregado na construção do modelo
(Test mode).
MODELO GERADO (CLASSIFIER MODEL): nesta porção é apresentado o
modelo gerado e informações inerentes ao tipo de classificador utilizado, por
exemplo, no caso das Árvores de Decisão, informações como o número de
folhas (Number of leaves) e o tamanho da árvore (Size of the tree) são
apresentados, nesta área também é reportado o tempo gasto para a
construção do modelo.
AVALIAÇÃO DO MODELO (EVALUATION ON TEST MODEL): aqui são
sumarizadas informações a respeito da avaliação obtida, a partir do tipo do
método de teste escolhido para a construção do modelo de classificação. Estas
informações compreendem a porcentagem de instâncias classificadas
corretamente (Correctly Classified Instances), porcentagem de instâncias
classificadas erroneamente (Incorrectly Classified Instances), medidas de erro
(Kappa statistic, Mean absolute error, Root mean squared error, Relative
absolute error, Root relative squared error) e o número total de casos
empregados para avaliar o modelo (Total Number of Instances). Nesta parte do
relatório-padrão, ainda são apresentados um sumário detalhado de acurácia
por classe (Detailed Accuracy By Class) e a matriz de confusão (Confusion
Matrix). A matriz de confusão é uma matriz quadrática, que reporta de forma
prática o número de amostras classificadas segundo as classes presentes no
modelo, ou seja, sua leitura se dá da seguinte forma: os números localizados
na diagonal correspondem as amostras classificadas corretamente, enquanto
que os números localizados fora da diagonal correspondem aos casos
pertencentes a uma determinada classe que foram classificados pelo modelo
144
como pertencentes a outra. Em alguns dos relatórios-padrão apresentados
neste trabalho, a “AVALIAÇÃO DO MODELO” terá adicionalmente uma
reavaliação obtida pela apresentação do conjunto de teste ao modelo gerado
(Re-evaluation on test set), e neste são as mesmas informações citadas
anteriormente, porém contabilizadas para o conjunto de teste.
Tabela 7.2: Relatório-padrão do software WEKA com os resultados da classificação por Árvore
de Decisão com 60 variáveis para os dados brutos.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: Dados sel-weka.filters.unsupervised.attribute. Instances: 200Attributes: 61Test mode: evaluate on training data
a b c d e f g <-- classified as25 0 0 0 0 0 0 | a = LAC_SIL_A0 10 0 0 0 0 0 | b = LAC_SIL_B0 0 48 0 0 0 0 | c = LAC_A0 0 1 21 0 0 0 | d = LAC_B0 0 0 0 35 0 0 | e = MIST_T_CAR0 0 0 0 1 39 0 | f = MIST_T_ARB0 0 0 0 0 0 20 | g = MAR_EVP
145
Tabela 7.3: Relatório-padrão do software WEKA com os resultados da classificação por Árvore de Decisão com 60 variáveis para os dados padronizados.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: Dados sel-weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute.StandardizeInstances: 200Attributes: 61Test mode: evaluate on training data
a b c d e f g <-- classified as25 0 0 0 0 0 0 | a = LAC_SIL_A0 10 0 0 0 0 0 | b = LAC_SIL_B0 0 48 0 0 0 0 | c = LAC_A0 0 1 21 0 0 0 | d = LAC_B0 0 0 0 35 0 0 | e = MIST_T_CAR0 0 0 0 1 39 0 | f = MIST_T_ARB0 0 0 0 0 0 20 | g = MAR_EVP
146
Tabela 7.4: Relatório-padrão do software WEKA com os resultados da classificação por Árvore
de Decisão com 60 variáveis para os dados organizados aleatoriamente.
Os resultados apresentados mostram que, independentemente do arquivo
utilizado (dados brutos, padronizados ou organizados aleatoriamente), a arquitetura da
Árvore de Decisão resultante não muda. De modo semelhante, os números de acertos
(198) e erros (2) permanecem iguais, além das amostras classificadas corretamente e
erroneamente nos três casos serem as mesmas. Pode-se observar na matriz de
confusão que uma amostra de óleo Misto do Trend de Areia Branca (MIST_T_ARB) foi
erroneamente classificada como óleo Misto do Trend de Carnaubais (MIST_T_CAR),
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: Dados sel rand-weka.filters.unsupervised.attributeInstances: 200Attributes: 61Test mode: evaluate on training data
a b c d e f g <-- classified as3 0 0 0 0 0 0 | a = LAC_SIL_A0 3 0 0 0 0 0 | b = LAC_SIL_B0 0 3 0 0 0 0 | c = LAC_A0 0 0 3 0 0 0 | d = LAC_B0 0 0 0 3 0 0 | e = MIST_T_CAR0 0 0 0 0 3 0 | f = MIST_T_ARB0 0 0 0 0 0 3 | g = MAR_EVP
151
Tabela 7.6: Relatório-padrão do software WEKA com os resultados da classificação por Árvore de Decisão com 60 variáveis e com Fator de Confiança de 0,5.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.5 -M 1Relation: Dados sel 179Instances: 179Attributes: 61Test mode: split 80% train, remainder test
a b c d e f g <-- classified as3 0 0 0 0 0 0 | a = LAC_SIL_A0 3 0 0 0 0 0 | b = LAC_SIL_B0 0 3 0 0 0 0 | c = LAC_A0 0 0 3 0 0 0 | d = LAC_B0 0 0 0 3 0 0 | e = MIST_T_CAR0 0 0 0 0 3 0 | f = MIST_T_ARB0 0 0 0 0 0 3 | g = MAR_EVP
153
Após o treinamento com as 143 amostras, a Árvore de Decisão obtida com um
Fator de Confiança de 0,02 (Tabela 7.5) classificou corretamente 34 das 36 amostras
de validação (índice de acerto de 94,4%). Na matriz de confusão, pode-se verificar que
as duas amostras classificadas erroneamente correspondem a um óleo do tipo
Lacustre Siliciclástico B (classificado como Lacustre B) e a um óleo Misto do Trend de
Areia Branca (classificado como Misto do Trend de Carnaubais). Já o índice de acerto
de classificação das 21 amostras de teste foi de 100%. Na Árvore de Decisão (Tabela
7.5 e Figura 7.3), observa-se que a razão Hopanos/Esteranos (HOP/STER) permitiu
separar, de um lado, todos óleos lacustres (valores superiores a 3,3921), e de outro
lado os óleos mistos (Trends de Areia Branca e Carnaubais) e marinho-evaporíticos
(valores da razão HOP/STER menores que 3,3921).
Entre os óleos lacustres, a razão DITERP/H30 separa os óleos lacustres
siliciclásticos A (22 amostras com valores de DITERP/H30 menores que ou iguais a
0,9844) dos demais. Em seguida, a razão DIA/C27AA serviu como critério para
distinguir os óleos lacustres A (41 amostras com valores dessa razão menores ou
iguais a 0,2899) dos restantes. Uma pequena parte de amostras do tipo lacustre A (5
amostras) se encontrou isolada das demais 41 amostras deste grupo por não atender
ao critério da razão DIA/C27AA. Entretanto, essas 5 amostras se diferenciaram das
outras lacustres na continuação da ramificação da árvore por terem valores da razão
abb/(abb+aaa) (indicativa de evolução térmica) mais altos que 0,4432. As amostras
restantes compreendem dois grupos de óleos lacustre B (16 e 2 amostras) e um grupo
de lacustre siliciclástico B (7 amostras), sendo as razões TPP e p_H34 utilizadas para
diferenciá-los. Em resumo, a Árvore de Decisão separou os óleos lacustres em
conjuntos homogêneos com correspondência quase que perfeita em relação aos
grupos previamente reconhecidos, com exceção de um desdobramento de 5 amostras
de óleos lacustres A (aparentemente com evolução térmica mais elevada que as
demais 41 amostras deste grupo) e 2 amostras de óleos lacustres B (que se
encontram, todavia relativamente próximas das demais deste grupo na Árvore de
Decisão). No ramo dos óleos mistos e marinho-evaporíticos, valores da razão
21+22/STER permitem diferenciar estes óleos (todos óleos marinho-evaporíticos
possuem valores desta razão menores que ou iguais a 0,0073) dos mistos.
Praticamente todos os óleos mistos do Trend de Carnaubais (31 amostras) atendem o
critério de 24/25TRI menor que ou igual a 1,1811. A única amostra remanescente do
grupo do Trend de Carnaubais foi separada das 37 amostras do Trend de Areia
Branca por valor de isótopo estável de carbono (delC13).
Assim como no treinamento realizado com Fator de Confiança 0,02, a Árvore
de Decisão obtida com um Fator de Confiança de 0,5 (Tabela 7.6) classificou
154
corretamente 34 das 36 amostras de validação (índice de acerto de 94,4%),
lembrando que o resultado obtido para o Fator de Confiança de 0,5 foi idêntico ao com
0,9, sendo então reportado apenas o resultado com Fator de Confiança de 0,5. Na
matriz de confusão, pode-se verificar que as duas amostras classificadas
erroneamente correspondem as mesmas amostras classificadas incorretamente no
modelo anterior, ou seja, um óleo do tipo Lacustre Siliciclástico B (classificado como
Lacustre B) e a um óleo Misto do Trend de Areia Branca (classificado como Misto do
Trend de Carnaubais). Também como no modelo gerado com Fator de Confiança
0,02, o índice de acerto de classificação das 21 amostras de teste foi de 100% e na
Árvore de Decisão (Tabela 7.6 e Figura 7.4), observa-se que as razões escolhidas
pelo algoritmo para separar as classes permanecem quase as mesmas, bem como
seus limites.
A diferença entre os modelos gerados com Fator de Confiança 0,02 e 0,5 está
presente apenas pela inserção da variável TOTALHEIGHT (Soma das alturas das n- e
iso- parafinas mais a UCM do cromatograma gasoso) na discriminação de uma
amostra da classe Lacustre B (LAC_B) que anteriormente se encontrava agrupada
com uma amostra da classe Lacustre A (LAC_A), o emprego desta variável está
associado ao fato das amostras pertencentes a classe Lacustre A possuírem um
cromatograma gasoso com características de óleos menos preservados, e por vezes,
afetado por biodegradação reduzindo assim o valor da soma das alturas dos
compostos, e as amostras de óleo da classes Lacustre B por serem mais evoluídas
termicamente e ainda possuírem cromatogramas gasosos de óleos preservados
acarreta em valores maiores deste parâmetro.
Buscando novos conjuntos de informações que pudessem resultar em um
melhor desempenho do algoritmo de Árvores de Decisão, foram realizados também
testes considerando apenas as 25 variáveis escolhidas para o refinamento da
classificação proposta no capítulo anterior. Estas variáveis apresentadas na tabela 7.7,
foram escolhidas a partir da construção de gráficos binários (x versus y) e
correspondem àquelas que melhor agrupavam as classes.
155
Tabela 7.7: Variáveis de entrada empregadas para a construção do modelo “baseado nas variáveis escolhidas durante a classificação”. Para identificação dos parâmetros e razões,
consultar Anexos I e II.
A mesma metodologia seguida para a geração dos modelos no arquivo
composto com as 60 variáveis variando o Fator de Confiança foi empregada para a
geração dos modelos a partir do arquivo composto pelas 25 variáveis selecionadas
durante o refinamento da classificação.
Os resultados obtidos pelo teste variando apenas o parâmetro Fator de
Confiança em 0,02, 0,5 e 0,9 não apresentam variação nos modelos gerados. Assim,
os resultados apresentados na tabela 7.8 e na figura 7.5 são para o teste com Fator de
Confiança de 0,02.
PRI/PHY PHY/NC18 Parâmetros de Cromatografia Gasosa% NSO Parâmetros de Cromatografia Líquida
δ13C Isótopo de Carbono Total19/23TRI Parâmetros de Biomarcadores20S/(20S+20R) St 21/23TRI 24/25TRI 26/25TRI 27/29ββS(218) DIA30/C27αα DITERP/H30 GAM/H30 H28/H29 H28/H30 H28/TR23 H29/C29TS H29/H30 HOP/STER TET24/26TRI TPP TR23/H30 TRIC/HOP TS/(TS+TM) αββ/(αββ+ααα)
156
Tabela 7.8: Relatório-padrão do software WEKA com os resultados da classificação por Árvore de Decisão com 25 variáveis com Fator de Confiança de 0,02.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.02 -M 1Relation: Dados sel var erica visual 179Instances: 179Attributes: 26Test mode: split 80% train, remainder test
a b c d e f g <-- classified as3 0 0 0 0 0 0 | a = LAC_SIL_A0 2 0 1 0 0 0 | b = LAC_SIL_B0 0 3 0 0 0 0 | c = LAC_A0 0 0 3 0 0 0 | d = LAC_B0 0 0 0 3 0 0 | e = MIST_T_CAR0 0 0 0 0 3 0 | f = MIST_T_ARB0 0 0 0 0 0 3 | g = MAR_EVP
166
CAPÍTULO
8
8. DISCUSSÃO DOS RESULTADOS Neste capítulo serão apresentadas as discussões dos resultados obtidos para cada uma das técnicas de inteligência artificial: Árvore de Decisão (AD’s) e Redes Neurais Artificiais (RNA’s), bem como sua comparação com a classificação proposta no Capítulo 6 e o contraste frente à eficiência das técnicas.
8.1) Introdução
Os resultados apresentados no capítulo anterior foram obtidos utilizando uma
metodologia análoga, onde inicialmente o modelo foi construído a partir de um
conjunto de 179 amostras que, posteriormente, para critério de avaliação, foi
particionado em dois grupos (um de treino e outro de validação). A construção do
modelo de avaliação foi realizada com um conjunto de treinamento composto de 143
amostras (80%), e este modelo foi posteriormente quantificado com o conjunto de
validação composto das 36 amostras remanescentes (20%), sendo estes grupos
divididos pelo próprio software através da opção Percentage split. Finalmente, o
modelo gerado foi analisado com o grupo de amostras de teste (21 amostras)
selecionadas previamente. Cabe ressaltar que os conjuntos de treinamento e
validação podem ter sido diferentes em qualquer um dos modelos, pois embora as 179
amostras carregadas no software tenham sido as mesmas, para cada split de 80%
solicitado, uma semente (seed) foi empregada, buscando um melhor resultado
classificatório para o modelo gerado. Em outras palavras, de acordo com a semente
escolhida, um novo conjunto de treino (80%) e validação (20%) foi gerado a partir das
179 amostras. Sendo assim, apenas os bancos de treino para a construção do modelo
final e o de teste foram os mesmos em todos os experimentos.
Para a construção do modelo classificatório de Árvores de Decisão (AD’s), foi
escolhido o algoritmo J48 e para o de Redes Neurais Artificiais (RNA’s) o algoritmo
Multi Layer Perceptron (MLP), ambos disponíveis no software WEKA.
167
Segundo KIRKBY & FRANK (2007), os modelos que são reportados nos
relatórios-padrão correspondem aos modelos gerados pelo treinamento realizado em
todo o conjunto de dados carregado no programa. Os resultados da avaliação do
modelo gerado são aqueles oriundos da construção de um modelo (que é omitido do
relatório-padrão) segundo determinação do usuário no Test options, porém é a partir
deste modelo omitido, que a matriz de confusão e os cálculos das medidas de erro e
acurácia são apresentados. Desta forma, cabe ao usuário observar no modelo final
(“Classifier model”, apresentado no relatório-padrão) o número de amostras que se
encontram classificadas erroneamente, bem como analisar a probabilidade de tal
amostra pertencer a cada uma das classes envolvidas no estudo.
Partindo-se do exposto acima, os modelos gerados no capítulo anterior serão
discutidos e comparados com a classificação proposta no Capítulo 6.
8.2) Comparação da Classificação por AD’s com a Original
Como o modelo gerado para avaliação não é reportado e sua existência reside
apenas para critério da estimativa do erro de generalização, fica difícil prever onde
surgiu um critério que levou a uma classificação equivocada durante a elaboração
deste modelo. Portanto, aqui serão discutidos os erros de classificação do modelo
completo (“Classifier model” apresentado no relatório-padrão do software WEKA).
A primeira arquitetura de Árvore de Decisão gerada foi para o conjunto que
contém as 60 variáveis e emprego do Fator de Confiança igual a 0,02. Este modelo
apresentou 10 folhas, ou seja, deste pode-se extrair 10 regras do tipo SE-ENTÃO,
conforme descrito no Capítulo 5. O segundo modelo ainda foi gerado para o conjunto
com 60 variáveis, porém com Fatores de Confiança 0,5 e 0,9 (ambos alcançaram o
mesmo resultado). Este modelo resultou em uma árvore com 11 folhas, ou seja, com
11 regras do tipo SE-ENTÃO.
A Árvore de Decisão gerada com Fator de Confiança de 0,02 apresentou um
erro de classificação, e a Árvore de Decisão construída com Fatores de Confiança de
0,5 e 0,9 não apresentou erros de classificação na etapa de construção do modelo.
Ambos os modelos não possuem erros de classificação para o conjunto de teste.
A amostra classificada incorretamente no modelo gerado com Fator de
Confiança de 0,02 como Lacustre A corresponde à amostra de número 85 (classe
Lacustre B; contida na tabela do anexo III). O erro de classificação deveu-se ao não
crescimento da árvore em virtude da utilização de um Fator de Confiança baixo (0,02).
Segundo QUINLAN (1993), para valores de Fator de Confiança baixos, maior é a poda
168
da árvore. Portanto, quando foi utilizado um Fator de Confiança maior (0,5 e 0,9), a
árvore não foi podada naquele ponto, e continuou crescendo permitindo a
classificação da amostra Lacustre B corretamente.
A figura 8.1 mostra o momento em que a amostra de número 85 ficou retida na
folha correspondente à classe Lacustre A, e a figura 8.2 apresenta a 11ª regra gerada
com intuito de separar esta amostra das demais.
Figura 8.1: Esquema ilustrando o momento em que a Árvore de Decisão (para 60 variáveis e Fator de Confiança de 0,02) foi podada e acarretou a classificação incorreta de uma amostra da classe Lacustre B como Lacustre A. Os gráficos apresentam os limites empregados pelo
algoritmo na distinção das classes. Observar a amostra classificada erroneamente destacada com um quadrado vermelho no gráfico DIA/C27αα versus αββ/(αββ+ααα). Para identificação
das razões de biomarcadores, consultar anexo II.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DIA/C27αα
αββ/
(αββ
+ααα
)
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
Lacustre B, Lacustre Siliciclástico A ou B.
Lacustre A
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DIA/C27αα
αββ/
(αββ
+ααα
)
La c u s t re A La c u s tre B
Lacustre A
Lacustre B
Amostra da classe Lacustre Bclassificada como Lacustre A. 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DIA/C27αα
αββ/
(αββ
+ααα
)
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
Lacustre B, Lacustre Siliciclástico A ou B.
Lacustre A
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DIA/C27αα
αββ/
(αββ
+ααα
)
La c u s t re A La c u s tre B
Lacustre A
Lacustre B
Amostra da classe Lacustre Bclassificada como Lacustre A.
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DIA/C27αα
αββ/
(αββ
+ααα
)
La c u s t re A La c u s tre B
Lacustre A
Lacustre B
Amostra da classe Lacustre Bclassificada como Lacustre A.
169
Figura 8.2: Criação da 11ª regra da Árvore de Decisão que permitiu a classificação correta da amostra da classe Lacustre B. Árvore gerada com 60 variáveis e Fator de Confiança de 0,5 e
0,9.
Esta amostra, identificada como 85ª na tabela do anexo III, apresenta
características geoquímicas em seu cromatograma gasoso, bem como nos seus
fragmentogramas de massas, típicos para amostras da classe Lacustre B, porém o
limite apresentado pelas demais amostras de sua classe na razão αββ/(αββ+ααα) foi
inferior ao seu, o que levou esta a ser classificada com 80% de chances de pertencer
à classe Lacustre A e apenas 20% de pertencer a classe Lacustre B, segundo a
distribuição de probabilidades calculada pelo programa. O valor desta razão pode ter
sido afetado pela diferença da amplitude no sinal do pico correspondente ao composto
C27R, que se encontra levemente mais abundante em relação as demais amostras da
mesma classe, o que levou ao aumento do valor calculado para a razão
αββ/(αββ+ααα).
Como os dois modelos não apresentaram erros no conjunto de teste, cabe
agora avaliar com novas amostras pertencentes à classe Lacustre B se haverá alguma
que possua o valor da razão αββ/(αββ+ααα) superior a 0,4432. Isso irá determinar se
vale à pena permanecer com esta folha na árvore. Caso contrário, a árvore gerada
com Fator de Confiança de 0,02 pode ser empregada para classificação de novas
amostras utilizando um erro pessimista de 5,5% (duas amostras classificadas
erradas), obtido pelo modelo gerado com Percentage split de 80%, ou ainda calcular
um erro mais otimista através de outra métrica.
Nova regra gerada paraclassificação da amostra Lacustre B.
170
Ainda a respeito da árvore gerada, é possível observar que quatro amostras
correspondentes à classe Lacustre A não respeitaram à condição
αββ/(αββ+ααα)<0,4432. Estes óleos correspondem às amostras identificadas como
21, 37, 50 e 58, na tabela contida no Anexo III. A 50ª amostra apresenta uma
distribuição de diasteranos levemente mais pronunciada, o que é comum nos óleos
oriundos deste campo, o qual se encontra numa porção isolada da bacia. As amostras
37 e 58 pertencem a óleos recuperados do mesmo campo de petróleo, porém a
amostra 37 representa um óleo de alta evolução térmica, o que segundo discutido no
Capítulo 6 leva a reclassificá-la como classe Lacustre B, a amostra 58 não apresenta
alta evolução térmica, mas possui os picos correspondentes ao compostos C27αββS
C27αββR levemente menores, quando comparada com as demais amostras da
classe. A 21ª amostra possui os picos correspondentes aos homólogos do C27
esteranos não tão bem resolvidos em virtude da coeluição de metilesteranos no
mesmo tempo de retenção, o que pode ter acarretado na variação do valor da razão
αββ/(αββ+ααα).
As regras geradas pelos modelos de Árvore de Decisão, quando comparadas
com as utilizadas na classificação das amostras no Capítulo 6, assemelham-se
bastante, em particular no que diz respeito aos limites apresentados pelo algoritmo. A
primeira regra, que permitiu separar de um lado amostras lacustres e de outro mistos e
marinho-evaporíticos, quando contrastada com os valores apresentados na tabela 6.3,
apresenta valores próximos:
SE HOP/STER>3,3921 ENTÃO classe “Lacustres”.
SE HOP/STER≤3,3921 ENTÃO classes Marinho-evaporítico ou “Mistos”.
contra o limite de 3,3 (vide tabela 6.3) que separa as primeiras amostras a possuírem
valores mais baixos desta razão (Misto Trend de Areia Branca) dos óleos lacustres em
geral, que possuem valores acima de nove (9,0).
Outra razão que também foi apresentada no Capítulo de 6 é 24/25TRI>1,2
(classe Misto Trend de Areia Branca) e 24/25TRI<1,2 (classe Misto Trend de
Carnaubais). A regra da Árvore de Decisão define valor superior a 1,1811 para a
classe Misto Trend de Areia Branca e inferior/igual a 1,1811 para a classe Misto Trend
de Carnaubais. Para esta regra é observado que a amostra 137 (tabela do anexo III)
da classe Misto Trend de Carnaubais não obedece a regra, fato devido a intensidade
do pico correspondente ao composto C24 tricíclico ser sutilmente maior em relação aos
demais óleos da classe Misto Trend de Carnaubais.
Seguindo para o outro lado da árvore, onde se localizam os óleos da classe
lacustre, observa-se que a razão DITERP/H30 que separa as amostras da classe
171
Lacustre Siliciclástico A das demais lacustres está presente na tabela 6.3 com valores
similares, ou seja, próximos a um (1,0).
Uma das razões que levou a segmentação da classe Lacustre em Lacustre A e
B foi a maior concentração relativa de diasteranos em alguns óleos que parecem ser
mais evoluídos termicamente (Lacustre B). Nas Árvores de Decisão geradas, o limite
calculado para esta razão (DIA/C27AA) parece concordante com os mostrados no
gráfico da figura 6.14. No que diz respeito as amostras Lacustre Siliciclástico B e
Lacustre B, as quais possuem a razão αββ/(αββ+ααα) elevada, o do valor do TPP
permite separar quase todas as amostras da classe Lacustre B (>0,9259) das Lacustre
Siliciclástico B (≤0,9259). Apenas duas amostras da classe Lacustre B fogem à regra
por serem um pouco mais evoluídas termicamente em relação às amostras da mesma
classe, sendo estas duas então destacadas pela regra p_H34 menor ou igual a 8,9633
(classe Lacustre B).
Na tentativa de melhorar o desempenho do algoritmo de Árvores de Decisão,
foram construídos modelos com apenas as 25 variáveis que melhor discriminaram as
amostras durante o refinamento da classificação. Estes modelos gerados de maneira
análoga aos experimentos anteriores com 60 variáveis apresentaram o mesmo
resultado para o emprego dos diferentes valores de Fatores de Confiança (0,02, 0,5 e
0,9).
A árvore resultante (Figura 8.3) possui 11 folhas, nenhuma amostra
classificada errada no modelo gerado com as 179 amostras, erro de generalização
pessimista de 8,3% (três amostras classificadas incorretamente) e uma amostra
classificada incorretamente no conjunto de teste.
172
Figura 8.3: Árvore de Decisão gerada com 25 variáveis e Fator de Confiança de 0,02, 0,5 e 0,9.
A amostra classificada incorretamente no conjunto de teste corresponde à
amostra identificada como 198 na tabela do anexo III. Esta pertence à classe Marinho-
evaporítico e foi classificada como Misto Trend de Carnaubais por apresentar o valor
da razão TR23/H30 igual a 0,0428, superior ao limite estipulado para as amostras de
sua classe (≤0,0366). A alteração no valor desta razão para esta amostra é decorrente
da menor abundância do pico correspondente ao composto C30 hopano.
As razões escolhidas para derivar as regras apresentadas pela árvore, de uma
certa maneira, são semelhantes às discutidas anteriormente. A primeira delas, por
exemplo, é a mesma utilizada no modelo gerado pelas 60 variáveis (SE
HOP/STER>3,3921 ENTÃO “lacustres” e SE HOP/STER ≤3,3921 ENTÃO marinho-
evaporítico ou “mistos”). No ramo esquerdo (dos óleos marinho-evaporítico ou mistos),
a razão 21+22/STER, ausente neste conjunto, foi substituída pela razão TR23/H30
com o prejuízo de uma amostra do conjunto de teste (classe Marinho-evaporítico)
classificada incorretamente. Este fato mostra a importância da razão 21+22/STER, não
comumente empregada na classificação de óleos, para a identificação da classe
Marinho-evaporítico nesta bacia. As demais regras, neste ramo esquerdo, são as
mesmas dos modelos anteriores.
Partindo-se para o ramo direito da árvore, são encontradas as amostras das
classes lacustres, e a primeira regra apresentada ainda permanece idêntica a dos
modelos já discutidos. Em substituição à razão DIA/C27αα, o algoritmo optou por
173
utilizar o valor de TPP para discriminar 40 amostras da classe Lacustre A contra as 41
amostras desta classe discriminadas com a razão DIA/C27αα nos modelos
precedentes. Seguindo a classificação, o valor de TPP é empregado mais uma vez
com o mesmo limite, superior a 0,9259 (classe Lacustre B + uma amostra da classe
Lacustre A) e inferior/igual a 0,9259 (classe Lacustre Siliciclástico B + duas amostras
da classe Lacustre B, e quatro da classe Lacustre B) separando de um lado boa parte
das amostras da classe Lacustre B das demais.
A razão GAM/H30 é empregada com intuito de separar tanto a única amostra
da classe Lacustre A que foi agrupada juntamente com as amostras da classe
Lacustre B, quanto do outro lado para discriminar todas as amostras da classe
Lacustre Siliciclástico B das demais. A respeito da criação de qualquer regra, o caso
mais crítico, é sempre aquele que está relacionado à sua criação para a discriminação
de apenas uma amostra. Isto posto, a regra - SE GAM/H30 inferior ou igual a 0,2151
ENTÃO classe Lacustre A - deve ser avaliada. Se forem analisadas as 48 amostras da
classe Lacustre A separadamente, 17 delas (35%) possuem valores para esta razão
concordantes ao apresentado pela regra da árvore (Figura 8.4). Assim, é esperado
que, caso mais amostras desta classe não respeitem a condição TPP superior a
0,9508 não venha ser uma exceção possuir valores da razão GAM/H30 inferior ou
igual a 0,2151, pois das amostras estudadas 35% apresentam estes valores.
Figura 8.4: Gráfico mostrando a presença de 17 amostras (35%) da classe Lacustre A que
possuem valores da razão Gam/H30 inferior a 0,2151, concordando com a regra apresentada pela Árvore de Decisão do modelo com 25 variáveis. Para identificação das razões de
biomarcadores, consultar anexo II.
Como neste experimento as razões empregadas foram aquelas previamente
selecionadas, cabe avaliar apenas os limites calculados pelo algoritmo. A razão
0
0.1
0.2
0.3
0.4
0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1TPP
Gam
/H30
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
0
0.1
0.2
0.3
0.4
0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1TPP
Gam
/H30
La c us tre S ilic . A La c us tre S ilic . B
La c us tre A La c us tre B
174
TR23/H30, assim como a 21+22/STER, não é comumente empregada na
discriminação de amostras de óleo, e se mostrou bastante eficiente na identificação
dos óleos marinho-evaporíticos nesta bacia. A presença da razão TR23/H30 no
conjunto das 25 melhores variáveis era devido à separação das classes Lacustre
Siliciclástico A e B, como apresentado na tabela 6.3 e figura 6.13, e não a propósito da
classe marinho-evaporítico. Este fato mostra a importância do método na busca por
novos padrões de informação previamente desapercebidos pelo especialista.
A informação foi descoberta pelo programa, agora cabe ao especialista avaliar
qual das duas razões é a melhor para compor o conjunto final de regras
classificatórias dos óleos desta bacia. Uma maneira simples de julgá-las é através da
construção de gráficos com estes parâmetros e observar neles, os limites entres as
amostras da classe discriminada frente às amostras das demais classes. A figura 8.5
(a) e (b) apresenta dois gráficos que mostram que o limite estipulado para a razão
21+22/STER é mais confiável que o da razão TR23/H30 para diferenciar os óleos
marinho-evaporíticos dos mistos, em virtude de possuir menos amostras de outras
classes circundando as vizinhanças deste valor. Este fato reduz a probabilidade de
futuramente, com novas amostras, o classificador gerado levar a erros de
classificação.
175
Figura 8.5: Gráficos mostrando os limites das razões 21+22/STER e TR23/H30. Em (a)
observar a presença de poucas amostras da classe Misto Trend de Areia Branca na vizinhança do valor limite calculado. Em (b) observar a grande quantidade de amostras da classe Misto
Trend de Carnaubais próximo ao limite da razão para a classe marinho-evaporítico. Para identificação das razões de biomarcadores, consultar anexo II.
As demais razões presentes na árvore gerada como, por exemplo, TPP maior
que 0,9508 para as amostras da classe Lacustre A e GAM/H30 superior a 0,2415 para
as amostras classe Lacustre Siliciclástico B são concordantes com os valores
apresentados na tabela 6.3.
Em resumo, a utilização da técnica de Árvores de Decisão mostrou-se bastante
eficiente na classificação e na descoberta de informações. Porém, seu emprego deve
ser feito com o acompanhamento de um especialista no assunto, pois apenas este
será capaz de avaliar quais parâmetros escolhidos serão realmente capazes de
compor um modelo generalista para classificação de novas amostras, não permitindo
que modelos superajustados ao conjunto de treino venham a ser utilizados como
0
0.01
0.02
0.03
0.04
0.05
0 0.2 0.4 0.6 0.8 1
TPP
21+2
2/ST
ER
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 0.2 0.4 0.6 0.8 1
TPP
TR23
/H30
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
(b)
0
0.01
0.02
0.03
0.04
0.05
0 0.2 0.4 0.6 0.8 1
TPP
21+2
2/ST
ER
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 0.2 0.4 0.6 0.8 1
TPP
TR23
/H30
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
0
0.01
0.02
0.03
0.04
0.05
0 0.2 0.4 0.6 0.8 1
TPP
21+2
2/ST
ER
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 0.2 0.4 0.6 0.8 1
TPP
TR23
/H30
M is to Tre nd C a rna uba is M is to Tre nd A re ia B ra nc a
M a rinho Ev a po rít ic o
(a)
(b)
176
padrão classificatório. Adicionalmente, a análise crítica do especialista é a única capaz
de avaliar se determinada classificação de óleo é coerente com critérios geológicos.
8.3) Comparação da Classificação por RNA’s com a Original
De maneira diferente da discussão a respeito dos resultados apresentados
pelos modelos de Árvore de Decisão, que são claros e de fácil interpretação, os
modelos gerados pela técnica de Redes Neurais Artificiais ficam restritos apenas ao
julgamento dos resultados para o conjunto de parâmetros empregados para compor a
camada de entrada da rede e sua topologia.
O primeiro modelo foi gerado com o arquivo das 60 variáveis, 20 neurônios na
camada escondida, Taxa de Aprendizado de 0,6, Termo Momento de 0,4 e Número
de Épocas igual a 500. Esta configuração resultou em apenas uma amostra
classificada erroneamente no modelo gerado com as 179 amostras, erro de
generalização pessimista de 5,5% (duas amostras com classificação erradas) e duas
amostras classificadas incorretamente no conjunto de teste.
A amostra classificada equivocadamente no modelo completo (179 amostras)
corresponde à amostra de número 37 na tabela do anexo III, pertencente à classe
Lacustre A classificada como Lacustre Siliciclástico B. Este óleo é muito evoluído
termicamente, o que acarreta a alteração dos valores das razões de parâmetros
geoquímicos.
A figura 8.6 mostra os fragmentogramas de massas dos íons 191 e 217, da
amostra 37 e um exemplo da classe Lacustre A, outro da classe Lacustre Siliciclástico
B e um terceiro da classe Lacustre B. Nesta figura, é possível observar a alteração na
distribuição dos hopanos (íon m/z 191) e dos esteranos (íon m/z 217) na amostra 37.
Provavelmente, esta amostra foi classificada como Lacustre Siliciclástico B em função
da distribuição de esteranos que se assemelha com a amostra exemplificada desta
classe.
177
Figura 8.6: Fragmentogramas de massas m/z 191 e 217 de um óleo típico da classe Lacustre A, do óleo classificado incorretamente e de um óleo da classe Lacustre Siliciclástico B e outro
da classe Lacustre B. Para identificação dos compostos consultar anexo I.
Este erro de classificação deve ser considerado, visto que uma das
argumentações levantadas para o desmembramento da classe Lacustre em A e B era
o fato da existência de óleos mais evoluídos termicamente no segundo conjunto.
Assim, embora a amostra de número 37 não seja realmente da classe Lacustre
Siliciclástico B como reportado pelo algoritmo de Redes Neurais Artificiais, esta
deveria ter sido classificada como Lacustre B pelo especialista por ser mais evoluída
termicamente.
As amostras classificadas incorretamente no conjunto de teste correspondem
às amostras identificadas como 104 e 34 contidas na tabela do anexo III. A amostra
104 pertence à classe Lacustre B e foi classificada como Lacustre Siliciclástico B, esta
apresentando suas razões de evolução térmica elevadas, o que sugere um óleo mais
evoluído. Desta forma, alguns parâmetros podem estar afetados pela evolução
térmica. Como o modelo de Redes Neurais Artificiais é construído a partir de todas as
informações oferecidas no arquivo de entrada, e diferente da Árvore de Decisão que
Lacustre ATR
19
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28 NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B H29
C29
TSD
H30
M29
H30
NO
R30
HM
30H
31S
H31
RG
AMH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
S H35
R
Lacustre Aclassificada comoLacustre Siliciclástico B
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
S BB_D
29S
C27
BBS
C27
RC
28S
C28
BBR
C28
BBS
C28
RC
29S
C29
BBR
C29
BBS
C29
R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM TR
30A
TR30
B
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R G
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
Lacustre Siliciclástico B
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
S C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
S BB
_D29
SC
27B
BS
C27
R
C28
S C28
BB
RC
28B
BS
C28
R C29
SC
29B
BR
C29
BB
SC
29R
m/z 191 m/z 217
Lacustre B
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TS TM TR30
ATR
30B
H28 NO
R25
HH
29C
29T
SD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2 C27
S BB
_D29
SC
27B
BS
C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
Lacustre ATR
19
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28 NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19
TR20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM
TR30
ATR
30B
H28 NO
R25
HH
29C
29TS
DH
30M
29H
30N
OR
30H
M30
H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B TS
TMTR
30A
TR30
B H29
C29
TSD
H30
M29
H30
NO
R30
HM
30H
31S
H31
RG
AMH
32S
H32
R
H33
SH
33R
H34
SH
34R
H35
S H35
R
Lacustre Aclassificada comoLacustre Siliciclástico B
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
S BB_D
29S
C27
BBS
C27
RC
28S
C28
BBR
C28
BBS
C28
RC
29S
C29
BBR
C29
BBS
C29
R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM TR
30A
TR30
B
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R G
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4 TR26
ATR
26B
TR28
ATR
28B
TR29
ATR
29B
TSTM TR
30A
TR30
B
H29
C29
TSD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R G
AM
H32
SH
32R
H33
SH
33R
H34
SH
34R
H35
SH
35R
Lacustre Siliciclástico B
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
S C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2
C27
SB
B_D
29S
C27
BB
S C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
S BB
_D29
SC
27B
BS
C27
R
C28
S C28
BB
RC
28B
BS
C28
R C29
SC
29B
BR
C29
BB
SC
29R
S21
S22 D
IA27
SD
IA27
RD
IA27
S2D
IA27
R2
C27
S BB
_D29
SC
27B
BS
C27
R
C28
S C28
BB
RC
28B
BS
C28
R C29
SC
29B
BR
C29
BB
SC
29R
m/z 191 m/z 217
Lacustre B
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TS TM TR30
ATR
30B
H28 NO
R25
HH
29C
29T
SD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R
TR19 TR
20
TR21
TR22
TR23
TR24
TR25
ATR
25B
TET2
4TR
26A
TR26
B
TR28
ATR
28B
TR29
ATR
29B
TS TM TR30
ATR
30B
H28 NO
R25
HH
29C
29T
SD
H30
M29
H30
NO
R30
HM
30 H31
SH
31R
GA
MH
32S
H32
RH
33S
H33
RH
34S
H34
RH
35S
H35
R S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2 C27
S BB
_D29
SC
27B
BS
C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
S21
S22
DIA
27S
DIA
27R
DIA
27S2
DIA
27R
2 C27
S BB
_D29
SC
27B
BS
C27
R
C28
SC
28B
BR
C28
BB
SC
28R
C29
SC
29B
BR
C29
BB
SC
29R
178
escolhe apenas aqueles parâmetros com maior poder de discriminação, a Rede
Neural Artificial recorre ao ajuste de pesos para dar esta ponderação. Porém, na
classe Lacustre B, apenas uma amostra (número 94 na tabela do anexo III) que possui
características semelhantes a esta estava contida no conjunto de treinamento. Desta
forma, a rede foi construída baseada na característica global da classe, buscando um
modelo generalista, penalizando assim a amostra 104.
A amostra 34 pertencente à classe Lacustre Siliciclástico B e classificada
incorretamente como Lacustre B, embora não destoe das demais amostras da mesma
classe possui os valores de algumas razões ausentes, o que pode ter acarretado sua
classificação errônea.
O modelo gerado com o arquivo das 25 variáveis possuiu como topologia: 6
neurônios na camada escondida, Taxa de Aprendizado de 0,3, Termo Momento de
0,6 e Número de Épocas igual a 100. Esta configuração não resultou em amostras
classificadas incorretamente no modelo gerado com as 179 amostras, seu erro de
generalização pessimista foi de 0% e uma amostra foi classificada incorretamente no
conjunto de teste.
O erro de classificação no conjunto de teste apresentado por este modelo
corresponde ao mesmo erro apresentado pelo modelo gerado com o conjunto das 60
variáveis. Esta repetição deve ser encarada como uma adversidade da técnica à
criação de um modelo robusto quando se dispõem de poucas amostras para
treinamento. A classe Lacustre Siliciclástico B continha apenas sete amostras no
conjunto de treinamento contra 21, 45, 19, 32, 37 e 17 das classes Lacustre
Siliciclástico A, Lacustre A, Lacustre B, Misto Trend de Carnaubais, Misto Trend de
Areia Branca e Marinho-evaporítico, respectivamente. Esta diferença de número de
casos não permitiu um aprendizado completo para a Rede Neural Artificial.
De uma maneira geral, a técnica de Redes Neurais Artificiais apresentou uma
boa performance, em particular para rede gerada com as 25 variáveis. A utilização
apenas dos parâmetros que possuem um maior poder discriminatório entre as classes
permitiu construir um modelo mais robusto e menos susceptível a confusões.
8.4) Discussão Geral dos Resultados
A implementação de duas diferentes técnicas, Árvores de Decisão e Redes
Neurais Artificiais, teve como objetivo avaliar a performance das mesmas na
classificação genética de amostras de óleo. Ambas responderam positivamente ao
propósito do trabalho.
179
A técnica de Árvores de Decisão, quando comparada com a de Redes Neurais
Artificiais, mostrou-se mais flexível na geração modelos com o arquivo das 60
variáveis. Já com o emprego do arquivo de 25 variáveis, a técnica de Redes Neurais
Artificiais construiu um modelo mais contundente. Estas observações refletem o fato
de que cada técnica depende de características exclusivas do seu arquivo de entrada
para a idealização de seu modelo final.
A técnica de Rede Neural Artificial mostrou-se mais sensível a diferenças no
número de amostras pertencentes a cada classe no arquivo de treinamento, o que não
foi observado para a técnica de Árvores de Decisão.
As amostras que foram classificadas erroneamente nos modelos gerados pelas
diferentes técnicas utilizadas não são coincidentes, o que sugere que cada técnica
identifica e trata os “problemas” de uma maneira ímpar.
O emprego da técnica de Árvores de Decisão permitiu identificar algumas
razões, não comumente empregadas pelos especialistas (por exemplo, 21+22/STER e
TR23/H30) como razões-chave para identificação de óleos da classe Marinho-
evaporítico na Bacia Potiguar. Neste trabalho, a razão TR23/H30 havia sido sugerida
para a separação das amostras da classe Lacustre Siliciclástico A das da classe
Lacustre Siliciclástico B e, surpreendentemente, ela aparece na árvore separando
amostras da classe Marinho-evaporítico das amostras das classes de óleos mistos.
A técnica de Árvores de Decisão, além de identificar novos padrões de
informações, também serviu para corroborar os já existentes, como discutido no item
8.2, onde a semelhança dos limites calculados pelo algoritmo e os estipulados pelo
especialista apresentados no Capítulo 6 foram confrontados. Adicionalmente, o
emprego da técnica permitiu atentar para o fato de uma amostra ter sido classificada
incorretamente como classe Lacustre A, enquanto na verdade, esta deveria ter sido
classificada como classe Lacustre B.
Por ser um modelo “caixa-preta”, as Redes Neurais Artificiais não permitem
que o usuário faça uma crítica detalhada ao modelo gerado. Porém, neste estudo,
ficou claro que a arquitetura do arquivo de entrada é imprescindível na geração do
modelo de Redes Neurais Artificiais, assim como a homogeneidade no número de
amostras de cada classe no arquivo de treinamento. Um fato interessante a respeito
do resultado desta técnica foi o erro de classificação da amostra 37 como Lacustre
Siliciclástico B, o que levou à reavaliação desta classificação, sendo a mesma
reclassificada como pertencente à classe Lacustre B, e não à classe Lacustre A.
Assim como é comum efeitos de evolução térmica e biodegradação resultarem
em classificações equivocadas por especialistas humanos devido à alteração dos
parâmetros geoquímicos comumente empregados, neste trabalho foram observadas
180
algumas inconsistências nos modelos gerados devido à presença de óleos com maior
evolução térmica. A biodegradação aqui não foi crítica na variação dos parâmetros,
até porque as amostras mais biodegradadas não apresentavam desvios significativos
nos seus parâmetros geoquímicos, bem como pertenciam a classes bastante
discerníveis. Uma importante observação a respeito do emprego de técnicas de aprendizado
de máquina é a necessidade de um especialista na avaliação dos modelos
construídos. Todo modelo é passível de erros, e nada substitui a experiência humana,
por isso este trabalho apresentou este capítulo de discussão dos resultados obtidos
pelo aprendizado de máquina. Modelos gerados sem a supervisão crítica humana
estão sujeitos a sérios problemas de generalização e podem configurar associações
não geoquímicas, apenas matemáticas e sem significado geológico interpretativo.
Em resumo, ambas as técnicas foram de grande valia para o aprendizado
geoquímico, seja este inerente à identificação de novos padrões, a corroboração dos
já usuais, reclassificação de amostras, ou na atenção que deve ser dada durante a
elaboração do arquivo de entrada. A combinação do conhecimento do especialista
com as técnicas de Inteligência Artificial permite uma exploração mais extensiva dos
dados, com um padrão de “feedback” e aprendizado que pode levar o especialista a
rever classificações e descobrir novos critérios. Por outro lado, o especialista pode
interferir no modelo gerado por Inteligência Artificial de modo a torná-lo mais confiável,
robusto e coerente com informações geológicas.
181
CAPÍTULO
9
9. CONCLUSÕES E RECOMENDAÇÕES Neste capítulo serão sumarizadas as conclusões obtidas durante o desenvolvimento deste trabalho e recomendações para trabalhos futuros serão sugeridas.
9.1) Conclusões
A utilização de inteligência computacional e a conseqüente extração de
conhecimentos a partir de grandes bases de dados constituem uma prática recente
nas áreas científicas. O desenvolvimento de softwares e algoritmos com este objetivo
auxilia cada vez mais especialistas nesta complexa tarefa.
Com o intuito de testar e comprovar a aplicabilidade de algumas técnicas de
Inteligência Artificial, que têm sido propostas ao longo dos anos para classificação de
tipos de amostras, o principal objetivo deste trabalho foi desenvolver modelos
classificatórios através do aprendizado de máquina que permitissem a predição das
classes genéticas de óleos da Bacia Potiguar, porção terrestre.
Para o desenvolvimento deste trabalho, foi necessário um conjunto de dados
geoquímicos homogêneo, e para garantir esta amostragem harmônica dos óleos foi
proposta como alternativa à amostragem aleatória convencional, uma associação
desta com a Análise de Cluster. A seqüência de passos seguidos para a construção
do arquivo final se mostrou satisfatória, tendo em vista que as premissas de
distribuição por classe e distribuição geográfica foram atendidas.
Após a seleção das amostras, o conjunto amostrado apresentou características
que permitiram a realização de um refinamento da classificação anteriormente
adotada. O emprego dos dados de Geoquímica Orgânica, em particular os de
biomarcadores, permitiu reclassificar as amostras de óleo da Bacia Potiguar, porção
terrestre, da seguinte maneira:
As amostras classificadas como Lacustres foram subdivididas em Lacustres A
e B.
As amostras classificadas como Lacustres Siliciclásticas foram subdivididas em
Lacustres Siliciclásticas A e B.
182
As amostras classificadas como Mistas foram reorganizadas em três diferentes
classes: a primeira representada pelas amostras marinho-evaporíticas, a
segunda pelas amostras mistas pertencentes ao Trend de Areia Branca e a
terceira pelas amostras mistas oriundas do Trend de Carnaubais.
Dentre as principais características de cada classe, são observados para:
CLASSE LACUSTRE: Grau API em geral superior a 20º, porcentagem de
enxofre inferior a 0,5%, alta concentração de compostos saturados (>50%),
predominância de n-alcanos de alto peso molecular, razão pristano/fitano
superior a 2,0, razão hopanos/esteranos >10, baixo índice de gamacerano,
razão 26/25 tricíclicos >1,6, razão H35/H34 homopanos na faixa de 0,4-0,8,
predominância de C29 esteranos sobre seus homólogos C27 e C28, e valores de
isótopos estáveis de carbono total geralmente inferiores a –30,00‰. As
amostras da classe Lacustre A apresentam valores da razão
diasteranos/C27ααα esteranos inferiores a 0,4, sendo valores superiores a
atribuídos às amostras da classe Lacustre B. A abundância do composto Ts é
superior a seu homólogo Tm nos óleos da classe Lacustre B, na classe
Lacustre A ocorre o inverso. A razão H29/C29Ts atinge valores entre 3,0 e 7,0
para as amostras Lacustres A, enquanto as Lacustres B não ultrapassam 3,5.
A razão de TPP é mais elevada nos óleos da classe Lacustre A (>0,96) em
relação aos da classe Lacustre B (<0,96).
CLASSE LACUSTRE SILICICLÁSTICO: Grau API entre 25 e 47º, porcentagem
de enxofre de 0,05 a 0,28%, porcentagem de compostos saturados elevada
(>59%), abundância relativa de n-alcanos de alto peso molecular, razão
pristano/fitano >2,0, razão C26/C25 tricíclicos alta (>1,4), razão entre H35/H34
homopanos ≈0,5, concentração de TPP de 0,5 a 1,0, razão diasteranos/C27ααα
esteranos >0,4, predominância de C29 esteranos sobre seus homólogos C27 e
C28. A classe Lacustre Siliciclástico B apresenta maior concentração relativa de
compostos tricíclicos em relação à classe Lacustre Siliciclástico A, assim como
a razão TPP é mais alta nos óleos da classe Lacustre Siliciclástico B. A razão
gamacerano/hopano é mais alta na classe Lacustre Siliciclástico B e a razão n-
C18/fitano é mais elevada na classe Lacustre Siliciclástico A.
CLASSE MARINHO-EVAPORÍTICO: Grau API comumente inferior a 15º, teor
de enxofre superior a 0,75%, porcentagem de compostos NSO >35%, ausência
ou baixa concentração de n-alcanos e isoprenóides, razão hopanos/esteranos
teoria e aplicações. Rio de Janeiro, Livros Técnicos e Científicos Editora S.A..
BRAGA, R.B., 2003. Data Mining usando Árvores de Decisão Fuzzy. Disponível em
<http://www.cos.ufrj.br/~brunorb/docs/adfuzzy.pdf>. Acesso em 26 jan. de 2007.
BRITO NEVES, B.B., 1998. “The Cambro-Ordovician of the Borborema Province”. Boletim do Instituto de Geociências da Universidade de São Paulo, São Paulo, v.
29, pp. 175-193. In: Mantesso Neto, V., Bartorelli, A., Carneiro, C.D.R., Brito
Neves, B.B., (eds), 2004, Geologia do Continente Sul-Americano. São Paulo
BECA, pp.383-405.
CARVALHO, A., 2000. Redes Neurais Artificiais. Disponível em
<http://www.icms.sc.usp.br/~andre/neural1.html>. Acesso em 21 jan. de 2007.
CARVALHO, L.A.V., 2005. Data Mining – A Mineração de Dados no Marketing,
Medicina, Economia, Engenharia e Administração. Rio de Janeiro, Ciência
Moderna.
CASTELLAN, G., 1986. Fundamentos de Físico-Química. 1ª ed. Rio de Janeiro, Livros
Técnicos e Científicos Editora.
CERQUEIRA, J.R., 1985. ”Geoquímica do Campo de Ubarana e adjacências (Bacia
Potiguar)”. Dissertação de Mestrado, UFBA, Bahia, Brasil.
CHANG, H.K., KOWSMAN, R.O., 1987. “Interpretação genética das seqüências
estratigráficas das bacias da margem continental brasileira”, Revista Brasileira de
D27S = 27-nordiacolestano S D27R = 27-nordiacolestano R C30TP1 = C30 Terpano (Poliprenóide Tetracíclico) C30TP2 = C30 Terpano (Poliprenóide Tetracíclico)
m/z 259
Abu
ndân
cia
rela
tiva
Tempo de retenção (mim)
R
24
5
14
17
D27
SD
27R
C30
TP1
C30
TP2
m/z 259
Abu
ndân
cia
rela
tiva
Tempo de retenção (mim)
R
24
5
14
17
D27
SD
27R
C30
TP1
C30
TP2
202
ANEXO II
Identificação das Razões
Cromatografia Gasosa
PRI/PHY = Pristano/Fitano PRI/n-C17 = Pristano/n-C17 PHY/n-C18 = Fitano/n-C18 17/(17+27) = alcano n-C17/( n-C17+ n-C27) Altura total = Soma de todas as alturas das n-, iso- parafinas e UCM
Cromatografia Líquida % SAT = Teor de hidrocarbonetos saturados (%) % ARO = Teor de hidrocarbonetos aromáticos (%) % NSO = Teor de hidrocarbonetos polares - resinas + asfaltenos (%)
Isótopos δ13C = Razão Isotópica do Carbono (óleo total)
Parâmetros Bulk ºAPI = Grau API % S = Teor de enxofre (%)