“Uma arquitetura para combinação de classificadores otimizada por métodos de poda com aplicação em credit scoring ” Por Luiz Vieira e Silva Filho Dissertação de Mestrado Profissional www.cin.ufpe.br/~posgraduacao Recife, 2014
“Uma arquitetura para combinação declassificadores otimizada por métodos de poda
com aplicação em credit scoring”
Por
Luiz Vieira e Silva Filho
Dissertação de Mestrado Profissional
Universidade Federal de Pernambuco
www.cin.ufpe.br/~posgraduacao
Recife, 2014
Universidade Federal de PernambucoCentro de InformáticaPós-graduação em Ciência da Computação
Luiz Vieira e Silva Filho
“Uma arquitetura para combinação declassificadores otimizada por métodos de poda com
aplicação em credit scoring ”
Este trabalho foi apresentado à Pós-graduação em Ci-
ência da Computação do Centro de Informática da
Universidade Federal de Pernambuco como requisito
parcial para obtenção do grau de Mestre Profissional
em Ciência da Computação.
Orientador: Prof. George D. C. Cavalcanti
Recife, 2014
Catalogação na fonte Bibliotecária Joana D’Arc L. Salvador, CRB 4-572
Silva Filho, Luiz Vieira e. Uma arquitetura para combinação de classificadores otimizada por métodos de poda com aplicação em credit scoring / Luiz Vieira e Silva Filho. – Recife: O Autor, 2014. 79 f.: fig., tab.
Orientador: George Darmiton da Cunha Cavalcanti. Dissertação (Mestrado Profissional) - Universidade Federal de Pernambuco. CIN. Ciência da Computação, 2014. Inclui referências.
1. Computação. 2. Inteligência artificial. 3. Aprendizado do computador. I. Cavalcanti, George Darmiton da Cunha (orientador). II. Título.
004 (22. ed.) MEI 2014-90
Dissertação de Mestrado Profissional apresentada por Luiz Vieira e Silva Fi-
lho à Pós-Graduação em Ciência da Computação do Centro de Informática
da Universidade Federal de Pernambuco, sob o título Uma arquitetura para
combinação de classificadores otimizada por métodos de poda com aplica-
ção em credit scoring , orientada pelo Prof. Prof. George D. C. Cavalcanti e
aprovada pela Banca Examinadora formada pelos professores:
———————————————————————–
Prof. Teresa Bernarda Ludermir
Centro de Informática/UFPE
———————————————————————–
Prof. Tiago Alessandro Espínola Ferreira
Universidade Federal Rural de Pernambuco
———————————————————————–
Prof. George Darmiton da Cunha Cavalcanti
Centro de Informática/UFPE
Visto e permitida a impressão.
Recife, 17 de fevereiro de 2014
—————————————————————————————
Prof. EDNA NATIVIDADE DA SILVA BARROS
Centro de Informática da Universidade Federal de Pernambuco
Agradecimentos
Agradeço à minha esposa Maria das Neves, e aos meus filhos, André Luiz e
Felipe, pelo estímulo e apoio incondicional para que eu pudesse realizar um
sonho acalentado desde a juventude. Agradeço a essa maravilhosa família por
compreender os momentos em que precisei me ausentar do convívio familiar,
servindo ainda como esteio nas incontáveis horas de cansaço, permitindo-me
buscar energia para seguir adiante. Certamente, sem essa base de amor e
carinho o caminho teria sido muito difícil, e não sei se conseguiria atingir o
objetivo.
Um agradecimento especial ao Professor George Darmiton por estar sempre
disponível, sendo rápido, preciso e seguro em suas recomendações, desafiando-
me constantemente a fazer melhor, a buscar novos conhecimentos, tudo sem-
pre com muita paciência, bom humor, e inteligência. Sua vibração enquanto
mestre, fez-me admirá-lo e a sentir-me como um jovem estudante. Esta sensa-
ção revigorou meu espírito, e me instigou a ir mais fundo nesta fascinante área
da inteligência artificial. Espero poder seguir pesquisando.
Agradeço aos demais professores pelos valiosos ensinamentos que me foram
passados durante todo o curso, tornando possível a reciclagem profissional que
esperava obter ao final deste período.
Meu muito obrigado à jovem equipe de colegas com quem dividi os traba-
lhos do curso, formada pelos amigos Bira, Paulo, Diego e Felipe, conhecidos
como os ’backpropagation boys’, com quem aprendi sobre as mais recentes
tecnologias da ciência da computação. Seus espíritos alegres tornaram leves e
divertidas nossas aulas e trabalhos. Valeu amigos, vocês não têm ideia do bem
que me fizeram.
Um agradecimento às empresas onde trabalhei, e ainda trabalho, por com-
preenderem minhas ausências durante todo esse período.
Agradeço aos meus pais, por terem me ensinado desde criança o valor do
estudo, e do trabalho duro e honesto como forma de se realizar e contribuir
para transformar o mundo ao meu redor.
Por fim, dedico este trabalho a minha amada esposa, Maria das Neves,
companheira amorosa na estrada da vida, que desde sempre me incentivou a ir
em busca desse sonho. Essa conquista também é sua, lindinha. Amo você.
O sucesso normalmente contempla aqueles
que estão ocupados demais para procurar por ele.
—HENRY DAVID THOREAU
Resumo
Sistemas de Múltiplos Classificadores (Multiple Classifiers Systems - MCS) se ba-
seiam na ideia de que combinar a opinião de vários especialistas pode produzir
melhores resultados do que quando se usa apenas um especialista. Diversas
técnicas de MCS foram desenvolvidas, apresentando pontos fortes e fracos,
a depender do contexto em que são aplicadas. Este trabalho propõe uma ar-
quitetura para MCS que visa potencializar a complementaridade entre essas
técnicas, possuindo dois objetivos principais: i) a combinação de métodos
de amostragem tradicionais, visando a geração de classificadores de melhor
desempenho que componham um pool de classificadores; ii) a aplicação de
um algoritmo de poda para remover do pool aqueles classificadores incom-
petentes para lidar com o problema em questão, considerando os critérios de
seleção adotados. A arquitetura proposta foi avaliada em uma aplicação de
credit-scoring. Os métodos de amostragem usados foram o Bagging e o Ran-
dom Subspace com classificadores-base sendo árvores-de-decisão, construídas
com base no algoritmo CART. Para o processamento da poda foi usado o algo-
ritmo Orientation Ordering, e para combinação das saídas dos classificadores
do ensemble adotou-se o método Majority Vote. Os experimentos realizados
mostraram que a arquitetura proposta alcançou taxas de acerto similares ou
superiores às atingidas pelos métodos apresentados na literatura. Esses resul-
tados ainda foram obtidos com ensembles cujos tamanhos eram da ordem de
20% dos pools originais gerados na fase de treinamento.
Palavras-chave: MCS, Combinação de classificadores, ensembles, comitês,
poda de ensembles, árvores-de-decisão, credit scoring, ordenação de classifica-
dores.
Abstract
Multiple Classifiers Systems (MCS) are based on the idea that the combination
of the opinion of several experts can generate better results than when only
one expert is used. Several MCS techniques have been developed, each one
having its strengths and weaknesses depending on the context in which they
are applied. This work presents an architecture for MCS that aims to enhance
the complementarity of these techiques, having two main contributions: i) the
combination of two well-known sampling methods in order to generate better
classifiers to compose the pool of classifiers; ii) the application of a pruning
algorithm to remove classifiers that are not competent to deal with the problem
at hand, considering the selection criteria adopted. The proposed architecture
was evaluated in a credit scoring application. The sampling methods used
were Bagging and Random Subspace. The base classifiers used were decision
trees constructed based on the CART algorithm. For pruning, we used the
Orientation Ordering algorithm and the Majority Vote method was adopted
to combine the outputs of the classifiers in the ensemble. The experiments
showed that the proposed architecture obtained better or similar accuracy rates
when compared with literature methods. These results were also obtained with
ensembles whose sizes were around 20% of the original pools generated in the
training phase.
Keywords: MCS, classifiers combining, ensembles, committees, ensembles
pruning, decision-trees, credit scoring, classifiers ordering.
Lista de Figuras
3.1 Visão geral da arquitetura proposta composta por 3(três) fases:
Treinamento do pool de classificadores L; Poda de L com se-
leção de P , P ⊂ L; Teste de P usando método de combinação
não-ponderada de classificadores. . . . . . . . . . . . . . . . . . . . 40
3.2 Estratégias dual de treinamento (ou treinamento em 2 níveis)
para geração do Pool de Classificadores inicial . . . . . . . . . . . . 43
3.3 Esquema de poda baseada no algoritmo Orientation Ordering -
(OO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1 Base de dados Australian - Desempenho da arquitetura em fun-
ção do tamanho do pool original de classificadores e da taxa de
seleção de características. Os gráficos variam quanto: à estra-
tégia dual adotada e à taxa de seleção adotada pelo Random
Subspace na fase de treinamento; e, ao método usado na fase
de poda. A taxa média de poda (TMP) indica para quanto foi
reduzido o tamanho do Pool original. . . . . . . . . . . . . . . . . . 61
4.2 Base de dados German - Desempenho da arquitetura em fun-
ção do tamanho do pool original de classificadores e da taxa
de seleção de características. Os gráficos variam quanto: à es-
tratégia dual adotada e à taxa de seleção adotada pelo Random
Subspace na fase de treinamento; e, ao método usado na fase
de poda. A taxa média de poda (TMP) indica para quanto foi
reduzido o tamanho do Pool original. . . . . . . . . . . . . . . . . . 62
4.3 Desempenho preditivo da arquitetura em função da taxa de se-
leção. Os gráficos variam quanto: à estratégia em dois níves
(dual) - Bagging-RS e RS-Bagging, adotada na fase de treina-
mento; e, ao método usado na fase de poda. O desempenho
é avaliado com base na taxa média de acerto, calculada como
sendo a média das taxas de acerto obtidas por cada um dos en-
semble, independente de tamanho, para cada uma determinada
taxa de seleção. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4 Desempenho da arquitetura em função da quantidade de clas-
sificadores, considerando estratégia de treinamento em ape-
nas 1 nível (Bagging ). As curvas referem-se ao método usado na
fase de poda. A taxa média de poda (TMP) indica para quanto foi
reduzido o tamanho do pool original. . . . . . . . . . . . . . . . . . 65
Lista de Tabelas
3.1 Vetor de assinatura do ensemble . . . . . . . . . . . . . . . . . . . . . 49
3.2 Vetor de referência do ensemble . . . . . . . . . . . . . . . . . . . . . 49
3.3 Ângulos entre os vetores de assinatura dos classificadores e o
vetor de referência do ensemble . . . . . . . . . . . . . . . . . . . . . 49
4.1 Descrição das bases de dados utilizados nos experimentos . . . . 54
4.2 Parâmetros informados na configuração dos cenários dos experi-
mentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Tamanho dos pools de classificadores usados em cada cenário . 58
4.4 Taxas médias de acerto nos 21 cenários avaliados . . . . . . . . . . 66
4.5 10 melhores taxas de acerto utilizando-se treinamento em 2 níveis 68
4.6 Taxas médias de acerto dos 10 melhores resultados obtidos por
cada configuração da arquitetura . . . . . . . . . . . . . . . . . . . . 69
4.7 Taxas médias dos 10 melhores resultados usando o conceito do
Single Best . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Lista de Acrônimos
DT Decision Tree
EPIC Ensemble Pruning via Individual Contribution Ordering
IA Inteligência Artificial
MCS Multiple Classifiers System
MLP Multilayer Perceptron
OO Orientation Ordering
RAM Random Access Memory
RNA Rede Neural Artificial
RF Rotation Forest
RS Random Subspace
SVM Support Vector Machine
Sumário
1 Introdução 13
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Estrutura do documento . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Conceitos básicos 19
2.1 Por quê combinar classificadores ? . . . . . . . . . . . . . . . . . . . 20
2.1.1 Fundamentos na escolha de classificadores . . . . . . . . . 22
2.1.2 Escolha dos classificadores . . . . . . . . . . . . . . . . . . . 23
2.1.3 Momento da escolha dos classificadores . . . . . . . . . . . 24
2.1.3.1 Seleção dinâmica de Ensembles . . . . . . . . . . . 24
2.2 Arquitetura e projeto de MCS . . . . . . . . . . . . . . . . . . . . . . 24
2.2.0.2 Otimização da cobertura e otimização da decisão 26
2.3 Construindo MCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Manipulando dados de treinamento . . . . . . . . . . . . . 27
2.3.2 Produzindo MCS . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Podando MCS . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Combinando decisões . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5 Trabalhos correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.1 Evolução da análise na concessão de crédito . . . . . . . . 33
2.5.2 Credit scoring e os MCS . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.1 Classificadores base e métodos de geração de
ensembles . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2.2 Incrementando a diversidade e a precisão . . . . 35
2.5.2.3 Otimizando a eficiência dos ensembles . . . . . . 36
3 Arquitetura proposta 38
3.1 Visão geral da arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Treinamento do pool de classificadores . . . . . . . . . . . . . . . . 39
3.3 Poda do pool de classificadores . . . . . . . . . . . . . . . . . . . . . 42
3.4 Teste do ensemble final . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Experimentos e resultados 53
4.1 Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Parametrização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Conclusões e trabalhos futuros 72
5.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Referências 76
1Introdução
Uma pessoa com uma crença é um poder social igual a
noventa e nove que possuem apenas interesses.
—JOHN STUART MILL (1861)
1.1 Motivação
Demandas da sociedade como aumento da segurança física e de sistemas,
acessibilidade de pessoas com necessidades especiais às facilidades da vida
moderna, sistemas automatizados de suporte à decisão em áreas como finanças,
marketing, medicina, engenharia, transporte são alguns exemplos de situações
que se utilizam, ou que poderiam se utilizar, aplicações baseadas em técnicas
de inteligência computacional.
Parte significativa dessas técnicas usa algoritmos de aprendizagem de má-
quina. Por outro lado, apesar de décadas de pesquisa produtiva, modernas
teorias ainda convivem com ideias ad hoc, intuição e especulação, o que se re-
flete na variedade de métodos e técnicas disponíveis ao pesquisador (Kuncheva,
2004).
Ao longo de décadas, cientistas vêm trabalhando no sentido de aperfei-
çoar tais algoritmos, com vistas a ampliar as taxas de acerto de suas decisões,
tornando-os assim mais eficazes em seus objetivos de agrupar padrões, inicial-
mente desconhecidos da máquina, em classes pré-definidas.
Um dos campos que vem recebendo bastante atenção dos pesquisadores
neste sentido é o que se refere a Sistemas de Múltiplos Classificadores, ou do
13
1.1. MOTIVAÇÃO
inglês, Multiple Classifiers Systems - MCS, também chamados de ensembles
(Ponti (2011);Wozniak et al. (2014)).
Os MCS vêm sendo estudados desde a segunda metade do século XX, tendo
como um dos seus pioneiros Oliver Selfridge, que em 1959 construiu o pri-
meiro modelo de sistemas com múltiplos especialistas, a arquitetura Pandemo-
nium (Selfridge, 1958). Daí por diante, importantes estudos foram publicados
usando diferentes termos, tais como: comitê, fusão de classificador, combina-
ção, agregação, mistura de especialistas, entre outros. Atualmente os termos
mais comuns são ensemble learning e MCS, muito usados pela comunidade de
aprendizagem de máquina (Ponti, 2011).
A ideia geral da combinação de classificadores parte do conceito intuitivo
de que, na maioria das vezes, a conjugação da opinião de diversos especialistas
em uma determinada área do conhecimento tende a produzir uma decisão de
melhor qualidade do que aquela gerada apenas por um único especialista. A
maioria dos esforços despendidos nas pesquisas de combinação de classifica-
dores visa a melhoria da precisão na classificação de padrões, atuando sobre as
fraquezas e as forças de cada um desses modelos (Ponti, 2011).
De fato, várias pesquisas demonstraram que problemas de classificação são
resolvidos com mais precisão quando são usados classificadores combinados,
ao invés de um único classificador (Kuncheva, 2004). Combinar classificadores
aparece como um passo natural diante da massa crítica de conhecimento que
se acumulou sobre os modelos com um único classificador (Kuncheva, 2004).
Também é natural supor que combinar classificadores com elevadas taxas
de precisão possibilitará a criação de um ensemble de melhor desempenho,
contudo, outro fator interessante a ser considerado nos MCS é o da diversidade
entre os classificadores que os compõem (Wozniak et al., 2014). Intuitivamente,
pode-se admitir que a combinação de classificadores que cometem erros nos
mesmos objetos pouco acrescentará em termos de desempenho do ensemble
(Kuncheva (2004); Santana et al. (2007)). Muitos estudos já demonstraram
que quanto menor a correlação entre os classificadores em relação aos erros
cometidos mais preciso o ensemble tende a ser (Tumer e Ghosh, 1996).
Por outro lado, alguns aspectos pesam contrariamente à classificação de
padrões por meio de ensembles, tais como a necessidade de memória para
armazenar todos os classificadores que compõem o ensemble, além do cresci-
mento linear do tempo de processamento necessário à tarefa de classificação,
14
1.1. MOTIVAÇÃO
na medida em que aumenta a quantidade de classificadores que precisam ser
combinados (Margineantu e Dietterich, 1997). Para efeito de simplificação,
neste trabalho, passaremos a nos referir a esses dois aspectos - consumo de me-
mória e tempo de processamento dos ensembles - como custo computacional.
Para lidar com a questão do custo computacional, Margineantu e Dietterich
(1997) propuseram a abordagem de poda de classificadores de um ensemble,
ou na forma simplificada poda de ensembles, na qual o ensemble final é com-
posto por um subconjunto dos classificadores do ensemble original, que por
sua vez foi construído a partir de um método tradicional, neste caso o AdaBoost.
A ideia fundamental da poda de ensembles passa por descartar aqueles
classificadores que ajam em detrimento do desempenho do ensemble, e/ou que
estejam produzindo informação redundante (Martínez-Muñoz e Suárez, 2006).
Outros trabalhos demonstraram que além do menor consumo de memória e
de tempo de processamento, o ensemble podado pode ter uma taxa de acerto
ainda melhor que o ensemble original completo (Zhou et al. (2002); Zhou e Tang
(2003)).
Entretanto, considerando que a poda de um ensemble com T classificadores
implica numa busca em um espaço de 2T −1 subensembles não-vazios, é possível
que a poda se apresente como um problema NP-completo (Martínez-Muñoz e
Suárez, 2006). Diante disso, pesquisas vêm sendo feitas buscando identificar
heurísticas que tornam factíves a escolha de subensembles com desempenho
igual ou superior ao do ensemble completo (Zhou et al. (2002); Zhou e Tang
(2003); Martınez-Munoz e Suárez (2004); Martínez-Muñoz e Suárez (2006)).
Todas essas questões nos motivaram a estudar alguns desses conceitos,
métodos e algoritmos definidos e desenvolvidos, de modo a tornar possível
a criação de um modelo de arquitetura que viabilize, de uma maneira estru-
turada, a implementação de sistemas baseados na combinação de múltiplos
classificadores que sejam eficazes no que se refere à capacidade de generali-
zação, sendo eficiente em relação ao consumo dos recursos computacionais
necessários ao seu processamento durante o uso.
Particularmente, é interessante observar que os resultados obtidos com o
uso de MCS têm inspirado o desenvolvimento de novas técnicas para lidar
com aplicações que necessitam manipular dados com níveis elevados de ruído
(noisy data) e com redundância de atributos. Uma das aplicações que mais são
influenciadas por estas duas situações é a de credit scoring (Wang et al. (2012);
15
1.2. OBJETIVO
Marqués et al. (2012a)).
Em virtude dessa observação, visando avaliar a eficácia do modelo proposto,
escolheu-se nesta dissertação realizar experimentos sobre uma aplicação na
área de credit-scoring. Essa decisão, entretanto, foi reforçada pelas seguintes
razões:
(1) Crescente importância que o credit-scoring vem assumindo nas institui-
ções financeiras como uma das principais maneiras de avaliar o risco de
concessão de crédito, dando agilidade e suporte às decisões gerenciais. O
objetivo do modelo de credit-scoring é reduzir perdas decorrentes da con-
cessão indevida de crédito, ou da não concessão a quem deveria ter sido
feita, aumentando, consequentemente, os lucros dessas instituições (Wang
et al., 2012), otimizando seus fluxos de caixa. Tudo isso é reforçado pela
recente crise financeira internacional que evidenciou ainda mais a questão
da análise de crédito como fator crítico de sucesso para essas organizações
(Marqués et al., 2012a);
(2) Êxito de diversas pesquisas em demonstrar a superioridade de técnicas de
Inteligência Artifical (IA) em relação a métodos estatísticos em aplicações de
credit-scoring (Wang et al., 2012), instigando-nos a buscar novos modelos
que alcancem ainda melhores resultados.
1.2 Objetivo
Considerando a diversidade de métodos de eficiência já comprovadas em pes-
quisas anteriores, e outros tantos estudos realizados no campo da combinação
de classificadores, surge a seguinte pergunta: é possível alcançar resultados
ainda melhores por meio de sistemas de múltiplos classificadores? Nossa
hipótese é que sim, sendo um dos caminhos pensados, exatamente, o de se
combinar esses métodos eficientes de forma a se criar MCS mais eficazes, seja
em relação ao desempenho preditivo, seja em relação ao seu custo computacio-
nal.
Assim, o objetivo dessa dissertação é propor uma arquitetura para MCS
que: i) combine estratégias de amostragem de dados, tais como Bagging e
Random Subspace, com o intuito de gerar classificadores que irão compor um
16
1.2. OBJETIVO
pool de classificadores - deseja-se que esses classificadores sejam diversos e
precisos; e, ii) remova classificadores do pool de classificadores usando um
método estruturado de poda de ensembles, para que o ensemble final formado
seja mais eficiente e preciso que o pool originalmente gerado.
A proposta é que esse novo modelo se beneficie dos aspectos complemen-
tares entre modelos e métodos já implementados, potencializando os seus
pontos fortes e mitigando os fracos. Eventuais modificações podem até vir a ser
introduzidas na forma original dos algoritmos, métodos e modelos usados na
arquitetura proposta com a finalidade de permitir que a associação ocorra de
forma mais ajustada, criando um efeito no qual o todo seja mais eficiente do
que a soma das partes.
Considerar previamente a aplicação na qual será usado o ensemble produ-
zido pela arquitetura é necessário, pois, a partir desse conhecimento, será possí-
vel definir mais apropriadamente modelos e métodos que melhor se adequem
àquela aplicação, permitindo-se extrair um melhor desempenho preditivo a
partir da combinação entre eles por meio da arquitetura proposta.
Conforme comentado na Seção 1.1, este trabalho propõe-se a avaliar o
desempenho desta arquitetura numa aplicação de análise de crédito (credit-
scoring ), verificando eventuais ganhos de desempenho, e/ou redução de custo
computacional, em relação ao desempenho e custo desses métodos quando
processados isoladamente.
Contudo, apesar dos experimentos terem sido realizados na área de credit-
scoring, a expectativa é que esta nova arquitetura possa ser aplicada de forma
genérica em outros tipos de solução de problemas de classificação de padrões,
usando, inclusive, outras técnicas de treinamento de classificadores, métodos
de poda de ensembles e de combinação de resultados para a tomada de decisão.
A expectativa é que ao final deste trabalho esteja disponível mais uma alter-
nativa de modelo a ser aplicado na solução de problemas de classificação de
padrões por meio de técnicas de combinação de classificadores, alimentando-
se assim o ciclo evolutivo das pesquisas científicas nesse importante campo da
inteligência computacional.
17
1.3. ESTRUTURA DO DOCUMENTO
1.3 Estrutura do documento
O restante deste documento está organizado como segue: No capítulo 2 são
apresentados conceitos básicos utilizados no campo da pesquisa de combi-
nação de classificadores, além de alguns trabalhos relevantes realizados neste
campo com aplicação ao credit scoring. No capítulo 3 é apresentada a arquitura
proposta, detalhando os principais métodos usados, a forma de associá-los, e as
mudanças implementadas visando atingir o objetivo da pesquisa. No capítulo
4 são detalhados os experimentos realizados e os resultados alcançados. No
capítulo 5, as conclusões e direções para futuras pesquisas são apresentadas.
18
2Conceitos básicos
Na verdade só sabemos quão pouco sabemos –
com o saber cresce a dúvida.
—GOETHE (1826)
O objetivo desta seção é discorrer sobre a terminologia, definições, conceitos
e métodos utilizados e desenvolvidos na área de classificação de padrões por
meio de sistemas de múltiplos classificadores (MCS).
A seção 2.1 descreve as principais razões para o uso de ensembles na aprendi-
zagem de máquina, discorrendo ainda sobre conceitos fundamentais e métodos
para escolha de classificadores que irão compor o ensemble. A seção 2.2 apre-
senta os principais tipos de arquitetura usadas no desenho de MCS, assim
como os conceitos a serem considerados durante a elaboração do projeto do
ensemble. A seção 2.3 aborda algumas estratégias usadas no treinamento dos
classificadores que formarão o ensemble, detalhando duas das mais usadas
técnicas de geração de MCS – Bagging e Random-Subspace. Nesta seção é dada
uma atenção especial aos métodos usados para a poda de ensembles, enquanto
estratégia de otimização de desempenho. Na seção 2.4 são descritas as duas
principais abordagens para combinar as decisões dos classificadores – fusão
e seleção. Por fim, na seção 2.5 são apresentados trabalhos que se referem ao
uso de MCS nos quais essa pesquisa se baseou.
19
2.1. POR QUÊ COMBINAR CLASSIFICADORES ?
2.1 Por quê combinar classificadores ?
Há três razões básicas que explicam porque combinar classificadores pode ser
melhor do que utilizar um único classificador, são elas: Estatística, Represen-
tacional e Computacional (Dietterich, 2000). Abaixo são descritas as situações
em que cada uma se apresenta:
(a) Motivação estatística (ou o pior caso): dado um determinado conjunto de
padrões Z, e um número de classificadores (hipóteses) diferentes, cujos
desempenhos sobre Z sejam considerados satisfatórios, é possível escolher
como solução para o problema apenas um desses classificadores, correndo-
se o risco de se selecionar aquele que venha a ter o pior desempenho em
termos de capacidade de generalização. Combinando-se os classificadores,
pode-se evitar o uso do pior classificador ao optar-se, por exemplo, pela
média dos classificadores com desempenho satisfatório (Fumera e Roli,
2005). Esta simples combinação mostrou ser eficiente em muitas aplica-
ções. Em compensação, nada garante que essa combinação venha a ter um
desempenho superior ao do melhor classificador individual treinado.
(b) Motivação representacional (ou o melhor caso): na maioria das aplica-
ções de aprendizagem de máquina, a hipótese verdadeira pode não estar
representada no espaço de hipóteses disponível. Neste caso, a combina-
ção das várias hipóteses cria uma nova hipótese, expandindo-se assim o
espaço de hipóteses representáveis. Logo, torna-se possível atingir um de-
sempenho superior ao da melhor hipótese existente no espaço de hipóteses
original. Existem muitas evidências experimentais de que isto acontece
normalmente quando os classificadores de um dado comitê (ensemble)
cometem diferentes erros de classificação.
(c) Motivação computacional: muitos algoritmos de aprendizagem, ao reali-
zarem a busca pela hipótese verdadeira, podem ficar presos em um ótimo
local. Um ótimo local ocorre quando a hipótese encontrada apresenta de-
sempenho superior às hipóteses mais próximas (vizinhas), porém ainda é
inferior à hipótese de melhor desempenho disponível no espaço de hipó-
teses. Por exemplo, algoritmos como o backpropagation usado nas redes
neurais artificiais (RNA) têm seus parâmetros inicializados aleatoriamente
na tentativa de evitar soluções de ótimo local. É frequente o uso de várias
20
2.1. POR QUÊ COMBINAR CLASSIFICADORES ?
(centenas ou milhares de) inicializações desses parâmetros na tentativa
de encontrar a melhor hipótese. A inicialização de vários classificadores
e a combinação de seus resultados é capaz de se aproximar da hipótese
verdadeira de forma mais eficiente do que com um único classificador, pos-
sibilitando ainda a estabilização de sistemas formados por classificadores
instáveis (v. subseção 2.1.1), a exemplo das RNA (Breve et al., 2007).
As razões acima apresentadas são reforçadas pelo teorema “No Free Lunch”
(Wolpert e Macready, 1997), o qual afirma não existir um único classificador que
possa ser considerado ótimo para todos os problemas, ou seja, o desempenho
elevado em uma classe de problemas é compensado com um mal desempenho
em outra classe. Ainda, segundo esse teorema, como não há um princípio claro
definido para se escolher um conjunto de métodos de aprendizagem, além
de raramente se ter um completo conhecimento da distribuição dos dados
e do comportamento dos algoritmos de classificação. Assim, torna-se uma
tarefa muito difícil encontrar um bom e único classificador que solucione um
determinado problema de classificação de padrão(Ponti, 2011).
Esses motivos vêm impelindo pesquisadores na busca por alternativas que
aperfeiçoem o desempenho de MCS enquanto alternativa eficiente para pro-
blemas de classificação de padrões. É importante salientar que o desempenho
de sistemas de classificação compostos por múltiplos classificadores, assim
como acontece com um classificador simples, é medido, primordialmente, mas
não exclusivamente, pela taxa de acerto obtida na classificação dos padrões
apresentados após a fase de treinamento (Kuncheva, 2004).
Diante dessa busca por melhor desempenho, colocam-se perante os pro-
jetistas importantes desafios, que passam principalmente por duas grandes
decisões (Ponti, 2011):
• definir quais os métodos a serem aplicados na escolha dos classificadores
que formarão o ensemble;
• definir quais os métodos a serem aplicados na combinação das decisões
produzidas pelos classificadores membros do ensemble.
A seguir, na subseção 2.1.1, são apresentados alguns conceitos referentes
à relação entre o classificador e os dados usados em seu treinamento. Estes
conceitos fundamentam várias pesquisas no campo da combinação de classifi-
cadores. Na sequência, a subseção 2.1.2 descreve dois dos principais critérios
21
2.1. POR QUÊ COMBINAR CLASSIFICADORES ?
usados para avaliar se os classificadores a serem combinados poderão produzir
um ensemble com desempenho interessante. Por fim, a definição do momento
da escolha dos classificadores que irão formar o ensemble é tema da subseção
2.1.3.
2.1.1 Fundamentos na escolha de classificadores
Abaixo são apresentados, sucintamente, mais alguns fundamentos que podem
ser levados em consideração na escolha dos tipos de classificador a serem utili-
zados na composição de ensembles. As definições foram extraídas do tutorial
de Ponti (2011):
(a) Classificador Fraco (weak learner): um classificador cujo desempenho
preditivo é ligeiramente melhor do que uma simples escolha aleatória. A
existência de um weak learner pressupõe a existência de um classificador
forte (strong learner). Um dos pontos fortes da combinação de classificado-
res é transformar weak learners em um strong learner ;
(b) Classificador instável: é aquele que pode sofrer grandes variações em suas
saídas, a partir de pequenas mudanças nos dados usados durante seu trei-
namento. Como exemplo de classificadores instáveis tem-se as Árvores de
Decisão, ou Decision Trees (DT), e as Redes Neurais Artificiais (RNA);
(c) Classificadores independentes ou não correlacionados: são aqueles que,
dada a mesma base de padrões de entrada, os erros de classificação ocorrem
de forma independente, ou seja, com pouca ou nenhuma correlação posi-
tiva entre si. Este conceito está diretamente relacionado com a definição de
diversidade entre classificadores;
(d) Dilema Bias-Variance: Durante a fase de treinamento de um classificador,
um dos grandes desafios é encontrar equilíbrio entre a menor taxa de erro
(bias) de classificação, e a capacidade de generalização do mesmo quando
lhe forem apresentados novos padrões (variance) na fase de testes (uso). O
método e a intensidade do treinamento do classificador pode provocar o
efeito de overfitting, que leva o classificador a decorar os padrões apresenta-
dos durante o treinamento. Ou seja, embora a taxa de erro do classificador
apresentada no treinamento seja interessante, o mesmo pode perder a ca-
pacidade de generalização, levando a taxas de erro na fase de teste (uso) a
22
2.1. POR QUÊ COMBINAR CLASSIFICADORES ?
níveis indesejados. A combinação de classificadores independentes (não
correlacionados) é uma das estratégias para superar este dilema, de modo a
se atingir o melhor dos mundos, isto é, taxas de erro reduzidas na fase de
treinamento, com adequada capacidade de generalização durante o uso;
(e) Maldição da dimensionalidade: alguns classificadores podem ter dificul-
dade de manipular padrões de entrada compostos por muitas característi-
cas, correndo o risco de overfitting durante a fase de treinamento, ou ainda
de elevar demasiadamente o custo computacional;
2.1.2 Escolha dos classificadores
Com relação à escolha dos classificadores que poderão compor o ensemble, a
literatura apresenta dois importantes critérios que devem ser avaliados conjun-
tamente: o grau de precisão dos classificadores que irão compor o comitê e a
diversidade entre os mesmos (Soares et al., 2006):
• O grau de precisão, ou simplesmente precisão, do classificador pode ser
entendido como sendo a probabilidade do mesmo produzir uma classifi-
cação correta;
• A diversidade entre dois classificadores é medida pela correlação exis-
tente entre os erros cometidos pelos mesmos, ou seja, até que ponto um
classificador comete os mesmos, ou a maioria, dos erros cometidos pelo
outro classificador. Existem diferentes maneiras de produzir classifica-
dores com maior grau de diversidade entre si, assim como diferentes
métricas para avaliar quão diferentes eles o são entre si.
Levando ao extremo, a importância de se utilizar as duas medidas juntas,
no momento da seleção de um classificador para compor um ensemble, está
simplesmente no fato de que não há, por exemplo, qualquer ganho de precisão
em um ensemble composto por um conjunto de classificadores idênticos. Por
mais precisos que estes possam ser, cometerão os mesmos erros e acertos.
Logo, quando se tem muitos classificadores diferentes para serem combinados,
espera-se um aumento na probabilidade de acerto da classificação do conjunto.
Contudo, esse aumento de precisão somente acontece se a precisão individual
de cada classificador for maior que 50% (Kuncheva, 2004). Por fim, quanto
23
2.2. ARQUITETURA E PROJETO DE MCS
mais precisos e diversos eles são maior é a taxa de acerto esperada do ensemble
(Soares et al., 2006).
2.1.3 Momento da escolha dos classificadores
Outro aspecto que vem sendo estudado, ainda vinculado à escolha de classi-
ficadores que serão utilizados no ensemble, está relacionado ao momento da
definição dos classificadores que irão compor o comitê. A maioria dos métodos
atuais, frequentemente, o fazem durante a fase de treinamento, ou seja, uma
vez escolhidos os classificadores membros, eles são usados para construir o
ensemble, o qual será sempre o mesmo durante a fase de teste, e consequente-
mente de uso. Por outro lado, há trabalhos realizados (Soares et al., 2006) que
adotaram procedimentos que permitem a montagem do ensemble dinamica-
mente, ou seja, os classificadores são escolhidos durante a fase de teste (uso).
Esse método é chamado de seleção dinâmica de classificador, ou Dynamic
Classifier Selection (DCS). O objetivo desse método é tornar o comitê ainda mais
especializado e efetivo, em função do padrão de teste que lhe for apresentado,
ganhando-se em termos de aumento de sua taxa de acertos.
2.1.3.1 Seleção dinâmica de Ensembles
Há ainda métodos mais elaborados que tratam da definição, durante a fase de
teste (uso), de qual ensemble irá classificar o padrão apresentado. Neste caso,
durante a fase de treinamento são montados vários ensembles, sendo estes
armazenados. Na fase de teste (uso), e em função das características do padrão
apresentado, é selecionado o ensemble com maior probabilidade de acerto na
classificação daquele padrão. Este método também é conhecido como seleção
dinâmica de comitês (ou do inglês Dynamic Ensemble Selection - DES) (Ko et al.,
2008).
2.2 Arquitetura e projeto de MCS
Uma vez definidos aspectos relacionados à escolha dos componentes de um
ensemble, é preciso pensar em como organizá-los para que trabalhem juntos.
Para isso, há na literatura duas tradicionais topologias adotadas em sistemas de
múltiplos classificadores:
24
2.2. ARQUITETURA E PROJETO DE MCS
(1) Arquitetura Paralela. A instâcia é apresentada a todos os classificadores do
ensemble sem exceção, os quais fornecem suas saídas para aquela instância,
sendo estas então combinadas para que se chegue à classificação final
(Wozniak et al., 2014). O uso desta arquitetura é mais frequente em sistemas
de aplicação mais geral, tanto por ser mais simples, como por ser mais fácil
de analisar seu desempenho (Ponti, 2011).
(2) Arquitetura Serial. A instância é apresentada a um primeiro classificador.
Quando este não consegue classificá-lo usa-se um segundo classificador
e assim por diante, até que a classificação seja realizada (Wozniak et al.,
2014). Este método é mais usado em aplicações específicas, sendo útil, por
exemplo, no contexto de aprendizagem on-line (Ponti, 2011).
Além da definição do padrão de arquitetura usado no processo de apresenta-
ção dos padrões de entrada aos classificadores, um outro fator a ser considerado
na construção de ensembles é a definição pelo projetista quanto à abordagem
que norteará o projeto de construção do sistema de múltiplos classificadores.
As possibilidades de abordagem estão agrupadas em 4 grandes níveis: nível
de Combinação, nível de Classificador, nível de Atributo e nível de Dados
(Kuncheva, 2004):
(1) Nível de Combinação: há diferentes maneiras de se combinar as saídas
dos classificadores em um MCS. Esse nível de abordagem concentra-se na
definição dos métodos de combinação a serem utilizados na composição
da decisão final do ensemble;
(2) Nível de Classificador: muitos MCS usam um único modelo de classifica-
dor base em sua composição, por exemplo, árvores de decisão ou redes
neurais artificiais. Contudo, não há evidências de que esta maneira de
construir o ensemble seja melhor do que usar diferentes modelos de clas-
sificadores. Portanto, neste nível de abordagem o fator mais importante
do projeto está na decisão dos modelos de classificadores básicos a serem
utilizados na formação do ensemble.
(3) Nível de Atributo: esta abordagem foca em como utilizar diferentes su-
bespaços de características das instâncias de entradas durante a fase de
treinamento. O principal objetivo deste nível de abordagem está na criação
25
2.2. ARQUITETURA E PROJETO DE MCS
de ensembles formados por classificadores especialistas, treinados em cada
um desses subespaços do conjunto de entradas;
(4) Nível de Dados: neste nível o foco está na manipulação e/ou tratamento
dos padrões de entrada utilizados durante o treinamento dos classificadores.
Esta abordagem tem-se provado extremamente bem sucedida, principal-
mente pelo uso de métodos para geração de ensembles, como por exemplo
o Bagging, descrito na subseção 2.3.2.
Importante salientar que, embora muitos métodos possam ser enquadrados
num desses níveis de abordagem, estes não cobrem toda variedade de métodos
para projetos de MCS disponível na literatura.
2.2.0.2 Otimização da cobertura e otimização da decisão
Ainda em relação a projetos, os métodos de criação de sistemas de múltiplos
classificadores podem ser agrupados em duas categorias (Ho, 2001):
(1) Métodos voltados à Otimização da decisão - aqueles que, dado um con-
junto fixo de classificadores cuidadosamente bem projetados e altamente
especializados, buscam encontrar e otimizar o mecanismo de combinação
de suas decisões;
(2) Métodos voltados à Otimização da cobertura - aqueles que, dado um de-
terminado método de combinação, procuram gerar um conjunto de classi-
ficadores genéricos e mutuamente complementares que possam ser combi-
nados visando alcançar melhores taxas de acerto.
Os métodos dirigidos à Otimização da decisão são interessantes quando o
projetista conhece suficientemente o problema de modo a poder construir tais
classificadores eficientes e especializados. Já os métodos voltados à Otimização
da cobertura são interessantes quando a tarefa de construir classificadores
fortes (strong learners) torna-se difícil ou de alto custo computacional (Ponti,
2011).
Em relação às abordagens de projeto, pode-se dizer que os métodos do pri-
meiro grupo utilizam a abordagem no nível de Combinação, e os do segundo se
utilizam das abordagens nos níveis de Classificador, Atributos e Dados (Kun-
cheva, 2004).
26
2.3. CONSTRUINDO MCS
Mesmo com o agrupamento desses métodos em duas categorias, é possí-
vel produzir sistemas que usem as duas estratégias, por exemplo, no modelo
mixture of experts tanto os classificadores como a função de combinação são
treinados (Kuncheva, 2004). Neste caso este modelo nem está em uma categoria
nem na outra.
2.3 Construindo MCS
Conforme visto na Seção 2.2, há várias abordagens para se gerar classificado-
res ’bons’ de combinar, isto é, que sejam diversos e precisos o suficiente para
atenderem as exigências do problema em questão. Dentre os métodos mais
conhecidos estão os métodos heurísticos, que pressupõem um razoável conhe-
cimento do problema ao ponto de permitir que o projetista faça ajustes tanto na
arquitetura do ensemble, como em alguns parâmetros, a fim de construir diver-
sos classificadores. Outros métodos interessantes consideram, por exemplo, a
manipulação dos dados de treinamento ou dos atributos de entrada e de saída,
de modo a se usar diferentes subespaços de treinamento que proporcionem
a geração de bons classificadores; ou ainda na ausência de um conhecimento
mais profundo do problema, variar aleatoriamente os métodos classificadores,
suas arquiteturas e parâmetros até se chegar a um desempenho desejado.
Nas subseções seguintes serão tratados com maior detalhamento alguns
aspectos importantes no processo de construção dos classificadores que irão
compor o ensemble. A subseção 2.3.1 aborda a questão do pré-processamento
dos dados a serem usados nas fases de treinamento e validação dos classificado-
res, em especial no caso de limitação ou desbalanceamento desses dados. Em
seguida, na subseção 2.3.2 são descritos alguns dos mais populares métodos
de criação de ensemble – Bagging e Random-Subspace. Ao final, na subse-
ção 2.3.3 é explicado no que consiste o conceito de poda de ensembles e suas
consequências.
2.3.1 Manipulando dados de treinamento
Criar ensembles a partir de um conjunto limitado ou desbalanceado de dados
para treinamento e validação também possui uma forte dose de desafio. É
preciso usar algumas técnicas para ampliar esta base. Uma dessas técnicas
27
2.3. CONSTRUINDO MCS
é a de inserção de dados com ruído, apesar disto ampliar a possibilidade de
geração de outliers (Ponti, 2011). Outliers são padrões que podem permitir a
geração de falso positivo ou falso negativo.
Nos casos em que as bases de treinamento estão desbalanceadas pode
haver um aumento da possibilidade de overfitting. Nesta situação uma das
técnicas é reduzir o excesso de quantidade de padrões de uma classe, nivelando-
a quantitativamente às demais classes. Outra forma é criar instâncias artificiais
para nivelar os padrões de menor quantidade aos de maior (super-amostragem
da minoria ou sub-amostragem da maioria) (Ponti, 2011).
2.3.2 Produzindo MCS
Há importantes métodos de geração de ensembles, tais como: Bagging (Brei-
man, 1996), Boosting (Schapire, 1990), Adaboost (Freund e Schapire, 1997),
Random Subspace (Ho, 1998), Rotation Forest (Rodriguez et al., 2006), Error-
Correcting Output Coding (ECOC) (Dietterich e Bakiri, 1995). Em função de
estarem relacionados aos experimentos realizados nesta dissertação, são deta-
lhadas a seguir dois desses métodos de treinamento de classificadores usados
na criação de MCS:
(a) Bagging : Baseia-se na geração de amostras (bootstraps), a partir do con-
junto de dados de treinamento, com pequenas modificações em relação ao
original, porém com o mesmo tamanho da original. Ideal para trabalhar
com classificadores instáveis, por exemplo, árvores de decisão ou redes
neurais artificiais, pois a partir de pequenas mudanças nos dados de trei-
namento são produzidos classificadores diversos. Uma vez montado o
ensemble, pode-se usar qualquer método de combinação das saídas. As
mais comuns são a média ou a escolha da classe com maior frequência,
também conhecida como majority vote. Quando os classificadores têm bias
(erro) pequeno, mas com alta variância, esse método ajuda a reduzir esta
última. Na maioria dos casos essa redução é maior à medida que se trabalha
com mais classificadores;
(b) Random Subspace (RS): Consiste em selecionar, aleatoriamente, um nú-
mero arbitrário de subespaços do espaço original de características (atribu-
tos), e construir um classificador para cada subespaço. A idéia passa por
criar classificadores que se complementem entre si, cada um com o seu grau
28
2.3. CONSTRUINDO MCS
de especialização num determinado subconjunto de atributos. Tem bom
funcionamento em um espaço com grande dimensionalidade e atributos
redundantes. Isto evita o problema da maldição da dimensionalidade. O RS
também tem similaridade com o Bagging, variando quanto a criação das
amostras para o treinamento. Seja M a dimensão do vetor de entrada das
amostras de treinamento, o RS escolhe aleatoriamente, sem reposição, um
subconjunto de dimensão m, m < M , ou seja, o subconjunto de característi-
cas usado para treinar cada classificador é diferente. A questão-chave desse
método está no como definir o parâmetro que determina a dimensionali-
dade dos subespaços de treinamento. Não há uma regra geral que oriente
essa definição, ou seja, em cada caso devem ser estudados os impactos
desta definição.
2.3.3 Podando MCS
De uma maneira geral, na medida em que se aumenta o número de classifica-
dores agregados ao ensemble, a taxa de erro de predição decresce monotoni-
camente, tendendo, assintoticamente, a um nível constante (Martınez-Munoz
e Suárez (2004);Martinez-Muñoz et al. (2009)). Geralmente, esta taxa de erro
assintótica é considerada o melhor resultado que o método pode alcançar, in-
dependentemente de se continuar ampliando a quantidade de classificadores.
Em compensação, na criação de ensembles, a cada vez que um novo classifi-
cador é agregado, há um aumento no custo computacional. Árvores-de-decisão,
por exemplo, podem demandar grandes requisitos de memória. A depender da
aplicação, o consumo de memória e o tempo de processamento pode tornar
inviável o uso de um MCS.
Um fator que merece atenção em projetos de MCS é a possibilidade de
existir, dentre os membros do ensemble, classificadores com alta similaridade,
o que poderá reduzir a diversidade média do sistema e, consequentemente,
a capacidade do ensemble em classificar corretamente os padrões de entrada
(Tsoumakas et al., 2009).
Variações quanto ao desempenho de cada classificador que compõe o en-
semble, também podem levar o desempenho do ensemble a ficar abaixo do que
poderia atingir, dependendo, inclusive, do método de combinação usado.
Geralmente, métodos para construção de ensembles são compostos por
duas fases: a produção dos classificadores e a combinação de suas saídas,
29
2.3. CONSTRUINDO MCS
porém, diante das questões acima, trabalhos recentes têm considerado uma
fase intermediária que trata da redução do tamanho do ensemble, normalmente
chamada de poda do ensemble (Tsoumakas et al., 2009).
A poda de ensembles visa, por meio da redução do número de classificadores
do ensemble, melhorar o desempenho preditivo do sistema assim como sua
eficiência (Tsoumakas et al., 2009).
Em outras palavras, o processo de poda de um ensemble L busca encontrar
um subensemble S, S ⊂ L, que contenha classificadores com desempenho dentro
do desejado para a aplicação em questão, preservando a diversidade entre os
mesmos, mantendo, ou melhorando, a capacidade de predição do ensemble L,
Por outro lado, conforme citado na Seção 1.1, a busca por esse subensemble
é um problema NP-completo em função do tamanho do ensemble aonde se
processará a busca, o que tem levado muitos pesquisadores a propor heurísticas
que tornem viável uma solução para essa questão (Margineantu e Dietterich
(1997); Martínez-Muñoz e Suárez (2006); Lu et al. (2010)).
Tsoumakas et al. (2009), em seu trabalho de proposição de uma taxonomia
para a poda de ensembles, propõem agrupar os métodos de poda de ensembles
em categorias de acordo com a maneira pela qual os classificadores são organi-
zados previamente para depois serem submetidos ao processo de avaliação e
poda. As categorias são:
• Baseados em ranking : o mais simples de todos. Os classificadores são
ordenados conforme uma função de avaliação sendo então selecionados
aqueles melhor avaliados;
• Baseados em clustering : aqui os classificadores são agrupados de acordo
com a similitude de suas decisões, sendo feita a poda por grupo, a fim de
manter a diversidade;
• Baseados em otimização: A poda é tratada como um problema de oti-
mização, ou seja, o objetivo é encontrar o subconjunto com melhor de-
sempenho conforme uma determinada medida. Busca exaustiva pode ser
inviável dependendo do tamanho do ensemble;
• Outro: qualquer outro método que não se enquadre nos acima expostos.
É importante observar que a poda de ensembles é diferente de pondera-
ção de ensembles. Neste último método, as saídas de todos os classificadores
30
2.4. COMBINANDO DECISÕES
continuarão sendo utilizadas no processo de combinação, porém com pesos di-
ferentes. Logo, este método visa somente a melhoria do desempenho preditivo
(Tsoumakas et al., 2009). Contudo, é possível entender a ponderação como um
caso particular de poda, se alguns dos pesos tiverem valor igual a zero.
Independentemente de como os métodos acima funcionam, é importante
ressaltar que todos eles empregam uma função que avalia quão adequados são
cada um dos classificadores base que compõem o ensemble original para sua
inclusão no ensemble final (podado). Essa função, tipicamente, se baseia nas
saídas desses classificadores a partir de um conjunto de dados usados apenas
no processamento da poda (Tsoumakas et al., 2009).
2.4 Combinando decisões
Uma vez escolhida a forma de como será composto o MCS, passa-se à segunda
fase do projeto, que trata da maneira pela qual serão combinadas as decisões
dos seus classificadores para se obter a decisão final do ensemble. Neste caso,
há duas abordagens principais (Kuncheva, 2004), quais sejam:
(a) Fusão: baseia-se na combinação de classificadores competitivos. Nesta
abordagem, cada classificador contribui com sua saída para a decisão final.
Neste método, considera-se que cada classificador tem conhecimento sobre
todo o espaço de características (Kuncheva, 2004). Nesta abordagem são
aplicados métodos de combinação tais como média, soma e majority vote
(Santana et al., 2007);
(b) Seleção: no qual apenas um classificador do comitê é usado para dar a
decisão final. Nesta abordagem supõe-se que cada classificador conhece
bem uma determinada parte do espaço de atributos, sendo responsável,
portanto, pela classificação dos objetos que possuam aqueles atributos.
Assim, os classificadores são considerados complementares. A escolha do
classificador é feita durante a fase de uso do ensemble (Kuncheva, 2004).
Um dos principais métodos baseados em seleção é o chamado Dynamic
Classifier Selection (DCS) (Santana et al., 2007).
Existem esquemas de combinação onde as duas abordagens podem ser
usadas em conjunto. Por exemplo, há casos em que a classificação é feita
31
2.5. TRABALHOS CORRELATOS
calculando-se a média ponderada do valor das saídas dos classificadores, ou
seja, há diferentes pesos por classificador, que variam em função da entrada x
a ser classificada. Logo, para cada entrada x alguns classificadores terão mais
peso que os demais, porém todas as saídas passarão pelo processo de fusão por
meio de um combinador simples, como a média ou majority vote. A arquitetura
mixture of experts é um exemplo prático desse tipo de esquema que fica entre
fusão e seleção (Kuncheva, 2004).
a abordagem de fusão, as saídas produzidas pelos membros do ensemble
são classificadas em três níveis - abstrato, rank, e medição (Xu et al., 1992). Em
cada uma desses níveis há métodos de combinação mais adequados, podendo-
se, inclusive, fazer uma mescla desses métodos, independentemente do nível
de abordagem. São eles:
• Abstrato – cada classificador produz uma saída informando a classe es-
colhida para aquela determinada amostra de entrada. Neste nível não há
nenhuma informação de grau de certeza sobre se a amostra pertence de
fato àquela classe, nem é sugerida nenhuma outra classe como alternativa
à apresentada;
• Rank – cada classificador ordena um ranking das classes nas quais a
amostra de entrada pode se enquadrar. Este nível é mais adequado a
problemas com um grande número de classes possíveis;
• Medição – cada classificador produz um escore, probabilidade, ou um
nível de confiança em como a entrada pode ser classificada. No nível
medição são usadas regras fixas para combinar os resultados dos classifi-
cadores, tais como: média, mínimo, máximo, produto, mediana, soma.
2.5 Trabalhos correlatos
Nesta seção são apresentados alguns trabalhos que têm relação com o de-
senvolvimento dessa pesquisa. Na subseção 2.5.1 é apresentado um breve
histórico da evolução dos métodos usados na tomada de decisões ligadas ao
gerenciamento de riscos no processo de concessão de crédito. Na subseção
2.5.2 são descritos trabalhos que utilizaram métodos e conceitos de sistemas
de múltiplos classificadores em aplicações de credit scoring.
32
2.5. TRABALHOS CORRELATOS
2.5.1 Evolução da análise na concessão de crédito
O processo de decidir pela concessão de crédito vem evoluindo ao longo dos
tempos. Inicialmente baseava-se em critérios meramente subjetivos de alguns
"especialistas"que se utilizavam de suas experiências anteriores para tomar
a decisão (Hand e Henley, 1997). Depois, evoluiu para um processo de aná-
lise mais criteriosa do perfil sócio-econômico do cliente, os chamados 5 Cs:
Caráter, Capital, Garantias ( do inglês, Collateral), Capacidade e Condições
(econômicas) (Abrahams e Zhang, 2008).
Contudo, o aumento em larga escala da demanda por crédito, aliado a uma
maior competição comercial pela oferta de crédito tornaram muito complexo
fazer esta análise manualmente. Diante desse cenário, algumas técnicas es-
tatísticas têm sido usadas na construção de modelos de avaliação de risco na
concessão de crédito, tais como: Linear Discriminant Analysis (LDA), Linear
Regression Analysis (LRA), Logistic Regression Analysis (logR).
A esse processo formal de determinar a probabilidade de um tomador de
crédito não conseguir efetuar os pagamentos devidos, podemos chamar de
credit scoring (Hand e Henley, 1997). Algumas vezes o termo application sco-
ring é usado para diferenciá-lo do termo behavioural scoring, que se refere ao
processo de monitoramento e predição do comportamento de pagamento de
um cliente a quem já foi concedido o crédito (Hand e Henley, 1997).
Comparados aos métodos subjetivos, os métodos estatísticos de credit sco-
ring apresentam vantagens como: maior velocidade nas decisões; menos custo
operacional; menor risco de erro por se basear em critérios objetivos; flexibili-
dade para se ajustar a novas políticas e cenários econômicos; e capacidade de
monitoramento do desempenho do modelo em relação à sua acurácia (Rosen-
berg e Gleit (1994);Thomas et al. (2002)).
Prosseguindo na evolução da análise de crédito, e do credit scoring enquanto
método objetivo, muitos estudos foram desenvolvidos utilizando-se técnicas
de Inteligência Articial (IA). Em contraste aos modelos estatísticos, os métodos
de IA conseguem extrair informação a partir de observações anteriores, não ne-
cessitando de um conhecimento prévio específico sobre o problema (Marqués
et al., 2012b).
Vários desses estudos têm demonstrado que técnicas como Redes Neurais
Artificiais (RNA), Árvores de Decisão (DT), e Máquinas de Vetor de Suporte
(SVM) podem ser usados como alternativas mais eficientes aos métodos es-
33
2.5. TRABALHOS CORRELATOS
tatísticos, ou seja, classificadores construídos baseados nesses métodos têm
alcançado resultados superiores em relação à taxa de acerto (Marqués et al.,
2012a).
Mesmo assim, verificou-se que alguns modelos como as DT eram relativa-
mente menos utilizadas em aplicações de credit scoring por terem um desempe-
nho menor do que outros modelos de classificadores, devido à sua sensibilidade
a ruídos e a atributos redundantes, presentes neste tipo de aplicação (Wang
et al., 2012).
2.5.2 Credit scoring e os MCS
Diante da ’fraqueza’ de alguns modelos individuais de classificadores, algumas
pesquisas passaram a ser feitas na direção de se usar métodos baseados em
sistemas de múltiplos classificadores (MCS), com o objetivo de obter melhores
resultados em problemas relacionados à avaliação de crédito (Wozniak et al.,
2014).
2.5.2.1 Classificadores base e métodos de geração de ensembles
Na busca por identificar quais modelos de classificadores base seriam os me-
lhores para serem usados em ensembles no contexto do credit scoring, Marqués
et al. (2012a) avaliaram 7 modelos de classificador – 1-nearest neighbour (1-NN),
naive Bayes classifier (NBC), logistic regression (logR), multilayer perceptron
(MLP), radial basis function (RBF) e support vector machine (SVM), decision tree
(DT), em 5 diferentes métodos de geração de ensembles– Bagging, Boosting, RS,
DECORATE, RF.
Este trabalho concluiu que, dentre o os 7 modelos avaliados nos 5 métodos
utilizados, a árvore de decisão (DT) era o melhor modelo de classificador base
para ser adotado em MCS para credit scoring, seguido de perto pelo MLP e da
Regressão Logística (método estatístico).
Por sua vez, Nanni e Lumini (2009) investigaram o desempenho dos métodos
de geração de ensembles no mesmo contexto da predição de falência e credit
scoring. Neste estudo foram avaliados 4 diferentes métodos: Bagging, Random
Subspace, Class Switching, Rotation Forest, cada um utilizando 4 tipos de classi-
ficadores base diferentes – Rede Neural treinada com o algoritmo de Levenberg-
Marquardt, Multilayer Perceptron Neural Network LP, 5-NN, RBF-SVM(RV )2. Ao
34
2.5. TRABALHOS CORRELATOS
final, a análise permitiu concluir que, entre os métodos analisados, o Random
Subspace (Ho, 1998) foi o de melhor desempenho para aplicações de predição
de falência e credit scoring.
2.5.2.2 Incrementando a diversidade e a precisão
Wang et al. (2012) realizaram um trabalho com o objetivo de construir um
método, baseado em sistemas de múltiplos classificadores, que potenciali-
zasse a utilização de classificadores fracos, como Árvores de Decisão (DT), em
aplicações de credit scoring. A proposta do trabalho consistiu fundamental-
mente na indução de maior diversidade entre os classificadores do ensemble
por meio da utilização de uma estratégia dual de treinamento, utilizando para
isso dois dos mais tradicionais métodos para construção de MCS: Bagging e
Random-Subspace (RS). Esses métodos foram escolhidos pelas suas capacida-
des de ampliarem a precisão dos classificadores, ao tratarem dados com ruídos
e redundância de atributos, respectivamente.
Esta estratégia dual é assim considerada, porque há dois tratamentos em
sequência a serem aplicados sobre os dados: a) redução de ruídos e b) redução
da redundância de atributos. E, como esses tratamentos podem ser proces-
sados em duas sequências diferentes: a) primeiro reduz o ruído e depois a
redundância de atributos, ou b) primeiro reduz a redundância e depois reduz o
ruído, foi possível a criação de duas estratégias de criação de ensembles de DT:
Bagging-RS DT e RS-Bagging DT. Em cada uma dessas estratégias, é produzido
um ensemble final, composto por subensembles de DT, sendo a classificação
final obtida pela combinação dos resultados desses subensembles.
Os resultados deste trabalho mostraram que ambas as estratégias (Bagging-
RS DT e RS-Bagging DT ) superaram, em termos de taxa de acerto, tanto classi-
ficadores simples (single classifiers) como ensembles simples, ou seja, aqueles
produzidos por métodos tradicionais. Como consequência desses resultados, o
uso de comitês de DT treinados sob esta estratégia dual tornou-se mais uma
alternativa eficaz para solução de problemas de avaliação de crédito.
Seguindo a mesma linha de indução de diversidade, com aumento da preci-
são do ensemble, Marqués et al. (2012b) avaliaram outras possibilidades de uso
da estratégia dual de formação de ensembles, a qual denominaram de estratégia
de treinamento em 2 níveis. Neste trabalho, foi experimentada a combinação
de 4 métodos de geração de classificadores: 2 baseados em reamostragem
35
2.5. TRABALHOS CORRELATOS
(Bagging e Adaboost) e 2 baseados em seleção de atributos (RandomSubspace
e Rotation Forest). Sendo assim, os 4 métodos combinados entre si geraram 8
possibilidades de combinação. Nessa pesquisa também adotou-se a DT como
classificador base.
A conclusão de Marqués et al. (2012b) é semelhante à de Wang et al. (2012),
ou seja, com a diversidade proporcionada pela combinação dos métodos, além
da redução dos ruídos e da redundância, esta estratégia de treinamento e cons-
trução do ensemble em 2 níveis alcança resultados satisfatórios para aplicações
de credit scoring. O desempenho preditivo dos sistemas produzidos por este
método foi melhor do que o de comitês formados por métodos simples e tra-
dicionais, e, significativamente melhor do que os obtidos por classificadores
individuais (single classifiers).
Uma diferença importante entre esses dois trabalhos está na forma de en-
contrar a classificação final. Em Marqués et al. (2012b), para cada uma das 8
possibilidades de combinação é gerado apenas um único comitê composto
por uma quantidade de classificadores individuais igual a M ×L, sendo M a
quantidade de subamostras de dados geradas durante a execução do método
de treinamento do primeiro nível, e L a quantidade de subamostras geradas
durante a execução do método do segundo nível. Ao final, é feita uma única
operação de combinação das saídas de todos os classificadores membros do
ensemble.
2.5.2.3 Otimizando a eficiência dos ensembles
Conforme observado na seção1.1, na medida em que se aumenta a quantidade
de classificadores do ensemble na busca por melhores taxas de acerto, amplia-se
a necessidade de memória e tempo de processamento. Para tratar desse efeito
colateral na utilização de MCS, a poda de ensembles é uma abordagem sobre
a qual diversos autores têm se debruçado nos últimos anos (Martínez-Muñoz
e Suárez (2006),Martinez-Muñoz et al. (2009), Lu et al. (2010),Dai (2013)). A
poda de ensembles visa encontrar subensembles que possuam desempenho
equivalente ou superior ao ensemble completo.
As abordagens para encontrar esses subensembles mais eficientes do que o
ensemble completo podem ser agrupadas em duas grandes categorias (Lu et al.,
2010): (1) as que tratam essa busca como um problema de otimização matemá-
tica; (2) as que reordenam os classificadores do ensemble original baseando-se
36
2.5. TRABALHOS CORRELATOS
em algum critério predefinido, como por exemplo, a taxa de acerto dos classifi-
cadores, e selecionam um subconjunto desta lista ordenada.
Para fins desta pesquisa, priorizamos as abordagens da segunda categoria.
Especificamente, Martínez-Muñoz e Suárez (2006) e Lu et al. (2010) desen-
volveram os métodos de poda Orientation Ordering (OO) e o EPIC - Ensemble
Prunning via Individual Contribution Ordering (EPIC), respectivamente. Ambos
os métodos utilizam o Bagging para realizar o treinamento dos classificadores
que irão compor o pool inicial.
Em seguida, os classificadores são ordenados, adotando-se como chave
de ordenação uma medida indicativa do quanto cada classificador contribui
para melhoria da taxa de acerto global do ensemble. Ao final os classificadores
são selecionados segundo um critério específico de seleção, formando assim o
subensemble a ser utilizado nos testes.
Em ambos os trabalhos, o desempenho do subensemble superou o do en-
semble completo, atingindo taxas de poda entre 70% e 85%. É interessante
observar que os experimentos de Martínez-Muñoz e Suárez (2006) foram re-
alizados sobre diversas bases, dentre elas algumas com entradas relativas a
perfis de tomadores de empréstimo, usadas, inclusive, em pesquisas sobre
aprendizagem de máquina aplicadas a credit scoring.
37
3Arquitetura proposta
A natureza ama a simplicidade.
—KEPLER (1619)
A arquitetura proposta, descrita neste capítulo, baseia-se em sistemas de
múltiplos classificadores (MCS) otimizados por métodos de poda de ensembles.
Essa arquitetura é dividida em 3 (três) grandes fases - Treinamento, Poda e
Teste. Na fase de treinamento é produzido um único pool de classificadores,
cujas predições são combinadas a fim de produzir a decisão final desse pool
ou ensemble. Antes, contudo, da efetiva combinação dessas saídas, o ensemble
produzido na primeira fase é submetido a um processo de poda, com o objetivo
de reduzir os custos computacionais decorrentes do processamento da predição
final do sistema, sem que haja perda, ou até obtendo-se ganho, no desempenho
preditivo do ensemble. Na última fase, o ensemble obtido pelo processo de poda
é finalmente testado por meio de um método de fusão de classificadores.
O capítulo está estruturado da seguinte forma: na seção 3.1 é apresentada
uma visão geral da arquitetura proposta; nas seções 3.2, 3.3 e 3.4 são descritas,
respectivamente, as 3 fases que compõem a arquitetura – Treinamento, Poda
e Teste; por fim, na seção 3.5 são relacionados os conceitos e fundamentos da
teoria de combinação de classificadores nos quais se baseou o modelo proposto
nesta pesquisa.
38
3.1. VISÃO GERAL DA ARQUITETURA
3.1 Visão geral da arquitetura
Conforme já mencionado, a arquitetura proposta neste trabalho possui 3 (três)
fases - Treinamento, Poda e Teste (Figura 3.1). Na primeira fase, um único pool
de classificadores L = l1, ..., lm é treinado a partir de uma estratégia de treina-
mento, na qual há a composição de dois métodos de geração de ensembles,
visando induzir uma maior diversidade entre os seus componentes (Marqués
et al., 2012b). No caso específico da aplicação da arquitetura proposta a pro-
blemas de credit scoring, os métodos de geração utilizados foram escolhidos
em função de suas capacidades em lidar com ruídos e com redundância de
atributos. Na fase seguinte, o pool L é submetido a um processo de poda, cujo
método utiliza o conceito de agregação ordenada dos classificadores (Martınez-
Munoz e Suárez, 2004). O processo de poda visa selecionar um subensemble
P = p1, ..., pk , P ⊂ L, que possua um desempenho igual ou melhor que L, com
menor necessidade de recursos computacionais de memória e processador.
Na última fase, o ensemble podado P é avaliado utilizando um método não-
ponderado de combinação dos classificadores-membros, no qual todos os
componentes do ensemble opinam sobre todos os padrões apresentados nesta
fase.
Os arquivos DB1, DB2 e DB3 usados como entradas nas 3 fases descritas na
Figura 3.1 são subconjuntos disjuntos de uma mesma base de dados. Embora
as quantidades de registros de cada subconjunto de dados sejam diferentes,
todos preservam a mesma proporcionalidade em relação às classes existentes
na base de dados completa.
3.2 Treinamento do pool de classificadores
Nesta fase é gerado o pool inicial de classificadores L = l1, ..., lm, m indica a
quantidade de membros do pool. Cada um dos classificadores-membro é trei-
nado tendo como entrada uma base de dados DB1, sendo submetido a um
método de treinamento baseado numa estratégia dual de criação de ensembles
(Wang et al., 2012). A estratégia é dita dual, ou em 2 níveis de treinamento
(Marqués et al., 2012b), por usar de forma composta dois métodos convenci-
onais de geração de ensembles: Bagging (Breiman, 1996) e Random Subspace
39
3.2. TREINAMENTO DO POOL DE CLASSIFICADORES
DB1
Geração do Pool de
Classificadores
Treinamento
L=l1, l2,...,lm
DB2
Poda do Pool de
Classificadores
Poda
P=p1, p2,...,pk
DB3
Combinador
Teste
xq
wq
(classe de xq)
Figura 3.1: Visão geral da arquitetura proposta composta por 3(três) fases:Treinamento do pool de classificadores L; Poda de L com seleção de P , P ⊂ L;Teste de P usando método de combinação não-ponderada de classificadores.
(RS) (Ho, 1998), induzindo uma maior diversidade entre os componentes do
ensemble, e reduzindo a influência de dados com ruídos e com atributos redun-
dantes.
O Bagging possui melhor desempenho que outros métodos de geração de
ensembles em situações em que haja muito ruído (Wang et al., 2012). O RS
oferece bons resultados na classificação quando há informação redundante
dentre os atributos do padrão (Ho, 1998). Portanto, a combinação em sequência
de ambos os métodos lida tanto com os efeitos dos ruídos, como com a redun-
dância de atributos existente em aplicações de credit scoring, obtendo maior
precisão na classificação dos padrões (Wang et al., 2012). Além disso, o RS é um
algoritmo de aprendizagem paralela, ou seja, a geração de cada classificador é
independente (Ho, 1998), o que reforça sua adequação à arquitetura escolhida
para implementação do modelo proposto (v. seção 3.5).
Como a composição dos métodos pode se realizar em duas diferentes ordens,
40
3.2. TREINAMENTO DO POOL DE CLASSIFICADORES
isto é, primeiro reduzindo os efeitos dos ruídos (Bagging ) e depois reduzindo a
redundância dos atributos dos dados (Random Subspace), ou então na ordem
inversa, é possível aplicar dois modelos dessa estratégia dual: Bagging-RS e o
RS-Bagging (Wang et al., 2012).
Conforme descrito na seção 2.5, em Wang et al. (2012) as duas estratégias
acima constroem na fase de treinamento n subensembles com p classificadores
cada um, sendo n o número de iterações que os dados são processados pelo
primeiro método da sequência, e p o número de iterações que os dados são
processados pelo segundo método da sequência (Figura 3.2). Na fase de teste,
o padrão é apresentado a cada um dos subensembles, sendo a classificação
final obtida através da combinação dos resultados dos subensembles, utilizando
como técnica de combinação majority vote (Kuncheva, 2004).
Contudo, para a arquitetura aqui proposta foi adotado um conceito dife-
rente do algoritmo dos modelos propostos por Wang et al. (2012), no qual são
treinados n subensembles com p classificadores. Nesta dissertação adotou-se o
método proposto por Marqués et al. (2012b), em que é construído um único
ensemble ou pool com n ×p classificadores. Como na fase final (teste) da ar-
quitetura proposta será utilizado um único ensemble, a escolha desse método
pareceu ser mais eficaz, uma vez que será efetuado o processamento da poda
de uma só vez em um único pool de classificadores. Caso fosse usado o método
proposto por Wang et al. (2012), para se obter o ensemble final, seria necessário
pelo menos um processamento a mais. Este processamento teria por objetivo a
unificação dos diversos subensembles intermediários em um único ensemble,
para em seguida se passar para a fase de poda. Contudo, essa possibilidade
não deixa de ser mais uma variação de configuração da arquitetura proposta,
podendo, portanto, vir a ser avaliada em outra ocasião.
Sendo assim, para cada um dos modelos de estratégia dual, são informados
na fase de treinamento os seguintes parâmetros de entrada:
(1) os números de iterações n e p que cada um dos métodos - Bagging e RS -
serão processados em cada sequência. O produto m = n ×p define a quan-
tidade de classificadores treinados que irão compor o pool L. O primeiro
método da sequência irá processar a base de dados DB1 produzindo su-
bamostras DB1i , i = 1. . .n. A partir de cada subamostra DB1i , o segundo
método produzirá p subamostras DB1i j , j = 1. . . p, as quais serão utilizadas
no treinamento dos classificadores. Ao final, n ×p classificadores estarão
41
3.3. PODA DO POOL DE CLASSIFICADORES
treinados, compondo um único pool de classificadores L = l1, ..., lm. (Figu-
ras 3.2a e 3.2b);
(2) taxa de seleção de características. Esta taxa é usada pelo método Random
Subspace para redução da dimensionalidade dos padrões. Esta taxa de-
fine a quantidade de atributos que serão escolhidos aleatoriamente dentre
os atributos originais que definem o padrão. Esta seleção permite a gera-
ção de uma subamostra de dados de dimensionalidade a ser utilizada no
treinamento dos classificadores base.
3.3 Poda do pool de classificadores
Após gerado o pool de classificadores, o mesmo é submetido a um processo de
poda de ensembles, cujo objetivo é manter ou otimizar o seu desempenho em re-
lação às classificações, além de reduzir o consumo de recursos computacionais,
tais como: tempo de processamento e memória.
O processo da poda é realizado tendo como entrada o pool L, cujos clas-
sificadores que o compõem foram agregados sem uma ordenação específica,
durante a fase de treinamento. Outra entrada dessa fase é uma base de da-
dos, DB2, contendo padrões diferentes dos utilizados da fase anterior. O pool
completo L, não ordenado, é podado conforme um método de agregação or-
denada – Orientation Ordering (OO), produzindo um ensemble P = p1, ..., pq ,
P ⊂ L, sendo q igual à quantidade de classificadores selecionados pelo referido
método de poda. O processo de poda é apresentado na Figura 3.3. Com isso,
espera-se que P alcance um desempenho preditivo igual ou superior a L, a um
menor custo computacional.
O algoritmo Orientation-Ordering (OO) (Martínez-Muñoz e Suárez, 2006)
é um método de poda baseado em ranking cuja eficácia foi comprovada em
termos de desempenho (Tsoumakas et al., 2009). A abordagem utilizada pelo
OO é a de modificar a agregação original dos classificadores no ensemble, pro-
duzidos aleatoriamente por meio de um método tradicional (ex.: Bagging ),
estabelecendo uma ordem de importância desses classificadores quanto à con-
tribuição dos mesmos na otimização do desempenho preditivo do ensemble
final. Esta abordagem tem como premissa que é possível se construir de forma
42
3.3. PODA DO POOL DE CLASSIFICADORES
DB1
Bagging
... Random Subspace
DB111
DB11
DB112 DB11p ...
Geração dos classificadores
l11 l12 l1p ...
Random Subspace
DB121
DB12
DB122 DB12p ...
Geração dos classificadores
l21 l22 l2p ...
Random Subspace
DB1n1
DB1n
DB1n2 DB1np ...
Geração dos classificadores
ln1 ln2 lnp ...
...
(a) Bagging-RS
DB1
Random Subspace
... Bagging
DB111
DB11
DB112 DB11p ...
Geração dos classificadores
l11 l12 l1p ...
Bagging
DB121
DB12
DB122 DB12p ...
Geração dos classificadores
l21 l22 l2p ...
Bagging
DB1n1
DB1n
DB1n2 DB1np ...
Geração dos classificadores
ln1 ln2 lnp ...
...
(b) RS-Bagging
Figura 3.2: Estratégias dual de treinamento (ou treinamento em 2 níveis)para geração do Pool de Classificadores inicial
incremental subensembles cada vez mais eficientes, agregando um classificador
de cada vez, conforme um determinado critério (Martínez-Muñoz e Suárez,
2006). Após esta agregação ordenada, somente uma fração desses classificado-
43
3.3. PODA DO POOL DE CLASSIFICADORES
DB2
Ordenação de L com base no Vetor
de Referência
P=p1, p2,...,pq
L=l1, l2,...,lm
Lo=lo1, lo2,...,lom
Corte dos classificadores que não atingiram o critério de seleção
Cálculo do Vetor de Referência
OO
Figura 3.3: Esquema de poda baseada no algoritmo Orientation Ordering - (OO)
res é selecionada, conforme um critério τ, para formar o ensemble podado P
com as características já mencionadas.
A medida, ou critério, adotada pelo OO para realizar a ordenação dos classi-
ficadores, identifica quanto cada classificador contribui para maximizar o en-
semble na direção de um desempenho ideal de classificação (Martínez-Muñoz e
Suárez, 2006). Entende-se como desempenho ideal de classificação, no âmbito
do algoritmo OO, a possibilidade do ensemble conseguir classificar correta-
mente todos os padrões que lhe forem apresentados durante o treinamento.
Conforme pode ser observado no algoritmo 3.1, em sua etapa 1, cada classi-
ficador l do ensemble completo L é caracterizado por um vetor de assinatura,
c (l ) = (c1,c2, . . . ,cr ), sendo r o total de padrões utilizados no processamento
da poda. O vetor c (l ) representa o desempenho do classificador sobre esse con-
junto de padrões, no qual o conteúdo do i-ésimo componente ci pode ser +1 ou
−1, sendo +1 quando o padrão for classificado corretamente pelo classificador
l, e −1, caso contrário.
Na etapa 2 é calculado o vetor de assinatura do ensemble, cens , como sendo
a média dos m vetores de assinatura de todos os classificadores do ensemble L.
cens representa a tendência central do pool original L:
44
3.3. PODA DO POOL DE CLASSIFICADORES
Algoritmo 3.1 Fase de poda usando Orientation Ordering (OO)Entrada: Pool de Classificadores L = l1, . . . , lm gerado na fase de treinamentoEntrada: Base de Dados DB2 = (x1, y1), . . . , (xr , yr )Saída: P = p1, ..., pq , P ⊂ L, q igual a qtd de classificadores após a poda
Etapa 1 - Monta vetores de assinatura dos classificadores1: para t ← 1 até m faça2: para i ← 1 até r faça3: c(lt )
i ← 2I (lt (xi ) = yi )−1 . I(α) é 1 se α for verdade e 0, se for falso4: fim para5: fim para
Etapa 2 - Calcula vetor de assinatura do ensemble e vetor de referência
6: cens ← 1m
m∑t=1
c(lt )
7: λ←−o. cens|cens |2
8: cr e f ← o +λcens
Etapa 3 - Seleciona e Ordena Classificadores Candidatos ao ensemble final9: para t ← 1 até m faça
10: se ang (c(lt )) ≤ pi /2 então . ang(β) calcula ângulo entre c(lt ) e cr e f
11: Le ← lt . lt é candidato ao ensemble final12: u ← u +1 . conta # de classificadores candidatos ao ensemble final13: fim se14: fim para15: Lo ← Ordena(Le) . Ordena Le ascendentemente pelor ângulo com cr e f
16: Ang ← MedLo (ang (c(lt ))) . Calcula média dos ângulos dos classif. de Lo
Etapa 4 - Elimina classificadores cujos ângulos sejam maior que a média17: para t ← 1 até u faça . u é igual ao # de classificadores candidatos18: se ang (c(lt )) ≤ Ang então19: P ← c(lt ) . Agrega o classificador ao ensemble final20: fim se21: fim para
cens = 1
m
m∑t=1
c (lt )
Em um problema de classificação binária, como no caso do credit scoring,
o i-ésimo componente de cens é igual à margem de classificação do i-ésimo
padrão, sendo essa margem definida como a diferença entre o número de votos
45
3.3. PODA DO POOL DE CLASSIFICADORES
computados para a classe correta e o número de votos para a classe errada, nor-
malizada no intervalo [−1;1] (Martínez-Muñoz e Suárez, 2006). Considerando
que, um padrão é corretamente classificado quando o i-ésimo elemento de cens
é positivo, pode-se concluir que um ensemble cujo vetor de assinatura cens es-
teja no primeiro quadrante do espaço r-dimensional, classificará corretamente
todos os exemplos da base usada no processamento da poda.
Desta forma, o método OO estabelece um critério de ordenação baseado na
orientação do vetor de assinatura de cada classificador do ensemble em relação
a uma determinada direção de referência. Esta direção, codificada num vetor
de referência cr e f , é a projeção da diagonal do primeiro quadrante do espaço
r-dimensional sobre o hiperplano definido por cens (Martínez-Muñoz e Suárez,
2006).
Intuitivamente, pode-se entender que, numa situação ideal, se todos os
classificadores estivessem corretos sobre todos os padrões, o vetor de assina-
tura do ensemble, cens , seria composto apenas por 1s, cuja direção equivaleria
à da diagonal do primeiro quadrante do espaço r-dimensional. A meta do
algoritmo, portanto, é criar subensembles por meio da agregação incremental
de classificadores, de modo que o vetor de assinatura cens seja impulsionado
na direção da projeção dessa diagonal no hiperplano definido por cens , o mais
rápido possível. Essa rapidez significa encontrar um subensemble composto por
uma menor quantidade possível de classificadores selecionados, cujo vetor de
assinatura mais se aproxime da projeção da diagonal, podendo levar a uma taxa
de erro de generalização equivalente ou melhor do que a do ensemble original
ordenado aleatoriamente, a um menor custo computacional.
Para conseguir este efeito, o vetor de referência precisa ser definido tal que
maximize o torque1 sobre cens na direção da projeção da diagonal do primeiro
quadrante. Assim, o vetor de referência é calculado da seguinte forma:
cr e f = o +λcens
Sendo o um vetor orientado ao longo da diagonal do primeiro quadrante,
1Torque é definido como o produto vetorial: ~τ = ~F x~r , correspondendo a um vetor cujomódulo é dado por |τ| = |F |.|r |senθ, sendo F a força aplicada sobre um objeto, r a distânciaentre o ponto de fixação (ou de origem) do objeto e o ponto de aplicação da força F , e θ o ânguloentre os vetores ~F e~r . Dados ~F e~r , o torque será máximo quando ~F ⊥~r , pois sen90o é igual a 1.
46
3.3. PODA DO POOL DE CLASSIFICADORES
e λ uma constante tal que cr e f é perpendicular à cens (cr e f ⊥ cens) (Martínez-
Muñoz e Suárez, 2006). Por esta fórmula, pode-se deduzir que:
λ=−o.cens
|cens|2
A partir da definição de torque, pode-se entender o vetor de referência,
cr e f , como sendo a direção da força a ser aplicada sobre o vetor de assinatura
cens (equivalente à distância ~r ) no sentido de impulsioná-lo na direção da
projeção da diagonal do primeiro quadrante sobre o hiperplano definido por
este último. Os vetores de assinatura dos classificadores c (t ) representam a
intensidade da força a ser aplicada sobre cens a cada vez que são agregados
ao subensemble. Logo, quanto mais orientado c (t ) estiver na direção de cr e f ,
maior será o impulso sobre cens na direção desejada. Sendo assim, devem
ser agregados ao subensemble, em ordem crescente, os classificadores cujos
ângulos dos seus vetores de assinatura com o vetor de referência sejam os
menores do ensemble original.
O ângulo entre o vetor de assinatura de cada classificador, c (t ), e o vetor de
referência, cr e f , é encontrado a partir do cálculo do cosseno do ângulo entre
eles, o qual é feito a partir da fórmula:
cosθ = cr e f .c (t )
|cr e f |.|c (t )|
Uma vez encontrado o valor do cosθ, aplica-se a função inversa do cosseno,
arcos(cosθ), para se chegar ao valor de θ.
Conforme apresentado na etapa 3 do algoritmo 3.1, uma vez ordenados
os classificadores de acordo com o método acima descrito, é preciso definir
quantos classificadores de fato serão selecionados para serem agregados ao
subensemble a fim de se chegar às melhores taxas de acerto na generalização. A
proposta do OO para definir esta quantidade é, numa primeira etapa, definir
como candidatos a participarem do subensemble final aqueles classificadores
cujo vetor de assinatura tenha um ângulo com cr e f menor do que π/2, ou seja,
aqueles que estejam dentro do quadrante definido por cr e f e cens . Em seguida,
o OO calcula a média dos ângulos desses vetores pré-selecionados, escolhendo
47
3.3. PODA DO POOL DE CLASSIFICADORES
para fazer parte do subensemble final todos os classificadores cujo ângulo com
cr e f seja menor do que essa média, obtendo-se a sim o ensemble podado final,
a ser utilizado na fase seguinte da arquitetura (etapa 4 do algoritmo 3.1).
A questão chave em todo este processo é encontrar um critério confiável
no qual se baseie a ordenação dos classificadores. É conhecido na literatura
relativa aos MCS, que nem a precisão dos classificadores que os compõem, nem
a diversidade entre eles, são por si sós suficientes para se identificar ensembles
eficientes (Martinez-Muñoz et al., 2009). Ou seja, critérios de ordenação ba-
seados apenas nas propriedades individuais dos classificadores-membros do
ensemble, não possuem correlação positiva com o aumento do desempenho
de classificação do ensemble, por isso, é necessário encontrar uma relação de
complementaridade entre os classificadores (Martınez-Munoz e Suárez (2004);
Martínez-Muñoz e Suárez (2006)). Por exemplo, um classificador pode ter
individualmente um desempenho fraco, contudo, sua contribuição pode ser
importante quando combinado com outros classificadores no ensemble, caso
ele consiga classificar corretamente determinadas amostras nas quais os demais
classificadores cometem erros (Martinez-Muñoz et al., 2009).
O método OO conseguiu encontrar subensembles com quantidades inter-
mediárias de classificadores, variando entre 15% e 30% do ensemble original,
com taxas de erro de generalização abaixo do valor da constante assintótica
(v. Subseção 2.3.3), obtida no caso do ensemble cujos classificadores foram
agregados aleatoriamente pelo bagging (Martínez-Muñoz e Suárez, 2006).
Exemplo do funcionamento do algoritmo Orientation-Ordering : Supo-
nha um pool de classificadores L = l1, . . . , lm, m = 5, gerado na fase de treina-
mento, e uma amostra de dados Dpr = (d1, . . . ,dr ), r = 10, usada no processa-
mento da poda. Ao final da primeira etapa da poda, para cada classificador
li , seria gerado um vetor de assinatura c (li ), sendo obtido o vetor de assina-
tura do ensemble, cens , calculado a partir da média dos respectivos vetores de
assinatura dos classificadores. Esse resultado pode ser observado na última
linha da Tabela 3.1, na qual cada linha i corresponde ao vetor de assinatura
do classificador li , e cada coluna indica se este classificador li acertou (+1) ou
errou (−1) a classificação do padrão.
De posse do vetor do cens , pode ser obtido o vetor de referência, cr e f . Para
encontrar o vetor de referência do ensemble, primeiro é preciso calcular-se o λ,
48
3.3. PODA DO POOL DE CLASSIFICADORES
Vetores de assinatura dos classificadores – c (li )
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
c (l1) -1 +1 +1 +1 +1 -1 +1 -1 +1 -1
c (l2) +1 +1 +1 -1 -1 +1 +1 -1 +1 -1
c (l3) +1 -1 -1 -1 +1 -1 +1 -1 +1 -1
c (l4) +1 -1 +1 -1 +1 -1 +1 -1 +1 +1
c (l5) +1 +1 -1 -1 +1 +1 -1 -1 +1 +1
cens 0,6 0,2 0,2 -0,6 0,6 -0,2 0,6 -1 1 -0,2
Tabela 3.1: Cálculo do vetor de assinatura do ensemble
a partir da fórmula: λ=−o. cens|cens |2 . Sendo o = (1;1;1;1;1;1;1;1;1;1), e |cens | =
p3,6,
calcula-se λ= 0,3333. Uma vez conhecido λ, pode-se calcular cr e f , a partir da
fórmula: cr e f = o +λcens (v. Tabela 3.2).
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
cr e f 0,8 0,9333 0,9333 1,2 0,8 1,0667 0,8 1,3333 0,6667 1,0667
Tabela 3.2: Vetor de referência do ensemble
Interessante observar neste exemplo que, no conceito de torque, as di-
mensões correspondentes aos padrões com maior dificuldade de classificação
sentirão um impulso mais forte (ou seja, os padrões d4, d6, d8, d10).
Por fim, uma vez calculado o vetor de referência acima, são calculados os
ângulos (em radianos) entre os vetores de assinatura dos classificadores e o
vetor de referência, tomando por base o valor do cosseno entre dos mesmos
(cosθ = cr e f .c(t )
|cr e f |.|c(t )|), conforme apresentado na Tabela 3.3.
Vetor Ângulo (rad)
c (l1) 1,4726c (l2) 1,4972c (l3) 1,9373c (l4) 1,5218c (l5) 1,4726
Tabela 3.3: Ângulos entre os vetores de assinatura dos classificadores e o vetorde referência do ensemble
49
3.4. TESTE DO ENSEMBLE FINAL
Com base nestes ângulos, inicialmente são selecionados e ordenados as-
cendentemente todos os classificadores que possuem ângulo menor que π/2,
ou seja: l1, l5,l2,l4. Em seguida, calcula-se a média dos ângulos dos vetores
desses classificadores: âng med = 1,4910. Feito este cálculo, são podados todos
os classificadores cujo âng (li ) > âng med . Ao final, o ensemble P , a ser utilizado
na classificação das amostras na fase de teste será composto apenas pelos
classificadores l1 e l5, ou seja p1 = l1 e p2 = l5, e P = p1, p2.
3.4 Teste do ensemble final
Conforme apresentado no bloco mais à direita da Figura 3.1, na terceira e úl-
tima fase são feitos os testes no ensemble P , produzido na fase anterior (poda).
Na fase de teste são apresentados novos padrões (conjunto de dados DB3), di-
ferentes dos usados nas fases anteriores, a fim de se avaliar a capacidade de
generalização do ensemble produzido. É utilizado o majority vote (Kuncheva,
2004) como método de combinação das predições individuais dos classificado-
res de P .
Dado um ensemble P = p1, . . . , pm, sendo m o número de classificadores, e
um conjunto de classes Ω= w1, . . . , wc , sendo c o número de classes existentes.
Suponha que as saídas dos classificadores pi , para cada padrão classificado,
sejam dadas por vetores binários, s = [si ,1, . . . , si ,c ]T ∈ 0,1c , i = 1, . . . ,m, sendo
si , j = 1 se pi classificar o padrão x na classe w j , e 0 caso contrário. O majority
vote resultará na decisão do ensemble para a classe wk se (Kuncheva, 2004):
m∑i=1
si ,k = cmax
j=1
m∑i=1
si , j
Empates são resolvidos arbitrariamente.
A escolha do majority vote repousa sobre a decisão da arquitetura proposta
adotar a abordagem de fusão de classificadores (v. item a da Seção 2.4), na
qual todos os classificadores do ensemble contribuem para a decisão final.
Além do fato do majority vote ser um dos métodos de combinação baseados
em fusão mais usados em sistemas de múltiplos classificadores (Ponti, 2011),
50
3.5. CONSIDERAÇÕES FINAIS
especialmente quando se utiliza estratégias de amostragem como o Bagging,
devido à possibilidade de redução da variância (Wang et al., 2012).
Métodos de combinação baseado em fusão são menos afetados por métodos
de seleção de características (ex.:Random-Subspace) do que os métodos de
combinação baseados na abordagem de seleção (Santana et al., 2007). Por isso,
ao se utilizar um método de combinação baseado em fusão de classificadores,
como majority vote, espera-se uma maior estabilidade em termos de taxa de
acerto do ensemble produzido pela arquitetura proposta, mesmo que sejam
utilizados outros métodos de seleção de características que, porventura, sejam
mais adequados ao problema de classificação a ser resolvido.
3.5 Considerações finais
Considerando a arquitetura proposta como um modelo de uso geral, sobre
o qual poderão ser aplicados diversos métodos, entendemos ser necessário
destacar alguns fundamentos sobre sistemas de múltiplos classificadores (MCS)
nos quais a mesma se baseou.
Primeiramente, o modelo aqui proposto seguiu o conceito de Arquitetura
Paralela. Neste conceito, todos os classificadores do ensemble opinam sobre
o padrão a ser classificado. Em seguida, as predições dos classificadores são
combinadas para definir a classificação final do padrão. Metodologias de gera-
ção de ensembles mais gerais usam este conceito de arquitetura, pelo fato de
ser mais simples de implementar e mais fácil de analisar (Ponti (2011);Wozniak
et al. (2014)).
Em relação ao projeto do MCS, adotou-se o conceito de otimização da
cobertura (v. seção 2.2), pois a estratégia da arquitetura proposta busca me-
lhores taxas de generalização por meio da melhor reunião de classificadores
possível, considerando critérios de desempenho, diversidade e complementa-
ridade entre eles, usando um método relativamente simples de combinação
dos classificadores. A abordagem baseada na otimização da decisão não se
aplicaria à arquitetura proposta, porque seu foco está na utilização de métodos
mais elaborados de combinação das predições individuais dos classificadores
componentes do ensemble.
Por fim, dentre os 4 níveis de abordagem para geração de ensembles descritos
51
3.5. CONSIDERAÇÕES FINAIS
em Kuncheva (2004) — A - Nível de Combinação, B - Nível de Classificador, C
- Nível de Atributos, D- Nível de Dados, a arquitetura proposta mantém seu
foco nos níveis C e D, devido à eficácia de métodos como Bagging (Breiman,
1996), que atua no nível D, e de métodos de seleção de atributos como Random-
Subspace (Ho, 1998), que atua no nível C. Além disso, como comentado na seção
2.5, esses métodos são eficazes no caso de aplicações com ruídos e redundância
de informação entre os atributos, respectivamente, a exemplo de sistemas de
credit-scoring.
52
4Experimentos e resultados
A ciência é a tentativa de fazer com que a diversidade caótica da
nossa experiência sensível corresponda a um sistema lógico
uniforme de pensamento.
—EINSTEIN (1950)
Este capítulo detalha os experimentos realizados usando a arquitetura pro-
posta, assim como os resultados obtidos. Na seção 4.1 são descritas as ca-
racterísticas das bases de dados utilizadas nos experimentos; na seção 4.2 é
apresentada a metodologia utilizada nos experimentos, inclusive no que se
refere à preparação das bases de dados, visando dar maior alcance conclusivo
aos resultados dos experimentos realizados; na seção 4.3 é definida a parame-
trização usada na configuração dos cenários adotados nos experimentos; e,
finalmente, na seção 4.4 são relacionados os resultados obtidos.
4.1 Bases de dados
Para efeito de validação da eficácia da arquitetura proposta, utilizou-se as
seguintes bases de dados de análise de crédito: Australian e German, ambas
disponíveis no UCI Machine Learning Repository (Bache e Lichman, 2013), e
que vêm sendo usadas em diversas pesquisas relacionadas a aprendizagem de
máquina em aplicações de credit scoring. As bases estão configuradas conforme
apresentado na Tabela 4.1.
A base de dados Australian possui 690 instâncias, sendo 307 (44,5%) de
bons clientes (avaliação de crédito positiva), e 383 (55,5%) de maus clientes
53
4.2. METODOLOGIA
Base de Dados Instâncias Atributos Classes
Categóricos Numéricos Positivos Negativos
Australian 690 8 6 307 383
German 1000 24 - 700 300
Tabela 4.1: Descrição das bases de dados utilizadas nos experimentos.
(avaliação de crédito negativa). Essa base possui 14 atributos de entrada mais o
atributo de classificação. Dentre os atributos de entrada, 6 são númericos con-
tínuos e 8 categóricos. Os atributos categóricos foram modificados para valores
numéricos inteiros em função da conveniência dos algoritmos estatísticos, por
exemplo, o atributo de ordem 4 originalmente tinha 3 rótulos: ’p’, ’g’, ’gg’, esses
foram trocados para: ’1’, ’2’, ’3’. Para 37 instâncias alguns atributos não haviam
sido preenchidos originalmente, nestes casos o preenchimento foi feito artifici-
almente conforme a seguinte regra: para os atributos categóricos utilizou-se a
moda das demais instâncias, e para os atributos contínuos utilizou-se a média
das demais instâncias.
A base German possui 1000 instâncias, das quais 700 (70%) são de bons
clientes e 300 (30%) de maus clientes. Esta base é fornecida em dois formatos:
a) o conjunto de dados original com 20 atributos, sendo 7 numéricos e 13
categóricos; b) e um conjunto de dados com 24 atributos apenas numéricos
para atender algoritmos que conseguem lidar apenas com variáveis categóricas.
Além dos atributos de entrada, em ambos os formatos, há ainda o atributo de
classificação. Estes experimentos usaram o segundo formato desta base de
dados.
4.2 Metodologia
Para realização dos experimentos, foi adotado o método 10-fold cross-validation
(10-fold CV) como forma de diversificação dos dados usados nas 3 fases da
arquitetura - treinamento, poda e teste, produzindo assim uma maior variedade
de classificadores, e consequentemente de ensembles a serem analisados. Os
experimentos foram conduzidos seguindo as etapas abaixo descritas:
ETP1 Normalização: em ambas as bases, os atributos numéricos, contínuos
ou com maior intervalo de variação, são normalizados no intervalo [0;1]
54
4.2. METODOLOGIA
evitando-se eventuais distorções na análise dos padrões.
ETP2 Particionamento: cada base de dados original é, aleatoriamente, divi-
dida em 10 subconjuntos de dados (folds) com quantidades iguais de
instâncias, mantendo a mesma proporção em relação aos percentuais de
classes existente na base original: 44,5% / 55,5% para a base Australian e
70% / 30% para a base German
ETP3 Agrupamento: os folds são agrupados em 3 blocos, conforme a regra
7-2-1, ou seja: a) O primeiro bloco, composto por 7 folds, é usado na fase
de treinamento dos classificadores e geração do pool de classificadores L;
b) o segundo bloco, composto por 2 folds, é usado no processamento da
fase de poda da arquitetura, produzindo o ensemble final P ; e o terceiro
bloco, contendo 1 fold, é usado na fase de testes de P . São produzidos e
armazendas 10 combinações diferentes desses folds, sempre seguindo a
regra 7-2-1, de modo que todos os folds sejam utilizados nas 3 fases da
arquitetura: treinamento, poda, e teste.
ETP4 Parametrização 1: na primeira parte da parametrização é definido o
tamanho do pool de classificadores que será gerado durante a fase de
treinamento. A arquitetura proposta é avaliada em variados tamanhos
de pool, conforme definido na Tabela 4.3. Logo, todas as etapas a seguir
são repetidas 9 vezes, uma para cada tamanho.
ETP5 Parametrização 2: nesta segunda parte da parametrização é definido
um conjunto de parâmetros de entrada que define um dos cenários sob
os quais a arquitetura será avaliada, de acordo com o apresentado na
Tabela 4.2.
ETP6 Processamento: as fases da arquitetura são executadas em 10 iterações,
usando como base de dados, em cada iteração, um dos 10 (dez) agrupa-
mentos definidos na ETP3. Dessa forma, em cada iteração um ensemble
é gerado e testado, armazenando-se a respectiva taxa de acerto.
ETP7 Cálculo do desempenho: ao final do último ciclo, é calculado a taxa
média de acerto a partir das taxas de acerto de cada um dos 10 ensembles,
produzidos na ETP6. Em seguida, volta-se à ETP5, a fim de fazer nova
parametrização de cenário de avaliação. Se este for o último cenário a
55
4.3. PARAMETRIZAÇÃO
ser avaliado, volta-se à ETP4, até que se esgotem todas configurações de
tamanho de ensemble.
ETP8 Avaliação do desempenho: Ao calcular todas as taxas médias de acerto
para todos os tamanhos de ensemble, em cada um dos cenários avaliados,
as mesmas são analisadas e comparadas entre si. O objetivo dessa compa-
ração é o de avaliar o desempenho da arquitetura proposta (construção
do pool de classificadores baseado numa estratégia de treinamento em 2
níveis, associado a um método estruturado de poda de ensembles, com
teste do ensemble usando um método de combinação baseado em fusão
de classificadores) em relação ao seu uso quando configurada com outros
métodos e estratégias.
Como método para realização dos testes estatísticos de significância, foi
adotada a distribuição t-Student, considerando um nível de significância α igual
a 5%, e (n −1) graus de liberdade, sendo n igual ao tamanho da amostra.
4.3 Parametrização
Os experimentos aqui descritos foram realizados utilizando-se um notebook
com um processador Intel Core 2 Duo de 2.20 GHz, RAM de 3 GB, e sistema ope-
racional MS-Windows 7 Ultimate. Os testes foram implementados no MATLAB,
versão 7.6.0.324 (R2008).
Para cada uma das duas bases de dados usadas nos experimentos, foram
configuradas 21 possibilidades de cenários diferentes a partir das combinações
dos parâmetros de entrada descritos abaixo, consolidados no quadro resumo
apresentado na Tabela 4.2.
1. Estratégia de treinamento do pool de classificadores: Foram usadas 3
estratégias durante a fase treinamento da arquitetura proposta: 2 delas
consideram a própria estratégia de treinamento em dois níveis (estratégia
dual): Bagging-RS e RS-Bagging. A terceira estratégia utiliza apenas o
método Bagging, referenciada neste trabalho como estratégia em 1 nível,
sendo esta implementada ao se considerar o parâmetro de taxa de seleção
de atributos do RS igual a 1,0 (Tabela 4.2).
56
4.3. PARAMETRIZAÇÃO
2. Taxa de seleção de atributos: Foram avaliadas 3 variações deste parâ-
metro: 0,5,0,6 e 0,7. Esses valores indicam a porcentagem do espaço de
características que será usado na fase de treinamento dos classificadores
componentes do pool. Por exemplo, quando a taxa de seleção for igual
a 0,6, significa que o espaço de características será reduzido, aleatoria-
mente, a 60% das características originais. Conforme apresentado no
item 1 acima, este parâmetro assume o valor 1,0 para indicar que será
considerado 100% do espaço original de características. Neste caso, o
treinamento não se dará em dois níveis, e sim em um único nível, usando
apenas o Bagging como estratégia de treinamento;
3. Método usado na fase de poda: Foram avaliadas 3 possibilidades de varia-
ção deste parâmetro: a) Poda usando integralmente o método estruturado
Orientation-Ordering (OO); b) Uso do Single Best, que significa escolher
como predição final a saída do classificador que ficar no topo da lista
ordenada, conforme os critérios de ordenação do algoritmo do OO; c)
Sem poda, isto é, o ensemble utilizado na fase de testes da arquitetura será
o mesmo produzido na fase de treinamento;
Estratégia de
Treinamento
Taxa de Seleção de
Atributos
Métodos de
Poda
Cenários
Possíveis
RS-Bagging ou
Bagging-RS
0,5; 0,6; 0,7 OO; Single Best ;
Sem Poda
18
Bagging 1,0 (sem RS) OO; Single Best ;
Sem Poda
3
Tabela 4.2: Parâmetros informados na configuração dos cenários experimentos.
Conforme citado na Seção 4.2 (etapa 4 da metodologia), para cada um dos
21 cenários avaliados, foram aplicadas 9 possibilidades de tamanho (Tabela 4.3)
para o pool de classificadores produzido, podado e testado pela arquitetura
proposta. Estes tamanhos variaram em função do produto das quantidades de
iterações que cada um dos métodos usados na fase de treinamento (estratégia
dual ou em 2 níves – Bagging e RS).
Portanto, considerando os 21 cenários acima apresentados, e os 9 tamanhos
de ensembles diferentes para cada uma desses cenários, foram analisadas 189
57
4.3. PARAMETRIZAÇÃO
taxas de acerto obtidas por cada uma dessas configurações, às quais foram
submetidas a arquitetura proposta.
No treinamento em 2 níveis, visando reduzir a eventual predominância de
um método de treinamento sobre o outro, adotou-se o mesmo número de
iterações para ambos os métodos usados nessa fase. No caso da estratégia em
apenas 1 nível, como foi realizado o treinamento usando apenas um método,
o Bagging, o número de iterações para geração dos bootstraps foi elevado à
segunda potência, mantendo assim a compatibilidade com o treinamento em 2
níveis.
Martínez-Muñoz e Suárez (2006) constataram a eficácia do algoritmo do
OO em ensembles com quantidades entre 100 e 200 classificadores do tipo
árvores de decisão, inclusive sobre as bases usadas nestes experimentos. Por
isso, na avaliação desta arquitetura foi arbitrado um intervalo de tamanhos de
ensembles que possibilitasse, com razoável margem de segurança, que o OO
pudesse realizar todo seu potencial. Assim, os experimentos foram realizados
com pools de classficadores com tamanhos variando entre 25 e 441, conforme
apresentado na Tabela 4.3.
# Iterações Tamanho do poolBagging RS
5 5 257 7 499 9 81
11 11 12113 13 16915 15 22517 17 28919 19 36121 21 441
Tabela 4.3: Tamanho dos pools de classificadores usados em cada cenário
Adotou-se como classificador base para criação dos ensembles a árvore de
decisão. Essa escolha deve-se ao fato desse tipo de classificador ser ampla-
mente utilizado na construção de MCS (Kuncheva, 2004), principalmente em
função de sua característica de instabilidade, o que propicia a diversidade na
composição dos ensembles a partir de variações na base de dados usada em seu
treinamento propiciadas pelos algoritmos Bagging e RS.
Para a geração das árvores de decisão foi utilizada a função classregtree do
58
4.4. RESULTADOS
MATLAB utilizando-se apenas atributos categóricos, com os parâmetros default
da função, dentre o eles, o critério de split utilizado foi o Índice de Diversidade
de Gini (GDI - Gini Diversity Index).
4.4 Resultados
Nesta seção são detalhados os resultados dos experimentos realizados. As
principais diretrizes dos experimentos são:
(1) Avaliar a influência de alguns dos parâmetros de entrada usados pelos mé-
todos adotados na arquitetura proposta, visando identificar configurações
que contribuam para um melhor desempenho do modelo;
(2) Comparar o desempenho da arquitetura proposta com outros modelos
usados em sistema de múltiplos classificadores.
O experimento realizado avaliou o comportamento da arquitetura proposta
a partir da variação do tamanho do pool de classificadores produzido na fase
de treinamento, da estratégia de treinamento adotada, da variação da taxas de
seleção de subespaços de características, quando do uso do Random Subspace,
e dos métodos utilizados durante a fase de poda.
Importante enfatizar, mais uma vez, que a arquitetura proposta considera
o uso de: uma das estratégias de treinamento em 2 níveis (dual) na fase de
treinamento; de um método estruturado de poda de ensembles na fase de poda,
no caso o Orientation-Ordering ; e de uma estratégia de combinação baseada
em fusão de classificadores. É necessário que isso seja destacado para que se
possa diferenciar os resultados dessa configuração das demais configurações,
ou seja, quando os métodos usados na arquitetura não são compatíveis com
a configuração proposta, como por exemplo: usar na fase de treinamento um
método em apenas 1 nível (ex.: Bagging ), ou não utilizar na fase de poda um
método estruturado de poda de ensembles, ou ainda usar o conceito Single Best.
Para iniciar a análise dos resultados, verificou-se o comportamento da ar-
quitetura variando-se a taxa de seleção do RS, e o método usado na fase de
poda, considerando-se apenas a estratégia de treinamento em 2 níveis (dual),
em ambas as possibilidades: Bagging-RS e RS-Bagging.
Como pode ser observado nas Figuras 4.1, 4.2 e 4.3, a arquitetura proposta
apresentou melhores taxas de acerto quando adotado o valor de 0,5 como taxa
59
4.4. RESULTADOS
de seleção no RS. Esses resultados podem ser melhor analisados nos 2 primei-
ros gráficos das Figuras 4.1 e 4.2. Na base de dados German esses resultados
parecem estar mais evidenciados.
Em relação à taxa de seleção, o resultado acima vem ao encontro do que
é sugerido em Ho (1998): bons resultados são obtidos para árvores de decisão
construídas sobre espaços de características cuja dimensão é metade do espaço
total. E, em relação ao tamanho do ensemble, pode-se observar que para a
arquitetura proposta, independentemente da taxa de seleção usada, há uma
maior estabilidade na taxa de acerto, na medida em que o tamanho do ensem-
ble produzido na fase de treinamento aumenta. Esta evidência, também está
em consonância com o que diz a literatura de MCS quanto à queda monotô-
nica da taxa de erro de predição na medida em que se aumenta o número de
classificadores agregados ao ensembles.
Nas demais configurações da arquitetura, nas quais não é adotado o critério
de poda usado no OO, há uma grande variação tanto em relação ao tamanho
do ensemble como em relação à taxa de seleção, não se constatando o mesmo
nível de estabilidade obtida quando da arquitetura proposta.
É interessante perceber que, quando do uso da arquitetura proposta, a
Taxa Média de Poda (TMP) alcançada pelo OO para ambas as estratégias de
treinamento, em ambas as bases de dados, mantém-se em torno de 20 a 21%
(Figuras 4.1 e 4.2). Isto mostra que, a arquitetura proposta, com taxa de seleção
igual a 0,5, além alcançar taxas médias de acerto equivalentes, e até melhores
do que as das demais configurações, o fez usando ensembles de tamanho 80%
menor do que seus equivalentes nas demais configurações.
Na Figura 4.3 são apresentadas as taxas média de acerto, para cada uma das
taxas de seleção utilizadas, independentemente da quantidade de classificado-
res. Nesta figura é possível perceber que, de uma maneira geral, à medida que
o percentual de seleção de características aumenta, o desempenho diminui,
o que é compreensível, uma vez ser comum a incidência de redundância de
atributos em aplicações de credit-scoring. Mais uma vez, pode-se notar que a
arquitetura proposta, e a taxa de seleção igual a 0,5 tem maior predominância
entre as melhores taxas de acerto.
Estes resultados são mais evidentes na base dados German (Figura 4.3b), tal-
vez pela conjugação de 3 fatores: maior quantidade de atributos (24) em relação
à base Australian (14), maior desbalanceamento entre as classes, positivos(70%)
60
4.4. RESULTADOS
Fig
ura
4.1:
Bas
ed
ed
ado
sA
ust
rali
an
-D
esem
pen
ho
da
arq
uit
etu
raem
fun
ção
do
tam
anh
od
op
ool
ori
gin
ald
ecl
assi
fica
do
res
ed
ata
xad
ese
leçã
od
eca
ract
erís
tica
s.O
sgr
áfico
sva
riam
qu
anto
:àes
trat
égia
du
alad
otad
ae
àta
xad
ese
leçã
oad
ota
da
pel
oR
and
omSu
bsp
ace
na
fase
de
trei
nam
ento
;e,a
om
éto
do
usa
do
na
fase
de
po
da.
Ata
xam
édia
de
po
da
(TM
P)
ind
ica
par
aq
uan
tofo
ired
uzi
do
ota
man
ho
do
Poo
lo
rigi
nal
.
61
4.4. RESULTADOS
Figu
ra4.
2:B
ase
de
dad
os
Ger
ma
n-
Des
emp
enh
od
aar
qu
itet
ura
emfu
nçã
od
ota
man
ho
do
poo
lo
rigi
nal
de
clas
sifi
-ca
do
res
ed
ata
xad
ese
leçã
od
eca
ract
erís
tica
s.O
sgr
áfico
sva
riam
qu
anto
:àes
trat
égia
du
alad
otad
ae
àta
xad
ese
leçã
oad
ota
da
pel
oR
an
dom
Sub
spa
cen
afa
sed
etr
ein
amen
to;e
,ao
mét
od
ou
sad
on
afa
sed
ep
od
a.A
taxa
méd
iad
ep
od
a(T
MP
)in
dic
ap
ara
qu
anto
foir
edu
zid
oo
tam
anh
od
oP
ool
ori
gin
al.
62
4.4. RESULTADOS
(a) Base de dados Australiana
(b) Base de dados Germânica
Figura 4.3: Desempenho preditivo da arquitetura em função da taxa de sele-ção. Os gráficos variam quanto: à estratégia em dois níves (dual) - Bagging-RSe RS-Bagging, adotada na fase de treinamento; e, ao método usado na fase depoda. O desempenho é avaliado com base na taxa média de acerto, calculadacomo sendo a média das taxas de acerto obtidas por cada um dos ensemble,independente de tamanho, para cada uma determinada taxa de seleção.
63
4.4. RESULTADOS
e negativos (30%), e pela maior quantidade de padrões.
Na sequência da análise dos resultados, foi verificado o desempenho da
arquitetura adotando-se como estratégia de treinamento o tradicional método
Bagging, ou seja, treinamento em 1 nível, variando-se o tamanho do ensemble
e o método utilizado na fase de poda.
Observa-se na Figura 4.4 um comportamento no qual as taxas de acerto dos
ensembles produzidos pela arquitetura configurada sem o processamento da
poda, apresenta-se ligeiramente superior em relação às demais configurações,
inclusive a que usa o OO como método de poda. Contudo, a taxa média de
poda (TMP) se mantem no patamar de 20%, o que significa que apesar de taxas
de acerto menores, a redução do custo computacional existe. Em princípio, é
possível inferir que sem a extração da redundância dos atributos, o algoritmo
de poda do OO não contribui tanto quanto na arquitetura proposta.
Vale a pena chamar a atenção de que, para ambos os cenários quanto à
estratégia de treinamento – 1 ou 2 níveis, o desempenho da arquitetura ao
utilizar o conceito do Single Best ficou bastante abaixo dos resultados obtidos
pelas configurações que usam em sua fase de teste um ensemble, podado ou
não, o que demonstra a superioridade, na aplicação de credit-scoring, do uso
de sistemas de múltiplos classificadores (MCS) em relação ao uso de um único
classificador.
As observações acima estão resumidas na Tabela 4.4, na qual encontram-se
detalhadas os valores das taxas médias para cada um dos 21 cenários possíveis
de configuração da arquitetura, assim como uma taxa média de acerto da
arquitetura proposta. Essas taxas médias foram calculadas considerando os
resultados individuais de todas as 189 combinações de configuração possíveis.
Para ambas as base de dados, a taxa de seleção igual a 0,5 aparece com o
melhor resultado em 4 das 6 possibilidades de variação de métodos na fase de
poda, o que ratifica as observações anteriores de que, independente de como é
processada a fase de poda, o uso da taxa de seleção 0,5 aumenta a probabilidade
de alcançar melhores resultados em termos de predição.
Ainda quanto ao desempenho da arquitetura proposta, pode-se perceber
pela Tabela 4.4 que esta apresenta as melhores taxas de acerto, tanto quando a
taxa de seleção do RS é igual a 0,5, como na média de todas as taxas de seleção.
A Tabela 4.5 apresenta os 10 melhores resultados obtidos, para cada estraté-
gia dual treinamento (Bagging-RS e RS-Bagging). É possível observar a forte
64
4.4. RESULTADOS
(a) Base de dados Australian
(b) Base de dados German
Figura 4.4: Desempenho da arquitetura em função da quantidade de classi-ficadores, considerando estratégia de treinamento em apenas 1 nível (Bag-ging ). As curvas referem-se ao método usado na fase de poda. A taxa média depoda (TMP) indica para quanto foi reduzido o tamanho do pool original.
65
4.4. RESULTADOS
Fase
de
Po
da
Trei
nam
ento
em1
nív
elTr
ein
amen
toem
2n
ívei
s
(Mét
od
o)
(Bag
gin
g)B
aggi
ng
-R
S(T
x.d
ese
leçã
o)
RS
-B
aggi
ng
(Tx.
de
sele
ção
)M
édia
0,5
0,6
0,7
0,5
0,6
0,7
(2n
ívei
s)
Po
da
com
OO
84,7
42±1
,552
87,2
46±1
,001
86,9
73±0
,865
86,3
60±1
,533
86,2
32±1
,120
86,2
80±0
,750
86,2
48±1
,196
86,5
57±0
,439
Sin
gle
Bes
t82
,955
±1,3
6485
,512
±0,9
1782
,705
±1,0
0482
,738
±1,2
8182
,496
±0,8
1982
,711
±0,9
1381
,851
±1,2
1485
,502
±0,3
36
Sem
Po
da
85,9
74±0
,557
86,5
86±0
,441
86,9
40±0
,303
85,5
86±0
,858
86,2
64±0
,474
86,1
67±0
,640
86,2
32±0
,829
86,4
63±0
,296
(a)
Bas
ed
ed
ado
sA
ust
rali
an
Fase
de
Po
da
Trei
nam
ento
em1
nív
elTr
ein
amen
toem
2n
ívei
s
(Mét
od
o)
(Bag
gin
g)B
aggi
ng
-R
S(T
x.d
ese
leçã
o)
RS
-B
aggi
ng
(Tx.
de
sele
ção
)M
édia
0,5
0,6
0,7
0,5
0,6
0,7
(2n
ívei
s)
Po
da
com
OO
66,7
16±2
,383
73,2
77±1
,301
71,8
44±1
,464
71,1
44±2
,130
72,4
22±1
,419
71,3
77±2
,015
70,7
33±1
,781
71,8
00±0
,929
Sin
gle
Bes
t63
,766
±1,2
2066
,600
±1,7
4066
,989
±1,3
2466
,522
±1,4
8666
,300
±1,0
4966
,411
±1,4
9666
,667
±2,1
3266
,582
±0,2
39
Sem
Po
da
68,0
94±1
,205
69,9
00±0
,606
69,8
89±0
,362
68,9
00±0
,497
71,3
78±0
,452
70,6
89±0
,468
70,5
00±0
,550
70,2
09±0
,848
(b)
Bas
ed
ed
ado
sG
erm
an
Tab
ela
4.4:
Taxa
sm
édia
sd
eac
erto
(%)
calc
ula
das
ap
arti
rd
asta
xas
de
acer
toal
can
çad
asp
elo
sen
sem
bles
de
tam
anh
ova
riad
op
ara
cad
au
md
os
21ce
nár
ios
aval
iad
os
no
sex
per
imen
tos
66
4.4. RESULTADOS
predominância do uso da arquitetura proposta, na qual o uso do método de
poda OO está presente, entre todos os resultados, chegando a 85% para a base
Australian e 100% dos melhores resultados para a base German (Tabela 4.5b).
Ao final de cada um dos quadros na Tabela 4.5 é apresentado um valor
médio de taxa de acerto para esses 10 melhores resultados. Na Tabela 4.6 são
apresentadas as médias dos 10 melhores resultados de todas as configurações
da arquitetura, considerando as 3 estratégias usadas na fase de treinamento
(em 1 ou 2 níveis), e os métodos usados na fase de poda. Quando a fase de poda
é considerada ativada significa que foram considerados para entrar no cálculo
os resultados obtidos por qualquer uma das 3 possibilidades de parametrização
da fase de poda: OO, Single Best, Sem Poda, desde que alguns destes estejam
entre os 10 melhores. Quando a fase de poda está como desativada significa
que foram considerados apenas os 10 melhores resultados da parametrização
"Sem Poda". Na escolha desses resultados para cálculo da taxa média não foram
considerados como filtro, nem as taxas de seleção nem o tamanho do pool de
classificadores.
Em princípio, nota-se que entre os resultados apresentados na Tabela 4.6,
as melhores taxas de acerto são aquelas alcançadas pela arquitetura proposta
quando usada a estratégia treinamento dual Bagging-RS. Essa observação é
válida tanto para a base Australian – 87,870±0,368 (Tabela 4.6a), como para a
base German – 73,590±0,530 (Tabela 4.6b). Aplicou-se então o teste estatístico
baseado na distribuição t-Student, considerando um nível de significância
igual 5%, e constatou-se que essas duas taxas eram, de fato, significativamente
superiores às das demais configurações nas respectivas bases de dados. Ainda
na Tabela 4.6, verificou-se, pelo mesmo teste estatístico, que a segunda melhor
taxa de acerto também foi apresentada pela arquitetura proposta, sendo que,
dessa vez, a estratégia dual usada foi o RS-Bagging, ou seja: 87,130±0,191 e
73,030±0,058, para as bases Australian e German, respectivamente.
É ainda de se observar que, há 3 situações de predomínio parcial de um
dos métodos usados na fase de poda. Foi constatado nos experimentos que
para nenhum deles os resultados que complementam os 100% dos 10 melhores,
a poda acontece por meio do conceito Single Best. Isto signfica que este mé-
todo não aparece em nenhuma lista dos 10 melhores resultados em qualquer
configuração de parâmetros da arquitetura.
67
4.4. RESULTADOSB
aggi
ng-
RS
RS-
Bag
gin
gTa
m.d
oP
ool
Tx.
Sel.
Mét
.Po
da
Tx.
Ace
rto
(%)
Tx.
Po
da(
%)
Tam
.do
Poo
lT
x.Se
l.M
ét.P
od
aT
x.A
cert
o(%
)T
x.P
od
a(%
)28
90,
5O
O88
,696
±4,5
7322
,526
±1,7
2212
10,
6O
O87
,391
±4,7
3620
,992
±2,2
7828
90,
7O
O88
,116
±3,1
9021
,488
±1,3
9849
0,5
OO
87,3
91±5
,205
23,0
61±3
,972
121
0,6
OO
87,9
71±3
,280
22,4
79±2
,608
225
0,7
OO
87,3
91±6
,188
20,9
78±1
,537
169
0,6
OO
87,9
71±3
,487
21,7
16±2
,572
169
0,6
OO
87,1
01±5
,087
21,5
98±2
,371
121
0,5
OO
87,8
26±4
,053
22,5
62±1
,870
810,
7Se
mPo
da
87,1
01±5
,312
N/A
490,
5O
O87
,826
±3,9
9522
,653
±3,3
9516
90,
6Se
mPo
da
87,1
01±5
,734
N/A
361
0,7
OO
87,8
26±4
,111
21,9
94±1
,352
810,
7O
O86
,957
±5,0
2020
,988
±2,2
5428
90,
6O
O87
,536
±3,8
1622
,353
±2,2
4416
90,
5O
O86
,957
±5,7
1621
,479
±1,5
0344
10,
5O
O87
,536
±3,8
1623
,061
±2,3
6622
50,
5Se
mPo
da
86,9
57±4
,099
N/A
441
0,6
OO
87,3
91±3
,553
21,7
46±1
,928
121
0,5
OO
86,9
57±4
,831
21,7
36±2
,943
Taxa
sM
édia
s=
==
>87
,870
±0,3
6822
,258
±0,4
9987
,130
±0,1
9121
,547
±0,7
39
(a)
Bas
ed
ed
ado
sA
ust
rali
an
Bag
gin
g-R
SR
S-B
aggi
ng
Tam
.do
Poo
lT
x.Se
l.M
ét.P
od
aT
x.A
cert
o(%
)T
x.P
od
a(%
)Ta
m.d
oP
ool
Tx.
Sel.
Mét
.Po
da
Tx.
Ace
rto
(%)
Tx.
Po
da(
%)
810,
5O
O74
,500
±2,0
1420
,123
±2,0
2028
90,
5O
O73
,700
±2,0
5821
,972
±1,3
1836
10,
5O
O74
,300
±2,7
9120
,693
±1,4
0744
10,
5O
O73
,700
±2,7
9121
,134
±1,5
6344
10,
5O
O74
,000
±2,8
6720
,748
±0,5
7836
10,
6O
O73
,500
±2,7
5920
,886
±1,2
4049
0,5
OO
73,8
00±2
,860
20,8
16±3
,574
810,
5O
O73
,400
±2,5
0320
,494
±2,9
2212
10,
5O
O73
,400
±2,8
7521
,653
±2,9
1012
10,
5O
O73
,400
±3,6
2720
,826
±2,9
3628
90,
6O
O73
,400
±1,8
9720
,000
±1,4
1122
50,
5O
O73
,000
±3,5
5920
,089
±1,4
9322
50,
6O
O73
,300
±2,8
6921
,156
±0,9
1822
50,
6O
O72
,600
±4,0
8820
,622
±1,3
2828
90,
5O
O73
,100
±3,3
8120
,415
±1,5
9844
10,
6O
O72
,400
±2,0
6619
,660
±1,0
0336
10,
6O
O73
,100
±2,6
0120
,693
±1,1
0122
50,
7O
O72
,300
±2,0
5819
,556
±2,2
3716
90,
6O
O73
,000
±3,4
6421
,065
±1,8
7544
10,
7O
O72
,300
±3,1
2920
,159
±1,7
74Ta
xas
Méd
ias
==
=>
73,5
90±0
,530
20,7
36±0
,489
73,0
30±0
,581
20,5
40±0
,723
(b)
Bas
ed
ed
ado
sG
erm
an
Tab
ela
4.5:
10M
elh
ore
sTa
xas
de
Ace
rto
ob
tid
asen
tre
tod
asas
con
figu
raçõ
esu
tiliz
adas
na
arq
uit
etu
ra,c
on
sid
eran
do
afa
sed
etr
ein
amen
toem
2n
ívei
s
68
4.4. RESULTADOS
Fase de Estratégia de Fase de Método Predominante Tx. Média de Tx. Média de
Treinamento Treinamento Poda na Fase de Poda Acerto(%) Poda(%)
2 Níveis Bagging-RS Ativada 100% OO 87,870±0,368 22,258±0,499
2 Níveis Bagging-RS Desativada N/A 87,188±0,170(−) N/A
2 Níveis RS-Bagging Ativada 70% OO 87,130±0,191(−) 21,547±0,739
2 Níveis RS-Bagging Desativada N/A 86,797±0,210(−) N/A
1 Nível Bagging Ativada 60% Sem Poda 86,507±0,241(−) 20,391±0,137
1 Nível Bagging Desativada N/A 86,362±0,383(−) N/A
(a) Base de dados Australian
Fase de Estratégia de Fase de Método Predominante Tx. Média de Tx. Média de
Treinamento Treinamento Poda na Fase de Poda Acerto(%) Poda(%)
2 Níveis Bagging-RS Ativada 100% OO 73,590±0,530 20,736±0,489
2 Níveis Bagging-RS Desativada N/A 70,250±0,292(−) N/A
2 Níveis RS-Bagging Ativada 100% OO 73,030±0,058(−) 20,540±0,723
2 Níveis RS-Bagging Desativada N/A 71,500±0,323(−) N/A
1 Nível Bagging Ativada 60% Sem Poda 69,160±0,276(−) 21,978±1,727
1 Nível Bagging Desativada N/A 68,950±0,450(−) N/A
(b) Base de dados German
Tabela 4.6: Taxas médias de acerto dos 10 melhores resultados obtidos emcada uma das configurações utilizadas pela arquitetura, usando na fase detreinamento estratégias em 1 ou 2 níveis, independentemente da taxa de seleçãoutilizada no Random Subspace e tamanho do pool de classificadores, e variandona fase de poda o método utilizado, isto é: OO, Single Best, Sem poda. Emnegrito, a taxa de acerto usada como base de comparação para o teste estatístico(t-Student). O símbolo (−) indica que cada uma dessas taxas é significativamentemenor do que a taxa em negrito.
Na Tabela 4.7 são apresentadas as médias dos 10 melhores resultados quando
a arquitetura é processada tendo como método de poda o conceito de single
best, no qual a classificação na fase de teste se dá pela predição de um único clas-
sificador, escolhido como sendo aquele classificado no topo da lista ordenada
produzida pelo algoritmo Orientation-Ordering.
As taxas médias de acerto alcançadas pelo Single Best encontram-se muito
abaixo de suas equivalentes descritas na Tabela 4.6, indo ao encontro da li-
teratura, como apresentado no capítulo 2, que vem demonstrando a maior
eficiência de técnicas de combinação de classificadores em relação às predições
realizadas por um único classificador.
69
4.4. RESULTADOS
Fase de Estratégia de Taxa Média de Acerto(%)
Treinamento Treinamento Base Australian Base German
2 níveis Bagging-RS 82,652±1,041 66,704±1,482
2 níveis RS-Bagging 82,356±1,028 66,459±1,566
1 nível Bagging 83,956±0,842 64,610±0,613
Tabela 4.7: Taxas médias de acerto dos 10 melhores resultados obtidos pelaarquitetura ao usar o conceito do Single Best na fase de poda.
Após toda a análise de resultados acima realizada, é possível chegar-se ao
entendimento de que as taxas de acerto obtidas pela arquitetura proposta su-
peraram as alcançadas quando da utilização de estratégia de treinamento em
1 nível, no caso do Bagging, com ou sem poda, além de superar os resultados
obtidos pelo conceito de single best. A arquitetura proposta alcançou ainda
taxas de acertos equivalentes ou superiores às obtidas mesmo quando foi apli-
cada a estratégia de treinamento em 2 níveis, mas sem o processamento da
poda. Neste último caso, é relevante ressaltar que os resultados da arquitetura
proposta sempre foram obtidos com ensembles de tamanho em torno de 20%
dos seus equivalentes nas demais configurações.
Comparamos nossos resultados com os apresentados por Wang et al. (2012)
e Martínez-Muñoz e Suárez (2006). O primeiro propôs o uso da estratégia de
treinamento dual, ou em 2 níveis, usando Bagging e Random-Subspace sem
uso de métodos de poda, e o segundo apresentou o OO -Orientation-Ordering
como método de poda de ensembles, usando apenas o Bagging como estratégia
de treinamento.
Embora haja diferenças de metodologias usadas nos experimentos e da
forma de apresentação dos resultados, esta comparação pode servir como mais
um referencial para avaliação da eficiência da arquitetura proposta. Ambos os
trabalhos também usaram as bases Australian e German em suas análises.
Wang et al. (2012) apresentaram como melhores resultados para a base de
dados Australian a estratégia Bagging-RS, com taxa de acerto 88,01%, taxa de
seleção de 0,7, e ensemble com 150 classificadores. Para a base German as
estratégias e taxa de seleção foram as mesmas, porém com taxa de acerto de
78,52% e 100 classificadores por emsemble.
70
4.4. RESULTADOS
Martínez-Muñoz e Suárez (2006) apresentaram seus resultados na forma de
taxa de erro. A menor taxa de erro obtida na base Australian foi de 14,1%±2,2, o
que corresponderia a uma taxa de acerto em torno de 85,9%. O procedimento de
poda reduziu o ensemble a 19% da sua dimensão original. Para a base German
a menor taxa de erro foi de 25,4%±1,7%, correspondendo a um taxa de acerto
em torno de 74.6%. A poda reduziu o ensemble a 16,5% do seu tamanho original.
Para ambas as bases, o ensemble original continha 200 classificadores.
Como pode ser observado na Tabela 4.5, a arquitetura proposta alcançou
para a base Australian taxas de acerto superiores ou similares a ambos os
trabalhos acima. Na comparação específica com os resultados de Wang et al.
(2012), é importante observar ainda que: i) as taxas da obtidas pela arquitetura
proposta foram alcançadas por ensembles com 40% do tamanho do ensemble
de melhor resultado de Wang et al. (2012); ii) os melhores resultados também
aparecem na sequência Bagging-RS. Na comparação com os resultados de
Martínez-Muñoz e Suárez (2006), observa-se que as reduções na dimensão dos
ensembles decorrente da poda encontram-se na mesma ordem de grandeza,
próximas a 20%.
Para a base de dados German, observando ainda a Tabela 4.5 e considerando
o desvio padrão ali apresentado, as taxas de acerto de Wang et al. (2012) apa-
recem ligeiramente superiores às obtidas pela arquitetura proposta. Contudo,
esta última alcançou seus melhores resultados com ensembles de tamanho
50% menor do que o tamanho do ensemble de melhor resultado de Wang et al.
(2012). Na comparação com os resultados de Martínez-Muñoz e Suárez (2006),
as taxas de acerto praticamente se equivalem, com um pequena superioridade
da taxa de poda alcançada por Martínez-Muñoz e Suárez (2006).
71
5Conclusões e trabalhos futuros
Acima de tudo é preciso saber como terminar . . . .
—ROUSSEAU (1745)
Os estudos realizados neste trabalho buscaram estruturar um modelo que
possibilitasse associar métodos desenvolvidos no campo da combinação de
classificadores. A ideia fundamental foi a de criar uma arquitetura que orga-
nizasse a associação de alguns desses métodos, com foco no treinamento e
na poda de ensembles, visando potencializar seus pontos fortes, de maneira a
se obter ganhos no desempenho preditivo do sistema de classificação, a cus-
tos computacionais menores do que quando processados sem a utilização do
processamento da poda.
Para validar a eficácia deste modelo de arquitetura, a mesma foi aplicada
na área de credit-scoring, uma vez que as bases de dados relacionadas a esta
aplicação são caracterizadas por dados com ruído e redundância de atributos,
possibillitando assim uma avaliação com um maior grau de exigência quanto
aos métodos utilizados. Foram utilizadas nos experimentos 2 bases de dados
do UCI Machine Learning Repository – Australian e German.
O modelo desenvolvido, descrito em detalhes no capítulo 3, é composto
por 3 fases - Treinamento, Poda e Teste. Em cada uma dessas fases é possível a
utilização de determinados métodos, cuja eficiência já tenha sido comprovada.
Para a aplicação escolhida, foi adotada a árvore de decisão como classifi-
cador base para construção dos ensembles. A arquitetura proposta empregou
na fase de treinamento um método baseado no conceito de treinamento em 2
níveis, também conhecido como estratégia dual de treinamento, na qual dois
72
métodos especializados em tratar as questões de ruído nos dados (Bagging ) e
de redundância de atributos (Random Subspace) são combinados a fim de trei-
narem os classificadores, formando assim um pool de classificadores inicial. Os
métodos foram combinados tanto na ordem em que primeiro trata-se o ruído e
depois a redundância, como na ordem inversa - Bagging-RS e RS-Bagging.
Uma vez treinado este pool de classificadores, o mesmo passa à fase de poda
da arquitetura. Nesta fase o pool é submetido a um método de poda baseado
no conceito de ranqueamento (ranking ), no qual os classificadores do pool são
ordenados conforme uma função de avaliação de importância dos mesmos,
sendo selecionados aqueles que estejam melhor posicionados na ordenação,
segundo determinado critério de corte. O método usado na fase de poda foi o
Orientation-Ordering (OO). Após a poda então o ensemble é testado, utilizando
o majority vote como método de combinação das predições dos classificadores.
Como forma de comparar a eficiência da arquitetura, utilizando os métodos
acima descritos, a mesma foi configurada variando-se um conjunto de parâ-
metros como: a) a estratégia de treinamento – se em 1 nível (Bagging ) ou 2
níveis (Bagging-RS e RS-Bagging ); b) o tamanho do pool de classificadores a
ser treinado; c) a taxa de seleção de características usada pelo algoritmo do
Random-Subspace; d) a estratégia de poda utilizada - OO, Single Best, e Sem
Poda. No capítulo 4 os resultados obtidos a partir destas configurações dos
parâmetros são apresentadas.
A partir das variações dos métodos em cada uma das fases, foi possível
avaliar a eficiência da arquitetura proposta, isto é, composta pelos métodos
recomendados: estratégia de treinamento dual (em 2 níveis), poda usando um
método especializado, no caso o OO, e método de combinação majority vote.
Os resultados obtidos mostraram uma forte predominância dos resultados
da arquitetura proposta, obtendo as melhores taxas médias de acerto em rela-
ção a outras configurações da mesma, onde não foram adotados os métodos
adequados. No que se refere às taxas médias de poda alcançadas pelo OO, as
mesmas orbitaram em torno de 20 a 21%. A arquitetura, em sua forma com-
pleta, usando o valor de 0,5 como taxa de seleção de características, chegou
a alcançar taxas médias de acerto de 87,246±1,001 para a base Australian, e
de 73,277±1,301 para a base German. Esse desempenho foi superior aos das
demais configurações da arquitetura, acrescido ainda do fato de que a mesma
operou com ensembles de tamanhos da ordem de 20% dos seus equivalentes
73
5.1. CONTRIBUIÇÕES
nas demais configurações.
Sendo assim, para a solução de problemas de credit-scoring usando árvores
de decisão como classificador base, a arquitetura proposta pode ser uma alter-
nativa eficiente e de custo computacional menor quando comparadas a outros
modelos que usam:
• uma estratégia de treinamento em 1 nível (Bagging ), associada ou não
um processo de poda;
• uma estratégia de treinamento em 2 níveis, mas não usam um processo
de poda de ensembles específico;
• uma estratégia de treinamento em 2 níveis, porém, adotando modelos
com um único classificador(Single Classifier).
Por fim, é possível que, a depender da aplicação, outros métodos de treina-
mento, poda e combinação possam ser aplicados a esta arquitetura, criando
assim a possibilidade de se alcançar desempenhos preditivos ainda superiores
aos obtidos neste trabalho.
5.1 Contribuições
Este trabalho traz como principais contribuições:
• A formulação de um modelo que torna possível o uso conjugado e com-
plementar de métodos de treinamento e poda de ensembles de eficácias
já comprovadas. Este modelo possibilita a potencialização dos pontos
fortes desses métodos em favor de um melhor desempenho preditivo do
sistema sobre o problema ao qual este foi aplicado;
• Experimentos que mostraram a eficácia dessa arquitetura em uma apli-
cação de credit-scoring, utilizando uma estratégia de treinamento em 2
níveis, associada a um processo de poda de ensembles baseado no con-
ceito de ranking ;
• Experimentos que contribuiram para validar o desempenho superior de
sistemas de múltiplos classificadores sobre métodos de classificação de
padrões baseados em um único classificador base;
74
5.2. TRABALHOS FUTUROS
• Experimentos que demonstraram a criação de mais um método que possi-
bilita o uso de ensembles compostos por árvores de decisão em aplicações
de credit-scoring ;
5.2 Trabalhos futuros
Pela possibilidade de variação dos métodos adotados em cada uma das fases da
arquitetura proposta, é possível configurá-la de uma forma muito diversificada.
Por isso, alguns trabalhos que poderiam ser desenvolvidos a partir de agora
seriam:
• Estudar o uso da arquitetura proposta, adotando na fase de poda o mé-
todo Ensemble Pruning via Individual Contribution Ordering (EPIC) (Lu
et al., 2010). O EPIC utiliza como critérios de seleção dos classificadores
que formarão o subensemble algumas de suas características individuais,
além de medidas de diversidade entre eles. O EPIC superou em desempe-
nho o método Orientation-Ordering em experimentos realizados sobre
26 bases de dados UCI, considerando problemas de aprendizagem en-
volvendo classificação binária. Embora, dentre estas bases, não estejam
relacionadas as utilizadas nos experimentos deste estudo – Australian e
German, é possível que, ao se aplicar este método na arquitetura proposta
neste trabalho, a mesma apresente ainda um melhor desempenho do que
com o OO;
• Investigar o desempenho da arquitetura na solução de outros tipos de
aplicações, inclusive aquelas que envolvam problemas com múltiplas clas-
ses, adotando outros modelos de classificadores base, como por exemplo:
redes neurais artificiais ou máquinas de vetor de suporte. É possível que,
neste caso, seja interessante ajustar o método de combinação na fase de
teste da arquitetura, saindo de uma abordagem no nível abstrato, como
o Majority Vote, para outros métodos que possuam abordagens de rank
ou medição;
• Avaliar, como alternativa para tratar a questão de redundância de atri-
butos, a possibilidade de combinação de outros métodos de seleção de
características, aleatórios ou não, ou ainda métodos de extração de carac-
terísticas durante a fase de treinamento.
75
Referências
Abrahams, C. R. e Zhang, M. (2008). Fair lending compliance: intelligence and
implications for credit risk management , volume 13. Wiley. com.
Bache, K. e Lichman, M. (2013). UCI machine learning repository.
Breiman, L. (1996). Bagging predictors. Machine Learning , 24(2), 123–140.
Breve, F., Ponti-Junior, M., e Mascarenhas, N. (2007). Multilayer perceptron
classifier combination for identification of materials on noisy soil science
multispectral images. In Brazilian Symposium on Computer Graphics and
Image Processing , pp. 239–244.
Dai, Q. (2013). A competitive ensemble pruning approach based on cross-
validation technique. Knowledge-Based Systems, 37(0), 394 – 414.
Dietterich, T. (2000). Ensemble methods in machine learning. In Multiple
Classifier Systems, volume 1857 of Lecture Notes in Computer Science, pp. 1–15.
Springer Berlin Heidelberg.
Dietterich, T. G. e Bakiri, G. (1995). Solving multiclass learning problems via
error-correcting output codes. CoRR, cs.AI/9501101.
Freund, Y. e Schapire, R. E. (1997). A decision-theoretic generalization of on-
line learning and an application to boosting. Journal of Computer and System
Sciences, 55(1), 119 – 139.
Fumera, G. e Roli, F. (2005). A theoretical and experimental analysis of li-
near combiners for multiple classifier systems. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 27(6), 942–956.
Hand, D. J. e Henley, W. E. (1997). Statistical classification methods in consu-
mer credit scoring: a review. Journal of the Royal Statistical Society: Series A
(Statistics in Society), 160(3), 523–541.
Ho, T. K. (1998). The random subspace method for constructing decision
forests. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 20(8),
832–844.
76
5.2. TRABALHOS FUTUROS
Ho, T. K. (2001). Data complexity analysis for classifier combination. In
Multiple Classifier Systems, pp. 53–67. Springer.
Ko, A. H., Sabourin, R., Britto, A. S., e Jr. (2008). From dynamic classifier
selection to dynamic ensemble selection. Pattern Recognition, 41(5), 1718 –
1731.
Kuncheva, L. I. (2004). Combining Pattern Classifiers: methods and algorithms.
Wiley-Interscience.
Lu, Z., Wu, X., Zhu, X., e Bongard, J. (2010). Ensemble pruning via individual
contribution ordering. In ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining , pp. 871–880.
Margineantu, D. D. e Dietterich, T. G. (1997). Pruning adaptive boosting. In
International Conference on Machine Learning (ICML), volume 97, pp. 211–218.
Marqués, A., García, V., e Sánchez, J. (2012a). Exploring the behaviour of
base classifiers in credit scoring ensembles. Expert Systems with Applications,
39(11), 10244 – 10250.
Marqués, A., García, V., e Sánchez, J. (2012b). Two-level classifier ensembles
for credit risk assessment. Expert Systems with Applications, 39(12), 10916 –
10922.
Martınez-Munoz, G. e Suárez, A. (2004). Aggregation ordering in bagging. In
IASTED International Conference on Artificial Intelligence and Applications,
pp. 258–263.
Martinez-Muñoz, G., Hernandez-Lobato, D., e Suarez, A. (2009). An analysis of
ensemble pruning techniques based on ordered aggregation. IEEE Transacti-
ons on Pattern Analysis and Machine Intelligence, 31(2), 245–259.
Martínez-Muñoz, G. e Suárez, A. (2006). Pruning in ordered bagging ensembles.
In International Conference on Machine Learning , pp. 609–616.
Nanni, L. e Lumini, A. (2009). An experimental comparison of ensemble of
classifiers for bankruptcy prediction and credit scoring. Expert Systems with
Applications, 36, 3028 – 3033.
77
5.2. TRABALHOS FUTUROS
Ponti, M. P. (2011). Combining classifiers: from the creation of ensembles to
the decision fusion. In Conference on Graphics, Patterns and Images Tutorials,
pp. 1–10.
Rodriguez, J., Kuncheva, L., e Alonso, C. (2006). Rotation forest: A new classifier
ensemble method. Pattern Analysis and Machine Intelligence, IEEE Transacti-
ons on, 28(10), 1619–1630.
Rosenberg, E. e Gleit, A. (1994). Quantitative methods in credit management:
a survey. Operations research, 42(4), 589–613.
Santana, L. E. A., de Oliveira, D. F., Canuto, A. M., e de Souto, M. C. P. (2007). A
comparative analysis of feature selection methods for ensembles with different
combination methods. In International Joint Conference on Neural Networks,
pp. 643–648.
Schapire, R. E. (1990). The strength of weak learnability. Machine learning ,
5(2), 197–227.
Selfridge, O. G. (1958). Pandemonium: a paradigm for learning in mecha-
nisation of thought processes. In Symposium Held at the National Physical
Laboratory, pp. 513–526.
Soares, R., Santana, A., Canuto, A., e De Souto, M. C. P. (2006). Using accuracy
and diversity to select classifiers to build ensembles. In International Joint
Conference on Neural Networks, pp. 1310–1316.
Thomas, L. C., Edelman, D. B., e Crook, J. N. (2002). Credit scoring and its
applications. SIAM Mathematical Modeling and Computation.
Tsoumakas, G., Partalas, I., e Vlahavas, I. (2009). An ensemble pruning primer.
In O. Okun e G. Valentini, editors, Applications of Supervised and Unsupervised
Ensemble Methods, volume 245 of Studies in Computational Intelligence, pp.
1–13. Springer Berlin Heidelberg.
Tumer, K. e Ghosh, J. (1996). Error correlation and error reduction in ensemble
classifiers. Connection science, 8(3-4), 385–404.
Wang, G., Ma, J., Huang, L., e Xu, K. (2012). Two credit scoring models based
on dual strategy ensemble trees. Knowledge-Based Systems, 26(0), 61–68.
78
5.2. TRABALHOS FUTUROS
Wolpert, D. e Macready, W. (1997). No free lunch theorems for optimization.
IEEE Transactions on Evolutionary Computation, 1(1), 67–82.
Wozniak, M., Graña, M., e Corchado, E. (2014). A survey of multiple classifier
systems as hybrid systems. Information Fusion, 16(0), 3 – 17. Special Issue on
Information Fusion in Hybrid Intelligent Fusion Systems.
Xu, L., Krzyzak, A., e Suen, C. (1992). Methods of combining multiple classifiers
and their applications to handwriting recognition. , IEEE Transactions on
Systems, Man and Cybernetics, 22(3), 418–435.
Zhou, Z.-H. e Tang, W. (2003). Selective ensemble of decision trees. In G. Wang,
Q. Liu, Y. Yao, e A. Skowron, editors, Rough Sets, Fuzzy Sets, Data Mining, and
Granular Computing , volume 2639 of Lecture Notes in Computer Science, pp.
476–483. Springer Berlin Heidelberg.
Zhou, Z.-H., Wu, J., e Tang, W. (2002). Ensembling neural networks: Many
could be better than all. Artificial Intelligence, 137(1–2), 239 – 263.
79