Abordagens baseadas em Teoria da Informação para Seleção ... · Jesus, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos

Universidade Federal do Rio Grande do NorteCentro de Ciências Exatas e da Terra

Departmento de Informática e Matemática AplicadaPrograma de Pós-Graduação em Sistemas e Computação

Mestrado Acadêmico em Sistemas e Computação

Abordagens baseadas em Teoria da Informaçãopara Seleção Automatizada de Atributos

Jhoseph Kelvin Lopes de Jesus

Natal-RN

Setembro 2018

Jhoseph Kelvin Lopes de Jesus

Abordagens baseadas em Teoria da Informação paraSeleção Automatizada de Atributos

Dissertação de Mestrado apresentada ao Pro-grama de Pós-Graduação em Sistemas eComputação do Departamento de Informá-tica e Matemática Aplicada da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deMestre em Sistemas e Computação.

Linha de pesquisa:Processamento Gráfico e Inteligência Com-putacional

Orientadora e Coorientador

Dra. Anne Magály de Paula Canuto

Dr. Daniel Sabino Amorim de Araújo

PPgSC – Programa de Pós-Graduação em Sistemas e ComputaçãoDIMAp – Departamento de Informática e Matemática Aplicada

CCET – Centro de Ciências Exatas e da TerraUFRN – Universidade Federal do Rio Grande do Norte

Natal-RN

Setembro 2018

Jesus, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleçãoautomatizada de atributos / Jhoseph Kelvin Lopes de Jesus. -2018. 107f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grandedo Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Sistemas e Computação. Natal, 2018. Orientadora: Anne Magály de Paula Canuto. Coorientador: Daniel Sabino Amorim de Araújo.

1. Computação - Dissertação. 2. Seleção de atributos -Dissertação. 3. Comitês de classificadores - Dissertação. 4.Teoria da informação - Dissertação. 5. Análise de dados -Dissertação. 6. Algoritmos de agrupamento - Dissertação. 7.Fronteira de pareto - Dissertação. I. Canuto, Anne Magály dePaula. II. Araújo, Daniel Sabino Amorim de. III. Título.

RN/UF/CCET CDU 004

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Elaborado por Joseneide Ferreira Dantas - CRB-15/324

Primeiramente, dedico este trabalho a Deus, mantenedor de toda vida. E em segundo

lugar, mas não menos importante, aos meus pais, Joanes e Jacqueline, por tudo.

Agradecimentos

Primeiramente, agradeço a Deus por me conceder o dom da vida e a oportunidade de

diariamente viver esse sonho.

À minha família, por todo amor e carinho nos momentos difíceis, e por toda atenção

e suporte para que fosse possível realizar esse mestrado.

À minha companheira, Priscilla, pela paciência em todo o processo que é fazer uma

pós-graduação (mesmo passando pela mesma fase) e pelas palavras de motivação quando

eu acreditei que não seria possível.

À minha orientadora, Anne Magály, por todo conhecimento compartilhado, pelos

puxões de orelha e pela oportunidade de hoje estar escrevendo esse agradecimento. Seus

conselhos certamente fizeram de mim, um pesquisador e uma pessoa melhor. Não tenho

palavras para descrever o quão grato eu sou a você. Muito obrigado, professora!

À meu orientador, Daniel Sabino, por me aceitar como aluno de IC em meados de

2015, me dando a oportunidade de iniciar na pesquisa e a incentivar minha escolha sobre

seguir na carreira acadêmica. Seus conselhos foram essenciais para que hoje eu pudesse

estar aqui.

Agradeço aos meus amigos de jornada do PPgSC (Vânia, Carine, Bártira, Jéssica,

Luana e Samuel), por todas os dias (e noites) trocando conhecimento (superando Algo-

ritmos e Estrutura de Dados), enfrentando os obstáculos e, celebrando as conquistas dia

a dia.

Agradeço ao CNPq pelo suporte financeiro fornecido, sem o mesmo não seria possível

a dedicação na produção deste trabalho.

"O mais importante da vida não é a situação em que estamos, mas a direção para a

qual nos movemos."

Oliver Wendell Holmes

Abordagens baseadas em Teoria da Informação paraSeleção Automatizada de Atributos

Autor: Jhoseph Kelvin Lopes de Jesus

Orientador(a): Dra. Anne Magály de Paula Canuto

Coorientador: Dr. Daniel Sabino Amorim de Araújo

ResumoCom o rápido crescimento de dados complexos em aplicações do mundo real, a seleção

de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação

para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários

trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das

abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns

critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única

abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos

números de atributos feita pelo usuário podem levar a uma queda de desempenho das

técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvi-

mento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira

está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que

utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algo-

ritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão

de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de

seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atri-

butos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção

dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pa-

reto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir

automaticamente o número de atributos para selecionar. As abordagens propostas foram

testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que,

quando comparado com métodos de seleção individuais, o desempenho de um dos métodos

propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as

abordagens propostas também alcançaram desempenho superiores quando comparados a

métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados

originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um

efeito positivo no desempenho de tarefas de classificação.

Palavras-chave: Seleção de Atributos, Comitês, Teoria da Informação, Análise de Dados,

Algoritmos de Agrupamento, Fronteira de Pareto.

Information Theory based Approaches to AutomatedFeature Selection

Author: Jhoseph Kelvin Lopes de Jesus

Supervisor: Dra. Anne Magály de Paula Canuto

Co-supervisor: Dr. Daniel Sabino Amorim de Araújo

AbstractWith the fast growing of complex data in real world applications, the feature selection

becomes a mandatory preprocessing step in any application to reduce both the complexity

of the data and the computing time. Based on that, several works have been produced in

order to develop efficient methods to perform this task. Most feature selection methods

select the best attributes based on some specic criteria. Although some advancement has

been made, a poor choice of a single algorithm or criteria to assess the importance of at-

tributes, and the arbitrary choice of attribute numbers made by the user may lead to poor

analysis. In order to overcome some of these issues, this paper presents the development

of two strands of automated attribute selection approaches. The first are fusion methods

of multiple attribute selection algorithms, which use ranking-based strategies and clas-

sifier ensembles to combine feature selection algorithms in terms of data (Data Fusion)

and decision (Fusion Decision), allowing researchers to consider different perspectives in

the attribute selection stage. The second strand approaches the dynamic feature selection

context through the proposition of the PF-DFS method, an improvement of a dynamic

feature selection algorithm, using the idea of Pareto frontier multiobjective optimization,

which allows us to consider different perspectives of the relevance of the attributes and

to automatically define the number of attributes to select. The proposed approaches were

tested using several real and artificial databases and the results showed that when com-

pared to individual selection methods, the performance of one of the proposed methods is

remarkably higher. In fact, the results are promising since the proposed approaches have

also achieved superior performance when compared to established dimensionality reduc-

tion methods, and by using the original data sets, showing that the reduction of noisy

and/or redundant attributes may have a positive effect on the performance of classification

tasks.

Keywords : Feature Selection, Ensembles,Information Theory, Data Analysis, Clustering

Algorithms, Pareto Front.

Lista de figuras

1 Regiões de dominância, retirado de (PEREZ, 2012). . . . . . . . . . . . p. 36

2 Fusão de Dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

3 Fusão de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49

4 Fase de Validação do DFS (NUNES et al., 2016). . . . . . . . . . . . . . . p. 53

5 Fase de Validação do PF-DFS. . . . . . . . . . . . . . . . . . . . . . . . p. 54

6 Fase de Treino do DFS (NUNES et al., 2016). . . . . . . . . . . . . . . . p. 54

7 Fase de Treino do PF-DFS. . . . . . . . . . . . . . . . . . . . . . . . . p. 55

8 Fase de Teste do DFS e PF-DFS. . . . . . . . . . . . . . . . . . . . . . p. 55

Lista de tabelas

1 Descrição das Bases de Dados. . . . . . . . . . . . . . . . . . . . . . . . p. 61

2 Número de atributos para as versões de tamanho: Máximo e Média . . p. 66

3 Resultados da Análise Comparativa entre os Métodos de Fusão, Algorit-

mos de Redução Existentes e No-FS . . . . . . . . . . . . . . . . . . . . p. 68

4 Resultados dos Testes Estatísticos da Análise Comparativa dos Méto-

dos de Fusão. 1 - Fusão de Decisão, 2 - Fusão de Dados, 3 - PCA, 4 -

RANDOM e 5 - No-FS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 70

5 Resultados utilizando Diferentes Medidas no DFS . . . . . . . . . . . . p. 72

6 Resultados dos Testes Estatísticos do DFS utilizando Diferentes Medidas

de Avaliação. 1 - DFS-M, 2 - DFS-K, 3 - DFS-S . . . . . . . . . . . . . p. 73

7 Resultados utilizando Diferentes Tamanhos nas Partições de Treino e

Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 75

8 Resultados dos Testes Estatísticos do DFS-M utilizando Diferentes Ta-

manhos de Partição. 1 - DFS-M(8T1V), 2 - DFS-M(7T2V), 3 - DFS-

M(6T3V), 4 - DFS-M(5T4V) . . . . . . . . . . . . . . . . . . . . . . . . p. 76

9 Resultados utilizando Diferentes Medidas de Avaliação . . . . . . . . . p. 77

10 Resultados dos Testes Estatísticos do PF-DFS utilizando Diferentes Me-

didas de Avaliação. 1 - PF-DFS(MKS), 2 - PF-DFS(MK), 3 - PF-DFS(MS),

4 - PF-DFS(KS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 78

11 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS . . . . . . . . . p. 79

12 Resultados dos Testes Estatísticos Comparando o PF-DFS(MI,KD,PC)

com todas as versões do DFS. 1 - PF-DFS(MKS), 2 - DFS(M-MED), 3 -

DFS(M-MAX), 4 - DFS(K-MED), 5 - DFS(K-MAX), 6 - DFS(S-MED),

7 - DFS(S-MAX) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80

13 Resultados da Análise Comparativa com Algoritmos de Redução Exis-

tentes e No-FS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 82

14 Resultado dos Testes Estatísticos usando diferentes Algoritmos de Re-

dução de Dimensionalidade. 1 - PF-DFS(MKS), 2 - PCA(MED), 3 -

PCA(MAX), 4 - RANDOM(MED), 5 - RANDOM(MAX), 6 - No-FS . p. 83


mos de Redução Existentes e No-FS - Árvore de Decisão . . . . . . . . p. 92


mos de Redução Existentes e No-FS - k-NN . . . . . . . . . . . . . . . p. 93


mos de Redução Existentes e No-FS - SVM . . . . . . . . . . . . . . . . p. 94

18 Resultados utilizando Diferentes Medidas de Avaliação no DFS - Árvore

de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95

19 Resultados utilizando Diferentes Medidas de Avaliação no DFS - k-NN p. 96

20 Resultados utilizando Diferentes Medidas de Avaliação no DFS - SVM . p. 97


Validação - Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . p. 98


Validação - k-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 99


Validação - SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100

24 Resultados utilizando Diferentes Medidas de Avaliação - Árvore de Decisãop. 101

25 Resultados utilizando Diferentes Medidas de Avaliação - k-NN . . . . . p. 102

26 Resultados utilizando Diferentes Medidas de Avaliação - SVM . . . . . p. 103

27 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - Árvore de Decisãop. 104

28 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - k-NN . . . . p. 105

29 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - SVM . . . . p. 105


tentes e No-FS - Árvore de Decisão . . . . . . . . . . . . . . . . . . . . p. 106


tentes e No-FS - k-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107


tentes e No-FS - SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107

Lista de abreviaturas e siglas

AM - Aprendizado de Máquina

PCA - Principal Component Analysis

SVM - Support Vector Machine

kNN - k-Nearest Neighbors

MI - Mutual Information

KD - Kullback-Leibler Divergence

SP - Spearman Correlation

PF-DFS - Pareto Front- Dynamic Feature Selection

DFS - Dynamic Feature Selection

QPFS - Quadratic programming feature selection

SPEC_CMI - Spectral Relaxation Global Conditional Mutual Information

MRMTR - Maximum Relevance Minimum Total Redundancy

CMIM - Conditional Mutual Information Maximization

MIFS - Mutual Information Feature Selection

Sumário

1 Introdução p. 18

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

2 Fundamentação Teórica p. 24

2.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24

2.1.1 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . p. 25

2.1.2 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . p. 26

2.2 Processamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27

2.2.1 Modelos Supervisionados . . . . . . . . . . . . . . . . . . . . . . p. 27

2.2.1.1 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . p. 28

2.2.1.2 Support Vector Machine . . . . . . . . . . . . . . . . . p. 29

2.2.1.3 k-Nearest Neighbors . . . . . . . . . . . . . . . . . . . p. 29

2.2.2 Modelos Não-Supervisionados . . . . . . . . . . . . . . . . . . . p. 30

2.2.2.1 k-Means . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31

2.3 Medidas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32

2.3.1 Teoria da Informação . . . . . . . . . . . . . . . . . . . . . . . . p. 32

2.3.1.1 Informação Mútua . . . . . . . . . . . . . . . . . . . . p. 33

2.3.1.2 Divergência de Kullback–Leibler . . . . . . . . . . . . . p. 33

2.3.2 Medidas de Correlação . . . . . . . . . . . . . . . . . . . . . . . p. 33

2.3.2.1 Correlação de Spearman . . . . . . . . . . . . . . . . . p. 34

2.4 Otimização Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . p. 35

2.4.1 Fronteira de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

2.5 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

2.5.1 Teste de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

2.5.2 Teste de Wilcoxon Rank-Sum . . . . . . . . . . . . . . . . . . . p. 37

2.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

3 Trabalhos Relacionados p. 39

3.1 Fusão de Algoritmos de Seleção de Atributos . . . . . . . . . . . . . . . p. 39

3.2 Seleção Dinâmica de Atributos e Classificadores . . . . . . . . . . . . . p. 42


4 Seleção Automatizada de Atributos p. 44

4.1 Abordagens de Fusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44

4.1.1 Fusão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

4.1.2 Fusão de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47

4.2 Seleção Dinâmica baseada na Fronteira de Pareto . . . . . . . . . . . . p. 50


5 Materiais e Métodos p. 57

5.1 Algoritmos de Classificação . . . . . . . . . . . . . . . . . . . . . . . . p. 57

5.2 Algoritmo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . p. 57

5.3 Algoritmos de Redução de Dimensionalidade . . . . . . . . . . . . . . . p. 58

5.4 Medidas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

5.5 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

5.6 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

5.7 Configuração do Experimento . . . . . . . . . . . . . . . . . . . . . . . p. 64


6 Resultados p. 67

6.1 Análise dos Métodos de Fusão . . . . . . . . . . . . . . . . . . . . . . . p. 67

6.1.1 Análise Comparativa - Métodos de Fusão . . . . . . . . . . . . . p. 67

6.2 Análise dos Métodos de Seleção Dinâmica . . . . . . . . . . . . . . . . p. 71

6.2.1 Análise de Diferentes Medidas na Seleção Dinâmica de Atributos p. 72

6.2.2 Análise da Variação no Tamanho das Partições de Treino e Vali-

dação na Seleção Dinâmica de Atributos . . . . . . . . . . . . . p. 74

6.2.3 Análise de Diferentes Medidas no Processo de Automatização pela

Fronteira de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . p. 76

6.2.4 Análise Comparativa - Abordagens de Seleção Dinâmica de Atri-

butos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79

6.2.5 Análise Comparativa - Outros Algoritmos de Redução de Dimen-

sionalidade e No-FS . . . . . . . . . . . . . . . . . . . . . . . . . p. 81

7 Considerações finais p. 84

7.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 84

7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 86

Referências p. 87

Apêndice A Resultados Individuais - Métodos de Fusão p. 92

Apêndice B Resultados Individuais - Avaliação de Critérios (DFS) p. 95

Apêndice C Resultados Individuais - Particionamento dos Dados p. 98

Apêndice D Resultados Individuais - Avaliação de Critérios (PF-DFS) p. 101

Apêndice E Resultados Individuais - Comparação DFS e PF-DFS p. 104

Apêndice F Resultados Individuais - Comparação com outros Méto-

dos p. 106

18

1 Introdução

Estudos recentes têm mostrado que o tamanho de um conjunto de dados, em termos

de instâncias e atributos, para descrever aplicações de diferentes domínios têm crescido

exponencialmente. Aplicações como bioinformática, mídias sociais e cidades inteligentes,

por exemplo, geram dados de alta complexidade que requerem vasto poder computacio-

nal para extrair informações relevantes (LI; LIU, 2017). Como a análise manual de dados

dessa natureza se torna impraticável, o uso de técnicas de aprendizado de máquina (AM)

para encontrar padrões ou relacionamentos nesses conjuntos de dados aparece como uma

opção eficiente (JAIN; DUBES, 1988). É notório, no entanto, que esta abordagem possui

algumas desvantagens e uma das mais relevantes é a dificuldade em encontrar boas so-

luções em problemas complexos do mundo real devido à maldição da dimensionalidade

(JAIN; ZONGKER, 1997).

Nos últimos anos, diversos estudos têm sido conduzidos no intuito de propor alter-

nativas para resolver esse problema, sendo a mais comum a redução da complexidade do

problema por meio da seleção de um subconjunto de atributos que melhor representem o

conjunto de dados original. Essa técnica é conhecida como redução de dimensionalidade

(RD) ou redução de atributos (CHANDRASHEKAR; SAHIN, 2014).

Métodos de redução de dimensionalidade podem ser divididos em duas categorias,

extração de atributos e seleção de atributos. No primeiro caso, o conjunto original de

atributos é combinado visando produzir um novo conjunto de dados, menor e mais robusto

(LIU; MOTODA, 2007). No segundo caso, um subconjunto do conjunto original de dados é

selecionado. Neste trabalho, o foco será em métodos de seleção de atributos.

Não é difícil encontrar algoritmos de seleção de atributos para pré-processar dados

antes de utilizar algoritmos de AM. Segundo (GUYON; ELISSEEFF, 2003), esses métodos são

responsáveis por filtrar conjuntos de dados com o objetivo de encontrar um subconjunto

de atributos que representam todo o conjunto de dados. Esta abordagem de redução de

atributos é importante em dois aspectos: (1) pode reduzir drasticamente a quantidade de

19

dados, fornecendo processamento mais rápido usando uma representação mais simples de

um conjunto de dados; e (2) elimina dados não relevantes que podem causar distúrbios

no processo de extração de informações. Com base nisso, pesquisadores desenvolveram ao

longo dos anos muitos algoritmos para realizar a seleção de atributos em conjuntos de

dados (LIU; MOTODA, 2007), (NGUYEN et al., 2014), (ZHANG; GONG; CHENG, 2017).

Dados gerados em domínios de aplicações do mundo real possuem uma natureza com-

plexa e usualmente são representados por relações não-lineares (GORDON et al., 2002). A

utilização de algoritmos de seleção de atributos mais simples, como por exemplo, baseados

em medidas de correlação lineares, falham em extrair/obter a representação real ou mais

aproximada deste tipo de conjunto de dados.

Recentemente, descritores da Teoria da Informação, inicialmente utilizados para medir

a eficiência na transmissão de dados (SHANNON, 1948), têm sido utilizados com sucesso

para quantificar informação em diversos problemas reais. Por exemplo, em Brown et al.

(2012) foi proposta uma série de técnicas baseadas em Informação Mútua para selecionar

os atributos mais relevantes em um conjunto de dados em relação as suas classes. O

principal benefício desses descritores consiste na capacidade em quantificar relações não-

lineares.

Infelizmente, não há um melhor algoritmo para tratar todos os problemas. Assim,

para reduzir a dimensionalidade de um conjunto de dados, pesquisadores devem conhecer

muito bem os algoritmos de redução de dimensionalidade e os dados para escolher o melhor

método possível, ou devem escolher arbitrariamente um deles, esperando que ele possa

executar a tarefa de forma satisfatória. Desse modo, o processo de escolha do algoritmo

que melhor se adeque a um conjunto de dados ainda representa um dos maiores desafios

da área de seleção de atributos (NOVAKOVIĆ, 2016). Nesse sentido, a investigação do uso

de métodos automáticos para seleção de atributos representa uma alternativa promissora

na etapa de pré-processamento de dados complexos.

1.1 Motivação

Diversos fatores influenciam a construção de modelos de classificação em AM. A qua-

lidade dos dados utilizados é o principal deles. A utilização de dados irrelevantes ou

redundantes podem conduzir à interpretações errôneas e à criação de processos computa-

cionalmente custosos. Dentre as fases do pré-processamento de dados, a seleção de atribu-

tos torna-se extremamente relevante para atenuar problemas relacionados à representação

20

e qualidade dos dados (NOVAKOVIĆ, 2016).

A definição do algoritmo de seleção de atributos que deve ser utilizado, representa

uma etapa crítica no pré-processamento de dados complexos. A escolha arbitrária do

algoritmo, pode levar a seleção de atributos não representativos e, por consequência, a

perda de informação relevante no processo de classificação (LIU; MOTODA, 2007).

Algoritmos baseados em descritores da Teoria da Informação representam uma escolha

robusta quando comparados a métodos tradicionais, uma vez que eles podem medir a

dependência de duas variáveis, incluindo correlações não-lineares, que são amplamente

encontradas em situações do mundo real.

Apesar do constante desenvolvimento de técnicas robustas para atenuar o problema

da redução de dimensionalidade, a grande maioria dos seletores de atributos apresentam

duas grandes limitações: (1) levam em consideração todo o conjunto de dados no processo

de seleção. No contexto de aprendizado supervisionado, a utilização de todo o conjunto

de dados não leva em consideração as características associadas aos grupos de instância

relacionadas a cada classe. Como alternativa, alguns trabalhos têm feito uso de algoritmos

de agrupamento no processo de seleção de atributos, tornando-o dinâmico (NUNES et al.,

2016); e (2) utilizam apenas um critério de avaliação para medir a relevância dos atributos,

demandando grande esforço por parte dos pesquisadores no processo de decisão acerca de

qual (ou quais) técnica aplicar para obter o máximo de relevância no pré-processamento

dos dados. O processo de escolha manual e arbitrário pode conduzir a análises ineficientes

e altos custos de processamento.

Logo, a motivação deste trabalho é desenvolver abordagens automáticas de seleção de

atributos baseadas em Teoria da Informação capazes de suavizar as limitações supracita-

das, por meio da utilização de técnicas computacionais que sejam capazes de auxiliar o

processo de decisão, diminuindo o impacto de escolhas arbitrárias e, que torne possível

a utilização da avaliação multicritério acerca da relevância dos atributos no contexto de

seleção dinâmica de atributos. Estas abordagens visam automatizar o processo de seleção

dos atributos mais relevantes em conjuntos de dados considerando dois cenários distintos:

a fusão de múltiplos algoritmos de seleção; e a utilização conjunta de múltiplos critérios

de avaliação na seleção dinâmica de atributos.

21

1.2 Objetivos

O principal objetivo deste trabalho é propor novas abordagens de seleção de atributos

baseadas na Teoria da Informação, capazes de automatizar o processo de seleção. Para

isso, foram exploradas duas vertentes: métodos de fusão e seleção dinâmica de atributos.

A primeira consiste no uso de estratégias de combinação de diferentes seletores de atri-

butos. A utilização dessas estratégias permite combinar soluções provenientes de múltiplos

algoritmos de seleção de atributos e, por sua vez, a obter um alto grau de diversidade no

subconjunto final de atributos selecionados.

Por sua vez, a segunda vertente compreende a investigação do método não-supervisionado

de seleção dinâmica, proposto originalmente em (NUNES et al., 2016), onde foi realizada a

inserção de elementos da teoria da informação, bem como a extensão do método através

da aplicação da técnica da fronteira de pareto.

De forma específica, os objetivos desta proposta estão destacados a seguir:

• Proporcionar a automatização do processo de decisão acerca da escolha dos seletores

de atributos, uma vez que a escolha manual de algoritmos de seleção pode conduzir

à processos ineficientes de pré-processamento dos dados.

• Aumentar o potencial do processo de computação da relevância dos atributos na

seleção dinâmica de atributos, mediante ao uso de múltiplos critérios de avaliação.

• Melhorar o desempenho dos modelos de classificação através da utilização das abor-

dagens propostas: métodos de fusão e seleção dinâmica de atributos utilizando a

fronteira de pareto.

• Investigar a melhor configuração para as abordagens propostas. Para as abordagens

de fusão, investigar o impacto da fusão de dados em comparação a fusão de deci-

são. Por outro lado, em relação a abordagem de seleção dinâmica, investigar quais

critérios promovem a seleção dos atributos mais relevantes através da técnica da

fronteira de pareto.

1.3 Contribuições

As contribuições consequentes da produção deste trabalho resultaram na publicação

de cinco artigos completos nos anais de conferências nacionais e internacionais importantes

22

na área de aprendizado de máquina. Dois referentes a vertente inicial (métodos de fusão) e

três relacionados a segunda vertente. A seguir, estão descritas as principais contribuições

por publicação:

• "A Combination Method for Reducing Dimensionality in Large Datasets-

International Conference on Neural Neural Networks (ICANN 2016/Bar-

celona). Neste trabalho propomos um método de redução de dimensionalidade inti-

tulado fusão de dados. Esse método é responsável por combinar a saída de múltiplos

algoritmos de seleção de atributos, produzindo ao final uma única solução. Esta

abordagem utiliza um sistema de ranking baseado numa métrica de relevância dos

atributos com objetivo de promover uma fusão a priori dos seletores. Os resultados

obtidos neste artigo demonstraram que o método de fusão dados se mostrou robusto

em entregar uma solução estável e segura quando não há conhecimento acerca dos

algoritmos de seleção a serem aplicados sobre um conjunto de dados. Referência:

(ARAÚJO et al., 2016)

• "Fusion Approaches of Feature Selection Algorithms for Classification

Tasks- Brazilian Conference on Inteligent Systems (BRACIS 2016/Re-

cife). Neste artigo, propusemos uma abordagem de fusão de decisão para algoritmos

de seleção de atributos. Na fusão de decisão, utilizamos a estratégia de comitê de

classificadores afim de combinar diferentes versões dos conjuntos de dados reduzidos

por múltiplos algoritmos de seleção de atributos baseados na Teoria da Informação.

Diferente da fusão de dados, esta abordagem não combina a saída dos algoritmos de

seleção de atributos, mas a decisão provida pelos algoritmos. Os resultados deste ar-

tigo foram confrontados com a abordagem proposta no artigo anterior e com outros

métodos da literatura. Através dessa comparação, pudemos constatar que o método

de fusão de decisão é superior em termos de acurácia para maioria dos conjuntos de

dados utilizados. Referência: (JESUS; ARAÚJO; CANUTO, 2016)

• "Estudo Sobre o Impacto do Particionamento dos Dados na Seleção Di-

nâmica de Atributos- Encontro Nacional de Inteligência Artificial e Com-

putacional (ENIAC 2017/Uberlândia). O objetivo deste trabalho consistiu em

verificar o impacto que a mudança na medida de similaridade usada e nas proporções

de divisão dos dados entre os conjuntos de treinamento, teste e validação podem

trazer na acurácia do sistema utilizado. Resultados mostraram que o método de sele-

ção dinâmica com informação mútua utilizando oito folds para treino, um para teste

e um para validação, obteve desempenho competitivo quando comparado a outros

23

métodos conhecidos de seleção/extração de atributos. Referência: (JESUS; CANUTO;

ARAÚJO, 2017)

• "A Feature Selection Approach Based on Information Theory for Clas-

sification Tasks- International Conference on Artificial Neural Networks

(ICANN 2017/Alghero). Este artigo propôs o uso de Informação Mútua como

medida de similaridade na abordagem de seleção dinâmica proposta em (NUNES et

al., 2016). A abordagem foi testada incluindo elementos da Teoria da Informação no

processo, como Informação Mútua e Divergência de Kullback-Leibler, e comparada

com métodos clássicos como PCA e LDA, bem como outros algoritmos baseados

em informação mútua. Os resultados mostraram que o método de seleção dinâmica

com informação mútua alcançou desempenho superior na maioria dos casos quando

comparado a outros métodos. Referência: (JESUS; CANUTO; ARAÚJO, 2017)

• "Dynamic Feature Selection based on Pareto Front Optimization- IEEE

World Congress on Computational Intelligence/International Joint Con-

ference on Neural Networks (WCCI/IJCNN 2018/Rio de Janeiro). Este

trabalho traz um aperfeiçoamento do método de seleção dinâmica (DFS) por meio

do uso da técnica da fronteira de pareto, que nos permite considerar perspectivas

distintas da relevância dos atributos e automaticamente definir o número de atribu-

tos a ser selecionado. A abordagem proposta foi testada utilizando 15 conjuntos de

dados reais e artificiais e os resultados obtidos mostraram que quando comparado

ao método de seleção dinâmica original (DFS), o desempenho do método proposto

é superiormente notável. De fato, os resultados obtidos são bastante promissores,

uma vez que o método proposto alcançou desempenho superior quando comparado

a métodos consagrados da redução de dimensionalidade, demonstrando que a re-

dução de ruídos e/ou atributos redundantes pode ter efeito positivo na tarefa de

classificação. Referência: (JESUS; CANUTO; ARAÚJO, 2018)

1.4 Organização do Trabalho

O trabalho está organizado nos seguintes capítulos: o Capítulo 2 apresenta os elemen-

tos teóricos abordados na dissertação; o Capítulo 3 descreve os trabalhos relacionados; o

Capítulo 4 detalha a arquitetura geral das abordagens propostas; o Capítulo 5 descreve os

materiais e métodos usados nos experimentos realizados; o Capítulo 6 traz os resultados

das análises feitas para validação dos métodos propostos; e por fim, o Capítulo 7 apresenta

as considerações finais acerca do trabalho.

24

2 Fundamentação Teórica

Este capítulo apresenta os elementos teóricos necessários para compreensão do traba-

lho desenvolvido nesta dissertação.

Para tanto, este capítulo é dividido da seguinte forma: a Seção 2.1 traz os princi-

pais conceitos relacionados a fase de pré-processamento em aprendizado de máquina; a

Seção 2.2 introduz o conceito de modelos supervisionados, bem como os modelos não

supervisionados e descreve os principais modelos utilizados em cada abordagem; a Seção

2.3 descreve as temáticas acerca das medidas de avaliação utilizadas nos processos de

seleção de atributos propostos; a Seção 2.4 expõe conceitos da otimização multi-objetivo

utilizados no desenvolvimento das abordagens propostas; Por fim, a Seção 2.5 apresenta

a fundamentação a respeito dos testes estatísticos aplicados com intuito de validar os

resultados obtidos;

2.1 Pré-Processamento

Na área de Aprendizado de Máquina é possível citar três grandes marcos que definem

seu processo de funcionamento: Pré-processamento, Processamento e Pós-processamento

dos dados. Cada etapa é responsável por realizar tratamentos específicos sobre conjun-

tos de dados, a fim de extrair conhecimento de forma automática (FACELI; LORENA;

CARVALHO, 2000). Apesar da utilização de algoritmos de AM proporcionar a extração de

conhecimentos relevantes acerca dos dados, seu desempenho é altamente influenciado pela

qualidade dos dados (LI; LIU, 2017). Segundo (JIANG; WANG, 2016), conjuntos de dados

podem apresentar diferentes características, dimensões e formatos.

Os principais problemas que podem ser encontrados em conjuntos de dados não-

processados são: dados ruidosos (valores errôneos, inconsistentes ou ausentes), atributos

irrelevantes e conjuntos de dados desbalanceados (poucas amostras para uma quantidade

grande de atributos) (FACELI; LORENA; CARVALHO, 2000). Para tratar ou atenuar esses

25

problemas, técnicas de pré-processamento de dados são frequentemente aplicadas sobre

os dados (JAIN; ZONGKER, 1997).

Os principais benefícios associados ao uso de técnicas de pré-processamento são: a re-

dução do superajuste dos modelos de aprendizado (com a exclusão de dados redundantes,

a chances de influenciar negativamente o processo de treino são diminuídas), o aumento

da acurácia (classificadores são treinados com dados relevantes, aumentam a capacidade

de generalização dos modelos produzidos) e a redução no tempo de treinamento (me-

nos dados implicam em fases de treinamento mais curtas) (FACELI; LORENA; CARVALHO,

2000).

Dentre as técnicas de pré-processamento, a redução de dimensionalidade é responsável

por reduzir a quantidade de atributos utilizados para descrever um conjunto de dados.

Para grande maioria dos algoritmos de AM, um número elevado de atributos torna o

processo de aprendizado mais complexo, e portanto, é necessário que haja uma redução

na quantidade dos atributos (FACELI; LORENA; CARVALHO, 2000).

As técnicas de redução de dimensionalidade são agrupadas em duas categorias, ex-

tração e seleção de atributos. Enquanto as técnicas de extração substituem os atributos

originais por novos atributos gerados pela combinação entre os atributos, os métodos de

seleção selecionam um subconjuntos dos atributos originais e excluem os demais (FACELI;

LORENA; CARVALHO, 2000). Os métodos de seleção podem ser subdivididos em três cate-

gorias: métodos embutidos, baseados em filtro e baseados em wrapper. As duas subseções a

seguir descrevem os conceitos relacionados às categorias de redução de dimensionalidade.

2.1.1 Extração de Atributos

Nos principais métodos de extração de atributos, a dimensão das bases de dados são

reduzidas através da combinação dos atributos originais por meio de funções lineares ou

não lineares. Por exemplo, a Análise de Componentes Principais (PCA, do inglês Prin-

cipal Component Analysis) , uma das técnicas de extração mais populares, é baseada na

projeção linear do maior autovetor da matriz de correlação dos atributos, sendo bastante

sensível a magnitude dos valores, e consequentemente, a simples rotações e translações

nos dados (JOLLIFFE, 1986; FACELI; LORENA; CARVALHO, 2000).

Em geral, técnicas de extração de atributos levam à perda dos valores originais dos

conjuntos de dados. Essa característica pode não ser interessante em certos domínios de

aplicações como, por exemplo, bioinformática, saúde e dados comerciais. Nessas aplicações

26

é importante preservar os valores dos atributos para que os resultados obtidos possam ser

interpretados. Para essas aplicações, a utilização de técnicas de seleção de atributos é mais

frequente (LI et al., 2016; FACELI; LORENA; CARVALHO, 2000).

2.1.2 Seleção de Atributos

A seleção de atributos têm tornado-se o foco de pesquisas em diversas áreas de aplica-

ção que possuem conjuntos de dados com centenas ou milhares de atributos. Os principais

benefícios associados a seleção são: melhora do desempenho dos preditores, redução do

custo computacional na fase de treinamento e fornecimento de informações acerca da es-

trutura dos dados em termos de relevância de características (GUYON; ELISSEEFF, 2003).

Com intuito de avaliar o desempenho de um subconjunto de atributos, na literatura são

encontradas três abordagens: Métodos Embutidos, Baseados em Filtro e Baseados em

Wrapper.

• Métodos Embutidos: Na abordagem embutida, a seleção de atributos é integrada

ao algoritmo de aprendizado. O principal exemplo dessa categoria são as Árvores

de Decisão, que realizam de forma interna a seleção de atributos (FACELI; LORENA;

CARVALHO, 2000).

• Métodos baseados em Filtro: Nesta abordagem, um filtro é aplicado sobre o con-

junto de dados antes da fase de treinamento. Essa técnica é não tem relação com

o algoritmo de aprendizado, sendo utilizada para definir a relevância dos atributos

baseado em algum critério externo, como por exemplo: Correlação entre os atributos

e o atributo-classe (FACELI; LORENA; CARVALHO, 2000).

• Métodos baseados em Wrapper : Em métodos baseados em wrapper, o subconjunto

de atributos é utilizado para treinar modelos de inferência. Baseado na acurácia

do modelo para aquele subconjunto de atributos, é realizado o processo de escolha

sobre os atributos a serem adicionados ou removidos. O problema é essencialmente

reduzido a um problema de busca, onde o objetivo é testar todas as possíveis combi-

nações, até que se encontre a que melhor se ajuste ao modelo, em termos de acurácia

(FACELI; LORENA; CARVALHO, 2000). Em geral, esses métodos são computacional-

mente custosos.

As abordagens propostas neste trabalho se enquadram na categoria de filtro. De acordo

com (FACELI; LORENA; CARVALHO, 2000; LI et al., 2016), as principais vantagens associadas

a esse tipo de técnica são:

27

• Independência no processo de seleção em relação ao modelo de indução, logo os atri-

butos selecionados podem ser utilizados em diferentes abordagens de aprendizado;

• Filtros tem a capacidade de lidar com grandes quantidades de dados;

• O cálculo da relevância através dos filtros representam processos computacional-

mente simples;

Dessa forma, a utilização de abordagens de seleção de atributos baseadas em filtro re-

presentam uma alternativa eficiente e relevante na construção de modelos de aprendizado,

principalmente por não haver interação entre o filtro e o indutor, evitando tendências para

nenhuma abordagem de aprendizado.

2.2 Processamento de Dados

Com a necessidade de processar grandes volumes de dados produzidos constantemente,

há uma grande necessidade em analisar de forma rápida e automática diversos conjuntos

de dados de diferentes domínios. Uma das tarefas mais essenciais ao lidar com dados é

classificá-los ou agrupá-los, em categorias ou grupos. Basicamente, modelos de processa-

mento de dados em aprendizado de máquina são supervisionados ou não-supervisionados,

dependendo do objetivo associado à tarefa executada, seja rotular amostras em categorias

dado experiências prévias (modelos de aprendizado supervisionados) ou encontrar rela-

ções inerentes aos dados de forma automática, sem possuir previamente informação acerca

dos dados, na tentativa definir relações a partir do agrupamento de amostras semelhan-

tes (modelos de aprendizado não-supervisionados) (KOTSIANTIS; ZAHARAKIS; PINTELAS,

2007; EVERITT; LANDAU; LEESE, 2001). As subseções a seguir, expõem os conceitos ge-

rais acerca das duas abordagens (supervisionadas e não-supervisionadas), assim como os

principais modelos de cada uma utilizados nesta dissertação.

2.2.1 Modelos Supervisionados

No aprendizado supervisionado, um algoritmo de classificação é representado por uma

função matemática que, dado um conjunto de dados rotulados, modela um indutor. Os

rótulos são definidos como classes, que podem ser valores quantitativos ou qualitativos.

Esse indutor é responsável por, dado uma amostra não-rotulada, atribuir essa amostra

para uma possível classe (KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007). O principal desa-

fio de algoritmos de aprendizado supervisionado é encontrar uma representação que seja

28

capaz de generalizar, de forma eficiente, o conhecimento acerca de um domínio (conjunto

de dados). Na literatura são encontrados diversos algoritmos de classificação, sendo esses

divididos em diferentes categorias de acordo com aspectos como: representação do conheci-

mento (dados) e generalização do conhecimento (hipóteses) (FACELI; LORENA; CARVALHO,

2000).

Nas subseções seguintes, serão apresentados os conceitos gerais acerca de diferentes

modelos de classificação utilizados no desenvolvimento deste trabalho.

2.2.1.1 Árvore de Decisão

Árvores de decisão são algoritmos de aprendizado supervisionado baseados em méto-

dos de busca que particionam os dados em diversos subconjuntos, de maneira que proble-

mas complexos são reduzidos a subproblemas. Dessa forma, a árvore de decisão faz uso

da estratégia de "dividir para conquistar"para solucionar problemas de decisão. Nessa

árvores, cada nó representa conjunções de atributos que levam aos nós-folha, que por sua

vez representam os rótulos das classes. Para encontrar soluções, a árvore de decisão rea-

liza uma busca hierárquica e sequencial sobre os possíveis caminhos a partir do modelo

produzido (MITCHELL, 1997). Uma visão geral acerca do funcionamento de árvores de

decisão pode ser vista no Algoritmo 1.

Algorithm 1 Algoritmo para Árvore de Decisão retirado de (FACELI; LORENA; CARVA-LHO, 2000)1: procedure AD2: Entrada: Conjunto de treinamento D3: Saída: Árvore de Decisão4: Função GeraArvore(D)5: if critério de parada(D) = V erdadeiro then6: Retorna: um nó folha rotulado com a constante que minimiza a função perda7: end if8: Escolha o atributo que maximiza o critério de divisão em D9: for each partição dos exemplos D(i) baseado nos valores do atributo escolhido do

10: Induz uma subárvore Arvore(i) = GeraArvore(D(i))11: end for12: Retorna: Árvore contendo um nó de decisão baseado no atributo escolhido, e descen-

dentes Arvore(i)13: end procedure

Dentre os benefícios associados ao uso da árvore de decisão estão a fácil interpreta-

bilidade (observação da estrutura por meio da visualização da árvore gerada ao final do

processo) e a realização de um processo de seleção de atributos implícito inerente a criação

do modelo, onde os nós mais altos representam os atributos mais importantes no processo

29

de tomada de decisão. No entanto, sem a aplicação de técnicas de poda (pré ou pós poda)

para limitar o crescimento e, consequentemente, o tamanho da árvore, o modelo gerado

tende a se superajustar aos dados do conjunto de treino, reduzindo a sua capacidade de

generalização (KOHAVI; QUINLAN, 2002).

2.2.1.2 Support Vector Machine

O Support Vector Machine (SVM) é uma técnica de aprendizado para problemas

linearmente separáveis, capaz de encontrar um hiperplano ideal que maximize a margem

de separação (espaço) entre duas classes. Para tanto, as instâncias da base de dados

são rotuladas como positivas e negativas, sendo projetadas no espaço de alta dimensão,

usando uma função kernel. A ideia pode ser estendida para problemas com mais de duas

classes (MITCHELL, 1997). Por ser baseado na teoria de aprendizado estatístico, o SVM se

caracteriza por apresentar uma boa capacidade em termos de generalização. Ademais, a

utilização de funções kernel torna o algoritmo eficiente, pois permite que sejam construídos

hiperplanos em espaço de alta dimensão de forma tratável do ponto de vista computacional

(FACELI; LORENA; CARVALHO, 2000). As principais desvantagens desse método, residem

na alta dependência de uma boa parametrização e na dificuldade em interpretar o modelo

gerado.

2.2.1.3 k-Nearest Neighbors

O k-Nearest Neighbors (k-NN) é uma técnica de aprendizado de máquina baseado em

instâncias que leva em consideração os k vizinhos mais próximos da instância a ser classi-

ficada. No k-NN, dado um espaço definido pelos atributos, onde uma instância representa

um ponto nesse espaço, a distância pode ser calculada entre dois pontos através de uma

métrica de distância. Usualmente, os vizinhos mais próximos são definidos pela distância

euclidiana, mas outras métricas de distâncias podem ser utilizadas, como por exemplo:

Distância de Chebyshev, Distância de Minkowske e Distância de Mahalanobis (MITCHELL,

1997).

Os principais passos do k-NN podem ser descritos como:

• Defina uma valor para k;

• Calcule a distância entre instância de teste e todas instâncias de treino, usando uma

métrica de distância;

30

• Ordene as distâncias calculadas em ordem ascendente de valor;

• Selecione os k primeiros vizinhos ordenados pela distância;

• Recupere a classe dessas instâncias;

• Retorne a classe prevista para instância de teste.

Uma versão simplificada do k-NN pode ser observada no Algoritmo 2 abaixo:

Algorithm 2 Algoritmo para o k-NN, versão 1-vizinho mais próximo retirado de (FACELI;LORENA; CARVALHO, 2000)1: procedure AD2: Entrada: Conjunto de treinamento: D3: Um objeto de teste a ser classificado: t4: A função de distância entre objetos: d(xa, xb)5: Saída: yt Classe atribuída ao exemplo t6: dmin = +∞7: for each i ∈ 1, ..., n do8: if d(xi, xt < dmin then9: dmin ⇐ d(xi, xt)

10: idx⇐ i11: end if12: end for13: yt = yidx14: Retorna: yt15: end procedure

2.2.2 Modelos Não-Supervisionados

Em modelos de aprendizado não supervisionados, o principal objetivo consiste em

agrupar (separar) dados não-rotulados em um número finito de partições, a fim de en-

contrar relações subjacentes que permitam inferir características inerentes a esses dados

(XU; WUNSCH, 2005). Embora não exista uma definição universal sobre o conceito de par-

tições (EVERITT; LANDAU; LEESE, 2001), grande parte dos pesquisadores descrevem uma

partição considerando que haja homogeneidade internamente na partições e separação

externamente entre as partições, de modo que as instâncias de uma partição sejam seme-

lhantes entre elas, enquanto instâncias em diferentes partições sejam diferentes (HANSEN;

JAUMARD, 1997).

Segundo (BACKER; JAIN, 1981):

"(...) na análise de clusters, um grupo de instâncias é dividido em um nú-

mero de subgrupos (proximamente) homogêneos, com base em uma medida de

31

similaridade frequentemente escolhida de forma subjetiva ou empírica (isto é,

a escolha dessa medida é feita baseada na sua capacidade de criar partições

de modo que a similaridade entre os objetos dentro da partição seja maior do

que a similaridade entre instâncias pertencentes a diferentes partições."

Algoritmos de agrupamento podem ser divididos quanto a sua natureza. Em geral,

os algoritmos são classificados de acordo com a estratégia utilizada para definir as parti-

ções, as principais categorias são: algoritmos particionais (k-Means), hierárquicos (Hierár-

quico Aglomerativo), baseados em redes neurais (Self Organazing Map (SOM), Dynamic

and Hierarchically Growing Self-Organizing Tree (DGSOT e HGSOT)), baseados em grid

(Clustering In QUEst (CLIQUE) e Statistical Information Grid-Based method (STING))

e baseados em densidade(Density-Based Spatial Clustering of Applications with Noise

(DBSCAN)) (XU; WUNSCH, 2005; FACELI; LORENA; CARVALHO, 2000).

Em específico, neste trabalho, foi utilizado um representante da categoria dos algorit-

mos de agrupamento particionais, o k-Means. Na seção 2.2.2.1 abaixo, pode ser observada

a descrição acerca do processo geral dessa abordagem.

2.2.2.1 k-Means

Um dos algoritmos mais simples de agrupamento conhecido é o k-Means. Devido a

sua fácil implementação, é amplamente utilizado em tarefas de agrupamento, tendo como

principais vantagens: baixa complexidade, o que leva a uma rápida execução (na maioria

dos casos) e a entrega de resultados de fácil interpretação. Entretanto, a baixa complexi-

dade do algoritmo e a necessidade da definição do parâmetro k faz com que, ao lidar com

dados complexos, em geral, quando comparado a outros algoritmos de agrupamento, o

faça obter resultados não tanto competitivos (LIKAS; VLASSIS; VERBEEK, 2003). Em (FA-

CELI; LORENA; CARVALHO, 2000) o funcionamento do k-Means é descrito pelo Algoritmo

3:

O k-Means é um algoritmo de agrupamento baseado em distância, onde os primeiros

k centroides dos dados são randomicamente escolhidos e cada instância é atribuída a um

grupo associado ao centroide mais próximo. Após esse passo, novos centroides são calcula-

dos para cada grupo baseado na média de todas as instâncias. Por fim, este procedimento

é repetido até não haja mudança nos valores dos centroides (KANUNGO et al., 2002).

32

Algorithm 3 Algoritmo k-Means retirado de (FACELI; LORENA; CARVALHO, 2000)1: procedure k-Means2: Entrada: Conjunto de dados Xn×d e k o número de clusters3: Saída: Uma partição de X em k clusters4: Escolher aleatoriamente k valores para centroides dos clusters5: repeat6: for each objeto xi ∈ X e cluster Cj , j = 1, ...k do7: Calcular a distância entre xi e o centroide do cluster utilizando uma medida de

distância8: end for9: for each objeto xi do

10: Associar xi ao cluster com centroide mais próximo11: end for12: for each cluster Cj , j = 1, ...k do13: Recalcular o centroide14: end for15: until não haver mais alteração na associação dos objetos aos clusters16: end procedure

2.3 Medidas de Avaliação

Em seleção de atributos, uma das decisões mais impactantes em seu processo diz

respeito a escolha da medida de avaliação que irá ser utilizada para o cálculo da relevância

dos atributos. Essa escolha impacta diretamente na criação do subconjunto de atributos,

que deve representar, da melhor forma possível, todo o conjunto de dados. Na literatura

encontramos medidas de avaliação capazes de medir relações de diferentes naturezas, sejam

elas lineares ou não-lineares (LI et al., 2016). Para tanto, esta seção descreve duas grandes

áreas, Teoria da Informação e Medidas de Correlação, que através de descritores propostos,

nos permite fazer uso de seus métodos como medidas de avaliação para quantificar a

relevância de atributos no processo de redução de dimensionalidade.

2.3.1 Teoria da Informação

A Teoria da Informação representa um campo da ciência responsável por estudar a

quantificação e armazenamento da informação contida em dados. Inicialmente proposto

por (SHANNON, 1948), os fundamentos da teoria da informação foram utilizados, prima-

riamente, em aplicações de processamento de sinais. No entanto, nos últimos anos alguns

descritores propostos na teoria da informação têm sido aplicados em métodos computaci-

onais com o objetivo de quantificar informação em problemas de aprendizado, como por

exemplo em (BROWN et al., 2012), onde técnicas baseadas em Informação Mútua foram

utilizadas para selecionar subconjuntos de atributos em diferentes conjuntos de dados.

33

Técnicas baseadas em descritores da Teoria da Informação, trazem como principal bene-

fício a capacidade em quantificar relações não-lineares, que são amplamente encontradas

em dados provenientes de aplicações do mundo real. Nesse sentido, as subseções seguintes

apresentam dois descritores da Teoria da Informação utilizados como medida de avaliação

no contexto de seleção de atributos desta dissertação, Informação Mútua e Divergência

de Kullback-Leibler.

2.3.1.1 Informação Mútua

A medida de informação mútua (MI, do inglês Mutual Information) calcula a quan-

tidade de informação compartilhada por duas variáveis aleatórias. Em outras palavras,

ela quantifica a quantidade de informação obtida por uma variável, através de outra

(SHANNON, 1948). Sejam X (um atributo, no contexto de AM) e Y (um rótulo de classe)

variáveis aleatórias e p seja a função probabilidade. Baseado nisso, a Informação Mútua

pode ser definida como:

I(X, Y ) =∑y∈Y

∑x∈X

p(x, y) log

(p(x, y)

p(x)p(y)

)(2.1)

2.3.1.2 Divergência de Kullback–Leibler

A divergência de Kullback-Leibler (KD, do inglês Kullback-Leibler Divergence) é uma

medida que define a diferença entre duas distribuições de probabilidade. Assim sendo, a

divergência de KD pode ser vista como a como a quantidade de incerteza de observar

uma distribuição de probabilidade f(x) (um atributo) usando outra distribuição g(x)

(um rótulo de classe) (KULLBACK; LEIBLER, 1951). Logo, a divergência de KD pode ser

definida como:

DKL(F ||G) =∑i

f(x) logf(x)

g(x)(2.2)

2.3.2 Medidas de Correlação

De acordo com (JIANG; WANG, 2016), um coeficiente de correlação pode ser concei-

tuado como "uma medida que quantifica até que ponto duas variáveis tendem a mudar

juntas, descrevendo a força e a direção do relacionamento entre elas". Assim como as

34

medidas de Teoria da Informação, diversas medidas baseadas em correlação foram utili-

zadas na proposição de seletores de atributos na literatura (JIANG; WANG, 2016; SAEYS;

ABEEL; PEER, 2008). Em geral, valores de correlação entre duas variáveis (atributo e

atributo-classe) são representados entre -1 e 1, onde quanto maior forem esses valores,

mais correlacionadas são as variáveis (negativamente ou positivamente, respectivamente).

Valores próximos de -1, indicam uma correlação negativa, que implica dizer que as variá-

veis tendem a crescer em direções opostas, enquanto que se esse valor for mais próximo

de 1, indica forte crescimento de ambas as variáveis na mesma direção (SAEYS; ABEEL;

PEER, 2008). Nem sempre medidas de correlação são capazes de quantificar de maneira

precisa a relação entre duas variáveis, nesse sentido diversas medidas de correlação são

encontradas na literatura com objetivo de medir diferentes relações acerca da natureza

dos dados (relações lineares e não-lineares), como por exemplo: Coeficientes de Pearson,

Kendall e Spearman (SAEYS; ABEEL; PEER, 2008). A subseção abaixo descreve a medida

de correlação de Spearman utilizada nesta dissertação.

2.3.2.1 Correlação de Spearman

A Correlação de Spearman (SP, do inglês Spearman Correlation) é um teste não-

paramétrico que mede a força e a direção da associação monotônica entre o ranking de

duas variáveis aleatórias, sendo capaz de medir relações de natureza não-linear entre as

variáveis (SAEYS; ABEEL; PEER, 2008). A equação que descreve a correlação de SP é

definida como:

SP = 1− 6∑d2

n(n2 − 1)(2.3)

Onde n é a quantidade de pares de amostras (instâncias) das variáveis (atributo e

atributo-classe) e coeficiente∑d2 é dado pelo seguinte cálculo (SAEYS; ABEEL; PEER,

2008):

• Organize os dados das duas variáveis em questão em duas colunas (Dados 1 e 2);

• Na terceira coluna (Ranking 1), calcule o ranking da primeira variável (Dado 1),

atribuindo 1 ao menor valor, 2 ao segundo menor e assim sucessivamente;

• Repita o processo para a segunda coluna (Dado 2), criando uma quarta coluna

(Ranking 4) para armazenar os valores dos rankings ;

35

• Caso exista algum valor repetido dentro da mesma coluna de ranking (colunas 3 ou

4), substitua-os pela sua média. Por exemplo, se existem dois valores com ranking

3, substitua por 1.5;

• Na quinta coluna (d), calcule a diferença entre os pares correspondentes das colunas

de ranking (colunas 3 e 4)

• Na sexta coluna (d2), eleve os valores da quinta coluna (d) ao quadrado;

• Ao final, some todos os valores da sexta coluna (d2), esse é valor do coeficiente∑d2

da equação de correlação.

2.4 Otimização Multiobjetivo

A otimização simultânea de funções de objetivo concorrentes tende a não ser solu-

cionada pela otimização de funções únicas, pois raramente admite uma solução única e

perfeita (FONSECA; FLEMING, 1995). No contexto de seleção de atributos, se levarmos em

consideração que o cálculo da relevância dos atributos pode ser visto como uma função

objetivo, seletores tradicionais, em geral, consideram uma única medida de avaliação ou

consideram grupos de medidas separadamente em seu processo. Dessa forma, claramente

o processo de utilização de mais de uma medida de avaliação para calcular a relevância

de atributos em conjuntos de dados pode ser visto como um problema de otimização. A

medida que o número de objetivos concorrentes aumenta (uso de múltiplas medidas de

avaliação simultaneamente) e todos são considerados, o problema rapidamente se torna

complexo (FONSECA; FLEMING, 1995; MARLER; ARORA, 2004; DEB, 2014).

De acordo com (PEREZ, 2012):

A Otimização multiobjetivo pode ser definida como um vetor de variáveis de

objetivos com dimensão n, y = {y1, y2, ..., yn} no espaço de busca Y . Neste

caso, o objetivo é encontrar um vetor y∗ ∈ Y que minimizem as funções obje-

tivo f(x∗) = {f1(x∗), ..., fn(x∗)}. As soluções que minimizam todos os objetivos

são chamadas pareto-ótimas ou não dominadas.

Nesse sentido, a aplicação de técnicas utilizadas na otimização multiobjetivo no pro-

cesso de seleção de atributos, tornam-se uma ferramenta eficaz para selecionar atributos

relevantes dado diferentes critérios. Logo, a técnica empregada nesta dissertação para

36

realizar a escolha automatizada dos atributos é chamada de Fronteira de Pareto, sendo

descrita na subseção a seguir.

2.4.1 Fronteira de Pareto

Para entender o conceito relacionado a Fronteira de Pareto, primeiro se faz necessário

entender o conceito de dominância de soluções.

Segundo (PEREZ, 2012),

"(...) uma solução x pode ser considerada dominante se e somente se ela for

capaz de atender a seguinte restrição em relação a qualquer outra solução y:

fi(x) < fi(y) para i = 1, ..., r e fi(x) < fi(y) para pelo menos uma função

objetivo f".

A Figura 1 mostra as regiões no espaço de objetos onde a solução x é dominante em

relação a solução y.

Figura 1: Regiões de dominância, retirado de (PEREZ, 2012).

Dessa maneira, uma solução é considerada pareto-ótima ou não-dominada, se não

for dominada por nenhuma outra solução viável no espaço de objetos (DEB, 2014). No

contexto de seleção de atributos, os atributos podem ser considerados como soluções, e a

definição da fronteira de pareto pode ser interpretada como: uma solução não-dominada

(subconjunto de atributos) descrita por um conjunto de atributos que otimizem a sua

37

relevância em relação a n medidas de avaliação, não podendo ser melhorada com relação

a qualquer medida de avaliação ou relevância (função objetivo), sem que exita piora, de

no mínimo, algum outro objetivo.

2.5 Testes Estatísticos

Na verificação dos resultados obtidos por algoritmos de aprendizado de máquina, é

importante fazer uso de técnicas que permitam aumentar a confiabilidade desses resulta-

dos. Com esse objetivo, o uso de testes estatísticos representam ferramentas importantes

na análise de abordagens propostas, sendo possível aplicar testes para avaliar diferenças

estatísticas entre todas as abordagens simultaneamente (análise multivariada) e testes

específicos para analisar, par a par, as abordagens (DIETTERICH, 1998). Nesse sentido,

nas subseções a seguir são descritos dois testes estatísticos: Teste de Friedman e Teste de

Wilcoxon Rank-Sum, utilizados na validação dos resultados obtidos neste trabalho.

2.5.1 Teste de Friedman

O teste de Friedman é um teste não-paramétrico usado para comparar amostras de

dados. É bastante eficaz quando se procura afirmar que as observações analisadas derivam

da mesma população (FRIEDMAN, 1937). No contexto de aprendizado de máquina, esse

teste é recomendado quando se tem como objetivo verificar se há diferença estatística entre

diferentes abordagens de aprendizado de máquina, utilizando diferentes classificadores.

(TRAWIŃSKI et al., 2012).

Através do cálculo do teste de Friedman, o p-value é usado para identificar se há dife-

rença estatística entre as amostras de entrada, servindo como indicação para a utilização

(ou não) de testes post-hoc.

2.5.2 Teste de Wilcoxon Rank-Sum

O teste de Wilcoxon Rank-sum, também conhecido como o teste de Mann-Whitney, é

um teste não-paramétrico desenvolvido por F. Wilcoxon em 1945. O teste é utilizado para

comparar duas amostras independentes de mesmo tamanho. O teste de Wilcoxon Rank-

sum detecta diferenças entre duas populações correspondentes por meio da comparação

da mediana das duas amostras(GIBBONS; CHAKRABORTI, 2003).

Assim, é possível comparar através do p-value obtido, se dois grupos não-pareados

38

pertencem à mesma população, verificando se há evidências para acreditar que os valores

de um grupo são maiores do que os do outro grupo(GIBBONS; CHAKRABORTI, 2003).

Na análise de dados em aprendizado de máquina, o teste de Wilcoxon Rank-sum é

utilizado para análise pareada de abordagens, verificando se há diferenças estatísticas para

corroborar com os resultados obtidos por meio da acurácia.

2.6 Considerações Finais

Este capítulo apresentou os métodos e conceitos necessários para o entendimento

e desenvolvimento deste trabalho. De fato, a literatura relacionada à aprendizado de

máquina voltada para seleção de atributos é ampla, logo, nós limitamos à descrição do

elementos mais relacionados para construção da proposta desta dissertação.

Visando facilitar a compreensão dos conceitos que permeiam a proposição deste traba-

lho, o capítulo foi organizado levando em consideração o fluxo básico do processo de AM:

Pré-processamento, Processamento e Pós-processamento. Isto é, começamos a partir das

técnicas de pré-processamento de dados e seus benefícios no contexto de AM, então, par-

timos para explicação dos modelos de aprendizado supervisionados e não-supervisionados

e como esses se relacionam com a seleção de atributos e por fim, apresentamos tópicos

da ciência da computação que se relacionam com a seleção de atributos e como se dá o

pós-processamento dos resultados obtidos pelos modelos de aprendizado.

O capítulo seguinte apresentará os trabalhos relacionados às abordagens propostas

nesta dissertação. Serão descritos trabalhos que utilizam, em sua maioria, os conceitos

apresentados neste capítulo e que se relacionam com o trabalho proposto.

39

3 Trabalhos Relacionados

Como explanado anteriormente, para elaboração de abordagens automatizadas de

seleção de atributos se faz necessário a utilização de técnicas computacionais que permitam

a automação durante o processo de seleção de atributos. A ideia de automação pode ser

aplicada em relação ao processo de escolha de algoritmos de seleção, a escolha de critérios

de avaliação de relevância e/ou a definição dinâmica de atributos. No entanto, a grande

maioria dos trabalhos existentes na área de seleção de atributos visa a seleção estática,

ao invés da automatização do processo. Nesse sentido, os trabalhos relacionados serão

apresentados de acordo com as técnicas empregadas para realizar o processo de seleção

de atributos, sendo as categorias: fusão de algoritmos de seleção de atributos e seleção

dinâmica de atributos e classificadores.

3.1 Fusão de Algoritmos de Seleção de Atributos

Algoritmos de redução de dimensionalidade são técnicas populares utilizadas para re-

mover ruídos e atributos redundantes em tarefas de Aprendizado de Máquina, como clas-

sificação e agrupamento (CHANDRASHEKAR; SAHIN, 2014; TANG; ALELYANI; LIU, 2014).

Como já mencionado, existem duas grandes categorias desses algoritmos: extração e se-

leção de atributos (LIU; MOTODA, 2007). Este trabalho restringe os estudos à algoritmos

de seleção de atributos.

O principal objetivo de algoritmos de seleção de atributos é encontrar um subconjunto

no espaço de atributos que seja capaz de prover uma representação eficiente do conjunto

original de dados. Tradicionalmente, os algoritmos de seleção de atributos fazem uso de

algumas heurísticas para guiar o processo de busca de atributos que melhor representem

o conjunto original de dados. Com isso em mente, diversos trabalhos têm sido propostos

como em: (ROGATI; YANG, 2002), (JANECEK et al., 2008), (HONG et al., 2008), (HIRA;

GILLIES, 2015), (XUE et al., 2016), (YIJING et al., 2016), (JAFFEL; FARAH, 2018).

Nos estudos realizados em Rogati e Yang (2002) e Janecek et al. (2008), os autores

40

analisaram o impacto da utilização de algoritmos de seleção de atributos no desempenho

geral de algoritmos de classificação como k-NN, Naive Bayes e SVM para classificação de

textos e imagens. Em (HONG et al., 2008), os autores utilizaram algoritmos de agrupamento

como forma de definir a relevância dos atributos.

No trabalho desenvolvido em Hira e Gillies (2015), técnicas de redução de dimensiona-

lidade foram utilizadas em dados de microarray de alta dimensão com objetivo de auxiliar

na análise de expressão gênica. Nesse contexto, foram aplicados três tipos de métodos de

seleção de atributos: embutidos, baseados em filtro e baseados em wrapper, com intuito

de realizar uma investigação acerca do impacto da utilização de diferentes abordagens

de seleção de atributos para encontrar relações complexas entre informações de natureza

biológica. Além da aplicação na bioinformática, algoritmos de seleção de atributos têm

sido utilizados em outras aplicações do mundo real, como em Jaffel e Farah (2018), onde

foi proposto um método de seleção de atributos baseado em um algoritmo de otimização

combinatória para o treinamento de redes neurais, onde o principal objetivo era melhorar

o desempenho de classificação de imagens de sensoriamento remoto por meio da escolha

dos atributos mais relevantes.

Por outro lado, diferente do contexto de aplicações, alguns autores têm investigado

formas de tornar o processo de seleção de atributos mais robusto através do uso de técnicas

computacionais. Em Xue et al. (2016), foi explorada a aplicação de técnicas de compu-

tação evolucionária (CE) na seleção de atributos, tendo como foco a elaboração de um

survey, onde foi reunida uma pesquisa sobre o estado da arte acerca dos pontos fortes e

fracos da aplicação da CE no campo da seleção de atributos. Em Yijing et al. (2016), os

autores aplicaram a técnica de comitês de classificadores com seleção de atributos para

classificação de dados desbalanceados. Nesse trabalho, o método proposto foi elaborado

para lidar com o aprendizado de dados desbalanceados com múltiplas classes, onde a se-

leção de atributos foi utilizada para selecionar os atributos mais relevantes a partir de

dados desbalanceados.

No contexto de fusão, propostas como combinar algoritmos de seleção de atributos

têm sido utilizadas com sucesso na literatura de reconhecimento de padrões, tais como

em: (CHEN; LI, 2010), (PRATI, 2012), (SHEN; DIAO; SU, 2012) e (BIHL; TEMPLE; BAUER,

2016).

Em Chen e Li (2010), os autores propuseram um método de combinação de quatro mé-

todos de redução de dimensionalidade (LDA, F-score, Rough sets theory (RST) e Árvore

de Decisão) com SVM para uma aplicação de pontuação de crédito. Nessa abordagem,

41

cada método de seleção é aplicado sobre um conjunto de treinamento, obtendo-se ao final

um subconjunto de atributos para cada método, que em seguida são avaliados individu-

almente através de um wrapper. A combinação dos seletores de atributos ocorre por meio

da escolha dos atributos que causam melhora na acurácia. Após definir o subconjunto

de atributos mais relevante, um classificador baseado em SVM é treinado até que haja a

otimização dos seus parâmetros de treinamento.

Prati (2012) propôs uma abordagem de combinação baseada na agregação de ran-

kings, onde foram utilizados quatro técnicas de ranking: Borda Count, Condorcet, Schulze

e Markov Chain (MC4). Nesse trabalho, os atributos são avaliados por seis medidas de

relevância (Ganho de Informação, Taxa de Ganho, Incerteza Simétrica, Qui-quadrado,

OneR e ReliefF ), e a partir do cálculo da relevância dos atributos são construídos os

rankings para definição final da relevância dos atributos, baseada na posição em que se

encontram nos rankings. Em comparação com a Fusão de Dados proposta nesta disserta-

ção, a principal diferença entre a Fusão de Dados e o método proposto por Prati (2012),

consiste na utilização de uma técnica de cálculo da relevância do atributo, proposta nesta

dissertação, de acordo com a posição em que o atributo é ranqueado por algoritmos de

seleção de atributos, provendo a fusão dos dados advindos de cada seletor de atributos.

Diferentemente de Prati (2012), onde os autores fizeram uso rankings e filtros de relevância

já propostos em outros trabalhos.

No trabalho proposto em Shen, Diao e Su (2012) é apresentado um método de fusão

intitulado de "Feature Selection Ensemble" (FSE). O FSE é um método baseado em co-

mitês que tem por objetivo a construção de um grupo de subconjuntos de atributos e,

a partir disso, obter a agregação desse grupo. Segundo o autor do trabalho, Shen, Diao

e Su (2012), "ao realizar a combinação de diversos subconjuntos de atributos pode remo-

ver atributos irrelevantes, resultando em soluções compactas e eficientes". Nesse trabalho

foram propostas três abordagens baseadas em FSE: (1) Algoritmo individual de busca

estocástica; (2) Algoritmo individual com o Particionamento do Conjunto de Treino e (3)

Mistura de Algoritmos. A partir dos FSE’s gerados, também foi desenvolvido um módulo

para agregação da decisão, baseado na votação majoritária utilizada em comitês de clas-

sificadores. Quando comparado ao FSE, a Fusão de Decisão proposta nesta dissertação,

ao invés de criar um comitê de subconjuntos de atributos, utiliza a própria estrutura de

comitês de classificadores como meio de fusão da decisão proveniente dos algoritmos de

seleção. Dessa forma, nós utilizamos os benefícios da estrutura de comitês de classifica-

dores para obter diferentes perspectivas da base dados, dado os subconjuntos de dados

previamente reduzidos pelos seletores de atributos. A partir dessa estrutura, asseguramos

42

que cada classificador seja treinado com os atributos mais relevantes, de acordo com os

algoritmos de seleção de atributos utilizados.

3.2 Seleção Dinâmica de Atributos e Classificadores

Por se tratar de um tópico novo na literatura, a seleção dinâmica não apresenta muitos

trabalhos desenvolvidos. No entanto, podemos citar um outro viés da seleção dinâmica, a

seleção dinâmica de atributos em comitês de classificadores. O único trabalho conhecido

sobre a aplicação da seleção dinâmica de atributos no contexto de comitês de classificado-

res foi desenvolvido por Nunes, Dantas e Xavier (2018), onde foi realizada uma extensão do

trabalho proposto em Nunes et al. (2016), sendo proposto uma abordagem que permitiu

o uso de seleção dinâmica de atributos no contexto de comitês de classificadores.

O processo de definição acerca do melhor, ou mais relevante, subconjunto de atributos

impacta diretamente na construção de modelos de classificação. A utilização de técnicas

robustas para seleção de atributos pode promover aspectos positivos no processamento

de dados. Sendo alguns desses aspectos: a redução do custo computacional de criação do

modelo de classificação; o aumento da precisão dos modelos gerados; e a promoção da

interpretabilidade acerca da relação subjacente dos dados.

Podemos dividir os métodos de seleção de atributos como estáticos e dinâmicos. Na

seleção estática de atributos, todo o conjunto de dados é considerado no processo de

avaliação da relevância dos atributos, gerando ao final um único subconjunto de atributos

para o treinamento do modelo de classificação. Como alternativa à seleção estática de

atributos, em Nunes et al. (2016) foi proposto um método de seleção dinâmica de atributos.

Segundo Nunes et al. (2016), a seleção dinâmica faz uso de um algoritmo de agrupamento

para extrair o melhor subconjunto de atributos para cada partição criada, dessa forma os

atributos selecionados podem variar radicalmente, de acordo com as instâncias contidas

em cada grupo da partição. Essa abordagem faz uso de um critério de avaliação, neste

caso a Correlação de Spearman, para calcular a relevância dos atributos para cada grupo

da partição gerada. Além de promover a dinamicidade na avaliação da relevância dos

atributos, na fase de teste, as instâncias de teste são associadas ao classificador mais

similar através do uso de uma medida de similaridade através de uma métrica de distância,

inicialmente utilizando a distância Euclidiana.

No trabalho realizado em Dantas, Nunes e Xavier (2017), os autores realizaram uma

investigação acerca da variação do parâmetro da seleção dinâmica referente a medida de

43

similaridade e distância, com intuito otimizar o parâmetro que causa maior melhora na

seleção dinâmica de atributos. Todavia, pouco têm sido feito para elaboração de aborda-

gens que sejam capazes de reduzir a dimensionalidade de conjuntos de dados de forma

automatizada. A principal diferença entre o método de seleção dinâmica proposto original-

mente em Nunes et al. (2016), para o método de seleção dinâmica baseado na fronteira de

pareto proposto nesta dissertação, consiste no uso da técnica da fronteira de pareto para

permitir a avaliação automática de múltiplos critérios de avaliação de atributos. O uso

dessa técnica nos permite estender o método de seleção dinâmica encontrado na literatura,

com um processo automatizado para definição acerca de quais e quantos atributos devem

ser considerados mais relevantes para cada grupo nas partições geradas pelo algoritmo de

agrupamento.


A partir dos trabalhos existentes na literatura, é possível notar que o emprego de téc-

nicas de fusão no contexto de seleção de atributos, bem como a utilização de abordagens

de seleção de atributos dinâmicas, vem trazendo grandes avanços na captura de relações

complexas contida nos dados quando comparados à abordagens de seleção de atributos

individuais. De modo geral, os métodos propostos nos trabalhos alcançam desempenho

superior quando comparados a abordagens tradicionais. Logo, devido a robustez apresen-

tada por esses métodos, a investigação e proposição de novos métodos de fusão e seleção

dinâmica de atributos representa uma etapa promissora na área de seleção de atributos.

44

4 Seleção Automatizada deAtributos

Este capítulo apresenta o funcionamento geral das abordagens propostas nesta dis-

sertação. A primeira seção trata sobre métodos de fusão responsáveis por realizar a com-

binação de múltiplos seletores de atributos, através da utilização de estratégias baseadas

em ranking de relevância e comitê de classificadores. A segunda seção apresenta o estudo

desenvolvido acerca da seleção dinâmica de atributos baseada em estratégias utilizadas

na otimização multiobjetivo. Nessa última abordagem, o conceito de seleção de atributos

baseado em algoritmos de agrupamento é aprofundado por meio do uso de medidas de ava-

liação baseadas na teoria da informação, que permitem a análise de relações não-lineares

entre os atributos e o atributo classe, para cada partição produzida pelo algoritmo de

aprendizado não-supervisionado.

4.1 Abordagens de Fusão

Uma alternativa comumente usada por pesquisadores de aprendizado de máquina

pode ser aplicada no contexto da seleção de atributos: a combinação da relevância dos

atributos por meio de rankings ou estratégias baseadas em comitês. Essas abordagens

costumam usar vários métodos de seleção e ao final combinam suas saídas para produzir

uma única solução. Visando contribuir com este tópico, os métodos de fusão propostos

neste trabalho tem como objetivo analisar duas abordagens distintas de combinação de

múltiplos algoritmos de seleção de atributos. A primeira, realiza a combinação dos dados

provenientes dos algoritmos de seleção, através da computação do ranking dos atributos,

baseado numa métrica de relevância. O conceito desta abordagem é ter uma combinação

de dados, obtida pelos diferentes algoritmos de seleção de atributos (fusão de dados). A

segunda abordagem é baseada na combinação da decisão de comitê de classificadores trei-

nados por conjuntos de dados reduzidos por diferentes algoritmos de seleção de atributos

(fusão de decisão).

O principal benefício associado a utilização deste tipo de abordagem se dá pela au-

tomatização no processo de escolha dos algoritmos de seleção. As abordagens de fusão

45

permitem ao pesquisador utilizar diversos algoritmos de seleção de dados, sem conhecê-

los previamente, e dessa forma, a obter a fusão de diferentes perspectivas sob o mesmo

conjunto de dados.

4.1.1 Fusão de Dados

Uma maneira simples de combinar atributos obtidos por múltiplos algoritmos de sele-

ção de atributos é através da utilização de técnicas de votação para escolher os atributos

mais relevantes, com base na saída de diferentes algoritmos de seleção de atributos. Em

outras palavras, essa abordagem fornece uma fusão dos atributos selecionados por dife-

rentes algoritmos de seleção e faz uso de uma estratégia de votação para selecionar os

mais importantes. Uma visão geral da fusão de dados pode ser vista na Figura 2.

Figura 2: Fusão de Dados.

46

Seja Xn×m um conjunto de dados e Sn×k o conjunto de dados reduzido, onde n repre-

senta o número de instâncias, m o número original de atributos e k < m o subconjunto

de atributos selecionados. Com o propósito de obter uma solução combinada, temos que

executar t algoritmos, onde t > 1, e cada algoritmo seleciona um subconjunto de atribu-

tos a = a1, a2, ..., al, onde l ≤ m, de X. Pode-se reduzir um conjunto de dados usando

a saída do algoritmo de seleção para extrair um subconjunto S ′n×l. É importante notar

que os resultados gerais dos t algoritmos de seleção de atributos são índices dos atributos

ordenados de forma decrescente pela sua relevância.

Utilizando os a atributos selecionados, apenas contamos quantas vezes cada atributo

aparece em cada solução encontrada pelos algoritmos de seleção de atributos ponderados

por sua relevância. A relevância, nesse contexto, é inversamente proporcional à sua posição

no vetor ordenado de atributos. Portanto, a relevância do atributo ai pode ser definida

por:

ri =1

j(4.1)

onde j é a posição do atributo no vetor de saída. Por exemplo, se um atributo é a primeira

escolha de um algoritmo, sua relevância é igual a um. Se aparecer na quarta posição,

então sua relevância é 0,25. Usando essa estratégia, consideramos não apenas a presença

do atributo na saída do algoritmo de redução de dimensionalidade, mas também sua

importância para todo o processo.

Agora, considere F = {f1, f2, ..., ft} como o conjunto de todas as saídas criadas por t

algoritmos. Podemos definir um fator de votação para cada atributo como:

vi =t∑

j=1

ri. (4.2)

onde v = {v1, v2, ..., vl} é o conjunto de fatores de votação para cada atributo. Em outras

palavras, basicamente resumimos a relevância dos recursos para cada algoritmo. Após

essa etapa, selecionamos os k atributos com os valores mais altos no vetor v para obter

os atributos mais relevantes para todos os t algoritmos, e por fim criando o conjunto de

dados S. O processo completo da fusão de dados pode ser observado no Algoritmo 4.

O algoritmo da Fusão de Dados pode ser dividido em três partes principais:

47

Algorithm 4 Fusão de Dados1: procedure FDA2: Dados = (DadosTreino,DadosTeste)3: algoritmosSelecao = (R1, R2, ..., Rn)4: for each algoritmo t in algoritmosSelecao do5: vetorIndices(t)← t(DadosTreino,′ todosAtributos′)6: end for7: for each indice j in vetorIndices do8: for each atributo a in j do9: relevanciaAtributos(a)← calcRelevancia(a)

10: end for11: end for12: relevanciaAtributos← sort(relevanciaAtributos,′Decrescente′)13: atributosSelecionados← relevanciaAtributos(qtdAtributos)14: TC ← Classificador(DadosTreino, atributosSelecionados)15: for each instanciaTeste i in DadosTeste do16: acuracia← Teste(i, TC)17: end for18: end procedure

1. Nas linhas 2-11 é realizado o processo de fusão de dados: sobre os dados de treina-

mento são aplicados algoritmos de seleção de atributos (linha 4-6), obtendo ao final

um vetor de índices dos atributos ordenados de forma decrescente pela sua relevân-

cia, para cada seletor de atributos; em seguida, para todos os vetores de índices é

calculada a relevância de cada atributo (linhas 7-11).

2. Uma vez calculada a relevância dos atributos por meio da fusão dos dados, os atri-

butos são ordenados de forma decrescente, onde o primeiro é o mais relevante, e o

último o menos relevante (linha 12); Após a ordenação, são selecionados k atributos

que serão utilizados para criar o novo conjunto de dados (linha 13).

3. Por fim, um classificador é treinado com os atributos selecionados (linha 14) e para

cada instância de teste, é calculada a acurácia dado o classificador construído (linhas

15-17).

4.1.2 Fusão de Decisão

Esta seção apresenta uma segunda abordagem para combinar vários algoritmos de

seleção de atributos. A ideia é usar a estrutura do comitê de classificadores como uma

abordagem de fusão, na qual a decisão dos algoritmos de classificação será combinada no

método de combinação do comitê (Fusão de Decisão). O conceito de sistemas de comitês

surgiu nas últimas décadas como uma estratégia para combinar classificadores, com o ob-

48

jetivo de fornecer uma solução potencialmente mais eficiente do que qualquer componente

individual (KUNCHEVA, 2004a).

Um sistema baseado em comitê consiste em um conjunto de classificadores individu-

ais (CIs) c que são organizados de forma paralela. O conjunto de CIs recebe os dados de

entrada e suas saídas são enviadas para o módulo de combinação Comb que fornece a res-

posta geral do conjunto. Portanto, os padrões não rotulados {Ui ∈ Rd|i = 1, 2, ..., n} serãoapresentados a todos os classificadores individuais e um método de combinação combinará

sua saída para produzir a saída geral do sistema O = Comb(yj), {yj = (yj1, ..., yjk|j =

1, ..., c and k = 1, ..., r}, onde o número de classificadores individuais é definido por c e r

descreve o número de rótulos em um conjunto de dados.

Para sistemas de comitês, o principal objetivo é que os componentes individuais ofe-

reçam informações complementares sobre um padrão de entrada e essa informação com-

plementar tenda a aumentar a eficácia de todo processo de reconhecimento (KUNCHEVA,

2004a).

Nesse contexto, a ideia da fusão de decisão consiste em combinar algoritmos de seleção

de atributos utilizando um conjunto de algoritmos de classificação. Ou seja, não combi-

namos as saídas criadas pelos algoritmos de seleção, mas as decisões fornecidas pelas

algoritmos de classificação treinados com os conjuntos de dados reduzidos pelos seletores.

A ideia geral da abordagem pode ser vista na Figura 3.

Como pode ser observado, primeiro usamos algoritmos de seleção de atributos para

produzir subconjuntos distintos do conjunto de dados original X. Esses subconjuntos são

usados como dados de treinamento para os algoritmos de classificação que são posterior-

mente combinados para obter uma única solução. É importante notar que o número de

classificadores individuais c é definido pelo número de algoritmos de seleção de atributos.

O processo completo da fusão de decisão pode ser visto no Algoritmo 5.

O processo da Fusão de Decisão pode ser dividido em três partes:

1. Inicialmente, são aplicados t algoritmos de seleção sobre o conjunto de treino. Para

cada algoritmo de seleção é gerado um novo conjunto de dados, com k atributos

selecionados (linhas 4-6).

2. Na fase de treino, para cada conjunto de dados reduzido pelos algoritmos, é trei-

nado um classificador (linhas 7-9). Ao final dessa fase, um comitê de classificadores

homogêneo é obtido, onde cada classificador foi treinado com diferentes conjuntos

de dados (linha 10).

49

Figura 3: Fusão de Decisão.

3. Por fim, na fase de teste, as instâncias de teste são passadas para o comitê de

classificadores, onde a decisão de cada classificador é combinada por meio do voto

majoritário (linhas 11-33), obtendo-se a acurácia.

O principal objetivo em usar um método baseado em comitê de classificadores no

contexto de algoritmos de combinação é aumentar a diversidade durante o processo de

seleção de atributos, opondo-se ao método de fusão de dados que possui baixa diversidade.

Enquanto o método fusão de dados realiza um processo de fusão a priori (primeiro são

combinados os algoritmos, para só então reduzir o conjunto de dados), a fusão de decisão

executa o processo inverso (fusão a posteriori), onde primeiramente as bases de dados

são reduzidas pelos algoritmos de seleção de atributos, para só então a fusão das decisões

50

Algorithm 5 Fusão de Decisão1: procedure FDE2: Dados = (DadosTreino,DadosTeste)3: algoritmosSelecao = (R1, R2, ..., Rn)4: for each algoritmo t in algoritmosSelecao do5: dadosReduzidos(t)← t(DadosTreino, qtdAtributos)6: end for7: for each dadoReduzido f in dadosReduzidos do8: TC(f)← Classificador(f)9: end for

10: comiteClassificadores← TC(f1, ..., fn)11: for each instanciaTeste i in DadosTeste do12: acuracia← Teste(i, comiteClassificadores)13: end for14: end procedure

provenientes dos classificadores base do comitê ser realizada.

4.2 Seleção Dinâmica baseada na Fronteira de Pareto

Os algoritmos de seleção de atributos tradicionais consideram todo o conjunto de

dados para selecionar um subconjunto de atributos para representar todo o espaço de

um problema específico. Isso pode ser muito adequado para algumas instâncias de teste,

mas não para todas elas, que podem ser melhor representadas por outro subconjunto de

atributos. Alguns artigos trabalharam em formas de superar essa dificuldade dividindo

o conjunto de dados em grupos e concentrado-se na importância de um subconjunto

específico de atributos para esse conjunto particular de amostras (NUNES et al., 2016).

Os resultados mostraram que, em geral, essa abordagem oferece melhor desempe-

nho que os algoritmos tradicionais de seleção de atributos. Com base nisso, a extensão

proposta nesta dissertação utiliza a estratégia da fronteira de pareto para selecionar os me-

lhores atributos considerando medidas distintas, bem como para definir automaticamente

o melhor número de atributos.

De fato, este método traz uma extensão da abordagem proposta em (NUNES et al.,

2016), que utiliza os benefícios da seleção dinâmica de atributos para extrair as infor-

mações subjacentes dos dados e para selecionar os melhores atributos de acordo com as

características dos grupos de instâncias. Usando essas boas propriedades, neste traba-

lho, promovemos a automatização na seleção de atributos fazendo uso da abordagem da

fronteira de pareto, que fornece uma maneira de determinar automaticamente quais são

os melhores atributos para cada grupo, em termos de quantidade (quantos atributos) e

51

qualidade (quais atributos).

Enquanto a abordagem original considera medidas individuais para determinar os

melhores atributos para cada grupo de instâncias (baseado na relevância relacionada com

o atributo-classe), esta extensão usa um processo de múltiplos critérios para determinar

os atributos mais relevantes no conjunto de dados, em particular incluindo elementos

da Teoria da Informação no processo. Todo o processo do método proposto, intitulado

de seleção dinâmica baseada na fronteira de pareto (PF-DFS, do inglês Pareto Front -

Dynamic Feature Selection) , pode ser visto no Algoritmo 6.

Algorithm 6 Seleção Dinâmica baseada na Fronteira de Pareto1: procedure PF-DFS2: Dataset = (DadosV al,DadosTreino,DadosTeste)3: funcoesObjetivo = (IM,DK,CS)4: grupos← algoritmoAgrupamento(DadosV al)5: for each grupo g in grupos do6: for each atributos a in g do7: for each funcObj f in funcoesObjetivo do8: matrixObj ← f(a, target)9: end for

10: end for11: attSelecionados(g)← paretoFrontmin(matrixObj)12: if paretoFront with no solucoes nao− dominadas then13: attSelecionados(g)← TodosAtributos14: end if15: end for16: for each grupo g in grupos do17: TC(g)← Classificador(DadosTreino, attSelecionados(g))18: end for19: for each instânciaTeste t in DadosTeste do20: Escolha o grupo g mais proximo de t21: acuracia← Teste(t, TC(g))22: end for23: end procedure

Como podemos observar, o algoritmo PF-DFS pode ser dividido em três partes prin-

cipais:

1. Nas linhas 2-15 é criado o modelo de seleção de atributos: um algoritmo de agru-

pamento é aplicado ao conjunto de validação (linha 4) criando uma partição C =

c1, ..., ck com instâncias similares divididas em k grupos; após isso, cada atributo ajem um grupo específico ci tem sua relevância medida por múltiplos critérios (calcu-

lando a relevância dos atributos), resultando na matriz de objetivos (linhas 5-10);

Em seguida, é realizada uma busca por soluções não dominadas, computando a

52

fronteira de pareto baseado na matriz de objetivos (linha 11); em algumas aplica-

ções, como em qualquer otimização multiobjetivo, é possível que nenhuma solução

não-dominada seja detectada. Isso significa que não há atributos dominantes para

um grupo. Portanto, todos os atributos serão selecionados (linhas 12-15).

2. Uma vez selecionados os atributos mais importantes para cada grupo, k classifica-

dores são treinados, um para cada grupo (linhas 16-18); Para esses classificadores,

ao invés de usar todos os atributos, apenas o conjunto de atributos selecionado pelo

processo do cálculo da fronteira de pareto (todas as soluções não-dominadas) será

utilizado para cada grupo.

3. Durante a fase de teste, instâncias desconhecidas são fornecidas e, para saber qual

o conjunto de atributos mais adequado, esta instância é comparada com todos os

grupos (baseados no centroide na partição (linha 20), utilizando uma métrica de dis-

tância; Feito isso, essa instância é atribuída ao grupo mais semelhante e classificada

usando o modelo definido para esse grupo (linha 21).

Como mencionado anteriormente, existem algumas diferenças importantes entre o mé-

todo proposto neste trabalho e o método proposto em (NUNES et al., 2016). O último usa

apenas um critério para medir a importância dos atributos, enquanto o método proposto

(PF-DFS) utiliza uma avaliação multicritério, o que nos permite ter uma perspectiva

mais robusta da relevância, já que critérios distintos e complementares podem ser usa-

dos. Usando o processo de decisão pela fronteira de pareto, podemos selecionar todas

as soluções não-dominadas para representar o espaço de atributos, uma vez que todas

elas apresentam uma relevância satisfatória para pelo menos um critério. É importante

observar que o uso de todas as soluções não-dominadas provê uma maneira de definir

automaticamente o número de atributos, descartando as soluções dominadas e mantendo

apenas as soluções não-dominadas, com base em vários critérios.

Nas Figuras 4 a 8, é possível observar o fluxo de execução durante as três fases da

seleção dinâmica de atributos: validação (Figuras 4 e 5), treino (Figuras 6 e 7) e teste

(Figura 8), da abordagem de seleção dinâmica (DFS, do inglês Dynamic Feature Selection)

, proposto em (NUNES et al., 2016), em comparação ao fluxo de execução do PF-DFS,

proposto nesta dissertação. Em ambas as abordagens, o processo inicial se dá pela divisão

da base de dados em três conjuntos distintos: validação, treino e teste.

53

• Fase de Validação

Durante a fase de validação, para ambas as abordagens, DFS e PF-DFS, um algo-

ritmo de agrupamento é aplicado sobre o conjunto de validação, gerando ao final k

grupos. Nessa fase, a principal diferença entre o DFS e o PF-DFS, consiste na utili-

zação de múltiplos critérios de avaliação para selecionar os atributos mais relevantes

para cada partição. Enquanto no DFS é aplicado apenas um critério de avaliação e,

para cada grupo na partição, é gerado um ranking com os atributos mais relevantes,

no PF-DFS múltiplos critérios de avaliação são aplicados para cada grupo, gerando

ao final uma matriz de critérios que é aplicada à técnica da fronteira de pareto.

O produto final do PF-DFS nessa fase, diferentemente do DFS, são subconjuntos

de atributos relevantes com diferentes quantidades de atributos selecionados para

cada grupo de uma partição. A utilização desse mecanismo nos permite definir de

forma automática quais e quantos são os atributos mais relevantes para cada grupo,

levando em consideração diferentes grupos de instâncias.

Figura 4: Fase de Validação do DFS (NUNES et al., 2016).

54

Figura 5: Fase de Validação do PF-DFS.

• Fase de Treino

Na fase de treino, para o PF-DFS, os classificadores são treinados com a quantidade

de atributos definida pelo processo de automatização pela fronteira de pareto, o

que implica dizer que os classificadores são treinados com diferentes quantidades

de atributos. Essa característica do PF-DFS nos permite eliminar a necessidade

da definição do parâmetro relativo a quantidade de atributos a ser selecionado.

Por outro lado, para o DFS, é utilizado um número fixo de atributos, definido

previamente como parâmetro, para todos os classificadores.

Figura 6: Fase de Treino do DFS (NUNES et al., 2016).

55

Figura 7: Fase de Treino do PF-DFS.

• Fase de Teste

O procedimento de teste é igual para ambas as abordagens, DFS e PF-DFS. Para

cada instância de teste é calculada a distância entre a instância e os centroides dos

grupos da partição de validação utilizadas para o treinamento de cada classificador

construído na fase de treino. As instâncias são enviadas para o classificador cuja

distância em relação ao centroide é menor, em outras palavras, para o classificador

mais similar.

Figura 8: Fase de Teste do DFS e PF-DFS.


Neste capítulo foram apresentadas abordagens automatizadas de seleção de atributos

desenvolvidas nesta dissertação. A proposição de abordagens automatizadas representam

um avanço no campo da seleção de atributos, uma vez que ao utilizá-las é possível elimi-

nar a necessidade acerca da escolha da abordagem de seleção de atributos que se deseja

56

utilizar, no que concerne a Fusão de Dados e Fusão de Decisão, e através da Seleção

Dinâmica baseada na Fronteira de Pareto, a abordagem é capaz de definir de forma auto-

mática a quantidade e a qualidade dos atributos que devem ser selecionados, suprimindo

a necessidade da definição do parâmetro relacionado a quantidade de atributos que de-

vem ser selecionados. Para testar e validar todas as abordagens propostas foram definidas

diretrizes experimentais, descritas no próximo capítulo.

57

5 Materiais e Métodos

Este capítulo descreve uma visão geral dos materiais e métodos usados para validação

e execução das abordagens propostas: Métodos de Fusão e Seleção Dinâmica de Atributos

baseada na Fronteira de Pareto. O capítulo está dividido em algoritmos de classifica-

ção, algoritmos de agrupamento, algoritmos de redução de dimensionalidade, medidas de

avaliação, testes estatísticos, bases de dados e configuração dos experimentos.

5.1 Algoritmos de Classificação

Visando validar o desempenho das abordagens propostas usadas na análise empírica,

três algoritmos de classificação amplamente utilizados pela comunidade de Aprendizado de

Máquina foram escolhidos, Árvore de Decisão (método baseado em busca), k-NN (método

baseado em distância) e Support Vector Machine (SVM) (método baseado em otimização).

O uso de diferentes abordagens de classificação nos permite evitar resultados tendenciosos

para um método específico. Para mais detalhes dos algoritmos, é recomendado ver a Seção

2.2.1. Os classificadores foram utilizados com a configuração padrão de parâmetros.

5.2 Algoritmo de Agrupamento

Com o propósito de realizar a tarefa de agrupamento no método de seleção dinâmica

proposto (PF-DFS), assim como na versão original do DFS, decidimos usar o algoritmo

de agrupamento k-Means utilizando a distância euclidiana, descrito na Seção 2.2.2. Este

algoritmo foi selecionado com base na análise empírica realizada em (NUNES et al., 2016)

na qual obteve o melhor desempenho para o método DFS original. O parâmetro k usado

neste trabalho está relacionado ao número de classes nos conjuntos de dados analisados.

58

5.3 Algoritmos de Redução de Dimensionalidade

Nesta dissertação, algoritmos de redução de dimensionalidade encontrados na litera-

tura foram utilizados com dois propósitos distintos. Primariamente, um conjunto de al-

goritmos de seleção de atributos baseados em Informação Mútua foi escolhido, de acordo

com a abordagem dos trabalhos (NGUYEN et al., 2014) e (BROWN, 2009), para compor

os seletores utilizados na análise dos métodos de fusão descritos na Seção 4.1 do Capí-

tulo 4. Abaixo é possível encontrar uma breve descrição acerca dos funcionamento desses

algoritmos (mais detalhes podem ser encontrados nas referências citadas).

• Quadratic programming feature selection (QPFS) (RODRIGUEZ-LUJAN et al., 2010):

o algoritmo QPFS seleciona atributos reduzindo a tarefa de seleção para um pro-

blema de otimização quadrática, usando o método de Nystrom para aproximação

da diagonalização de matriz, o que dá a este método a capacidade de lidar com

conjuntos de dados grandes. Essa solução representa uma maneira mais rápida de

selecionar atributos, quando comparada a outros métodos de seleção de atributos

baseados em informação mútua.

• Spectral Relaxation Global Conditional Mutual Information (SPEC_CMI) (NGUYEN

et al., 2014): este algoritmo implementa uma abordagem sistemática para o problema

global de atributos baseada em informação mútua (MI) via técnicas de relaxamento

espectral. Essa abordagem trata de problemas comumente enfrentados por outros

algoritmos gulosos, como ’auto-redundância’ e, portanto, não leva a soluções sub-

ótimas.

• Maximum Relevance Minimum Total Redundancy (MRMTR) (PENG; LONG; DING,

2005): o algoritmo MRMTR seleciona atributos usando heurísticas de redundân-

cia mínima e relevância máxima. A função critério representada por um problema

multiobjetivo, tem como objetivo selecionar um conjunto de atributos que, conjun-

tamente, tenham maior relevância em relação ao atributo-classe e, ao mesmo tempo,

tenham menos redundância entre elas.

• Conditional Mutual Information Maximization (CMIM) (FLEURET, 2004): o algo-

ritmo CMIM é baseado em informação mútua condicional, que mede a quantidade

de informação mútua entre duas variáveis em relação a uma terceira. O algoritmo

funciona escolhendo atributos que maximizam a informação mútua dos atributos

selecionados com a classe para prever condicionalmente qualquer atributo já seleci-

59

onado, garantindo que a seleção de atributos seja tanto informativa, quanto fraca-

mente dependente.

• Mutual Information Feature Selection (MIFS) (BATTITI, 1994): o algoritmo MIFS

é baseado na seleção gulosa de atributos e considera a informação mútua, tanto em

relação a classe, quanto com relação aos atributos já selecionados. Dado um conjunto

de atributos, o algoritmo escolhe como próximo atributo aquele que maximiza as

informações sobre as classes. Ou seja, um atributo deve ser informativo sobre a

classe sem ser previsível a partir do conjunto atual de atributos.

Mesmo que todos os cinco algoritmos usem a mesma medida, cada um deles tenta

atingir objetivos diferentes. Eles fazem uso das mesmas informações sobre os dados para

responder perguntas diferentes, o que nos leva a ter mais diversidade em nosso experimento

acerca dos métodos de fusão.

Em segundo lugar, com o objetivo de comparar o desempenho do métodos propostos

com outras abordagens, selecionamos três algoritmos de redução de dimensionalidade

encontrados na literatura:

• Seleção Dinâmica de Atributos (DFS): O método DFS é uma abordagem que utiliza

algoritmos de agrupamento para determinar a relevância dos atributos para cada

grupo (NUNES et al., 2016).

• Principal Component Analysis (PCA): A técnica PCA têm sido utilizada para iden-

tificação de variáveis não correlacionadas. Os atributos obtidos são conhecidos como

componentes principais que são extraídos a partir dos conjuntos dados. (JOLLIFFE,

1986). Para mais detalhes, ver a Seção 2.1.

• Seleção Randômica: Esse método é responsável por selecionar randomicamente um

subconjunto de atributos dado um conjunto de dados. Nessa técnica, cada atributo

tem a mesma probabilidade de ser selecionado.

Na análise dos métodos de fusão, primeira vertente, a comparação é realizada en-

tre os métodos de fusão (fusão de dados e fusão de decisão), PCA, Seleção Randômica

(RANDOM) e o conjunto original de dados (No-FS).

Por outro lado, na análise de desempenho do PF-DFS, segunda vertente, a comparação

é feita entre diferentes versões do PF-DFS, o método originalmente proposto (DFS), PCA,

Seleção Randômica (RANDOM) e o conjunto original de dados (No-FS).

60

Ambos os métodos propostos são comparados com o desempenho dos conjuntos de

dados sem seleção de atributos (No-FS), com o propósito de verificar se esses são capazes

de superar o desempenho dos conjuntos originais de dados analisados.

5.4 Medidas de Avaliação

Como descrito na Seção 4.2, o processo de definir automaticamente o parâmetro re-

lacionado a quantidade de atributos é feito através do uso de uma técnica comumente

utilizada na otimização multiobjetivo, método de decisão fronteira de pareto.

Neste trabalho, nós selecionamos três medidas avaliação: Informação Mútua (MI), Di-

vergência de Kullback-Leibler (KD) e Correlação de Spearman (SC). Essas medidas foram

escolhidas por serem aptas a avaliar diferentes relações entre os atributos de conjuntos de

dados de classificação. Detalhes acerca de cada medida foram fornecidas na Seção 2.3.

Após realizar o cálculo da Fronteira de Pareto, nós procuramos por soluções não-

dominadas. Em outras palavras, atributos cujo critérios não podem ser melhorados em

relação a nenhum critério sem piorar, pelo menos, algum outro critério definido nos atri-

butos das soluções não-dominadas.

5.5 Testes Estatísticos

Visando comparar a efetividade dos métodos propostos, diferentes testes estatísti-

cos foram aplicados. Uma vez que diferentes abordagens são comparadas em termos de

classificação, tanto para análise dos métodos de fusão, como para análise do PF-DFS,

foram aplicados dois testes estatísticos não-paramétricos: Teste de Friedman (FRIEDMAN,

1937) e o teste post-hoc Wilcoxon Rank-Sum (GIBBONS; CHAKRABORTI, 2003), descritos

na Seção 2.5. Ambos os testes foram utilizados com um nível de confiança de 95% (α =

0.05).

5.6 Bases de Dados

Nos nossos experimentos foram utilizadas 20 bases de dados de diferentes domínios

de aplicação (real e artificial), tais como bioinformática, dados de texto, imagem facial,

imagens de assinatura e processamento de sinais. Procuramos cobrir tamanhos diferentes

em termos de número de instâncias, atributos e classes para analisar o comportamento

61

dos métodos propostos em diferentes contextos. As bases foram coletadas em cinco repo-

sitórios: UCI Machine Learning (UCI) (DHEERU; TANISKIDOU, 2017), Arizona State Uni-

versity repository (ASU) (LI et al., 2016), OpenML (OpML) (VANSCHOREN et al., 2013),

Bioinformatics Research Group of Seville repository (BIGS) (SEVILLE, 2004) e Ludmila

Kuncheva Collection (LCK) (KUNCHEVA, 2004b).

As principais características de cada base de dados estão apresentadas na Tabela 1,

onde n representa o número de amostras, d o número de atributos, C o número de classes

e a última coluna o repositório de origem.

ID Base de Dados n d C OrigemB1 LSVT 126 310 2 UCIB2 Lung Cancer 181 12533 2 UCIB3 Breast Cancer Diag 569 30 2 UCIB4 Connectionist Bench 208 60 2 UCIB5 Ionosphere 351 32 2 UCIB6 Lymphoma 96 4026 9 BIGSB7 USPS 9298 256 10 ASUB8 PCMAC 1943 3289 2 ASUB9 Friedman 1000 100 2 OpMLB10 Colon Cancer 62 2000 2 BIGSB11 COIL-20 1440 1024 20 ASUB12 Arrhythmia 452 279 16 UCIB13 Madelon 4400 500 2 ASUB14 Simulated 60 601 6 OpMLB15 Gaussian 60 601 3 OpMLB16 Hill Valley 1212 101 2 UCIB17 Breast Cancer Prog 198 34 2 UCIB18 Laryngeal1 213 17 2 LCKB19 Weaning 302 18 2 LCKB20 SPECTF Heart 267 45 2 OpML

Tabela 1: Descrição das Bases de Dados.

• LSVT: O conjunto de dados LSVT é composto por 126 amostras de fonação da

vogal /a/ com 310 medidas de disfonia, com o objetivo de caracterizar sinais de fala

de indivíduos com doença de Parkinson em aceitável (84 amostras) ou não aceitável

(42 amostras).

• Lung Cancer: Lung Cancer é um conjunto de dados de expressão gênica utilizada

no estudo de mesotelioma maligno da pleura (MPM) e adenocarcinoma (ADCA) de

pulmão. A base é composta por 181 amostras de tecido (31 MPM e 150 ADCA),

onde cada amostra é descrita por 12533 genes.

• Breast Cancer Diagnostic: O conjunto de dados Breast Cancer Diagnostic

é composto por 569 padrões de núcleos celulares (357 malignos e 212 benignos)

computados a partir da imagem digitalizada obtida por uma agulha de aspiração de

62

massa mamária. Estas imagens são descritas por 32 atributos. O principal objetivo

desta base é definir se as amostras extraídas são benignas ou malignas.

• Connectionist Bench: O conjunto de dados Connectionist Bench foi criado

com base em 208 padrões de sinais sonares refletidos em cilindros de metais (111

amostras) ou rochas (97) de diversos ângulos distintos.

• Ionosphere: Ionosphere é um conjunto de dados que contém 351 retornos de

radar da ionosfera, divididos como adequados (225 retornos) e não adequados (126

retornos) para análise posterior.

• Lymphoma: A base de dados Lymphoma é formada por 96 amostras de expressão

gênica de pacientes identificados algum tipo de patogenicidade relacionada a linfoma.

Os dados são descritos por 4026 atributos podendo ser classificados entre 9 subtipos

de linfomas (46 amostras para o subtipo I, 10 amostras para o subtipo II, 9 amostras

para o subtipo III, 11 amostras para o subtipo IV, 6 amostras para o subtipos V e

VI, 4 amostras para o subtipo 7 e 2 amostras para os subtipos VIII e IX).

• USPS: O conjunto de dados USPS é constituído por 9298 amostras de imagem 16x16

(256 atributos) de dígitos manuscritos. Os dados podem ser classificados entre os

dígitos 0-9, sendo a distribuição de amostras para cada dígito: ’0’ (1553), ’1’ (1269),

’2’ (929), ’3’ (824), ’4’ (852), ’5’(716), ’6’ (834), ’7’ (792), ’8’ (708) e ’9’ (821).

• PCMAC: A base PCMAC representa um conjunto de dados de texto que contém

1943 amostras descritas em 3289 atributos. Os atributos representam a frequência

na qual as palavras aparecem no textos contidos nas amostas (982 amostras para

encontrado e 961 para não encontrado).

• Friedman: Friedman é um conjunto de dados gerado artificialmente pela função

de Friedman. De forma geral, essa função é utilizada para gerar dados incluindo

relações lineares e não lineares entre as amostras é o atributo-classe, além de gerar

ruídos. A base é composta por 1000 amostras e 100 atributos.

• Colon Cancer: A base de dados Colon Cancer representa um conjunto de padrões

de expressão gênica revelados por agrupamento de tecidos tumorais e normais do

cólon, sondados por arranjos de oligonucleotídios. Essa base é composta de 2000

genes como atributos e 62 amostras de tecidos (22 tecidos normais do cólon e 40

tecidos tumorais do cólon).

63

• COIL-20: A base de dados COIL-20 é formada por imagens de 20 objetos diferen-

tes. As imagens de cada objeto foram tiradas 72 vezes com 5 graus de separação,

enquanto o objeto foi rotacionado em uma mesa giratória, totalizando 1440 amos-

tras de imagem. Cada imagem possui 32x32 pixels de tamanho, com 256 níveis de

cinza por pixel. Logo, cada imagem é representada por 1024 atributos.

• Arrhythmia: Arrhythmia é uma base de dados criada para detectar a presença, ou

ausência, de arritmia cardíaca. A base é composta por 452 instâncias e 279 atributos,

sendo dividida 16 categorias: a categoria ’1’ se refere a ECG normais (54.20% das

amostras), categorias ’2’ a ’15’ a diferentes tipos de arritmia (40.93% das amostras)

e ’16’ para arritmias não classificadas (4.87% das amostras)

• Madelon: Madelon é um conjunto de dados artificial utilizado no desafio de seleção

de atributos NIPS em 2003. Essa base possui como principal característica fortes

correlações não-lineares entre seus dados. É composta por 4400 amostras numéricas

contínuas e 500 atributos. As amostras são divididas em duas classes de forma igual,

50% para cada uma.

• Simulated e Gassuian: Simulated e Gaussian são conjuntos de dados sintéticos

que simulam dados de microarray, tendo como principal objetivo testar os algorit-

mos aprendizado de máquina na análise de expressão gênica. Ambos os conjuntos

de dados possuem 60 amostras e 600 atributos. Para Simulated , as amostras são

divididas em seis classes (8 amostras para classe I, 12 para classe II, 10 para classe

III, 15 para classe IV, 5 para classe V e 10 para classe VI). No conjunto Gaussian ,

as amostras são divididas de forma igual para três classes, 20 amostras para cada

uma.

• Hill Valley: As 1212 amostras da base de dados Hill Valley são representa-

das por 100 pontos em um gráfico bidimensional. O gráfico gerado a partir desses

pontos formam "picos"(600 amostras) e "vales"(612 amostras) em algumas de suas

coordenadas.

• Breast Cancer Prognostic: Assim como na base de dados Breast Cancer Diagnostic ,

a versão Prognostic utiliza como entrada imagens digitalizadas de tecidos mamá-

rios. Ao invés classificar as amostras em termos de malignidade, essa base tem como

objetivo identificar se houve recorrência do câncer em pacientes previamente trata-

dos. A Breast Cancer Prognostic possui 198 amostras, 34 atributos e seus da-

64

dos são classificados como "recorrente"(47 amostras) ou "não-recorrente"(151 amos-

tras).

• Laryngeal1: A base de dados Laryngeal1 contém diferentes sinais capturados

de vozes de pacientes. Esses sinais são utilizados para auxiliar na identificação da

presença (P), ou ausência (A), de patologias na laringe em estágios iniciais. A base

é estruturada em 213 amostras (81 A e 132 P) e 16 atributos.

• Weaning: Weaning é uma base de dados que armazena 302 amostras com informa-

ções sobre pacientes com insuficiência respiratória, usuários de ventilação artificial.

A partir desses dados, os pacientes são classificados aptos (151 amostras) ou inaptos

(151 amostras) para iniciar a alimentação hospitalar.

• SPECTF HEART: O conjunto de dados SPECTF Heart tem como objetivo iden-

tificar a normalidade de imagens provenientes de Tomografia Computadorizada de

Emissão de Próton (SPECTF), classificando-as como normal (55 amostras) ou anor-

mal (212 amostras). As amostras foram coletadas a partir de exames de pacientes,

totalizando 267 amostras descritas por 44 atributos contínuos.

5.7 Configuração do Experimento

Os algoritmos usados neste trabalho foram implementados noMatlab. Com o propósito

de obter resultados robustos, na análise empírica, a validação cruzada com 10-folds foi

aplicada em todos os métodos analisados. Para os métodos de seleção dinâmica (PF-DFS

e DFS) foi investigada qual a melhor configuração em relação ao tamanho partições de

treino e validação, através de quatro variações: 8-folds para treino e 1-fold para validação

(8T1V), 7-folds para treino e 2-folds para validação (7T2V), 6-folds para treino e 3-folds

para validação (6T3V) e 5-folds para treino e 4-folds para validação (5T4V). Através

das investigações conduzidas nas Subseções de resultados 6.2.1 e 6.2.2, concluímos que

para análise dos métodos dinâmicos, PF-DFS e DFS, a configuração utilizada deverá

ser 8-folds para treino e 1-fold para validação. Para os demais métodos de redução de

dimensionalidade mencionados na Subseção 5.3 e para os métodos de fusão propostos

no Capítulo 4.1, a validação cruzada com 10-folds foi utilizada: 9-folds para treinar os

modelos de predição e 1-fold para teste.

Adicionalmente, considerando que todos os métodos analisados são algoritmos não-

determinísticos, dez (10) execuções foram realizadas para cada abordagem, resultando

num valor total de cem (100) valores de acurácia para cada algoritmo de classificação

65

utilizado. Como mencionado anteriormente, às análises dos métodos propostos foram re-

alizadas utilizando três algoritmos de classificação: Árvore de Decisão, k-NN e SVM. É

importante salientar que os testes estatísticos foram aplicados sobre os trezentos (300)

valores de acurácia obtidos, para cada base de dados.

Com o objetivo de comparar as duas abordagens de fusão (fusão dados e fusão decisão)

propostas nesta dissertação, e realizar a investigação sobre os critérios de avaliação e o

particionamento dos dados na seleção dinâmica (DFS), foi necessário definir a quantidade

de atributos a ser selecionada. Nesse sentido, foi decidido aplicar uma taxa de seleção de

10% (90% de redução) para cada método seleção de atributos. Uma taxa de seleção de

10% nos permite avaliar de forma assertiva o potencial de redução de dimensionalidade

dos algoritmos utilizados.

Em relação à análise do método de seleção dinâmica baseado na fronteira de pareto

(PF-DFS), é importante enfatizar que essa abordagem obtém diferentes números de atri-

butos para cada grupo do algoritmo de agrupamento e a definição desse valor, j, é um

processo automático. No entanto, os outros métodos de seleção de atributos analisados

usam um número de atributos fixo j. Para construir uma análise comparativa sólida,

o valor j precisa ser definido. A definição do valor j é feita utilizando duas versões de

tamanho, que são:

• O maior número de atributos selecionados usados pelo PF-DFS durante o seu pro-

cessamento, para cada conjunto de dados. Neste caso, pretendemos comparar o

desempenho dos outros métodos de seleção de atributos com o caso mais otimista,

quantitativamente falando, do PF-DFS.

• O número médio de atributos selecionados usados pelo PF-DFS, para cada conjunto

de dados. Neste caso, pretendemos comparar o desempenho dos outros métodos de

seleção de atributos com o caso médio, quantitativamente falando, do PF-DFS.

Portanto, usamos duas versões de tamanho para todos os métodos de seleção de

atributos, exceto para PF-DFS, versões média e máxima. Como serão avaliadas quatro

versões do PF-DFS, esses valores foram obtidos a partir da melhor versão, PF-DFS (M,

K, S). A Tabela 2 apresenta o número de atributos usados em ambas as versões, para

todos os 20 conjuntos de dados.

66

Versões de Tamanho Versões de Tamanho Versões de Tamanho Versões de TamanhoID Med Max ID Med Max ID Med Max ID Med Max

B1 16 28 B6 61 808 B11 25 70 B16 3 8B2 30 93 B7 23 57 B12 16 31 B17 9 14B3 22 28 B8 342 908 B13 18 31 B18 4 7B4 11 16 B9 6 13 B14 8 80 B19 6 10B5 11 18 B10 18 29 B15 13 45 B20 17 29

Tabela 2: Número de atributos para as versões de tamanho: Máximo e Média


Este capítulo apresentou a metodologia experimental das abordagens propostas nesta

dissertação. Foram utilizados conjuntos de dados de diversas naturezas com intuito de

validar as abordagens propostas em diferentes contextos de dados, reais e artificiais. A

variação dos dados nos permitiu verificar de forma assertiva o comportamento das aborda-

gens propostas em diferentes cenários. Além da descrição das bases de dados, este capítulo

apresentou os algoritmos de classificação e agrupamento utilizados, bem como as medidas

de avaliação e testes estatísticos aplicados. Por fim, o capítulo descreve a configuração

geral do experimento e descreve como foi conduzida a análise comparativa em termos de

taxa de seleção aplicadas no contexto estático e dinâmico de seleção de atributos, assim

como a investigação conduzida acerca da variação de folds utilizado na seleção dinâmica

de atributos.

O próximo capítulo apresenta e discute os resultados obtidos a partir da metodologia

experimental definida neste capítulo.

67

6 Resultados

Este capítulo descreve os resultados obtidos pela execução da análise empírica reali-

zada sobre as abordagens propostas nesta dissertação. O capítulo está dividido em duas

seções: a primeira referente a análise dos métodos de fusão (fusão de dados e fusão de

decisão e a segunda em relação ao método de seleção dinâmica baseada na fronteira de

pareto.

6.1 Análise dos Métodos de Fusão

Afim de verificar o desempenho dos métodos de fusão, uma análise empírica foi rea-

lizada utilizando ambas as abordagens de fusão, PCA, Seleção Randômica e o conjunto

original de dados (sem seleção de atributos). Adicionalmente, foram utilizados três clas-

sificadores diferentes (Árvore de Decisão, SVM e k-NN), com 10 execuções do método de

validação cruzada com 10-folds, para cada base de dados. Os resultados descritos nessa

seção são representados pela acurácia média e desvio padrão obtidos levando em consi-

deração todos os três algoritmos de classificação (Árvore de Decisão, SVM e k-NN), para

todas as 10 execuções do método de validação cruzada com 10-folds.

6.1.1 Análise Comparativa - Métodos de Fusão

Esta análise tem como objetivo comparar o desempenho dos métodos de fusão pro-

postos nesta dissertação (fusão de decisão e fusão de dados), em comparação com PCA,

Seleção Randômica (RANDOM) e conjunto original de dados (No-FS). Na Tabela 3 as

células sombreadas em cinza, com texto em negrito, representam os métodos que obtive-

ram o melhor desempenho em termos de acurácia, em relação as demais abordagens, para

cada base dados.

Como pode ser observado a partir da Tabela 3, a Fusão de Decisão obteve desempenho

superior em onze (11) bases de dados, sendo seguido por cinco (5) bases de dados para o

68

Resultados - Análise ComparativaMétodo FusãoDec FusãoDad PCA RANDOM No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std

B1 68.00±19.88 66.19±14.67 50.44±14.09 55.07±18.44 73.82±5.19B2 97.40±3.40 92.44±8.80 95.24±3.87 95.96±3.36 92.41±2.87B3 92.47±3.70 92.04±1.93 90.73±2.18 82.40±9.66 92.20±2.43B4 76.41±8.98 75.84±4.87 74.43±4.68 65.57±5.15 72.22±4.71B5 88.40±6.57 87.35±4.30 81.37±3.64 81.02±7.87 86.88±2.43B6 90.65±11.57 89.11±12.02 86.26±10.38 81.96±13.67 62.51±7.20B7 91.24±1.28 86.27±2.20 92.86±5.04 88.57±2.56 88.54±3.97B8 89.07±4.39 87.76±4.74 80.75±7.50 71.40±2.33 88.28±4.47B9 77.77±9.78 76.64±8.91 61.91±2.77 59.22±4.89 76.46±12.46B10 75.48±16.77 73.74±12.92 65.20±12.17 71.21±9.08 73.84±9.10B11 99.09±1.36 96.19±5.17 94.30±4.1 96.60±4.17 90.19±4.73B12 63.64±6.08 55.79±6.05 56.18±7.92 53.96±6.78 65.43±3.16B13 71.90±15.30 70.66±13.04 65.35±10.40 52.30±2.26 75.10±1.87B14 81.00±19.08 86.10±16.84 99.65±1.08 67.48±19.19 56.95±8.70B15 91.72±11.10 93.42±4.86 97.87±2.68 81.57±7.89 73.34±8.92B16 66.73±8.25 64.21±5.36 71.47±18.99 69.45±12.27 64.69±4.53B17 72.80±7.91 69.90±6.15 69.93±6.31 67.53±7.69 72.64±5.13B18 77.59±9.80 79.28±3.92 77.26±5.53 60.96±7.91 79.70±4.52B19 81.76±6.74 78.42±3.79 67.21±3.98 60.19±3.96 78.47±5.49B20 78.34±5.16 75.69±4.13 78.63±4.12 76.48±3.37 74.62±4.59

Total Wins 11/20 0/20 5/20 0/20 4/20

Tabela 3: Resultados da Análise Comparativa entre os Métodos de Fusão, Algoritmos deRedução Existentes e No-FS

PCA e quatro (4) bases de dados para o No-FS. É importante notar que a Fusão de Decisão

foi capaz de obter resultados superiores de acurácia em bases de dados com diferentes

características. Por exemplo, o método mostrou-se eficaz em prover boas soluções em

problemas de classificação binária (2 classes) em nove (9) de doze (12) bases e, também

em problemas de classificação multi-classe, como a B6 (9 classes) e B11 (20 classes).

Estes resultados indicam que a utilização de abordagens de fusão de múltiplos algorit-

mos de seleção de atributos, podem prover não somente resultados próximos do melhor,

mas também desempenho superior quando comparado à abordagens de redução de dimen-

sionalidade encontradas na literatura. A utilização da estrutura de comitês de classifica-

dores como modo de fusão de decisão, nos permitiu construir um modelo de classificação

treinado com diferentes perspectivas sobre a mesma base de dados. O aumento da diversi-

dade no processo de treinamento dos classificadores individuais é fortemente corroborado

pelos resultados de acurácia obtidos, demonstrando que a capacidade de generalização do

comitê é acrescida quando a decisão de diferentes classificadores, treinados por diferentes

subconjuntos de atributos, é utilizada.

Em contrapartida, observando o desempenho da fusão de dados em relação as demais

abordagens, não levando em consideração os resultados da fusão de decisão, é possível

69

notar que a fusão de dados obteve desempenho superior, em termos de acurácia, em apenas

quatro (4) bases de dados (B4, B5, B6 e B9), quando comparada ao PCA, RANDOM e

No-FS. O desempenho inferior da fusão de dados pode ser associado a baixa diversidade

no processo do cálculo de relevância dos atributos, uma vez que o processo de fusão a

priori do dados leva em consideração a posição na qual os atributos aparecem no ranking.

De acordo com esse processo, há a possibilidade que dada a baixa de taxa de seleção

aplicada (10%) sobre os conjuntos de dados, relacionada com o cálculo da relevância

dada a posição dos atributos nos rankings, tenham desfavorecido a seleção de atributos

relevantes para treinamento dos classificadores, impactando diretamente na acurácia dos

modelos produzidos. Logo, demonstrando que a fusão a priori dos dados advindos dos

algoritmos de seleção de atributos necessita de uma técnica mais robusta para capturar

as relações entre atributos.

É importante notar, considerando uma comparação par-a-par entre a fusão de dados e

as demais abordagens, que a fusão de dados obteve desempenho superior em oito (8) bases

de dados, em relação ao PCA, em quinze (15) bases de dados em relação ao RANDOM

e em nove (9) em relação ao No-FS. A partir dessa comparação, podemos notar que,

de forma geral, o desempenho da fusão de dados é competitivo. Visto que a fusão de

dados trabalha com o ranking ordenado da relevância dos atributos, dado um grupo

de atributos relevantes que aparecem próximos do threshold da taxa de seleção para a

maioria dos seletores e, para um dos seletores, esse grupo não é relevante (ficando abaixo

do threshold), esse cenário faz com que esse grupo de atributos seja excluído do ranking

final de atributos selecionados. Dessa forma, causando perda de informação relevante no

processo de seleção de atributos. A investigação acerca da aplicação de diferentes taxas de

seleção de atributos na fusão de dados, pode influenciar positivamente para inclusão de

mais atributos relevantes, considerando atributos potencialmente relevantes que ficaram

abaixo do threshold aplicado. Assim sendo, o uso de um threshold restrito representa uma

clara limitação dessa abordagem.

Os resultados descritos na Tabela 3 demonstram a superioridade, em termos de acurá-

cia, da Fusão de Decisão, quando comparada aos demais métodos. Com intuito de validar o

desempenho obtido pela abordagem Fusão de Decisão na análise empírica, nós realizamos

uma análise estatística dos dados, aplicando o teste de Friedman e testes post-hoc.

Neste teste, todas as abordagens comparativas foram consideradas, com todas as 10

execuções da validação cruzada com 10-folds, para todos os algoritmos de classificação.

Os resultados do teste de Friedman são exibidos na Tabela 4 e a sua primeira coluna

70

mostra o p-value do teste de Friedman. As demais colunas apresentam os resultados do

teste post-hoc, comparando o desempenho da Fusão de Decisão com as quatro demais

abordagens comparativas. No teste post-hoc, a comparação, no formato 1-2, foi realizada

e ”<” representa desempenho estatístico superior da abordagem 1 sobre 2; ”>” representa

o contrário (desempenho estatístico significante de 2 sobre 1), enquanto ”=” demonstra

que não há evidências para afirmar que há diferença entre o desempenho dos métodos 1 e

2. As células sombreadas representam os casos onde o desempenho da Fusão de Decisão

alcançou desempenho superior, do ponto de vista estatístico. Em contraste, as células

com (*) representam os casos onde as outras abordagens foram superiores, do ponto de

vista estatístico, à Fusão de Decisão. Para as demais células, o desempenho estatístico de

ambas as abordagens são similares.

Testes Estatísticos - Métodos de FusãoTeste Friedman 1 - 2 1 - 3 1 - 4 1 - 5

Métrica p-value p-value p-value p-value p-valueB1 <0.0001 < < < =B2 <0.0001 < < < <B3 <0.0001 < < < <B4 <0.0001 < < < <B5 <0.0001 < < < =B6 <0.0001 < < < <B7 <0.0001 < >(∗) < <B8 <0.0001 < < < <B9 <0.0001 = < < <B10 <0.0001 < < < <B11 <0.0001 < < < <B12 <0.0001 < < < >(∗)B13 <0.0001 < < < >(∗)B14 <0.0001 = >(∗) < <B15 <0.0001 >(∗) = < <B16 <0.0001 < = = <B17 <0.0001 < < < =B18 <0.0001 >(∗) = < >(∗)B19 <0.0001 < < < <B20 <0.0001 < = < <Win - 16/20 14/20 19/20 14/20

Tabela 4: Resultados dos Testes Estatísticos da Análise Comparativa dos Métodos deFusão. 1 - Fusão de Decisão, 2 - Fusão de Dados, 3 - PCA, 4 - RANDOM e 5 - No-FS

A partir da Tabela 4, podemos observar que o desempenho de todos os cinco métodos

são diferentes, do ponto de vista estatístico, em todas as 20 bases de dados (p-values <

0.05). Por meio teste post-hoc, podemos afirmar que a Fusão de Decisão obteve desem-

71

penho superior (células sombreadas), do ponto de vista estatístico, em 16 bases de dados,

quando comparado a Fusão de Dados, em 14 bases de dados, quando comparado ao PCA

e a No-FS, e em 19 bases de dados, quando comparado ao RANDOM.

Os resultados obtidos após a aplicação dos testes estatísticos asseguram a ideia de que

a utilização da estrutura de comitês de classificadores como modo de fusão a posteriori,

produz resultados superiores a utilização da fusão de dados (fusão a priori), além de su-

perar algoritmos de redução individuais (PCA e RANDOM) e o desempenho do conjunto

de dados original (No-FS).

6.2 Análise dos Métodos de Seleção Dinâmica

Esta análise experimental é dividida em cinco partes, onde a primeira visa investigar

o impacto do uso de medidas da Teoria da Informação no método de seleção dinâmica

de atributos (DFS) como critério de avaliação. O método de seleção dinâmica, original-

mente proposto em (NUNES et al., 2016), foi explorado por meio da variação do critério

de avaliação utilizado para calcular a relevância dos atributos. Por meio da análise re-

alizada, foi possível identificar que o uso da Informação Mútua, ao invés da Correlação

de Spearman, foi capaz de capturar com mais eficiência a relevância dos atributos. A

partir dos resultados obtidos na investigação acerca dos critérios de avaliação no DFS,

a segunda análise tem como objetivo analisar o impacto do particionamento dos dados

na seleção dinâmica de atributos. Dessa forma, visando uma análise robusta para análise

do particionamento dos dados, utilizaremos o método de seleção dinâmica com critério

de avaliação baseado em Informação Mútua (DFS-M). A terceira análise avalia o uso de

diferentes critérios no processo de automatização pela fronteira de pareto do método de

seleção dinâmica proposto nesta dissertação (PF-DFS). As últimas duas análises são de

natureza comparativa, onde a primeira visa comparar o desempenho do método proposto,

PF-DFS, com o algoritmo original (DFS). Por fim, a segunda análise comparativa visa

comparar o desempenho do PF-DFS com algoritmos de redução conhecidos, bem como

com o conjunto original de dados (sem seleção de atributos). O principal objetivo dessa

análise é verificar o desempenho do método proposto, em comparação com a aplicação, ou

ausência, de métodos tradicionais de seleção de atributos. Os resultados descritos nessa

seção são representados pela acurácia média e desvio padrão obtidos levando em consi-

deração todos os três algoritmos de classificação (Árvore de Decisão, SVM e k-NN), para

todas as 10 execuções do método de validação cruzada com 10-folds.

72

6.2.1 Análise de Diferentes Medidas na Seleção Dinâmica de Atri-butos

Como mencionado anteriormente, essa análise visa definir qual a melhor medida de

avaliação a ser usada no DFS. Sendo assim, três medidas serão usadas nessa análise,

sendo elas: Informação Mútua (M), Divergência de Kullback-Leibler (K) e Correlação

de Spearman (S). As primeiras duas medidas são baseadas em elementos da Teoria da

Informação, e a última representa a medida originalmente utilizada no DFS, proposto em

(NUNES et al., 2016). A Tabela 5 apresenta os resultados de acurácia média paras três

versões do DFS exploradas. Novamente, as células sombreadas com números em negrito

na Tabela 5 representam o melhor desempenho (maior acurácia), para cada base de dados.

Resultados - Medidas de AvaliaçãoMétodo DFS-M DFS-K DFS-SMétricas Acc±Std Acc±Std Acc±Std

B1 63.18±17.83 55.79±18.00 52.25±15.37B2 93.49±10.06 93.06±10.59 94.96±6.95B3 85.96±6.62 66.39±7.28 79.30±7.22B4 66.56±10.24 62.24±10.50 59.34±11.37B5 78.93±8.83 75.03±8.79 75.96±9.13B6 80.69±16.89 79.88±18.75 79.25±17.97B7 81.57±3.34 62.29±8.57 56.01±4.00B8 68.88±5.37 65.51±3.47 68.43±4.73B9 55.91±6.83 53.94±5.68 54.02±5.91B10 68.80±18.75 71.03±18.78 70.37±18.41B11 94.66±6.49 35.08±8.00 68.38±6.58B12 44.41±16.16 53.68±8.98 39.53±21.15B13 51.35±3.72 50.46±3.42 51.85±3.70B14 75.06±22.58 71.61±21.58 67.95±19.45B15 57.56±21.33 71.61±21.58 67.95±19.45B16 54.00±5.73 56.67±5.68 57.68±6.82B17 68.29±9.59 70.57±9.01 70.65±9.12B18 60.79±9.73 71.94±10.95 68.84±10.52B19 63.75±9.49 70.08±13.01 73.58±14.48B20 76.06±6.97 75.46±6.98 75.79±7.39

Total Wins 11/20 3/20 6/20

Tabela 5: Resultados utilizando Diferentes Medidas no DFS

Analisando a acurácia média dos resultados, é possível afirmar que a medida de in-

formação mútua (DFS-M) alcançou melhor desempenho (acurácia superior) em mais da

metade dos conjuntos de dados (11 de 20 conjuntos). Enquanto o uso das medidas DFS-K

e DFS-S obtiveram melhor desempenho em 3 e 6 conjuntos de dados, respectivamente.

Os resultados da Tabela 5 mostram a superioridade, em termos de acurácia, do uso de

73

medidas baseadas em Teoria da Informação, demonstrando que a Informação Mútua é

capaz de capturar e representar de forma eficiente as relações intrínsecas dos conjuntos

de dados. Ademais, o uso de medidas mais representativas, como a Informação Mútua,

nos permitiu selecionar os melhores atributos de acordo com as características dos gru-

pos de instâncias, isso significa que, os comportamentos individuais das instâncias foram

considerados no processo de seleção de atributos, sendo refletido em resultados superiores

para versão DFS-M, quando comparado as demais.

Com intuito de validar de forma mais significativa o desempenho do DFS utilizando

diferentes medidas de avaliação, nós aplicamos o teste de Friedman e o teste post-hoc nos

resultados obtidos na Tabela 5. Os resultados estatísticos são descritos na Tabela 6.

Testes Estatísticos - Medidas de AvaliaçãoTeste Friedman 1 - 2 1 - 3

Métrica p-value p-value p-valueB1 <0.0001 < <B2 0.0961 - -B3 <0.0001 < <B4 <0.0001 < <B5 <0.0001 < <B6 0.545 - -B7 <0.0001 < <B8 <0.0001 < =B9 <0.0001 < <B10 0.2273 - -B11 <0.0001 < <B12 <0.0001 >(∗) <B13 <0.0001 < =B14 <0.0001 < <B15 <0.0001 >(∗) >(∗)B16 <0.0001 >(∗) >(∗)B17 <0.0001 >(∗) >(∗)B18 <0.0001 >(∗) >(∗)B19 <0.0001 >(∗) >(∗)B20 0.5779 - -Win - 10/20 9/20

Tabela 6: Resultados dos Testes Estatísticos do DFS utilizando Diferentes Medidas deAvaliação. 1 - DFS-M, 2 - DFS-K, 3 - DFS-S

Na Tabela 6, as células sombreadas com números em negrito representam os casos

onde o DFS-M obteve melhor desempenho, do ponto de vista estatístico em relação ao

DFS-K e DFS-S. Em contraste, as células seguidas por >(∗) representam os casos em que

o uso de outras medidas de avaliação (DFS-K e/ou DFS-S) foram melhores que o uso da

74

Informação Mútua (DFS-M). Para o restante das células, o desempenho das medidas de

avaliação no DFS são semelhantes do ponto de vista estatístico.

A partir da Tabela 6, podemos observar que o desempenho de todas as três medidas

de avaliação são diferentes, do ponto de vista estático, em 16 conjuntos de dados (p-value

< 0,05). No teste post-hoc, podemos afirmar que o uso da medida M (DFS-M) apresentou

melhor desempenho (células sombreadas e em negrito) do que as outras abordagens anali-

sadas, do ponto de vista estatístico, em 10 conjuntos de dados, quando comparado ao uso

da medida K (DFS-K) e em 9 conjuntos de dados, quando comparado ao uso medida S

(DFS-S). Além disso, o DFS-M obteve desempenho semelhante em apenas dois conjunto

de dados, para o DFS-S. Os resultados obtidos no teste estatístico corroboraram com o

bom desempenho alcançado pela uso da medida M (DFS-M) nos resultados de acurácia.

Logo, devido a robustez do uso da medida de Informação Mútua na seleção dinâmica de

atributos, a versão DFS-M será utilizada na análise do particionamento dos dados.

6.2.2 Análise da Variação no Tamanho das Partições de Treino eValidação na Seleção Dinâmica de Atributos

Esta análise tem como principal objetivo definir qual o melhor tamanho, em termos

de conjunto de treino e validação, para o método de seleção dinâmica (DFS-M), através

da investigação do aumento de instâncias do grupo de validação utilizado para criação do

modelo de seleção dinâmica. Para tanto, foram utilizadas quatro variações nos tamanhos

das partições. A nomenclatura (8T1V) implica que foram utilizados oito folds, para treino

e um para validação. A mesma ideia se aplicam as demais (7T2V, 6T3V e 5T4V). Na

Tabela 7, as células sombreadas em cinza com texto em negrito representam o melhor

desempenho das varições de tamanho, para cada base de dados.

A partir da Tabela 7, podemos observar que o DFS-M, com a configuração 8T1V,

obteve desempenho superior em 10 de 20 bases de dados, obtendo melhores resultados

quando comparado as demais configurações (7T2V, 6T3V e 5T4V). Afim de obter mais

significância para os resultados encontrados nesta análise empírica, foram aplicados testes

estatísticos. Os resultados destes testes podem ser observados na Tabela 4 abaixo.

A partir da Tabela 8, podemos observar que as configurações de variação para o nú-

mero de partições de treino e validação são diferentes, do ponto de vista estatístico, em 18

bases de dados (p-value < 0.05). Em apenas duas bases de dados, B9 e B20, o desempenho

dos diferentes números de partições de treino e validação são similares do ponto de vista

estatístico. No teste post-hoc, podemos afirmar que a configuração 8T1V obteve desempe-

75

Resultados - Particionamento dos DadosMétodo DFS-M(8T1V) DFS-M(7T2V) DFS-M(6T3V) DFS-M(5T4V)Métricas Acc±Std Acc±Std Acc±Std Acc± Std

B1 63.18±17.83 51.53±15.72 53.77±17.61 52.06±16.77B2 93.49±10.06 93.90±9.62 91.98±9.36 92.13±9.06B3 85.96±6.62 73.00±7.46 77.14±5.69 76.23±6.62B4 66.56±10.24 60.62±11.70 59.26±10.88 57.17±11.44B5 78.93±8.83 76.53±8.64 75.28±9.95 74.93±9.49B6 80.69±16.89 79.98±18.80 77.94±18.17 74.37±20.48B7 81.57±3.34 53.86±4.02 51.97±3.26 51.20±2.93B8 68.88±5.37 79.70±6.62 79.63±6.09 78.22±6.20B9 55.91±6.83 54.64±5.51 54.90±5.64 55.02±6.83B10 68.80±18.75 69.79±18.50 76.96±18.25 69.27±18.42B11 94.66±6.49 48.84±6.83 44.04±6.20 42.39±4.51B12 44.41±16.16 52.67±8.12 53.05±7.74 51.61±7.14B13 51.35±3.72 52.95±4.33 51.78±3.74 52.56±4.38B14 75.06±22.58 74.56±20.28 70.17±24.15 67.50±22.03B15 57.56±21.33 70.99±19.57 71.81±18.88 70.56±21.97B16 54.00±5.73 57.95±7.52 55.22±6.29 55.79±9.10B17 68.29±9.59 70.02±8.83 71.26±8.69 67.83±10.24B18 60.79±9.73 70.50±11.41 67.42±9.49 66.67±11.99B19 63.75±9.49 73.93±15.46 72.31±13.21 69.00±13.93B20 76.06±6.97 74.62±7.91 75.85±7.06 75.94±7.34

Total Wins 10/20 6/20 4/20 0/20

Tabela 7: Resultados utilizando Diferentes Tamanhos nas Partições de Treino e Validação

nho superior (células sombreadas em cinza) em relação as demais configurações, do ponto

de vista estatístico, em 6 bases de dados, quando comparado a configuração 7T2V; em 8

bases de dados, quando comparado a configuração 6T3V; e em 9 bases de dados, quando

comparado a configuração 5T4V. É importante notar que o aumento de instâncias no

grupo de validação (configurações 7T2V, 6T3V e 5T4V), em detrimento da diminuição

das instâncias do grupo de treino, em geral, contribuiu para o melhor desempenho de

bases de dados com poucas instâncias e atributos, como por exemplo as bases B17, B18

e B19. Esse fato pode ser explicado pelo aumento de instâncias utilizadas no processo

de avaliação da relevância dos atributos na seleção dinâmica. Uma pequena quantidade

de instâncias no processo de validação, pode conduzir a baixa representatividade no mo-

mento em que o critério de avaliação é calculado, dessa forma, gerando um modelo de

seleção de atributos deficiente. De forma geral, o desempenho da configuração 8T1V é

equivalente ou superior em relação as demais configurações, para as 20 bases de dados

avaliada. Sendo essa configuração recomendada, na maior parte dos casos, para bases de

dados balanceadas em termos de número de instâncias e atributos. Sendo assim, a partir

76

Testes Estatísticos - Particionamento dos DadosTeste Friedman 1 - 2 1 - 3 1 - 4

Métrica p-value p-value p-value p-valueB1 <0.0001 < < <B2 <0.0001 = < <B3 <0.0001 < < <B4 <0.0001 < < <B5 <0.0001 < < <B6 <0.0001 = = <B7 <0.0001 < < <B8 <0.0001 >(∗) > (∗) >(∗)B9 0.0965 - - -B10 <0.0001 = >(∗) =B11 <0.0001 < < <B12 <0.0001 >(∗) >(∗) >(∗)B13 <0.0001 >(∗) = >(∗)B14 <0.0001 = < <B15 <0.0001 >(∗) >(∗) >(∗)B16 <0.0001 >(∗) >(∗) >(∗)B17 <0.0001 >(∗) >(∗) =B18 <0.0001 >(∗) >(∗) >(∗)B19 <0.0001 >(∗) >(∗) >(∗)B20 0.2504 - - -Win - 6/20 8/20 9/20

Tabela 8: Resultados dos Testes Estatísticos do DFS-M utilizando Diferentes Tamanhosde Partição. 1 - DFS-M(8T1V), 2 - DFS-M(7T2V), 3 - DFS-M(6T3V), 4 - DFS-M(5T4V)

desta investigação, as demais análises referentes ao método de seleção dinâmica proposto

nesta dissertação (PF-DFS), utilizarão a configuração de particionamento 8T1V (8 folds

para treino e 1 folds validação).

6.2.3 Análise de Diferentes Medidas no Processo de Automatiza-ção pela Fronteira de Pareto

Como mencionado anteriormente, esta análise visa definir a melhor combinação de

medidas a serem utilizadas no método proposto (PF-DFS). Para tanto, três medidas de

similaridade serão utilizadas nesta análise, sendo elas: Informação Mútua (M), Divergência

de Kullback-Leibler (K) e Correlação de Spearman (S). Todas as possíveis combinações

dessas medidas foram utilizadas: (MKS), (MK), (MS) e (KS). A Tabela 9 apresenta a

acurácia média do método proposto utilizando todas as combinações dessas três medi-

das. Nesta tabela, as células sombreadas com números em negrito representam o melhor

77

desempenho (maior acurácia), para cada base de dados.

Resultados - Medidas de AvaliaçãoMétodo PF-DFS(MKS) PF-DFS(MK) PF-DFS(MS) DFS-PF(KS)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Total Wins 17/20 0/20 3/20 0/20

Tabela 9: Resultados utilizando Diferentes Medidas de Avaliação

Analisando os resultados obtidos na 9, é possível afirmar que a combinação de todas

as três medidas, PF-DFS(MKS), alcançou a maior acurácia (o melhor desempenho), em

quase todas as bases de dados (17 de 20 bases de dados). Enquanto usando duas medidas,

(MS), o PF-DFS obteve o melhor desempenho em apenas três (3) bases de dados. Estes

resultados podem ser uma indicação que o uso de mais critérios (medidas) têm efeito

positivo na seleção de atributos não-dominados. Nós notamos que o uso de duas medidas

levaram a seleção de um conjunto menor de atributos. Em outras palavras, o conjunto

de soluções não-dominadas é menor, o que leva a um efeito negativo no desempenho de

algoritmos de classificação.

Os resultados descritos na Tabela 9 demonstram a superioridade, em termos de acu-

rácia, do PF-DFS(MKS), quando comparado as demais combinações de medidas. Afim de

validar o desempenho das medidas de avaliação utilizadas na análise empírica, nós apli-

camos o teste de Friedman e testes post-hoc. Nestes testes, todas as medidas de avaliação

78

foram consideradas, com todas as 10 execuções da validação cruzada com 10-folds, para

todos os algoritmos de classificação. Os resultados do teste de Friedman são exibidos na

Tabela 10 e a sua primeira coluna mostra o p-value do teste de Friedman. As demais co-

lunas apresentam os resultados do teste post-hoc, comparando, em uma base dois-a-dois,

o desempenho do PF-DFS(MKS) com as três demais possibilidades de combinação.

Testes Estatísticos - Medidas de AvaliaçãoTeste Friedman 1 - 2 1 - 3 1 - 4

Métrica p-value p-value p-value p-valueB1 <0.0001 < >(∗) =B2 <0.0001 < < <B3 <0.0001 < < <B4 <0.0001 < < <B5 <0.0001 < < <B6 <0.0001 < < <B7 <0.0001 < < <B8 <0.0001 < < <B9 <0.0001 < >(∗) <B10 <0.0001 < < <B11 <0.0001 < < <B12 <0.0001 < < <B13 <0.0001 < < <B14 <0.0001 < < <B15 <0.0001 < < <B16 <0.0001 = = <B17 <0.0001 < = <B18 <0.0001 < < =B19 <0.0001 < < =B20 <0.0001 = >(∗) =Win - 18/20 15/20 16/20

Tabela 10: Resultados dos Testes Estatísticos do PF-DFS utilizando Diferentes Medidasde Avaliação. 1 - PF-DFS(MKS), 2 - PF-DFS(MK), 3 - PF-DFS(MS), 4 - PF-DFS(KS)

A partir da Tabela 10, nós podemos observar que o desempenho de todas as quatro

combinações de medidas são diferentes, do ponto de vista estatístico, em todas as 20

bases de dados (p-values < 0.05). No teste post-hoc, podemos afirmar que a combinação

MKS obteve o melhor desempenho (células sombreadas) em 18 bases de dados, quando

comparado a combinação MK, em 15 bases de dados para combinação MS e em 16 bases

de dados para combinação KS. Adicionalmente, a combinação MKS obteve desempenho

inferior em apenas 3 casos, bases B1, B9 e B20, em relação a combinação MS.

Em resumo, o desempenho superior em termos de acurácia da combinação MKS foi

corroborado pelo teste estatístico, demonstrando que o uso de todas as medidas agrega

79

mais eficiência para o PF-DFS. A partir deste ponto, nas análises comparativas das duas

subseções seguintes, o método proposto utilizará todas as três medidas (MKS) como

critério de avaliação no processo de decisão pela fronteira de pareto.

6.2.4 Análise Comparativa - Abordagens de Seleção Dinâmica deAtributos

A Tabela 11 apresenta a acurácia média do método proposto (PF-DFS) e seis versões

diferentes do método DFS original, utilizando todas as três medidas de avaliação e ambas

as versões de tamanho em termos de quantidade de atributos (média e máxima), enfati-

zando que o número de atributos selecionados para cada versão de tamanho está descrita

na Tabela 2. Mais uma vez, as células sombreadas com números em negrito na Tabela 11

representam o melhor desempenho (maior acurácia), para cada base de dados.

Resultados - Abordagens de Seleção Dinâmica de AtributosMétodo PF-DFS(MKS) DFS(M-MED) DFS(M-MAX) DFS(K-MED) DFS(K-MAX) DFS(S-MED) DFS(S-MAX)Métricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std

B1 67.45±14.81 54.50±15.41 55.67±15.84 58.88±16.83 55.81±18.73 53.00±14.37 53.57±17.69B2 94.40±10.19 87.73±85.25 91.82±7.55 86.86±8.39 91.29±7.40 88.06±8.37 90.29±7.97B3 92.26±4.49 91.46±5.08 93.16±3.62 90.09±4.64 92.24±4.42 92.46±4.03 93.11±3.61B4 74.18±10.58 68.99±11.47 73.08±10.55 69.69±10.73 73.40±10.50 64.90±11.80 71.39±11.14B5 87.26±4.48 82.75±7.01 85.52±5.91 81.57±7.86 85.21±6.38 82.92±6.92 86.36±5.73B6 74.25±16.11 71.82±16.01 81.68±16.70 73.96±16.73 81.37±17.92 72.26±16.66 80.79±17.24B7 78.51±2.58 53.80±3.73 79.80±3.56 60.01±8.75 80.03±3.20 53.06±4.09 75.80±7.52B8 86.08±4.72 75.84±7.01 80.18±5.53 65.32±3.59 72.19±3.72 68.90±4.80 78.44±5.03B9 74.92±8.50 53.89±5.86 55.23±5.78 53.63±6.03 54.32±6.61 53.90±5.13 57.16±7.40B10 74.48±17.37 66.83±17.49 68.35±17.83 68.59±18.60 68.67±14.50 65.84±19.55 67.06±18.92B11 91.10±5.74 30.08±10.24 51.61±9.07 11.60±3.95 21.22±6.88 12.86±6.08 79.62±10.01B12 59.91±8.19 53.21±7.99 55.66±7.91 52.27±8.49 52.66±8.11 43.70±17.48 52.67±10.09B13 63.29±9.43 50.50±3.25 51.20±3.59 49.88±3.10 50.16±3.25 50.50±3.47 50.32±6.15B14 73.44±23.42 49.72±19.10 61.27±20.93 53.83±21.36 75.72±23.22 51.44±19.65 76.83±22.46B15 74.16±19.43 38.98±20.79 53.56±25.40 41.52±20.74 67.57±24.34 45.27±19.37 61.56±20.53B16 53.15±6.37 53.54±4.92 56.49±6.41 53.70±4.24 54.90±4.95 53.87±4.85 56.68±7.01B17 72.26±7.20 70.93±8.45 71.05±8.78 70.18±8.22 70.23±8.95 70.66±7.82 69.88±9.05B18 80.20±8.41 77.50±9.89 79.24±8.53 77.19±9.37 79.18±8.70 76.91±9.89 78.80±9.21B19 78.43±7.46 70.09±10.16 74.92±8.24 69.47±9.63 74.35±9.43 70.66±10.46 74.85±8.78B20 74.35±7.97 74.95±8.47 74.58±8.00 75.45±7.94 74.43±8.20 75.26±7.50 75.25±7.91

Total Wins 14/20 0/20 2/20 1/20 1/20 0/20 2/20

Tabela 11: Resultados comparando o PF-DFS(MI,KD,SC) e o DFS

A partir da Tabela 11, é possível observar que, para a maioria dos casos (14 de 20

bases de dados), o método PF-DFS alcançou desempenho superior que o método DFS

original. Este resultado é promissor, uma vez que ele mostra que o uso de mais critérios

(medidas) para selecionar o subconjunto de atributos e a definição automática do tamanho

aumentam a eficiência do subconjunto e, consequentemente, melhora o desempenho dos

algoritmos de classificação. Entre as versões do DFS, o uso do número máximo de atributos

alcançou desempenho superior ao uso do número médio, para todas as três medidas de

80

avaliação na maioria das bases de dados. Os maiores valores de acurácia nas seis bases de

dados restantes foram alcançados pelo uso da versão máxima de tamanho, B3 e B6 para

o DFS(M-MAX), B7 para o DFS(K-MAX) e B14 e B16 para o DFS(S-MAX). No caso da

versão média, apenas uma base obteve valor de acurácia superior, B20 para DFS(K-MED).

Nesta subseção, nós aplicamos o mesmo procedimento de validação estatística da

análise prévia e executamos Friedman e o teste post-hoc Wilcoxon para comparar o de-

sempenho geral dos diferentes métodos. O teste de Friedman foi utilizado para comparar

o desempenho do PF-DFS com todas as seis versões do DFS. Os resultados do teste de

Friedman são exibidos na Tabela 12, utilizando o formato (valores, cores e símbolos) da

subseção anterior.

Testes Estatísticos - Abordagens de Seleção Dinâmica de AtributosTeste Friedman 1 - 2 1 - 3 1 - 4 1 - 5 1 - 6 1 - 7

Métrica p-val p-val p-val p-val p-val p-val p-valB1 <0.0001 < < < < < <B2 <0.0001 < < < < < <B3 <0.0001 = >(∗) < = = =B4 <0.0001 < = < = < <B5 <0.0001 < < < < < <B6 <0.0001 = >(∗) = >(∗) = >(∗)B7 <0.0001 < >(∗) < >(∗) < <B8 <0.0001 < < < < < <B9 <0.0001 < < < < < <B10 <0.0001 < < < < < <B11 <0.0001 < < < < < <B12 <0.0001 < < < < < <B13 <0.0001 < < < < < <B14 <0.0001 < < < = < =B15 <0.0001 < < < < < <B16 <0.0001 >(∗) >(∗) >(∗) >(∗) >(∗) >(∗)B17 <0.0001 < = < < < <B18 <0.0001 < = < = < =B19 <0.0001 < < < < < <B20 0.4577 - - - - - -Win - 16/20 12/20 17/20 12/20 16/20 14/20

Tabela 12: Resultados dos Testes Estatísticos Comparando o PF-DFS(MI,KD,PC) comtodas as versões do DFS. 1 - PF-DFS(MKS), 2 - DFS(M-MED), 3 - DFS(M-MAX), 4 -DFS(K-MED), 5 - DFS(K-MAX), 6 - DFS(S-MED), 7 - DFS(S-MAX)

A partir da Tabela 12, podemos observar que o desempenho de todos os sete métodos

são diferentes, do ponto de vista estatístico, em 19 bases de dados (p-values < 0.05).

No teste post-hoc, podemos afirmar que o PF-DFS obteve desempenho superior (células

81

sombreadas), do ponto de vista estatístico, em 17 bases de dados, quando comparado ao

DFS(K-MED), em 16 bases de dados, quando comparado ao DFS(M-MED) e ao DFS(S-

MED), em 14 bases de dados, quando comparado ao DFS(S-MAX), e em 12 bases de

dados, quando comparado ao DFS(M-MAX) e ao DFS(K-MAX).

Os resultados obtidos após os testes estatísticos endossam a ideia de que a utilização

simultânea de múltiplos critérios produz melhores resultados do que a utilização de crité-

rios únicos, em termos de acurácia de classificação. Mesmo quando o número de atributos

usados pelo DFS é igual ao número máximo de atributos usados pelo PF-DFS (eles poten-

cialmente extraem a quantidade equivalente de informações), o desempenho do PF-DFS

é superior ao DFS.

Sabe-se que o uso de decisão multicritério leva, em geral, a melhor desempenho quando

comparado a abordagens de critério único, especialmente quando os critérios de avalia-

ção são contraditórios ou complementares. Além disso, quando as soluções são avaliadas

usando perspectivas distintas, reduzimos a possibilidade de viés na análise. Neste estudo,

usamos duas medidas de Teoria da Informação que são complementares e podem extrair

uma relações complexas entre duas variáveis. Além disso, a medida de Spearman é robusta

para outliers (devido à sua codificação de ranking) e pode avaliar correlações não-lineares.

Quando associada às outras duas medidas, a análise multicritério das soluções pode se

tornar uma ferramenta poderosa de avaliação.

6.2.5 Análise Comparativa - Outros Algoritmos de Redução deDimensionalidade e No-FS

Nesta última análise, comparamos o desempenho do método proposto com algoritmos

de redução de dimensionalidade conhecidos (PCA e Seleção Randômica) bem como com

o uso das bases de dados originais (sem seleção de atributos/No-FS). Assim como na

subseção anterior, as duas versões de tamanho dos algoritmos foram avaliadas, utilizando

MAX e MED versões de tamanho (descritas na Tabela 2). Os resultados podem ser vistos

na Tabela 13.

Ao analisar a Tabela 13, podemos afirmar que o método proposto supera o desempenho

de alguns métodos consagrados de redução de atributos, bem como o uso de não seleção

de atributos, uma vez que o método obteve desempenho superior (células sombreadas)

em 8 bases, de 20. Então, temos o PCA(MED) com o melhor desempenho em apenas

4 conjuntos de dados, PCA(MAX) com melhor desempenho em 2 conjuntos de dados,

Seleção Randômica em 1 conjunto de dados e o conjunto de dados original(No-FS) com

82

Resultados - Análise ComparativaMétodo PF-DFS(MKS) PCA(MED) PCA(MAX) RANDOM(MED) RANDOM(MAX) No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std

B1 67.45±14.81 61.26±5.66 66.32±7.04 71.77±6.27 70.77±5.41 73.82±5.19B2 94.40±10.19 93.53±3.29 93.64±2.94 81.59±4.05 92.66±2.29 92.41±2.87B3 92.26±4.49 91.52±2.15 92.22±1.86 91.62±1.60 90.50±1.74 92.20±2.43B4 74.18±10.58 72.45±5.04 72.86±5.15 66.11±5.57 71.38±5.04 72.22±4.71B5 87.26±4.48 87.17±2.65 87.21±2.68 87.09±3.01 86.90±2.37 86.88±2.43B6 74.25±16.11 74.05±7.39 74.19±6.94 61.26±6.71 68.31±6.05 62.51±7.20B7 78.51±2.58 92.89±4.83 92.81±5.41 84.27±2.02 92.45±4.09 88.54±3.97B8 86.08±4.72 71.77±1.74 70.11±1.67 68.56±1.55 78.01±1.53 88.28±4.47B9 74.92±8.50 65.22±2.22 64.09±2.38 50.25±2.88 51.76±2.59 76.46±12.46B10 74.48±17.37 69.15±8.05 64.74±7.82 69.12±8.40 71.96±8.75 73.84±9.10B11 91.10±5.74 92.46±11.60 91.89±0.09 87.88±1.25 89.90±1.24 90.19±4.73B12 59.91±8.19 48.95±2.98 49.53±3.22 50.93±3.05 49.16±3.58 65.43±3.16B13 63.29±9.43 75.27±1.41 73.67±1.37 52.39±1.75 50.38±1.16 75.10±1.87B14 73.44±23.42 100.0±0.00 100.0±0.00 42.14±10.62 47.05±10.54 56.95±8.70B15 74.16±19.43 98.72±2.31 97.97±3.03 71.78±6.96 66.56±7.07 73.34±8.92B16 53.15±6.37 80.85±2.06 97.38±0.76 59.19±2.05 56.40±2.01 64.69±4.53B17 72.26±7.20 69.90±4.16 70.03±5.22 69.56±4.73 66.86±5.29 72.64±5.13B18 80.20±8.41 75.45±4.15 73.36±5.03 75.96±4.59 76.77±4.26 79.70±4.52B19 78.43±7.46 73.63±4.28 77.67±4.01 78.04±3.47 78.08±3.80 78.47±5.49B20 74.35±7.97 74.73±4.00 75.56±3.45 76.17±4.17 73.87±4.50 74.62±4.59

Total Wins 8/20 4/20 2/20 1/20 0/20 5/20

Tabela 13: Resultados da Análise Comparativa com Algoritmos de Redução Existentes eNo-FS

o melhor desempenho em 5 conjuntos de dados.

Para a análise estatística, nós aplicamos o teste de Friedman e o teste post-hoc nos

resultados reportados na Tabela 13. Os p-values são apresentados na Tabela 14.

A partir da Tabela 14, é possível observar que o desempenho de todos os seis mé-

todos analisados são diferentes, do ponto de vista estatístico, em todos os 20 conjuntos

de dados. Ao comparar o método proposto no teste post-hoc, podemos observar que, do

ponto de vista estatístico, o método proposto apresentou desempenho superior em 11 con-

juntos de dados, desempenho similar em 3 conjuntos de dados e desempenho inferior em

apenas 6 conjuntos de dados, quando comparado ao PCA(MED). Quando comparado ao

PCA(MAX), o desempenho do método proposto foi superior em 8 conjuntos de dados,

similar em 6 conjuntos de dados em inferior em 6 conjuntos de dados. Quando comparado

ao Random(MED), o desempenho do método proposto foi superior em 14 conjuntos de

dados, similar em 2 conjunto, em inferior em 4 conjuntos. Quando comparado ao Ran-

dom(MAX), o desempenho do método proposto foi superior em 13 conjuntos de dados,

similar em 4 conjuntos e inferior em 3. Por fim, quando comparado ao conjunto original

de dados, o desempenho do método proposto foi semelhante ou superior, do ponto de

vista estatístico, em 6 conjuntos de dados, enquanto alcançou desempenho similar em 8 e

83

Resultados dos Testes Estatísticos - Análise ComparativaTeste Friedman 1 - 2 1 - 3 1 - 4 1 - 5 1 - 6

Métrica p-val p-val p-val p-val p-val p-valB1 <0.0001 < = >(∗) >(∗) >(∗)B2 <0.0001 < < < < <B3 <0.0001 < = < = =B4 <0.0001 < < < < <B5 <0.0001 = = = < <B6 <0.0001 = = < < <B7 <0.0001 >(∗) >(∗) >(∗) >(∗) >(∗)B8 <0.0001 < < < < >(∗)B9 <0.0001 < < < < <B10 <0.0001 < < < < =B11 <0.0001 >(∗) = < = =B12 <0.0001 < < < < >(∗)B13 <0.0001 >(∗) >(∗) < < >(∗)B14 <0.0001 >(∗) >(∗) < < <B15 <0.0001 >(∗) >(∗) < < =B16 <0.0001 >(∗) >(∗) >(∗) >(∗) >(∗)B17 <0.0001 < < < < =B18 <0.0001 < < < < =B19 <0.0001 < = = = =B20 <0.0001 = >(∗) >(∗) = =Win - 11/20 8/20 14/20 13/20 6/20

Tabela 14: Resultado dos Testes Estatísticos usando diferentes Algoritmos de Reduçãode Dimensionalidade. 1 - PF-DFS(MKS), 2 - PCA(MED), 3 - PCA(MAX), 4 - RAN-DOM(MED), 5 - RANDOM(MAX), 6 - No-FS

inferior em 6 conjuntos de dados.

Baseado nos resultados obtidos nas Tabelas 13 e 14, podemos afirmar que o método

proposto mostrou desempenho competitivo, tendo desempenho geral superior ao PCA, o

conjunto de dados original e seleção randômica.

84

7 Considerações finais

Este capítulo apresenta as considerações finais deste trabalho. Na Seção 7.1 é elucidada

as conclusões obtidas a partir da proposição dos métodos de automação da seleção de

atributos e dos resultados obtidos nas análises e por fim, são apresentados os trabalhos

futuros na Seção 7.2.

7.1 Conclusões

Em métodos de seleção de atributos, alguns dos maiores desafios são a definição do

algoritmo a ser utilizado, bem como a definição da quantidade de atributos a ser sele-

cionada. Em métodos de seleção de atributos baseados em filtro, mais especificamente,

também há o desafio de definir qual o critério a ser usado para ranquear os atributos anali-

sados. No estudo realizado nesta dissertação, nós abordamos ambos os desafios através da

proposta de abordagens baseadas em Teoria da Informação para seleção automatizada de

atributos, utilizando estratégias de ranking (Fusão de Dados) e comitês de classificadores

(Fusão de Decisão) para suavizar o problema de escolha de seletores por meio da combi-

nação de múltiplos algoritmos de seleção de atributos, e aplicando o processo de decisão

por meio da fronteira de pareto na seleção de atributos. Os métodos propostos atenuam

os problemas acima citados e, uma das abordagens (PF-DFS), fornecem uma maneira

dinâmica de selecionar os atributos mais adequados para uma instância desconhecida.

A fim de avaliar a viabilidade dos métodos propostos, uma análise empírica foi con-

duzida. Nestas análises, foram aplicados três classificadores diferentes para receber os

subconjuntos de atributos selecionados pelos métodos propostos. Para os métodos de

fusão, foi realizada a análise individual de cada classificador, para 10 bases de dados,

e para fins de comparação nós aplicamos o PCA e o conjunto original de dados (sem

seleção de atributos). Adicionalmente, para o método PF-DFS nós aplicamos todas as

possíveis combinações de três medidas de avaliação (Informação Mútua, Divergência de

Kullback-Leibler e Correlação de Spearman. Nesse estudo, nós analisamos o desempenho

85

do PF-DFS utilizando as três medidas de avaliação. Para fins de comparação, o desempe-

nho do PF-DFS também foi comparado ao método original, DFS, bem como com outros

métodos de redução de dimensionalidade, como PCA, Seleção Randômica e o conjunto de

dados original (sem seleção de atributos).

Através dessas análises, para os métodos de fusão (fusão de decisão e fusão de dados),

pudemos constatar que o método de fusão de decisão é o melhor método de combinação

de múltiplos algoritmos de seleção de atributos, quando comparado a fusão de dados e ao

PCA, provendo desempenho superior para a maioria dos conjuntos de dados. Adicional-

mente, a fusão de decisão também pode melhorar o desempenho, quando comparado aos

conjuntos de dados (sem seleção de atributos), para maioria dos dados.

Para o método de seleção dinâmica baseado na fronteira de pareto, pudemos ob-

servar que o uso da combinação das medidas MKS causou o maior aprimoramento no

desempenho do método proposto, PF-DFS. Quando comparado ao método DFS original,

o desempenho do método proposto (PF-DFS) é notavelmente superior ao DFS. Tam-

bém podemos afimar que o PF-DFS proposto obteve resultados competitivos, desde que

superou o desempenho da maioria dos métodos de seleção de atributos na análise com-

parativa. Os resultados fornecidos neste trabalho são bastante promissores, desde que o

método proposto (PF-DFS) alcançou desempenho superior quando comparado a métodos

de redução consagrados. Adicionalmente, o uso do PF-DFS obteve desempenho superior

a utilização do conjunto original de dados, demonstrando que a redução de ruídos e/ou

atributos redundantes pode ter efeito positivo no desempenho de tarefas de classificação.

Nos estudos realizados nesta dissertação, nós abordamos alguns desafios da seleção

de atributos: a definição do algoritmo de seleção a ser utilizado, independentemente do

contexto; a quantidade de atributos que deve ser selecionado; e por fim, a escolha dos

critérios que devem ser usados para medir a relevância dos atributos. Para atacar o pri-

meiro desafio, propusemos os métodos de fusão (Fusão de Decisão e Fusão de Dados),

que foram capazes de eliminar a necessidade de escolha de um algoritmo de seleção de

atributos através das combinações a priori e a posteriori dos seletores, através de resul-

tados competitivos. E para os últimos dois desafios, o PF-DFS foi capaz de promover

um meio automatizado de definir automaticamente a quantidade dos atributos a serem

selecionados, além de eliminar a necessidade de escolha de um só critério para avaliação

dos atributos por meio da técnica da fronteira de pareto. As abordagens propostas nesta

dissertação contribuem diretamente para o avanço dos estudos no campo da redução de

dimensionalidade.

86

7.2 Trabalhos Futuros

Como trabalhos futuros, para as abordagens de fusão, nós pretendemos (1) utilizar

comitês de classificadores heterogêneos, para fusão de decisão, e para a fusão de dados,

a (2) utilização de outras medidas de agregação de ranking, bem como a (3) investigação

acerca de diferentes taxas de seleção de atributos e seu impacto na seleção do subconjunto

final de atributos.

Para o PF-DFS, pretendemos: (1) investigar o uso de outras medidas de avaliação na

fronteira de pareto; (2) analisar o uso de outras configurações na estratégia de validação

que permitam uma maior cobertura das instâncias utilizadas na fase de validação; (3) bem

como avaliar a estabilidade da seleção de atributos (CATENI; COLLA, 2016) no contexto

de seleção dinâmica de atributos, nesse sentido, melhorando a qualidade dos resultados

produzidos pelo PF-DFS.

87

Referências

ARAÚJO, D. et al. A combination method for reducing dimensionality in large datasets.In: VILLA, A. E.; MASULLI, P.; RIVERO, A. J. P. (Ed.). Artificial Neural Networksand Machine Learning – ICANN 2016. Cham: Springer International Publishing, 2016.p. 388–397. ISBN 978-3-319-44781-0.

BACKER, E.; JAIN, A. K. A clustering performance measure based on fuzzy setdecomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE,n. 1, p. 66–75, 1981.

BATTITI, R. Using mutual information for selecting features in supervised neural netlearning. Trans. Neur. Netw., IEEE Press, Piscataway, NJ, USA, v. 5, n. 4, p. 537–550,jul. 1994. ISSN 1045-9227. Disponível em: <http://dx.doi.org/10.1109/72.298224>.

BIHL, T. J.; TEMPLE, M. A.; BAUER, K. W. Feature selection fusion (fsf) foraggregating relevance ranking information with application to zigbee radio frequencydevice identification. In: 2016 IEEE National Aerospace and Electronics Conference(NAECON) and Ohio Innovation Summit (OIS). [S.l.: s.n.], 2016. p. 80–87. ISSN2379-2027.

BROWN, G. A new perspective for information theoretic feature selection. In:DYK, D. V.; WELLING, M. (Ed.). Proceedings of the Twelfth InternationalConference on Artificial Intelligence and Statistics (AISTATS-09). Journal ofMachine Learning Research - Proceedings Track, 2009. v. 5, p. 49–56. Disponível em:<http://jmlr.csail.mit.edu/proceedings/papers/v5/brown09a/brown09a.pdf>.

BROWN, G. et al. Conditional likelihood maximisation: A unifying fra-mework for information theoretic feature selection. J. Mach. Learn. Res.,JMLR.org, v. 13, p. 27–66, jan. 2012. ISSN 1532-4435. Disponível em:<http://dl.acm.org/citation.cfm?id=2188385.2188387>.

CATENI, S.; COLLA, V. Improving the stability of wrapper variable selection appliedto binary classification. v. 8, p. 214–225, 03 2016.

CHANDRASHEKAR, G.; SAHIN, F. A survey on feature selection methods. Computers& Electrical Engineering, Elsevier, v. 40, n. 1, p. 16–28, 2014.

CHEN, F.-L.; LI, F.-C. Combination of feature selection approaches with svm in creditscoring. Expert systems with applications, Elsevier, v. 37, n. 7, p. 4902–4909, 2010.

DANTAS, C. A.; NUNES, R. d. O.; XAVIER, A. M. P. C. e. J. C. Investigating theimpact of similarity metrics in an unsupervised-based feature selection method. In: 2017Brazilian Conference on Intelligent Systems (BRACIS). [S.l.: s.n.], 2017. p. 55–60.

88

DEB, K. Multi-objective optimization. In: Search methodologies. [S.l.]: Springer, 2014. p.403–449.

DHEERU, D.; TANISKIDOU, E. K. UCI Machine Learning Repository. 2017. Disponívelem: <http://archive.ics.uci.edu/ml>.

DIETTERICH, T. G. Approximate statistical tests for comparing supervisedclassification learning algorithms. Neural computation, MIT Press, v. 10, n. 7, p.1895–1923, 1998.

EVERITT, B.; LANDAU, S.; LEESE, M. Cluster Analysis. 4th. ed. [S.l.]: Arnold, 2001.ISBN 1-58488-369-3.

FACELI, K.; LORENA, A.; CARVALHO, A. Inteligência Artificial: Uma Abordagem deAprendizado de Máquina. [S.l.]: Grupo Gen - LTC, 2000. ISBN 9788521620150.

FLEURET, F. Fast binary feature selection with conditional mutual information. J.Mach. Learn. Res., JMLR.org, v. 5, p. 1531–1555, dez. 2004. ISSN 1532-4435. Disponívelem: <http://dl.acm.org/citation.cfm?id=1005332.1044711>.

FONSECA, C. M.; FLEMING, P. J. An overview of evolutionary algorithms inmultiobjective optimization. Evolutionary computation, MIT Press, v. 3, n. 1, p. 1–16,1995.

FRIEDMAN, M. The Use of Ranks to Avoid the Assumption of Normality Implicit inthe Analysis of Variance. Journal of the American Statistical Association, AmericanStatistical Association, v. 32, n. 200, p. 675–701, dez. 1937. ISSN 01621459.

GIBBONS, J.; CHAKRABORTI, S. Nonparametric Statistical Inference. [S.l.]:Marcel Dekker Incorporated, 2003. (Statistics, textbooks and monographs). ISBN9780824755225.

GORDON, G. J. et al. Translation of microarray data into clinically relevant cancerdiagnostic tests using gene expression ratios in lung cancer and mesothelioma. CancerRes, v. 62, p. 4963–4967, 2002.

GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. J. Mach.Learn. Res., JMLR.org, v. 3, p. 1157–1182, mar. 2003. ISSN 1532-4435.

HANSEN, P.; JAUMARD, B. Cluster analysis and mathematical programming.Mathematical programming, Springer, v. 79, n. 1-3, p. 191–215, 1997.

HIRA, Z. M.; GILLIES, D. F. A review of feature selection and feature extractionmethods applied on microarray data. Advances in bioinformatics, Hindawi, v. 2015, 2015.

HONG, Y. et al. Unsupervised feature selection using clustering ensembles andpopulation based incremental learning algorithm. Pattern Recognition, Elsevier, v. 41,n. 9, p. 2742–2756, 2008.

JAFFEL, Z.; FARAH, M. A symbiotic organisms search algorithm for feature selectionin satellite image classification. In: IEEE. Advanced Technologies for Signal and ImageProcessing (ATSIP), 2018 4th International Conference on. [S.l.], 2018. p. 1–5.

89

JAIN, A.; ZONGKER, D. Feature selection: evaluation, application, and small sampleperformance. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 19,n. 2, p. 153–158, Feb 1997. ISSN 0162-8828.

JAIN, A. K.; DUBES, R. C. Algorithms for Clustering Data. Upper Saddle River, NJ,USA: Prentice-Hall, Inc., 1988. ISBN 0-13-022278-X.

JANECEK, A. et al. On the relationship between feature selection and classifi-cation accuracy. In: . -: [s.n.], 2008. v. 91-106, n. 4, p. 90–105. Disponível em:<http://eprints.cs.univie.ac.at/378/>.

JESUS, J.; ARAÚJO, D.; CANUTO, A. Fusion approaches of feature selectionalgorithms for classification problems. In: 2016 5th Brazilian Conference on IntelligentSystems (BRACIS). [S.l.: s.n.], 2016. p. 379–384.

JESUS, J.; CANUTO, A.; ARAÚJO, D. Estudo sobre o impacto do particionamento dosdados na seleção dinâmica de atributos. Proceedings of ENIAC, p. 10, oct 2017.

JESUS, J.; CANUTO, A.; ARAÚJO, D. Dynamic feature selection based on pareto frontoptimization. In: 2018 International Joint Conference on Neural Networks (IJCNN).[S.l.: s.n.], 2018.

JESUS, J. K. L.; CANUTO, A. M. P.; ARAÚJO, D. S. A. A feature selection approachbased on information theory for classification tasks. In: 2017 ICANN. [S.l.: s.n.], 2017.

JIANG, S.-y.; WANG, L.-x. Efficient feature selection based on correlation measurebetween continuous and discrete features. Inf. Process. Lett., Elsevier North-Holland,Inc., Amsterdam, The Netherlands, The Netherlands, v. 116, n. 2, p. 203–215, fev. 2016.ISSN 0020-0190. Disponível em: <https://doi.org/10.1016/j.ipl.2015.07.005>.

JOLLIFFE, I. T. Principal Component Analysis. Berlin; New York: Springer-Verlag,1986.

KANUNGO, T. et al. An efficient k-means clustering algorithm: Analysis andimplementation. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer Society,Washington, DC, USA, v. 24, n. 7, p. 881–892, jul. 2002. ISSN 0162-8828. Disponívelem: <http://dx.doi.org/10.1109/TPAMI.2002.1017616>.

KOHAVI, R.; QUINLAN, J. R. Handbook of data mining and knowledge disco-very. In: KLöSGEN, W.; ZYTKOW, J. M. (Ed.). New York, NY, USA: OxfordUniversity Press, Inc., 2002. cap. Data Mining Tasks and Methods: Classifica-tion: Decision-tree Discovery, p. 267–276. ISBN 0-19-511831-6. Disponível em:<http://dl.acm.org/citation.cfm?id=778212.778254>.

KOTSIANTIS, S. B.; ZAHARAKIS, I.; PINTELAS, P. Supervised machine learning:A review of classification techniques. Emerging artificial intelligence applications incomputer engineering, v. 160, p. 3–24, 2007.

KULLBACK, S.; LEIBLER, R. A. On information and sufficiency. Ann. Math. Statist.,The Institute of Mathematical Statistics, v. 22, n. 1, p. 79–86, 03 1951.

KUNCHEVA, L. Combining Pattern Classifiers: Methods and Algorithms. New York:Wiley, 2004. 376 p.

90

KUNCHEVA, L. Ludmila k. collection lkc. 2004.

LI, J. et al. Feature selection: A data perspective. arXiv:1601.07996, 2016.

LI, J.; LIU, H. Challenges of feature selection for big data analytics. IEEE IntelligentSystems, v. 32, n. 2, p. 9–15, Mar 2017. ISSN 1541-1672.

LIKAS, A.; VLASSIS, N.; VERBEEK, J. J. The global k-means clustering algorithm.Pattern recognition, Elsevier, v. 36, n. 2, p. 451–461, 2003.

LIU, H.; MOTODA, H. Computational Methods of Feature Selection. [S.l.]: Chapman &Hall/CRC, 2007. ISBN 1584888784.

MARLER, R.; ARORA, J. Survey of multi-objective optimization methods forengineering. Structural and Multidisciplinary Optimization, v. 26, n. 6, p. 369–395, Apr2004. ISSN 1615-1488.

MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw-Hill, Inc.,1997. ISBN 0070428077, 9780070428072.

NGUYEN, X. V. et al. Effective global approaches for mutual informationbased feature selection. In: Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. New York, NY, USA:ACM, 2014. (KDD ’14), p. 512–521. ISBN 978-1-4503-2956-9. Disponível em:<http://doi.acm.org/10.1145/2623330.2623611>.

NOVAKOVIĆ, J. Toward optimal feature selection using ranking methods andclassification algorithms. Yugoslav Journal of Operations Research, v. 21, n. 1, 2016.

NUNES, R. d. O. et al. An unsupervised-based dynamic feature selection for classificationtasks. In: 2016 IJCNN. [S.l.: s.n.], 2016. p. 4213–4220.

NUNES, R. d. O.; DANTAS, C. A.; XAVIER, A. M. P. C. e. J. C. Dynamic featureselection for classifier ensembles. Accepted in Brazilian Conference on Intelligent Systems,2018.

PENG, H.; LONG, F.; DING, C. Feature selection based on mutual informa-tion: Criteria of max-dependency, max-relevance, and min-redundancy. IEEETrans. Pattern Anal. Mach. Intell., IEEE Computer Society, Washington, DC,USA, v. 27, n. 8, p. 1226–1238, ago. 2005. ISSN 0162-8828. Disponível em:<http://dx.doi.org/10.1109/TPAMI.2005.159>.

PEREZ, M. A. F. Um método heurístico para o problema de escalonamento multiobjetivoem vários ambientes de máquinas. Dissertao (Mestrado) — PUC-RIO, 2012.

PRATI, R. C. Combining feature ranking algorithms through rank aggregation.In: The 2012 International Joint Conference on Neural Networks (IJCNN),Brisbane, Australia, June 10-15, 2012. [s.n.], 2012. p. 1–8. Disponível em:<http://dx.doi.org/10.1109/IJCNN.2012.6252467>.

RODRIGUEZ-LUJAN, I. et al. Quadratic programming feature selection. J. Mach.Learn. Res., JMLR.org, v. 11, p. 1491–1516, ago. 2010. ISSN 1532-4435. Disponível em:<http://dl.acm.org/citation.cfm?id=1756006.1859900>.

91

ROGATI, M.; YANG, Y. High-performing feature selection for text classification. In:Proceedings of the 11th CIKM. New York, NY, USA: ACM, 2002. (CIKM ’02), p. 659–661.ISBN 1-58113-492-4. Disponível em: <http://doi.acm.org/10.1145/584792.584911>.

SAEYS, Y.; ABEEL, T.; PEER, Y. Van de. Robust feature selection using ensemblefeature selection techniques. In: SPRINGER. Joint European Conference on MachineLearning and Knowledge Discovery in Databases. [S.l.], 2008. p. 313–325.

SEVILLE, B. G. BIGS BioInformatics Research Group of Seville Repository. 2004.

SHANNON, C. E. A mathematical theory of communication. Bell system technicaljournal, v. 27, 1948.

SHEN, Q.; DIAO, R.; SU, P. Feature selection ensemble. In: VORONKOV, A. (Ed.).Turing-100. The Alan Turing Centenary. [S.l.]: EasyChair, 2012. (EPiC Series inComputing, v. 10), p. 289–306. ISSN 2040-557X.

TANG, J.; ALELYANI, S.; LIU, H. Feature selection for classification: A review. Dataclassification: Algorithms and applications, CRC Press, p. 37, 2014.

TRAWIŃSKI, B. et al. Nonparametric statistical analysis for multiple comparison ofmachine learning regression algorithms. International Journal of Applied Mathematicsand Computer Science, Versita, v. 22, n. 4, p. 867–881, 2012.

VANSCHOREN, J. et al. Openml: Networked science in machine learning. SIGKDDExplorations, ACM, New York, NY, USA, v. 15, n. 2, p. 49–60, 2013. Disponível em:<http://doi.acm.org/10.1145/2641190.2641198>.

XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neuralnetworks, Ieee, v. 16, n. 3, p. 645–678, 2005.

XUE, B. et al. A survey on evolutionary computation approaches to feature selection.IEEE Transactions on Evolutionary Computation, IEEE, v. 20, n. 4, p. 606–626, 2016.

YIJING, L. et al. Adapted ensemble classification algorithm based on multiple classifiersystem and feature selection for classifying multi-class imbalanced data. Knowledge-BasedSystems, Elsevier, v. 94, p. 88–104, 2016.

ZHANG, Y.; GONG, D.-w.; CHENG, J. Multi-objective particle swarm optimizationapproach for cost-based feature selection in classification. IEEE/ACM Transactions onComputational Biology and Bioinformatics (TCBB), IEEE Computer Society Press,v. 14, n. 1, p. 64–75, 2017.

92

A Resultados Individuais - Métodosde Fusão

Resultados da acurácia média por classificador (Árvore de Decisão, k-NN e SVM) da

análise dos métodos de fusão.

Árvore de DecisãoMétodo FusãoDec FusãoDad PCA RANDOM No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 15: Resultados da Análise Comparativa entre os Métodos de Fusão, Algoritmos deRedução Existentes e No-FS - Árvore de Decisão

93

k-NNMétodo FusãoDec FusãoDad PCA RANDOM No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 16: Resultados da Análise Comparativa entre os Métodos de Fusão, Algoritmos deRedução Existentes e No-FS - k-NN

94

SVMMétodo FusãoDec FusãoDad PCA RANDOM No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 17: Resultados da Análise Comparativa entre os Métodos de Fusão, Algoritmos deRedução Existentes e No-FS - SVM

95

B Resultados Individuais - Avaliaçãode Critérios (DFS)


análise de diferentes medidas de avaliação no DFS.

Árvore de DecisãoMétodo DFS-M DFS-K DFS-SMétricas Acc±Std Acc±Std Acc±Std


Tabela 18: Resultados utilizando Diferentes Medidas de Avaliação no DFS - Árvore deDecisão

96

k-NNMétodo DFS-M DFS-K DFS-SMétricas Acc±Std Acc±Std Acc±Std


Tabela 19: Resultados utilizando Diferentes Medidas de Avaliação no DFS - k-NN

97

SVMMétodo DFS-M DFS-K DFS-SMétricas Acc±Std Acc±Std Acc±Std


Tabela 20: Resultados utilizando Diferentes Medidas de Avaliação no DFS - SVM

98

C Resultados Individuais -Particionamento dos Dados


análise do particionamento dos dados.

Árvore de DecisãoMétodo DFS-M(8T1V) DFS-M(7T2V) DFS-M(6T3V) DFS-M(5T4V)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 21: Resultados utilizando Diferentes Tamanhos nas Partições de Treino e Validação- Árvore de Decisão

99

k-NNMétodo DFS-M(8T1V) DFS-M(7T2V) DFS-M(6T3V) DFS-M(5T4V)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 22: Resultados utilizando Diferentes Tamanhos nas Partições de Treino e Validação- k-NN

100

SVMMétodo DFS-M(8T1V) DFS-M(7T2V) DFS-M(6T3V) DFS-M(5T4V)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 23: Resultados utilizando Diferentes Tamanhos nas Partições de Treino e Validação- SVM

101

D Resultados Individuais - Avaliaçãode Critérios (PF-DFS)


análise de diferentes medidas no processo da fronteira de pareto.

Árvore de Decisão DMétodo PF-DFS(MKS) PF-DFS(MK) PF-DFS(MS) DFS-PF(KS)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 24: Resultados utilizando Diferentes Medidas de Avaliação - Árvore de Decisão

102

k-NNMétodo PF-DFS(MKS) PF-DFS(MK) PF-DFS(MS) DFS-PF(KS)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 25: Resultados utilizando Diferentes Medidas de Avaliação - k-NN

103

SVMMétodo PF-DFS(MKS) PF-DFS(MK) PF-DFS(MS) DFS-PF(KS)Métricas Acc±Std Acc±Std Acc±Std Acc± Std


Tabela 26: Resultados utilizando Diferentes Medidas de Avaliação - SVM

104

E Resultados Individuais -Comparação DFS e PF-DFS


análise comparativa entre o PF-DFS e diferentes versões do método DFS.

Árvore de DecisãoMétodo PF-DFS(MKS) DFS(M-MED) DFS(M-MAX) DFS(K-MED) DFS(K-MAX) DFS(S-MED) DFS(S-MAX)Métricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 27: Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - Árvore de Decisão

105

k-NNMétodo PF-DFS(MKS) DFS(M-MED) DFS(M-MAX) DFS(K-MED) DFS(K-MAX) DFS(S-MED) DFS(S-MAX)Métricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 28: Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - k-NN

SVMMétodo PF-DFS(MKS) DFS(M-MED) DFS(M-MAX) DFS(K-MED) DFS(K-MAX) DFS(S-MED) DFS(S-MAX)Métricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 29: Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - SVM

106

F Resultados Individuais -Comparação com outros Métodos


análise comparativa entre o PF-DFS e outras abordagens de redução de dimensionalidade,

bem como o uso do conjunto de dados original (sem seleção de atributos).

Árvore de DecisãoMétodo PF-DFS(MKS) PCA(MED) PCA(MAX) RANDOM(MED) RANDOM(MAX) No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 30: Resultados da Análise Comparativa com Algoritmos de Redução Existentes eNo-FS - Árvore de Decisão

107

k-NNMétodo PF-DFS(MKS) PCA(MED) PCA(MAX) RANDOM(MED) RANDOM(MAX) No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 31: Resultados da Análise Comparativa com Algoritmos de Redução Existentes eNo-FS - k-NN

SVMMétodo PF-DFS(MKS) PCA(MED) PCA(MAX) RANDOM(MED) RANDOM(MAX) No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std


Tabela 32: Resultados da Análise Comparativa com Algoritmos de Redução Existentes eNo-FS - SVM

Abordagens baseadas em Teoria da Informação para Seleção ... · Jesus, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos

Documents