Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departmento de Informática e Matemática Aplicada Programa de Pós-Graduação em Sistemas e Computação Mestrado Acadêmico em Sistemas e Computação Abordagens baseadas em Teoria da Informação para Seleção Automatizada de Atributos Jhoseph Kelvin Lopes de Jesus Natal-RN Setembro 2018
108
Embed
Abordagens baseadas em Teoria da Informação para Seleção ... · Jesus, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Universidade Federal do Rio Grande do NorteCentro de Ciências Exatas e da Terra
Departmento de Informática e Matemática AplicadaPrograma de Pós-Graduação em Sistemas e Computação
Mestrado Acadêmico em Sistemas e Computação
Abordagens baseadas em Teoria da Informaçãopara Seleção Automatizada de Atributos
Jhoseph Kelvin Lopes de Jesus
Natal-RN
Setembro 2018
Jhoseph Kelvin Lopes de Jesus
Abordagens baseadas em Teoria da Informação paraSeleção Automatizada de Atributos
Dissertação de Mestrado apresentada ao Pro-grama de Pós-Graduação em Sistemas eComputação do Departamento de Informá-tica e Matemática Aplicada da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deMestre em Sistemas e Computação.
Linha de pesquisa:Processamento Gráfico e Inteligência Com-putacional
Orientadora e Coorientador
Dra. Anne Magály de Paula Canuto
Dr. Daniel Sabino Amorim de Araújo
PPgSC – Programa de Pós-Graduação em Sistemas e ComputaçãoDIMAp – Departamento de Informática e Matemática Aplicada
CCET – Centro de Ciências Exatas e da TerraUFRN – Universidade Federal do Rio Grande do Norte
Natal-RN
Setembro 2018
Jesus, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleçãoautomatizada de atributos / Jhoseph Kelvin Lopes de Jesus. -2018. 107f.: il.
Dissertação (mestrado) - Universidade Federal do Rio Grandedo Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Sistemas e Computação. Natal, 2018. Orientadora: Anne Magály de Paula Canuto. Coorientador: Daniel Sabino Amorim de Araújo.
1. Computação - Dissertação. 2. Seleção de atributos -Dissertação. 3. Comitês de classificadores - Dissertação. 4.Teoria da informação - Dissertação. 5. Análise de dados -Dissertação. 6. Algoritmos de agrupamento - Dissertação. 7.Fronteira de pareto - Dissertação. I. Canuto, Anne Magály dePaula. II. Araújo, Daniel Sabino Amorim de. III. Título.
RN/UF/CCET CDU 004
Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET
Elaborado por Joseneide Ferreira Dantas - CRB-15/324
Primeiramente, dedico este trabalho a Deus, mantenedor de toda vida. E em segundo
lugar, mas não menos importante, aos meus pais, Joanes e Jacqueline, por tudo.
Agradecimentos
Primeiramente, agradeço a Deus por me conceder o dom da vida e a oportunidade de
diariamente viver esse sonho.
À minha família, por todo amor e carinho nos momentos difíceis, e por toda atenção
e suporte para que fosse possível realizar esse mestrado.
À minha companheira, Priscilla, pela paciência em todo o processo que é fazer uma
pós-graduação (mesmo passando pela mesma fase) e pelas palavras de motivação quando
eu acreditei que não seria possível.
À minha orientadora, Anne Magály, por todo conhecimento compartilhado, pelos
puxões de orelha e pela oportunidade de hoje estar escrevendo esse agradecimento. Seus
conselhos certamente fizeram de mim, um pesquisador e uma pessoa melhor. Não tenho
palavras para descrever o quão grato eu sou a você. Muito obrigado, professora!
À meu orientador, Daniel Sabino, por me aceitar como aluno de IC em meados de
2015, me dando a oportunidade de iniciar na pesquisa e a incentivar minha escolha sobre
seguir na carreira acadêmica. Seus conselhos foram essenciais para que hoje eu pudesse
estar aqui.
Agradeço aos meus amigos de jornada do PPgSC (Vânia, Carine, Bártira, Jéssica,
Luana e Samuel), por todas os dias (e noites) trocando conhecimento (superando Algo-
ritmos e Estrutura de Dados), enfrentando os obstáculos e, celebrando as conquistas dia
a dia.
Agradeço ao CNPq pelo suporte financeiro fornecido, sem o mesmo não seria possível
a dedicação na produção deste trabalho.
"O mais importante da vida não é a situação em que estamos, mas a direção para a
qual nos movemos."
Oliver Wendell Holmes
Abordagens baseadas em Teoria da Informação paraSeleção Automatizada de Atributos
Autor: Jhoseph Kelvin Lopes de Jesus
Orientador(a): Dra. Anne Magály de Paula Canuto
Coorientador: Dr. Daniel Sabino Amorim de Araújo
ResumoCom o rápido crescimento de dados complexos em aplicações do mundo real, a seleção
de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação
para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários
trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das
abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns
critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única
abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos
números de atributos feita pelo usuário podem levar a uma queda de desempenho das
técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvi-
mento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira
está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que
utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algo-
ritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão
de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de
seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atri-
butos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção
dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pa-
reto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir
automaticamente o número de atributos para selecionar. As abordagens propostas foram
testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que,
quando comparado com métodos de seleção individuais, o desempenho de um dos métodos
propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as
abordagens propostas também alcançaram desempenho superiores quando comparados a
métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados
originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um
efeito positivo no desempenho de tarefas de classificação.
Palavras-chave: Seleção de Atributos, Comitês, Teoria da Informação, Análise de Dados,
Algoritmos de Agrupamento, Fronteira de Pareto.
Information Theory based Approaches to AutomatedFeature Selection
Author: Jhoseph Kelvin Lopes de Jesus
Supervisor: Dra. Anne Magály de Paula Canuto
Co-supervisor: Dr. Daniel Sabino Amorim de Araújo
AbstractWith the fast growing of complex data in real world applications, the feature selection
becomes a mandatory preprocessing step in any application to reduce both the complexity
of the data and the computing time. Based on that, several works have been produced in
order to develop efficient methods to perform this task. Most feature selection methods
select the best attributes based on some specic criteria. Although some advancement has
been made, a poor choice of a single algorithm or criteria to assess the importance of at-
tributes, and the arbitrary choice of attribute numbers made by the user may lead to poor
analysis. In order to overcome some of these issues, this paper presents the development
of two strands of automated attribute selection approaches. The first are fusion methods
of multiple attribute selection algorithms, which use ranking-based strategies and clas-
sifier ensembles to combine feature selection algorithms in terms of data (Data Fusion)
and decision (Fusion Decision), allowing researchers to consider different perspectives in
the attribute selection stage. The second strand approaches the dynamic feature selection
context through the proposition of the PF-DFS method, an improvement of a dynamic
feature selection algorithm, using the idea of Pareto frontier multiobjective optimization,
which allows us to consider different perspectives of the relevance of the attributes and
to automatically define the number of attributes to select. The proposed approaches were
tested using several real and artificial databases and the results showed that when com-
pared to individual selection methods, the performance of one of the proposed methods is
remarkably higher. In fact, the results are promising since the proposed approaches have
also achieved superior performance when compared to established dimensionality reduc-
tion methods, and by using the original data sets, showing that the reduction of noisy
and/or redundant attributes may have a positive effect on the performance of classification
tasks.
Keywords : Feature Selection, Ensembles,Information Theory, Data Analysis, Clustering
Algorithms, Pareto Front.
Lista de figuras
1 Regiões de dominância, retirado de (PEREZ, 2012). . . . . . . . . . . . p. 36
O trabalho está organizado nos seguintes capítulos: o Capítulo 2 apresenta os elemen-
tos teóricos abordados na dissertação; o Capítulo 3 descreve os trabalhos relacionados; o
Capítulo 4 detalha a arquitetura geral das abordagens propostas; o Capítulo 5 descreve os
materiais e métodos usados nos experimentos realizados; o Capítulo 6 traz os resultados
das análises feitas para validação dos métodos propostos; e por fim, o Capítulo 7 apresenta
as considerações finais acerca do trabalho.
24
2 Fundamentação Teórica
Este capítulo apresenta os elementos teóricos necessários para compreensão do traba-
lho desenvolvido nesta dissertação.
Para tanto, este capítulo é dividido da seguinte forma: a Seção 2.1 traz os princi-
pais conceitos relacionados a fase de pré-processamento em aprendizado de máquina; a
Seção 2.2 introduz o conceito de modelos supervisionados, bem como os modelos não
supervisionados e descreve os principais modelos utilizados em cada abordagem; a Seção
2.3 descreve as temáticas acerca das medidas de avaliação utilizadas nos processos de
seleção de atributos propostos; a Seção 2.4 expõe conceitos da otimização multi-objetivo
utilizados no desenvolvimento das abordagens propostas; Por fim, a Seção 2.5 apresenta
a fundamentação a respeito dos testes estatísticos aplicados com intuito de validar os
resultados obtidos;
2.1 Pré-Processamento
Na área de Aprendizado de Máquina é possível citar três grandes marcos que definem
seu processo de funcionamento: Pré-processamento, Processamento e Pós-processamento
dos dados. Cada etapa é responsável por realizar tratamentos específicos sobre conjun-
tos de dados, a fim de extrair conhecimento de forma automática (FACELI; LORENA;
CARVALHO, 2000). Apesar da utilização de algoritmos de AM proporcionar a extração de
conhecimentos relevantes acerca dos dados, seu desempenho é altamente influenciado pela
qualidade dos dados (LI; LIU, 2017). Segundo (JIANG; WANG, 2016), conjuntos de dados
podem apresentar diferentes características, dimensões e formatos.
Os principais problemas que podem ser encontrados em conjuntos de dados não-
processados são: dados ruidosos (valores errôneos, inconsistentes ou ausentes), atributos
irrelevantes e conjuntos de dados desbalanceados (poucas amostras para uma quantidade
grande de atributos) (FACELI; LORENA; CARVALHO, 2000). Para tratar ou atenuar esses
25
problemas, técnicas de pré-processamento de dados são frequentemente aplicadas sobre
os dados (JAIN; ZONGKER, 1997).
Os principais benefícios associados ao uso de técnicas de pré-processamento são: a re-
dução do superajuste dos modelos de aprendizado (com a exclusão de dados redundantes,
a chances de influenciar negativamente o processo de treino são diminuídas), o aumento
da acurácia (classificadores são treinados com dados relevantes, aumentam a capacidade
de generalização dos modelos produzidos) e a redução no tempo de treinamento (me-
nos dados implicam em fases de treinamento mais curtas) (FACELI; LORENA; CARVALHO,
2000).
Dentre as técnicas de pré-processamento, a redução de dimensionalidade é responsável
por reduzir a quantidade de atributos utilizados para descrever um conjunto de dados.
Para grande maioria dos algoritmos de AM, um número elevado de atributos torna o
processo de aprendizado mais complexo, e portanto, é necessário que haja uma redução
na quantidade dos atributos (FACELI; LORENA; CARVALHO, 2000).
As técnicas de redução de dimensionalidade são agrupadas em duas categorias, ex-
tração e seleção de atributos. Enquanto as técnicas de extração substituem os atributos
originais por novos atributos gerados pela combinação entre os atributos, os métodos de
seleção selecionam um subconjuntos dos atributos originais e excluem os demais (FACELI;
LORENA; CARVALHO, 2000). Os métodos de seleção podem ser subdivididos em três cate-
gorias: métodos embutidos, baseados em filtro e baseados em wrapper. As duas subseções a
seguir descrevem os conceitos relacionados às categorias de redução de dimensionalidade.
2.1.1 Extração de Atributos
Nos principais métodos de extração de atributos, a dimensão das bases de dados são
reduzidas através da combinação dos atributos originais por meio de funções lineares ou
não lineares. Por exemplo, a Análise de Componentes Principais (PCA, do inglês Prin-
cipal Component Analysis) , uma das técnicas de extração mais populares, é baseada na
projeção linear do maior autovetor da matriz de correlação dos atributos, sendo bastante
sensível a magnitude dos valores, e consequentemente, a simples rotações e translações
nos dados (JOLLIFFE, 1986; FACELI; LORENA; CARVALHO, 2000).
Em geral, técnicas de extração de atributos levam à perda dos valores originais dos
conjuntos de dados. Essa característica pode não ser interessante em certos domínios de
aplicações como, por exemplo, bioinformática, saúde e dados comerciais. Nessas aplicações
26
é importante preservar os valores dos atributos para que os resultados obtidos possam ser
interpretados. Para essas aplicações, a utilização de técnicas de seleção de atributos é mais
frequente (LI et al., 2016; FACELI; LORENA; CARVALHO, 2000).
2.1.2 Seleção de Atributos
A seleção de atributos têm tornado-se o foco de pesquisas em diversas áreas de aplica-
ção que possuem conjuntos de dados com centenas ou milhares de atributos. Os principais
benefícios associados a seleção são: melhora do desempenho dos preditores, redução do
custo computacional na fase de treinamento e fornecimento de informações acerca da es-
trutura dos dados em termos de relevância de características (GUYON; ELISSEEFF, 2003).
Com intuito de avaliar o desempenho de um subconjunto de atributos, na literatura são
encontradas três abordagens: Métodos Embutidos, Baseados em Filtro e Baseados em
Wrapper.
• Métodos Embutidos: Na abordagem embutida, a seleção de atributos é integrada
ao algoritmo de aprendizado. O principal exemplo dessa categoria são as Árvores
de Decisão, que realizam de forma interna a seleção de atributos (FACELI; LORENA;
CARVALHO, 2000).
• Métodos baseados em Filtro: Nesta abordagem, um filtro é aplicado sobre o con-
junto de dados antes da fase de treinamento. Essa técnica é não tem relação com
o algoritmo de aprendizado, sendo utilizada para definir a relevância dos atributos
baseado em algum critério externo, como por exemplo: Correlação entre os atributos
e o atributo-classe (FACELI; LORENA; CARVALHO, 2000).
• Métodos baseados em Wrapper : Em métodos baseados em wrapper, o subconjunto
de atributos é utilizado para treinar modelos de inferência. Baseado na acurácia
do modelo para aquele subconjunto de atributos, é realizado o processo de escolha
sobre os atributos a serem adicionados ou removidos. O problema é essencialmente
reduzido a um problema de busca, onde o objetivo é testar todas as possíveis combi-
nações, até que se encontre a que melhor se ajuste ao modelo, em termos de acurácia
(FACELI; LORENA; CARVALHO, 2000). Em geral, esses métodos são computacional-
mente custosos.
As abordagens propostas neste trabalho se enquadram na categoria de filtro. De acordo
com (FACELI; LORENA; CARVALHO, 2000; LI et al., 2016), as principais vantagens associadas
a esse tipo de técnica são:
27
• Independência no processo de seleção em relação ao modelo de indução, logo os atri-
butos selecionados podem ser utilizados em diferentes abordagens de aprendizado;
• Filtros tem a capacidade de lidar com grandes quantidades de dados;
• O cálculo da relevância através dos filtros representam processos computacional-
mente simples;
Dessa forma, a utilização de abordagens de seleção de atributos baseadas em filtro re-
presentam uma alternativa eficiente e relevante na construção de modelos de aprendizado,
principalmente por não haver interação entre o filtro e o indutor, evitando tendências para
nenhuma abordagem de aprendizado.
2.2 Processamento de Dados
Com a necessidade de processar grandes volumes de dados produzidos constantemente,
há uma grande necessidade em analisar de forma rápida e automática diversos conjuntos
de dados de diferentes domínios. Uma das tarefas mais essenciais ao lidar com dados é
classificá-los ou agrupá-los, em categorias ou grupos. Basicamente, modelos de processa-
mento de dados em aprendizado de máquina são supervisionados ou não-supervisionados,
dependendo do objetivo associado à tarefa executada, seja rotular amostras em categorias
dado experiências prévias (modelos de aprendizado supervisionados) ou encontrar rela-
ções inerentes aos dados de forma automática, sem possuir previamente informação acerca
dos dados, na tentativa definir relações a partir do agrupamento de amostras semelhan-
tes (modelos de aprendizado não-supervisionados) (KOTSIANTIS; ZAHARAKIS; PINTELAS,
2007; EVERITT; LANDAU; LEESE, 2001). As subseções a seguir, expõem os conceitos ge-
rais acerca das duas abordagens (supervisionadas e não-supervisionadas), assim como os
principais modelos de cada uma utilizados nesta dissertação.
2.2.1 Modelos Supervisionados
No aprendizado supervisionado, um algoritmo de classificação é representado por uma
função matemática que, dado um conjunto de dados rotulados, modela um indutor. Os
rótulos são definidos como classes, que podem ser valores quantitativos ou qualitativos.
Esse indutor é responsável por, dado uma amostra não-rotulada, atribuir essa amostra
para uma possível classe (KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007). O principal desa-
fio de algoritmos de aprendizado supervisionado é encontrar uma representação que seja
28
capaz de generalizar, de forma eficiente, o conhecimento acerca de um domínio (conjunto
de dados). Na literatura são encontrados diversos algoritmos de classificação, sendo esses
divididos em diferentes categorias de acordo com aspectos como: representação do conheci-
mento (dados) e generalização do conhecimento (hipóteses) (FACELI; LORENA; CARVALHO,
2000).
Nas subseções seguintes, serão apresentados os conceitos gerais acerca de diferentes
modelos de classificação utilizados no desenvolvimento deste trabalho.
2.2.1.1 Árvore de Decisão
Árvores de decisão são algoritmos de aprendizado supervisionado baseados em méto-
dos de busca que particionam os dados em diversos subconjuntos, de maneira que proble-
mas complexos são reduzidos a subproblemas. Dessa forma, a árvore de decisão faz uso
da estratégia de "dividir para conquistar"para solucionar problemas de decisão. Nessa
árvores, cada nó representa conjunções de atributos que levam aos nós-folha, que por sua
vez representam os rótulos das classes. Para encontrar soluções, a árvore de decisão rea-
liza uma busca hierárquica e sequencial sobre os possíveis caminhos a partir do modelo
produzido (MITCHELL, 1997). Uma visão geral acerca do funcionamento de árvores de
decisão pode ser vista no Algoritmo 1.
Algorithm 1 Algoritmo para Árvore de Decisão retirado de (FACELI; LORENA; CARVA-LHO, 2000)1: procedure AD2: Entrada: Conjunto de treinamento D3: Saída: Árvore de Decisão4: Função GeraArvore(D)5: if critério de parada(D) = V erdadeiro then6: Retorna: um nó folha rotulado com a constante que minimiza a função perda7: end if8: Escolha o atributo que maximiza o critério de divisão em D9: for each partição dos exemplos D(i) baseado nos valores do atributo escolhido do
10: Induz uma subárvore Arvore(i) = GeraArvore(D(i))11: end for12: Retorna: Árvore contendo um nó de decisão baseado no atributo escolhido, e descen-
dentes Arvore(i)13: end procedure
Dentre os benefícios associados ao uso da árvore de decisão estão a fácil interpreta-
bilidade (observação da estrutura por meio da visualização da árvore gerada ao final do
processo) e a realização de um processo de seleção de atributos implícito inerente a criação
do modelo, onde os nós mais altos representam os atributos mais importantes no processo
29
de tomada de decisão. No entanto, sem a aplicação de técnicas de poda (pré ou pós poda)
para limitar o crescimento e, consequentemente, o tamanho da árvore, o modelo gerado
tende a se superajustar aos dados do conjunto de treino, reduzindo a sua capacidade de
generalização (KOHAVI; QUINLAN, 2002).
2.2.1.2 Support Vector Machine
O Support Vector Machine (SVM) é uma técnica de aprendizado para problemas
linearmente separáveis, capaz de encontrar um hiperplano ideal que maximize a margem
de separação (espaço) entre duas classes. Para tanto, as instâncias da base de dados
são rotuladas como positivas e negativas, sendo projetadas no espaço de alta dimensão,
usando uma função kernel. A ideia pode ser estendida para problemas com mais de duas
classes (MITCHELL, 1997). Por ser baseado na teoria de aprendizado estatístico, o SVM se
caracteriza por apresentar uma boa capacidade em termos de generalização. Ademais, a
utilização de funções kernel torna o algoritmo eficiente, pois permite que sejam construídos
hiperplanos em espaço de alta dimensão de forma tratável do ponto de vista computacional
(FACELI; LORENA; CARVALHO, 2000). As principais desvantagens desse método, residem
na alta dependência de uma boa parametrização e na dificuldade em interpretar o modelo
gerado.
2.2.1.3 k-Nearest Neighbors
O k-Nearest Neighbors (k-NN) é uma técnica de aprendizado de máquina baseado em
instâncias que leva em consideração os k vizinhos mais próximos da instância a ser classi-
ficada. No k-NN, dado um espaço definido pelos atributos, onde uma instância representa
um ponto nesse espaço, a distância pode ser calculada entre dois pontos através de uma
métrica de distância. Usualmente, os vizinhos mais próximos são definidos pela distância
euclidiana, mas outras métricas de distâncias podem ser utilizadas, como por exemplo:
Distância de Chebyshev, Distância de Minkowske e Distância de Mahalanobis (MITCHELL,
1997).
Os principais passos do k-NN podem ser descritos como:
• Defina uma valor para k;
• Calcule a distância entre instância de teste e todas instâncias de treino, usando uma
métrica de distância;
30
• Ordene as distâncias calculadas em ordem ascendente de valor;
• Selecione os k primeiros vizinhos ordenados pela distância;
• Recupere a classe dessas instâncias;
• Retorne a classe prevista para instância de teste.
Uma versão simplificada do k-NN pode ser observada no Algoritmo 2 abaixo:
Algorithm 2 Algoritmo para o k-NN, versão 1-vizinho mais próximo retirado de (FACELI;LORENA; CARVALHO, 2000)1: procedure AD2: Entrada: Conjunto de treinamento: D3: Um objeto de teste a ser classificado: t4: A função de distância entre objetos: d(xa, xb)5: Saída: yt Classe atribuída ao exemplo t6: dmin = +∞7: for each i ∈ 1, ..., n do8: if d(xi, xt < dmin then9: dmin ⇐ d(xi, xt)
10: idx⇐ i11: end if12: end for13: yt = yidx14: Retorna: yt15: end procedure
2.2.2 Modelos Não-Supervisionados
Em modelos de aprendizado não supervisionados, o principal objetivo consiste em
agrupar (separar) dados não-rotulados em um número finito de partições, a fim de en-
contrar relações subjacentes que permitam inferir características inerentes a esses dados
(XU; WUNSCH, 2005). Embora não exista uma definição universal sobre o conceito de par-
tições (EVERITT; LANDAU; LEESE, 2001), grande parte dos pesquisadores descrevem uma
partição considerando que haja homogeneidade internamente na partições e separação
externamente entre as partições, de modo que as instâncias de uma partição sejam seme-
lhantes entre elas, enquanto instâncias em diferentes partições sejam diferentes (HANSEN;
JAUMARD, 1997).
Segundo (BACKER; JAIN, 1981):
"(...) na análise de clusters, um grupo de instâncias é dividido em um nú-
mero de subgrupos (proximamente) homogêneos, com base em uma medida de
31
similaridade frequentemente escolhida de forma subjetiva ou empírica (isto é,
a escolha dessa medida é feita baseada na sua capacidade de criar partições
de modo que a similaridade entre os objetos dentro da partição seja maior do
que a similaridade entre instâncias pertencentes a diferentes partições."
Algoritmos de agrupamento podem ser divididos quanto a sua natureza. Em geral,
os algoritmos são classificados de acordo com a estratégia utilizada para definir as parti-
ções, as principais categorias são: algoritmos particionais (k-Means), hierárquicos (Hierár-
Em específico, neste trabalho, foi utilizado um representante da categoria dos algorit-
mos de agrupamento particionais, o k-Means. Na seção 2.2.2.1 abaixo, pode ser observada
a descrição acerca do processo geral dessa abordagem.
2.2.2.1 k-Means
Um dos algoritmos mais simples de agrupamento conhecido é o k-Means. Devido a
sua fácil implementação, é amplamente utilizado em tarefas de agrupamento, tendo como
principais vantagens: baixa complexidade, o que leva a uma rápida execução (na maioria
dos casos) e a entrega de resultados de fácil interpretação. Entretanto, a baixa complexi-
dade do algoritmo e a necessidade da definição do parâmetro k faz com que, ao lidar com
dados complexos, em geral, quando comparado a outros algoritmos de agrupamento, o
faça obter resultados não tanto competitivos (LIKAS; VLASSIS; VERBEEK, 2003). Em (FA-
CELI; LORENA; CARVALHO, 2000) o funcionamento do k-Means é descrito pelo Algoritmo
3:
O k-Means é um algoritmo de agrupamento baseado em distância, onde os primeiros
k centroides dos dados são randomicamente escolhidos e cada instância é atribuída a um
grupo associado ao centroide mais próximo. Após esse passo, novos centroides são calcula-
dos para cada grupo baseado na média de todas as instâncias. Por fim, este procedimento
é repetido até não haja mudança nos valores dos centroides (KANUNGO et al., 2002).
32
Algorithm 3 Algoritmo k-Means retirado de (FACELI; LORENA; CARVALHO, 2000)1: procedure k-Means2: Entrada: Conjunto de dados Xn×d e k o número de clusters3: Saída: Uma partição de X em k clusters4: Escolher aleatoriamente k valores para centroides dos clusters5: repeat6: for each objeto xi ∈ X e cluster Cj , j = 1, ...k do7: Calcular a distância entre xi e o centroide do cluster utilizando uma medida de
distância8: end for9: for each objeto xi do
10: Associar xi ao cluster com centroide mais próximo11: end for12: for each cluster Cj , j = 1, ...k do13: Recalcular o centroide14: end for15: until não haver mais alteração na associação dos objetos aos clusters16: end procedure
2.3 Medidas de Avaliação
Em seleção de atributos, uma das decisões mais impactantes em seu processo diz
respeito a escolha da medida de avaliação que irá ser utilizada para o cálculo da relevância
dos atributos. Essa escolha impacta diretamente na criação do subconjunto de atributos,
que deve representar, da melhor forma possível, todo o conjunto de dados. Na literatura
encontramos medidas de avaliação capazes de medir relações de diferentes naturezas, sejam
elas lineares ou não-lineares (LI et al., 2016). Para tanto, esta seção descreve duas grandes
áreas, Teoria da Informação e Medidas de Correlação, que através de descritores propostos,
nos permite fazer uso de seus métodos como medidas de avaliação para quantificar a
relevância de atributos no processo de redução de dimensionalidade.
2.3.1 Teoria da Informação
A Teoria da Informação representa um campo da ciência responsável por estudar a
quantificação e armazenamento da informação contida em dados. Inicialmente proposto
por (SHANNON, 1948), os fundamentos da teoria da informação foram utilizados, prima-
riamente, em aplicações de processamento de sinais. No entanto, nos últimos anos alguns
descritores propostos na teoria da informação têm sido aplicados em métodos computaci-
onais com o objetivo de quantificar informação em problemas de aprendizado, como por
exemplo em (BROWN et al., 2012), onde técnicas baseadas em Informação Mútua foram
utilizadas para selecionar subconjuntos de atributos em diferentes conjuntos de dados.
33
Técnicas baseadas em descritores da Teoria da Informação, trazem como principal bene-
fício a capacidade em quantificar relações não-lineares, que são amplamente encontradas
em dados provenientes de aplicações do mundo real. Nesse sentido, as subseções seguintes
apresentam dois descritores da Teoria da Informação utilizados como medida de avaliação
no contexto de seleção de atributos desta dissertação, Informação Mútua e Divergência
de Kullback-Leibler.
2.3.1.1 Informação Mútua
A medida de informação mútua (MI, do inglês Mutual Information) calcula a quan-
tidade de informação compartilhada por duas variáveis aleatórias. Em outras palavras,
ela quantifica a quantidade de informação obtida por uma variável, através de outra
(SHANNON, 1948). Sejam X (um atributo, no contexto de AM) e Y (um rótulo de classe)
variáveis aleatórias e p seja a função probabilidade. Baseado nisso, a Informação Mútua
pode ser definida como:
I(X, Y ) =∑y∈Y
∑x∈X
p(x, y) log
(p(x, y)
p(x)p(y)
)(2.1)
2.3.1.2 Divergência de Kullback–Leibler
A divergência de Kullback-Leibler (KD, do inglês Kullback-Leibler Divergence) é uma
medida que define a diferença entre duas distribuições de probabilidade. Assim sendo, a
divergência de KD pode ser vista como a como a quantidade de incerteza de observar
uma distribuição de probabilidade f(x) (um atributo) usando outra distribuição g(x)
(um rótulo de classe) (KULLBACK; LEIBLER, 1951). Logo, a divergência de KD pode ser
definida como:
DKL(F ||G) =∑i
f(x) logf(x)
g(x)(2.2)
2.3.2 Medidas de Correlação
De acordo com (JIANG; WANG, 2016), um coeficiente de correlação pode ser concei-
tuado como "uma medida que quantifica até que ponto duas variáveis tendem a mudar
juntas, descrevendo a força e a direção do relacionamento entre elas". Assim como as
34
medidas de Teoria da Informação, diversas medidas baseadas em correlação foram utili-
zadas na proposição de seletores de atributos na literatura (JIANG; WANG, 2016; SAEYS;
ABEEL; PEER, 2008). Em geral, valores de correlação entre duas variáveis (atributo e
atributo-classe) são representados entre -1 e 1, onde quanto maior forem esses valores,
mais correlacionadas são as variáveis (negativamente ou positivamente, respectivamente).
Valores próximos de -1, indicam uma correlação negativa, que implica dizer que as variá-
veis tendem a crescer em direções opostas, enquanto que se esse valor for mais próximo
de 1, indica forte crescimento de ambas as variáveis na mesma direção (SAEYS; ABEEL;
PEER, 2008). Nem sempre medidas de correlação são capazes de quantificar de maneira
precisa a relação entre duas variáveis, nesse sentido diversas medidas de correlação são
encontradas na literatura com objetivo de medir diferentes relações acerca da natureza
dos dados (relações lineares e não-lineares), como por exemplo: Coeficientes de Pearson,
Kendall e Spearman (SAEYS; ABEEL; PEER, 2008). A subseção abaixo descreve a medida
de correlação de Spearman utilizada nesta dissertação.
2.3.2.1 Correlação de Spearman
A Correlação de Spearman (SP, do inglês Spearman Correlation) é um teste não-
paramétrico que mede a força e a direção da associação monotônica entre o ranking de
duas variáveis aleatórias, sendo capaz de medir relações de natureza não-linear entre as
variáveis (SAEYS; ABEEL; PEER, 2008). A equação que descreve a correlação de SP é
definida como:
SP = 1− 6∑d2
n(n2 − 1)(2.3)
Onde n é a quantidade de pares de amostras (instâncias) das variáveis (atributo e
atributo-classe) e coeficiente∑d2 é dado pelo seguinte cálculo (SAEYS; ABEEL; PEER,
2008):
• Organize os dados das duas variáveis em questão em duas colunas (Dados 1 e 2);
• Na terceira coluna (Ranking 1), calcule o ranking da primeira variável (Dado 1),
atribuindo 1 ao menor valor, 2 ao segundo menor e assim sucessivamente;
• Repita o processo para a segunda coluna (Dado 2), criando uma quarta coluna
(Ranking 4) para armazenar os valores dos rankings ;
35
• Caso exista algum valor repetido dentro da mesma coluna de ranking (colunas 3 ou
4), substitua-os pela sua média. Por exemplo, se existem dois valores com ranking
3, substitua por 1.5;
• Na quinta coluna (d), calcule a diferença entre os pares correspondentes das colunas
de ranking (colunas 3 e 4)
• Na sexta coluna (d2), eleve os valores da quinta coluna (d) ao quadrado;
• Ao final, some todos os valores da sexta coluna (d2), esse é valor do coeficiente∑d2
da equação de correlação.
2.4 Otimização Multiobjetivo
A otimização simultânea de funções de objetivo concorrentes tende a não ser solu-
cionada pela otimização de funções únicas, pois raramente admite uma solução única e
perfeita (FONSECA; FLEMING, 1995). No contexto de seleção de atributos, se levarmos em
consideração que o cálculo da relevância dos atributos pode ser visto como uma função
objetivo, seletores tradicionais, em geral, consideram uma única medida de avaliação ou
consideram grupos de medidas separadamente em seu processo. Dessa forma, claramente
o processo de utilização de mais de uma medida de avaliação para calcular a relevância
de atributos em conjuntos de dados pode ser visto como um problema de otimização. A
medida que o número de objetivos concorrentes aumenta (uso de múltiplas medidas de
avaliação simultaneamente) e todos são considerados, o problema rapidamente se torna
complexo (FONSECA; FLEMING, 1995; MARLER; ARORA, 2004; DEB, 2014).
De acordo com (PEREZ, 2012):
A Otimização multiobjetivo pode ser definida como um vetor de variáveis de
objetivos com dimensão n, y = {y1, y2, ..., yn} no espaço de busca Y . Neste
caso, o objetivo é encontrar um vetor y∗ ∈ Y que minimizem as funções obje-
tivo f(x∗) = {f1(x∗), ..., fn(x∗)}. As soluções que minimizam todos os objetivos
são chamadas pareto-ótimas ou não dominadas.
Nesse sentido, a aplicação de técnicas utilizadas na otimização multiobjetivo no pro-
cesso de seleção de atributos, tornam-se uma ferramenta eficaz para selecionar atributos
relevantes dado diferentes critérios. Logo, a técnica empregada nesta dissertação para
36
realizar a escolha automatizada dos atributos é chamada de Fronteira de Pareto, sendo
descrita na subseção a seguir.
2.4.1 Fronteira de Pareto
Para entender o conceito relacionado a Fronteira de Pareto, primeiro se faz necessário
entender o conceito de dominância de soluções.
Segundo (PEREZ, 2012),
"(...) uma solução x pode ser considerada dominante se e somente se ela for
capaz de atender a seguinte restrição em relação a qualquer outra solução y:
fi(x) < fi(y) para i = 1, ..., r e fi(x) < fi(y) para pelo menos uma função
objetivo f".
A Figura 1 mostra as regiões no espaço de objetos onde a solução x é dominante em
relação a solução y.
Figura 1: Regiões de dominância, retirado de (PEREZ, 2012).
Dessa maneira, uma solução é considerada pareto-ótima ou não-dominada, se não
for dominada por nenhuma outra solução viável no espaço de objetos (DEB, 2014). No
contexto de seleção de atributos, os atributos podem ser considerados como soluções, e a
definição da fronteira de pareto pode ser interpretada como: uma solução não-dominada
(subconjunto de atributos) descrita por um conjunto de atributos que otimizem a sua
37
relevância em relação a n medidas de avaliação, não podendo ser melhorada com relação
a qualquer medida de avaliação ou relevância (função objetivo), sem que exita piora, de
no mínimo, algum outro objetivo.
2.5 Testes Estatísticos
Na verificação dos resultados obtidos por algoritmos de aprendizado de máquina, é
importante fazer uso de técnicas que permitam aumentar a confiabilidade desses resulta-
dos. Com esse objetivo, o uso de testes estatísticos representam ferramentas importantes
na análise de abordagens propostas, sendo possível aplicar testes para avaliar diferenças
estatísticas entre todas as abordagens simultaneamente (análise multivariada) e testes
específicos para analisar, par a par, as abordagens (DIETTERICH, 1998). Nesse sentido,
nas subseções a seguir são descritos dois testes estatísticos: Teste de Friedman e Teste de
Wilcoxon Rank-Sum, utilizados na validação dos resultados obtidos neste trabalho.
2.5.1 Teste de Friedman
O teste de Friedman é um teste não-paramétrico usado para comparar amostras de
dados. É bastante eficaz quando se procura afirmar que as observações analisadas derivam
da mesma população (FRIEDMAN, 1937). No contexto de aprendizado de máquina, esse
teste é recomendado quando se tem como objetivo verificar se há diferença estatística entre
diferentes abordagens de aprendizado de máquina, utilizando diferentes classificadores.
(TRAWIŃSKI et al., 2012).
Através do cálculo do teste de Friedman, o p-value é usado para identificar se há dife-
rença estatística entre as amostras de entrada, servindo como indicação para a utilização
(ou não) de testes post-hoc.
2.5.2 Teste de Wilcoxon Rank-Sum
O teste de Wilcoxon Rank-sum, também conhecido como o teste de Mann-Whitney, é
um teste não-paramétrico desenvolvido por F. Wilcoxon em 1945. O teste é utilizado para
comparar duas amostras independentes de mesmo tamanho. O teste de Wilcoxon Rank-
sum detecta diferenças entre duas populações correspondentes por meio da comparação
da mediana das duas amostras(GIBBONS; CHAKRABORTI, 2003).
Assim, é possível comparar através do p-value obtido, se dois grupos não-pareados
38
pertencem à mesma população, verificando se há evidências para acreditar que os valores
de um grupo são maiores do que os do outro grupo(GIBBONS; CHAKRABORTI, 2003).
Na análise de dados em aprendizado de máquina, o teste de Wilcoxon Rank-sum é
utilizado para análise pareada de abordagens, verificando se há diferenças estatísticas para
corroborar com os resultados obtidos por meio da acurácia.
2.6 Considerações Finais
Este capítulo apresentou os métodos e conceitos necessários para o entendimento
e desenvolvimento deste trabalho. De fato, a literatura relacionada à aprendizado de
máquina voltada para seleção de atributos é ampla, logo, nós limitamos à descrição do
elementos mais relacionados para construção da proposta desta dissertação.
Visando facilitar a compreensão dos conceitos que permeiam a proposição deste traba-
lho, o capítulo foi organizado levando em consideração o fluxo básico do processo de AM:
Pré-processamento, Processamento e Pós-processamento. Isto é, começamos a partir das
técnicas de pré-processamento de dados e seus benefícios no contexto de AM, então, par-
timos para explicação dos modelos de aprendizado supervisionados e não-supervisionados
e como esses se relacionam com a seleção de atributos e por fim, apresentamos tópicos
da ciência da computação que se relacionam com a seleção de atributos e como se dá o
pós-processamento dos resultados obtidos pelos modelos de aprendizado.
O capítulo seguinte apresentará os trabalhos relacionados às abordagens propostas
nesta dissertação. Serão descritos trabalhos que utilizam, em sua maioria, os conceitos
apresentados neste capítulo e que se relacionam com o trabalho proposto.
39
3 Trabalhos Relacionados
Como explanado anteriormente, para elaboração de abordagens automatizadas de
seleção de atributos se faz necessário a utilização de técnicas computacionais que permitam
a automação durante o processo de seleção de atributos. A ideia de automação pode ser
aplicada em relação ao processo de escolha de algoritmos de seleção, a escolha de critérios
de avaliação de relevância e/ou a definição dinâmica de atributos. No entanto, a grande
maioria dos trabalhos existentes na área de seleção de atributos visa a seleção estática,
ao invés da automatização do processo. Nesse sentido, os trabalhos relacionados serão
apresentados de acordo com as técnicas empregadas para realizar o processo de seleção
de atributos, sendo as categorias: fusão de algoritmos de seleção de atributos e seleção
dinâmica de atributos e classificadores.
3.1 Fusão de Algoritmos de Seleção de Atributos
Algoritmos de redução de dimensionalidade são técnicas populares utilizadas para re-
mover ruídos e atributos redundantes em tarefas de Aprendizado de Máquina, como clas-
sificação e agrupamento (CHANDRASHEKAR; SAHIN, 2014; TANG; ALELYANI; LIU, 2014).
Como já mencionado, existem duas grandes categorias desses algoritmos: extração e se-
leção de atributos (LIU; MOTODA, 2007). Este trabalho restringe os estudos à algoritmos
de seleção de atributos.
O principal objetivo de algoritmos de seleção de atributos é encontrar um subconjunto
no espaço de atributos que seja capaz de prover uma representação eficiente do conjunto
original de dados. Tradicionalmente, os algoritmos de seleção de atributos fazem uso de
algumas heurísticas para guiar o processo de busca de atributos que melhor representem
o conjunto original de dados. Com isso em mente, diversos trabalhos têm sido propostos
como em: (ROGATI; YANG, 2002), (JANECEK et al., 2008), (HONG et al., 2008), (HIRA;
GILLIES, 2015), (XUE et al., 2016), (YIJING et al., 2016), (JAFFEL; FARAH, 2018).
Nos estudos realizados em Rogati e Yang (2002) e Janecek et al. (2008), os autores
40
analisaram o impacto da utilização de algoritmos de seleção de atributos no desempenho
geral de algoritmos de classificação como k-NN, Naive Bayes e SVM para classificação de
textos e imagens. Em (HONG et al., 2008), os autores utilizaram algoritmos de agrupamento
como forma de definir a relevância dos atributos.
No trabalho desenvolvido em Hira e Gillies (2015), técnicas de redução de dimensiona-
lidade foram utilizadas em dados de microarray de alta dimensão com objetivo de auxiliar
na análise de expressão gênica. Nesse contexto, foram aplicados três tipos de métodos de
seleção de atributos: embutidos, baseados em filtro e baseados em wrapper, com intuito
de realizar uma investigação acerca do impacto da utilização de diferentes abordagens
de seleção de atributos para encontrar relações complexas entre informações de natureza
biológica. Além da aplicação na bioinformática, algoritmos de seleção de atributos têm
sido utilizados em outras aplicações do mundo real, como em Jaffel e Farah (2018), onde
foi proposto um método de seleção de atributos baseado em um algoritmo de otimização
combinatória para o treinamento de redes neurais, onde o principal objetivo era melhorar
o desempenho de classificação de imagens de sensoriamento remoto por meio da escolha
dos atributos mais relevantes.
Por outro lado, diferente do contexto de aplicações, alguns autores têm investigado
formas de tornar o processo de seleção de atributos mais robusto através do uso de técnicas
computacionais. Em Xue et al. (2016), foi explorada a aplicação de técnicas de compu-
tação evolucionária (CE) na seleção de atributos, tendo como foco a elaboração de um
survey, onde foi reunida uma pesquisa sobre o estado da arte acerca dos pontos fortes e
fracos da aplicação da CE no campo da seleção de atributos. Em Yijing et al. (2016), os
autores aplicaram a técnica de comitês de classificadores com seleção de atributos para
classificação de dados desbalanceados. Nesse trabalho, o método proposto foi elaborado
para lidar com o aprendizado de dados desbalanceados com múltiplas classes, onde a se-
leção de atributos foi utilizada para selecionar os atributos mais relevantes a partir de
dados desbalanceados.
No contexto de fusão, propostas como combinar algoritmos de seleção de atributos
têm sido utilizadas com sucesso na literatura de reconhecimento de padrões, tais como
em: (CHEN; LI, 2010), (PRATI, 2012), (SHEN; DIAO; SU, 2012) e (BIHL; TEMPLE; BAUER,
2016).
Em Chen e Li (2010), os autores propuseram um método de combinação de quatro mé-
todos de redução de dimensionalidade (LDA, F-score, Rough sets theory (RST) e Árvore
de Decisão) com SVM para uma aplicação de pontuação de crédito. Nessa abordagem,
41
cada método de seleção é aplicado sobre um conjunto de treinamento, obtendo-se ao final
um subconjunto de atributos para cada método, que em seguida são avaliados individu-
almente através de um wrapper. A combinação dos seletores de atributos ocorre por meio
da escolha dos atributos que causam melhora na acurácia. Após definir o subconjunto
de atributos mais relevante, um classificador baseado em SVM é treinado até que haja a
otimização dos seus parâmetros de treinamento.
Prati (2012) propôs uma abordagem de combinação baseada na agregação de ran-
kings, onde foram utilizados quatro técnicas de ranking: Borda Count, Condorcet, Schulze
e Markov Chain (MC4). Nesse trabalho, os atributos são avaliados por seis medidas de
relevância (Ganho de Informação, Taxa de Ganho, Incerteza Simétrica, Qui-quadrado,
OneR e ReliefF ), e a partir do cálculo da relevância dos atributos são construídos os
rankings para definição final da relevância dos atributos, baseada na posição em que se
encontram nos rankings. Em comparação com a Fusão de Dados proposta nesta disserta-
ção, a principal diferença entre a Fusão de Dados e o método proposto por Prati (2012),
consiste na utilização de uma técnica de cálculo da relevância do atributo, proposta nesta
dissertação, de acordo com a posição em que o atributo é ranqueado por algoritmos de
seleção de atributos, provendo a fusão dos dados advindos de cada seletor de atributos.
Diferentemente de Prati (2012), onde os autores fizeram uso rankings e filtros de relevância
já propostos em outros trabalhos.
No trabalho proposto em Shen, Diao e Su (2012) é apresentado um método de fusão
intitulado de "Feature Selection Ensemble" (FSE). O FSE é um método baseado em co-
mitês que tem por objetivo a construção de um grupo de subconjuntos de atributos e,
a partir disso, obter a agregação desse grupo. Segundo o autor do trabalho, Shen, Diao
e Su (2012), "ao realizar a combinação de diversos subconjuntos de atributos pode remo-
ver atributos irrelevantes, resultando em soluções compactas e eficientes". Nesse trabalho
foram propostas três abordagens baseadas em FSE: (1) Algoritmo individual de busca
estocástica; (2) Algoritmo individual com o Particionamento do Conjunto de Treino e (3)
Mistura de Algoritmos. A partir dos FSE’s gerados, também foi desenvolvido um módulo
para agregação da decisão, baseado na votação majoritária utilizada em comitês de clas-
sificadores. Quando comparado ao FSE, a Fusão de Decisão proposta nesta dissertação,
ao invés de criar um comitê de subconjuntos de atributos, utiliza a própria estrutura de
comitês de classificadores como meio de fusão da decisão proveniente dos algoritmos de
seleção. Dessa forma, nós utilizamos os benefícios da estrutura de comitês de classifica-
dores para obter diferentes perspectivas da base dados, dado os subconjuntos de dados
previamente reduzidos pelos seletores de atributos. A partir dessa estrutura, asseguramos
42
que cada classificador seja treinado com os atributos mais relevantes, de acordo com os
algoritmos de seleção de atributos utilizados.
3.2 Seleção Dinâmica de Atributos e Classificadores
Por se tratar de um tópico novo na literatura, a seleção dinâmica não apresenta muitos
trabalhos desenvolvidos. No entanto, podemos citar um outro viés da seleção dinâmica, a
seleção dinâmica de atributos em comitês de classificadores. O único trabalho conhecido
sobre a aplicação da seleção dinâmica de atributos no contexto de comitês de classificado-
res foi desenvolvido por Nunes, Dantas e Xavier (2018), onde foi realizada uma extensão do
trabalho proposto em Nunes et al. (2016), sendo proposto uma abordagem que permitiu
o uso de seleção dinâmica de atributos no contexto de comitês de classificadores.
O processo de definição acerca do melhor, ou mais relevante, subconjunto de atributos
impacta diretamente na construção de modelos de classificação. A utilização de técnicas
robustas para seleção de atributos pode promover aspectos positivos no processamento
de dados. Sendo alguns desses aspectos: a redução do custo computacional de criação do
modelo de classificação; o aumento da precisão dos modelos gerados; e a promoção da
interpretabilidade acerca da relação subjacente dos dados.
Podemos dividir os métodos de seleção de atributos como estáticos e dinâmicos. Na
seleção estática de atributos, todo o conjunto de dados é considerado no processo de
avaliação da relevância dos atributos, gerando ao final um único subconjunto de atributos
para o treinamento do modelo de classificação. Como alternativa à seleção estática de
atributos, em Nunes et al. (2016) foi proposto um método de seleção dinâmica de atributos.
Segundo Nunes et al. (2016), a seleção dinâmica faz uso de um algoritmo de agrupamento
para extrair o melhor subconjunto de atributos para cada partição criada, dessa forma os
atributos selecionados podem variar radicalmente, de acordo com as instâncias contidas
em cada grupo da partição. Essa abordagem faz uso de um critério de avaliação, neste
caso a Correlação de Spearman, para calcular a relevância dos atributos para cada grupo
da partição gerada. Além de promover a dinamicidade na avaliação da relevância dos
atributos, na fase de teste, as instâncias de teste são associadas ao classificador mais
similar através do uso de uma medida de similaridade através de uma métrica de distância,
inicialmente utilizando a distância Euclidiana.
No trabalho realizado em Dantas, Nunes e Xavier (2017), os autores realizaram uma
investigação acerca da variação do parâmetro da seleção dinâmica referente a medida de
43
similaridade e distância, com intuito otimizar o parâmetro que causa maior melhora na
seleção dinâmica de atributos. Todavia, pouco têm sido feito para elaboração de aborda-
gens que sejam capazes de reduzir a dimensionalidade de conjuntos de dados de forma
automatizada. A principal diferença entre o método de seleção dinâmica proposto original-
mente em Nunes et al. (2016), para o método de seleção dinâmica baseado na fronteira de
pareto proposto nesta dissertação, consiste no uso da técnica da fronteira de pareto para
permitir a avaliação automática de múltiplos critérios de avaliação de atributos. O uso
dessa técnica nos permite estender o método de seleção dinâmica encontrado na literatura,
com um processo automatizado para definição acerca de quais e quantos atributos devem
ser considerados mais relevantes para cada grupo nas partições geradas pelo algoritmo de
agrupamento.
3.3 Considerações Finais
A partir dos trabalhos existentes na literatura, é possível notar que o emprego de téc-
nicas de fusão no contexto de seleção de atributos, bem como a utilização de abordagens
de seleção de atributos dinâmicas, vem trazendo grandes avanços na captura de relações
complexas contida nos dados quando comparados à abordagens de seleção de atributos
individuais. De modo geral, os métodos propostos nos trabalhos alcançam desempenho
superior quando comparados a abordagens tradicionais. Logo, devido a robustez apresen-
tada por esses métodos, a investigação e proposição de novos métodos de fusão e seleção
dinâmica de atributos representa uma etapa promissora na área de seleção de atributos.
44
4 Seleção Automatizada deAtributos
Este capítulo apresenta o funcionamento geral das abordagens propostas nesta dis-
sertação. A primeira seção trata sobre métodos de fusão responsáveis por realizar a com-
binação de múltiplos seletores de atributos, através da utilização de estratégias baseadas
em ranking de relevância e comitê de classificadores. A segunda seção apresenta o estudo
desenvolvido acerca da seleção dinâmica de atributos baseada em estratégias utilizadas
na otimização multiobjetivo. Nessa última abordagem, o conceito de seleção de atributos
baseado em algoritmos de agrupamento é aprofundado por meio do uso de medidas de ava-
liação baseadas na teoria da informação, que permitem a análise de relações não-lineares
entre os atributos e o atributo classe, para cada partição produzida pelo algoritmo de
aprendizado não-supervisionado.
4.1 Abordagens de Fusão
Uma alternativa comumente usada por pesquisadores de aprendizado de máquina
pode ser aplicada no contexto da seleção de atributos: a combinação da relevância dos
atributos por meio de rankings ou estratégias baseadas em comitês. Essas abordagens
costumam usar vários métodos de seleção e ao final combinam suas saídas para produzir
uma única solução. Visando contribuir com este tópico, os métodos de fusão propostos
neste trabalho tem como objetivo analisar duas abordagens distintas de combinação de
múltiplos algoritmos de seleção de atributos. A primeira, realiza a combinação dos dados
provenientes dos algoritmos de seleção, através da computação do ranking dos atributos,
baseado numa métrica de relevância. O conceito desta abordagem é ter uma combinação
de dados, obtida pelos diferentes algoritmos de seleção de atributos (fusão de dados). A
segunda abordagem é baseada na combinação da decisão de comitê de classificadores trei-
nados por conjuntos de dados reduzidos por diferentes algoritmos de seleção de atributos
(fusão de decisão).
O principal benefício associado a utilização deste tipo de abordagem se dá pela au-
tomatização no processo de escolha dos algoritmos de seleção. As abordagens de fusão
45
permitem ao pesquisador utilizar diversos algoritmos de seleção de dados, sem conhecê-
los previamente, e dessa forma, a obter a fusão de diferentes perspectivas sob o mesmo
conjunto de dados.
4.1.1 Fusão de Dados
Uma maneira simples de combinar atributos obtidos por múltiplos algoritmos de sele-
ção de atributos é através da utilização de técnicas de votação para escolher os atributos
mais relevantes, com base na saída de diferentes algoritmos de seleção de atributos. Em
outras palavras, essa abordagem fornece uma fusão dos atributos selecionados por dife-
rentes algoritmos de seleção e faz uso de uma estratégia de votação para selecionar os
mais importantes. Uma visão geral da fusão de dados pode ser vista na Figura 2.
Figura 2: Fusão de Dados.
46
Seja Xn×m um conjunto de dados e Sn×k o conjunto de dados reduzido, onde n repre-
senta o número de instâncias, m o número original de atributos e k < m o subconjunto
de atributos selecionados. Com o propósito de obter uma solução combinada, temos que
executar t algoritmos, onde t > 1, e cada algoritmo seleciona um subconjunto de atribu-
tos a = a1, a2, ..., al, onde l ≤ m, de X. Pode-se reduzir um conjunto de dados usando
a saída do algoritmo de seleção para extrair um subconjunto S ′n×l. É importante notar
que os resultados gerais dos t algoritmos de seleção de atributos são índices dos atributos
ordenados de forma decrescente pela sua relevância.
Utilizando os a atributos selecionados, apenas contamos quantas vezes cada atributo
aparece em cada solução encontrada pelos algoritmos de seleção de atributos ponderados
por sua relevância. A relevância, nesse contexto, é inversamente proporcional à sua posição
no vetor ordenado de atributos. Portanto, a relevância do atributo ai pode ser definida
por:
ri =1
j(4.1)
onde j é a posição do atributo no vetor de saída. Por exemplo, se um atributo é a primeira
escolha de um algoritmo, sua relevância é igual a um. Se aparecer na quarta posição,
então sua relevância é 0,25. Usando essa estratégia, consideramos não apenas a presença
do atributo na saída do algoritmo de redução de dimensionalidade, mas também sua
importância para todo o processo.
Agora, considere F = {f1, f2, ..., ft} como o conjunto de todas as saídas criadas por t
algoritmos. Podemos definir um fator de votação para cada atributo como:
vi =t∑
j=1
ri. (4.2)
onde v = {v1, v2, ..., vl} é o conjunto de fatores de votação para cada atributo. Em outras
palavras, basicamente resumimos a relevância dos recursos para cada algoritmo. Após
essa etapa, selecionamos os k atributos com os valores mais altos no vetor v para obter
os atributos mais relevantes para todos os t algoritmos, e por fim criando o conjunto de
dados S. O processo completo da fusão de dados pode ser observado no Algoritmo 4.
O algoritmo da Fusão de Dados pode ser dividido em três partes principais:
47
Algorithm 4 Fusão de Dados1: procedure FDA2: Dados = (DadosTreino,DadosTeste)3: algoritmosSelecao = (R1, R2, ..., Rn)4: for each algoritmo t in algoritmosSelecao do5: vetorIndices(t)← t(DadosTreino,′ todosAtributos′)6: end for7: for each indice j in vetorIndices do8: for each atributo a in j do9: relevanciaAtributos(a)← calcRelevancia(a)
10: end for11: end for12: relevanciaAtributos← sort(relevanciaAtributos,′Decrescente′)13: atributosSelecionados← relevanciaAtributos(qtdAtributos)14: TC ← Classificador(DadosTreino, atributosSelecionados)15: for each instanciaTeste i in DadosTeste do16: acuracia← Teste(i, TC)17: end for18: end procedure
1. Nas linhas 2-11 é realizado o processo de fusão de dados: sobre os dados de treina-
mento são aplicados algoritmos de seleção de atributos (linha 4-6), obtendo ao final
um vetor de índices dos atributos ordenados de forma decrescente pela sua relevân-
cia, para cada seletor de atributos; em seguida, para todos os vetores de índices é
calculada a relevância de cada atributo (linhas 7-11).
2. Uma vez calculada a relevância dos atributos por meio da fusão dos dados, os atri-
butos são ordenados de forma decrescente, onde o primeiro é o mais relevante, e o
último o menos relevante (linha 12); Após a ordenação, são selecionados k atributos
que serão utilizados para criar o novo conjunto de dados (linha 13).
3. Por fim, um classificador é treinado com os atributos selecionados (linha 14) e para
cada instância de teste, é calculada a acurácia dado o classificador construído (linhas
15-17).
4.1.2 Fusão de Decisão
Esta seção apresenta uma segunda abordagem para combinar vários algoritmos de
seleção de atributos. A ideia é usar a estrutura do comitê de classificadores como uma
abordagem de fusão, na qual a decisão dos algoritmos de classificação será combinada no
método de combinação do comitê (Fusão de Decisão). O conceito de sistemas de comitês
surgiu nas últimas décadas como uma estratégia para combinar classificadores, com o ob-
48
jetivo de fornecer uma solução potencialmente mais eficiente do que qualquer componente
individual (KUNCHEVA, 2004a).
Um sistema baseado em comitê consiste em um conjunto de classificadores individu-
ais (CIs) c que são organizados de forma paralela. O conjunto de CIs recebe os dados de
entrada e suas saídas são enviadas para o módulo de combinação Comb que fornece a res-
posta geral do conjunto. Portanto, os padrões não rotulados {Ui ∈ Rd|i = 1, 2, ..., n} serãoapresentados a todos os classificadores individuais e um método de combinação combinará
sua saída para produzir a saída geral do sistema O = Comb(yj), {yj = (yj1, ..., yjk|j =
1, ..., c and k = 1, ..., r}, onde o número de classificadores individuais é definido por c e r
descreve o número de rótulos em um conjunto de dados.
Para sistemas de comitês, o principal objetivo é que os componentes individuais ofe-
reçam informações complementares sobre um padrão de entrada e essa informação com-
plementar tenda a aumentar a eficácia de todo processo de reconhecimento (KUNCHEVA,
2004a).
Nesse contexto, a ideia da fusão de decisão consiste em combinar algoritmos de seleção
de atributos utilizando um conjunto de algoritmos de classificação. Ou seja, não combi-
namos as saídas criadas pelos algoritmos de seleção, mas as decisões fornecidas pelas
algoritmos de classificação treinados com os conjuntos de dados reduzidos pelos seletores.
A ideia geral da abordagem pode ser vista na Figura 3.
Como pode ser observado, primeiro usamos algoritmos de seleção de atributos para
produzir subconjuntos distintos do conjunto de dados original X. Esses subconjuntos são
usados como dados de treinamento para os algoritmos de classificação que são posterior-
mente combinados para obter uma única solução. É importante notar que o número de
classificadores individuais c é definido pelo número de algoritmos de seleção de atributos.
O processo completo da fusão de decisão pode ser visto no Algoritmo 5.
O processo da Fusão de Decisão pode ser dividido em três partes:
1. Inicialmente, são aplicados t algoritmos de seleção sobre o conjunto de treino. Para
cada algoritmo de seleção é gerado um novo conjunto de dados, com k atributos
selecionados (linhas 4-6).
2. Na fase de treino, para cada conjunto de dados reduzido pelos algoritmos, é trei-
nado um classificador (linhas 7-9). Ao final dessa fase, um comitê de classificadores
homogêneo é obtido, onde cada classificador foi treinado com diferentes conjuntos
de dados (linha 10).
49
Figura 3: Fusão de Decisão.
3. Por fim, na fase de teste, as instâncias de teste são passadas para o comitê de
classificadores, onde a decisão de cada classificador é combinada por meio do voto
majoritário (linhas 11-33), obtendo-se a acurácia.
O principal objetivo em usar um método baseado em comitê de classificadores no
contexto de algoritmos de combinação é aumentar a diversidade durante o processo de
seleção de atributos, opondo-se ao método de fusão de dados que possui baixa diversidade.
Enquanto o método fusão de dados realiza um processo de fusão a priori (primeiro são
combinados os algoritmos, para só então reduzir o conjunto de dados), a fusão de decisão
executa o processo inverso (fusão a posteriori), onde primeiramente as bases de dados
são reduzidas pelos algoritmos de seleção de atributos, para só então a fusão das decisões
50
Algorithm 5 Fusão de Decisão1: procedure FDE2: Dados = (DadosTreino,DadosTeste)3: algoritmosSelecao = (R1, R2, ..., Rn)4: for each algoritmo t in algoritmosSelecao do5: dadosReduzidos(t)← t(DadosTreino, qtdAtributos)6: end for7: for each dadoReduzido f in dadosReduzidos do8: TC(f)← Classificador(f)9: end for
10: comiteClassificadores← TC(f1, ..., fn)11: for each instanciaTeste i in DadosTeste do12: acuracia← Teste(i, comiteClassificadores)13: end for14: end procedure
provenientes dos classificadores base do comitê ser realizada.
4.2 Seleção Dinâmica baseada na Fronteira de Pareto
Os algoritmos de seleção de atributos tradicionais consideram todo o conjunto de
dados para selecionar um subconjunto de atributos para representar todo o espaço de
um problema específico. Isso pode ser muito adequado para algumas instâncias de teste,
mas não para todas elas, que podem ser melhor representadas por outro subconjunto de
atributos. Alguns artigos trabalharam em formas de superar essa dificuldade dividindo
o conjunto de dados em grupos e concentrado-se na importância de um subconjunto
específico de atributos para esse conjunto particular de amostras (NUNES et al., 2016).
Os resultados mostraram que, em geral, essa abordagem oferece melhor desempe-
nho que os algoritmos tradicionais de seleção de atributos. Com base nisso, a extensão
proposta nesta dissertação utiliza a estratégia da fronteira de pareto para selecionar os me-
lhores atributos considerando medidas distintas, bem como para definir automaticamente
o melhor número de atributos.
De fato, este método traz uma extensão da abordagem proposta em (NUNES et al.,
2016), que utiliza os benefícios da seleção dinâmica de atributos para extrair as infor-
mações subjacentes dos dados e para selecionar os melhores atributos de acordo com as
características dos grupos de instâncias. Usando essas boas propriedades, neste traba-
lho, promovemos a automatização na seleção de atributos fazendo uso da abordagem da
fronteira de pareto, que fornece uma maneira de determinar automaticamente quais são
os melhores atributos para cada grupo, em termos de quantidade (quantos atributos) e
51
qualidade (quais atributos).
Enquanto a abordagem original considera medidas individuais para determinar os
melhores atributos para cada grupo de instâncias (baseado na relevância relacionada com
o atributo-classe), esta extensão usa um processo de múltiplos critérios para determinar
os atributos mais relevantes no conjunto de dados, em particular incluindo elementos
da Teoria da Informação no processo. Todo o processo do método proposto, intitulado
de seleção dinâmica baseada na fronteira de pareto (PF-DFS, do inglês Pareto Front -
Dynamic Feature Selection) , pode ser visto no Algoritmo 6.
Algorithm 6 Seleção Dinâmica baseada na Fronteira de Pareto1: procedure PF-DFS2: Dataset = (DadosV al,DadosTreino,DadosTeste)3: funcoesObjetivo = (IM,DK,CS)4: grupos← algoritmoAgrupamento(DadosV al)5: for each grupo g in grupos do6: for each atributos a in g do7: for each funcObj f in funcoesObjetivo do8: matrixObj ← f(a, target)9: end for
10: end for11: attSelecionados(g)← paretoFrontmin(matrixObj)12: if paretoFront with no solucoes nao− dominadas then13: attSelecionados(g)← TodosAtributos14: end if15: end for16: for each grupo g in grupos do17: TC(g)← Classificador(DadosTreino, attSelecionados(g))18: end for19: for each instânciaTeste t in DadosTeste do20: Escolha o grupo g mais proximo de t21: acuracia← Teste(t, TC(g))22: end for23: end procedure
Como podemos observar, o algoritmo PF-DFS pode ser dividido em três partes prin-
cipais:
1. Nas linhas 2-15 é criado o modelo de seleção de atributos: um algoritmo de agru-
pamento é aplicado ao conjunto de validação (linha 4) criando uma partição C =
c1, ..., ck com instâncias similares divididas em k grupos; após isso, cada atributo ajem um grupo específico ci tem sua relevância medida por múltiplos critérios (calcu-
lando a relevância dos atributos), resultando na matriz de objetivos (linhas 5-10);
Em seguida, é realizada uma busca por soluções não dominadas, computando a
52
fronteira de pareto baseado na matriz de objetivos (linha 11); em algumas aplica-
ções, como em qualquer otimização multiobjetivo, é possível que nenhuma solução
não-dominada seja detectada. Isso significa que não há atributos dominantes para
um grupo. Portanto, todos os atributos serão selecionados (linhas 12-15).
2. Uma vez selecionados os atributos mais importantes para cada grupo, k classifica-
dores são treinados, um para cada grupo (linhas 16-18); Para esses classificadores,
ao invés de usar todos os atributos, apenas o conjunto de atributos selecionado pelo
processo do cálculo da fronteira de pareto (todas as soluções não-dominadas) será
utilizado para cada grupo.
3. Durante a fase de teste, instâncias desconhecidas são fornecidas e, para saber qual
o conjunto de atributos mais adequado, esta instância é comparada com todos os
grupos (baseados no centroide na partição (linha 20), utilizando uma métrica de dis-
tância; Feito isso, essa instância é atribuída ao grupo mais semelhante e classificada
usando o modelo definido para esse grupo (linha 21).
Como mencionado anteriormente, existem algumas diferenças importantes entre o mé-
todo proposto neste trabalho e o método proposto em (NUNES et al., 2016). O último usa
apenas um critério para medir a importância dos atributos, enquanto o método proposto
(PF-DFS) utiliza uma avaliação multicritério, o que nos permite ter uma perspectiva
mais robusta da relevância, já que critérios distintos e complementares podem ser usa-
dos. Usando o processo de decisão pela fronteira de pareto, podemos selecionar todas
as soluções não-dominadas para representar o espaço de atributos, uma vez que todas
elas apresentam uma relevância satisfatória para pelo menos um critério. É importante
observar que o uso de todas as soluções não-dominadas provê uma maneira de definir
automaticamente o número de atributos, descartando as soluções dominadas e mantendo
apenas as soluções não-dominadas, com base em vários critérios.
Nas Figuras 4 a 8, é possível observar o fluxo de execução durante as três fases da
seleção dinâmica de atributos: validação (Figuras 4 e 5), treino (Figuras 6 e 7) e teste
(Figura 8), da abordagem de seleção dinâmica (DFS, do inglês Dynamic Feature Selection)
, proposto em (NUNES et al., 2016), em comparação ao fluxo de execução do PF-DFS,
proposto nesta dissertação. Em ambas as abordagens, o processo inicial se dá pela divisão
da base de dados em três conjuntos distintos: validação, treino e teste.
53
• Fase de Validação
Durante a fase de validação, para ambas as abordagens, DFS e PF-DFS, um algo-
ritmo de agrupamento é aplicado sobre o conjunto de validação, gerando ao final k
grupos. Nessa fase, a principal diferença entre o DFS e o PF-DFS, consiste na utili-
zação de múltiplos critérios de avaliação para selecionar os atributos mais relevantes
para cada partição. Enquanto no DFS é aplicado apenas um critério de avaliação e,
para cada grupo na partição, é gerado um ranking com os atributos mais relevantes,
no PF-DFS múltiplos critérios de avaliação são aplicados para cada grupo, gerando
ao final uma matriz de critérios que é aplicada à técnica da fronteira de pareto.
O produto final do PF-DFS nessa fase, diferentemente do DFS, são subconjuntos
de atributos relevantes com diferentes quantidades de atributos selecionados para
cada grupo de uma partição. A utilização desse mecanismo nos permite definir de
forma automática quais e quantos são os atributos mais relevantes para cada grupo,
levando em consideração diferentes grupos de instâncias.
Figura 4: Fase de Validação do DFS (NUNES et al., 2016).
54
Figura 5: Fase de Validação do PF-DFS.
• Fase de Treino
Na fase de treino, para o PF-DFS, os classificadores são treinados com a quantidade
de atributos definida pelo processo de automatização pela fronteira de pareto, o
que implica dizer que os classificadores são treinados com diferentes quantidades
de atributos. Essa característica do PF-DFS nos permite eliminar a necessidade
da definição do parâmetro relativo a quantidade de atributos a ser selecionado.
Por outro lado, para o DFS, é utilizado um número fixo de atributos, definido
previamente como parâmetro, para todos os classificadores.
Figura 6: Fase de Treino do DFS (NUNES et al., 2016).
55
Figura 7: Fase de Treino do PF-DFS.
• Fase de Teste
O procedimento de teste é igual para ambas as abordagens, DFS e PF-DFS. Para
cada instância de teste é calculada a distância entre a instância e os centroides dos
grupos da partição de validação utilizadas para o treinamento de cada classificador
construído na fase de treino. As instâncias são enviadas para o classificador cuja
distância em relação ao centroide é menor, em outras palavras, para o classificador
mais similar.
Figura 8: Fase de Teste do DFS e PF-DFS.
4.3 Considerações Finais
Neste capítulo foram apresentadas abordagens automatizadas de seleção de atributos
desenvolvidas nesta dissertação. A proposição de abordagens automatizadas representam
um avanço no campo da seleção de atributos, uma vez que ao utilizá-las é possível elimi-
nar a necessidade acerca da escolha da abordagem de seleção de atributos que se deseja
56
utilizar, no que concerne a Fusão de Dados e Fusão de Decisão, e através da Seleção
Dinâmica baseada na Fronteira de Pareto, a abordagem é capaz de definir de forma auto-
mática a quantidade e a qualidade dos atributos que devem ser selecionados, suprimindo
a necessidade da definição do parâmetro relacionado a quantidade de atributos que de-
vem ser selecionados. Para testar e validar todas as abordagens propostas foram definidas
diretrizes experimentais, descritas no próximo capítulo.
57
5 Materiais e Métodos
Este capítulo descreve uma visão geral dos materiais e métodos usados para validação
e execução das abordagens propostas: Métodos de Fusão e Seleção Dinâmica de Atributos
baseada na Fronteira de Pareto. O capítulo está dividido em algoritmos de classifica-
ção, algoritmos de agrupamento, algoritmos de redução de dimensionalidade, medidas de
avaliação, testes estatísticos, bases de dados e configuração dos experimentos.
5.1 Algoritmos de Classificação
Visando validar o desempenho das abordagens propostas usadas na análise empírica,
três algoritmos de classificação amplamente utilizados pela comunidade de Aprendizado de
Máquina foram escolhidos, Árvore de Decisão (método baseado em busca), k-NN (método
baseado em distância) e Support Vector Machine (SVM) (método baseado em otimização).
O uso de diferentes abordagens de classificação nos permite evitar resultados tendenciosos
para um método específico. Para mais detalhes dos algoritmos, é recomendado ver a Seção
2.2.1. Os classificadores foram utilizados com a configuração padrão de parâmetros.
5.2 Algoritmo de Agrupamento
Com o propósito de realizar a tarefa de agrupamento no método de seleção dinâmica
proposto (PF-DFS), assim como na versão original do DFS, decidimos usar o algoritmo
de agrupamento k-Means utilizando a distância euclidiana, descrito na Seção 2.2.2. Este
algoritmo foi selecionado com base na análise empírica realizada em (NUNES et al., 2016)
na qual obteve o melhor desempenho para o método DFS original. O parâmetro k usado
neste trabalho está relacionado ao número de classes nos conjuntos de dados analisados.
58
5.3 Algoritmos de Redução de Dimensionalidade
Nesta dissertação, algoritmos de redução de dimensionalidade encontrados na litera-
tura foram utilizados com dois propósitos distintos. Primariamente, um conjunto de al-
goritmos de seleção de atributos baseados em Informação Mútua foi escolhido, de acordo
com a abordagem dos trabalhos (NGUYEN et al., 2014) e (BROWN, 2009), para compor
os seletores utilizados na análise dos métodos de fusão descritos na Seção 4.1 do Capí-
tulo 4. Abaixo é possível encontrar uma breve descrição acerca dos funcionamento desses
algoritmos (mais detalhes podem ser encontrados nas referências citadas).
• Quadratic programming feature selection (QPFS) (RODRIGUEZ-LUJAN et al., 2010):
o algoritmo QPFS seleciona atributos reduzindo a tarefa de seleção para um pro-
blema de otimização quadrática, usando o método de Nystrom para aproximação
da diagonalização de matriz, o que dá a este método a capacidade de lidar com
conjuntos de dados grandes. Essa solução representa uma maneira mais rápida de
selecionar atributos, quando comparada a outros métodos de seleção de atributos
baseados em informação mútua.
• Spectral Relaxation Global Conditional Mutual Information (SPEC_CMI) (NGUYEN
et al., 2014): este algoritmo implementa uma abordagem sistemática para o problema
global de atributos baseada em informação mútua (MI) via técnicas de relaxamento
espectral. Essa abordagem trata de problemas comumente enfrentados por outros
algoritmos gulosos, como ’auto-redundância’ e, portanto, não leva a soluções sub-
ótimas.
• Maximum Relevance Minimum Total Redundancy (MRMTR) (PENG; LONG; DING,
2005): o algoritmo MRMTR seleciona atributos usando heurísticas de redundân-
cia mínima e relevância máxima. A função critério representada por um problema
multiobjetivo, tem como objetivo selecionar um conjunto de atributos que, conjun-
tamente, tenham maior relevância em relação ao atributo-classe e, ao mesmo tempo,
tenham menos redundância entre elas.
• Conditional Mutual Information Maximization (CMIM) (FLEURET, 2004): o algo-
ritmo CMIM é baseado em informação mútua condicional, que mede a quantidade
de informação mútua entre duas variáveis em relação a uma terceira. O algoritmo
funciona escolhendo atributos que maximizam a informação mútua dos atributos
selecionados com a classe para prever condicionalmente qualquer atributo já seleci-
59
onado, garantindo que a seleção de atributos seja tanto informativa, quanto fraca-
mente dependente.
• Mutual Information Feature Selection (MIFS) (BATTITI, 1994): o algoritmo MIFS
é baseado na seleção gulosa de atributos e considera a informação mútua, tanto em
relação a classe, quanto com relação aos atributos já selecionados. Dado um conjunto
de atributos, o algoritmo escolhe como próximo atributo aquele que maximiza as
informações sobre as classes. Ou seja, um atributo deve ser informativo sobre a
classe sem ser previsível a partir do conjunto atual de atributos.
Mesmo que todos os cinco algoritmos usem a mesma medida, cada um deles tenta
atingir objetivos diferentes. Eles fazem uso das mesmas informações sobre os dados para
responder perguntas diferentes, o que nos leva a ter mais diversidade em nosso experimento
acerca dos métodos de fusão.
Em segundo lugar, com o objetivo de comparar o desempenho do métodos propostos
com outras abordagens, selecionamos três algoritmos de redução de dimensionalidade
encontrados na literatura:
• Seleção Dinâmica de Atributos (DFS): O método DFS é uma abordagem que utiliza
algoritmos de agrupamento para determinar a relevância dos atributos para cada
grupo (NUNES et al., 2016).
• Principal Component Analysis (PCA): A técnica PCA têm sido utilizada para iden-
tificação de variáveis não correlacionadas. Os atributos obtidos são conhecidos como
componentes principais que são extraídos a partir dos conjuntos dados. (JOLLIFFE,
1986). Para mais detalhes, ver a Seção 2.1.
• Seleção Randômica: Esse método é responsável por selecionar randomicamente um
subconjunto de atributos dado um conjunto de dados. Nessa técnica, cada atributo
tem a mesma probabilidade de ser selecionado.
Na análise dos métodos de fusão, primeira vertente, a comparação é realizada en-
tre os métodos de fusão (fusão de dados e fusão de decisão), PCA, Seleção Randômica
(RANDOM) e o conjunto original de dados (No-FS).
Por outro lado, na análise de desempenho do PF-DFS, segunda vertente, a comparação
é feita entre diferentes versões do PF-DFS, o método originalmente proposto (DFS), PCA,
Seleção Randômica (RANDOM) e o conjunto original de dados (No-FS).
60
Ambos os métodos propostos são comparados com o desempenho dos conjuntos de
dados sem seleção de atributos (No-FS), com o propósito de verificar se esses são capazes
de superar o desempenho dos conjuntos originais de dados analisados.
5.4 Medidas de Avaliação
Como descrito na Seção 4.2, o processo de definir automaticamente o parâmetro re-
lacionado a quantidade de atributos é feito através do uso de uma técnica comumente
utilizada na otimização multiobjetivo, método de decisão fronteira de pareto.
Neste trabalho, nós selecionamos três medidas avaliação: Informação Mútua (MI), Di-
vergência de Kullback-Leibler (KD) e Correlação de Spearman (SC). Essas medidas foram
escolhidas por serem aptas a avaliar diferentes relações entre os atributos de conjuntos de
dados de classificação. Detalhes acerca de cada medida foram fornecidas na Seção 2.3.
Após realizar o cálculo da Fronteira de Pareto, nós procuramos por soluções não-
dominadas. Em outras palavras, atributos cujo critérios não podem ser melhorados em
relação a nenhum critério sem piorar, pelo menos, algum outro critério definido nos atri-
butos das soluções não-dominadas.
5.5 Testes Estatísticos
Visando comparar a efetividade dos métodos propostos, diferentes testes estatísti-
cos foram aplicados. Uma vez que diferentes abordagens são comparadas em termos de
classificação, tanto para análise dos métodos de fusão, como para análise do PF-DFS,
foram aplicados dois testes estatísticos não-paramétricos: Teste de Friedman (FRIEDMAN,
1937) e o teste post-hoc Wilcoxon Rank-Sum (GIBBONS; CHAKRABORTI, 2003), descritos
na Seção 2.5. Ambos os testes foram utilizados com um nível de confiança de 95% (α =
0.05).
5.6 Bases de Dados
Nos nossos experimentos foram utilizadas 20 bases de dados de diferentes domínios
de aplicação (real e artificial), tais como bioinformática, dados de texto, imagem facial,
imagens de assinatura e processamento de sinais. Procuramos cobrir tamanhos diferentes
em termos de número de instâncias, atributos e classes para analisar o comportamento
61
dos métodos propostos em diferentes contextos. As bases foram coletadas em cinco repo-
Tabela 4: Resultados dos Testes Estatísticos da Análise Comparativa dos Métodos deFusão. 1 - Fusão de Decisão, 2 - Fusão de Dados, 3 - PCA, 4 - RANDOM e 5 - No-FS
A partir da Tabela 4, podemos observar que o desempenho de todos os cinco métodos
são diferentes, do ponto de vista estatístico, em todas as 20 bases de dados (p-values <
0.05). Por meio teste post-hoc, podemos afirmar que a Fusão de Decisão obteve desem-
71
penho superior (células sombreadas), do ponto de vista estatístico, em 16 bases de dados,
quando comparado a Fusão de Dados, em 14 bases de dados, quando comparado ao PCA
e a No-FS, e em 19 bases de dados, quando comparado ao RANDOM.
Os resultados obtidos após a aplicação dos testes estatísticos asseguram a ideia de que
a utilização da estrutura de comitês de classificadores como modo de fusão a posteriori,
produz resultados superiores a utilização da fusão de dados (fusão a priori), além de su-
perar algoritmos de redução individuais (PCA e RANDOM) e o desempenho do conjunto
de dados original (No-FS).
6.2 Análise dos Métodos de Seleção Dinâmica
Esta análise experimental é dividida em cinco partes, onde a primeira visa investigar
o impacto do uso de medidas da Teoria da Informação no método de seleção dinâmica
de atributos (DFS) como critério de avaliação. O método de seleção dinâmica, original-
mente proposto em (NUNES et al., 2016), foi explorado por meio da variação do critério
de avaliação utilizado para calcular a relevância dos atributos. Por meio da análise re-
alizada, foi possível identificar que o uso da Informação Mútua, ao invés da Correlação
de Spearman, foi capaz de capturar com mais eficiência a relevância dos atributos. A
partir dos resultados obtidos na investigação acerca dos critérios de avaliação no DFS,
a segunda análise tem como objetivo analisar o impacto do particionamento dos dados
na seleção dinâmica de atributos. Dessa forma, visando uma análise robusta para análise
do particionamento dos dados, utilizaremos o método de seleção dinâmica com critério
de avaliação baseado em Informação Mútua (DFS-M). A terceira análise avalia o uso de
diferentes critérios no processo de automatização pela fronteira de pareto do método de
seleção dinâmica proposto nesta dissertação (PF-DFS). As últimas duas análises são de
natureza comparativa, onde a primeira visa comparar o desempenho do método proposto,
PF-DFS, com o algoritmo original (DFS). Por fim, a segunda análise comparativa visa
comparar o desempenho do PF-DFS com algoritmos de redução conhecidos, bem como
com o conjunto original de dados (sem seleção de atributos). O principal objetivo dessa
análise é verificar o desempenho do método proposto, em comparação com a aplicação, ou
ausência, de métodos tradicionais de seleção de atributos. Os resultados descritos nessa
seção são representados pela acurácia média e desvio padrão obtidos levando em consi-
deração todos os três algoritmos de classificação (Árvore de Decisão, SVM e k-NN), para
todas as 10 execuções do método de validação cruzada com 10-folds.
72
6.2.1 Análise de Diferentes Medidas na Seleção Dinâmica de Atri-butos
Como mencionado anteriormente, essa análise visa definir qual a melhor medida de
avaliação a ser usada no DFS. Sendo assim, três medidas serão usadas nessa análise,
sendo elas: Informação Mútua (M), Divergência de Kullback-Leibler (K) e Correlação
de Spearman (S). As primeiras duas medidas são baseadas em elementos da Teoria da
Informação, e a última representa a medida originalmente utilizada no DFS, proposto em
(NUNES et al., 2016). A Tabela 5 apresenta os resultados de acurácia média paras três
versões do DFS exploradas. Novamente, as células sombreadas com números em negrito
na Tabela 5 representam o melhor desempenho (maior acurácia), para cada base de dados.
Tabela 14: Resultado dos Testes Estatísticos usando diferentes Algoritmos de Reduçãode Dimensionalidade. 1 - PF-DFS(MKS), 2 - PCA(MED), 3 - PCA(MAX), 4 - RAN-DOM(MED), 5 - RANDOM(MAX), 6 - No-FS
inferior em 6 conjuntos de dados.
Baseado nos resultados obtidos nas Tabelas 13 e 14, podemos afirmar que o método
proposto mostrou desempenho competitivo, tendo desempenho geral superior ao PCA, o
conjunto de dados original e seleção randômica.
84
7 Considerações finais
Este capítulo apresenta as considerações finais deste trabalho. Na Seção 7.1 é elucidada
as conclusões obtidas a partir da proposição dos métodos de automação da seleção de
atributos e dos resultados obtidos nas análises e por fim, são apresentados os trabalhos
futuros na Seção 7.2.
7.1 Conclusões
Em métodos de seleção de atributos, alguns dos maiores desafios são a definição do
algoritmo a ser utilizado, bem como a definição da quantidade de atributos a ser sele-
cionada. Em métodos de seleção de atributos baseados em filtro, mais especificamente,
também há o desafio de definir qual o critério a ser usado para ranquear os atributos anali-
sados. No estudo realizado nesta dissertação, nós abordamos ambos os desafios através da
proposta de abordagens baseadas em Teoria da Informação para seleção automatizada de
atributos, utilizando estratégias de ranking (Fusão de Dados) e comitês de classificadores
(Fusão de Decisão) para suavizar o problema de escolha de seletores por meio da combi-
nação de múltiplos algoritmos de seleção de atributos, e aplicando o processo de decisão
por meio da fronteira de pareto na seleção de atributos. Os métodos propostos atenuam
os problemas acima citados e, uma das abordagens (PF-DFS), fornecem uma maneira
dinâmica de selecionar os atributos mais adequados para uma instância desconhecida.
A fim de avaliar a viabilidade dos métodos propostos, uma análise empírica foi con-
duzida. Nestas análises, foram aplicados três classificadores diferentes para receber os
subconjuntos de atributos selecionados pelos métodos propostos. Para os métodos de
fusão, foi realizada a análise individual de cada classificador, para 10 bases de dados,
e para fins de comparação nós aplicamos o PCA e o conjunto original de dados (sem
seleção de atributos). Adicionalmente, para o método PF-DFS nós aplicamos todas as
possíveis combinações de três medidas de avaliação (Informação Mútua, Divergência de
Kullback-Leibler e Correlação de Spearman. Nesse estudo, nós analisamos o desempenho
85
do PF-DFS utilizando as três medidas de avaliação. Para fins de comparação, o desempe-
nho do PF-DFS também foi comparado ao método original, DFS, bem como com outros
métodos de redução de dimensionalidade, como PCA, Seleção Randômica e o conjunto de
dados original (sem seleção de atributos).
Através dessas análises, para os métodos de fusão (fusão de decisão e fusão de dados),
pudemos constatar que o método de fusão de decisão é o melhor método de combinação
de múltiplos algoritmos de seleção de atributos, quando comparado a fusão de dados e ao
PCA, provendo desempenho superior para a maioria dos conjuntos de dados. Adicional-
mente, a fusão de decisão também pode melhorar o desempenho, quando comparado aos
conjuntos de dados (sem seleção de atributos), para maioria dos dados.
Para o método de seleção dinâmica baseado na fronteira de pareto, pudemos ob-
servar que o uso da combinação das medidas MKS causou o maior aprimoramento no
desempenho do método proposto, PF-DFS. Quando comparado ao método DFS original,
o desempenho do método proposto (PF-DFS) é notavelmente superior ao DFS. Tam-
bém podemos afimar que o PF-DFS proposto obteve resultados competitivos, desde que
superou o desempenho da maioria dos métodos de seleção de atributos na análise com-
parativa. Os resultados fornecidos neste trabalho são bastante promissores, desde que o
método proposto (PF-DFS) alcançou desempenho superior quando comparado a métodos
de redução consagrados. Adicionalmente, o uso do PF-DFS obteve desempenho superior
a utilização do conjunto original de dados, demonstrando que a redução de ruídos e/ou
atributos redundantes pode ter efeito positivo no desempenho de tarefas de classificação.
Nos estudos realizados nesta dissertação, nós abordamos alguns desafios da seleção
de atributos: a definição do algoritmo de seleção a ser utilizado, independentemente do
contexto; a quantidade de atributos que deve ser selecionado; e por fim, a escolha dos
critérios que devem ser usados para medir a relevância dos atributos. Para atacar o pri-
meiro desafio, propusemos os métodos de fusão (Fusão de Decisão e Fusão de Dados),
que foram capazes de eliminar a necessidade de escolha de um algoritmo de seleção de
atributos através das combinações a priori e a posteriori dos seletores, através de resul-
tados competitivos. E para os últimos dois desafios, o PF-DFS foi capaz de promover
um meio automatizado de definir automaticamente a quantidade dos atributos a serem
selecionados, além de eliminar a necessidade de escolha de um só critério para avaliação
dos atributos por meio da técnica da fronteira de pareto. As abordagens propostas nesta
dissertação contribuem diretamente para o avanço dos estudos no campo da redução de
dimensionalidade.
86
7.2 Trabalhos Futuros
Como trabalhos futuros, para as abordagens de fusão, nós pretendemos (1) utilizar
comitês de classificadores heterogêneos, para fusão de decisão, e para a fusão de dados,
a (2) utilização de outras medidas de agregação de ranking, bem como a (3) investigação
acerca de diferentes taxas de seleção de atributos e seu impacto na seleção do subconjunto
final de atributos.
Para o PF-DFS, pretendemos: (1) investigar o uso de outras medidas de avaliação na
fronteira de pareto; (2) analisar o uso de outras configurações na estratégia de validação
que permitam uma maior cobertura das instâncias utilizadas na fase de validação; (3) bem
como avaliar a estabilidade da seleção de atributos (CATENI; COLLA, 2016) no contexto
de seleção dinâmica de atributos, nesse sentido, melhorando a qualidade dos resultados
produzidos pelo PF-DFS.
87
Referências
ARAÚJO, D. et al. A combination method for reducing dimensionality in large datasets.In: VILLA, A. E.; MASULLI, P.; RIVERO, A. J. P. (Ed.). Artificial Neural Networksand Machine Learning – ICANN 2016. Cham: Springer International Publishing, 2016.p. 388–397. ISBN 978-3-319-44781-0.
BACKER, E.; JAIN, A. K. A clustering performance measure based on fuzzy setdecomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE,n. 1, p. 66–75, 1981.
BATTITI, R. Using mutual information for selecting features in supervised neural netlearning. Trans. Neur. Netw., IEEE Press, Piscataway, NJ, USA, v. 5, n. 4, p. 537–550,jul. 1994. ISSN 1045-9227. Disponível em: <http://dx.doi.org/10.1109/72.298224>.
BIHL, T. J.; TEMPLE, M. A.; BAUER, K. W. Feature selection fusion (fsf) foraggregating relevance ranking information with application to zigbee radio frequencydevice identification. In: 2016 IEEE National Aerospace and Electronics Conference(NAECON) and Ohio Innovation Summit (OIS). [S.l.: s.n.], 2016. p. 80–87. ISSN2379-2027.
BROWN, G. A new perspective for information theoretic feature selection. In:DYK, D. V.; WELLING, M. (Ed.). Proceedings of the Twelfth InternationalConference on Artificial Intelligence and Statistics (AISTATS-09). Journal ofMachine Learning Research - Proceedings Track, 2009. v. 5, p. 49–56. Disponível em:<http://jmlr.csail.mit.edu/proceedings/papers/v5/brown09a/brown09a.pdf>.
BROWN, G. et al. Conditional likelihood maximisation: A unifying fra-mework for information theoretic feature selection. J. Mach. Learn. Res.,JMLR.org, v. 13, p. 27–66, jan. 2012. ISSN 1532-4435. Disponível em:<http://dl.acm.org/citation.cfm?id=2188385.2188387>.
CATENI, S.; COLLA, V. Improving the stability of wrapper variable selection appliedto binary classification. v. 8, p. 214–225, 03 2016.
CHANDRASHEKAR, G.; SAHIN, F. A survey on feature selection methods. Computers& Electrical Engineering, Elsevier, v. 40, n. 1, p. 16–28, 2014.
CHEN, F.-L.; LI, F.-C. Combination of feature selection approaches with svm in creditscoring. Expert systems with applications, Elsevier, v. 37, n. 7, p. 4902–4909, 2010.
DANTAS, C. A.; NUNES, R. d. O.; XAVIER, A. M. P. C. e. J. C. Investigating theimpact of similarity metrics in an unsupervised-based feature selection method. In: 2017Brazilian Conference on Intelligent Systems (BRACIS). [S.l.: s.n.], 2017. p. 55–60.
88
DEB, K. Multi-objective optimization. In: Search methodologies. [S.l.]: Springer, 2014. p.403–449.
DHEERU, D.; TANISKIDOU, E. K. UCI Machine Learning Repository. 2017. Disponívelem: <http://archive.ics.uci.edu/ml>.
DIETTERICH, T. G. Approximate statistical tests for comparing supervisedclassification learning algorithms. Neural computation, MIT Press, v. 10, n. 7, p.1895–1923, 1998.
FACELI, K.; LORENA, A.; CARVALHO, A. Inteligência Artificial: Uma Abordagem deAprendizado de Máquina. [S.l.]: Grupo Gen - LTC, 2000. ISBN 9788521620150.
FLEURET, F. Fast binary feature selection with conditional mutual information. J.Mach. Learn. Res., JMLR.org, v. 5, p. 1531–1555, dez. 2004. ISSN 1532-4435. Disponívelem: <http://dl.acm.org/citation.cfm?id=1005332.1044711>.
FONSECA, C. M.; FLEMING, P. J. An overview of evolutionary algorithms inmultiobjective optimization. Evolutionary computation, MIT Press, v. 3, n. 1, p. 1–16,1995.
FRIEDMAN, M. The Use of Ranks to Avoid the Assumption of Normality Implicit inthe Analysis of Variance. Journal of the American Statistical Association, AmericanStatistical Association, v. 32, n. 200, p. 675–701, dez. 1937. ISSN 01621459.
GIBBONS, J.; CHAKRABORTI, S. Nonparametric Statistical Inference. [S.l.]:Marcel Dekker Incorporated, 2003. (Statistics, textbooks and monographs). ISBN9780824755225.
GORDON, G. J. et al. Translation of microarray data into clinically relevant cancerdiagnostic tests using gene expression ratios in lung cancer and mesothelioma. CancerRes, v. 62, p. 4963–4967, 2002.
GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. J. Mach.Learn. Res., JMLR.org, v. 3, p. 1157–1182, mar. 2003. ISSN 1532-4435.
HANSEN, P.; JAUMARD, B. Cluster analysis and mathematical programming.Mathematical programming, Springer, v. 79, n. 1-3, p. 191–215, 1997.
HIRA, Z. M.; GILLIES, D. F. A review of feature selection and feature extractionmethods applied on microarray data. Advances in bioinformatics, Hindawi, v. 2015, 2015.
HONG, Y. et al. Unsupervised feature selection using clustering ensembles andpopulation based incremental learning algorithm. Pattern Recognition, Elsevier, v. 41,n. 9, p. 2742–2756, 2008.
JAFFEL, Z.; FARAH, M. A symbiotic organisms search algorithm for feature selectionin satellite image classification. In: IEEE. Advanced Technologies for Signal and ImageProcessing (ATSIP), 2018 4th International Conference on. [S.l.], 2018. p. 1–5.
89
JAIN, A.; ZONGKER, D. Feature selection: evaluation, application, and small sampleperformance. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 19,n. 2, p. 153–158, Feb 1997. ISSN 0162-8828.
JAIN, A. K.; DUBES, R. C. Algorithms for Clustering Data. Upper Saddle River, NJ,USA: Prentice-Hall, Inc., 1988. ISBN 0-13-022278-X.
JANECEK, A. et al. On the relationship between feature selection and classifi-cation accuracy. In: . -: [s.n.], 2008. v. 91-106, n. 4, p. 90–105. Disponível em:<http://eprints.cs.univie.ac.at/378/>.
JESUS, J.; ARAÚJO, D.; CANUTO, A. Fusion approaches of feature selectionalgorithms for classification problems. In: 2016 5th Brazilian Conference on IntelligentSystems (BRACIS). [S.l.: s.n.], 2016. p. 379–384.
JESUS, J.; CANUTO, A.; ARAÚJO, D. Estudo sobre o impacto do particionamento dosdados na seleção dinâmica de atributos. Proceedings of ENIAC, p. 10, oct 2017.
JESUS, J.; CANUTO, A.; ARAÚJO, D. Dynamic feature selection based on pareto frontoptimization. In: 2018 International Joint Conference on Neural Networks (IJCNN).[S.l.: s.n.], 2018.
JESUS, J. K. L.; CANUTO, A. M. P.; ARAÚJO, D. S. A. A feature selection approachbased on information theory for classification tasks. In: 2017 ICANN. [S.l.: s.n.], 2017.
JIANG, S.-y.; WANG, L.-x. Efficient feature selection based on correlation measurebetween continuous and discrete features. Inf. Process. Lett., Elsevier North-Holland,Inc., Amsterdam, The Netherlands, The Netherlands, v. 116, n. 2, p. 203–215, fev. 2016.ISSN 0020-0190. Disponível em: <https://doi.org/10.1016/j.ipl.2015.07.005>.
JOLLIFFE, I. T. Principal Component Analysis. Berlin; New York: Springer-Verlag,1986.
KANUNGO, T. et al. An efficient k-means clustering algorithm: Analysis andimplementation. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer Society,Washington, DC, USA, v. 24, n. 7, p. 881–892, jul. 2002. ISSN 0162-8828. Disponívelem: <http://dx.doi.org/10.1109/TPAMI.2002.1017616>.
KOHAVI, R.; QUINLAN, J. R. Handbook of data mining and knowledge disco-very. In: KLöSGEN, W.; ZYTKOW, J. M. (Ed.). New York, NY, USA: OxfordUniversity Press, Inc., 2002. cap. Data Mining Tasks and Methods: Classifica-tion: Decision-tree Discovery, p. 267–276. ISBN 0-19-511831-6. Disponível em:<http://dl.acm.org/citation.cfm?id=778212.778254>.
KOTSIANTIS, S. B.; ZAHARAKIS, I.; PINTELAS, P. Supervised machine learning:A review of classification techniques. Emerging artificial intelligence applications incomputer engineering, v. 160, p. 3–24, 2007.
KULLBACK, S.; LEIBLER, R. A. On information and sufficiency. Ann. Math. Statist.,The Institute of Mathematical Statistics, v. 22, n. 1, p. 79–86, 03 1951.
KUNCHEVA, L. Combining Pattern Classifiers: Methods and Algorithms. New York:Wiley, 2004. 376 p.
90
KUNCHEVA, L. Ludmila k. collection lkc. 2004.
LI, J. et al. Feature selection: A data perspective. arXiv:1601.07996, 2016.
LI, J.; LIU, H. Challenges of feature selection for big data analytics. IEEE IntelligentSystems, v. 32, n. 2, p. 9–15, Mar 2017. ISSN 1541-1672.
LIKAS, A.; VLASSIS, N.; VERBEEK, J. J. The global k-means clustering algorithm.Pattern recognition, Elsevier, v. 36, n. 2, p. 451–461, 2003.
LIU, H.; MOTODA, H. Computational Methods of Feature Selection. [S.l.]: Chapman &Hall/CRC, 2007. ISBN 1584888784.
MARLER, R.; ARORA, J. Survey of multi-objective optimization methods forengineering. Structural and Multidisciplinary Optimization, v. 26, n. 6, p. 369–395, Apr2004. ISSN 1615-1488.
MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw-Hill, Inc.,1997. ISBN 0070428077, 9780070428072.
NGUYEN, X. V. et al. Effective global approaches for mutual informationbased feature selection. In: Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. New York, NY, USA:ACM, 2014. (KDD ’14), p. 512–521. ISBN 978-1-4503-2956-9. Disponível em:<http://doi.acm.org/10.1145/2623330.2623611>.
NOVAKOVIĆ, J. Toward optimal feature selection using ranking methods andclassification algorithms. Yugoslav Journal of Operations Research, v. 21, n. 1, 2016.
NUNES, R. d. O. et al. An unsupervised-based dynamic feature selection for classificationtasks. In: 2016 IJCNN. [S.l.: s.n.], 2016. p. 4213–4220.
NUNES, R. d. O.; DANTAS, C. A.; XAVIER, A. M. P. C. e. J. C. Dynamic featureselection for classifier ensembles. Accepted in Brazilian Conference on Intelligent Systems,2018.
PENG, H.; LONG, F.; DING, C. Feature selection based on mutual informa-tion: Criteria of max-dependency, max-relevance, and min-redundancy. IEEETrans. Pattern Anal. Mach. Intell., IEEE Computer Society, Washington, DC,USA, v. 27, n. 8, p. 1226–1238, ago. 2005. ISSN 0162-8828. Disponível em:<http://dx.doi.org/10.1109/TPAMI.2005.159>.
PEREZ, M. A. F. Um método heurístico para o problema de escalonamento multiobjetivoem vários ambientes de máquinas. Dissertao (Mestrado) — PUC-RIO, 2012.
PRATI, R. C. Combining feature ranking algorithms through rank aggregation.In: The 2012 International Joint Conference on Neural Networks (IJCNN),Brisbane, Australia, June 10-15, 2012. [s.n.], 2012. p. 1–8. Disponível em:<http://dx.doi.org/10.1109/IJCNN.2012.6252467>.
RODRIGUEZ-LUJAN, I. et al. Quadratic programming feature selection. J. Mach.Learn. Res., JMLR.org, v. 11, p. 1491–1516, ago. 2010. ISSN 1532-4435. Disponível em:<http://dl.acm.org/citation.cfm?id=1756006.1859900>.
91
ROGATI, M.; YANG, Y. High-performing feature selection for text classification. In:Proceedings of the 11th CIKM. New York, NY, USA: ACM, 2002. (CIKM ’02), p. 659–661.ISBN 1-58113-492-4. Disponível em: <http://doi.acm.org/10.1145/584792.584911>.
SAEYS, Y.; ABEEL, T.; PEER, Y. Van de. Robust feature selection using ensemblefeature selection techniques. In: SPRINGER. Joint European Conference on MachineLearning and Knowledge Discovery in Databases. [S.l.], 2008. p. 313–325.
SEVILLE, B. G. BIGS BioInformatics Research Group of Seville Repository. 2004.
SHANNON, C. E. A mathematical theory of communication. Bell system technicaljournal, v. 27, 1948.
SHEN, Q.; DIAO, R.; SU, P. Feature selection ensemble. In: VORONKOV, A. (Ed.).Turing-100. The Alan Turing Centenary. [S.l.]: EasyChair, 2012. (EPiC Series inComputing, v. 10), p. 289–306. ISSN 2040-557X.
TANG, J.; ALELYANI, S.; LIU, H. Feature selection for classification: A review. Dataclassification: Algorithms and applications, CRC Press, p. 37, 2014.
TRAWIŃSKI, B. et al. Nonparametric statistical analysis for multiple comparison ofmachine learning regression algorithms. International Journal of Applied Mathematicsand Computer Science, Versita, v. 22, n. 4, p. 867–881, 2012.
VANSCHOREN, J. et al. Openml: Networked science in machine learning. SIGKDDExplorations, ACM, New York, NY, USA, v. 15, n. 2, p. 49–60, 2013. Disponível em:<http://doi.acm.org/10.1145/2641190.2641198>.
XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neuralnetworks, Ieee, v. 16, n. 3, p. 645–678, 2005.
XUE, B. et al. A survey on evolutionary computation approaches to feature selection.IEEE Transactions on Evolutionary Computation, IEEE, v. 20, n. 4, p. 606–626, 2016.
YIJING, L. et al. Adapted ensemble classification algorithm based on multiple classifiersystem and feature selection for classifying multi-class imbalanced data. Knowledge-BasedSystems, Elsevier, v. 94, p. 88–104, 2016.
ZHANG, Y.; GONG, D.-w.; CHENG, J. Multi-objective particle swarm optimizationapproach for cost-based feature selection in classification. IEEE/ACM Transactions onComputational Biology and Bioinformatics (TCBB), IEEE Computer Society Press,v. 14, n. 1, p. 64–75, 2017.
92
A Resultados Individuais - Métodosde Fusão
Resultados da acurácia média por classificador (Árvore de Decisão, k-NN e SVM) da
análise dos métodos de fusão.
Árvore de DecisãoMétodo FusãoDec FusãoDad PCA RANDOM No-FSMétricas Acc±Std Acc±Std Acc±Std Acc±Std Acc±Std