MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Rodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. Scarpel
Semana ConteúdoIntrodução aos métodos multivariadosAnálise de componentes principais
2 Aplicações de análise de componentes principais3 Princípios de análise fatorial exploratória4 Análise fatorial exploratória e aplicações5 Métodos de visualização de dados e escalonamento multidimensional6 Análise de agrupamentos: métodos hierárquicos7 Análise de agrupamentos: métodos não-hierarquicos8 Prova
9Análise de agrupamentos: método da mistura (baseados em densidade).Métodos avançados de formação de agrupamentos.Introdução aos modelos de classificaçãoMétodos de detecção de iterações
Métodos de classificação baseados em programação matemáticaSupport Vector MachineMétodos de avaliação da performance de modelos de classificaçãoMistura de especialistas
16 Prova
15
1
10
14
INTRODUÇÃO
CLASS-CONDITIONAL DENSITIES
CONHECIDA DESCONHECIDA
TEORIA BAYESIANA DE
DECISÃO
APRENDIZAGEM SUPERVISIONADA
PARAMÉTRICOS NÃO PARAMÉTRICOS
ANÁLISE DISCRIMINANTE:
-LINEAR
-QUADRÁTICA
ESTIM. DENSIDADE: KERNELS, KNN
CONSTR. FRONTEIRA DECISÃO:
RNEURAIS, SVM, AID,…
• Métodos de classificação :
MODELOS DE CLASSIFICAÇÃO
INTRODUÇÃO
• Métodos de classificação - tendências :
– Modelos dinâmicos
Leitura do artigo: Sequential Dynamic Classificatio n Using Latent
Variable Models (S.M. Lee and S.J. Roberts)
– Combinação de abordagens (ex: AID + SVM)
Leitura do artigo: Global Tree Optimization: A Non- greedy Decision
Tree Algorithm (Kristin P. Bennett)
– MLEM e outras formas de combinação de modelos (lidar com
populações heterogêneas)
Leitura dos artigos: Combination of multiple classi fiers for the
customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)
MODELOS DE CLASSIFICAÇÃO
PROCESSO DE DM / KDD / ...
• Métodos Multivariados :
Problemspecification
Data Prospecting
Methodologyidentification
Data preprocessing
Building themodel
Knowledgepostprocessing
METODOLOGIAS
CRISP-DM (Cross Industry Standard
Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
Conjuntos: Treinamento, Teste e Validação
SEMMA: SAMPLE
Better Fitting:Training Set Test SetTraining Set Test Set
Training Set Test SetTraining Set Test Set
Overfitting:
SEMMA: SAMPLE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
Fatores que degradam a qualidade dos dados:
• Dados com erro : respostas falsas, erros na tabulaçãodas respostas,…
• Outliers : observações que aparentemente sãoinconsistentes quando comparadas às outrasobservações.
• Dados faltantes (missing values)
SEMMA: EXPLORE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
DETECÇÃO (ELIMINAÇÃO) DE OUTLIERS
Origem: dados com erro ou observação pertencente a outra população.
Critério: O critério para a definição de outliers variamuito conforme os autores. De maneira geral, considera-se outlier uma medida acima ouabaixo de 2,5 desvios-padrão da média.
Forma de detecção: estatísticas de sumarização, histogramas, distância de Mahalanobis.
SEMMA: EXPLORE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
DADOS FALTANTES (MISSING VALUES)
Importante: descobrir como e porque os missing values estão presentes.
• Missing values é zero (não ocorreu) ou é falta de informação (não sei se ocorreu)?
• Deve-se tomar cuidado no tratamento dos missing values.
• Tratar? Eliminar a variável? Eliminar a observação?
SEMMA: EXPLORE
TRATAMENTO DOS MISSING VALUES
A forma de tratamento dos missing values depende de quantos dados estão faltando (percentual de missing values ) e de sua distribuição . Alternativas de tratamento:
• Omitir as observações com missing values: essa alternativa é aceitável em algumas ciscunstâncias (quando o percentual de missing values é baixo e concentrado em algumas variáveis ou observações).
?
?? ?
??
??
observações
variáveis
Apenas 8 dos 144 valoressão missing (5,55%), porém apenas 5 observações seriamutilizadas.
SEMMA: EXPLORE
TRATAMENTO DOS MISSING VALUES
Métodos utilizados para imputar valores:
• Substituir pela média : é o método mais utilizado (pela suasimplicidade).
• Método analítico : por esse método atribui-se um valor emfunção da relação entre a variável com missing value e as outas variáveis, cujos valores são conhecidos (porregressão, por árvore de decisão).
SEMMA: EXPLORE
SEMMA: MODIFY and MODEL
MODIFY: Eliminar redundância, reduzir dimensão
MODEL: Métodos de dependência, métodos de interdependência
Etapa de avaliação dos modelos (ASSESS):
– Matriz de confusão (Eficiência Global, Kappa, …)
– Estatística KS (Kolmogorov-Smirnov)
– ROC chart (Receiver Operating Characteristic)
– Percentual de resposta
Esses métodos são utilizados não apenas para selecionar
modelos como também para gerenciar a política de sua
utilização.
SEMMA: ASSESS
92,37,1-
7,792,9+DE
-+
PARATREINO
92,2%7,6%-
7,8%92,4%+DE
-+
PARAVALIDAÇÃO
EFICIÊNCIA GLOBAL = 92,6%
PONTO DE CORTE = 0,5
EFICIÊNCIA GLOBAL = 92,3%
PONTO DE CORTE = 0,5
ASSESS: MATRIZ DE CONFUSÃO
Acerto global = (X11+X22+…+Xcc)/N
Kappa = (P0 – Pc) / (1-Pc)
em que Pc é a taxa de acerto aleatória
ASSESS: KOLMOGOROV-SMIRNOV
ANÁLISE KS
0,0%
30,0%
46,6%
56,3%
63,9%
71,6%74,6%
78,0%80,6%
83,1%84,7%
86,9%89,1% 90,5% 91,7%
94,0% 94,8% 95,4%97,0% 98,2%
100,0%
0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%
11,3%13,5%
16,9%
20,6%23,8%
26,4%
30,8%
35,3%
38,9%
46,0%
53,2%
64,9%
100,0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,00
- 0
,00
0,00
- 0
,05
0,05
- 0
,10
0,10
- 0
,15
0,15
- 0
,20
0,20
- 0
,25
0,25
- 0
,30
0,30
- 0
,35
0,35
- 0
,40
0,40
- 0
,45
0,45
- 0
,50
0,50
- 0
,55
0,55
- 0
,60
0,60
- 0
,65
0,65
- 0
,70
0,70
- 0
,75
0,75
- 0
,80
0,80
- 0
,85
0,85
- 0
,90
0,90
- 0
,95
0,95
- 1
,00
FAIXAS DE SCORE
% 0,69
ANÁLISE KS
0,0%
30,0%
46,6%
56,3%
63,9%
71,6%74,6%
78,0%80,6%
83,1%84,7%
86,9%89,1% 90,5% 91,7%
94,0% 94,8% 95,4%97,0% 98,2%
100,0%
0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%
11,3%13,5%
16,9%
20,6%23,8%
26,4%
30,8%
35,3%
38,9%
46,0%
53,2%
64,9%
100,0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,00
- 0
,00
0,00
- 0
,05
0,05
- 0
,10
0,10
- 0
,15
0,15
- 0
,20
0,20
- 0
,25
0,25
- 0
,30
0,30
- 0
,35
0,35
- 0
,40
0,40
- 0
,45
0,45
- 0
,50
0,50
- 0
,55
0,55
- 0
,60
0,60
- 0
,65
0,65
- 0
,70
0,70
- 0
,75
0,75
- 0
,80
0,80
- 0
,85
0,85
- 0
,90
0,90
- 0
,95
0,95
- 1
,00
FAIXAS DE SCORE
% 0,69
Classe 0
(acumulada)
Classe 1
(acumulada)
ASSESS: ROC Chart
COMPOSIÇÃO DE ESPECIALISTAS
1
2 3
COMPOSIÇÃO DE ESPECIALISTAS
A
B
K
A
B
B
A
MLEM - Composição de especialistas locais [Jacobs et al ., 1991]:
∑=
=k
iii ygY
1
( )( )
∑=
=k
i
i
e
exg
1
)(xv
xv
Ti
Ti
R.A. Jacobs, M. I. Jordan, S. J. Nowlan, G. E. Hint on, Adaptive Mixture of Local Experts. Neural Computation. Vol. 3, No. 1, 1991, pages 79-87, MIT Press.
• Para casa:
– Leitura do artigo: Sequential Dynamic Classificatio n Using Latent
Variable Models (S.M. Lee and S.J. Roberts)
– Leitura do artigo: Global Tree Optimization: A Non- greedy
Decision Tree Algorithm (Kristin P. Bennett)
– Leitura dos artigos: Combination of multiple classi fiers for the
customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)