MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Rodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. Scarpel

[email protected]@[email protected]@ita.br

www.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigo

MÉTODOS

MULTIVARIADOS

INTRODUÇÃO

Semana ConteúdoIntrodução aos métodos multivariadosAnálise de componentes principais

2 Aplicações de análise de componentes principais3 Princípios de análise fatorial exploratória4 Análise fatorial exploratória e aplicações5 Métodos de visualização de dados e escalonamento multidimensional6 Análise de agrupamentos: métodos hierárquicos7 Análise de agrupamentos: métodos não-hierarquicos8 Prova

9Análise de agrupamentos: método da mistura (baseados em densidade).Métodos avançados de formação de agrupamentos.Introdução aos modelos de classificaçãoMétodos de detecção de iterações

11 Classificadores lineares e análise discriminante paramétrica12 Regressão Logística13 FERIADO (11/6)

Métodos de classificação baseados em programação matemáticaSupport Vector MachineMétodos de avaliação da performance de modelos de classificaçãoMistura de especialistas

16 Prova

15

1

10

14

INTRODUÇÃO

CLASS-CONDITIONAL DENSITIES

CONHECIDA DESCONHECIDA

TEORIA BAYESIANA DE

DECISÃO

APRENDIZAGEM SUPERVISIONADA

PARAMÉTRICOS NÃO PARAMÉTRICOS

ANÁLISE DISCRIMINANTE:

-LINEAR

-QUADRÁTICA

ESTIM. DENSIDADE: KERNELS, KNN

CONSTR. FRONTEIRA DECISÃO:

RNEURAIS, SVM, AID,…

• Métodos de classificação :

MODELOS DE CLASSIFICAÇÃO

INTRODUÇÃO

• Métodos de classificação - tendências :

– Modelos dinâmicos

Leitura do artigo: Sequential Dynamic Classificatio n Using Latent

Variable Models (S.M. Lee and S.J. Roberts)

– Combinação de abordagens (ex: AID + SVM)

Leitura do artigo: Global Tree Optimization: A Non- greedy Decision

Tree Algorithm (Kristin P. Bennett)

– MLEM e outras formas de combinação de modelos (lidar com

populações heterogêneas)

Leitura dos artigos: Combination of multiple classi fiers for the

customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)


PROCESSO DE DM / KDD / ...

• Métodos Multivariados :

Problemspecification

Data Prospecting

Methodologyidentification

Data preprocessing

Building themodel

Knowledgepostprocessing

METODOLOGIAS

CRISP-DM (Cross Industry Standard

Process for Data Mining)

SEMMA (Sample, Explore, Modify, Model and Assess)

Conjuntos: Treinamento, Teste e Validação

SEMMA: SAMPLE

Better Fitting:Training Set Test SetTraining Set Test Set

Training Set Test SetTraining Set Test Set

Overfitting:

SEMMA: SAMPLE

VERIFICAÇÃO DA QUALIDADE DOS DADOS

Fatores que degradam a qualidade dos dados:

• Dados com erro : respostas falsas, erros na tabulaçãodas respostas,…

• Outliers : observações que aparentemente sãoinconsistentes quando comparadas às outrasobservações.

• Dados faltantes (missing values)

SEMMA: EXPLORE


DETECÇÃO (ELIMINAÇÃO) DE OUTLIERS

Origem: dados com erro ou observação pertencente a outra população.

Critério: O critério para a definição de outliers variamuito conforme os autores. De maneira geral, considera-se outlier uma medida acima ouabaixo de 2,5 desvios-padrão da média.

Forma de detecção: estatísticas de sumarização, histogramas, distância de Mahalanobis.

SEMMA: EXPLORE


DADOS FALTANTES (MISSING VALUES)

Importante: descobrir como e porque os missing values estão presentes.

• Missing values é zero (não ocorreu) ou é falta de informação (não sei se ocorreu)?

• Deve-se tomar cuidado no tratamento dos missing values.

• Tratar? Eliminar a variável? Eliminar a observação?

SEMMA: EXPLORE

TRATAMENTO DOS MISSING VALUES

A forma de tratamento dos missing values depende de quantos dados estão faltando (percentual de missing values ) e de sua distribuição . Alternativas de tratamento:

• Omitir as observações com missing values: essa alternativa é aceitável em algumas ciscunstâncias (quando o percentual de missing values é baixo e concentrado em algumas variáveis ou observações).

?

?? ?

??

??

observações

variáveis

Apenas 8 dos 144 valoressão missing (5,55%), porém apenas 5 observações seriamutilizadas.

SEMMA: EXPLORE

TRATAMENTO DOS MISSING VALUES

Métodos utilizados para imputar valores:

• Substituir pela média : é o método mais utilizado (pela suasimplicidade).

• Método analítico : por esse método atribui-se um valor emfunção da relação entre a variável com missing value e as outas variáveis, cujos valores são conhecidos (porregressão, por árvore de decisão).

SEMMA: EXPLORE

SEMMA: MODIFY and MODEL

MODIFY: Eliminar redundância, reduzir dimensão

MODEL: Métodos de dependência, métodos de interdependência

Etapa de avaliação dos modelos (ASSESS):

– Matriz de confusão (Eficiência Global, Kappa, …)

– Estatística KS (Kolmogorov-Smirnov)

– ROC chart (Receiver Operating Characteristic)

– Percentual de resposta

Esses métodos são utilizados não apenas para selecionar

modelos como também para gerenciar a política de sua

utilização.

SEMMA: ASSESS

92,37,1-

7,792,9+DE

-+

PARATREINO

92,2%7,6%-

7,8%92,4%+DE

-+

PARAVALIDAÇÃO

EFICIÊNCIA GLOBAL = 92,6%

PONTO DE CORTE = 0,5

EFICIÊNCIA GLOBAL = 92,3%

PONTO DE CORTE = 0,5

ASSESS: MATRIZ DE CONFUSÃO

Acerto global = (X11+X22+…+Xcc)/N

Kappa = (P0 – Pc) / (1-Pc)

em que Pc é a taxa de acerto aleatória

ASSESS: KOLMOGOROV-SMIRNOV

ANÁLISE KS

0,0%

30,0%

46,6%

56,3%

63,9%

71,6%74,6%

78,0%80,6%

83,1%84,7%

86,9%89,1% 90,5% 91,7%

94,0% 94,8% 95,4%97,0% 98,2%

100,0%

0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%

11,3%13,5%

16,9%

20,6%23,8%

26,4%

30,8%

35,3%

38,9%

46,0%

53,2%

64,9%

100,0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0,00

- 0

,00

0,00

- 0

,05

0,05

- 0

,10

0,10

- 0

,15

0,15

- 0

,20

0,20

- 0

,25

0,25

- 0

,30

0,30

- 0

,35

0,35

- 0

,40

0,40

- 0

,45

0,45

- 0

,50

0,50

- 0

,55

0,55

- 0

,60

0,60

- 0

,65

0,65

- 0

,70

0,70

- 0

,75

0,75

- 0

,80

0,80

- 0

,85

0,85

- 0

,90

0,90

- 0

,95

0,95

- 1

,00

FAIXAS DE SCORE

% 0,69

ANÁLISE KS

0,0%

30,0%

46,6%

56,3%

63,9%

71,6%74,6%

78,0%80,6%

83,1%84,7%

86,9%89,1% 90,5% 91,7%

94,0% 94,8% 95,4%97,0% 98,2%

100,0%

0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%

11,3%13,5%

16,9%

20,6%23,8%

26,4%

30,8%

35,3%

38,9%

46,0%

53,2%

64,9%

100,0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0,00

- 0

,00

0,00

- 0

,05

0,05

- 0

,10

0,10

- 0

,15

0,15

- 0

,20

0,20

- 0

,25

0,25

- 0

,30

0,30

- 0

,35

0,35

- 0

,40

0,40

- 0

,45

0,45

- 0

,50

0,50

- 0

,55

0,55

- 0

,60

0,60

- 0

,65

0,65

- 0

,70

0,70

- 0

,75

0,75

- 0

,80

0,80

- 0

,85

0,85

- 0

,90

0,90

- 0

,95

0,95

- 1

,00

FAIXAS DE SCORE

% 0,69

Classe 0

(acumulada)

Classe 1

(acumulada)

ASSESS: ROC Chart

COMPOSIÇÃO DE ESPECIALISTAS

1

2 3

COMPOSIÇÃO DE ESPECIALISTAS

A

B

K

A

B

B

A

MLEM - Composição de especialistas locais [Jacobs et al ., 1991]:

∑=

=k

iii ygY

1

( )( )

∑=

=k

i

i

e

exg

1

)(xv

xv

Ti

Ti

R.A. Jacobs, M. I. Jordan, S. J. Nowlan, G. E. Hint on, Adaptive Mixture of Local Experts. Neural Computation. Vol. 3, No. 1, 1991, pages 79-87, MIT Press.

• Para casa:

– Leitura do artigo: Sequential Dynamic Classificatio n Using Latent

Variable Models (S.M. Lee and S.J. Roberts)

– Leitura do artigo: Global Tree Optimization: A Non- greedy

Decision Tree Algorithm (Kristin P. Bennett)

– Leitura dos artigos: Combination of multiple classi fiers for the

customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)


MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Documents