Top Banner
Rodrigo A. Scarpel Rodrigo A. Scarpel Rodrigo A. Scarpel Rodrigo A. Scarpel [email protected] [email protected] [email protected] [email protected] www.mec.ita.br/~rodrigo www.mec.ita.br/~rodrigo www.mec.ita.br/~rodrigo www.mec.ita.br/~rodrigo MÉTODOS MULTIVARIADOS
21

MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Jul 27, 2018

Download

Documents

lycong
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Rodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. Scarpel

[email protected]@[email protected]@ita.br

www.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigo

MÉTODOS

MULTIVARIADOS

Page 2: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

INTRODUÇÃO

Semana ConteúdoIntrodução aos métodos multivariadosAnálise de componentes principais

2 Aplicações de análise de componentes principais3 Princípios de análise fatorial exploratória4 Análise fatorial exploratória e aplicações5 Métodos de visualização de dados e escalonamento multidimensional6 Análise de agrupamentos: métodos hierárquicos7 Análise de agrupamentos: métodos não-hierarquicos8 Prova

9Análise de agrupamentos: método da mistura (baseados em densidade).Métodos avançados de formação de agrupamentos.Introdução aos modelos de classificaçãoMétodos de detecção de iterações

11 Classificadores lineares e análise discriminante paramétrica12 Regressão Logística13 FERIADO (11/6)

Métodos de classificação baseados em programação matemáticaSupport Vector MachineMétodos de avaliação da performance de modelos de classificaçãoMistura de especialistas

16 Prova

15

1

10

14

Page 3: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

INTRODUÇÃO

CLASS-CONDITIONAL DENSITIES

CONHECIDA DESCONHECIDA

TEORIA BAYESIANA DE

DECISÃO

APRENDIZAGEM SUPERVISIONADA

PARAMÉTRICOS NÃO PARAMÉTRICOS

ANÁLISE DISCRIMINANTE:

-LINEAR

-QUADRÁTICA

ESTIM. DENSIDADE: KERNELS, KNN

CONSTR. FRONTEIRA DECISÃO:

RNEURAIS, SVM, AID,…

• Métodos de classificação :

MODELOS DE CLASSIFICAÇÃO

Page 4: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

INTRODUÇÃO

• Métodos de classificação - tendências :

– Modelos dinâmicos

Leitura do artigo: Sequential Dynamic Classificatio n Using Latent

Variable Models (S.M. Lee and S.J. Roberts)

– Combinação de abordagens (ex: AID + SVM)

Leitura do artigo: Global Tree Optimization: A Non- greedy Decision

Tree Algorithm (Kristin P. Bennett)

– MLEM e outras formas de combinação de modelos (lidar com

populações heterogêneas)

Leitura dos artigos: Combination of multiple classi fiers for the

customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)

MODELOS DE CLASSIFICAÇÃO

Page 5: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

PROCESSO DE DM / KDD / ...

• Métodos Multivariados :

Problemspecification

Data Prospecting

Methodologyidentification

Data preprocessing

Building themodel

Knowledgepostprocessing

Page 6: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

METODOLOGIAS

CRISP-DM (Cross Industry Standard

Process for Data Mining)

SEMMA (Sample, Explore, Modify, Model and Assess)

Page 7: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Conjuntos: Treinamento, Teste e Validação

SEMMA: SAMPLE

Page 8: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Better Fitting:Training Set Test SetTraining Set Test Set

Training Set Test SetTraining Set Test Set

Overfitting:

SEMMA: SAMPLE

Page 9: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

VERIFICAÇÃO DA QUALIDADE DOS DADOS

Fatores que degradam a qualidade dos dados:

• Dados com erro : respostas falsas, erros na tabulaçãodas respostas,…

• Outliers : observações que aparentemente sãoinconsistentes quando comparadas às outrasobservações.

• Dados faltantes (missing values)

SEMMA: EXPLORE

Page 10: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

VERIFICAÇÃO DA QUALIDADE DOS DADOS

DETECÇÃO (ELIMINAÇÃO) DE OUTLIERS

Origem: dados com erro ou observação pertencente a outra população.

Critério: O critério para a definição de outliers variamuito conforme os autores. De maneira geral, considera-se outlier uma medida acima ouabaixo de 2,5 desvios-padrão da média.

Forma de detecção: estatísticas de sumarização, histogramas, distância de Mahalanobis.

SEMMA: EXPLORE

Page 11: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

VERIFICAÇÃO DA QUALIDADE DOS DADOS

DADOS FALTANTES (MISSING VALUES)

Importante: descobrir como e porque os missing values estão presentes.

• Missing values é zero (não ocorreu) ou é falta de informação (não sei se ocorreu)?

• Deve-se tomar cuidado no tratamento dos missing values.

• Tratar? Eliminar a variável? Eliminar a observação?

SEMMA: EXPLORE

Page 12: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

TRATAMENTO DOS MISSING VALUES

A forma de tratamento dos missing values depende de quantos dados estão faltando (percentual de missing values ) e de sua distribuição . Alternativas de tratamento:

• Omitir as observações com missing values: essa alternativa é aceitável em algumas ciscunstâncias (quando o percentual de missing values é baixo e concentrado em algumas variáveis ou observações).

?

?? ?

??

??

observações

variáveis

Apenas 8 dos 144 valoressão missing (5,55%), porém apenas 5 observações seriamutilizadas.

SEMMA: EXPLORE

Page 13: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

TRATAMENTO DOS MISSING VALUES

Métodos utilizados para imputar valores:

• Substituir pela média : é o método mais utilizado (pela suasimplicidade).

• Método analítico : por esse método atribui-se um valor emfunção da relação entre a variável com missing value e as outas variáveis, cujos valores são conhecidos (porregressão, por árvore de decisão).

SEMMA: EXPLORE

Page 14: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA: MODIFY and MODEL

MODIFY: Eliminar redundância, reduzir dimensão

MODEL: Métodos de dependência, métodos de interdependência

Page 15: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

Etapa de avaliação dos modelos (ASSESS):

– Matriz de confusão (Eficiência Global, Kappa, …)

– Estatística KS (Kolmogorov-Smirnov)

– ROC chart (Receiver Operating Characteristic)

– Percentual de resposta

Esses métodos são utilizados não apenas para selecionar

modelos como também para gerenciar a política de sua

utilização.

SEMMA: ASSESS

Page 16: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

92,37,1-

7,792,9+DE

-+

PARATREINO

92,2%7,6%-

7,8%92,4%+DE

-+

PARAVALIDAÇÃO

EFICIÊNCIA GLOBAL = 92,6%

PONTO DE CORTE = 0,5

EFICIÊNCIA GLOBAL = 92,3%

PONTO DE CORTE = 0,5

ASSESS: MATRIZ DE CONFUSÃO

Acerto global = (X11+X22+…+Xcc)/N

Kappa = (P0 – Pc) / (1-Pc)

em que Pc é a taxa de acerto aleatória

Page 17: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

ASSESS: KOLMOGOROV-SMIRNOV

ANÁLISE KS

0,0%

30,0%

46,6%

56,3%

63,9%

71,6%74,6%

78,0%80,6%

83,1%84,7%

86,9%89,1% 90,5% 91,7%

94,0% 94,8% 95,4%97,0% 98,2%

100,0%

0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%

11,3%13,5%

16,9%

20,6%23,8%

26,4%

30,8%

35,3%

38,9%

46,0%

53,2%

64,9%

100,0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0,00

- 0

,00

0,00

- 0

,05

0,05

- 0

,10

0,10

- 0

,15

0,15

- 0

,20

0,20

- 0

,25

0,25

- 0

,30

0,30

- 0

,35

0,35

- 0

,40

0,40

- 0

,45

0,45

- 0

,50

0,50

- 0

,55

0,55

- 0

,60

0,60

- 0

,65

0,65

- 0

,70

0,70

- 0

,75

0,75

- 0

,80

0,80

- 0

,85

0,85

- 0

,90

0,90

- 0

,95

0,95

- 1

,00

FAIXAS DE SCORE

% 0,69

ANÁLISE KS

0,0%

30,0%

46,6%

56,3%

63,9%

71,6%74,6%

78,0%80,6%

83,1%84,7%

86,9%89,1% 90,5% 91,7%

94,0% 94,8% 95,4%97,0% 98,2%

100,0%

0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%

11,3%13,5%

16,9%

20,6%23,8%

26,4%

30,8%

35,3%

38,9%

46,0%

53,2%

64,9%

100,0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0,00

- 0

,00

0,00

- 0

,05

0,05

- 0

,10

0,10

- 0

,15

0,15

- 0

,20

0,20

- 0

,25

0,25

- 0

,30

0,30

- 0

,35

0,35

- 0

,40

0,40

- 0

,45

0,45

- 0

,50

0,50

- 0

,55

0,55

- 0

,60

0,60

- 0

,65

0,65

- 0

,70

0,70

- 0

,75

0,75

- 0

,80

0,80

- 0

,85

0,85

- 0

,90

0,90

- 0

,95

0,95

- 1

,00

FAIXAS DE SCORE

% 0,69

Classe 0

(acumulada)

Classe 1

(acumulada)

Page 18: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

ASSESS: ROC Chart

Page 19: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

COMPOSIÇÃO DE ESPECIALISTAS

1

2 3

Page 20: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

COMPOSIÇÃO DE ESPECIALISTAS

A

B

K

A

B

B

A

MLEM - Composição de especialistas locais [Jacobs et al ., 1991]:

∑=

=k

iii ygY

1

( )( )

∑=

=k

i

i

e

exg

1

)(xv

xv

Ti

Ti

R.A. Jacobs, M. I. Jordan, S. J. Nowlan, G. E. Hint on, Adaptive Mixture of Local Experts. Neural Computation. Vol. 3, No. 1, 1991, pages 79-87, MIT Press.

Page 21: MÉTODOS MULTIVARIADOS - mec.ita.brrodrigo/Disciplinas/MB213/S15.pdf · CRISP-DM (Cross Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)

• Para casa:

– Leitura do artigo: Sequential Dynamic Classificatio n Using Latent

Variable Models (S.M. Lee and S.J. Roberts)

– Leitura do artigo: Global Tree Optimization: A Non- greedy

Decision Tree Algorithm (Kristin P. Bennett)

– Leitura dos artigos: Combination of multiple classi fiers for the

customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)

MODELOS DE CLASSIFICAÇÃO