Top Banner
[email protected] 1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi
24

[email protected] Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

Apr 21, 2015

Download

Documents

Internet User
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 1

Seminário DEs/DEP

Algumas Técnicas Estatísticas Multivariadas

Parte IIJorge Oishi

Page 2: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 2

Técnicas Multivariadas

Tópicos abrangidos:

Análise Discriminante Análise de Cluster Análise de Correspondência

Page 3: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 3

Análise Discriminante

Objetivo Construir um modelo preditivo para prognosticar o grupo a qual

pertence uma observação a partir de determinadas características observadas.

Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas.

Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença.

Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.

Page 4: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 4

Análise Discriminante

Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa;

Hitler criou as medidas perfeitas de um ariano puro;

Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.

Page 5: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 5

Análise Discriminante

Exemplos: Área de crédito: dado o cadastro de clientes, estabelecer

um critério para empréstimo. (Credit Score); Área de negócios: criar uma regra, a partir de um banco de

dados sobre a previsão de insolvência de empresas; Área de negócios: regra para prever a troca de

fornecedores por parte dos clientes; Policial: através das imagens de satélite ser capaz de

reconhecer se uma plantação é de maconha. Policial: construir um critério para ajudar a PM de nossa

cidade a identificar os locais de maior risco em relação à criminalidade.

Page 6: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 6

Análise Discriminante

Grupos Casos X1 X2 ... Xp

1 1 X111 X112 ... X11p

1 2 X211 X212 ... X21p

... ... ... ... ... ...

1 n1 Xn1,11 Xn1,12 ... Xn1,1p

2 1 X121 X222 ... X12p

... ... ... ... ... ...

2 n2 Xn221 Xn2,22 ... Xn2,2p

... ... ... ... ... ...

m 1 X1m1 X1m2 ... X1mp

... ... ... .... ... ...

m nm Xnm,m1 Xnm,m2 ... Xnm,mp

Page 7: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 7

Análise Discriminante

Avaliação de um novo produto

Grupo Sujeito Durabilidade Desempenho Estilo

1 1 8 9 6

1 2 6 7 5

1 3 10 6 3

1 4 9 4 4

1 5 4 8 2

2 6 5 4 7

2 7 3 7 2

2 8 4 5 5

2 9 2 4 3

2 10 2 2 2

Page 8: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 8

Análise Discriminante

Curso de Multivariada\NOVPRODU.STA

Page 9: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 9

Análise de Cluster

Objetivo Dado um conjunto de n objetos observados através de p

variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas.

O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão.

Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.

Page 10: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 10

Análise de Cluster

A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos.

A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística.

Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo.

Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.

Page 11: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 11

Análise de Cluster

Algorítmos de agrupamento: Como fazer para colocar no mesmo grupos os

casos? Método Hierárquico

Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se

agrupando Algorítmos:

single linkage, average linkage e complete linkage Ward

Page 12: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 12

Análise de Cluster

Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização

Page 13: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 13

Análise de Cluster

Número de Agrupamentos: quantos grupos formar? Não existem regras que possam ser recomendadas

para todos os casos. Existe a regra estatística, que a distância entre os

agrupamentos são claramente determinados a partir de um teste de hipóteses;

Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.

Page 14: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 14

Análise de Cluster

STATISTICA.lnk

Page 15: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 15

Análise de Correspondências

Objetivo Analisar tabelas de dupla-entrada ou de múltiplas

entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas;

Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.

Page 16: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 16

Análise de Correspondências

Exemplo: Consideremos as vendas de três produtos A, B e C para

pessoas de três faixas etárias.

Venda de produto

Faixa etária A B C Total

18 – 35 20 20 20 60

36 – 55 40 10 40 90

56 ou + 20 10 40 70

Total 80 40 100 220

Page 17: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 17

Análise de Correspondências

Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y;

Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária;

Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.

Page 18: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 18

Análise de Correspondências

Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações.

Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores.

Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.

Page 19: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 19

Análise de Correspondências

Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:

esperadovalor

esperado) valor - observadovalor (χ

22

Page 20: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 20

Análise de Correspondências

Venda de produto

Faixa etária A B C Total

18 – 35 21,8

0,15

-0,15

10,9

7,58

7,58

27,3

1,94

-1,94

60

9,67

36 – 55 32,7

1,62

1,62

6,4

2,47

-2,47

40,9

0,02

-0,02

90

4,11

56 ou + 25,4

1,17

-1,17

12,7

0,58

-0,58

31,8

2,10

2,10

70

3,85

Total 80

2,94

40

10,63

100

4,06

220

17,63

Page 21: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 21

Análise de Correspondências

Row.Coords

Col.Coords

2D Plot of Row and Column Coordinates; Dimension: 1 x 2

Input Table (Rows x Columns): 3 x 3

Standardization: Row and column profiles

Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)

Dim

en

sio

n 2

; E

ige

nva

lue

: .0

19

69

(2

4.5

6%

of

Ine

rtia

)

Jovens

Adultos

Idosos

A

B

C

-0.25

-0.20

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

0.20

0.25

-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Page 22: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 22

Análise de Correspondências

A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos.

A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios.

A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.

Page 23: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 23

Bibliografia

Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005

Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998.

Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997.

Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. Lopez, C.P. Métodos Estadísticos Avanzados com

SPSS. Thomson, 2005.

Page 24: Djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

[email protected] 24

Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias.

Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na

MegaSena (mas se ganharem não se esqueçam da minha comissão)