Transcript
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 1
Análise de DadosAnálise de Dados
5. Análise de 5. Análise de clustersclusters
1. Segmentação de mercado1.1. Conceito
1.2. Bases de segmentação
1.3. Métodos de classificação
2. Análise de clusters2.1. Notas introdutórias
2.2. Métodos hierárquicos
2.3. Métodos não hierárquicos
3. Casos3.1. Classificação de entidades
3.2. Classificação de variáveis
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 2
Segmentação de mercado...Segmentação de mercado...
• ‘”consists of viewing a heterogeneous market (one characterized by divergent demand) as a number of smaller homogeneous markets in response to differing product preferences among important market segments”
• “it is attributable to the desires of consumers or users for more precise satisfaction of their varying wants”
Smith, 1956
Smith, Wendell R. (1956). “Product Differentiation and Market Segmentation as Alternative Marketing Strategies”. The Journal of Marketing, Vol. XXI (1): 3-8.
1
1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos
Segmentação de mercado...Segmentação de mercado...• ‘a theoretical marketing concept partitioning a
market with heterogeneous demand into sub markets with homogeneous demand, with the propose of a more precise adjustment of brands, products, or services to consumer needs, to determine the potentially most profitable allocation of marketing efforts’.
Wedel e Kamakura, 2000
• ‘dividing the market into distinct groups of buyers with different needs, characteristics or behavior, who might require separate products or marketing mixes’.
Kotler,Amstrong, Saunders e Wong 2002
1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 3
Segmentação de MercadoSegmentação de Mercado
Bases de
Segmentação
Métodos de
Classificação
1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos
Bases de SegmentaçãoBases de Segmentação
•Natureza da variável
•Gerais •Específicas do produto
•Observáveis•Variáveis geográficas, demográficas e socioeconómicas
Ocasiões de uso, estatuto de uso, fidelidade (à loja, à marca), processo de difusão e processamento de informação
•Não observáveis
•Variáveis psicográficas, valores, personalidade e estilo de vida
Benefícios, percepções, elasticidades, preferências, intenções, psicográficas (específicas do produto)
1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 4
Métodos de ClassificaçãoMétodos de Classificação
À priori Post hoc
DescritivosTabelas cruzadas, modelos log-lineares
Métodos de classificação: métodos não sobrepostos, métodos sobrepostos e
métodos difusos; modelos mistura; redes neuronais
PreditivosRegressão, modelos logit/probit e análise
discriminante
AID, CART, clusterwise regression, redes
neuronais; modelos mistura de regressão; análise conjunta; modelos
hierárquicos bayesianos
1. Segmentação de Mercado 1.1. Introdução 1.2.Bases 1.3.Métodos . 2. Análise de clusters 3. Casos
• As técnicas numéricas para a derivação de classificaçõessão originárias das ciências naturais (início do século XX),nomeadamente a zoologia e biologia, desenvolvidas com opropósito de fornecer uma taxonomia de espécies animaise plantas. Na segunda metade do século XX assistiu-se aum acréscimo exponencial nos métodos de classificaçãodivulgados na literatura especializada, fenómeno suportadopela melhoria dos meios de cálculo automático disponíveis.Paralelamente, verificou-se uma expansão similar nas suasáreas de aplicação, sendo hoje abordagens populares emvários campos do conhecimento científico. Diferente, e porvezes conflituosa, é a terminologia empregue nasdiferentes disciplinas: Numerical Taxonomy, na Biologia, QAnalysis, na Psicologia, Unsupervised Pattern Recognition,na Inteligência Artificial, sendo os termos Clumping eGrouping também usados ocasionalmente. No entanto, otermo genérico mais comum na literatura anglosaxónica éCluster Analysis.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 5
Análise de ClustersAnálise de Clusters
• Dado um conjunto de N objectos, caracterizados por um conjunto de K variáveis, derivar uma partição num número de grupos ou segmentos que sejam internamente homogéneos e externamente heterogéneos.
• Procedimento multivariado para a detecção de grupos homogéneos nos dados, podendo esses grupos ser constituídos por variáveis ou casos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Objectivos da Análise de Objectivos da Análise de ClustersClusters
• Formação e descrição de taxonomias – i.e.
classifcação de objectos
• Simplificação dos dados
– Agrupamento das observações ou variáveis
• Identificação de relações
– Estudo de relações entre os casos
– Estudo de relações entre variáveis
– Estudo das relações entre os grupos formados e
outras variáveis de interesse
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 6
Métodos de Análise de ClustersMétodos de Análise de Clusters
Sobreposto Não Sobreposto Difuso
Métodos de Agrupamento
( )
=
=−
∑=
*kp
0p1pS
1sns
nsns( )
=
=−
∑=
S
1sns
nsns
1p
0p1p
≤≤
=∑=
1p0
1p
ns
S
1sns
* K (inteiro) define o grau de sobreposição (nº de grupos a que um objecto pode pertencer simultaneamente).
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Agrupamento não sobreposto Agrupamento sobreposto Agrupamento difuso
1 2 3 1 2 3 1 2 31 1 0 0 1 0 1 1 1 0.1 0.1 0.82 0 0 1 2 1 1 0 2 0.6 0.4 0.03 0 1 0 3 0 1 0 3 0.2 0.3 0.54 1 0 0 4 1 0 1 4 0.2 0.2 0.6
ObjectoGrupoGrupo
Objecto ObjectoGrupo
Estrutura da matriz de partição
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 7
FORMAS DOS GRUPOS
Análise de Clusters Análise de Clusters -- FasesFases
• Selecção dos objectos (amostra ou censo);
• Definição de um conjunto de variáveis a partirdas quais será obtida a informação necessáriapara o agrupamento dos objectos;
• Escolha de um método de agrupamento;
• Validação dos resultados e interpretação dasolução.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 8
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 9
Métodos de agrupamento não sobrepostoMétodos de agrupamento não sobreposto
• Métodos Hierárquicos ‘Hierarchical Cluster’– Métodos Aglomerativos
– Métodos Divisivos
• Métodos Não Hierárquicos ‘K-means Cluster’
• Métodos bi-etápicos ‘Two Step Cluster’
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
SPSSSPSS
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 10
MÉTODOS MÉTODOS HIERÁRQUICOSHIERÁRQUICOS
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Notas GeraisNotas Gerais
• Dados– Variáveis métricas
– Variáveis binárias
– Count data
• Pressupostos– As medidas de distância ou semelhança são adequadas
para os dados em análise
– Todas as variáveis relevantes são incluídas na análise
• Os métodos hierárquicos aplicam-se no agrupamento de casos e de variáveis
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 11
Medidas de semelhança e de Medidas de semelhança e de distânciadistância
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Medidas de proximidade
Medidas de proximidade
• Os conceitos de semelhança e de dissemelhança (proximidades)estão na base do processo de construção de clusters.
• Dois objectos pertencem ao mesmo clusters se são semelhantes e pertencem a clusters diferentes se são dissemelhantes.– A dissemelhança reflecte o grau de diferença, afastamento ou divergência entre dois objectos; quanto mais distintos forem os objectos maior é a dissemelhança entre eles.
– A semelhança mede o grau de parecença ou proximidade entre dois objectos; quanto mais parecidos dois objectos maior é a semelhança entre eles.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 12
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
n 1 0 1 1 1 0 1 1 1 1 0 1 0
m 1 1 0 0 1 0 1 1 0 1 1 0 0
1 0 1 0
objecto m 1 5 2 objecto m 1 a b
0 4 2 0 c d
objecto n objecto n
( )1 213
2nm
n=1
nm
nm
. Euclidiana = 2,45
5. de Jaccard s 0,45
5 4 2a+d 5 2
. de Cocordância Simples s = 0,7a+b+c+d 5 4 2 2
nk mkDist x x
aCoef
a b c
Coef
− =
= = =+ + + +
+= =
+ + +
∑
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 13
Coeficiente Descrição
Coeficiente de correlação de Pearson
( )( )
( ) ( )∑
∑
=
=
−−
−−
K
1k
2mmk
2nnk
K
1kmmknnk
xxxx
xxxx
Medida de semelhança de fácil interpretação geométrica, insensível às diferenças de escala das variáveis (já que impõe a sua normalização) e muito sensível aos perfis dos dois objectos e ao paralelismo desses perfis.
Distância Euclideana
( )∑=
−=K
1k
2mknknm xxd
A distância entre dois casos é a raiz quadrada do somatório dos quadrados das diferenças entre valores de n e m para todas as variáveis.
Distância Euclideana ao quadrado
( )∑=
−=K
1k
2mknknm xxd
A distância entre dois casos é definida como o somatório dos quadrados das diferenças entre os valores das K variáveis para esses casos.
Distância City block ∑
=
−=K
1kmknknm xxd
A distância entre dois elementos é a soma dos valores absolutos das diferenças entre os valores das K variáveis para os dois casos.
Distância de Chebishev
mknkk
nm xxmaxd −= A distância entre dois casos é o valor máximo para todas as variáveis, das diferenças entre esses dois objectos.
Distância de Mahalanobis
( ) ( )mn1'
mnnm xxxxd −−= ∑ −
Considera a matriz de variância e co-
variância Σ no cálculo da distância entre dois objectos, sendo adequada quando as variáveis apresentam unidades de medida distintas e dispersões elevadas ou são fortemente correlacionadas.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 14
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
• Normalização das variáveis
– A standardização é justificada
principalmente por três razões:
• As variáveis são medidas em unidades
diferentes
• As variáveis têm variâncias muito diferentes
• As variáveis são de diferentes tipos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 15
Variáveis Variáveis Variáveis Variáveis
OriginaisOriginaisOriginaisOriginais
Variáveis Variáveis Variáveis Variáveis NormalizadasNormalizadasNormalizadasNormalizadas
1596,52 1938,06
1763,97
−=
Concelho Variável
% População
residente
activa na
agricultura
Densidade
populacional
% População residente
em lugares com mais
de 100000 habitantes
Espinho -0,506 -0,19 0,14
Gondomar -0,519 -0,39 0,96
Maia -0,438 -0,28 0,80
Matosinhos -0,422 0,43 0,14
Porto -0,605 2,49 1,57
Póvoa de Varzim 0,855 -0,66 -0,84
Valongo -0,524 -0,46 -1,30
Vila do Conde 0,664 -0,82 -1,23
Vila Nova de Gaia -0,505 -0,13 -0,24
Concelho Variável% População residente activa empregada na
agricultura
Densidade populacional
% População residente em lugares com mais de 100000
habitantes
Espinho (E) 0,68 1596,52 66,75
Gondomar (G) 0,63 1248,54 85,81
Maia (M) 0,91 1443,17 81,99
Matosinhos (MT) 0,97 2698,04 66,73
Porto (P) 0,33 6337,42 100,00
Póvoa de Varzim (PV) 0,89 773,47 43,82
Valongo (V) 0,61 1134,36 33,12
Vila do Conde (VC) 0,23 499,20 34,59
Vila Nova de Gaia (VNG) 0,68 1711,81 57,77
Média 1938,06Desvio-padrão 1763,97
E G M MT P PV V VC VGE 0
G 0,839 0
M 0,661 0,213 0
MT 0,630 1,162 0,965 0
P 3,042 2,949 2,884 2,513 0
PV 2,599 2,989 2,840 2,708 4,666 0
V 1,462 2,255 2,099 1,692 4,110 2,431 0
VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0
MATRIZ DE
DISTÂNCIAS EUCLIDIANAS
Concelho Variável
% População
residente
activa na
agricultura
Densidade
populacional
% População residente
em lugares com mais
de 100000 habitantes
Espinho -0,506 -0,19 0,14
Gondomar -0,519 -0,39 0,96
Maia -0,438 -0,28 0,80
Matosinhos -0,422 0,43 0,14
Porto -0,605 2,49 1,57
Póvoa de Varzim 1,855 -0,66 -0,84
Valongo -0,524 -0,46 -1,30
Vila do Conde 1,664 -0,82 -1,23
Vila Nova de Gaia -0,505 -0,13 -0,24
VARIÁVEIS
NORMALIZADAS
( ) ( ) ( )2 2 20,506 0,519 0,19 0,39 0,14 0,96− + + − + + −
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 16
Presenças Ausências
Presenças a b
Ausências c d
Objecto mObjecto mObjecto mObjecto m
Objecto nObjecto nObjecto nObjecto n
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Coeficiente Descrição
Jaccard cba
a
++
Medida de semelhança em que as ausências simultâneas são excluídas e as presenças simultâneas têm peso idêntico às restantes situações.
Czesanowski cba2
a2
++
Medida de semelhança onde as ausências simultâneas são excluídas e as presenças simultâneas têm peso duplo.
Sokal e Sneath 1
( )cbd2a2
da2
+++
+
Medida de semelhança que atribui um peso duplo às presenças e ausências simultâneas.
Sokal e Sneath 2 c2b2a
a
++
Medida de semelhança que atribui um peso duplo às características discordantes e exclui as ausências simultâneas.
Russel e Rao dcba
a
+++ Medida de semelhança com valor mínimo 0
e sem limite superior.
Hamann dcba
cbda
+++
−−+
Medida de semelhança que corresponde à diferença entre a probabilidade de uma característica ter igual valor nos objectos (estar presente ou ausente em ambos) e a probabilidade de ter diferentes valores nos dois objectos; varia entre –1 e 1.
Rogers e Tanimoto d2c2ba
da
++++
Medida de semelhança que inclui as ausências simultâneas e atribui peso duplo às situações discordantes.
Q de Yule bcad
bcad
+
−
Medida de semelhança função do rácio
cruzado de uma tabela 22× ; varia entre –1 e 1.
Kulczynski cb
a
+
Quociente entre presenças simultâneas e situações discordantes, exclusão das ausências simultâneas; medida de semelhança com valor mínimo 0 e sem limite superior.
Phi ( )( )( )( )dbcadcba
bcad
++++
−
Varia entre 0 e 1 e é equivalente ao coeficiente de Pearson para variáveis binárias.
( ) ( )a d a b c d+ + + +
Simple Matching
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 17
Estrutura de um algoritmo aglomerativoEstrutura de um algoritmo aglomerativo
• INICIAÇÃO
• Grupos S1, S2,..., Sn, cada um contendo apenas um objecto.
• ITERAÇÃO
• (1) Procurar o par mais próximo de classes (Ss e St);
• (2) Unir St a Ss;
• (3) Eliminar St e diminuir o número de grupos em 1;
• (4) Calcular a distância dos grupos formados aos restantes objectos;
• CRITÉRIO DE PARAGEM
• Se o número de grupos é igual a 1, parar; se não, realizar uma iteração.Tree Diagram for 7 Cases
Single Linkage
Euclidean distances
Linkage D
istance
0,5
1,0
1,5
2,0
2,5
3,0
3,5
E G F D C B A
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Agrupamento hierárquico: Agrupamento hierárquico: métodosmétodos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 18
Algoritmo(Referência)
Conceito de distância
Critério do vizinho mais próximo ‘Single-linkage’/ Nearest neighbor
(FLOREK et al. 1951, SNEATH 1957)
Menor distância entre dois elementos de dois segmentos.
Critério do vizinho mais afastado ‘Complete-linkage’ furthest neighbor
(MCQUITTY 1960)
Maior distância entre dois elementos de dois segmentos.
Distância média entre clusters ‘Average linkage between groups’
Após formado o primeiro grupo, a distância deste aos restantes objectos é a média das distâncias de cada um dos elementos contituintes deste grupo a cada um dos restantes elementos..
Distância média dentro do grupos ‘Average linkage between groups’
Os grupos são unidos de forma a que a soma de quadrados dos erros (variabilidade dentro dos grupos) seja a menor possível
Critério da soma de quadrados incremental‘Incremental sum of squares’ / Ward´s method(WARD 1963)
Acréscimo mínimo na soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas.
Critério do centróide ‘Centroid’/ Centroid clustering
(SOKAL e MICHENER 1958, GOWER 1967)
Distância entre os centros dos grupos (média das variáveis para os membros desse grupo).
Critério da mediana ‘Median’/ Median clustering(LANCE e WILLIAMS 1966, GOWER 1967)
Distância entre as medianas das variáveis nos segmentos.
E G M MT P PV V VC VGE 0
G 0,839 0
M 0,661 0,213 0
MT 0,630 1,162 0,965 0
P 3,042 2,949 2,884 2,513 0
PV 2,599 2,989 2,840 2,708 4,666 0
V 1,462 2,255 2,099 1,692 4,110 2,431 0
VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0
MATRIZ DE DISTÂNCIAS EUCLIDIANAS
ITERAÇÂO 1 { } .min : , 0, 213nm nm G Md d n m d= = =
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
. ..
. ..
. ..
. ..
. ..
min ; min 0,839;0, 661 0,661
min ; min 1,162;0,965 0,965
min ; min 2,949;2,884 2,884
min ; min 2,989;2,840 2,840
min ; min 2, 255;2, 099 2,09
G E M EG M E
G MT M MTG M MT
G P M PG M P
G PV M PVG M PV
G V M VG M V
d d d
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= = =
= = =
[ ] ( ) ( )
[ ] ( ) ( ). ..
. ..
9
min ; min 3,122;2,969 2,969
min ; min 1, 228;1,049 1, 049
G VC M VCG M VC
G VG M VGG M VG
d d d
d d d
= = =
= = =
E [G.M] MT P PV V VC VGE 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,599 2,840 2,708 4,666 0V 1,462 2,099 1,692 4,110 2,431 0VC 2,644 2,969 2,792 4,892 0,465 2,219 0VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0
D1D1D1D1
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 19
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
[ ]
.[ . ] .[ . ]. [ . ]
. ..
. ..
. ..
..
min ; min 0,661;1,049 0,661
min ; min 0,630;0,683 0,630
min ; min 3,042;3,186 3,042
min ; min 2,599;2, 492 2, 492
min ;
E G M VG G ME VG G M
E MT VG MTE VG MT
E P VG PE VG P
E PV VG PVE VG PV
E V VGE VG V
d d d
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= = =
= ( ) ( )
[ ] ( ) ( ).
. ..
min 1, 462;1,104 1,104
min ; min 2,644;2, 482 2, 482
V
E VC VG VCE VG VCd d d
= =
= = =
E [G.M] MT P PV V VC VGE 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,599 2,840 2,708 4,666 0V 1,462 2,099 1,692 4,110 2,431 0VC 2,644 2,969 2,792 4,892 0,465 2,219 0VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0
D1D1D1D1
[E.VG] [G.M] MT P PV V VC
[E.VG] 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,492 2,840 2,708 4,666 0V 1,104 2,099 1,692 4,110 2,431 0VC 2,482 2,969 2,792 4,892 0,465 2,219 0
D2D2D2D2
ITERAÇÃO 2
[E.VG] [G.M] MT P PV V VC
[E.VG] 0[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0PV 2,492 2,840 2,708 4,666 0V 1,104 2,099 1,692 4,110 2,431 0VC 2,482 2,969 2,792 4,892 0,465 2,219 0
D2D2D2D2
ITERAÇÃO 3
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
[ ] ( ) ( )
.[ . ] .[ . ]. .[ . ]
.[ . ] .[ . ]. .[ . ]
. .. .
. .. .
min ; min 2, 492;2, 482 2, 482
min ; min 2,840;2,969 2,840
min ; min 2,708;2,792 2,708
min ; min 4,666;4,892
PV E VG VC E VGPV VC E VG
PV G M VC G MPV VC G M
PV MT VC MTPV VC MT
PV P VC PPV VC P
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= =
[ ] ( ) ( ). ..
4,666
min ; min 2, 431;2, 219 2,219PV V VC VPV VC Vd d d
=
= = =
[E.VG] [G.M] MT P [PV.VC] V
[E.VG] 0
[G.M] 0,661 0MT 0,630 0,965 0P 3,042 2,884 2,513 0
[PV.VC] 2,482 2,840 2,708 4,666 0
V 1,104 2,099 1,692 4,110 2,219 0
D3D3D3D3
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 20
D4D4D4D4[E.VG.MT] [G.M] P [PV.VC] V
[E.VG.MT] 0
[G.M] 0,661 0P 2,513 2,884 0
[PV.VC] 2,482 2,840 4,666 0V 1,104 2,099 4,110 2,219 0
[E.VG.MT.G.M] P [PV.VC] V
[E.VG.MT.G.M] 0
P 2,513 0[PV.VC] 2,482 4,666 0V 1,104 4,110 2,219 0
[E.VG.MT.G.M.V] P [PV.VC]
[E.VG.MT.G.M.V] 0
P 2,513 0
[PV.VC] 2,219 4,666 0
[E.VG.MT.G.M.V.PV.VC] P
[E.VG.MT.G.M.V.PV.VC] 0
P 2,219 0
D5D5D5D5
D6D6D6D6
D7D7D7D7
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Linkage Distance
0,0
0,5
1,0
1,5
2,0
2,5
3,0
P VC PV V M G MT VG E
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 21
Linkage Distance
0,0
0,5
1,0
1,5
2,0
2,5
3,0
P VC PV V M G MT VG E
Nº DE CLASSES
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Single linkageSingle linkage (critério do vizinho mais (critério do vizinho mais
próximo)próximo)
• Define como semelhança entre dois grupos a semelhança máxima entre quaisquer dois casos pertencentes a esses grupos
• Dois grupos são reagrupados num só de acordo com a distância entre os seus casos mais próximos
• Dados dois grupos (i,j) e k, a distância entre dois é a menor das distâncias entre os elementos dos dois grupos
( ) { }jkikkj,i d;d mind =
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 22
Exemplo
A B C D E F G
Lealdade a lojas 3 4 4 2 8 7 6
Lealdade a marcas 2 5 7 8 6 9 9
Matriz de distâncias euclideanas
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
Consumidores
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 7,616 4,472 2,828 4,123 3,162 -
A B-C D E F-G
A -
B-C 3,162 -
D 6,083 2,236 -
E 6,403 4,123 6,325 -
F-G 7,616 2,828 4,123 3,162 -
A B-C-D E F-G
A -
B-C-D 3,162 -
E 6,403 4,123 -
F-G 7,616 2,828 3,162 -
A B-C-D-F-G E
A -
B-C-D-F-G 3,162 -
E 6,403 3,162 -
A-B-C-D-F-G E
A-B-C-D-F-G -
E 3,162 -
Tree Diagram for 7 Cases
Single Linkage
Euclidean distances
Linkage D
istance
0,5
1,0
1,5
2,0
2,5
3,0
3,5
E G F D C B A
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 23
Complete linkageComplete linkage (critério do vizinho mais (critério do vizinho mais
afastado)afastado)
• A distância entre dois grupos é definida como sendo a distância entre os seus elementos mais afastados ou menos semelhantes
( ) { }jkikkj,i d;d maxd =
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 8,062 5,000 3,606 5,099 3,606 -
A B-C D E F-G
A -
B-C 5,099 -
D 6,083 3,606 -
E 6,403 4,123 6,325 -
F-G 8,062 5,000 5,099 3,606 -
A B-C-D E F-G
A -
B-C-D 6,083 -
E 6,403 6,325 -
F-G 8,062 5,099 3,606 -
A B-C-D E-F-G
A -
B-C-D 6,083 -
E-F-G 8,062 6,325 -
A-B-C-D E-F-G
A-B-C-D -
E-F-G 8,062 -
Complete Linkage
Euclidean distances
Linkage D
istance
0
1
2
3
4
5
6
7
8
9
G F E D C B A
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 24
PairPair--group averagegroup average (critério da (critério da
média dos grupos)média dos grupos)
• Estratégia de agrupamento que define a distância entre dois grupos como sendo a média das distâncias entre todos os pares de indivíduos constituídos por elementos dos dois grupos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 7,839 4,736 3,217 4,611 3,384 -
A B-C D E F-G
A -
B-C 4,131 -
D 6,083 2,921 -
E 6,403 4,123 6,325 -
F-G 7,839 3,977 4,611 3,384 -
A B-C-D E F-G
A -
B-C-D 4,781 -
E 6,403 4,857 -
F-G 7,839 4,188 3,384 -
A B-C-D E-F-G
A -
B-C-D 4,781 -
E-F-G 7,360 4,411 -
A B-C-D-E-F-G
A -
B-C-D-E-F-G 6,071 -
Unweighted pair-group average
Euclidean distances
Linkage D
istance
0
1
2
3
4
5
6
7
C_7 C_6 C_5 C_4 C_3 C_2 C_1
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 25
Critério de WardCritério de Ward
• Baseia-se na perda de informação resultante do agrupamento dos indivíduos medida através da soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas
• Etapas:– Calculo das médias das variáveis para cada grupo– Calculo do quadrado da distância euclidiana entre essas médias e os valores das variáveis para cada indivíduo
– Soma das distâncias para todos os indivíduos– Optimização da variância mínima dentro dos grupos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Centroid/Median linkage
Complete linkage
Single linkage
Algoritmos Aglomerativos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 26
Selecção do número de Selecção do número de gruposgrupos
Quando é utilizado um método de agrupamento hierárquicosurge o problema de determinação do nível de proximidade parao ‘corte’ da árvore de agrupamento, por forma a obter o númerode grupos óptimo. Neste contexto, são frequentemente utilizadasduas abordagens:
- Inspecção visual do dendograma, procurando a identificação deramos relativamente densos e perfeitamente distinguíveis entresi;
- Comparação gráfica do coeficiente de fusão (valor numéricopara o qual vários indivíduos ou grupos se unem para formaruma nova classe) com o número de grupos; a escolha óptimapara o número de grupos coincidirá com uma marcadahorizontalidade na curva.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Métodos de Agrupamento Não HierárquicoMétodos de Agrupamento Não Hierárquico
Dispersão intra-grupo
Dispersão inter-grupo
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 27
Estrutura de um algoritmo de Estrutura de um algoritmo de agrupamento não hierárquicoagrupamento não hierárquico
• (1) Procurar uma partição inicial dos objectos em S grupos.
• (2) Calcular as alterações no critério de agrupamento produzidaspelo movimento de cada objecto do seu grupo actual para outro.
• (3) Efectuar as alterações que conduzam ao melhor valor docritério de agrupamento.
• (4) Repetir os passos (2) e (3) até que nenhum movimento de umobjecto provoque uma melhoria no critério de agrupamento.
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
1. Segmentação de Mercado 2. Análise de clusters 2.1. Introdução 2.2. Métodos Hierárquicos 2.3. Métodos Não Hierárquicos 3. Casos
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 28
Exemplo 1Exemplo 1
Classificação de
Aeroportos
INFORMAÇÃO DA BASEINFORMAÇÃO DA BASE
• Rede Aeroportuária:– 39 aeroportos ibéricos: 36 em território espanhol e 3 em território português
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S#S
#S
#S
#S#S
#S
#S
#S
#S
#S
#S
#S #S#S
#S#S
#S
#S
#S#S
#S
#S
#S
#S
#S
FARO
LEON
REUS
VIGO
IBIZA
JEREZ
PORTO
BILBAO
GIRONA
LISBOA
MALAGA
MURCIA
ALMERIA
BADAJOZ
GRANADA
MELILLA
MENORCA
SEVILLA
VITORIA
ALICANTE
ASTURIAS
LA PALMA
PAMPLONASANTIAGO
VALENCIA
ZARAGOZA
A CORUNHA
BARCELONA
L HIERRO
LANZAROTE
SALAMANCA
VALLADOLID
GRAN CANARIA
FUERTEVENTURA
MADRID BARAJAS
MADRID TORREJON
NB: Em Portugal não foram considerados os aeroportos insulares, por dificuldade de obtenção da informação
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 29
• Atributos recolhidos para cada aeroporto– Tráfego de passageiros– Tráfego de passageiros internacionais– Nº Destinos Ibéricos (frequência Média superior a 2 movimentos/semana)
– Nº Destinos Não Ibéricos (frequência Média superior a 2 movimentos/semana)
– Comprimento da Pista– Taxa de Crescimento Média 1992-1999– Nº Companhias (mais do que uma ligação semanal)
– Tráfego de Carga– Tráfego Máximo Mensal– Tráfego Mínimo Mensal
(Todos os dados se referem a 1999)1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 30
Código Variável Média Mínimo MáximoDesvio-
Padrão
GINTERRelação Passageiros Internacionais/
Passageiros0.405 0.000 0.992 0.347
NDPENNº Destinos na Península com Freq. Média
Sup. a 2 movimentos/semana*8 0 35 8
DFPENNº Destinos Fora da Península com Freq.
Média Sup. a 2 movimentos/semana*22 0 94 28
Crescimento
TAXCESC Taxa Crescimento Média Anual (%) 6.222 -7.090 29.780 5.700
PASST Tráfego Anual de Passageiros 3661252 15634 27699324 5936070
PISTA Comprimento da Pista (m) 2695 1080 4100 673
NCOMPNNº de Companhias com Freq. Média Sup. a 2
Movimentos/Semana23 0 80 24
CARGA Carga Movimentada (ton) 18716 0 294398 50324
Sazonalidade
SAZONRatio trafego max mensal 99/trafego min
mensal 990.447 0.126 1.901 0.397
Grau de Internacionalização
Dimensão
* por cidade1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Distância
0
5
10
15
20
25
30
MAD
LIS
AGP
TFS
LPA
PMI
BCN
REU
BJZ
GRO
MAH
IBZ
FAO
MJV
XRY
LEI
ACE
FUE
OPO
ALC
ZAZ
TFN
VIT
SVQ
VLC
SCQ
BIO
SDR
VLL
GRX
SPC
VGO
OVD
MLN
VDE
SLM
PNA
EAS
LCG
Dendograma segundo o Método de Agrupamento de Ward
3 Grupos de Aeroportos
Cluster Membership
1
2
2
1
2
3
1
1
2
2
2
3
1
2
2
1
2
3
3
3
1
2
2
3
1
2
2
1
1
1
1
1
1
3
1
1
1
1
1
Case
1:LCG
2:ALC
3:LEI
4:OVD
5:BJZ
6:BCN
7:BIO
8:VDE
9:FAO
10:FUE
11:GRO
12:LPA
13:GRX
14:IBZ
15:XRY
16:SPC
17:ACE
18:LIS
19:MAD
20:AGP
21:MLN
22:MAH
23:MJV
24:PMI
25:PNA
26:OPO
27:REU
28:SLM
29:EAS
30:SDR
31:SCQ
32:SVQ
33:TFN
34:TFS
35:VLC
36:VLL
37:VGO
38:VIT
39:ZAZ
3 Clusters
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 31
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Indica os casos que são unidos em cada passo da análise de clusters
- os casos 8 e 21 são agrupados no passo 1
- os casos 4 e 37 são agrupados no passo 2
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Quando grupos os casos são unidos, recebem um ‘label’ com o menor valor dos membros do grupo.
- por exemplo o grupo formado pelos casos 4 e 37 foi unido ao caso 16.
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 32
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
- Indica a distância entre dois grupos (ou casos) que são unidos em cada passo
- Os valores destes coeficientes dependem da medida de proximidade e do método aglomerativo usado na análise.
Etapa Coeficiente Variação
1 0,17344754
2 0,40019944 131%
3 0,66911419 67%
4 0,96953072 45%
5 1,30824669 35%
6 1,69433937 30%
7 2,11521677 25%
8 2,58404534 22%
9 3,05684994 18%
10 3,54929663 16%
27 19,7884748 9%
28 21,9734411 11%
29 24,2861574 11%
30 26,6844578 10%
31 29,2697334 10%
32 32,1721799 10%
33 35,1883892 9%
34 38,5818199 10%
35 42,9115011 11%
36 47,5195781 11%
37 56,6309901 19%
38 71,5821704 26%
0
10
20
30
40
50
60
70
80
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37
Passo
Coeficiente de fusão
1. Numa boa solução de agrupamento verifica-se um ‘salto’ no coeficiente de fusão.
2. O passo antes desse ´salto’ indica o ponto de paragem
Após o passo 36 existem 3 grupos.
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 33
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Indica o passo em que cada grupo aparece em primeiro lugar;
Quando se inicia a análise esistem casos isolados, denotados por 0.
Mostra a etapa posterior em que um novo grupo é formado.
No passo 12, o grupo 13 é o grupo que se formou no passo 4
No estado 12, o grupo que se formou no passo 4 é unido com outro grupo ou caso
Métodos Não Métodos Não HierárquicosHierárquicos
K-Means
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 34
Como as variáveis estão definidas em escalas de medida com amplitudes muito distintas, é necessária a sua normalização.
ANALYSE
DESCRIPTIVE STATISTICS
DESCRIPRIVES
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
• O grupo 2 isolou o aeroporto de Madrid,sugerindo que este é um outlier na amostra
• Deve ser efectuado um agrupamento com 4 grupos
Number of Cases in each Cluster
12,000
1,000
26,000
39,000
,000
1
2
3
Cluster
Valid
Missing
SoluçãoSolução11 KK--means com 3 means com 3 gruposgrupos
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 35
Iteration Historya
2,291 2,347 ,000 2,418
,179 ,335 ,000 ,951
,178 ,233 ,000 ,784
,000 ,000 ,000 ,000
Iteration
1
2
3
4
1 2 3 4
Change in Cluster Centers
Convergence achieved due to no or small change in
cluster centers. The maximum absolute coordinate
change for any center is ,000. The current iteration is 4.
The minimum distance between initial centers is 6,000.
a.
Progresso da estimação em cada iteração
0,179
Em cada iteração, à medida que novos casos são reafectados em grupos diferentes, os centroides de cada grupo alteram-se;
Cada número no quadro indica a distância do centroide numa dada iteração do seu valor na iteração anterior
Iteração 1 Iteração 2
Quando a variação nos centroides é suficientemente pequena para todos os grupos, o algoritmo alcança o critério de paragem
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Quando o algoritmo utiliza muitos passos até convergir pode ser um sinal de:
Selecção inadequada do número de grupos
Inclusão de variáveis desestabilizadoras
Utilização de centroides iniciais fracos
12
3
4 Complexidade do problema
(pode ser necessário alterar neste caso o número máximo de iterações)
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 36
Final Cluster Centers
-,38060 -,21816 -,63907 2,28240
-,49686 ,78345 4,04949 -,34733
-,68070 ,96783 ,26700 ,81246
-,31239 ,67760 3,34426 -,78506
-,65485 1,14681 2,59664 -,16099
-,35098 ,53560 2,08709 -,05141
-,27665 ,16244 ,00661 ,85858
-,64346 1,16759 2,27351 -,19218
-,28389 ,22128 5,47816 -,33333
Zscore: Rácio Tráfego
Máximo Mensal Trafego
Mínimo Mensal
Zscore: Tráfego Anual de
Passageiros
Zscore: Rácio
Passageiros
Internacionais
Passageiros Totais
Zscore: Nº de Destinos
na Península com Freq.
Média Superior a 2
Movimentos por Semana
Zscore: Nº de Destinos
Fora da Península com
Freq. Média Superior a 2
Movimentos por Semana
Zscore: Comprimento da
Pista
Zscore: Taxa de
Crescimento Média Anual
[nº passageiros]
Zscore: Nº de
Companhias com
Frequência Média
Superior a 2 Movimentos
por Semana
Zscore: Carga
Movimentada [ton]
1 2 3 4
Cluster
Valores para os centros dos grupos na solução final
Centroide – média de todas as variáveis para cada grupo
Os centroides refletem os atributos de uma caso típico para cada grupo
Cada grupo é representado pelo respectivo centroíde
-3
-2
-1
0
1
2
3
4
5
6
SAZON PASST GINTER NDP NDFP PISTA TAXA NC CARGA
Cluster 1
Cluster 2
Cluster 3
Cluster 4
MADRID
GRANDES AEROPORTOS
PEQUENOS AEROPORTOS DOMÈSTICOS
AEROPORTOS INTERNACIONAIS DINÂMICOS
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 37
• O Grupo 4 reúne os‘Aeroportos Internacionais Dinâmicos’: apresentam o maior grau de internacionalização (variável GINTER), a maior taxa de crescimento, o maior índice de sazonalidade e, em termos dimensionais, situam-se numa posição intermédia. Os aeroportos de Reus e Badajoz apresentam a maior distância ao centroide representativo: Reus exibe uma taxa de crescimento superior à média e Badajoz um índice de sazonalidade superior à média e um grau de internacionalização inferior à média da classe.
• O Grupo 2 é constituído pelos ‘Grandes Aeroportos’ ibéricos. Estes 7 aeroportos apresentam o maior volume de tráfego de passageiros e de carga, oferecem o maior número de destinos fora e dentro da península, registam a maior capacidade de atracção de companhias aéreas e as maiores infra-estruturas físicas. Revelam valores moderados em termos de taxas de crescimento e graus de internacionalização e valores baixos no índice de sazonalidade.
• O aeroporto de Madrid apresenta o maior tráfego de passageiros, volume de carga e oferta interna na amostra, sendo isolado no grupo 3.No entanto dada a sua distânia ao centroíde do grupo 2 é fraca.
• O grupo 1 representa os 20 ‘Pequenos Aeroportos Domésticos’. Trata-se de aeroportos de pequena dimensão, frequentados essencialmente por passageiros nacionais, com taxas de crescimento reduzidas e índices de sazonalidade baixos.
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Distances between Final Cluster Centers
3,623 9,660 3,376
3,623 7,200 3,794
9,660 7,200 9,898
3,376 3,794 9,898
Cluster
1
2
3
4
1 2 3 4
• Distância Euclideana entre os centros dos grupos finais:
– valores elevados indicam que os grupos são bastante
diferentes entre si
– valores reduzidos indicam que os grupos não são muito
diferentes etre si
– a tabela é simétrica
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 38
ANOVA
10,055 3 ,224 35 44,922 ,000
9,728 3 ,252 35 38,623 ,000
7,956 3 ,404 35 19,707 ,000
7,154 3 ,472 35 15,142 ,000
10,258 3 ,206 35 49,679 ,000
3,412 3 ,793 35 4,301 ,011
1,887 3 ,924 35 2,042 ,126
9,819 3 ,244 35 40,235 ,000
10,959 3 ,146 35 74,879 ,000
Zscore: Rácio Tráfego
Máximo Mensal Trafego
Mínimo Mensal
Zscore: Tráfego Anual de
Passageiros
Zscore: Rácio
Passageiros
Internacionais
Passageiros Totais
Zscore: Nº de Destinos
na Península com Freq.
Média Superior a 2
Movimentos por Semana
Zscore: Nº de Destinos
Fora da Península com
Freq. Média Superior a 2
Movimentos por Semana
Zscore: Comprimento da
Pista
Zscore: Taxa de
Crescimento Média Anual
[nº passageiros]
Zscore: Nº de
Companhias com
Frequência Média
Superior a 2 Movimentos
por Semana
Zscore: Carga
Movimentada [ton]
Mean Square df
Cluster
Mean Square df
Error
F Sig.
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this and
thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
A tabela ANOVA indica quais as varíáveis que mais contribuem para a solução final.
As variáveis às quais se associam os maiores valores para F fornecem o maior grau de separação entre os grupos
Os grupos formados não se distinguem na variável taxa média de crescimento
Para analisar a diferença entre as médias dos grupos é necessária a verificação dos pressupostos de aplicação da ANOVA e se adequada, a aplicação alternativa do teste não paramétrico equivalente.
• Utilização dos centróides obtidos a partir dos métodos hierárquicos como inicialização
SoluçãoSolução22 KK--means com 3 means com 3 gruposgrupos
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 39
Exemplo 2Exemplo 2
• Aplicação de Métodos Hierárquicos no agrupamento de variáveis
• Uma empresa de telecomunicações pretende melhor compreender os padrões de uso dos seus serviços pelos consumidores actuais.
• Se os serviços puderem ser agrupados pelo uso, então a empresa poderá oferecer packages mais atractivos aos compradores
• File: telco.sav (tutorial do SPSS)
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
• Variáveis– Tollfree
– Equip
– Callcard
– Wireless
– Multiline
– Voice
– Pager
– Internet
– Callid
– Callwait
– Confer
– ebill
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 40
Ward Ward –– Squared Euclidian DistanceSquared Euclidian Distance
1
2
3
O grupo 1 está mais próximo do grupo 2 do que do grupo 3
Between Groups Between Groups –– Simple Simple MatchingMatching
Análise de Dados
MEE, MEGI e MGRH
ISLA
5. Análise de Clusters
Ana Oliveira-Brochado
Outubro 2011 41
Between Groups Between Groups –– JaccardJaccard
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
Presenças Ausências
Presenças a b
Ausências c d
Objecto mObjecto mObjecto mObjecto m
Objecto nObjecto nObjecto nObjecto n
cba
aJaccard
dcba
dasimplesiaconcordânc
++=
++++
=
A medida de Jaccard não considera 2 serviços para os quais 2 indivíduos são são subscritores na definição de semelhança entre dois indivíduos.
O simple matching considera dois consumidores semelhantes quando possuem ambos os dois serviços ou quando ambos são possuem os 2 serviços
A medida a usar depende da definição do ‘semelhante’ que se aplica à situação.
1. Segmentação de Mercado 2. Análise de clusters 3. Casos 3.1. Classificação de entidades 3.2. Classificação de variáveis
top related