Analisis de Cluster

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

Estadstica Multivariante

Jaime C. Rubin-de-Celis

22 de noviembre de 2012

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

NDICE GENERAL NDICE GENERAL

ndice general

1. Anlisis de Conglomerados 11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Uso del Anlisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3. En qu consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4. Etapas para la formacin de Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4.1. Casos Atpicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6. Formacin de los Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.6.1. Procesos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6.2. Procesos No-Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.6.3. Optimizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.7. Seleccin del nmero de Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.1. Mtodos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.2. Mtodos No-Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.8. Validacin Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Bibliografa 21

Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 i

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

NDICE DE CUADROS NDICE DE CUADROS

ndice de cuadros

1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 ii

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

NDICE DE FIGURAS NDICE DE FIGURAS

ndice de figuras

1.1. Anlisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Cuntos Clsters puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Casos Atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.6. Anlisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.7. Mtodos (a) Aglomerativos (AGNES); y (b) Mtodos Divisivos (DIANA) . . . . . . . . . 121.8. Mtodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 121.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 151.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18

Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 iii

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

CAPTULO 1. ANLISIS DE CONGLOMERADOS

Captulo 1

Anlisis de Conglomerados

1.1. Introduccin

Figura 1.1: Anlisis de Conglo-merados

El anlisis de conglomerados (clsters) busca la identificacin degrupos dentro de una poblacin. Agrupa objetos (encuestados, productos,empresas, variables, etc.) de modo que cada objeto sea similar a los otrosobjetos en el clster y diferente de los objetos en todos los otros grupos.

El anlisis de conglomerados busca una estructura subyacente entrelas observaciones basada en un perfil multivariante. Este tcnica buscacaractersticas compartidas entre individuos u objetos. Es un enfoqueque se basa en la clasificacin de datos segn una caracterstica naturalcomn a todos los objetos.

Este mtodo engloba un grupo de tcnicas multivariantes cuyo prin-cipal propsito es agrupar objetos basndose en las caractersticas queposeen. Es una tcnica de clasificacin sin supervisin: no existen claseso grupos predefinidos.

1.2. Uso del Anlisis de ConglomeradosAl anlisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (rea del

conocimiento) con que se observe. Algunos de los mtodos basado en este conjunto de tcnicas multivarianteincluyen segmentacin (Marketing), Anlisis de Grupos Estratgicos (Estrategia), Anlisis de Q (Psicologay Medicina), Construccin de tipologas (Sistemas de Informacin), Anlisis de Clasificacin (Metereologa),Taxonomas (Biologa), Anlisis Espacial (Geolocalizacin).

Algunos ejemplos especficos de su uso:

Marketing: Identificar segmentos de consumidores para desarrollar campaas publicitarias o depromocin ms enfocadas.

Uso del Suelo (Geo-Agricultura): Identificacin de superficies en base a su uso (cosecha) usandosatlites.

Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos.

Planificacin Urbana: Identificacin de grupos de hogares de acuerdo al tipo de casa, valor, y ubicacingeogrfica.

Sismologa: Agrupacin de epicentros a lo largo de fallas continentales.

Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 1

NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

1.3. EN QU CONSISTE? CAPTULO 1. ANLISIS DE CONGLOMERADOS

1.3. En qu consiste?Bsicamente lo que se busca es:

Minimizar la variacin dentro del clster; y, maximizar la variacin entre clsters.

Usando otras palabras, un buen anlisis de clsters busca:

Una alta similitud intra-clase ; y, una baja similitud entre-clases,

Figura 1.2: Distancias Entre e Inter Cluster

La calidad del anlisis de clster depende de la medida de similitud o distancia que se ocupe. La calidadtambin depende de la habilidad en identificar patrones subyacentes.

El Anlisis de Clster puede ser muy subjetivo, a manera de ejemplo, considere las siguientes tareas:

Ejemplo 1.1.Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrin, tiburn azul, vbora, gaviota, pezdorado, rana, salmn.

Criterios de Agrupacin

Por la forma en que tienen a su progenie

Por el hecho de tener pulmones

Por el entorno en el que viven

Por la forma en que tienen a su progenie y porque tienen pulmones

Cul es la forma correcta?

1.4. Etapas para la formacin de ClstersEl anlisis de clster puede realizarse en 5 pasos o etapas simples y claramente definidas (Romesburg,

2004).

1er. Paso: Formular el problema (ver ejemplo anterior).En esta etapa, el investigador puede realizar entrevistas informales para identificar y seleccionarlas variables en las que basar la agrupacin, ya que si se incluyen variables irrelevantes, puedendistorsionar el problema.


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS

Figura 1.3: Cuntos Clsters puede encontrar?

2do. Paso: Seleccionar una medida de similitud.La forma en que generalmente se hace es en trminos de la distancia (ver siguiente seccin) entrecada par de casos; cuando la distancia es menor se considera que los casos son ms parecidos entre s.Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomiendaestandarizar los datos para eliminar la influencia de la unidad de medicin.

3er. Paso: Seleccionar un procedimiento de agrupamiento.Para este paso hay diversos mtodos (se discuten ms adelante).

4to. Paso: Decidir el nmero de conglomerados a conservar.Una vez que ya se ha hecho un clasificacin, se decidir con cuntos conglomerados se trabajar,algunas veces esto es una decisin subjetiva del investigador.

5to. Paso: Interpretar y elaborar un perfil de los conglomerados.En esta etapa se proceder a determinar las caractersticas de cada conglomerado que se conservar.

1.4.1. Casos Atpicos (outliers)

Figura 1.4: Casos Atpicos

Los casos atpicos (outliers) son objetos que nopertenecen a ningn cluster o forman un clster debaja cardinalidad (ver Figura 1.4). Para analizarestas situaciones se pueden realizar Diagramas dePerfil (Profile Analysis) u ocupar una medida deajuste como D2 o Distancia de Mahalanobis.

La existencia de casos atpicos representa unproblema importante en el anlisis de conglomera-dos.

1.5. Medida de Similitud/Dis-tancia

La distancia se expresa con una funcin de la forma: d(i, j). La definicin de las distancias dependendel tipo de datos que estemos ocupando: escala mtrica, no-mtrica, binaria, categrica, ordinal, etc.

En general, los datos estn expresados en una matriz (sin estandarizar) con n observaciones (objetos) yp variables, de la forma:


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


X =

0BBBB@x11 . . . x1k . . . x1p. . . . . . . . . . . . . . .xi1 . . . xik . . . xip. . . . . . . . . . . . . . .xn1 . . . xnk . . . xnp

1CCCCA (1.1)De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalas

diferentes. Esto generalmente puede lograrse mediante el clculo de los Z-score (con la Desviacin MediaAbsoluta):

mk =1

n(x1k + x2k + . . .+ xnk) 8k 2 [1, . . . , p]

smk =1

n(|x1k mk| + |x2k mk|) + . . .+ |xnk mk|

Zik =xik mk

smk

Usar la desviacin media absoluta (smf ), en lugar de la desviacin estndar, produce resultados msrobustos en el anlisis de clster. No obstante, tambin puede ocupar la desviacin estndar:

xk =1

n

nXi=1

xik s2k =

1

n 1nXi=1

(xik xk)2 zik = (xik xk)sk

La matriz de datos estandarizados es entonces:

Z =

0BBBB@z11 . . . z1k . . . z1p. . . . . . . . . . . . . . .zi1 . . . zik . . . zip. . . . . . . . . . . . . . .zn1 . . . znk . . . znp

1CCCCA (1.2)Luego, la matriz de datos originales (o estandarizados) debe ser transformada en una matriz de

distancias D = dij , que es simtrica con dii = 0:

D =

0BBBBB@0

d(2, 1) 0d(3, 1) d(3, 2) 0

...... . . .

d(n, 1) d(n, 2) d(n, 3) . . . 0

1CCCCCA1.5.1. Distancias para Datos de Intervalo

Por lo general usamos distancias para medir la similitud o diferencia entre dos objetos. Una de lasdistancias ms populares es la Distancia de Minkowski :

d(xi,xj) =

"pX

k=1

|xik xjk|q# 1

q

= qq

|xi1 xj1|q + |xi2 xj2|q + + |xip xjp|q

donde xi = (xi1, xi2, . . . , xip) , y xj = (xj1, xj2, . . . , xjp) son dos vectores de dimensin p; y q es un enteropositivo.

Si q = 1, esta distancia se conoce como distancia de Manhattan o tambin llamada city-block.Si q = 2, entonces tenemos Distancia Euclidiana:

d(xi,xj) =q

|xi1 xj1|2 + |xi2 xj2|2 + + |xip xjp|2


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Formalmente, las propiedades de estas distancias son:d(xi,xj) 0d(xi,xi) = 0d(xi,xj) = d(xj,xi)d(xi,xj) d(xi,xk) + d(xk,xj)Tambin pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramtricas), u otro tipo de

ponderacin (w), como:

d(xi,xj) =qw1|xi1 xj1|2 + w2|xi2 xj2|2 + + wp|xip xjp|2

Ejemplo 1.2.Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el nmero de patentesque tienen registradas (x). Se desea conocer si existen grupos estratgicos dentro de esta industria. Lasolucin se har ocupando Stata12.

1 . list2 +-------------------+3 | firm x y |4 |-------------------|5 1. | Firma 1 0 3 |6 2. | Firma 2 1 2 |7 3. | Firma 3 4 3.5 |8 4. | Firma 4 5 5 |9 5. | Firma 5 4 4 |

10 6. | Firma 6 1 1 |11 +-------------------+12 . label var firm "Firmas"13 . label var x "Patentes"14 . label var y "Ventas"

Los datos pueden estandarizarse fcilmente:1 . egen zy = std(y)2 . egen zx = std(x)3 . list4 +-------------------------------------------+5 | firm x y zx zy |6 |-------------------------------------------|7 1. | Firma 1 0 3 -1.205607 -.0583212 |8 2. | Firma 2 1 2 -.7233642 -.7581754 |9 3. | Firma 3 4 3.5 .7233642 .2916059 |

10 4. | Firma 4 5 5 1.205607 1.341387 |11 5. | Firma 5 4 4 .7233642 .641533 |12 6. | Firma 6 1 1 -.7233642 -1.45803 |13 +-------------------------------------------+

Considerando que los datos tienen magnitudes similares (y para simplificar la presentacin de resultados),los datos no sern estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayora delos casos.

En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variablesestandarizadas (zx, zy), y as obtener resultados ms robustos.

La distribucin de estas firmas puede ser obtenida:1 . scatter y x, title(" Ventas vs. Patentes ") ///2 ylabel (0(1)5) mlabel(firm) mlabp (5) aspect (.7)


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Firma 1

Firma 2

Firma 3

Firma 4

Firma 5

Firma 6

01

23

45

Vent

as

0 1 2 3 4 5Patentes

Ventas vs. Patentes

Figura 1.5: Ventas vs. Patentes

Del grfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3,4 y 5 poseen un nivel alto de patentes y tambin de ventas; por lo que aparentemente son parte de unmismo grupo. Les llamaremos las innovadoras.

Un case particular es el de la firma 1, ya que no tiene patentes pero s Ventas por encima del promedio.Esto supone que debe revisarse si no se trata de un caso atpico (outlier). Para ello revisamos el Perfil deVariables:

1 . gen n = _n2 . label values n firm_ids3 . profileplot y x, by(n)

01

23

45

mean

y xVariables

Firma 1 Firma 2Firma 3 Firma 4Firma 5 Firma 6mean

Figura 1.6: Anlisis de Perfil de Variables

La Figura 1.6 muestra un comportamiento atpico de la firma 1, sin embargo an no puede descartarse;deben realizarse primero calcularse las distancias y los agrupamientos correspondientes.

La matriz de distancias de Manhattan (city-block) es:1 . mat diss L1 = y x, L12


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


3 . mat list L145 symmetric L1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0

10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0

Ntese que el resultado anterior tambin puede obtenerse ocupando la Distancia de Minkowski deGrado 1:

1 . mat diss M1 = y x, Lpow (1)23 . mat list M145 symmetric M1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0

10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0

En esta matriz de distancias, las menores valores estn en d3,5 = 0,5 y en d2,6 = 1, por lo que podemosesperara que stos sean los primeros grupos que se formaran (en un mtodo jerrquico). Esto tambin esconsistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es:

1 . mat diss L2 = y x, L223 . mat list L245 symmetric L2[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.4142136 09 Firma_3 4.0311289 3.354102 0

10 Firma_4 5.3851648 5 1.8027756 011 Firma_5 4.1231056 3.6055513 .5 1.4142136 012 Firma_6 2.236068 1 3.9051248 5.6568542 4.2426407 0

1.5.2. Otras Distancias1.5.2.1. Canberra

d(xi,xj) =pX

k=1

|xik xjk|xik + xjk

(1.3)

Ejemplo 1.3.Distancia de Canberra (continua del ejemplo anterior).

1 . mat diss Cb = y x, canberra names(firm)23 . mat list Cb45 symmetric Cb[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.2 09 Firma_3 1.0769231 .87272727 0


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


10 Firma_4 1.25 1.0952381 .2875817 011 Firma_5 1.1428571 .93333333 .06666667 .22222222 012 Firma_6 1.5 .33333333 1.1555556 1.3333333 1.2 0

Ntese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menordistancia est an entre las firmas 3 y 5, sin embargo, la segunda menor distancia est entre las firmas4 y 5 (d4,5 = 0,22). Ms aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden deagrupamiento ser diferente, y eventualmente, dependiendo del Mtodo de Agrupamiento, podramosencontrar soluciones diferentes.

cuando la distancia euclidiana (y tambin la de Manhattan) ponen a las firmas 2 y 6 como las mscercanas (d2,6 = 1). Esto tambin es evidente de la Figura 1.5.

1.5.2.2. Czekanowski

d(xi,xj) = 1

2666642

pXk=1

mn(xik, xjk)

pXk=1

(xik + xjk)

377775 (1.4)

1.5.2.3. Tchebyschev

d(xi,xj) = maxi=1,2,...,n

|xik xjk| (1.5)

Ejemplo 1.4.Distancia de Tchebyschev

1 . mat diss Tch = y x, maximum names(firm)23 . mat list Tch45 symmetric Tch[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1 09 Firma_3 4 3 0

10 Firma_4 5 4 1.5 011 Firma_5 4 3 .5 1 012 Firma_6 2 1 3 4 3 0

1.5.2.4. Distancia de Cosenos

d(xixj) =1

2[1 cos(xi,xj)] = 1

2

1 xi xjkxikkxjk

(1.6)

Donde

cos(xi,xj) =xi xjkxikkxjk =

xiTxjkxikkxjk =

xi1xj1 + + xipxjpqx2i1 + + x2ip

qx2j1 + + x2jp


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


cos(xi,xj) =

pXk=1

(xik xjk)vuut pXk=1

x2ik pX

h=1

x2jh

Este ltimo valor tambin se conoce como la Distancia Angular.

Ejemplo 1.5.

1 . mat diss ANG = y x, angle names(firm) dissim(oneminus)23 . mat list ANG45 symmetric ANG[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 .10557281 09 Firma_3 .34149539 .07445304 0

10 Firma_4 .29289322 .0513167 .00221484 011 Firma_5 .29289322 .0513167 .00221484 0 012 Firma_6 .29289322 .0513167 .00221484 0 0 0

Ntese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0).Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ngulos; alestar las firmas 4, 5 y 6 sobre la diagonal (45o) (ver Figura 1.5), su distancia es igual a cero.

1.5.2.5. Distancia de Mahalanobis

d(x,y) = xTA1y A es definida positiva (1.7)

Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometrade los potenciales clsters.

1.5.3. Distancias para Datos BinariosCuando trabajamos con datos binarios es ms comn hablar de similitud y no de distancia. Estas

similitudes pueden calcularse de la siguiente forma:

Cuadro 1.1: Datos Binarios

Objeto j1 0 Suma

Objeto i1 a b a+b0 c d c+d

Suma a+c b+d p

Similitud para variables simtricas binarias:

sim(i, j) =b+ c

a+ b+ c+ d

Similitud para variables asimtricas binarias:

sim(i, j) =b+ c

a+ b+ c


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Similitud de Jaccard: Jaccard (1901, 1908)

simJacard(i, j) =a

a+ b+ c

Similitud de Russel: Russel y Rao (1940)

simRussel(i, j) =b

a+ b+ c+ d

Similitud de Hamann: Hamann (1961)

simHamann(i, j) =(a+ d) (b+ c)a+ b+ c+ d

Similitud de Czekanowski: Tambin conocida como Similitud de Dice. Czekanowski (1932), Dice (1945),Srensen (1948).

simDice(i, j) =2a

2a+ b+ c

Similitud de Ochiai: Ochiai (1957)

simOchiai(i, j) =ap

(a+ b)(a+ c)


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS

Ejemplo 1.6.

Suponga que en una encuesta sobre acceso de tecnologa para el hogar se obtuvieron los siguientesresultados:

Cuadro 1.2: Ejemplo Distancias Datos Binarios

Nombre Sexo TV Auto Casa Comp. Telef. CableJuan M 1 0 1 0 0 0Mara F 1 0 1 0 1 0Pedro M 1 1 0 0 0 0

Sexo es el nico atributo simtrico, el resto son atributos asimtricos.

Matriz de Frecuencia Binaria (Pedro, Mara):

1 0 Total1 1 1 20 3 2 5

Total 4 3 7

simJaccard(Pedro,Maria) =1

1 + 1 + 3= 0,2

1 . list23 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+

1011 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names(name)1213 . mat list SIM1415 symmetric SIM[3,3]16 Juan Maria Pedro17 Juan 118 Maria .5 119 Pedro .33333333 .2 1

Y, para obtener la matriz de distancias ocupada luego para la formacin de clsters (note que la matrizde distancias debe siempre tener ceros en la diagonal):

1 . mat diss DIST = sex tv auto home comp cell cable , ///2 Jaccard names(name) dissim(one minus)3 . mat list DIST45 symmetric DIST [3,3]6 Juan Maria Pedro7 Juan 08 Maria .5 09 Pedro .66666667 .8 0

1.6. Formacin de los ClstersUna vez obtenida la Matriz de Distancia (D), se debe seleccionar un procedimiento para agrupar las

observaciones:

Procedimientos Jerrquicos


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Procedimientos No-Jerarquicos

Procedimientos Compuestos

1.6.1. Procesos JerrquicosEstos procesos puede clasificarse en mtodos aglomerativos o mtodos divisivos. stos estn repre-

sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando lasobservaciones en funcin a su cercana (o distancia). En el caso de los mtodos divisivos, se parte conun nico clster que contiene a todas las observaciones y se va desagregando, de nuevo, en funcin a ladistancia.

(a) Mtodos Aglomerativos

(b) Mtodos Divisivos

Figura 1.7: Mtodos (a) Aglomerativos (AGNES); y (b) Mtodos Divisivos (DIANA)

1.6.1.1. Mtodos Aglomerativos (AGNES)

Objetos que son similares (estn cerca) son agrupados uno a uno. Son los mtodos ms sencillos y losprincipales son:

Figura 1.8: Mtodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio

Single Linkage. (Enlace Simple o Vecino ms cercano)

Este algoritmo calcula la distancias o similitudes entre pares de objetos y forma los gruposagregando al objeto vecino ms cercano

d(UV )W = mn[dUW , dVW ]


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Una ventaja de este mtodo es que puede identificar clsters que no necesariamente tienen unaforma elipsoidal.Una desventaja es que no puede discriminar fcilmente entre grupos muy distantes. Esto sucedeporque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clsters conpoca cohesin interna se conoce como chaining (ver Figura 1.9).

Figura 1.9: Chaining

Complete Linkage. (Enlace Completo o Vecino ms lejano)

Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos ms distantes.De esta forma este algoritmo se asegura que todos los miembros de cada grupo estn dentro dela mayor distancia posible.

Average Linkage. (Enlace Promedio o Promedio de Grupo)

d(UV )W =

Pi

Pk dik

NUVNW

Donde:dik = distancia entre objeto i en cluster ( UV ) y objecto k en clusterW .NUV = nmero de objetos en cluster ( UV )NW = nmero de objetos en cluster ( W )

Mtodo de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides.

Los centroides son los valores medios de las observaciones de las variables en el valor terico delcluster.Clculo de Centroides: Suponga dos puntos (en tres dimensiones) X = (x1, x2, x3) ; Y =(y1, y2, y3). Al agrupar estos puntos en un clster, el centroide se obtiene de: Z = (z1, z2, z3).

Donde: z1 =(x1 + y1)

2; z2 =

(x2 + y2)

2; z3 =

(x3 + y3)

2

Mtodo de Ward. Mtodo de la Suma de Cuadrados

Los nuevos clsters se crean de tal manera de que se minimice la suma de cuadrados total delas distancias dentro de cada clster.

1.6.1.2. Mtodos Divisivos (DIANA):

Los mtodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando gruposque son diferentes (mayor distancia o diferencia).

Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los MtodosAglomerativos.

1.6.1.3. Representacin Grfica (Dendrogramas)

En procesos jerrquicos, es muy comn la representacin grfica de los clsters usando dendrogramas(ver Figura 1.10). stos pueden representarse en forma vertical (como se muestra) o en forma horizontal.

Siguiendo los ejemplos anteriores, se muestran a continuacin distintos tipos de agrupamiento.


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


02

46

L2 d

issim

ilarit

y m

easu

re

1 2 6 3 5 4

Dendrogram for Euclidean cluster analysis

Figura 1.10: Dendrograma

Ejemplo 1.7.Distancia de Manhattan, Encadenamiento Simple

1 . cluster singlelinkage y x, L1 name(L1)23 . cluster gen Grupos_L1 = group (2)45 . table firm Grupos_L167 ----------------------8 | Grupos_L19 Firmas | 1 2

10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------18 . label var L1_ord "Valor de Corte"1920 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///21 title (" Dendrograma (Distancia de Manhattan / Single Linkage )") ///22 addplot(line L1_ord cutvalue , clpattern(dot) lcolor(red))2324 . graph export dend_L1.eps , replace


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Firma 4

Firma 3

Firma 5

Firma 1

Firma 2

Firma 6

0 1 2 3 4 5L1 dissimilarity measure

y1/y2 Valor de Corte

Dendrograma (Distancia de Manhattan / Single Linkage)

Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple)

Ejemplo 1.8.Distancia Euclideana, Encadenamiento Promedio

1 . cluster averagelinkage y x, L2 name(L2)23 . cluster gen Grupos_L2 = group (2)45 . table firm Grupos_L267 ----------------------8 | Grupos_L29 Firmas | 1 2

10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------1819 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///20 title (" Dendrograma (Distancia Euclideana / Average Linkage )")2122 . graph export dend_L2.eps , replace


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


Firma 1

Firma 2

Firma 6

Firma 3

Firma 5

Firma 4

0 1 2 3 4L2 dissimilarity measure


Dendrograma (Distancia Euclideana / Average Linkage)

Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)

Ejemplo 1.9.Distancia de Canberra, Mtodo de Ward

1 . cluster ward y x, canberra name(Canberra)23 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///4 title (" Dendrograma (Distancia de Canberra / Ward )")56 . graph export dend_Canberra.eps , replace

Firma 1

Firma 3

Firma 5

Firma 4

Firma 2

Firma 6

0 .5 1 1.5 2Canberra dissimilarity measure


Dendrograma (Distancia de Canberra / Ward)

Figura 1.13: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)

Ntese en este caso que la solucin ms apropiada es de 3 grupos. En caso de formar slo dos grupos,la firma 1 pasara a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedi en los ejemplosanteriores. Esto podra confirmar la sospecha de que la firma 1 es un caso atpico. Dado que el objetivo


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


ac es ver si existen grupos este caso debera ser tratado como un grupo de un miembro (o eventualmenteretirarse, por ejemplo, si despus se pretende realizar un anlisis de regresin con los datos agregados).

En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregara mucha entropia(la lnea de unin de la firma 1 al grupo est muy separada -hacia la derecha- del anterior agrupamiento).

Los grupos segn esta medida de distancia y mtodo de agrupamiento son:1 . cluster gen Canberra_3G = group (3)23 . table firm Canberra_3G45 ----------------------------6 | Canberra_3G7 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1

10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------

Ejemplo 1.10.Anlisis de Clster con Datos Binarios, Similitud de Jaccard y agrupamiento a travs del Mtodo deCentroides.

1 . list23 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+

1011 . cluster cent sex tv auto home comp cell cable , Jaccard name(Jaccard)1213 . cluster gen Grupos_Jaccard = group (2)1415 . table name Grupos_Jaccard1617 ---------------------------18 Encuestado |Grupos_Jaccard19 | 1 220 -----------+---------------21 Juan | 122 Maria | 123 Pedro | 124 -----------_---------------


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis


.4

.6

.8

1

Jacc

ard

simila

rity

mea

sure

Juan Maria Pedro

y1/y2 Valor Lmite

Dendrograma (Jaccard / Centroid)

Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides)

1.6.2. Procesos No-JerrquicosLos procedimientos no jerrquicos se conocen como agrupacin de k medias (k-means clustering). Estos

mtodos se dividen en tres que son: umbral secuencial, umbral paralelo y divisin para la optimizacin. Estosmtodos no-jerrquicos parten con la generacin de una semilla y permiten en ocasiones que observacionesqueden fuera de algn clster; i.e. el mtodo de k medias es menos sensible a los outliers.

Ejemplo 1.11.

1 . cluster kmeans y x, k(3) Lpow (3) keep name(km3)23 . table firm km345 ----------------------------6 | km37 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1

10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------

Ntese que en esta oportunidad, forzando la existencia de 3 clsters, Stata respeta esta condicindejando como un nico grupo a la Firma 1 (outlier).

Asimismo, podemos obtener los centros de cada uno de los clsters.1 . list y x if km3 == .23 +---------------------+4 | y x |5 |---------------------|6 7. | 4.166667 4.333333 |7 8. | 1.5 1 |8 9. | 3 0 |9 +---------------------+

Sin embargo, con 2 medias, los resultados son consistentes con Mtodos Jerrquicos.


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

1.7. SELECCIN DEL NMERO DE CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS

1 . cluster kmeans y x, k(2) Lpow (3) keep name(km2)23 . table firm km24 ----------------------5 | km26 Firmas | 1 27 ----------+-----------8 Firma 1 | 19 Firma 2 | 1

10 Firma 3 | 111 Firma 4 | 112 Firma 5 | 113 Firma 6 | 114 ----------------------1516 . list y x if km2 == .17 +---------------------+18 | y x |19 |---------------------|20 7. | 2 .6666667 |21 8. | 4.166667 4.333333 |22 +---------------------+

1.6.2.1. Mtodo del Umbral Secuencial

Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clster. Todoslos objetos con una distancia menor al umbral son agregados a este clster. A continuacin se seleccionauna segunda semilla, y se incluyen todos los objetos que estn a un distancia menor al umbral. As,sucesivamente hasta obtener el nmero deseado de clusters.

Una vez que un objeto (observacin) ha sida asignado a un clster, no es considerado para las iteracionesposteriores.

1.6.2.2. Mtodo del Umbral Paralelo

Se seleccionan varias semillas simultneamente al inicio. Cada semilla representa el centro de cadaclster. Todos los objetos con una distancia menor al umbral son agregados al clster ms cercano.

En este caso, algunos objetos pueden permanecer fuera de un clster si su distancia es superior alumbral especificado.

1.6.3. OptimizacinEste procedimiento es similar a los mtodos anteriores, con la excepcin que permite la reubicacin de

los objetos. I.e. si en proceso de iteracin, un objeto se acerca ms a otro clster, distinto del que tieneasignado en ese momento, entonces este procedimiento cambia el objeto al clster ms cercano.

1.7. Seleccin del nmero de ClstersEsto depende de la pregunta que busca responderse y de la teora subyacente. No obstante, una forma

comn de realizar esto es a travs de un Anlisis de Perfil de Clusters.Algunos software de estadstica han popularizado algunas reglas de parada como el CCC (Cluster

Cubic Criterion) popluarizado por SAS (Stata no lo tiene).La buena noticia es que se ha demostrado empricamente que los criterios subjetivos (ej. nivel de

entropa del dendrograma) son extremadamente consistentes con tcnicas ms elaboradas.

1.7.1. Mtodos JerrquicosLa seleccin del nmero de clsters se realiza en estos casos a travs de una comparacin de cambios

porcentuales en coeficientes de aglomeracin (suma de los cuadrados de las distancias entre objetos dentro


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

1.8. VALIDACIN PREDICTIVA CAPTULO 1. ANLISIS DE CONGLOMERADOS

de los clsters). Cuando el coeficiente de aglomeracin aumenta significativamente en la formacin deun nuevo grupo, entonces es momento de detener el proceso. A esta situacin comnmente se le llamaentropia.

En un estudio de indices usando Simulacin de Montercarlo, Dubes (1987) encontr que los mtodosde Enlace Completo (Vecino ms lejano) consistentemente encontraban el verdadero nmero de Clustersen comparacin a otros mtodos jerrquicos.

1.7.2. Mtodos No-JerrquicosTest de Hiptesis de comparacin de medias entre clsters. Consiste en realizar una prueba simple

de medias (con varianzas iguales), para cada una de las variables de estudio separadas segn los clstersencontrados.

1.8. Validacin PredictivaUna forma de validar el anlisis de clsters es a travs de la Validacin Predictiva. sta consiste en

dejar fuera del anlisis de clster una variable que se sabe que cambia segn el clster. Con esto, se puedever si luego del anlisis de clster la separacin de la variable extra se cumple.

Esta variable de validacin debe tener una fuerte base terica para ser ocupada como tal.

(Still working on this section!)


NOCOPIAROPUBLICAR

- cJaime C

. Rubin-de-Celis

BIBLIOGRAFA BIBLIOGRAFA

Bibliografa

Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645663.

Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com.


Anlisis de ConglomeradosIntroduccinUso del Anlisis de ConglomeradosEn qu consiste?Etapas para la formacin de ClstersCasos Atpicos (outliers)

Medida de Similitud/DistanciaDistancias para Datos de IntervaloOtras DistanciasDistancias para Datos Binarios

Formacin de los ClstersProcesos JerrquicosProcesos No-JerrquicosOptimizacin

Seleccin del nmero de ClstersMtodos JerrquicosMtodos No-Jerrquicos

Validacin Predictiva

Bibliografa

Analisis de Cluster

Documents

anlisis de perfil

anlisis de conglomerados1

mtodos jerrquicos

mtodos aglomerativos

mtodos basado

objetos basndose

enlace promedio

objetos encuestados