NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
Estadstica Multivariante
Jaime C. Rubin-de-Celis
22 de noviembre de 2012
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
NDICE GENERAL NDICE GENERAL
ndice general
1. Anlisis de Conglomerados 11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Uso del Anlisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3. En qu consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4. Etapas para la formacin de Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1. Casos Atpicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Formacin de los Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.6.1. Procesos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6.2. Procesos No-Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.6.3. Optimizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Seleccin del nmero de Clsters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.1. Mtodos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.2. Mtodos No-Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8. Validacin Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Bibliografa 21
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 i
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
NDICE DE CUADROS NDICE DE CUADROS
ndice de cuadros
1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 ii
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
NDICE DE FIGURAS NDICE DE FIGURAS
ndice de figuras
1.1. Anlisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Cuntos Clsters puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Casos Atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.6. Anlisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.7. Mtodos (a) Aglomerativos (AGNES); y (b) Mtodos Divisivos (DIANA) . . . . . . . . . 121.8. Mtodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 121.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 151.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 iii
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
CAPTULO 1. ANLISIS DE CONGLOMERADOS
Captulo 1
Anlisis de Conglomerados
1.1. Introduccin
Figura 1.1: Anlisis de Conglo-merados
El anlisis de conglomerados (clsters) busca la identificacin degrupos dentro de una poblacin. Agrupa objetos (encuestados, productos,empresas, variables, etc.) de modo que cada objeto sea similar a los otrosobjetos en el clster y diferente de los objetos en todos los otros grupos.
El anlisis de conglomerados busca una estructura subyacente entrelas observaciones basada en un perfil multivariante. Este tcnica buscacaractersticas compartidas entre individuos u objetos. Es un enfoqueque se basa en la clasificacin de datos segn una caracterstica naturalcomn a todos los objetos.
Este mtodo engloba un grupo de tcnicas multivariantes cuyo prin-cipal propsito es agrupar objetos basndose en las caractersticas queposeen. Es una tcnica de clasificacin sin supervisin: no existen claseso grupos predefinidos.
1.2. Uso del Anlisis de ConglomeradosAl anlisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (rea del
conocimiento) con que se observe. Algunos de los mtodos basado en este conjunto de tcnicas multivarianteincluyen segmentacin (Marketing), Anlisis de Grupos Estratgicos (Estrategia), Anlisis de Q (Psicologay Medicina), Construccin de tipologas (Sistemas de Informacin), Anlisis de Clasificacin (Metereologa),Taxonomas (Biologa), Anlisis Espacial (Geolocalizacin).
Algunos ejemplos especficos de su uso:
Marketing: Identificar segmentos de consumidores para desarrollar campaas publicitarias o depromocin ms enfocadas.
Uso del Suelo (Geo-Agricultura): Identificacin de superficies en base a su uso (cosecha) usandosatlites.
Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos.
Planificacin Urbana: Identificacin de grupos de hogares de acuerdo al tipo de casa, valor, y ubicacingeogrfica.
Sismologa: Agrupacin de epicentros a lo largo de fallas continentales.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 1
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.3. EN QU CONSISTE? CAPTULO 1. ANLISIS DE CONGLOMERADOS
1.3. En qu consiste?Bsicamente lo que se busca es:
Minimizar la variacin dentro del clster; y, maximizar la variacin entre clsters.
Usando otras palabras, un buen anlisis de clsters busca:
Una alta similitud intra-clase ; y, una baja similitud entre-clases,
Figura 1.2: Distancias Entre e Inter Cluster
La calidad del anlisis de clster depende de la medida de similitud o distancia que se ocupe. La calidadtambin depende de la habilidad en identificar patrones subyacentes.
El Anlisis de Clster puede ser muy subjetivo, a manera de ejemplo, considere las siguientes tareas:
Ejemplo 1.1.Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrin, tiburn azul, vbora, gaviota, pezdorado, rana, salmn.
Criterios de Agrupacin
Por la forma en que tienen a su progenie
Por el hecho de tener pulmones
Por el entorno en el que viven
Por la forma en que tienen a su progenie y porque tienen pulmones
Cul es la forma correcta?
1.4. Etapas para la formacin de ClstersEl anlisis de clster puede realizarse en 5 pasos o etapas simples y claramente definidas (Romesburg,
2004).
1er. Paso: Formular el problema (ver ejemplo anterior).En esta etapa, el investigador puede realizar entrevistas informales para identificar y seleccionarlas variables en las que basar la agrupacin, ya que si se incluyen variables irrelevantes, puedendistorsionar el problema.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 2
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
Figura 1.3: Cuntos Clsters puede encontrar?
2do. Paso: Seleccionar una medida de similitud.La forma en que generalmente se hace es en trminos de la distancia (ver siguiente seccin) entrecada par de casos; cuando la distancia es menor se considera que los casos son ms parecidos entre s.Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomiendaestandarizar los datos para eliminar la influencia de la unidad de medicin.
3er. Paso: Seleccionar un procedimiento de agrupamiento.Para este paso hay diversos mtodos (se discuten ms adelante).
4to. Paso: Decidir el nmero de conglomerados a conservar.Una vez que ya se ha hecho un clasificacin, se decidir con cuntos conglomerados se trabajar,algunas veces esto es una decisin subjetiva del investigador.
5to. Paso: Interpretar y elaborar un perfil de los conglomerados.En esta etapa se proceder a determinar las caractersticas de cada conglomerado que se conservar.
1.4.1. Casos Atpicos (outliers)
Figura 1.4: Casos Atpicos
Los casos atpicos (outliers) son objetos que nopertenecen a ningn cluster o forman un clster debaja cardinalidad (ver Figura 1.4). Para analizarestas situaciones se pueden realizar Diagramas dePerfil (Profile Analysis) u ocupar una medida deajuste como D2 o Distancia de Mahalanobis.
La existencia de casos atpicos representa unproblema importante en el anlisis de conglomera-dos.
1.5. Medida de Similitud/Dis-tancia
La distancia se expresa con una funcin de la forma: d(i, j). La definicin de las distancias dependendel tipo de datos que estemos ocupando: escala mtrica, no-mtrica, binaria, categrica, ordinal, etc.
En general, los datos estn expresados en una matriz (sin estandarizar) con n observaciones (objetos) yp variables, de la forma:
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 3
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
X =
0BBBB@x11 . . . x1k . . . x1p. . . . . . . . . . . . . . .xi1 . . . xik . . . xip. . . . . . . . . . . . . . .xn1 . . . xnk . . . xnp
1CCCCA (1.1)De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalas
diferentes. Esto generalmente puede lograrse mediante el clculo de los Z-score (con la Desviacin MediaAbsoluta):
mk =1
n(x1k + x2k + . . .+ xnk) 8k 2 [1, . . . , p]
smk =1
n(|x1k mk| + |x2k mk|) + . . .+ |xnk mk|
Zik =xik mk
smk
Usar la desviacin media absoluta (smf ), en lugar de la desviacin estndar, produce resultados msrobustos en el anlisis de clster. No obstante, tambin puede ocupar la desviacin estndar:
xk =1
n
nXi=1
xik s2k =
1
n 1nXi=1
(xik xk)2 zik = (xik xk)sk
La matriz de datos estandarizados es entonces:
Z =
0BBBB@z11 . . . z1k . . . z1p. . . . . . . . . . . . . . .zi1 . . . zik . . . zip. . . . . . . . . . . . . . .zn1 . . . znk . . . znp
1CCCCA (1.2)Luego, la matriz de datos originales (o estandarizados) debe ser transformada en una matriz de
distancias D = dij , que es simtrica con dii = 0:
D =
0BBBBB@0
d(2, 1) 0d(3, 1) d(3, 2) 0
...... . . .
d(n, 1) d(n, 2) d(n, 3) . . . 0
1CCCCCA1.5.1. Distancias para Datos de Intervalo
Por lo general usamos distancias para medir la similitud o diferencia entre dos objetos. Una de lasdistancias ms populares es la Distancia de Minkowski :
d(xi,xj) =
"pX
k=1
|xik xjk|q# 1
q
|xi1 xj1|q + |xi2 xj2|q + + |xip xjp|q
donde xi = (xi1, xi2, . . . , xip) , y xj = (xj1, xj2, . . . , xjp) son dos vectores de dimensin p; y q es un enteropositivo.
Si q = 1, esta distancia se conoce como distancia de Manhattan o tambin llamada city-block.Si q = 2, entonces tenemos Distancia Euclidiana:
d(xi,xj) =q
|xi1 xj1|2 + |xi2 xj2|2 + + |xip xjp|2
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 4
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
Formalmente, las propiedades de estas distancias son:d(xi,xj) 0d(xi,xi) = 0d(xi,xj) = d(xj,xi)d(xi,xj) d(xi,xk) + d(xk,xj)Tambin pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramtricas), u otro tipo de
ponderacin (w), como:
d(xi,xj) =qw1|xi1 xj1|2 + w2|xi2 xj2|2 + + wp|xip xjp|2
Ejemplo 1.2.Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el nmero de patentesque tienen registradas (x). Se desea conocer si existen grupos estratgicos dentro de esta industria. Lasolucin se har ocupando Stata12.
1 . list2 +-------------------+3 | firm x y |4 |-------------------|5 1. | Firma 1 0 3 |6 2. | Firma 2 1 2 |7 3. | Firma 3 4 3.5 |8 4. | Firma 4 5 5 |9 5. | Firma 5 4 4 |
10 6. | Firma 6 1 1 |11 +-------------------+12 . label var firm "Firmas"13 . label var x "Patentes"14 . label var y "Ventas"
Los datos pueden estandarizarse fcilmente:1 . egen zy = std(y)2 . egen zx = std(x)3 . list4 +-------------------------------------------+5 | firm x y zx zy |6 |-------------------------------------------|7 1. | Firma 1 0 3 -1.205607 -.0583212 |8 2. | Firma 2 1 2 -.7233642 -.7581754 |9 3. | Firma 3 4 3.5 .7233642 .2916059 |
10 4. | Firma 4 5 5 1.205607 1.341387 |11 5. | Firma 5 4 4 .7233642 .641533 |12 6. | Firma 6 1 1 -.7233642 -1.45803 |13 +-------------------------------------------+
Considerando que los datos tienen magnitudes similares (y para simplificar la presentacin de resultados),los datos no sern estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayora delos casos.
En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variablesestandarizadas (zx, zy), y as obtener resultados ms robustos.
La distribucin de estas firmas puede ser obtenida:1 . scatter y x, title(" Ventas vs. Patentes ") ///2 ylabel (0(1)5) mlabel(firm) mlabp (5) aspect (.7)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 5
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 3
Firma 4
Firma 5
Firma 6
01
23
45
Vent
as
0 1 2 3 4 5Patentes
Ventas vs. Patentes
Figura 1.5: Ventas vs. Patentes
Del grfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3,4 y 5 poseen un nivel alto de patentes y tambin de ventas; por lo que aparentemente son parte de unmismo grupo. Les llamaremos las innovadoras.
Un case particular es el de la firma 1, ya que no tiene patentes pero s Ventas por encima del promedio.Esto supone que debe revisarse si no se trata de un caso atpico (outlier). Para ello revisamos el Perfil deVariables:
1 . gen n = _n2 . label values n firm_ids3 . profileplot y x, by(n)
01
23
45
mean
y xVariables
Firma 1 Firma 2Firma 3 Firma 4Firma 5 Firma 6mean
Figura 1.6: Anlisis de Perfil de Variables
La Figura 1.6 muestra un comportamiento atpico de la firma 1, sin embargo an no puede descartarse;deben realizarse primero calcularse las distancias y los agrupamientos correspondientes.
La matriz de distancias de Manhattan (city-block) es:1 . mat diss L1 = y x, L12
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 6
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
3 . mat list L145 symmetric L1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0
Ntese que el resultado anterior tambin puede obtenerse ocupando la Distancia de Minkowski deGrado 1:
1 . mat diss M1 = y x, Lpow (1)23 . mat list M145 symmetric M1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0
En esta matriz de distancias, las menores valores estn en d3,5 = 0,5 y en d2,6 = 1, por lo que podemosesperara que stos sean los primeros grupos que se formaran (en un mtodo jerrquico). Esto tambin esconsistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es:
1 . mat diss L2 = y x, L223 . mat list L245 symmetric L2[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.4142136 09 Firma_3 4.0311289 3.354102 0
10 Firma_4 5.3851648 5 1.8027756 011 Firma_5 4.1231056 3.6055513 .5 1.4142136 012 Firma_6 2.236068 1 3.9051248 5.6568542 4.2426407 0
1.5.2. Otras Distancias1.5.2.1. Canberra
d(xi,xj) =pX
k=1
|xik xjk|xik + xjk
(1.3)
Ejemplo 1.3.Distancia de Canberra (continua del ejemplo anterior).
1 . mat diss Cb = y x, canberra names(firm)23 . mat list Cb45 symmetric Cb[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.2 09 Firma_3 1.0769231 .87272727 0
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 7
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
10 Firma_4 1.25 1.0952381 .2875817 011 Firma_5 1.1428571 .93333333 .06666667 .22222222 012 Firma_6 1.5 .33333333 1.1555556 1.3333333 1.2 0
Ntese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menordistancia est an entre las firmas 3 y 5, sin embargo, la segunda menor distancia est entre las firmas4 y 5 (d4,5 = 0,22). Ms aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden deagrupamiento ser diferente, y eventualmente, dependiendo del Mtodo de Agrupamiento, podramosencontrar soluciones diferentes.
cuando la distancia euclidiana (y tambin la de Manhattan) ponen a las firmas 2 y 6 como las mscercanas (d2,6 = 1). Esto tambin es evidente de la Figura 1.5.
1.5.2.2. Czekanowski
d(xi,xj) = 1
2666642
pXk=1
mn(xik, xjk)
pXk=1
(xik + xjk)
377775 (1.4)
1.5.2.3. Tchebyschev
d(xi,xj) = maxi=1,2,...,n
|xik xjk| (1.5)
Ejemplo 1.4.Distancia de Tchebyschev
1 . mat diss Tch = y x, maximum names(firm)23 . mat list Tch45 symmetric Tch[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1 09 Firma_3 4 3 0
10 Firma_4 5 4 1.5 011 Firma_5 4 3 .5 1 012 Firma_6 2 1 3 4 3 0
1.5.2.4. Distancia de Cosenos
d(xixj) =1
2[1 cos(xi,xj)] = 1
2
1 xi xjkxikkxjk
(1.6)
Donde
cos(xi,xj) =xi xjkxikkxjk =
xiTxjkxikkxjk =
xi1xj1 + + xipxjpqx2i1 + + x2ip
qx2j1 + + x2jp
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 8
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
cos(xi,xj) =
pXk=1
(xik xjk)vuut pXk=1
x2ik pX
h=1
x2jh
Este ltimo valor tambin se conoce como la Distancia Angular.
Ejemplo 1.5.
1 . mat diss ANG = y x, angle names(firm) dissim(oneminus)23 . mat list ANG45 symmetric ANG[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 .10557281 09 Firma_3 .34149539 .07445304 0
10 Firma_4 .29289322 .0513167 .00221484 011 Firma_5 .29289322 .0513167 .00221484 0 012 Firma_6 .29289322 .0513167 .00221484 0 0 0
Ntese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0).Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ngulos; alestar las firmas 4, 5 y 6 sobre la diagonal (45o) (ver Figura 1.5), su distancia es igual a cero.
1.5.2.5. Distancia de Mahalanobis
d(x,y) = xTA1y A es definida positiva (1.7)
Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometrade los potenciales clsters.
1.5.3. Distancias para Datos BinariosCuando trabajamos con datos binarios es ms comn hablar de similitud y no de distancia. Estas
similitudes pueden calcularse de la siguiente forma:
Cuadro 1.1: Datos Binarios
Objeto j1 0 Suma
Objeto i1 a b a+b0 c d c+d
Suma a+c b+d p
Similitud para variables simtricas binarias:
sim(i, j) =b+ c
a+ b+ c+ d
Similitud para variables asimtricas binarias:
sim(i, j) =b+ c
a+ b+ c
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 9
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPTULO 1. ANLISIS DE CONGLOMERADOS
Similitud de Jaccard: Jaccard (1901, 1908)
simJacard(i, j) =a
a+ b+ c
Similitud de Russel: Russel y Rao (1940)
simRussel(i, j) =b
a+ b+ c+ d
Similitud de Hamann: Hamann (1961)
simHamann(i, j) =(a+ d) (b+ c)a+ b+ c+ d
Similitud de Czekanowski: Tambin conocida como Similitud de Dice. Czekanowski (1932), Dice (1945),Srensen (1948).
simDice(i, j) =2a
2a+ b+ c
Similitud de Ochiai: Ochiai (1957)
simOchiai(i, j) =ap
(a+ b)(a+ c)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 10
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
Ejemplo 1.6.
Suponga que en una encuesta sobre acceso de tecnologa para el hogar se obtuvieron los siguientesresultados:
Cuadro 1.2: Ejemplo Distancias Datos Binarios
Nombre Sexo TV Auto Casa Comp. Telef. CableJuan M 1 0 1 0 0 0Mara F 1 0 1 0 1 0Pedro M 1 1 0 0 0 0
Sexo es el nico atributo simtrico, el resto son atributos asimtricos.
Matriz de Frecuencia Binaria (Pedro, Mara):
1 0 Total1 1 1 20 3 2 5
Total 4 3 7
simJaccard(Pedro,Maria) =1
1 + 1 + 3= 0,2
1 . list23 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+
1011 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names(name)1213 . mat list SIM1415 symmetric SIM[3,3]16 Juan Maria Pedro17 Juan 118 Maria .5 119 Pedro .33333333 .2 1
Y, para obtener la matriz de distancias ocupada luego para la formacin de clsters (note que la matrizde distancias debe siempre tener ceros en la diagonal):
1 . mat diss DIST = sex tv auto home comp cell cable , ///2 Jaccard names(name) dissim(one minus)3 . mat list DIST45 symmetric DIST [3,3]6 Juan Maria Pedro7 Juan 08 Maria .5 09 Pedro .66666667 .8 0
1.6. Formacin de los ClstersUna vez obtenida la Matriz de Distancia (D), se debe seleccionar un procedimiento para agrupar las
observaciones:
Procedimientos Jerrquicos
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 11
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
Procedimientos No-Jerarquicos
Procedimientos Compuestos
1.6.1. Procesos JerrquicosEstos procesos puede clasificarse en mtodos aglomerativos o mtodos divisivos. stos estn repre-
sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando lasobservaciones en funcin a su cercana (o distancia). En el caso de los mtodos divisivos, se parte conun nico clster que contiene a todas las observaciones y se va desagregando, de nuevo, en funcin a ladistancia.
(a) Mtodos Aglomerativos
(b) Mtodos Divisivos
Figura 1.7: Mtodos (a) Aglomerativos (AGNES); y (b) Mtodos Divisivos (DIANA)
1.6.1.1. Mtodos Aglomerativos (AGNES)
Objetos que son similares (estn cerca) son agrupados uno a uno. Son los mtodos ms sencillos y losprincipales son:
Figura 1.8: Mtodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio
Single Linkage. (Enlace Simple o Vecino ms cercano)
Este algoritmo calcula la distancias o similitudes entre pares de objetos y forma los gruposagregando al objeto vecino ms cercano
d(UV )W = mn[dUW , dVW ]
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 12
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
Una ventaja de este mtodo es que puede identificar clsters que no necesariamente tienen unaforma elipsoidal.Una desventaja es que no puede discriminar fcilmente entre grupos muy distantes. Esto sucedeporque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clsters conpoca cohesin interna se conoce como chaining (ver Figura 1.9).
Figura 1.9: Chaining
Complete Linkage. (Enlace Completo o Vecino ms lejano)
Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos ms distantes.De esta forma este algoritmo se asegura que todos los miembros de cada grupo estn dentro dela mayor distancia posible.
Average Linkage. (Enlace Promedio o Promedio de Grupo)
d(UV )W =
Pi
Pk dik
NUVNW
Donde:dik = distancia entre objeto i en cluster ( UV ) y objecto k en clusterW .NUV = nmero de objetos en cluster ( UV )NW = nmero de objetos en cluster ( W )
Mtodo de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides.
Los centroides son los valores medios de las observaciones de las variables en el valor terico delcluster.Clculo de Centroides: Suponga dos puntos (en tres dimensiones) X = (x1, x2, x3) ; Y =(y1, y2, y3). Al agrupar estos puntos en un clster, el centroide se obtiene de: Z = (z1, z2, z3).
Donde: z1 =(x1 + y1)
2; z2 =
(x2 + y2)
2; z3 =
(x3 + y3)
2
Mtodo de Ward. Mtodo de la Suma de Cuadrados
Los nuevos clsters se crean de tal manera de que se minimice la suma de cuadrados total delas distancias dentro de cada clster.
1.6.1.2. Mtodos Divisivos (DIANA):
Los mtodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando gruposque son diferentes (mayor distancia o diferencia).
Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los MtodosAglomerativos.
1.6.1.3. Representacin Grfica (Dendrogramas)
En procesos jerrquicos, es muy comn la representacin grfica de los clsters usando dendrogramas(ver Figura 1.10). stos pueden representarse en forma vertical (como se muestra) o en forma horizontal.
Siguiendo los ejemplos anteriores, se muestran a continuacin distintos tipos de agrupamiento.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 13
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
02
46
L2 d
issim
ilarit
y m
easu
re
1 2 6 3 5 4
Dendrogram for Euclidean cluster analysis
Figura 1.10: Dendrograma
Ejemplo 1.7.Distancia de Manhattan, Encadenamiento Simple
1 . cluster singlelinkage y x, L1 name(L1)23 . cluster gen Grupos_L1 = group (2)45 . table firm Grupos_L167 ----------------------8 | Grupos_L19 Firmas | 1 2
10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------18 . label var L1_ord "Valor de Corte"1920 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///21 title (" Dendrograma (Distancia de Manhattan / Single Linkage )") ///22 addplot(line L1_ord cutvalue , clpattern(dot) lcolor(red))2324 . graph export dend_L1.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 14
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
Firma 4
Firma 3
Firma 5
Firma 1
Firma 2
Firma 6
0 1 2 3 4 5L1 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Manhattan / Single Linkage)
Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple)
Ejemplo 1.8.Distancia Euclideana, Encadenamiento Promedio
1 . cluster averagelinkage y x, L2 name(L2)23 . cluster gen Grupos_L2 = group (2)45 . table firm Grupos_L267 ----------------------8 | Grupos_L29 Firmas | 1 2
10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------1819 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///20 title (" Dendrograma (Distancia Euclideana / Average Linkage )")2122 . graph export dend_L2.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 15
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 6
Firma 3
Firma 5
Firma 4
0 1 2 3 4L2 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia Euclideana / Average Linkage)
Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Ejemplo 1.9.Distancia de Canberra, Mtodo de Ward
1 . cluster ward y x, canberra name(Canberra)23 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///4 title (" Dendrograma (Distancia de Canberra / Ward )")56 . graph export dend_Canberra.eps , replace
Firma 1
Firma 3
Firma 5
Firma 4
Firma 2
Firma 6
0 .5 1 1.5 2Canberra dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Canberra / Ward)
Figura 1.13: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Ntese en este caso que la solucin ms apropiada es de 3 grupos. En caso de formar slo dos grupos,la firma 1 pasara a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedi en los ejemplosanteriores. Esto podra confirmar la sospecha de que la firma 1 es un caso atpico. Dado que el objetivo
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 16
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
ac es ver si existen grupos este caso debera ser tratado como un grupo de un miembro (o eventualmenteretirarse, por ejemplo, si despus se pretende realizar un anlisis de regresin con los datos agregados).
En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregara mucha entropia(la lnea de unin de la firma 1 al grupo est muy separada -hacia la derecha- del anterior agrupamiento).
Los grupos segn esta medida de distancia y mtodo de agrupamiento son:1 . cluster gen Canberra_3G = group (3)23 . table firm Canberra_3G45 ----------------------------6 | Canberra_3G7 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1
10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------
Ejemplo 1.10.Anlisis de Clster con Datos Binarios, Similitud de Jaccard y agrupamiento a travs del Mtodo deCentroides.
1 . list23 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+
1011 . cluster cent sex tv auto home comp cell cable , Jaccard name(Jaccard)1213 . cluster gen Grupos_Jaccard = group (2)1415 . table name Grupos_Jaccard1617 ---------------------------18 Encuestado |Grupos_Jaccard19 | 1 220 -----------+---------------21 Juan | 122 Maria | 123 Pedro | 124 -----------_---------------
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 17
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.6. FORMACIN DE LOS CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
.4
.6
.8
1
Jacc
ard
simila
rity
mea
sure
Juan Maria Pedro
y1/y2 Valor Lmite
Dendrograma (Jaccard / Centroid)
Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides)
1.6.2. Procesos No-JerrquicosLos procedimientos no jerrquicos se conocen como agrupacin de k medias (k-means clustering). Estos
mtodos se dividen en tres que son: umbral secuencial, umbral paralelo y divisin para la optimizacin. Estosmtodos no-jerrquicos parten con la generacin de una semilla y permiten en ocasiones que observacionesqueden fuera de algn clster; i.e. el mtodo de k medias es menos sensible a los outliers.
Ejemplo 1.11.
1 . cluster kmeans y x, k(3) Lpow (3) keep name(km3)23 . table firm km345 ----------------------------6 | km37 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1
10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------
Ntese que en esta oportunidad, forzando la existencia de 3 clsters, Stata respeta esta condicindejando como un nico grupo a la Firma 1 (outlier).
Asimismo, podemos obtener los centros de cada uno de los clsters.1 . list y x if km3 == .23 +---------------------+4 | y x |5 |---------------------|6 7. | 4.166667 4.333333 |7 8. | 1.5 1 |8 9. | 3 0 |9 +---------------------+
Sin embargo, con 2 medias, los resultados son consistentes con Mtodos Jerrquicos.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 18
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.7. SELECCIN DEL NMERO DE CLSTERS CAPTULO 1. ANLISIS DE CONGLOMERADOS
1 . cluster kmeans y x, k(2) Lpow (3) keep name(km2)23 . table firm km24 ----------------------5 | km26 Firmas | 1 27 ----------+-----------8 Firma 1 | 19 Firma 2 | 1
10 Firma 3 | 111 Firma 4 | 112 Firma 5 | 113 Firma 6 | 114 ----------------------1516 . list y x if km2 == .17 +---------------------+18 | y x |19 |---------------------|20 7. | 2 .6666667 |21 8. | 4.166667 4.333333 |22 +---------------------+
1.6.2.1. Mtodo del Umbral Secuencial
Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clster. Todoslos objetos con una distancia menor al umbral son agregados a este clster. A continuacin se seleccionauna segunda semilla, y se incluyen todos los objetos que estn a un distancia menor al umbral. As,sucesivamente hasta obtener el nmero deseado de clusters.
Una vez que un objeto (observacin) ha sida asignado a un clster, no es considerado para las iteracionesposteriores.
1.6.2.2. Mtodo del Umbral Paralelo
Se seleccionan varias semillas simultneamente al inicio. Cada semilla representa el centro de cadaclster. Todos los objetos con una distancia menor al umbral son agregados al clster ms cercano.
En este caso, algunos objetos pueden permanecer fuera de un clster si su distancia es superior alumbral especificado.
1.6.3. OptimizacinEste procedimiento es similar a los mtodos anteriores, con la excepcin que permite la reubicacin de
los objetos. I.e. si en proceso de iteracin, un objeto se acerca ms a otro clster, distinto del que tieneasignado en ese momento, entonces este procedimiento cambia el objeto al clster ms cercano.
1.7. Seleccin del nmero de ClstersEsto depende de la pregunta que busca responderse y de la teora subyacente. No obstante, una forma
comn de realizar esto es a travs de un Anlisis de Perfil de Clusters.Algunos software de estadstica han popularizado algunas reglas de parada como el CCC (Cluster
Cubic Criterion) popluarizado por SAS (Stata no lo tiene).La buena noticia es que se ha demostrado empricamente que los criterios subjetivos (ej. nivel de
entropa del dendrograma) son extremadamente consistentes con tcnicas ms elaboradas.
1.7.1. Mtodos JerrquicosLa seleccin del nmero de clsters se realiza en estos casos a travs de una comparacin de cambios
porcentuales en coeficientes de aglomeracin (suma de los cuadrados de las distancias entre objetos dentro
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 19
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
1.8. VALIDACIN PREDICTIVA CAPTULO 1. ANLISIS DE CONGLOMERADOS
de los clsters). Cuando el coeficiente de aglomeracin aumenta significativamente en la formacin deun nuevo grupo, entonces es momento de detener el proceso. A esta situacin comnmente se le llamaentropia.
En un estudio de indices usando Simulacin de Montercarlo, Dubes (1987) encontr que los mtodosde Enlace Completo (Vecino ms lejano) consistentemente encontraban el verdadero nmero de Clustersen comparacin a otros mtodos jerrquicos.
1.7.2. Mtodos No-JerrquicosTest de Hiptesis de comparacin de medias entre clsters. Consiste en realizar una prueba simple
de medias (con varianzas iguales), para cada una de las variables de estudio separadas segn los clstersencontrados.
1.8. Validacin PredictivaUna forma de validar el anlisis de clsters es a travs de la Validacin Predictiva. sta consiste en
dejar fuera del anlisis de clster una variable que se sabe que cambia segn el clster. Con esto, se puedever si luego del anlisis de clster la separacin de la variable extra se cumple.
Esta variable de validacin debe tener una fuerte base terica para ser ocupada como tal.
(Still working on this section!)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 20
NOCOPIAROPUBLICAR
- cJaime C
. Rubin-de-Celis
BIBLIOGRAFA BIBLIOGRAFA
Bibliografa
Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645663.
Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 21
Anlisis de ConglomeradosIntroduccinUso del Anlisis de ConglomeradosEn qu consiste?Etapas para la formacin de ClstersCasos Atpicos (outliers)
Medida de Similitud/DistanciaDistancias para Datos de IntervaloOtras DistanciasDistancias para Datos Binarios
Formacin de los ClstersProcesos JerrquicosProcesos No-JerrquicosOptimizacin
Seleccin del nmero de ClstersMtodos JerrquicosMtodos No-Jerrquicos
Validacin Predictiva
Bibliografa