Top Banner
ANÁLISIS CLÚSTER DÍAZ MAZA ANTONY FAVIÁN UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
25

Diapositivas de Analisis Cluster

Dec 08, 2015

Download

Documents

Diapositivas de una técnica multivariante cuya idea basica es clasificar objetos formando grupos o conglomerados.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Diapositivas de Analisis Cluster

ANÁLISIS CLÚSTER

DÍAZ MAZA ANTONY FAVIÁN

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

Page 2: Diapositivas de Analisis Cluster

INTRODUCCIÓN

• El análisis clúster es una técnica multivariante cuya idea básica es clasificar objetos formando grupos/conglomerados (clúster) que sean lo más homogéneos posible dentro de si mismos y heterogéneos entre si.

•Surge ante la necesidad de diseñar una estrategia que permita definir grupos de objetos homogéneos. Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones y la obtención de dichos clústers depende del criterio o distancia considerados

Page 3: Diapositivas de Analisis Cluster

EJEMPLOS:

•Clasificar grupos de consumidores respecto a sus preferencias en nuevos productos

•Clasificar las entidades bancarias donde sería más rentable invertir

Page 4: Diapositivas de Analisis Cluster

PLANTEAMIENTO DEL PROBLEMA

•Consideremos una muestra X formada por n individuos sobre los que se

miden p variables, X1,…,Xp (p variables numéricas

observadas en n objetos). Sea xij el valor de la

variable Xj en el i -ésimo objeto i = 1,…,n; j = 1,…,p.

• Este conjunto X de valores numéricos se pueden ordenar en una matriz

Page 5: Diapositivas de Analisis Cluster

• La i-ésima fila de la matriz X contiene los valores de cada variable para el i-ésimo individuo, mientras que la j-ésima columna muestra los valores pertenecientes a la j-ésima variable a lo largo de todos los individuos de la muestra.

•Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de n individuos caracterizados por la

información de p variables Xj, (j = 1,2,…, p),

nos planteamos clasificarlos de manera que los individuos pertenecientes a un grupo (clúster) (y siempre con respecto a la información disponible de las variables) sean lo más similares posibles entre sí y los distintos grupos sean entre ellos tan disimilares como sea posible.

Page 6: Diapositivas de Analisis Cluster

•El análisis clúster es muy sensible a la presencia de objetos muy diferentes del resto (atípicos).

Page 7: Diapositivas de Analisis Cluster

ANÁLISIS CLÚSTER COMO TÉCNICA DE AGRUPACIÓN DE VARIABLES

•Como técnica de agrupación de variables, el análisis clúster es similar al análisis factorial. Pero, mientras que el análisis factorial es poco flexible en algunos de sus supuestos (linealidad, normalidad, variables cuantitativas, etc.) y estima de la misma manera la matriz de distancias, el análisis clúster es menos restrictivo en sus supuestos (no exige linealidad, ni simetría, permite variables categóricas, etc.) y admite varios métodos de estimación de la matriz de distancias. 

Page 8: Diapositivas de Analisis Cluster

•Como técnica de agrupación de casos, el análisis clúster es similar al análisis discriminante. Pero mientras que el análisis discriminante se centra en la agrupación de variables, es decir efectúa la clasificación tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el análisis clúster se centra en agrupar objetos, es decir permite detectar el número óptimo de grupos y su composición únicamente a partir de la similaridad existente entre los casos; además, el análisis de clúster no asume ninguna distribución específica para las variables.

ANÁLISIS CLÚSTER COMO TÉCNICA DE AGRUPACIÓN DE CASOS

Page 9: Diapositivas de Analisis Cluster

Algoritmo para la obtención de los clúster.

• Procedimientos jerárquicos

• Procedimientos no jerárquicos

Page 10: Diapositivas de Analisis Cluster

ANÁLISIS CLÚSTER NO JERÁRQUICO

•Se conoce a priori el número de k grupos

•Cada observación es asignada a un grupo

•Maximiza la homogeneidad dentro de los grupos

•Maximiza la heterogeneidad entre grupos

Page 11: Diapositivas de Analisis Cluster

•Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas. Permite trabajar conjuntamente con variables de tipo mixto (cualitativas y cuantitativas),siendo posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarización. Se utiliza cuando no se conoce el número de clústers a priori.

ANÁLISIS CLÚSTER JERÁRQUICO

Page 12: Diapositivas de Analisis Cluster

Jerárquicos aglomerativos:

•Método del Linkage Simple, Enlace Simple o Vecino más próximo

•Método del Linkage Completo, Enlace Completo o Vecino más alejado

•Método del Promedio entre grupos

•Método del Centroide

•Método del la Mediana

•Método de Ward

Page 13: Diapositivas de Analisis Cluster

Jerárquicos divisivos o disociativos

•Método del Linkage Simple

•Método del Linkage Completo

•Método del Promedio entre grupos

•Método del Centroide

•Método del la Mediana

•Análisis de Asociación

Page 14: Diapositivas de Analisis Cluster

PROCESO QUE SE DEBE SEGUIR EN UN ANÁLISIS

CLÚSTER

Page 15: Diapositivas de Analisis Cluster

•Paso 1: Selección de variables

•La clasificación dependerá de las variables elegidas. Introducir variables irrelevantes aumenta la posibilidad de errores. Hay que utilizar algún criterio de selección:

•Seleccionar sólo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del análisis clúster que se va a realizar

•Si el número de variables es muy grande se puede realizar previamente un Análisis de Componentes Principales y resumir el conjunto de variables.

Page 16: Diapositivas de Analisis Cluster

•Paso 2:Detección de valores atípicos. El análisis clúster es muy sensible a la presencia de objetos muy diferentes del resto (valores atípicos).

Page 17: Diapositivas de Analisis Cluster

•Paso 3. Seleccionar la forma de medir la distancia/disimilitud entre objetos dependiendo de si los datos con cuantitativos o cualitativos

•Datos métricos: Medidas de correlación y medidas de distancia

•Datos no métricos: Medidas de asociación.

Page 18: Diapositivas de Analisis Cluster

•Paso 4: Estandarización de los datos (Decidir si se trabaja con los datos según se miden o estandarizados). El orden de las similitudes puede cambiar bastante con sólo un cambio de escala de una de las variables por lo que sólo se realizará una tipificación cuando resulte necesario.

Page 19: Diapositivas de Analisis Cluster

•La mayoría de los métodos clúster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente

•Si queremos que todas las variables tengan la misma importancia en el análisis podemos estandarizar los datos variable por variable de varias maneras.

Estandarización

Page 20: Diapositivas de Analisis Cluster
Page 21: Diapositivas de Analisis Cluster

•Paso 5: Obtención de los clústers y valoración de la clasificación realizada

•Elegir el algoritmo para la formación de clúster (Procedimientos jerárquicos o procedimientos no jerárquicos)

•Número de Clusters

•Adecuación del modelo. Comprobar que el modelo no ha definido clúster con un solo objeto, clúster con tamaños desiguales.

Page 22: Diapositivas de Analisis Cluster

TIPOS DE ANÁLISIS

JERÁRQUICOS(LOS MÁS

RELEVANTES)

Page 23: Diapositivas de Analisis Cluster

• Enlace simple o vecino más próximo: Mide la proximidad entre dos grupos calculando la distancia entre sus objetos más próximos o la similitud entre sus objetos más semejantes

• Enlace completo o vecino más alejado: Mide la proximidad entre dos grupos calculando la distancia entre sus objetos más lejanos o la similitud entre sus objetos menos semejantes

• Enlace medio entre grupos: Mide la proximidad entre dos grupos calculando la media de las distancias entre objetos de ambos grupos o la media de las similitudes entre objetos de ambos grupos

• Enlace medio dentro de los grupos: Mide la proximidad entre dos grupos con la distancia media existente entre los miembros del grupo unión de los dos grupos

Page 24: Diapositivas de Analisis Cluster

MÉTODO DE WARD

•  Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clústers puede medirse a través de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la media del clúster en el que se integra.

• El método de Ward es el más utilizado (maximiza la Homogeneidad dentro de los grupos). - Para ello, plantea todas las posibles fusiones en cada etapa concreta y elige la que maximiza la homogeneidad

Page 25: Diapositivas de Analisis Cluster

•Método del vecino más cercano: Tiende a crear pocos grupos, aunque es muy sensible a outliers

•Método del vecino más lejano: Grupos muy homogéneos

•Método de Ward: Tiende a grupos muy compactos de tamaño similar