Vecinos Proximos

Autor: Guadalupe Ortega [email protected]

ALGORITMOS DE CLASIFICACIÓN POR

VECINDAD

Universidad Técnica Particular de LojaEscuela de Ciencias de la Computación

Los criterios de vecindad son una de las aproximaciones más conocidas dentro de las técnicas de clasificación supervisada, que exigen la definición de una cierta medida de distancia entre los distintos elementos del espacio de representación.

Una de las ventajas que presenta ésta técnica de clasificación basadas en criterios de vecindad es su simplicidad conceptual, que quiere decir: la clasificación de un nuevo punto del espacio de representación, se calcula en función de las clases , conocidas de los puntos más próximos a él.

La idea fundamental sobre la que se apoyan éstas técnicas de clasificación se basa en muestras pertenecientes a una misma clase.

1.Se elige un número de vecinos próximos (k).2. Se elige una métrica, es decir, una función para calcular la

distancia entre dos ejemplos.3. Para cada ejemplo x:

a. Se calcula la distancia al resto de los ejemplos.b. Se seleccionan los k vecinos más cercanos.c. La clase de x es la más representada entre estos k.d. Resolución de empates. Si coincide el número de vecinos de dos o más clases, se escoge la clase con mayor probabilidad a priori. Si las probabilidades a priori coinciden, se escoge una de las clases en disputa al azar.

1.Se elige una métrica.2. Se calcula la distancia entre todos los pares de

ejemplos.3. Para cada ejemplo x:

1. Se ordenan todos los ejemplos de menor a mayor distancia a x.2. Se hacen n-1 clasificaciones de x, una para cada valorde k. Se reservan.

4. Se calcula el porcentaje de error para cada valor de k.

Las instancias se almacenan en memoria, de tal forma que cuando llega una nueva instancia cuyo valor es desconocido se intenta relacionar ésta con las instancias almacenadas (cuya clase o valor es conocida) buscando las que más se parecen , con el objetivo de usar los valores de éstas instancias similares para estimar los valores a obtener de la nueva instancia en cuestión.

Todo el trabajo en el aprendizaje basado en instancias se hace cuando llega una instancia a clasificar y no cuando se procesa el conjunto de entrenamiento. En éste sentido se trata de un método retardado o perezoso, ya que retrasa el trabajo real tanto como sea posible.

En el aprendizaje basado en instancias, cada nueva instancia se compara con las existentes usando una métrica de distancia, y la instancia más próxima se usa para asignar su clase a la instancia nueva. La variante más sencilla de éste método de clasificación es conocido como “el vecino más próximo” (nearest-neighbor). Otra variante conocida como el método de los “k vecinos más próximos” (k- nearest-neighbor), usa k vecinos más próximos, en cuyo caso la clase mayoritaria de éstos k vecinos se asigna a la nueva instancia.

En la figura anterior se observa que a la nueva instancia N se le ha de asignar la clase a ya que, entre los vecinos más próximos (marcados en un círculo), hay más instancias de la clase a que de la b.

El aprendizaje basado en instancias es muy útil para trabajar sobre tipos de datos no estandar, como los textos o multimedia. El único requerimiento para incluir un tipo de datos es la existencia de una métrica apropiada de distancia para formalizar el concepto de similitud.

Cualquier técnica de aprendizaje supervisado que admita respuesta continua y predictor continuo puede usarse para estimar no paramétricamente la función de regresión.

Calcular la distancia entre dos instancias es trivial cuando tienen un atributo numérico: bastan con calcular la diferencia entre sus valores.

Cuando hay varios atributos numéricos se puede usar la distancia euclídea, asumiendo que los atributos están normalizados y que son de igual importancia.

1 Aprendizaje Automático: Conceptos básicos y avanzados. Aspectos prácticos utilizando el software Weka. Basilio Sierra Araujo. Madrid, 2006.

2 Introducción a la Minería de Datos. José Hernández Orallo. Madrid, 2004.

Vecinos Proximos

Documents