Top Banner
Autor: Guadalupe Ortega Castillo [email protected] ALGORITMOS DE CLASIFICACIÓN POR VECINDAD Universidad Técnica Particular de Loja Escuela de Ciencias de la Computación
12

Vecinos Proximos

Jul 05, 2015

Download

Documents

geoc_hhga

CLASIFICACION SUPERVISADA
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Vecinos Proximos

Autor: Guadalupe Ortega [email protected]

ALGORITMOS DE CLASIFICACIÓN POR

VECINDAD

Universidad Técnica Particular de LojaEscuela de Ciencias de la Computación

Page 2: Vecinos Proximos

Los criterios de vecindad son una de las aproximaciones más conocidas dentro de las técnicas de clasificación supervisada, que exigen la definición de una cierta medida de distancia entre los distintos elementos del espacio de representación.

Una de las ventajas que presenta ésta técnica de clasificación basadas en criterios de vecindad es su simplicidad conceptual, que quiere decir: la clasificación de un nuevo punto del espacio de representación, se calcula en función de las clases , conocidas de los puntos más próximos a él.

Page 3: Vecinos Proximos

La idea fundamental sobre la que se apoyan éstas técnicas de clasificación se basa en muestras pertenecientes a una misma clase.

Page 4: Vecinos Proximos
Page 5: Vecinos Proximos

1.Se elige un número de vecinos próximos (k).2. Se elige una métrica, es decir, una función para calcular la

distancia entre dos ejemplos.3. Para cada ejemplo x:

a. Se calcula la distancia al resto de los ejemplos.b. Se seleccionan los k vecinos más cercanos.c. La clase de x es la más representada entre estos k.d. Resolución de empates. Si coincide el número de vecinos de dos o más clases, se escoge la clase con mayor probabilidad a priori. Si las probabilidades a priori coinciden, se escoge una de las clases en disputa al azar.

Page 6: Vecinos Proximos

1.Se elige una métrica.2. Se calcula la distancia entre todos los pares de

ejemplos.3. Para cada ejemplo x:

1. Se ordenan todos los ejemplos de menor a mayor distancia a x.2. Se hacen n-1 clasificaciones de x, una para cada valorde k. Se reservan.

4. Se calcula el porcentaje de error para cada valor de k.

Page 7: Vecinos Proximos

Las instancias se almacenan en memoria, de tal forma que cuando llega una nueva instancia cuyo valor es desconocido se intenta relacionar ésta con las instancias almacenadas (cuya clase o valor es conocida) buscando las que más se parecen , con el objetivo de usar los valores de éstas instancias similares para estimar los valores a obtener de la nueva instancia en cuestión.

Todo el trabajo en el aprendizaje basado en instancias se hace cuando llega una instancia a clasificar y no cuando se procesa el conjunto de entrenamiento. En éste sentido se trata de un método retardado o perezoso, ya que retrasa el trabajo real tanto como sea posible.

Page 8: Vecinos Proximos

En el aprendizaje basado en instancias, cada nueva instancia se compara con las existentes usando una métrica de distancia, y la instancia más próxima se usa para asignar su clase a la instancia nueva. La variante más sencilla de éste método de clasificación es conocido como “el vecino más próximo” (nearest-neighbor). Otra variante conocida como el método de los “k vecinos más próximos” (k- nearest-neighbor), usa k vecinos más próximos, en cuyo caso la clase mayoritaria de éstos k vecinos se asigna a la nueva instancia.

Page 9: Vecinos Proximos
Page 10: Vecinos Proximos

En la figura anterior se observa que a la nueva instancia N se le ha de asignar la clase a ya que, entre los vecinos más próximos (marcados en un círculo), hay más instancias de la clase a que de la b.

El aprendizaje basado en instancias es muy útil para trabajar sobre tipos de datos no estandar, como los textos o multimedia. El único requerimiento para incluir un tipo de datos es la existencia de una métrica apropiada de distancia para formalizar el concepto de similitud.

Page 11: Vecinos Proximos

Cualquier técnica de aprendizaje supervisado que admita respuesta continua y predictor continuo puede usarse para estimar no paramétricamente la función de regresión.

Calcular la distancia entre dos instancias es trivial cuando tienen un atributo numérico: bastan con calcular la diferencia entre sus valores.

Cuando hay varios atributos numéricos se puede usar la distancia euclídea, asumiendo que los atributos están normalizados y que son de igual importancia.

Page 12: Vecinos Proximos

1 Aprendizaje Automático: Conceptos básicos y avanzados. Aspectos prácticos utilizando el software Weka. Basilio Sierra Araujo. Madrid, 2006.

2 Introducción a la Minería de Datos. José Hernández Orallo. Madrid, 2004.