Top Banner
Minería de Datos Web Prof. Dr. Marcelo G. Armentano ISISTAN, Fac. de Cs. Exactas, UNICEN [email protected]
27

Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Sep 27, 2018

Download

Documents

tranthu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Minería de Datos Web

P r o f . D r . M a r c e l o G . A r m e n t a n o

I S I S TA N , F a c . d e C s . E x a c t a s , U N I C E N

m a r c e l o . a r m e n t a n o @ i s i s t a n . u n i c e n . e d u . a r

Page 2: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Clasificación de documentos

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Método de Aprendizaje

Representaciónde Documentos

Page 3: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

La evaluación experimental de un clasificador usualmente mide su exactitud o efectividad asícomo su eficiencia

Efectividad/exactitud

La habilidad de tomar decisiones de clasificación correctas

Eficiencia

Tiempo y recursos requeridos

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 4: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Terminología

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

DatosDatos

Datos de Entrenamiento

Datos de Entrenamiento

Datos dePrueba

Datos dePrueba

Derivar Clasificador

(Modelo)

Derivar Clasificador

(Modelo)

Estimar ExactitudEstimar

Exactitud

Page 5: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Se estima la exactitud del modelo basándose en un conjunto de prueba

Se compara la etiqueta conocida de una muestra de prueba con el resultado de aplicar el modelo de clasificación

Accuracy rate es el porcentaje de muestras del conjunto de test que son correctamente clasificadas por el modelo

El conjunto de test es independiente del conjunto de entrenamiento

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 6: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

La colección de documentos se divide en conjunto de entrenamiento y conjunto de prueba o evaluación

Una vez construido el clasificador usando el conjunto de entrenamiento, este se evalúa usando el conjunto de evaluación

Evaluación del modelo

Entrenamiento Prueba

Número total de ejemplos

método holdout

(retención)Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 7: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación de Exactitud

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Clasificador(Modelo)

Clasificador(Modelo)

Datos de Entrenamiento

Datos de Entrenamiento

¿Qué tan preciso es el modelo?

Page 8: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Holdout Los datos se particionan aleatoriamente en 2 conjuntos independientes:

training set (usualmente 2/3 de los datos) y test set (1/3 de los datos)

Random subsampling Holdout k veces

K-fold cross validation Datos iniciales particionados en k subconjuntos mutuamente excluyentes

de aproximadamente igual tamaño. Se hace training y testing k veces, se calcula la exactitud promediando los resultados.

Stratisfied cross-validation Los subconjuntos son armados de tal manera que la distribución de clase de

los ejemplos en cada uno es aproximadamente igual a la que tienen los datos iniciales

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 9: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación del modelo

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 10: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación del modelo

método de cross-validation

(validación cruzada)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 11: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación del modelo

método de random subsampling

(submuestreo aleatorio)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 12: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación del modelo

método de one-out cross-validation

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 13: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación del modelo Tasa de Error

Accuracy

n

xhy

herror

n

i ii

1

)(

)(

)(1)( herrorhaccuracy

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 14: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

a representa el número de casos pertenecientes a la clase +, correctamente clasificados

b representa el número de casos pertenecientes a la clase + incorrectamente clasificados como pertenecientes a la clase -

c representa el número de casos de la clase - incorrectamente clasificados como pertenecientes a las clase +

d representa el número de casos de la clase - correctamente clasificados

Matriz de confusión

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 15: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Verdaderos Positivos El clasificador predijo que eran de la clase + y esa los ejemplos

efectivamente pertenecían a +

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 16: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Verdaderos Negativos El clasificador predijo que pertenecían a una clase - a la cual

efectivamente los ejemplos pertenecían

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 17: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Falsos Positivos (error de tipo I) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase -. El mail es legítimo, pero se lo clasifica como SPAM y por lo

tanto el usuario NO recibe el mail

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 18: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Falsos Negativos (error de tipo II) El conjunto de documentos que el clasificador clasifico como

pertenecientes a + pero que pertenecían a la clase – El mail es SPAM, pero se lo clasifica como legítimo y por lo tanto el

usuario recibe el mail

Matriz de confusión

Clase -Clases Verdaderas

Clase +

Clase +

Clases Predecidas

Clase -

ba

dc

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 19: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Y

X

ClasesVerdaderas

X

Clases Predecidas

Y

ba

dc

Tasa de Erroren la Clase

𝑏

𝑎+𝑏

𝑐

𝑐+𝑑

𝑏+𝑐

𝑎+𝑏+𝑐+𝑑

Matriz de confusión

Tasa de Error

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 20: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Matriz de ConfusiónEtiqueta

de clase

Predicciones C1 Predicciones C2 ... Predicciones Ck

Verdaderos C1

M(C1,C1) M(C1,C2) ... M(C1,Ck)

Verdaderos

C2

M(C2,C1) M(C2,C2) ... M(C2,Ck)

... ... ... ... ...

Verdaderos

Ck

M(Ck,C1) M(Ck,C2) ... M(Ck,Ck)

}:),({

)(),(iCyTyx

jji CxhCCM

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 21: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

M(Ci, Ci) Casos correctamente clasificados

M(Ci, Cj) ij Errores de clasificación

Clasificador ideal

C1 C2 ... Ck

C1 M(C1,C1) 0 ... 0

C2 0 M(C2,C2) ... 0

... ... ... ... 0

Ck 0 0 ... M(Ck,Ck)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 22: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Precisión

De la cantidad de veces que se predijo una clase, cuántas fueron correctas?

Recall

Se encontraron todos los ejemplos que pertenecen a la clase?

Exactitud (Accuracy)

Que proporción de instancias se clasificaron correctamente?

Evaluación del Modelo (Documentos)

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 23: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Accuracy vs Precision

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

La exactitud indica la proximidad de los resultados de

la medición con respecto al valor verdadero, mientras

que la precisión indica la repetibilidad o

reproductibilidad de la medida.

Page 24: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

fpvp

vpprecisiónp

fnvp

vprecallp

vnfnfpvp

vnvpaccuracy

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 25: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Clase real

Predicción

Verdaderos positivos (vp) Falsos positivos (fp)

Falsos negativos (fn) Verdaderos negativos (vn)

Precisión y recall

recallprecision

recallprecisionF

*21

recallprecision

recallprecisionF

2

2 *)1(

fpfnvp

vpF

22

2

)1(

)1(

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 26: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Evaluación Empírica - Clasificación

Error=0 Overfitting

Error>0 Buena generalización

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Page 27: Minería de Datos Web - exa.unicen.edu.ar · método de cross-validation (validación cruzada) Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN. Evaluación del modelo método de

Exactitud de predicción Habilidad del modelo de predecir correctamente la etiqueta de clase

de nuevos ejemplos

Velocidad Tiempo para construir el modelo

Tiempo para usar el modelo

Robustez Manejo de valores faltantes y ruido

Escalabilidad Eficiencia en grandes bases de datos

Facilidad de interpretación Nivel de entendimiento provisto por el modelo

Evaluación y comparación de métodos de clasificación

Prof. Dr. Marcelo G. Armentano - ISISTAN - UNICEN