Top Banner
1 DATA MINING Y DATA WAREHOUSING Abril-2008
160
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Mineria de Datos y Data Warehouse

1

DATA MINING

Y

DATA WAREHOUSING

Abril-2008

Page 2: Mineria de Datos y Data Warehouse

2

Parte inicial

DATA MINING

Mladen W. Nadinic

Page 3: Mineria de Datos y Data Warehouse

3

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

Page 4: Mineria de Datos y Data Warehouse

4

Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.

Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.), Springer, 2002.

Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall, 2003.

Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.

Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the ACM, November 1996, Vol. 39, nº 11, 1996.

Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.

Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.

Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann, 2001.

Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.

Bibliografía

Page 5: Mineria de Datos y Data Warehouse

5

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

Page 6: Mineria de Datos y Data Warehouse

6

Situación actual: uso extendido de los SGBD

BD son el soporte del Sistema de Información de las organizaciones

BD son diseñadas para dar soporte (eficiente) a las funciones básicas de la organización (ventas, producción, personal...)

SISTEMAS OPERACIONALES (OLTP On Line Transaction Processing)

las organizaciones almacenan grandes volúmenes de datos con información histórica

1970 2000evolución de la tecnología de gestión de datos

- SGBD eficientes

- SGBD robustos

- lenguajes y herramientas de uso de alto nivel

Situación actual de la tecnología de gestión de datos.

1. Introducción a la Minería de datos (DM)

Page 7: Mineria de Datos y Data Warehouse

7

Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización: sistemas de información para la gestión.

La organizaciones exigen nuevas prestaciones de los sistemas de información: sistemas de información para la toma de decisiones.

1. Introducción a la Minería de datos (DM)

Tecnología de almacenes de datos

Page 8: Mineria de Datos y Data Warehouse

8

Almacenes de datos (AD) (data warehouse)

Disponer de Sistemas de Información de apoyo a la

toma de decisiones*

Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización

motivación

análisis de la organización

previsiones de evolución

diseño de estrategias

* DSS: Decision Support Systems

objetivos

1. Introducción a la Minería de datos (DM)

Page 9: Mineria de Datos y Data Warehouse

9

Datos Op. 1

Datos Op. 2

Datos Op. 3

metadatos

datos de detalle

datos agregados

datos agregados

AD

gestor de carga

gestor del AD

gestor del AD

gestor de consultas

copias

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

SAD

área de almacenamiento

intermedio

1. Introducción a la Minería de datos (DM)

Arquitectura de un sistema de Almacén de Datos

Page 10: Mineria de Datos y Data Warehouse

10

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

- visión relacional de los datos

- ejecución de consultas SQL sobre el esquema relacional

- preparación de los resultados de la consulta: informe

clasificación y agrupación de filas

cálculo de totales por grupos

adición de datos calculados

consultas (informes) muy estáticos

Page 11: Mineria de Datos y Data Warehouse

11

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

- visión multidimensional de los datos

- ejecución de consultas sobre el esquema multidimensional

- navegación sobre las consultas: DRILL DOWN, ROLL UP

- facilidades para (dinámicamente):

aplicar filtros a los datos seleccionados

calcular funciones estadísticas (totales, porcentajes, ...)

resumir (agregar) o refinar (disgregar) los datos seleccionados

algunas funciones adicionales (rango, ...)

consultas (informes) muy dinámicos

Page 12: Mineria de Datos y Data Warehouse

12

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

Presentación (mas o menos sofisticada) de los datos almacenados

exploración de los datos

Estas herramientas no son capaces de extraer conocimiento de los datos consultados: patrones, tendencias, pautas, ..., que permitan hacer previsiones y tomar decisiones.

Los datos por sí sólos tienen un valor relativo, lo que de verdad es interesante es el conocimiento que se puede inferir de ellos.

Page 13: Mineria de Datos y Data Warehouse

13

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

datos conocimiento

Las herramientas de minería de datos permiten extraer conocimiento a partir de los datos almacenados.

DWpatrones, pautas, reglas, ...

Page 14: Mineria de Datos y Data Warehouse

14

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

En el contexto de un Servicio Público de Salud:

- Porcentaje de enfermos que han sido tratados de gripe este año.

- Número de pacientes de gripe durante este año, por franjas de edad.

- Crecimiento porcentual de casos de gripe en este año respecto al año anterior.

- Número de casos de gripe previsibles para los próximos años.

- Perfiles de pacientes sensibles a la gripe (grupos de riesgo).

- Relación de la gripe con otras enfermedades.

Page 15: Mineria de Datos y Data Warehouse

15

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

información extensional (datos)

información intensional (conocimiento)

Page 16: Mineria de Datos y Data Warehouse

16

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

El analista parte de una pregunta o hipótesis, explora los datos y valida o rechaza su hipótesis hasta construir su modelo de los datos.

(proceso deductivo)

El sistema encuentra y sugiere modelos de los datos.

(proceso inductivo)

Page 17: Mineria de Datos y Data Warehouse

17

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

1. Introducción a la Minería de datos (DM)

DW

Proceso inductivo:

Razonamiento hipotético de casos particulares (ejemplos) a casos

generales (reglas)

Page 18: Mineria de Datos y Data Warehouse

18

Minería de datos [Witten & Frank 2000]: proceso de extracción de conocimiento válido, útil, comprensible, y desconocido, a partir de datos almacenados.

1. Introducción a la Minería de datos (DM)

válido: el conocimiento obtenido debe ser preciso ("correcto") para nuevos conjuntos de datos (no sólo para el conjunto utilizado en su obtención).

útil: el conocimiento obtenido debe servir a la organización para tomar decisiones que le reporten algún beneficio.

comprensible: el conocimiento obtenido debe ser fácil de interpretar y usar.

novedoso: el conocimiento obtenido debe aportar a la organización, información desconocida hasta ese momento.

Page 19: Mineria de Datos y Data Warehouse

19

1. Introducción a la Minería de datos (DM)

Ejemplo1: análisis de riesgo en préstamos bancarios.

Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.

ID D-crédito

(años) C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

Page 20: Mineria de Datos y Data Warehouse

20

1. Introducción a la Minería de datos (DM)

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito

(años) C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas, que permitiesen predecir en el futuro, el posible comportamiento de un cliente que solicitase un préstamo.

Page 21: Mineria de Datos y Data Warehouse

21

1. Introducción a la Minería de datos (DM)

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito

(años) C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

Para nuestro estudio, existen dos clases de cliente: los que devuelven los préstamos y los que no los devuelven.

Las reglas generadas en el proceso de DM, deben predecir la clase de un cliente (variable objetivo) a partir de sus características (variables predictivas).

Page 22: Mineria de Datos y Data Warehouse

22

1. Introducción a la Minería de datos (DM)

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito (años)

C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

Regla 1:

Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:

Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)

entonces devuelve-préstamo = sí

...

Page 23: Mineria de Datos y Data Warehouse

23

1. Introducción a la Minería de datos (DM)

Ejemplo2: análisis de la cesta de la compra.

Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Page 24: Mineria de Datos y Data Warehouse

24

1. Introducción a la Minería de datos (DM)

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.

Page 25: Mineria de Datos y Data Warehouse

25

1. Introducción a la Minería de datos (DM)

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

Page 26: Mineria de Datos y Data Warehouse

26

1. Introducción a la Minería de datos (DM)

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.

Page 27: Mineria de Datos y Data Warehouse

27

1. Introducción a la Minería de datos (DM)

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de funciones, que permitiesen predecir el número de unidades, de cada producto, que serán vendidas el próximo mes en función de sus ventas en los meses anteriores.

Page 28: Mineria de Datos y Data Warehouse

28

1. Introducción a la Minería de datos (DM)

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

mes

ventas

producto 5

Page 29: Mineria de Datos y Data Warehouse

29

1. Introducción a la Minería de datos (DM)

Ejemplo4: definir grupos diferenciados de empleados.

El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.

Page 30: Mineria de Datos y Data Warehouse

30

1. Introducción a la Minería de datos (DM)

Ejemplo4: definir grupos diferenciados de empleados.

ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

Page 31: Mineria de Datos y Data Warehouse

31

1. Introducción a la Minería de datos (DM)

Ejemplo4: definir grupos diferenciados de empleados.

ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de grupos de empleados con características similares. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.

Page 32: Mineria de Datos y Data Warehouse

32

1. Introducción a la Minería de datos (DM)

Ejemplo4: definir grupos diferenciados de empleados.

Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8

Sí -> 0.2 Coche : No -> 0.8

Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8

Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6

M -> 0.4

Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75

Prop -> 0.25

Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25

M -> 0.75

Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17

Prop -> 0.83

Sindic. : No -> 0.67 Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83

M -> 0.17

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.

• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

Page 33: Mineria de Datos y Data Warehouse

33

1. Introducción a la Minería de datos (DM)

Ejemplo5: análisis de visitas.

Un Centro de Salud, desea analizar los factores que influyen en la asistencia (visita) de un paciente al Centro de Salud.

Factores:

Salud: salud del paciente (capacidad para acudir al centro). (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante

el último año (0: se ha pasado, 1: no se ha pasado).

Page 34: Mineria de Datos y Data Warehouse

34

1. Introducción a la Minería de datos (DM)

Ejemplo5: análisis de visitas.

ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia1 4 5 1 10 10 8 1

2 4 8 1 1 6 2 0 3 6 10 1 8 1 6 8 1

A partir de los datos de estos siete factores para un conjunto de pacientes, las técnicas de DM podrían generar un modelo de los datos consistente en un cuadro de relaciones entre los factores y la asistencia (o no asistencia) del paciente al Centro de Salud. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles

Page 35: Mineria de Datos y Data Warehouse

35

1. Introducción a la Minería de datos (DM)

Ejemplo5: análisis de visitas.

Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El cuadro de correlaciones obtenido es:

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.

Page 36: Mineria de Datos y Data Warehouse

36

• estadística.

• aprendizaje automático / IA.

• visualización de datos.

• recuperación de información (Information Retrieval).

• computación paralela / distribuida.

• bases de datos.

Relación de DM con otras disciplinas:

1. Introducción a la Minería de datos (DM)

Page 37: Mineria de Datos y Data Warehouse

37

•estadística.

•aprendizaje automático / IA.

•visualización de datos.

•recuperación de información (Information Retrieval).

•computación paralela / distribuida.

•bases de datos.

Relación de DM con otras disciplinas:

1. Introducción a la Minería de datos (DM)té

cnic

as d

e D

Mso

port

e te

cnol

ógic

o

Page 38: Mineria de Datos y Data Warehouse

38

• estadística: ha proporcionado muchos conceptos, técnicas y algorítmos utilizados en DM:

− conceptos: media, varianza, desviación, ...

− técnicas: regresión lineal y no lineal, modelización paramétrica y no paramétrica, técnicas bayesianas, ...

• aprendizaje automático / IA: ha proporcionado los principios y algoritmos para el aprendizaje de modelos a partir de ejemplos.

Relación de DM con otras disciplinas:

1. Introducción a la Minería de datos (DM)té

cnic

as

de

DM

Page 39: Mineria de Datos y Data Warehouse

39

• visualización de datos: ha proporcionado técnicas de representación visual de datos, útiles en DM:

- visualización previa: comprender mejor los datos y decidir posibles tareas de DM a utilizar.

- visualización posterior: mostrar a los usuarios, los patrones obtenidos en el proceso de DM de una forma inteligible.

• recuperación de información (Information Retrieval): ha proporcionado técnicas y algoritmos para la extracción de información a partir de datos textuales, útiles para algunas aplicaciones de DM.

Relación de DM con otras disciplinas:

1. Introducción a la Minería de datos (DM)té

cnic

as

de

DM

Page 40: Mineria de Datos y Data Warehouse

40

• bases de datos: los avances en tecnología de gestión de datos han favorecido el desarrollo del DM (mejora de la eficiencia de los algoritmos)

− sistemas de DW, herramientas de OLAP

− técnicas de optimización de consultas

− técnicas de indexación, ...

• computación paralela / distribuida: los avances en computación paralela y distribuida han favorecido el desarrollo del DM: el coste computacional de las tareas de DM se reparte entre varios procesadores (escabilidad de las soluciones).

Relación de DM con otras disciplinas:

1. Introducción a la Minería de datos (DM)so

po

rte

tecn

oló

gico

Page 41: Mineria de Datos y Data Warehouse

41

• Aplicaciones financieras y de banca:− obtención de patrones de uso fraudulento de tarjetas.− obtención de perfiles de clientes en el uso de tarjetas.− obtención de correlaciones entre indicadores financieros.− análisis de riesgos en la concesión de préstamos, ...

Áreas de Aplicación1. Introducción a la Minería de datos (DM)

• Análisis de mercado, distribución y comercio:− análisis de la cesta de la compra.− evaluación de campañas publicitarias.− obtención de perfiles de clientes.− análisis de la fidelidad de los clientes, ...

Page 42: Mineria de Datos y Data Warehouse

42

• Seguros:− identificación de clientes potencialmente caros.− identificación de clientes que pueden contratar nuevas pólizas.− identificación de clientes con comportamiento fraudulento...

Áreas de Aplicación1. Introducción a la Minería de datos (DM)

• Medicina:− diagnóstico de enfermedades.− grupos de riesgo para distintas patologías.− recomendación priorizada de fármacos.− gestión de servicios sanitarios, ...

Page 43: Mineria de Datos y Data Warehouse

43

• Otros sectores:− compañías de servicios: telecomunicaciones, agua, gas, ....− correo electrónico, agendas personales.− turismo− tráfico− uso de web− ...

Áreas de Aplicación1. Introducción a la Minería de datos (DM)

Page 44: Mineria de Datos y Data Warehouse

44

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

Page 45: Mineria de Datos y Data Warehouse

45

2. El proceso de KDD

KDD (Knowledge Discovery in Databases)

El proceso de KDD (extracción de conocimiento en bases de datos) es el proceso global que permite la extracción de conocimiento a partir de datos almacenados.

Sistemas deInformación

KD

D

Conocimiento

Evaluación /Interpretación /Visualización

Preparación delos Datos

Minería de Datos

Patrones

Page 46: Mineria de Datos y Data Warehouse

46

2. El pro

ceso

de K

DD

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Minería de datos

Modelos de datos

Evaluación

Conocimiento

Difusión y uso

Decisiones

Vista minable

Page 47: Mineria de Datos y Data Warehouse

47

2. El pro

ceso

de K

DD

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Minería de datos

Modelos de datos

Evaluación

Conocimiento

Difusión y uso

Decisiones

Vista minable

1

2

3

4

Page 48: Mineria de Datos y Data Warehouse

48

2. El proceso de KDDFase de preparación de los datos.

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección

Preparación de los datos

Vista minable: subconjunto de los datos sobre el que se va a aplicar una técnica de DM.

La “calidad del conocimiento extraido” en el proceso de KDD no depende sólo de la técnica de DM utilizada, depende

también de la calidad de los datos utilizados.

Page 49: Mineria de Datos y Data Warehouse

49

2. El proceso de KDDFase de preparación de los datos.

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección

Preparación de los datos

Estas actividades de preparación de los datos

dependen de la tarea de DM que se vaya a realizar y de los requisitos de la técnica o del

algoritmo utilizado.

Page 50: Mineria de Datos y Data Warehouse

50

2. El proceso de KDDFase de preparación de los datos.

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección

Preparación de los datos

La selección de datos es una de las tareas más importantes en la fase de preparación de los datos:

• selección vertical: los atributos (campos) seleccionados deben ser significativos para el conocimiento que se desea obtener y la tarea de DM que se pretende realizar.

• selección horizontal: a veces es suficiente realizar la tarea de DM sobre un subconjunto (muestra) de los datos disponibles.

Page 51: Mineria de Datos y Data Warehouse

51

2. El proceso de KDDFase de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable

Minería de datos: extracción de conocimiento a partir de datos almacenados.

Modelo de los datos

Descripción de los patrones o relaciones existentes en los datos.

Page 52: Mineria de Datos y Data Warehouse

52

2. El proceso de KDDFase de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable

Decisiones previas a la fase de DM

analizar el tipo de conocimiento que se desea obtener.

determinar la tarea de DM que es mas apropiada para extraer dicho conocimiento.

elegir una técnica de DM para realizar la tarea.

elegir el algoritmo mas adecuado para aplicar la técnica de DM elegida.

Page 53: Mineria de Datos y Data Warehouse

53

2. El proceso de KDDFase de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable

Ejemplo 1: análisis de riesgo en préstamos bancarios.

se desea poder predecir si un cliente devolverá o no un préstamo.

la clasificación de los clientes en "clientes de confianza" y "clientes de riesgo" a partir de sus caracterísiticas, sería una tarea de DM adecuada para la obtención del conocimiento que se busca.

la técnica de generación de reglas en forma de árboles de decisión puede producir un modelo de datos sencillo y comprensible para los empleados.

los algoritmo CART o C5.0 son algoritmos para la generación de árboles de decisión disponibles en el sistema de DM de la organización.

Page 54: Mineria de Datos y Data Warehouse

54

2. El proceso de KDD

Minería de datos

Modelos de datos

Vista minable

Tarea de DM Problema Tipo de

conocimiento

Técnica de DM

... Técnica de DM

Algoritmo ... Algoritmo

Modelo de los datos

Fase de Minería de Datos.

Page 55: Mineria de Datos y Data Warehouse

55

Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

as

Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).

Identificación de patrones en los datos que los explican o resumen.

Ejemplos: 1 y 3

Ejemplos: 2, 4 y 5

2. El proceso de KDDFase de Minería de Datos.

Page 56: Mineria de Datos y Data Warehouse

56

2. El proceso de KDD

Fase de Evaluación.

Modelos de datos

Evaluación

Conocimiento

Principio ("escandalo") de la Inducción:

Las hipótesis inducidas se pueden refutar, pero no se pueden confirmar.

Page 57: Mineria de Datos y Data Warehouse

57

2. El proceso de KDD

Fase de Evaluación.

Modelos de datos

Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de DM aplicada.

Page 58: Mineria de Datos y Data Warehouse

58

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.

2. El proceso de KDD

Page 59: Mineria de Datos y Data Warehouse

59

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

2. El proceso de KDD

Page 60: Mineria de Datos y Data Warehouse

60

Ejemplo2: análisis de la cesta de la compra.

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

2. El proceso de KDD

¿Cuál es la validez de estas reglas?

¿Qué garantía tenemos de no equivocarnos si tomamos decisiones usando estas reglas?

Page 61: Mineria de Datos y Data Warehouse

61

Ejemplo2: análisis de la cesta de la compra.

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

2. El proceso de KDD

La primera regla tiene una confianza del 100%, es decir en todos

los ejemplos (en la muestra) en los que se ha comprado pañales

también se ha comprado leche. Pero, ¿cuántos ejemplos tenemos

en la muestra en los que se haya comprado pañales?. Este valor

podría ser 1, con lo cual la regla sería poco significativa.

Page 62: Mineria de Datos y Data Warehouse

62

2. El proceso de KDD

Fase de difusión y uso.

Una vez generado y validado el modelo, éste se puede usar con distintas fines:

- los analistas toman decisiones sobre las actividades del negocio en base al conocimiento proporcionado por el modelo.

- se aplica el modelo a distintos conjuntos de datos para obtener información (conocimiento).

- se difunde el modelo (reglas, funciones, ...) entre los empleados de la organización para apoyar su trabajo.

ConocimientoDifusión y uso Decisiones

Page 63: Mineria de Datos y Data Warehouse

63

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

Page 64: Mineria de Datos y Data Warehouse

64

3. Técnicas de Minería de DatosTareas de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable

Tarea de DM Problema Tipo de

conocimiento

Técnica de DM

... Técnica de DM

Algoritmo ... Algoritmo

Modelo de los datos

Page 65: Mineria de Datos y Data Warehouse

65

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

as

Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).

Identificación de patrones en los datos que los explican o resumen.

Ejemplos: 1 y 3

Ejemplos: 2, 4 y 5

3. Técnicas de Minería de Datos

Page 66: Mineria de Datos y Data Warehouse

66

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 67: Mineria de Datos y Data Warehouse

67

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Dominio de ejemplos: D

tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}

ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi

e = <v1, v2, ..., vn> / viDi

D = {e: <v1, v2, ..., vn> / viDi}

3. Técnicas de Minería de Datos

Page 68: Mineria de Datos y Data Warehouse

68

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 69: Mineria de Datos y Data Warehouse

69

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Clasificación

Clasificación suave

Estimación de probabilidad de clasificación

Categorización

Page 70: Mineria de Datos y Data Warehouse

70

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La clasificación:

A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos) se le asigna una clase, representada por el valor de un atributo (atributo de clase). El dominio del atributo de clase es discreto, cada valor representa una clase de objeto.

Los restantes atributos que sean significativos para determinar la clase, son utilizadas por las técnicas de clasificación para generar funciones (reglas) que permiten determinar la clase de un ejemplo a partir de los valores de sus atributos significativos.

El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando las reglas generadas.

3. Técnicas de Minería de Datos

Page 71: Mineria de Datos y Data Warehouse

71

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La clasificación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = {c1, c2, ..., cm}: m clases,

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

: E S: función clasificador

3. Técnicas de Minería de Datos

Page 72: Mineria de Datos y Data Warehouse

72

Ejemplo1: análisis de riesgo en préstamos bancarios.

Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.

ID D-crédito

(años) C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

Tareas predictivas: la clasificación.

3. Técnicas de Minería de Datos

Page 73: Mineria de Datos y Data Warehouse

73

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito (años)

C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

Regla 1:

Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:

Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)

entonces devuelve-préstamo = sí

... Modelo de datos

3. Técnicas de Minería de Datos

Page 74: Mineria de Datos y Data Warehouse

74

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito (años)

C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-crédito

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

(x, y, z, w, n, ...) = 'no' : n > 0

(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500

(x, y, z, w, n, ...) = 'si' : n = 0, x > 10

...Modelo de datos

3. Técnicas de Minería de Datos

Page 75: Mineria de Datos y Data Warehouse

75

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito C-crédito Salario Casa propia Cuentas morosas ...

111 15 60.000 2.600 sí 0

Devuelve-préstamo = SÍ

(x, y, z, w, n, ...) = 'no' : n > 0

(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500

(x, y, z, w, n, ...) = 'si' : n = 0, x > 10

... Modelo de datos

3. Técnicas de Minería de Datos

Page 76: Mineria de Datos y Data Warehouse

76

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La clasificación suave:

Entrada:

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = {c1, c2, ..., cm}: m clases,

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

: E S: función clasificador

: E R: función de certeza (grado de certeza de la predicción hecha por la función )

3. Técnicas de Minería de Datos

Page 77: Mineria de Datos y Data Warehouse

77

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La estimación de probabilidad de clasificación:

Entrada:

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = {c1, c2, ..., cm}: m clases,

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

i: E R (i: 1..m): funciones de certeza (grado de certeza de que un

ejemplo sea de la clase i).

3. Técnicas de Minería de Datos

Page 78: Mineria de Datos y Data Warehouse

78

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La categorización:

Entrada:

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = {c1, c2, ..., cm}: m clases,

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

E × S: correspondencia de clasificación

3. Técnicas de Minería de Datos

Page 79: Mineria de Datos y Data Warehouse

79

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 80: Mineria de Datos y Data Warehouse

80

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La regresión:

A partir de los datos de un conjunto de ejemplos, se busca una función real entre un atributo (atributo objetivo) y un conjunto de atributos significativos del tipo de objeto.

Los dominios de los atributos deben ser numéricos.

El objetivo de la tarea es poder predecir el valor del atributo objetivo de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la función generada.

Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es numérico.

3. Técnicas de Minería de Datos

Page 81: Mineria de Datos y Data Warehouse

81

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La regresión:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = R|Z, (dominio numérico)

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

: E S: función de regresión

3. Técnicas de Minería de Datos

Page 82: Mineria de Datos y Data Warehouse

82

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

Regresión Lineal Global.Se buscan los coeficientes de una función lineal:

Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):

obteniendo y = w0 + w1x (n es el número de ejemplos de la muestra)

nn xwxwwy ...110

221

xxn

yxxynw

22

2

0

xxn

xyxxyw

3. Técnicas de Minería de Datos

Page 83: Mineria de Datos y Data Warehouse

83

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.

Tareas predictivas: la regresión.

3. Técnicas de Minería de Datos

Page 84: Mineria de Datos y Data Warehouse

84

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

mes

ventas

producto 5

Tareas predictivas: la regresión.

3. Técnicas de Minería de Datos

Page 85: Mineria de Datos y Data Warehouse

85

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 86: Mineria de Datos y Data Warehouse

86

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 87: Mineria de Datos y Data Warehouse

87

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

El agrupamiento o segmentación (clustering):

Se buscan grupos naturales en el conjunto de ejemplos, a partir de los valores de sus atributos.

Las técnicas de DM agrupan los ejemplos basándose en el principio de maximizar la similitud entre los elementos de un grupo y de minimizar la similitud entre los elementos de grupos distintos.

El objetivo de la tarea es poder describir de forma resumida el conjunto de ejemplos: cada grupo formado se considera un resumen de los elementos que lo forman.

3. Técnicas de Minería de Datos

Page 88: Mineria de Datos y Data Warehouse

88

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

El agrupamiento:

Entrada:

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

Salida:

- S = {c1, c2, ..., cm}: m grupos,

- : E S: función de agrupación.

3. Técnicas de Minería de Datos

Page 89: Mineria de Datos y Data Warehouse

89

Ejemplo4: definir grupos diferenciados de empleados.

El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.

Tareas descriptivas: el agrupamiento.

3. Técnicas de Minería de Datos

Page 90: Mineria de Datos y Data Warehouse

90

Ejemplo4: definir grupos diferenciados de empleados.

ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

Tareas descriptivas: el agrupamiento.

3. Técnicas de Minería de Datos

Page 91: Mineria de Datos y Data Warehouse

91

Ejemplo4: definir grupos diferenciados de empleados.

Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8

Sí -> 0.2 Coche : No -> 0.8

Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8

Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6

M -> 0.4

Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75

Prop -> 0.25

Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25

M -> 0.75

Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17

Prop -> 0.83

Sindic. : No -> 0.67 Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83

M -> 0.17

Tareas descriptivas: el agrupamiento.

3. Técnicas de Minería de Datos

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.

• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

Page 92: Mineria de Datos y Data Warehouse

92

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Asociación

Dependencias funcionales

Patrones secuenciales

Page 93: Mineria de Datos y Data Warehouse

93

Minería de datos

Modelos de datos

Vista minable

La asociación:

Se buscan relaciones no explícitas entre los valores de atributos discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo Y toma el valor v2"

La existencia de una asociación entre atributos no siempre implica la existencia de una relación causa-efecto.

El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre los valores de los atributos del conjunto de ejemplos.

3. Técnicas de Minería de Datos

Tareas de Minería de Datos.

Tareas descriptivas.

Page 94: Mineria de Datos y Data Warehouse

94

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

La asociación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} (Di es generalmente discreto)

- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

Salida:

Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e

(regla direccional o dependencia de valores), o

Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e

(regla bidireccional)

3. Técnicas de Minería de Datos

Page 95: Mineria de Datos y Data Warehouse

95

Ejemplo2: análisis de la cesta de la compra.

Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Tareas descriptivas: la asociación.

3. Técnicas de Minería de Datos

Page 96: Mineria de Datos y Data Warehouse

96

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

Tareas descriptivas: la asociación.

3. Técnicas de Minería de Datos

Page 97: Mineria de Datos y Data Warehouse

97

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

R1 : pañales='si' leche='si'

R2 : huevos='si' aceite ='si'

R3 : vino='si' salmón='si' lechugas ='si'

Tareas descriptivas: la asociación.

3. Técnicas de Minería de Datos

Page 98: Mineria de Datos y Data Warehouse

98

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Clasificación de reglas de asociación.

Dominios de los atributos:

- Binarios: indican la presencia o ausencia de un item en el ejemplo.

pañales = 'si' leche = 'si' (pañales leche)

- Discretos:

país = 'Alemania' precio = 'caro'

- Numéricos:

15< edad <20 riesgo = 'alto'

3. Técnicas de Minería de Datos

Page 99: Mineria de Datos y Data Warehouse

99

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Clasificación de reglas de asociación.

Niveles de abstracción: reglas multinivel.

Las reglas de asociación no se definen al nivel básico en una dimensión, sino basándose en niveles superiores jerárquicamente en la dimensión.

Vino = 'sí' Gaseosa = 'sí'

3. Técnicas de Minería de Datos

producto categoría departamento

Page 100: Mineria de Datos y Data Warehouse

100

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

La asociación: dependencias funcionales.

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto

- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

Salida:

- Ri: Ai Aj ... Ak Ar

Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para el que Ai=x Aj=y ... Ak = z Ar=w entonces para cualquier otro ejemplo

para el que Ai=x Aj=y ... Ak = z se cumple que Ar=w.

3. Técnicas de Minería de Datos

Page 101: Mineria de Datos y Data Warehouse

101

Minería de datos

Modelos de datos

Vista minable

Los patrones secuenciales:

Se trata de buscar asociaciones de la forma: "si sucede el evento X en el instante de tiempo t entonces sucederá el evento Y en el instante t+n"

El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen entre los valores de los atributos del conjunto de ejemplos.

3. Técnicas de Minería de Datos

Tareas de Minería de Datos.

Tareas descriptivas.

Page 102: Mineria de Datos y Data Warehouse

102

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

Los patrones secuenciales:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto

- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

Salida:

Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)

(regla direccional o dependencia de valores), o

Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)

(regla bidireccional)

3. Técnicas de Minería de Datos

Page 103: Mineria de Datos y Data Warehouse

103

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas: patrones secuenciales

3. Técnicas de Minería de Datos

Page 104: Mineria de Datos y Data Warehouse

104

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas: patrones secuenciales

3. Técnicas de Minería de Datos

Page 105: Mineria de Datos y Data Warehouse

105

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas: patrones secuenciales

3. Técnicas de Minería de Datos

Page 106: Mineria de Datos y Data Warehouse

106

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Page 107: Mineria de Datos y Data Warehouse

107

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas descriptivas.

La correlación

Se busca el grado de similitud de los valores de dos atributos numéricos.

El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]): si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.

El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre atributos del conjunto de ejemplos.

3. Técnicas de Minería de Datos

Page 108: Mineria de Datos y Data Warehouse

108

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

La correlación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

Salida:

R: {A1, A2 ,An} x {A1, A2 ,An} [-1 .. 1]

Función que asigna a cada par de atributos del esquema del ejemplo un valor de correlación.

3. Técnicas de Minería de Datos

Page 109: Mineria de Datos y Data Warehouse

109

Ejemplo5: análisis de visitas.

Un Centro de Salud, desea analizar los factores que influyen en la asistencia de un paciente al Centro de Salud.

Factores:

Salud: salud del paciente. (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último

año (0: se ha pasado, 1: no se ha pasado).

Tareas descriptivas: la correlación.

3. Técnicas de Minería de Datos

Page 110: Mineria de Datos y Data Warehouse

110

Ejemplo5: análisis de visitas.

Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El cuadro de correlaciones obtenido es:

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe correlación entre ambos atributos.

Tareas descriptivas: la correlación.

3. Técnicas de Minería de Datos

Page 111: Mineria de Datos y Data Warehouse

111

Minería de datos

Modelos de datos

Vista minable

Tarea de DM Problema Tipo de

conocimiento

Técnica de DM

... Técnica de DM

Algoritmo ... Algoritmo

Modelo de los datos

Fase de Minería de Datos.

3. Técnicas de Minería de Datos

Page 112: Mineria de Datos y Data Warehouse

112

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Clasificación:

-Ténicas estadísticas -Técnicas

bayesianas

-Técnicas de conteo de frecuencias

-Técnicas basadas en árboles de decisión

-Técnicas relacionales declarativas

-Técnicas basadas en redes neuronales

-Técnicas basadas en núcleo

-Técnicas estocásticas o difusas

-Técnicas basadas en densidad o distancia.

Page 113: Mineria de Datos y Data Warehouse

113

Minería de datos

Modelos de datos

Vista minable

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Técnicas estadísticas: expresan los modelos y patrones mediante el uso de

funciones lineales, funciones no lineales, distribuciones, correlaciones,

medidas estadísticas, etc.

Ejemplos: regresión lineal, regresión logarítmica, regresión logística,

discriminantes lineales y no lineales.

Page 114: Mineria de Datos y Data Warehouse

114

Minería de datos

Modelos de datos

Vista minable

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Técnicas bayesianas: se basan en estimar la probabilidad de pertenencia (a una clase o un grupo) mediante la estimación de las probabilidades condicionales inversas, utilizando el teorema de Bayes.

Técnicas basadas en conteo de frecuencias: se basan en contar la frecuencia con la que dos o mas sucesos se presentan conjuntamente.

Page 115: Mineria de Datos y Data Warehouse

115

Minería de datos

Modelos de datos

Vista minable

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Técnicas basadas en árboles de decisión y sistemas de aprendizaje de reglas: representan los modelos aprendidos en forma de reglas.

Ejemplos: algoritmos "divide y vencerás" (ID3/C4.5, CART), algoritmos "separa y vencerás" (CN2).

Técnicas relacionales declarativas: se basan en la representación de los modelos mediante lenguajes declarativos (lógicos, funcionales, lógico-funcionales).

Ejemplo: técnicas basadas en ILP (programación lógica inductiva) denominada "minería de datos relacional".

Page 116: Mineria de Datos y Data Warehouse

116

Minería de datos

Modelos de datos

Vista minable

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Técnicas basadas en redes neuronales artificiales: se trata de técnicas que aprenden un modelo mediante el entrenamiento de los pesos que conectan un conjunto de nodos o neuronas. La topología de la red y los pesos de las conexiones determinan el patrón aprendido.

Ejemplos: perceptón simple, redes multicapa, redes de base radial, redes de Kohonen, etc.

Técnicas basadas en núcleo y máquinas de soporte vectorial: se trata de técnicas que intentan maximizar el margen entre los grupos o las clases formadas.

Page 117: Mineria de Datos y Data Warehouse

117

Minería de datos

Modelos de datos

Vista minable

Fase de Minería de Datos.

Técnicas de Minería de Datos.

3. Técnicas de Minería de Datos

Técnicas estocásticasy difusas: se trata de técnicas en las que los componentes aleatorios son fundamentales o en las que se utilizan funciones de pertenencia difusa.

Técnicas basadas en casos, densidad o distancia: se trata de técnicas que se basan en medir las distancias entre los elementos, ya sea directamente, como el método de los vecinos más próximos (los casos más similares) o mediante la estimación de funciones de densidad.

Ejemplos: algoritmos de vecinos más próximos (K-NN), algoritmos jerárquicos (Two-step, COBWED), algoritmos no jerárquicos (K-means).

Page 118: Mineria de Datos y Data Warehouse

118

Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Redes Neuronales

Árboles de decisión (ID.3, C4.5, C5.0)

Árboles de decisión (CART)

Otros árboles de decisión

Redes de Kohonen

Regresión lineal y logarítmica

Regresión logística

K-means

Apriori

Naive Bayes

Page 119: Mineria de Datos y Data Warehouse

119

Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Vecinos mas próximos

Análisis factorial

Twostep, Cobwed

Algoritmos genéticos y evolutivos

Máquinas de vectores soporte

CN2 reglas

Análisis discriminante multivariante

Page 120: Mineria de Datos y Data Warehouse

120

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

k-NN (Nearest Neighbor).

k-means (Competitive learning).

Perceptron Learning.

Multilayer ANN methods (e.g. backpropagation).

Decision Tree Learning (e.g. ID3, C4.5, CART).

Bayes Classifiers.

Center Splitting Methods.

Pseudo-relational: Supercharging, Pick-and-Mix.

Relational: ILP, IFLP, SCIL.

Page 121: Mineria de Datos y Data Warehouse

121

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

k-NN (Nearest Neighbor).

k-means (Competitive learning).

Redes neuronales de Kohonen

EM (Estimated Means) (Dempster et al. 1977).

Cobweb (Fisher 1987).

AUTOCLASS

...

Page 122: Mineria de Datos y Data Warehouse

122

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

Técnicas estadísticas

Técnicas estadísticas

Técnicas de conteo de frecuencia

Page 123: Mineria de Datos y Data Warehouse

123

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

Técnicas de conteo de frecuencia

Técnicas estadísticas

Técnicas estadísticas

Page 124: Mineria de Datos y Data Warehouse

124

Técnicas de búsqueda de asociaciones:

Técnica APRIORI (Agrawal & Srikant 1994)

• es una técnica de conteo de frecuencias: se basa en contar la frecuencia con la que dos o mas sucesos ocurren conjuntamente.

• es una técnica para atributos con dominios binarios: (si/no).

.

Page 125: Mineria de Datos y Data Warehouse

125

Técnicas de búsqueda de asociaciones: Técnica APRIORI

• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con soporte >= s (soporte deseado), llamados ‘large itemsets’ (conjuntos de atributos grandes).

• FASE B: BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos formados en la fase anterior, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).

Soporte (absoluto) de un atributo: número de ejemplos de la muestra en los que el atributo toma el valor 'si'.Confianza de una regla de asociación: proporción del número de ejemplos de la muestra para los que la regla funciona bien respecto al número de ejemplos de la muestra a los que se puede aplicar la regla.

Page 126: Mineria de Datos y Data Warehouse

126

Técnicas de búsqueda de asociaciones: Técnica APRIORI

FASE A:

Dado un soporte deseado s:

Paso 1. i=1 (tamaño de los conjuntos)

Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.

Construir el conjunto Si = {{Ak}: k:1..n }.

Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar

aquellos con soporte < s.

Paso 4. Combinar los conjuntos en Si para crear conjuntos de

tamaño i+1 para formar Si+1.

Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.

Paso 6. Si Si es vacío entonces devolver Sfinal=S2 S3 ... Si

Page 127: Mineria de Datos y Data Warehouse

127

Técnicas de búsqueda de asociaciones: Técnica APRIORI

FASE B:

BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos de Sfinal, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).

Page 128: Mineria de Datos y Data Warehouse

128

FASE A:

S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }

Sfinal = S'2 S'3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

FASE B:

Fila 1 2 3 4 51 x x x2 x x x3 x x x x4 x x

muestra

soporte = 2

confianza = 0.75

{1} {3} : 1 {3} {1} : 0.67 {2} {3} : 0.67 {3} {2} : 0.67 {2} {5} : 1 {5} {2} : 1 {3} {5} : 0.67 {5} {3} : 0.67 {2,3} {5} : 1 {2,5} {3} : 0.67 {3,5} {2} : 1

atributos

ejem

plos

Page 129: Mineria de Datos y Data Warehouse

129

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

Minimal Spaning Tree

k-NN (Nearest Neighbor).

k-means (Competitive learning).

Redes neuronales de Kohonen

EM (Estimated Means) (Dempster et al. 1977).

Cobweb (Fisher 1987).

AUTOCLASS

...

Page 130: Mineria de Datos y Data Warehouse

130

3. Técnicas de Minería de DatosTécnicas de agrupamiento: métodos jerárquicos.

Un método sencillo consiste en ir agrupando ejemplos según la distancia entre ellos, e ir aumentando el límite de distancia para hacer nuevos grupos. Esto genera agrupaciones a distintos niveles, de una manera jerárquica.

Se denomina Dendograma o Hierarchical Tree Plot:

Page 131: Mineria de Datos y Data Warehouse

131

3. Técnicas de Minería de Datos

Técnicas de agrupamiento: métodos jerárquicos. Minimal Spanning Tree Clustering

Sea C el número de grupos (clusters) deseado.

Paso 1. Se define un grupo con cada ejemplo.

Paso 2. Se agrupa el par de grupos más cercanos (distnacia mínima) para formar un nuevo grupo.

Paso 3. Si número de grupos < C entonces ir a Paso 2.

Page 132: Mineria de Datos y Data Warehouse

132

3. Técnicas de Minería de Datos

Técnicas de agrupamiento: "vecinos más próximos". K-means clustering

Se utiliza para encontrar los k puntos más densos en un conjunto arbitrario de puntos.

Algoritmo:

Paso 1. Dividir aleatoriamente la muestra en k conjuntos y

calcular la media (el punto medio) de cada conjunto.

Paso 2. Reasignar cada ejemplo al conjunto con el punto medio

más cercano (distancia mínima).

Paso 3. Calcular los puntos medios de los k conjuntos.

Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.

Page 133: Mineria de Datos y Data Warehouse

133

3. Técnicas de Minería de Datos

Técnicas de agrupamiento: "vecinos más próximos". K-means clustering

El valor de k se suele determinar heurísticamente. Problemas:

Si se sabe que hay n clases, hacer k=n puede producir que, algunas veces, algún grupo use dos centros y dos grupos separados tengan que compartir centro.

Si k se elige muy grande, la generalización es pobre y las agrupaciones futuras serán malas.

Determinar el k ideal es difícil.

Page 134: Mineria de Datos y Data Warehouse

134

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación

3. Técnicas de Minería de Datos

Técnicas de DM

k-NN (Nearest Neighbor).

k-means (Competitive learning).

Perceptron Learning.

Multilayer ANN methods (e.g. backpropagation).

Decision Tree Learning (ID3, C4.5, CART).

Bayes Classifiers.

Center Splitting Methods.

Pseudo-relational: Supercharging, Pick-and-Mix.

Relational: ILP, IFLP, SCIL.

Page 135: Mineria de Datos y Data Warehouse

135

3. Técnicas de Minería de Datos

Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).Algoritmo "Divide y Vencerás":

Paso 1. Se crea un nodo raíz con S:= conjunto de ejemplos.

Paso 2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución encontrada.

Paso 3. Si todos los elementos de S no son de la misma clase entonces

- se elige una condición de partición para el conjunto S

- se aplica la condición a S (S queda subdividido en dos

subconjuntos (subárboles): los que cumplen la condición y los que

no la cumplen)

- ir al Paso 2 para cada uno de los dos subárboles.

Técnicas de clasificación: árboles de decisión.

Page 136: Mineria de Datos y Data Warehouse

136

3. Técnicas de Minería de Datos

PARTICIÓN

CUADRICULAR.

0 1

1

0

X>0.25

No

X>0.25

X>0.66X>0.75

Y>0.25 Y>0.6

Y>0.25

No Sí

X>0.75 X>0.66

Y>0.6

No No

No

Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).

Algoritmo "Divide y Vencerás":

Page 137: Mineria de Datos y Data Warehouse

137

3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:

Example Sky Temperature Humidity Wind PlayTennis1 Sunny Hot High Weak No2 Sunny Hot High Strong No3 Overcast Hot High Weak Yes4 Rain Mild High Weak Yes5 Rain Cool Normal Weak Yes6 Rain Cool Normal Strong No7 Overcast Cool Normal Strong Yes8 Sunny Mild High Weak No9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No

Page 138: Mineria de Datos y Data Warehouse

138

3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:

Reglas:Outlook=Sunny AND Humidity=Normal PlayTenis=si Outlook=Overcast PlayTenis=si Outlook=Rain AND Wind=Weak PlayTenis=si Other case PlayTenis='no'

Outlook?

YESHumidity?

SunnyOvercast

Rain

Wind?

YES YESNONO

High NormalStrong Weak

Page 139: Mineria de Datos y Data Warehouse

139

3. Técnicas de Minería de Datos

Técnicas de clasificación: "vecinos más próximos".

k-NN (Nearest Neighbour):Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).Paso 2. Si todos los ejemplos son de la misma clase, el nuevo

ejemplo se clasifica en esa clase.Paso 3. Si los ejemplos no son de la misma clase, se calcula la

distancia media por clase y se asigna a la de menor distancia, o bien se asigna a la clase con más elementos.

• El valor de k se suele determinar heurísticamente.

7-nearest neighbor1-nearest neighbor

? ?Clasificacírculo

Clasificacuadrado

PARTICIÓN 1-nearest neighbor

(Poliédrica o de Voronoi)

Page 140: Mineria de Datos y Data Warehouse

140

3. Técnicas de Minería de Datos

Técnicas de clasificación: Naive Bayes

Estas técnicas permiten determinar la probabilidad de que un nuevo ejemplo sea de una clase. Eligiendo la clase de mayor probabilidad.

p(H|E)=p(E|H)× p(H)

p(E)

donde:

- H es la hipótesis,

- E es el ejemplo,

- p(A|B) es la probabilidad del suceso A condicinada al suceso B

Page 141: Mineria de Datos y Data Warehouse

141

3. Técnicas de Minería de Datos

Técnicas de clasificación: Naive Bayes

ID Edad Hijos Practica-

deporte Salario Buen-

cliente 101 joven si no alto si 102 joven no no medio no 103 joven si si medio no 104 joven si no bajo sí 105 mayor si no bajo si 106 mayor no si medio si 107 joven no si medio si 108 joven si si alto si 109 mayor si no medio si 110 mayor no no bajo no

Una compañia de seguros dispone de los siguientes datos sobre sus clientes, clasificados en buenos y malos clientes.

Page 142: Mineria de Datos y Data Warehouse

142

3. Técnicas de Minería de Datos

Técnicas de clasificación: Naive Bayes

Edad Hijos Practica-deporte

Salario Buen-cliente

mayor no no

medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

Nuevo ejemplo E:

p(edadE|'si'): se calcula dividiendo el número de ejemplos en la muestra que tienen los

valores edad='mayor' y buen-cliente='si', dividido por el número de ejemplos en la muestra que tienen el valor buen-cliente='sí'.

p(edad|'si'): 3/7

p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p(E)

Page 143: Mineria de Datos y Data Warehouse

143

3. Técnicas de Minería de Datos

Técnicas de clasificación: Naive Bayes

Edad Hijos Practica-deporte

Salario Buen-cliente

mayor no no

medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

Nuevo ejemplo E:

p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p(E)

p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-

cliente='si', dividido por el número de ejemplos en la muestra.

p('si'): 7/10

Page 144: Mineria de Datos y Data Warehouse

144

3. Técnicas de Minería de Datos

Técnicas de clasificación: Naive Bayes

Edad Hijos Practica-deporte

Salario Buen-cliente

mayor no no

medio ?

Nuevo ejemplo E:

p('si'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p(E)

p('no'|E)=p(edadE|'no') × p(hijosE|'no') × p(practica_deporteE|'no') × p(salarioE|'no')

p(E)

Se elige la clase para la que la probabilidad de clasificación es mayor.

Page 145: Mineria de Datos y Data Warehouse

145

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

Page 146: Mineria de Datos y Data Warehouse

146

4. Evaluación de modelos Modelos de datos

Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de DM aplicada.

Page 147: Mineria de Datos y Data Warehouse

147

Modelos de datos

Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.

conjunto de entrenamiento (training set): subconjunto de ejemplos utilizado en la obtención del modelo.

conjunto de prueba o validación (test set): subconjunto de ejemplos utilizado para validar el modelo obtenido.

Tareas Predictivas.

4. Evaluación de modelos

Page 148: Mineria de Datos y Data Warehouse

148

Modelos de datos

Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.

Validación simple: si se dispone de un conjunto de ejemplos numeroso, la división se hace equitativamente (50%) y de forma aleatoria.

Validación cruzada: se utiliza cuando no se dispone de un conjunto grande de ejemplos.

Tareas Predictivas.

Page 149: Mineria de Datos y Data Warehouse

149

Modelos de datos

Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.

Validación cruzada:

- Validación cruzada simple: se divide el conjunto de ejemplos, aleatoriamente, en dos subconjuntos iguales S1 y S2. Primero se genera un modelo con S1 y se prueba con S2, obteniendo una medida para la validez del modelo. Luego se genera otro modelo con S2 y se prueba con S1, obteniendo una medida de la validez del modelo. Por último se genera un modelo con todos los datos y se le asocia como medida de validez la media de las medidas anteriores.

Tareas Predictivas.

4. Evaluación de modelos

Page 150: Mineria de Datos y Data Warehouse

150

Modelos de datos

Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.

Validación cruzada:

- Validación cruzada con n pliegues: se divide el conjunto de ejemplos, aleatoriamente, en n subconjuntos iguales. Un subconjunto se reserva para la prueba y con los otros n-1 se genera un modelo que será probado con el subconjunto reservado, obteniendo una medida de la validez del modelo. Este proceso se repite n veces, reservando en cada ocasión un subconjunto de prueba distinto. Por último se genera un modelo con todos los ejemplos y se le asocia como medida de la validez la media de las medidas de validez anteriores.

Tareas Predictivas.

4. Evaluación de modelos

Page 151: Mineria de Datos y Data Warehouse

151

Modelos de datos

Evaluación

Conocimiento

La clasificación

Medida de la validez del modelo: precisión predictiva

Precisión =

X: Nro. de ejemplos del conjunto de prueba (ejemplos etiquetados) clasificadas correctamente por el modelo.

Y: Nro. de ejemplos del conjunto de prueba

X

Y

Tareas Predictivas.

4. Evaluación de modelos

Page 152: Mineria de Datos y Data Warehouse

152

Modelos de datos

Evaluación

Conocimiento

La regresión

Medida de la validez del modelo: error cuadrático medio del valor predicho por el modelo, respecto al valor real del ejemplo de prueba.

Error =

Tareas Predictivas.

4. Evaluación de modelos

1

ni=1

n

(yti - yi )2

Yt : representa el valor devuelto por el modelo para el ejemplo.

Y: representa el valor real para el ejemplo.

n. Número de ejemplos.

Page 153: Mineria de Datos y Data Warehouse

153

Modelos de datos

Evaluación

Conocimiento

El agrupamiento

Medida de la validez del modelo: basadas en el concepto de distancia

Tareas Descriptivas.

Concepto de Similitud: ejemplos similares deben pertenecer al mismo grupo.

Concepto de Distancia: inversa de similitud.

Definición de Distancia: euclidea, de Manhattan, de Chebychev, del coseno, por diferencia, ..

4. Evaluación de modelos

Page 154: Mineria de Datos y Data Warehouse

154

Modelos de datos

Evaluación

Conocimiento

El agrupamiento

Medida de la validez del modelo: basadas en el concepto de distancia

Tareas Descriptivas.

las medidas de validez son función de la cohesión de los grupos y de la separación entre ellos.

la cohesión se puede medir por la distancia de los miembros de un grupo al centro del grupo.

la separación entre grupos se puede medir calculando la distancia media entre grupos.

4. Evaluación de modelos

Page 155: Mineria de Datos y Data Warehouse

155

Modelos de datos

Evaluación

Conocimiento

La asociación

Se mide la validez de cada una de las reglas de asociación generadas.

Medidas de la validez:

Cobertura (support): Nro. de ejemplos del conjunto de prueba a los que la regla se aplica (antecedente cierto) y funciona correctamente (consecuente cierto).

Confianza (confidence/accuracy): Proporción del nro. de ejemplos del conjunto de prueba para los que la regla funciona correctamente

Tareas Descriptivas.

4. Evaluación de modelos

Page 156: Mineria de Datos y Data Warehouse

156

Modelos de datos

Evaluación

Conocimiento

La asociación

Se mide la validez de cada una de las reglas de asociación generadas.

n: nro. de ejemplos

na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)

nc: nro. ejemplos para los que la regla funciona correctamnete (antecedente cierto y consecuente cierto)

Tareas Descriptivas.

Cobertura relativa = nc / n

Cobertura absoluta = nc

Confianza = nc / na

4. Evaluación de modelos

Page 157: Mineria de Datos y Data Warehouse

157

Modelos de datos

Evaluación

Conocimiento

La asociación

Se mide la validez de cada una de las reglas de asociación generadas.

Cobertura relativa = nc / n

Cobertura absoluta = nc

Tareas Descriptivas.

Confianza = nc / na

Valores deseables:

Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)

Confianza: 0.95 (95%)

4. Evaluación de modelos

Page 158: Mineria de Datos y Data Warehouse

158

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

Tareas descriptivas: la asociación.

4. Evaluación de modelos

Page 159: Mineria de Datos y Data Warehouse

159

Ejemplo2: análisis de la cesta de la compra.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

R1 : pañales='si' leche='si' (Confianza=1)

R2 : huevos='si' aceite ='si' (Confianza=0.5)

R3 : vino='si' salmón='si' lechugas ='si' (Confianza=0.3)

Tareas descriptivas: la asociación.

4. Evaluación de modelos

Page 160: Mineria de Datos y Data Warehouse

160

Ejemplo: .

Tareas descriptivas: la asociación.

Reglas de asociación:

R1: Casado Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).

R2: Obeso Casado (Confianza: 0.8, Soporte: 4 casos)

R3: Hijos > 0 Casado (Confianza: 1, Soporte: 2 casos).

R4: Casado Obeso (Confianza: 1, Soporte: 3 casos)

DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado11251545 5.000.000 Barcelona Ejecutivo 45 3 S S30512526 1.000.000 Melilla Abogado 25 0 S N22451616 3.000.000 León Ejecutivo 35 2 S S25152516 2.000.000 Valencia Camarero 30 0 S S23525251 1.500.000 Benidorm Animador

ParqueTemático

30 0 N N

4. Evaluación de modelos