Grado en Ingeniería de Tecnologías Industriales Trabajo Fin de Grado Minería de datos. Aplicaciones de técnicas descriptivas. Autores: Miguel Novoa Contreras Tutor: José Miguel León Blanco Dep. de Organización Industrial y Gestión de Empresas I Escuela Técnica Superior de Ingeniería Universidad de Sevilla Sevilla, 2016
92
Embed
Grado en Ingeniería de Tecnologías Industriales …bibing.us.es/proyectos/abreproy/90841/fichero/TFG...Grado en Ingeniería de Tecnologías Industriales Trabajo Fin de Grado Minería
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Grado en Ingeniería de Tecnologías
Industriales
Trabajo Fin de Grado
Minería de datos. Aplicaciones de técnicas
descriptivas.
Autores: Miguel Novoa Contreras
Tutor: José Miguel León Blanco
Dep. de Organización Industrial y Gestión de Empresas I Escuela Técnica Superior de Ingeniería
Universidad de Sevilla
Sevilla, 2016
Grado en Ingeniería de Tecnologías Industriales
Trabajo Fin de Grado
Minería de datos. Aplicaciones de técnicas
descriptivas.
Autores:
Miguel Novoa Contreras
Tutor:
José Miguel León Blanco
Profesor colaborador
Dep. de Organización Industrial y Gestión de Empresas I
Escuela Técnica Superior de Ingeniería
Universidad de Sevilla
Sevilla, 2016
Trabajo Fin de Grado: Minería de datos. Aplicaciones de técnicas descriptivas.
Autores: Miguel Novoa Contreras
Tutor: José Miguel León Blanco
El tribunal nombrado para juzgar el Proyecto arriba indicado, compuesto por los siguientes miembros:
Presidente:
Vocales:
Secretario:
Acuerdan otorgarle la calificación de:
Sevilla, 2016
El Secretario del Tribunal
i
Resumen
Este proyecto ha tenido dos fases bien diferenciadas, una primera donde el objetivo era
detectar posibles clientes fraudulentos en el campo del consumo del agua y realizar una clasificación de los clientes para así conocerlos mejor. Esta parte se realizó en colaboración con mi compañero Diego Morales, que se encargaba de la detección de posibles fraudes, mientras que yo me encargaba de la clasificación de clientes. Esta parte corresponde a los puntos 1 y 2 del proyecto.
Por diferentes motivos, detallados a lo largo del proyecto, este objetivo era imposible de alcanzar, por lo que se inició la segunda parte del proyecto. Mi compañero Diego Morales se dedicó a aplicar técnicas predictivas a una base de datos con información sobre hipotiroidismo con el objetivo de detectar posibles casos de dicha enfermedad, consiguiendo unos resultados realmente buenos.
Mientras que yo me centré en aplicar técnicas descriptivas a un conjunto de datos relacionados con el consumo de alcohol en adolescentes, con el objetivo de ver qué factores son los más influyentes y de poder agrupar a los alumnos según sus características comunes para poder impartirles charlas más específicas. Y así, hacer que estas charlas sean más eficaces y eficientes, ahorrando muchos costes.
Como bien se ha dicho nuestra idea inicial era la de aplicarle la minería de datos a una base de datos que una empresa de Huelva, llamada Giahsa, nos suministró sobre el consumo de agua de dos localidades: Manzanilla y Calañas. Se pretendía aplicarle, primero, métodos predictivos para poder saber si un cliente es fraudulento y, segundo, aplicarle métodos descriptivos para agrupar a los clientes según sus características comunes, y así tener un mejor conocimiento de ellos. Con el uso de estos dos métodos se puede conocer mejor el perfil de los clientes fraudulentos, además, si apareciera un nuevo cliente se podría saber, a priori, si nos encontrábamos ante un posible cliente fraudulento o no.
Debido a los objetivos marcados, estos dos estudios de predicción y clasificación estaban muy relacionados, por lo que se inició un proyecto en paralelo entre mi compañero Diego Morales y yo, ya que uno necesitaba del otro y viceversa. Pero al cambiar de objetivos, cada uno se centró en sus técnicas y en sus bases de datos, uno para detectar posibles casos de hipotiroidismo y otro para analizar los factores influyentes en el consumo de alcohol en jóvenes y adolescentes.
ii
iii
Índice
Resumen ....................................................................................................................................................... i
Índice .......................................................................................................................................................... iii
Índice de ilustraciones ............................................................................................................................... vi
Índice de tablas .......................................................................................................................................... ix
1 Minería De Datos ..................................................................................................................................... 1
1.1.Definición y origen: KDD ..................................................................................................................... 1
1.2 Etapas del DM ..................................................................................................................................... 4
1.7 Tipos de datos ................................................................................................................................... 12
1.8 Softwares de minería de datos ......................................................................................................... 13
1.9 Extensiones del data mining ............................................................................................................. 15
1.9.1 Web mining ................................................................................................................................ 15
1.9.2 Text mining ................................................................................................................................. 16
2 Idea inicial del proyecto ........................................................................................................................ 18
A continuación, se puede ver una tabla con los tres proyectos y que técnicas utiliza cada
uno:
Gervilla García, y
otros, 2008
Fehrman,
Muhammad, Mirkes,
Egan, & Gorban
Montaño Moreno,
Gervilla García, Cajal
Blasco, & Palmer,
2014
ÁRBOLES DE
DECISIÓN
X X
ANÁLISIS
DISCRIMINANTE
X
REGRESIÓN X
RANDOM
FOREST
X
NAIVE BAYES X X
K-MEANS X
KNN X
REDES
NEURONALES
X
Tabla 2. Proyectos y técnicas empleadas. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
47
A partir de esta tabla se puede apreciar que las técnicas más empleadas en estos
proyectos son árboles de decisión y Naive Bayes. Aunque estas técnicas son las más utilizadas
en estos tres proyectos, son técnicas empleadas para la predicción, por lo que para abordar el
objetivo marcado anteriormente no serían las mejores técnicas a emplear. De todas esas
técnicas, la más apropiada para la agrupación de los alumnos es la de K-means, ya que es la
única de clustering y es la técnica apropiada para los tipos de datos que se poseen, como se
explicará posteriormente.
También es relevante que dos de los estudios son sobre el tabaco y las drogas, aunque
no son del consumo de alcohol, sirve para tenerlos en cuenta ya que se puede analizar
cualquiera de estos tres campos de forma similar.
3.4. Atributos
Habiendo visto algunos estudios anteriores relacionados con el consumo y sus técnicas
y habiendo explicado todo los relacionado con el consumo de alcohol en los adolescentes, se
continuará nombrando los atributos que aparecen en la base de datos con una breve descripción
de cada uno y comentando que tipo de dato es cada atributo.
1. School: En el conjunto de datos se contemplan dos escuelas, una la escuela Gabriel
Pereira (GP) y otra Mousinho Da Silveira (MS). Atributo de tipo binario.
2. Sex: Otra variable es el sexo del alumno que puede ser masculino (M) o femenino (F).
Atributo de tipo binario.
3. Age: Edad de cada alumno. Oscila entre 15 y 22 años. Atributo de tipo numérico.
4. Adress: Variable que dice el tipo de zona donde vive el alumno, urbana (U) o rural(R).
Atributo de tipo binario.
5. Famsize: Tamaño de la familia, LE3 (familia de 3 o menos componentes) o GT3
(familia de más de 3 componentes). Atributo de tipo binario.
6. Pstatus: Atributo que especifica si los padres viven juntos (T) o viven separados (A).
Atributo de tipo binario.
7. Medu: Educación de la madre. Ninguna educación (0), educación primaria hasta 4º
grado (1), educación primaria hasta 9 grado (2), educación secundaria (3) y educación
superior (4). Atributo de tipo numérico.
8. Fedu: Educación del padre. Ninguna educación (0), educación primaria hasta 4º grado
(1), educación primaria hasta 9 grado (2), educación secundaria (3) y educación
superior (4). Atributo de tipo numérico.
9. Mjob: Se refiere al trabajo de la madre, at_home (en casa), services (servicios, como
policía o administrativo), teacher (maestro), health (relacionados con la salud), other
(otro tipo de trabajo). Atributo de tipo nominal.
3. Aplicación de técnicas descriptivas
48
10. Fjob: Se refiere al trabajo del padre, at_home (en casa), services (servicios, como
policía o administrativo), teacher (maestro), health (relacionado con la salud), other
(otro tipo de trabajo). Atributo de tipo nominal.
11. Reason: Razón por la que se eligió la escuela donde estudia el alumno, course
(preferencia del curso), home (cercanía a casa), reputation (reputación de la escuela),
other (otra razón).Atributo de tipo nominal.
12. Guardian: Se refiere al que pasa más tiempo con el alumno, mother (madre), father
(padre), other (otro). Atributo de tipo nominal.
13. Traveltime: Tiempo que tarda el alumno en llegar a la escuela, si tarda menos de 15
minutos (1), si tarda entre 15 y 30 minutos (2), si tarda entre 30 minutos y 1 hora (3) y
si tarda más de 1 hora (4). Atributo de tipo numérico.
14. Studytime: Tiempo de estudio semanal por parte de cada alumno, si estudia menos de 2
horas (1), si estudia de 2 a 5 horas (2), si estudia de 5 a10 horas (3), si estudia más de 10
horas (4). Atributo de tipo numérico.
15. Failures: Número de asignaturas suspendidas, si no ha suspendido ninguna (0), si ha
suspendido una, (1), si ha suspendido dos (2), si ha suspendido más de 2(3). Atributo de
tipo numérico.
16. Schoolsup: Identifica si el alumno recibe ayuda educativa adicional en la escuela o no,
yes o no. Atributo de tipo binario.
17. Famsup: Dice si tiene apoyo educativo familiar, yes o no. Atributo de tipo binario.
18. Paid: Se refiere a si el alumno paga clases extras, yes o no. Atributo de tipo binario.
19. Activities: Si el alumno realiza actividades extraescolares, yes o no. Atributo de tipo
binario.
20. Nursery: Se refiere a si el alumno asistió a la guardería o no, yes o no. Atributo de tipo
binario.
21. Higher: Identifica si el alumno quiere realizar estudios superiores o no, yes o no.
Atributo de tipo binario.
22. Internet: Permite saber si el alumno tiene acceso a internet en casa o no, yes o no.
Atributo de tipo binario.
23. Romantic: Este atributo tiene en cuenta si el adolescente tiene una relación amorosa o
no, yes o no. Atributo de tipo binario.
3. Aplicación de técnicas descriptivas
49
24. Famrel: Establece una descripción de la calidad del ambiente familiar, desde 1
(ambiente muy malo) hasta 5 (ambiente excelente). Atributo de tipo numérico.
25. Freetime: Tiempo libre después de la escuela, va desde 1 (muy poco tiempo libre) hasta
5 (demasiado tiempo libre). Atributo de tipo numérico.
26. Goout: Este atributo se refiere a la frecuencia con la que el alumno sale con sus amigos,
va desde 1 (sale pocas veces con sus amigos) hasta 5 (sale demasiado con sus amigos).
Atributo de tipo numérico.
27. Dalc: Clasifica la frecuencia con la que el alumno consume alcohol los días de clase, va
desde 1 (no consume alcohol esos días) hasta 5 (consume demasiado alcohol esos días).
Atributo de tipo numérico.
28. Walc: Clasifica la frecuencia con la que el alumno consume alcohol el fin de semana, va
desde 1 (no consume alcohol esos días) hasta 5 (consume demasiado alcohol esos días).
Atributo de tipo numérico.
29. Health: Mide el estado de salud de cada alumno, va desde 1 (un estado de salud muy
malo) hasta 5(el alumno tiene un estado de salud muy bueno). Atributo de tipo
numérico.
30. Absences: Número de ausencias escolares, va desde 0 hasta 93. Atributo de tipo
numérico.
31. G1: Nota de cada alumno en el primer periodo, va desde 0 hasta 20. Atributo de tipo
numérico.
32. G2: Nota de cada alumno en el segundo periodo, va desde 0 hasta 20. Atributo de tipo
numérico.
33. G3: Nota final de cada alumno en el curso, va desde 0 hasta 20. Atributo de tipo
numérico.
34. Subject: Curso que realiza cada alumno, puede ser de matemáticas (mat) o de portugués
(por). Atributo de tipo binario.
Como se puede apreciar la base de datos consta de 34 atributos, algunos son nominales,
otros son binarios y otros son numéricos. Dicha base de datos consta de 1.044 instancias, que se
refieren al número de alumnos analizados, de todos estos alumnos 395 realizan el curso de
matemáticas y 649 asisten a la asignatura de portugués.
3.5. Técnica descriptiva empleada
El algoritmo utilizado para la agrupación de los alumnos, según los atributos
anteriormente descritos, ha sido K-means. Ya que, aunque en los estudios que se han explicado
antes solo en uno lo utilizaba, la disposición de los datos en nuestra base de datos (la mayoría
3. Aplicación de técnicas descriptivas
50
son binarios y nominales) orienta a que sea analizada mediante K-means. K-medias o k-means,
es un algoritmo de clustering, es decir, un algoritmo de agrupamiento.
3.5.1. Clustering
La técnica de clustering es un método de análisis multivariado que agrupa según unos
criterios, como distancia o similitud. En esos grupos están aquellos miembros que comparten
características similares. La herramienta de clúster es un paso avanzado de la estadística, ya que
mientras la estadística utiliza métodos de agrupamientos y consigue modelos demasiados
simples, el clustering consigue agrupar mejor y obtener modelos más exactos.
Por ejemplo, en esta imagen de la
izquierda, el grupo de puntos verdes estarían
agrupados por una técnica de clustering,
mientras que el grupo de puntos azules están
agrupados por métodos estadísticos, se puede
apreciar como el grupo de los puntitos azules
se agrupan con un modelo mucho más sencillo
e ineficaz que el grupo de los puntitos verdes.
En el clustering no se utiliza ningún
modelo estadístico para llevar a cabo la
clasificación, por ello se puede decir que es
una técnica de aprendizaje no supervisado, una
técnica muy apropiada para extraer
información de un conjunto de datos sin
restricciones previas.
Existen dos grandes técnicas para
agrupar:
Agrupamiento jerárquico, construye un
modelo en forma de árbol, donde el número de
grupos no se elige si no que el propio algoritmo dice cuál es el óptimo.
Agrupamiento no jerárquico, donde el número de grupos o clúster se seleccionan de
antemano.
(Kaufman & Rousseeuw, 1990)
Un inconveniente de los no jerárquicos es que debe conocerse el número de clústeres
con anterioridad, lo que implica un poco de subjetividad. Es un método dinámico, ya que los
objetos pueden moverse de un clúster a otro, haciendo mínima la distancia entre objetos de un
mismo clúster.
Clustering tiene un papel importante en aplicaciones de minería de datos, como análisis
de ADN, marketing, exploración de datos científicos, entre otras. En la última década se han
desarrollado un gran número de algoritmos de clustering como:
Ilustración 23. Diferencia entre clustering y
agrupar por método estadístico. (Elaboración
propia, 2016)
3. Aplicación de técnicas descriptivas
51
Cobweb: Algoritmo jerárquico, que realiza un árbol de clasificación y que va añadiendo
las instancias una a una en dicho árbol.
Em: Se suele utilizar para segmentar conjunto de datos, es un modelo más probabilístico
ya que obtiene la función de densidad a la que pertenece el conjunto completo de datos.
K-means: Se trata de un algoritmo de particionado y recolocación. Es hasta ahora el
más utilizado en el entorno científico e industrial. Representa cada uno de los clústeres
por la media de sus puntos, a este punto medio del clúster se le denomina centroide.
“A diferencia de COBWEB y EM, k-means necesita la previa especificación del
número de clústeres que se desean obtener”
(Garre, Cuadrado, Sicilia, Rodríguez, & Rejas, 2007)
3.5.2. K - Means
De entre estas técnicas se ha seleccionado el K-medias ya que por la naturaleza de los
datos es el más apropiado. Debido a que el conjunto de datos la mayoría son numéricos o
binarios, y permite medir sus distancias con facilidad.
A continuación, se va a explicar con más detalle el algoritmo utilizado para el caso
práctico, el algoritmo K-means.
K-means o K-media es un método de agrupamiento, cuyo objetivo es agrupar un
número de instancias en K grupos, cada instancia va a pertenecer a aquel grupo, donde la
distancia entre esa instancia y el centroide sea mínima. La representación mediante centroides
tiene la ventaja de que es fácil interpretar el sentido gráfico y estadístico. K-means fue utilizado
por primera vez por James MacQueen en 1967, aunque la idea de este algoritmo fue de Hugo
Steinhaus en 1957.
(MacQueen, 1967) (Steinhaus, 1957)
De entre las ventajas de esta técnica cabe destacar que el coste de aprendizaje es nulo,
es muy tolerante al ruido, es un algoritmo muy fuerte y rápido de ejecutar. Sin embargo, no hay
un mecanismo para decidir el valor óptimo para K.
El algoritmo K-means sigue las siguientes etapas:
1. Elegir K, es decir, el número de grupos que se desean obtener. K puede elegirse
aleatoriamente o establecerse mediante algún criterio.
2. Se elige un centroide por cada grupo o cluster, algunas evoluciones del k-means clásico
ya tienen ciertos métodos para elegir dichos centroides y así disminuir el número de
iteraciones y hacer el modelo más rápido y eficiente.
3. Se mide la distancia desde cada punto a los centroides. Hay varias medidas de
distancias que se suelen utilizar, que serán explicadas posteriormente.
3. Aplicación de técnicas descriptivas
52
4. Se clasifican los puntos según el criterio de minimizar la distancia entre el punto y el
centroide.
5. Una vez que todos los puntos están agrupados, se recalculan los centroides.
6. Se realiza un proceso iterativo de los puntos 2,3 y 4 hasta que se cumpla una condición
de parada. Esta condición puede estar marcada por el número de iteraciones o por una
tasa de error. La tasa de error puede estar relacionada, por ejemplo, con la distancia
entre centroides antiguos y nuevos. Pero la condición de parada más recomendada es
por el número de iteraciones, ya que en el caso de que el error nunca cumpla la
condición de parada las iteraciones serían infinitas.
7. Una vez termina el proceso iterativo, cada grupo tendrá unos valores medios para cada
atributo.
El programa Weka nos permite medir según distintos tipos de distancias, a
continuación, se explican cada una de ellas:
Distancia Chebyshev: La distancia entre dos vectores es la mayor diferencia en
cualquiera de las coordenadas del espacio. También es conocida como distancia del
tablero de ajedrez.
Distancia Manhattan: También conocida como geometría del taxista, son las diferencias
(absolutas) de sus coordenadas. El nombre viene del diseño de las calles de Manhattan,
las cuales se disponen de forma cuadricular.
Distancia Euclídea: Es la distancia entre dos puntos que se define en la siguiente
ecuación D(X1, X2) =√∑ (𝑥1𝑖 − 𝑥2𝑖)2𝑛
𝑖=1 . A pesar de su sencillez esta distancia tiene un
inconveniente: esta es muy sensible a las unidades de medidas, es decir, los cambios de
escala también determinan cambios en las distancias.
En la imagen se puede ver tres líneas,
la amarilla pertenece a la distancia manhattan,
la verde es la distancia euclídea y la azul es la
distancia Chebyshev, en esta última la
distancia sería la línea azul horizontal ya que
es la mayor diferencia entre las coordenadas
de los dos puntos.
Distancia Chebyshev: 6
Distancia Manhattan: 8
Distancia Euclídea: 6.7
Para el caso práctico se va a utilizar la distancia Manhattan, ya que los datos son
nominales, la mayoría, y no existen valores intermedios.
Ilustración 24. Representación de las tres distancias explicadas: euclídea, Manhattan y Chebysheb. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
53
3.5.3. K – Means ++
Este algoritmo es una pequeña evolución del K-means simple, el principal cambio es
que los centros de los grupos no se eligen al azar, sino que tiene una heurística que permite al
algoritmo seleccionar esos centros. Fue propuesto en 2007 por David Arthur y Sergei
Vassilvitskii.
El algoritmo exacto del K-means++ es el siguiente:
1. Elige un centro c1, utilizando una variable aleatoria uniforme.
2. Calcula D(x), distancia entre x (cada punto de los datos) y el centro más cercano que ha
sido seleccionado.
3. Elige un nuevo centro 𝑐𝑖, utilizando una distribución de probabilidad donde x es
escogido con la probabilidad proporcional a D(𝑥)2.
4. Repetir los pasos 2 y 3 hasta que se hayan seleccionado K centros.
5. Una vez los centros han sido elegidos, continúa utilizando K-means simple.
Este algoritmo mejora el error final de K-means, a pesar de que la selección inicial es un
tiempo extra, después el algoritmo K-means reduce sus tiempos de proceso, por lo que al final
el tiempo de todo el proceso es menor.
(Arthur & Vassilvitskii, 2007)
3.6. Proceso práctico en el software de minería de datos
Una vez abierto el Weka y tras cargar nuestra base de datos (esta acción y el resto que
se van a nombrar ya han sido explicadas en el apartado de teoría de Weka), llamada student.arff,
se selecciona la pestaña Select attributes, esta pestaña se suele utilizar para relacionar los
atributos y para analizar que atributos se pueden eliminar para un posterior análisis, en este caso
solo se va a utilizar para ver la relación entre atributos. Se coge la opción que viene por defecto
en Weka para el evaluador. Posteriormente, se tiene la opción de entrenar con todos los datos o
con una parte de la base de datos. En este caso se va a entrenar con todos los datos, Use full
training set.
En el primer caso vamos a estudiar la relación de los atributos con la nota final del
curso.
3. Aplicación de técnicas descriptivas
54
En esta imagen de arriba se puede apreciar que al realizar el experimento en Weka, los
atributos que el programa dice que influyen más en la nota final son el tamaño de la familia, el
número de asignaturas suspendidas, si tiene una relación amorosa, la nota del segundo periodo y
la asignatura cursada.
En cuanto a la relación con la nota del segundo periodo, es directamente proporcional,
como se puede apreciar en la pendiente de la zona sombreada. Era de esperar, ya que si
suspende el segundo tiene complicado aprobar el final, como se puede ver en la imagen anterior,
en la cual, excepto algunos outliers, la mayoría de los puntos siguen la misma regla de
proporcionalidad entre nota del segundo periodo y nota final.
Ilustración 26. Relación entre la nota del segundo periodo y la nota final. (Elaboración propia, 2016)
Ilustración 25. Atributos relacionados
con la nota final. (Elaboración propia,
2016)
3. Aplicación de técnicas descriptivas
55
En la imagen de arriba se aprecia como a mayor número de asignaturas suspendidas por
el alumno, menos alumnos aprueban matemáticas y portugués. La pendiente de la zona
sombreada reafirma la tendencia de a mas asignaturas suspendidas, peor nota final matemáticas
y portugués. Es normal, ya que los que suspenden más asignaturas tienen más probabilidad de
suspender esas dos.
Además, cabe destacar que cuantas más asignaturas pendientes, no solo aprueban
menos, si no que ninguno destacará por tener una nota final elevada en matemáticas o
portugués.
Ilustración 27. Relación entre las asignaturas pendientes y la nota final. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
56
Es reseñable que los alumnos que no tienen relación sentimental, columna derecha,
consiguen las calificaciones más altas, como bien indica la zona sombreada. Esta gráfica
hubiera sido más interesante si el atributo romantic hubiera sido nominal en vez de binario,
analizando, por ejemplo, el grado de enamoramiento y la nota final de cada alumno.
En estas imágenes se pueden apreciar que hay un tercer atributo que se puede analizar y
es el de la asignatura, en rojo viene la de portugués y en azul matemáticas. A parte de las
relaciones obtenidas por Weka, mediante la herramienta visualize se han podido ver otros
atributos con una relación interesante con la nota final. Por ejemplo, con el consumo diario de
alcohol, a más consumo menos porcentaje de alumnos aprobados, como se puede comprobar en
la siguiente imagen.
Ilustración 28. Relación entre tener pareja y la nota final. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
57
En la imagen se pueden identificar algún outlier pero, por lo general, se cumple esa
tendencia.
Sin embargo, la nota final no está tan relacionada con el consumo en el fin de semana
como se puede comprobar en la siguiente imagen. Ya que vemos que bebiendo más (los de la
derecha del eje x) no hay una clara disminución de aprobados.
Ilustración 29. Relación entre beber durante la semana y la nota final. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
58
En cuanto a la asistencia a clase, también tiene una fuerte relación con la nota final
como se puede apreciar en la siguiente imagen. Cuanto más falta un alumno, más probabilidad
tiene de suspender la asignatura. Son sorprendentes los puntos que hay en la esquina inferior
izquierda, los cuales no han faltado nunca a clase, pero han calificado con un 0. Estos puntos
seguramente se deban a no presentados en exámenes, aunque asistieron a todas las clases.
Ilustración 30. Relación entre el consumo de alcohol en el fin de semana y la nota final. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
59
Ahora se vuelve a la pestaña de selección de atributo, y vamos a ejecutar el mismo
algoritmo para analizar que atributos influyen más en el consumo diario de alcohol.
Ilustración 31. Relación entre las faltas a clase y la nota final. (Elaboración propia, 2016)
Ilustración 32. Atributos relacionados con el consumo de alcohol durante la
semana. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
60
Como se puede ver en la imagen anterior, los atributos que influyen más en el consumo
diario de alcohol son: la edad, el trabajo del padre, el tiempo libre, el consumo de alcohol en fin
de semanas y la nota en el primer periodo.
Posteriormente, se va al visualizador de gráficas para ver estas relaciones. La primera es
la de la edad, es notable señalar que los alumnos que más beben entre semana son los de
menores edades como se puede apreciar aquí.
En la siguiente imagen se puede apreciar que los hijos cuyos padres trabajan en el sector
servicio son los que más beben durante la semana.
Ilustración 33. Relación entre la edad y el consumo de alcohol diario. (Elaboración propia,
2016)
3. Aplicación de técnicas descriptivas
61
En la parte superior, en medio de la gráfica podemos ver que los mayores bebedores son
hijos de padres del sector servicio, esto debe ser porque los trabajos dedicados al servicio son
los que requieren que los padres pasen más tiempo fuera de casa. Los hijos de los padres que
trabajan en casa no pasan del nivel 3 ya que seguramente estos estén mucho más tiempo con los
hijos. En los trabajos de profesores y el entorno de la salud tampoco hay muchos hijos con
niveles altos de consumo diario.
Ilustración 34. Relación entre el trabajo del padre y el consumo de alcohol diario. (Elaboración
propia, 2016)
Ilustración 35. Relación entre el tiempo libre y el consumo de alcohol diario. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
62
En la imagen de arriba vemos la relación del tiempo libre con el consumo diario de
alcohol, y como era de esperar cuanto más tiempo libre más riesgo de consumo de alcohol. En
el rectángulo señalado se ve que los máximos bebedores son los que pasan del nivel 3 de tiempo
libre. También se puede apreciar un outlier que apenas tiene tiempo libre pero, sin embargo, está
en el nivel 5 de bebedor diario.
En la imagen anterior se aprecia que el consumo diario de alcohol y el consumo en el
fin de semana son directamente proporcionales. También se ve que en el fin de semana hay más
bebedores que durante la semana. Es sorprendente aquellos outlier que beben mucho durante la
semana y apenas beben en el fin de semana.
Ilustración 36. Relación entre el consumo en el fin de semana y el consumo de alcohol diario. (Elaboración propia, 2016)
Ilustración 37. Relación entre la nota del primer periodo y el consumo de alcohol diario. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
63
Arriba se aprecia que a partir del nivel 3 de consumo diario de alcohol los alumnos
suelen decaer mucho en sus notas en el primer periodo, aunque beber o no beber no implica
aprobar el primer periodo. Se puede apreciar algún outlier, fuera de la zona sombreada, que
rompe la tendencia del resto.
El último atributo que es interesante ver sus influencias es el consumo de alcohol en el
fin de semana.
Los atributos con mayor influencia en este caso son: sexo, si ha asistido a la guardería,
el ambiente familiar, la frecuencia con la que el alumno sale con los amigos, consumo diario de
alcohol y la ausencia a clases.
Al ver estos atributos en la pestaña de visualización es destacable que los alumnos con
niveles altos de riesgo de consumo de alcohol son los que más salen con los amigos, como se
puede ver en la siguiente imagen.
Ilustración 38. Atributos relacionados con el consumo de alcohol durante el fin de
semana. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
64
Es destacable que por debajo del nivel 5 salir mucho o poco es indiferente, el
comportamiento para todos es el mismo. Es decir, en la zona sombreada el mayor número de
alumnos que más beben son los que más salen con los amigos. En el resto de niveles este
incremento de alumnos bebedores no es tan drástico.
En la siguiente imagen vemos la relación entre el consumo de alcohol en el fin de
semana con la asistencia a clase.
Ilustración 39. Relación entre salir con los amigos y beber el fin de semana. (Elaboración
propia, 2016)
Ilustración 40. Relación entre las faltas a clase y beber en fin de semana. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
65
Se puede ver que, a priori, gráficamente no se puede detectar ninguna relación, sin
embargo, a través del algoritmo de Weka si se encontró una.
En este último análisis de los atributos que influyen en el consumo de alcohol en el fin
de semana se ve que ningún atributo tiene una fuerte influencia. Cabe reseñar que en los análisis
de selección de atributos, el programa devuelve los atributos más influyentes en orden
decreciente de arriba abajo. También en este último caso se ve que los atributos no tienen
mucha influencia en el consumo de alcohol en el fin de semana, el programa devolvió los
atributos que más influencia tenían, pero eso no quiere decir que sean muy influyentes.
A continuación, se va a explicar lo que se ha realizado para poder obtener la
información de los clústeres para poder realizar después las campañas de prevención de
consumo de alcohol.
Como ya se comentó antes, el algoritmo de clustering elegido ha sido el K-means, más
concretamente el k-means++, el cual solo es una mejora del k-means. Como ya se explicó, este
algoritmo necesitaba establecer primero K, el número de grupos. En este proyecto se ha
decidido que el número de grupos sea 4, ya que se considera que con menos de 4 grupos no se
podrían dividir a todos los alumnos según sus factores principales de consumo; con lo que
habría alumnos a los que esa campaña no les beneficiaría. Lo ideal sería que las campañas
fueran individuales a cada alumno, pero esto incurriría en unos enormes gastos y en unas
campañas demasiadas duraderas en el tiempo. Por lo que 4 se estima que es el número de
grupos idóneos.
En Weka, lo primero es irse a la pestaña de clúster, una vez en esta pestaña se elige el
algoritmo de K-means, SimpleKMeans. Ahora se pasa a configurar el algoritmo, el número de
cluster lo cambiamos a 4, escogemos k-means++ en la pestaña initializationMethod y por
último se elige ManhattanDistance en la pestaña distanceFunction. El resto de pestañas las
dejamos por defecto. El entrenamiento lo vamos a realizar con todos los datos por que elegimos
la opción Use training set, que viene por defecto. El programa también da las opciones de
entrenar un porcentaje de los datos, un número de instancias y permite eliminar atributos, pero
como ya se ha dicho se va a entrenar con todo el conjunto de datos. Por último, se procede a dar
a Start y comenzará el proceso.
Cuando termine el proceso, el programa nos dará la información sobre la base de datos,
número de instancias, atributos, número de iteraciones, la media de los atributos en la base de
datos y en cada uno de los grupos.
El número de iteraciones fueron 8, para un total de 34 atributos, y el tiempo de ejecución ha
sido de 0.15 segundos.
El algoritmo además equilibra lo máximo posible el número de alumnos en cada grupo:
Clúster 0: 301 alumnos 29%
Clúster 1: 267 alumnos 26%
Clúster 2: 204 alumnos 20%
Clúster 3: 272 alumnos 26%
3. Aplicación de técnicas descriptivas
66
En la imagen anterior se ven los grupos, los atributos y las medias de cada grupo y del
total de la base de datos, full data.
Ahora se va a proceder a establecer que atributos deben tocar cada campaña. En primero
lugar se va a decir que atributos son generales, por lo que habrá que tratarlos en todas las
campañas.
En la gran mayoría, el tamaño de la familia es de más de 3 componentes, los padres
viven juntos, aunque un grupo la media es de 16 años las charlas deben ir orientadas a los niños
de 17 años, la madre es la que pasa más tiempo con ellos, estudian de 2 a 5 horas a la semana, la
mayoría bebe algo, pero poco durante la semana. En cambio, sí beben durante el fin de semana,
suelen aprobar, justo, pero suelen aprobar, el tiempo que salen es muy parecido en la mayoría.
Una vez se sabe que estos datos son para la mayoría de los alumnos, se procede a
establecer que aspectos deben de tocarse, además de los generales, en cada grupo:
Clúster 0: Debe ser destinado a los alumnos de la escuela Gabriel Pereira, que sean
principalmente hombres, que residan en la ciudad, cuyos padres hayan estudiado hasta
el curso 9º, que no tienen apoyo educativo familiar, que no realizan actividades
extraescolares y que no tienen relación de pareja.
Ilustración 41. Resultados de clustering al agrupar en 4 grupos generada por Weka. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
67
Clúster 1: Al igual que el clúster 0 estaría destinado a los alumnos de la escuela Gabriel
Pereira, debe estar orientado a mujeres, que vivan en un entorno urbano, cuyos padres
han llegado hasta la educación secundaria, que el trabajo de la madre este destinados a
servicios, que tengan ayudas educativas de la familia, que hagan actividades
extraescolares y que tengan pareja.
Clúster 2: Este grupo sería para los alumnos de la escuela Mousinho Da Silveira
principalmente, con orientación femenina, que vivan en el campo, cuyos padres hayan
estudiado hasta el curso 9º, que la madre de los alumnos trabaje en casa, que reciban
ayuda educativa por parte de la familia, que realicen actividades extraescolares y que no
tengan pareja sentimental.
Clúster 3: Este grupo también estaría destinado a la escuela Gabriel Pereira
principalmente, con orientación femenina, donde padres y madres hayan estudiado hasta
la educación secundaria, que tengan ayudas educativas de las familias, que realicen
actividades fuera de la escuela y que no tengan relación amorosa.
Hay que recalcar que los cursos o campañas se les realizan a todos los alumnos
bebedores y no bebedores, esta agrupación se ha realizado según los perfiles de todos, y aunque
las campañas estén orientadas a cada grupo, siempre habrá alumnos con alguna característica
distinta al resto. Pero esta es la forma de que el mayor número de alumnos se sientan
identificados con los perfiles de las campañas.
Tanto el estudio de selección de atributos, como el de gráficas y el de agrupación sirven
para agrupar a los alumnos y hacer hincapié en que factores influyen más en el consumo de
alcohol tanto diario como en el fin de semana y en aprobar el curso.
También se probó analizar los datos con 3 grupos de alumnos, pero no quedaban nada
equilibrados, mientras que en 4 grupos la diferencia entre el mayor y el menor número de
alumnos en cada grupo era de menos de 100 alumnos, un 9%, ahora sería de más de 100, un
13%, como se puede apreciar abajo.
Además, al reducir el número de grupos había atributos que pasaban a ser comunes para
los grupos, por lo que se perdería eficacia en las campañas.
Ilustración 42. Resultados de
clustering al agrupar en 3
grupos generada por Weka. (Elaboración propia, 2016)
3. Aplicación de técnicas descriptivas
68
Al hacerlo con 5 grupos, tampoco los equilibraba bien, como se aprecia abajo. Además,
subirían los costes de campañas sin obtener grandes diferencias en los perfiles de los grupos.
3.7. Conclusión
Este estudio ha ayudado en primer lugar a saber qué aspectos influyen más y cuáles se
deben tratar más en las campañas para evitar el consumo de alcohol, como las faltas a clase, las
asignaturas suspendidas que llevan por detrás los alumnos, el tener pareja sentimental o no, que
el alumno que empieza bebiendo el fin de semana puede caer en beber todos los días de la
semana, entre otros.
Además, se han mostrado relaciones curiosas sobre los aspectos que también influyen
en la nota final, que a su vez está muy relacionada con el consumo de alcohol entre semana, por
lo que debe ser un punto fuerte de estudios próximos. Estos resultados se han obtenido gracias a
que Weka permite visualizar los atributos en gráficas de dos dimensiones, también permite
visualizar, como ya se explicó, un tercer atributo gracias a los colores.
Por último, se ha agrupado a los alumnos según sus características, por lo que las
campañas deberían estar organizadas y diseñadas según los alumnos a los que se le va a
impartir, y teniendo muy en cuenta el principio del estudio, es decir, qué atributos son los que
están más relacionados con el consumo de alcohol. Para esta parte, como bien se ha demostrado
en el proyecto, se buscó posibles estudios anteriores para ver que técnica era la mejor a emplear.
Tras esta búsqueda y por la naturaleza de los datos se eligió K-means, la cual demostró agrupar
bien a los alumnos. Además, existía otra variable a elegir que era el número de grupos, a priori
se eligió 4, debido a aspectos económicos y a aspectos de eficacia y eficiencia de las campañas.
Este número de grupos quedo confirmado tras realizar el análisis con 3, 4 y 5 grupos, donde los
resultados más óptimos se conseguían con 4 grupos, como bien se explica en la última parte del
proyecto.
Toda esta información debe servir de ayuda a los expertos en realizar este tipo de
campañas, ya que pueden saber qué aspectos son los más importantes a tratar y en que grupos
organizar a los alumnos.
El trabajo de ver las relaciones de los atributos con el consumo o la nota final, podría
prescindir de la minería de datos si fueran muchísimos menos datos, pero al existir tal cantidad
de datos es necesaria la minería de datos.
Además, con tal cantidad de atributos e instancias, intentar hacer grupos de alumnos
para que la mayoría se sientan identificados sería imposible sin la minería de datos. Ya que,
Ilustración 43. Resultados de
clustering al agrupar en 5 grupos
generada por Weka. (Elaboración
propia, 2016)
3. Aplicación de técnicas descriptivas
69
habría que ir uno por uno mirando en que atributos coincide con el resto. Por lo que la minería
de datos es imprescindible en este aspecto. Como se intuía y se explicó anteriormente, la
minería ha proporcionado información sobre los atributos, que se presuponía, pero también ha
ofrecido resultados que a simple vista son imposibles de detectar.
En definitiva, se ha podido demostrar la eficacia de la minería de datos y de sus
técnicas, siempre y cuando se disponga de una base de datos coherente y con los datos
necesarios. También, que la herramienta utilizada Weka, es muy recomendable para este tipo de
investigaciones, gracias a su visualización de gráficas y a la facilidad de emplear las numerosas
técnicas que proporciona Weka.
70
4 Bibliografía
Cárdenas-Montes, M. (s.f.). Medidas de Distancia. Obtenido de
http://wwwae.ciemat.es/~cardenas/docs/lessons/MedidasdeDistancia.pdf Fehrman, E., Muhammad, A., Mirkes, E., Egan, V., & Gorban, A. (s.f.). The Five Factor Model of
personality and evaluation of drug consumption risk. Nottingham, Leicester. Obtenido de https://arxiv.org/ftp/arxiv/papers/1506/1506.06297.pdf
¿Qué es Giahsa? (2012). Revista aguas. Obtenido de http://www.revistaaguas.es/que-es-giahsa/ Arthur, D., & Vassilvitskii, S. (2007). k-means++: The Advantages of Careful Seeding. Obtenido de
http://ilpubs.stanford.edu:8090/778/1/2006-13.pdf Bouckaert, R., Frank, E., Hall, M., Kirkby, R., Reutemann, P., Seewald, A., & Scuse, D. (2016). WEKA
Manual for Version 3-8-0. MANUAL, University of Waikato, New Zealand. Córdoba Fallas, L. (s.f.). Obtenido de http://cor-mineriadedatos.blogspot.com.es/2011/06/weka.html Cravero Leal, A., & Sepúlveda Cuevas , S. (2009). Aplicación de Minería de Datos para la Detección de
Anomalías: Un Caso de Estudio. WORKSHOP INTERNACIONAL EIG2009. Obtenido de http://ceur-ws.org/Vol-558/Art_8.pdf
Economista, E. (Mayo de 2014). Alcohol mata a 3.3 millones de personas por año: OMS. El Economista.
Obtenido de http://eleconomista.com.mx/internacional/2014/05/12/alcohol-mata-33-millones-personas-ano-on
Estudes. (2010). ENCUESTA ESTATAL SOBRE USO DE DROGAS EN ENSEÑANZAS SECUNDARIAS (ESTUDES) ESTUDES) 2010, ESPAÑA. MINISTERIO DE SANIDAD, POLÍTICA SOCIAL E IGUALDAD. Obtenido de http://www.msssi.gob.es/novedades/docs/PRESENTACION_ESTUDES_2010.pdf Farke, W., & Anderson , P. (2007). El consumo concentrado de alcohol en Europa. Obtenido de
http://www.redalyc.org/pdf/2891/289122906002.pdf Félix, L. C. (2002). Data mining: torturando a los datos hasta que confiesen. UOC. Obtenido de
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.pdf García Morate, D. (s.f.). MANUAL DE WEKA. Manual. Obtenido de
Garre, M., Cuadrado, J., Sicilia, M., Rodríguez, D., & Rejas, R. (2007). Comparación de diferentes
algoritmos de clustering en la estimación de coste en el desarrollo de software. Revista Española de Innovación, Calidad e Ingeniería del Software, 3(1). Obtenido de http://www.redalyc.org/pdf/922/92230103.pdf
Gervilla García, E., Jiménez López, R., Montaño Moreno, J., Sesé Abad, A., Cajal Blasco, B., & Palmer Pol,
A. (2008). La metodología del Data Mining. Una aplicación al consumo de alcohol en adolescentes. Obtenido de http://www.adicciones.es/index.php/adicciones/article/view/253/242
Giahsa. (s.f.). Recuperado el 5 de Julio de 2016, de http://www.giahsa.com/wps/portal/giahsa/Conoce-
Grané, A. (s.f.). Distancias estadísticas y Escalado Multidimensional (Análisis de Coordenadas
Principales). Universidad Carlos III de Madrid, Departamento de Estadística, Madrid. Obtenido de http://halweb.uc3m.es/esp/Personal/personas/agrane/ficheros_docencia/MULTIVARIANT/slides_Coorp_reducido.pdf
Hall, M., & Reutemann, P. (2008). WEKA KnowledgeFlow Tutorial. MANUAL, University of Waikato.
Obtenido de http://software.ucv.ro/~eganea/AIR/KnowledgeFlowTutorial-3-5-8.pdf Han, J., Kamber, M., & Pei, J. (2012). DATA MINING. Concepts and Techniques. ELSEVIER. Hasperué, W. (2013). Extracción de Conocimiento en Grandes Bases de Datos Utilizando Estrategias
Adaptativas. Obtenido de http://sedici.unlp.edu.ar/bitstream/handle/10915/35555/Documento_completo.pdf?sequence=1
Hearst, M. (1999). Untangling Text Data Mining. Obtenido de
http://people.ischool.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data. An Introduction to Cluster Analysis.
Obtenido de https://leseprobe.buch.de/images-adb/5c/cc/5ccc031f-49c1-452f-a0ac-22babc5e252e.pdf
Larranaga, P., Inza, I., & Moujahid, A. (s.f.). Árboles de Clasificación. Universidad del PaÍs Vasco.
Obtenido de http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf Lichman, M. (2013). UCI Machine Learning Repository. Recuperado el 2016, de
http://archive.ics.uci.edu/ml Lima, L., & Vásquez, C. (2013). ESTRATEGIA INTELIGENTE PARA LA DETECCIÓN EFICIENTE DE CLIENTES
RESIDENCIALES CON CONDICIONES FRAUDULENTAS DE LAS EMPRESAS DE SERVICIO ELÉCTRICO. Dialnet. Obtenido de https://dialnet.unirioja.es/servlet/articulo?codigo=4777894
MacQueen, J. (1967). SOME METHODS FOR CLASSIFICATION AND ANALYSIS OF MULTIVARIATE
OBSERVATIONS. Los Angeles. Obtenido de http://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512992
MEDICINE, N. M. (1 de Junio de 2010). El consumo del Alcohol en Portugal representa la carga
económica pesada para el sistema de la salud de ese país. NEWS MEDICAL LIFE SCIENCES & MEDICINE. Obtenido de http://www.news-medical.net/news/20100601/14/Spanish.aspx
Mesa, F., Raineri, A., Maturana, S., & Kaempffer, A. (2009). Fraudes a los sistemas de salud en Chile: un
modelo para su detección. Panam Salud Publica. Obtenido de http://www.scielosp.org/pdf/rpsp/v25n1/09.pdf
MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD. (2013). Recuperado el 3 de Agosto de 2016,
de http://www.pnsd.msssi.gob.es/noticiasEventos/campannasPreventivasInformativas/campannas/campanas/Alcohol_pasafactura.htm
Montaño Moreno, J., Gervilla García, E., Cajal Blasco, B., & Palmer, A. (2014). Técnicas de clasificación de
data mining: una aplicación al consumo de tabaco en adolescentes. Anales de Psicología. Obtenido de http://www.redalyc.org/pdf/167/16731188027.pdf
Moreno García, M., Miguel Quintales, L., García Peñalvo, F., & Polo Martín , M. (s.f.). APLICACIÓN DE
TÉCNICAS DE MINERÍA DE DATOS EN LA CONSTRUCCIÓN Y VALIDACIÓN DE MODELOS PREDICTIVOS Y ASOCIATIVOS A PARTIR DE ESPECIFICACIONES DE REQUISITOS DE SOFTWARE. Universidad de Salamanca. , Departamento de Informática y Automática , Salamanca. Obtenido de http://ceur-ws.org/Vol-84/paper4.pdf
My Weka page. (26 de Julio de 2016). Obtenido de http://www.hakank.org/weka/ OMS. (2011). Pérez López, C., & Santín González, D. (2007). Minería de datos: técnicas y herramientas. Thomson-
Paraninfo. Pérez Marqués, M. (2014). Minería de datos a través de ejemplos. Madrid. Plan Nacional Sobre Drogas. (2004). Recuperado el 5 de Agosto de 2016, de
Rios Villegas, A., & Uribe Aguirre, K. (2013). MINERIA DE DATOS APLICADA A LA DETECCIÓN DE CLIENTES
CON ALTA PROBABILIDAD DE FRAUDES EN SISTEMAS DE DISTRIBUCIÓN. Obtenido de http://recursosbiblioteca.utp.edu.co/dspace/bitstream/handle/11059/3856/006312R586.pdf;jsessionid=6C34F2EF442102C4D5B5EB00B61A19CE?sequence=1
Sancho Caparrini, F. (2013). Mapas semánticos: clasificación y representación. Obtenido de
http://www.cs.us.es/~fsancho/?e=44 Santamaría Ruíz, W. (2010). MODELO DE DETECCION DE FRAUDE BASADO EN EL DESCUBRIMIENTO
SIMBOLICO DE REGLAS DE CLASIFICACIÓN EXTRAÍDAS DE UNA RED NEURONAL. UNIVERSIDAD NACIONAL DE COLOMBIA, DEPARTAMENTO DE INGENIER´IA DE SISTEMAS E INDUSTRIAL, Bogotá. Obtenido de https://core.ac.uk/download/files/334/11053314.pdf
Steinhaus, H. (1957). Sur la division des corps matériels en parties. (s.f.). Técnicas de Análisis de Datos en WEKA. Obtenido de
http://isa.umh.es/asignaturas/crss/turorialWEKA.pdf Valerio Sainz, M. (12 de Mayo de 2014). España duplica la tasa mundial de consumo de alcohol. El Mundo. Obtenido de http://www.elmundo.es/salud/2014/05/12/5370bca922601d52648b4577.html Wanumen Silvaz, L. (2010). Minería de datos para la predicción de fraudes en tarjetas de crédito.
Obtenido de http://revistas.udistrital.edu.co/ojs/index.php/vinculos/article/viewFile/4162/5825
Weka 3: Data Mining Software in Java. (s.f.). Recuperado el 9 de Julio de 2016, de
http://www.cs.waikato.ac.nz/ml/weka/ Martínez Fraga, J. (2012). Anatomía y Fisiología. Obtenido de
http://www.elmodernoprometeo.es/Sitio_web/Anatomia_files/endocrino.pdf Blog sobre Bussiness Intelligence. (s.f.). Minería de datos: aplicaciones más populares a día de hoy. Blog sobre Bussiness Intelligence. Recuperado el 17 de Junio de 2016, de http://www.lantares.com/blog/mineria-de-datos-aplicaciones-que-ya-son-una-realidad Herrera Varela, R. (2006). minería de datos y descubrimiento de conocimiento en bases de datos
aplicados al ámbito bibliotecario. (Primera parte). Forinf@ Online, 33. IBM. (s.f.). Obtenido de http://www.ibm.com/analytics/us/en/technology/spss/ jwork.org. (s.f.). Obtenido de http://jwork.org/main/ knime. (s.f.). Obtenido de http://www.knime.org/ Marcel. (2014). datamashup.info. Recuperado el 15 de Junio de 2016, de
http://www.datamashup.info/what-is-data-mining-video/ Molina Félix , L. (2014). Data mining: torturando a los datos hasta que confiesen. Obtenido de
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html orange. (s.f.). Obtenido de http://orange.biolab.si/ Rapidminer. (s.f.). Obtenido de https://rapidminer.com/