Top Banner
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252
13

RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

Jan 24, 2016

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386INF-252

Page 2: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

INTRODUCCIÓN

• Fei Long, el autor del articulo “Research on algorithms of data mining under cloud computing environment” habla sobre la mejora de la entrada de Datos utilizando un algoritmo llamado MRApriori, en vez de utilizar el algirtmo original Apriori para el manejo de los datos.

Page 3: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

QUE ES DATA MINING • Es el proceso de encontrar correlaciones o patrones entre

campos de información en banco de datos relaciones.

•Consiste de:

• Extraer, transformar y cargar datos

• Almacenar y manejar datos

• Proveer acceso

• Analizar los datos

• Presentar datos en un formato útil y fácil de entender

Page 4: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

QUE ES MAPREDUCE • Es un modelo de programación para el procesamiento de

datos.

• Simplifica la implementación de muchas aplicaciones de datos mediante la eliminación de tareas.

• Simplifica el procesamiento de los datos

• Tolerancia a fallos

• Alto nivel

• Ayuda al mantenimiento eficiente del sistema.

Page 5: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

EJEMPLO: MAPREDUCE

Page 6: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

QUE ES CLOUD COMPUTING• Cloud computing son servicios y programas localizados en el

internet que incluyen:

• Virtualización

• Servicios de Paginas web

• Service oriented arquitecture

• Web 2.0

• Web mash up

Page 7: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

GOOGLE HADOOP

• Esta escrito en Java

• Conjunto de libretos de instalaciones y librerías de programas que están optimizadas para la infraestructura de google.

• El usuario o la compañía tiene un ambiente de alta calidad para poder procesar datos.

•MapReduce puede ser ejecutado desde el Google Hadoop sin necesitar copiar datos o procesos al local disk.

Page 8: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

ALGORITMO MRAPRIORI

•Utiliza componentes de Google Hadoop para hacer ejecuciones de trabajo y almacenar información

• El algoritmo MRApriori consiste de:

• Generar todos los conjuntos (itemsets) frecuentes

• Generar una regla de asociación a base de los conjuntos (itemsets) frecuentes.

• Puede procesar grandes cantidades de datos sin reducir su tiempo de ejecución.

Page 9: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

MRAPRIORI ALGORITHM

Page 10: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

INFORMACIÓN ADICIONAL PARA MRAPRIORI

•Reglas de asociación – declaraciones if/then que ayudan a demostrar la relación entre datos en un banco de datos transaccional, relacional o de cualquier otro tipo.

• Los conjuntos (itemsets) son conjuntos de información que pueden aparecer en diferentes tablas múltiples veces que a su vez es un subconjunto de otro.

Page 11: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

RESULTADO DEL MRAPRIORI

Page 12: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

CONCLUSION

• El algoritmo original Apriori hace lo mismo que el MRApriori, pero la diferencia esta en los componentes que el MRApriori utiliza para manejar los datos.

• Los resultados del experimento comprobó que el algoritmo propuesto por Fei Long es mas rápido y eficiente al ejecutar la misma o mayor cantidad de trabajos ejecutados que el código original.

Page 13: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252.

REFERENCIAS

• Long, F. Research on algorithms of data mining under cloud computing environment. Journal of Chemical and Pharmaceutical Research, 2014, 6(7):1152-1157