Sergio Carrillo Vila Data Platform Engineer – Business Intelligence Microsoft Business Management Specialist.
Post on 03-Feb-2015
7 Views
Preview:
Transcript
Minería de Datos. Algo más que el ejemplo del Tenis.
Sergio Carrillo VilaData Platform Engineer – Business IntelligenceMicrosoft Business Management Specialist
Click here to add your MVP logo or MS Cert Logo
scarrillovila@solidq.com
α ¿Qué es la minería de datos?β Usos de la minería de datos
α El ciclo de vida de un proyecto de Minería de Datosα Los datos para Minería de datos. Demoα Algoritmos
β Naive-Bayes. Demoβ Arboles de decisión. Demoβ Reglas de asociación. Demo
α Excel como herramienta de Minería de Datos. Demo
α Preguntas
Agenda
α Proceso de analizar los datos para encontrar patrones ocultos mediante el uso de metodologías automáticas
α Análisis Predictivo
α Aumentar el valor de nuestros datos
¿Qué es la minería de datos?
α Generación de Recomendacionesα Detección de Anomalíasα Administración de Riegosα Segmentación de Clientesα Previsionesα Anuncios personalizadosα …
¿Qué es la minería de datos?Usos de la minería de datos
Ciclo de VidaDe un proyecto de Minería de Datos
Transformación
Actuación
Medición
Identificación
α Interpretación de los datosα Vista sobre los datos
β Estadisticasβ Frecuencias
α Casosα Atributos
β Categóricos o nominalesβ Rankingsβ Intervalosβ Variables numéricas
α Estados
Los datos para la Minería
DEMODatos para la minería
α Es importante conocer nuestro datoβ No nos vamos a embarcar en un proyecto de mineria sin
hacerlo
α Es importante interpretar estos datosβ No juntemos peras con manzanas
α La exploración de los datos…β Puede mostrarnos anomalías en nuestro negocioβ Puede plantearnos nuevos problemas
Resumiendo
α Ofrece un método sistemático para aprender basado en los datos.
α Cuenta las correlaciones que hay entre la variable que queremos predecir y el resto de variables
α Una vez que tiene calculada las correlaciones, aplica las probabilidades.
α No puede utilizar atributos continuos para predecir, en el caso de tenerlos, utilizar rangos.
α Parámetrosβ MAXIMUN_INPUT_ATTRIBUTESβ MAXIMUN_OUTPUT_ATTRIBUTESβ MAXIMUN_STATESβ MINIMUM_DEPENDENCY_PROBABILITY
AlgoritmosNaive-Bayes
DEMONaive-Bayes
α Naive-Bayes es un algoritmo rápidoα Solo para atributos discretosα Visualizaciones desde SSMS y BIDSα DMX como lenguaje de consulta
Resumiendo
α Va dividiendo los datos recursivamente en pequeños conjuntos
α Evalúa como cada atributo va dividiendo estos conjuntos, colocando en la parte superior los mas restrictivos.
α Es un algoritmo de clasificaciónα Puede ser usado con atributos continuosα Hay que tener cuidado con el sobre entrenamientoα Algunos parámetros
β MINIMUN_SUPPORTβ SCORE_METHODβ SPLIT_METHOD
AlgoritmosArboles de decisión
DEMOArboles de decisión
α Es un algoritmo fácil de entenderα Riego de sobre entrenamientoα Permite el uso de atributos continuos
Resumiendo
α Es un algoritmo especialmente diseñado para el analisis de asociaciones
α Detecta reglas en nuestros datosβ Si A&&B C
α Cuenta la frecuencia de combinaciones de varios estados del atributo
α No utiliza probabilidadesα Cuando una combinación es muy frecuente, pasa a
ser una reglaα Parámetros:
β (MAXIMUN | MINIMUN)_ITEMSET_SIZEβ MAXIMUN_ITEMSET_COUNT
AlgoritmosReglas de asociación
DEMOReglas de Asociación
α Las reglas de asociación nos permite encontrar relaciones entre los valores de los atributos
α No es necesario que tengamos los valores en una tabla, podemos utilizar más de una
Resumiendo
α Add-in para Excel 2007β Da problemas para Excel 2010β Solo para versiones de 32bits
α Permite realizar modelos de forma temporalβ Crea una base de datos multidimensional en ASβ Vuelca los modelos y estructuras en esa base de datos
α Es más fácil para el usuario
Excel como herramienta MD
DEMOExcel como herramienta de Minería de Datos
α Desde Excel podemos crear nuestros modelos de mineria
α Tenemos accesibles casi todas la funcionalidadα Podemos explorar los datosα No necesitamos almacenes en base de datos para
nuestros datos de mineria
Resumiendo
Preguntas ?
No olvideis rellenar las evaluaciones!Os invitamos al Solid Quality Summit
Mas de 60 sesiones técnicas todas alrededor de SQL Server y SharePoint (Madrid 6 al 10 de Junio), mas info en mi email o
en ventasib@solidq.com
Sergio Carrillo VilaData Platform Engineer – Business Intelligence
Microsoft Business Management Specialist
Click here to add your MVP logo or MS Cert Logo
scarrillovila@solidq.com
Gracias!Sergio Carrillo Vila
Data Platform Engineer – Business IntelligenceMicrosoft Business Management Specialist
Click here to add your MVP logo or MS Cert Logo
scarrillovila@solidq.com
top related