Top Banner
1 Laboratorio 05 PROCESO DE LA MINERIA DE DATOS EN EL ANALYSIS SERVICES 1. Presentación. HERRAMIENTAS DEL SQL SERVER El Microsoft SQL Server ofrece 4 de herramientas principales: Analysis Services Database Engine Integration Services. Reporting Services En este laboratorio trabajaremos con el SQL Server Analysis Services (SSAS) que permite crear una esquema para administrar los objetos de una base de datos de Analysis Services definidas por: Cubos OLAP (Primera parte del curso) Modelos de minería de datos. (Segunda parte del curso) ENTORNOS DE DESARROLLO El SSAS ofrece un entorno integrado para crear cubos OLAP y modelos de minería de datos y trabajar con ellos, conformado por: SQL Server Management Studio. Herramienta principal para administrar Database Engine (Motor de base de datos) y escribir código de Transact-SQL. SQL Server Business Intelligence Development studio. Es el Microsoft Visual Studio con tipos de proyecto adicionales específicos de Business Intelligence. Es el entorno que se utilizará para desarrollar soluciones de Analysis Services, Integration Services y Reporting Services usando plantillas específicas. 2. Objetivo Al finalizar este laboratorio los alumnos estarán en capacidad de: Laboratorio 05. Sesión 1 Crear una base de datos de Analysis Services, agregar un origen de datos, crear una vista de origen de datos y modificar una vista de origenes de datos para preparar una nueva base de datos que se va a utilizar para la minería de datos. Laboratorio 05. Sesión 2 Crear un escenario de modelos de minería de datos para predecir la respuesta de clientes ante una campaña de correo directo. Laboratorio 05. Sesión 3 Crear y utilizar los algoritmos de minería de datos, los visores del modelo de minería de datos y las herramientas de minería de datos Árboles de decisión de Microsoft Clústeres de Microsoft Bayes naive de Microsoft Esto puede ser visualizado en la figura 1. BD Analysis Services Algortimos Escenario de Minería de Datos
17

Metodos de Mineria de Datos

Apr 16, 2015

Download

Documents

Pedro Lezama

Modelos de Demos de Mineria de Datos con SQL
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Metodos de Mineria de Datos

1

Laboratorio 05 PROCESO DE LA MINERIA DE DATOS EN EL

ANALYSIS SERVICES 1. Presentación. HERRAMIENTAS DEL SQL SERVER El Microsoft SQL Server ofrece 4 de herramientas principales:

Analysis Services

Database Engine

Integration Services.

Reporting Services

En este laboratorio trabajaremos con el SQL Server Analysis Services (SSAS) que permite crear una esquema para administrar los objetos de una base de datos de Analysis Services definidas por:

Cubos OLAP (Primera parte del curso)

Modelos de minería de datos. (Segunda parte del curso)

ENTORNOS DE DESARROLLO El SSAS ofrece un entorno integrado para crear cubos OLAP y modelos de minería de datos y trabajar con ellos, conformado por:

SQL Server Management Studio. Herramienta principal para administrar Database Engine (Motor de base de datos) y escribir código de Transact-SQL.

SQL Server Business Intelligence Development studio. Es el Microsoft Visual Studio con tipos de proyecto adicionales específicos de Business Intelligence. Es el entorno que se utilizará para desarrollar soluciones de Analysis Services, Integration Services y Reporting Services usando plantillas específicas.

2. Objetivo Al finalizar este laboratorio los alumnos estarán en capacidad de: Laboratorio 05. Sesión 1 Crear una base de datos de Analysis Services, agregar un origen de datos, crear una vista de origen de datos y modificar una vista de origenes de datos para preparar una nueva base de datos que se va a utilizar para la minería de datos. Laboratorio 05. Sesión 2 Crear un escenario de modelos de minería de datos para predecir la respuesta de clientes ante una campaña de correo directo. Laboratorio 05. Sesión 3 Crear y utilizar los algoritmos de minería de datos, los visores del modelo de minería de datos y las herramientas de minería de datos

Árboles de decisión de Microsoft

Clústeres de Microsoft

Bayes naive de Microsoft Esto puede ser visualizado en la figura 1.

BD

Analysis

Services

Algortimos Escenario

de Minería

de Datos

Page 2: Metodos de Mineria de Datos

2

Laboratorio 05. Sesión 1

PREPARA LA BD DEL ANALYSIS SERVICES PARA EL PROCESO DE MINERÍA DE DATOS.

Este laboratorio se desarrollará usando el Business Intelligence Development Studio. Este laboratorio tiene por objetivo crear una vista de origen de datos para trabajar con los modelos y algortimos de minería de datos. Conceptos importantes

Plantilla de proyecto. Permite crea un proyecto vacío del tipo seleccionado en el que se definen objetos del Database Engine o del Analysis Services.

Origenes de datos. Es una conexión de datos que se administra en el proyecto y se implementa en el (SSAS), contiene el nombre del servidor y la base de datos donde residen los datos del origen.

Vista de origenes de datos. Son vistas unificadas de los metadatos, desde las tablas y vistas seleccionadas en los orígenes de datos.

Este laboratorio incluye las siguientes tareas: 1. Crear un proyecto de Analysis Services basado

en una plantilla de proyecto del SSAS. 2. Agregar uno o varios origenes de datos. 3. Crear una vista de origen de datos. 4. Modificar una vista de origen de datos. Observe que estas tarea son comunes a cuando se desea crear y trabajar con un cubo OLAP

1. Crear un proyecto de Analysis Services Un proyecto de SSAS permite definir un esquema que contiene los objetos de una BD del Analysis Services, estos es modelos de minería de datos y objetos complementarios. Para crear un proyecto de Analysis Services a. Abra el Business Intelligence Development

Studio.

b. En el menú Archivo, seleccione Nuevo y haga clic en Proyecto.

c. Seleccione Proyecto de Analysis Services en el panel Plantillas.

d. Denomine al proyecto lab_05_db_mineria_datos

e. Haga clic en Aceptar.

Page 3: Metodos de Mineria de Datos

3

2. Crear un origen de datos Un origen de datos es una conexión de datos que se administra en el proyecto y se implementa en el (SSAS), contiene el nombre del servidor y la base de datos donde residen los datos del origen. Para crear un origen de datos 1. Abilite el Explorador de soluciones.

2. Seleccione la carpeta Orígenes de datos y luego Nuevo origen de datos en el Explorador de soluciones.

3. Se abrirá el Asistente para orígenes de datos, haga clic en Siguiente.

4. Haga clic en Nuevo para agregar una conexión a las bases de datos, se abrirá el cuadro de diálogo Administrador de conexión.

5. En la lista Proveedor del Administrador de conexión, seleccione OLE DB nativo\Microsoft OLE DB Provider for SQL Server.

6. En la lista Nombre del servidor, seleccione el servidor en el que se aloja la base de datos AdventureWorksDW (seleccione localhost si la base de datos se aloja en el servidor local.)

7. En la lista Seleccione o introduzca un nombre de base de datos, seleccione AdventureWorksDW.

8. Verifique la conectividad presionando el boton Prueba de conexión.

Debe obtener el siguiente mensajes

9. Presione el boton Ok para terminar.

Presione siguiente para ingresar a la página Información de suplantación.

Page 4: Metodos de Mineria de Datos

4

10. En la página Información de suplantación,

seleccione Utilizar la cuenta de servicio, haga clic en Siguiente. Luego presione finalizar.

11. El nuevo origen de datos, Adventure Works DW,

aparecerá en la carpeta Orígenes de datos del Explorador de soluciones.

3. Crear una vista de origen de datos Una vista de origen de datos es una abstracción del origen de datos, permite modificar la estructura de los datos (sin modificar los objetos de la base de datos original) para que sean más significativos en el contexto del proyecto. Se puede seleccionar tablas, establecer relaciones entre ellas, adicionar columnas calculadas y vistas con nombre. Para crear una vista de origen de datos 1. En el Explorador de soluciones, haga clic con el

botón secundario en Vistas de origen de datos y seleccione Nueva vista de origen de datos.

2. Se abrirá el Asistente para vistas de origen de datos.

3. En la página Seleccionar un origen de datos, el origen de datos Adventure Works DW que se creó en la última tarea aparecerá seleccionado de forma predeterminada en Orígenes de datos relacionales. Haga clic en Siguiente.

4. Si desea crear un nuevo origen de datos, haga clic en Nuevo origen de datos para iniciar el Asistente para orígenes de datos.

Page 5: Metodos de Mineria de Datos

5

5. En la página Seleccionar tablas y vistas, seleccione las siguientes tablas y vistas, use la flecha derecha para incluirlas:

dbo.ProspectiveBuyer

dbo.vAssocSeqLineItems

dbo.vAssocSeqOrders

dbo.vTargetMail

dbo.vTimeSeries

presione Siguiente.

6. En la página Finalizando el asistente, la vista de origen de datos tendrá el nombre Adventure Works DW de forma predeterminada. Haga clic en Finalizar.

7. Se abrirá el Diseñador de vistas de origen de

datos para mostrar la vista de origen de datos Adventure Works DW.

4. Modificar una vista de origen de datos. Puede utilizar el Diseñador de vistas de origen de datos para: cambiar la forma de ver los datos en un origen de datos, cambiar el nombre de cualquier objeto por uno que sea más significativo para el proyecto, sin modificar en el origen de datos original, pero puede referirse al objeto dentro del proyecto utilizando este nombre más descriptivo. Para crear una nueva relación entre tablas 1. En el panel de la vista de origen de datos del

Diseñador de vistas de origen de datos, seleccione la columna OrderNumber de la tabla vAssocSeqLineItems.

2. Arrastre la columna hasta la tabla vAssocSeqOrders y colóquela en la columna OrderNumber.

Ahora existirá una nueva relación de varios a uno entre las tablas vAssocSeqOrders y vAssocSeqLineItems.

Page 6: Metodos de Mineria de Datos

6

Laboratorio 05. Sesión 2

CREAR UN ESCENARIO DE CORREO DIRECTO Planteamiento del problema El departamento de marketing de Adventure Works desea aumentar las ventas dirigiendo una campaña de correo directo a clientes específicos. Mediante el análisis de los atributos de clientes conocidos, la empresa espera determinar los patrones de comportamiento que posteriormente se aplicarán a clientes potenciales. La empresa pretende utilizar los patrones hallados para predecir qué clientes potenciales tienen más probabilidades de comprar un producto. Tipos de atributos.

Atributos continuos. Son aquellos atributos por lo general numéricos, tales como 23.45, 23.4555, 87. Por ejemplo una columna puede contener información salarial como valores de sueldo actuales, que son continuos

Atributo discreto. Son aquellos datos categóricos tales como alto, bajo, varon o mujer. Generalmente se afirma que un atributo es discreto cuando tiene una cantidad de posible de valores diferentes que se pueden contar. Por ejemplo una columna puede contener información salarial en rangos de sueldo codificados, como 1 = < $25.000; 2 = de $25.000 a $50.000, que son discretos.

Modelo de árboles de decisión. El algoritmo de árboles de decisión es un algoritmo de clasificación y regresión para modelar la predicción de atributos (clase) discretos o continuos:

Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción (generalmente se le llama la clase), el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción.

Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión.

Requisitos previos Antes de desarrollar este laboratorio debe de leer el tutorial de árboles de decisión. Para confirmar que ha leído y entendido el tutorial diga el significado de los siguientes términos:

Predicción.

Clasificación

Regresión

Atributo

Clase

Nodo

Hoja

Regla de decisión

Error del clasificador Otros conceptos importantes

Escenario de correo electrónico. Corresponde a un problema que puede ser abordado con las técnicas de la minería de datos, generalmente corresponde a problemas de clasificación o predicción.

Asistente de minería de datos. Herramienta del SSAS para facilitar la creación de modelos de mienería de datos.

Estructura de minería de datos. Objetos (tablas, vistas), algoritmos necesarios para implementar la solución a un problema de minería de datos.

Para el desarrollo de este laboratorio se desarrollaran los siguientes tereas: 1. Crear una estructura del modelo de minería de

datos Targeted Mailing. 2. Modificar el modelo Targeted Mailing. 3. Explorar los modelos Targeted Mailing 4. Comprobar la precisión de los modelos de

minería de datos 5. Crear predicciones

Page 7: Metodos de Mineria de Datos

7

1. Crear una estructura del modelo de minería

de datos Targeted Mailing El primer paso para crear un escenario de correo directo consiste en utilizar el Asistente para minería de datos para crear la estructura de minería de datos y luego un modelo de minería de datos de árboles de decisión. Para crear una estructura de minería de datos para un escenario de correo directo 1. En el Explorador de soluciones, haga clic

con el botón secundario en Estructuras de minería de datos y seleccione Nueva estructura de minería de datos. Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.

3. En la página Seleccionar el método de definición, compruebe que la opción A partir de una base de datos relacional o un almacén de datos se ha seleccionado y, a continuación, haga clic en Siguiente.

4. En la página Seleccionar la técnica de

minería de datos, en ¿Qué técnica de minería de datos desea utilizar?, seleccione Árboles de decisión de Microsoft.

5. En la página Seleccionar vista de origen de datos, observe que Adventure Works DW se ha seleccionado de forma predeterminada. Haga clic en Explorar para ver las tablas de la vista de origen de datos. Presione siguiente.

6. En la página Especificar tipos de tablas, active la casilla de verificación de la columna Escenario, situada junto a la tabla vTargetMail; a continuación, haga clic en Siguiente.

Page 8: Metodos de Mineria de Datos

8

7. En la página Especificar los datos de

entrenamiento, seleccione las siguiente columnas:

Columna

Ke

y

Inp

ut

Pre

dic

ti

on

CustomerKey X

BikeBuyer X X

Age X

CommuteDistance X

CustomerKey X

EnglishEducation X

EnglishOccupation X

FirstName X

Gender X

GeographyKey X

HouseOwnerFlag X

LastName X

MaritalStatus X

NumberCarsOwned X

NumberChildrenAtHome X

Region X

TotalChildren X

YearlyIncome X

Un atributo puede ser marcado como:

Key. El asistente elegirá esa columna como clave para el modelo.

Input (Columna de entrada). Este atributo se usará como variable predictora.

Prediction. (Columna de salida). Es la clase o el atributo a predecir.

8. Alternativamente puede presionar el boton Sugerir, se abrirá el cuadro de diálogo Sugerir columnas relacionadas que enumera las columnas que están más ligadas a la columna de predicción, ordenando los atributos según la relación que tengan con el atributo de predicción. Las columnas cuyo valor es mayor que 0,05 se seleccionan automáticamente, si está de acuerdo haga clic en Aceptar.

Para este laboratorio, omita las sugerencias haciendo clic en Cancelar.

9. En la página Especificar el contenido y

el tipo de datos de las columnas, haga clic en Detectar. Un algoritmo usará los datos de la vista y determinará si las columnas numéricas contienen valores continuos o discretos.

Page 9: Metodos de Mineria de Datos

9

10. Después de hacer clic en Detectar,

compruebe que las entradas de las columnas Tipo de contenido y Tipo de datos tengan la configuración especificada en la siguiente tabla.

Columna Tipo de contenido

Tipo de datos

Age Continuous Long

BikeBuyer Discrete Long

CommuteDistance Discrete Text

CustomerKey Key Long

EnglishEducation Discrete Text

EnglishOccupation Discrete Text

FirstName Discrete Text

Gender Discrete Text

GeographyKey Discrete Text

HouseOwnerFlag Discrete Text

LastName Discrete Text

MaritalStatus Discrete Text

NumberCarsOwned Discrete Long

NumberChildrenAtHome Discrete Long

Region Discrete Text

TotalChildren Discrete Long

YearlyIncome Continuous Double

Usted debe de modificar para que corresponda a los valores de la tabla de arriba, revise el caso por ejemplo de: GeographyKey

11. Haga clic en Siguiente.

En porcentaje de datos para prueba no coloque 30%.

En máximo número de casos en el conjunto de datos de prueba no coloque nada, borre el valor.

12. En la página Finalización del asistente

hago lo siguiente:

En Nombre de la estructura de minería de datos, escriba Targeted Mailing.

En Nombre del modelo de minería de datos, escriba TM_Decision_Tree.

Active la casilla de verificación Permitir obtención de detalles.

Haga clic en Finalizar.

Es finalmente le permitira entrar a la ventana de diseño del modelo de minería de datos para árboles de decisión:

Observe ahora que en la parte superior de la ventana del Diseñador de Minería de Datos se ubican cinco fichas de ventanas:

Estructura de minería de datos

Modelos de minería.

Visor del modelo de minería de datos.

Gráfico de exactitud del modelo

Rendimiento del modelo de predicción

Page 10: Metodos de Mineria de Datos

10

2. Modificar el modelo Targeted Mailing En esta tarea se definirá dos modelos de minería (estructuras) de adicionales al algoritmo de árboles de decisión mediante la ficha Modelos de minería de datos del Diseñador de minería de datos. En esta tarea, definirá un modelo Naive Bayes y un modelo Clustering. a. Crear un modelo Microsoft Clustering Para crear un modelo de minería de datos de clúster debe ejecutar los siguientes pasos: 1. Cambie a la ficha Modelos de minería

de datos del Diseñador de minería de datos en Business Intelligence Development Studio.

Observe que el diseñador muestra dos columnas: una para la estructura de minería de datos y otra para el modelo de minería de datos inicial, que creó en la tarea anterior de esta lección.

2. Haga clic con el botón secundario en la columna Estructura y seleccione Nuevo modelo de minería de datos.

3. Se abrirá el cuadro de diálogo Nuevo

modelo de minería de datos.

En Nombre del modelo, escriba TM_Clustering.

En Nombre del algoritmo, seleccione Clústeres de Microsoft.

4. Aparece un modelo nuevo en la ficha Modelos de minería de datos del Diseñador de minería de datos.

Un modelo creado con el algoritmo de clústeres de Microsoft puede agrupar en clúster y predecir atributos continuos y discretos. Aunque puede modificar el uso y las propiedades de la columna para el modelo nuevo, en este laboratorio no es necesario hacer cambios en el modelo TM_Clustering.

Page 11: Metodos de Mineria de Datos

11

b. Crear un modelo Microsoft Naive Bayes Para crear un modelo Naive Bayes: 1. En la ficha Modelos de minería de

datos del Diseñador de minería de datos, haga clic con el botón secundario en la columna Estructura y seleccione Nuevo modelo de minería de datos.

2. Se abrirá el cuadro de diálogo Nuevo modelo de minería de datos.

En Nombre del modelo, escriba TM_NaiveBayes.

En Nombre del algoritmo, seleccione Bayes naive de Microsoft..

3. Aparece un modelo nuevo en la ficha Modelos de minería de datos. Aunque puede modificar el uso y las propiedades de la columna para todos los modelos de la ficha, en este laboratorio, no es necesario hacer cambios en el modelo TM_NaiveBayes.

c. Procesar los modelos de minería de datos Ahora que la estructura y los parámetros para los modelos de minería de datos se han completado, puede implementar y procesar cada uno de los modelos: Implementación de la BD Analysis Services

1. En el menú Depurar, seleccione Iniciar depuración. O, puede presionar F5.

Esto permitirá que la base de datos Analysis Services se implemente en el equipo servidor y los modelos de minería de datos se procesen.

Con esto puede obtener los siguientes resultados.

Page 12: Metodos de Mineria de Datos

12

Procesamiento de la BD Analysis Services Si la base de datos ya se ha implementado en el equipo servidor, puede procesar sólo los modelos de minería de datos mediante el proceso siguiente. 1. En el menú Modelo de minería de

datos de BI Development Studio, haga clic en Procesar estructura de minería de datos y todos los modelos.

2. Se abre el cuadro de diálogo Procesar estructura de minería de datos: <Targeted Mailing>.

3. Haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo, dependiendo del equipo.

4. Al finalizar, haga clic en Cerrar dos veces.

Page 13: Metodos de Mineria de Datos

13

3. Explorar los modelos Targeted Mailing Una vez que se procesen los modelos de su proyecto, podrá verlos utilizando la ficha Visor de modelos de minería de datos del Diseñador de minería de datos.

Puede utilizar la lista Modelos de minería de datos, ubicada en la parte superior de la ficha, para examinar los modelos individuales en la estructura de minería de datos.

Las secciones siguientes describen cómo explorar los modelos de minería de datos en los visores.

Modelo Microsoft Decision Tree

Modelo Microsoft Clustering

Modelo Microsoft Naive Bayes a. Modelo Microsoft Decision Tree. 1. Cada algoritmo utilizado para crear un modelo

aporta diferentes resultados, existe un visor independiente para cada algoritmo. Cuando se examina un modelo de minería de datos, el modelo se muestra en la ficha Visor de modelos de minería de datos. Este visor contiene dos fichas: Árbol de decisión y Red de dependencias.

Ficha Árbol de decisión

2. En la ficha Árbol de decisión, puede examinar los modelos de árbol que componen un modelo de minería de datos. Si hubiera más árboles, podría utilizar el cuadro Árbol para elegir uno diferente, en este caso dado que contiene un único atributo de predicción (Bike Buyer), sólo hay un árbol para ver.

3. El visor muestra por defecto los primeros tres niveles del árbol, si el árbol contiene menos se mostrará sólo los niveles existentes, puede ver más niveles utilizando el control deslizante Mostrar nivel o la lista Expansión predeterminada.

2 niveles 3 niveles

4. Para analizar la cantidad de registros por nodo

cambie la lista Fondo a 1, esto permitirá ver rápidamente el número de escenarios (registros) para Bike Buyer que son igual a 1 y que existen en cada nodo. Cuanto más oscuro sea el sombreado del nodo, más escenarios incluirá.

Fondo = todos

Page 14: Metodos de Mineria de Datos

14

Fondo = 1

Fondo = 0 5. Cada nodo muestra la siguiente información:

La condición para alcanzar el nodo desde el nodo anterior. Puede ver la ruta completa del nodo en la Leyenda de minería de datos o deteniendo el puntero sobre un nodo para ver un recuadro informativo.

Un histograma que describe la distribución de estados de la columna de predicción por orden de popularidad. Puede decidir cuántos estados aparecerán en el histograma mediante el control Histogramas.

La concentración de escenarios, si el estado

del atributo de predicción se ha especificado en el control Fondo.

6. Puede ver los escenarios (datos) de

entrenamiento que cada nodo admite haciendo clic con el botón secundario en el nodo y, a continuación, seleccionando Obtener detalles.

Obteniendo el siguiente detalle:

Ficha Red de dependencias.

7. La ficha Red de dependencias muestra las

relaciones entre los atributos que contribuyen a la capacidad de predicción del modelo de minería de datos.

El nodo central, representa el atributo de predicción del modelo de minería de datos.

Cada nodo adyacente representa un atributo que afecta al resultado del atributo de predicción.

Utilice el control de la izquierda para controlar la intensidad de los vínculos que se muestran. Si desplaza el control hacia abajo, se mostrarán los vínculos de mayor intensidad.

Si hace clic en un nodo de la red puede consultar la leyenda de color situada en la parte inferior, si predice o es predicho.

Page 15: Metodos de Mineria de Datos

15

4. Crear predicciones Puede crear consultas de predicción (DMX) por medio del Generador de consultas de predicción en la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos.

El Generador de consultas de predicción es similar al Generador de consultas de Access; ofrece operaciones de arrastrar y colocar para crear las consultas, ccontiene las vistas siguientes:

Diseño Consulta Resultado

a. Crear la consulta. 1. Seleccionar una modelo de minería de

datos y una tabla de entrada. En la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos, en el cuadro Modelo de minería de datos, haga clic en Seleccionar modelo.

Se abrirá el cuadro de diálogo Seleccionar modelo de minería de datos.

2. Desplácese por el árbol hasta la

estructura Targeted Mailing, expándala, seleccione TM_Decision_Tree y, a continuación, haga clic en Aceptar.

3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla de escenarios.

Se abrirá el cuadro de diálogo Seleccionar tabla.

En la lista Origen de datos, compruebe que

Adventure Works DW se haya seleccionado.

En la lista Nombre de tabla o lista, seleccione la tabla ProspectiveBuyer y, a continuación, haga clic en Aceptar.

Page 16: Metodos de Mineria de Datos

16

4. Después de seleccionar la tabla de

entrada, el Generador de consultas de predicción crea una asignación predeterminada entre el modelo de minería de datos y la tabla de entrada, en función de los nombres de las columnas.

Para crear una consulta de predicción 1. Agregar un identificador único a la

consulta de predicción para que pueda identificar quién es más y menos probable que compre una bicicleta, y quién es menos probable.

En la columna Origen de la cuadrícula de la ficha Predicción de modelo de minería de datos, haga clic en la celda de la primera fila vacía y, a continuación, seleccione ProspectiveBuyer.

En la fila ProspectiveBuyer de la columna Campo, compruebe que ProspectAlternateKey se haya seleccionado.

2. Determinar qué modelo de árboles de

decisión de Microsoft de la estructura de correo directo se utilizará para crear predicciones. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación, seleccione TM_Decision_Tree.

En la fila TM_Decision_Tree de la columna Campo, compruebe que Bike Buyer se haya seleccionado.

3. Proporcionan información acerca de

cómo realiza las predicciones el modelo mediante las funciones de predicción. La función PredictProbability proporciona información acerca de la corrección de la probabilidad de predicción. En la columna Criterios o argumento, puede especificar parámetros para la función de predicción. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación, seleccione Función de predicción.

En la fila Función de predicción, de la columna Campo, seleccione PredictProbability.

4. Especificar la columna de destino para la función PredictProbability. En la fila PredictProbability de la columna Criterios o argumentos, escriba [TM_Decision_Tree].[Bike Buyer].

5. Haga clic en Cambiar a vista de resultado de consulta, que es el primer botón de la barra de herramientas de la ficha Predicción de modelo de minería de datos.

La tabla siguiente muestra una parte de los resultados que se devuelven. Estos resultados muestran que es probable que el cliente con Id. 827 compre una bicicleta, y la probabilidad de que la predicción sea correcta es del 63%.

ProspectAlternateKey BikeBuyer Expresión

827 1 0.633836…

833 0 0.521134…

844 0 0.735697…

Page 17: Metodos de Mineria de Datos

17

b. Ver los resultados 1. El primer botón en la barra

de herramientas de la ficha Predicción de modelo de minería de datos le permite alternar entre tres vistas.

2. Al hacer clic en Resultado, podrá ver los

resultados de la consulta de predicción actual. Las columnas ProspectAlternateKey, BikeBuyer y Expression identifican a los clientes potenciales, indican si son compradores de bicicletas y la probabilidad de que la predicción sea correcta. Puede utilizar estos resultados para determinar a qué clientes potenciales debe dirigirse en el correo.

3. Al hacer clic en Diseño de consulta para volver a la cuadrícula y cambiar la consulta.

Puede alternar entre la vista Consulta y la vista Resultados; sin embargo, si vuelve a la vista Diseño, no se conservará la consulta modificada.

4. Al hacer clic en Consulta, podrá ver y modificar el código DMX que creó el Generador de consultas de predicción. También puede ejecutar la consulta, modificarla y ejecutar la consulta modificada. Por ejemplo, para ver sólo los clientes que es probable que compren una bicicleta y ordenarlos por orden descendente de probabilidad, puede agregar las instrucciones siguientes al final de la consulta DMX:

WHERE [Bike Buyer] = 1

ORDER BY

PredictProbability([TM_Decision_Tree].[

Bike Buyer]) DESC

SELECT

t.[ProspectAlternateKey],

[TM_Decision_Tree].[Bike Buyer],

PredictProbability([TM_Decision_Tree].[Bike Buyer])

From

[TM_Decision_Tree]

PREDICTION JOIN

OPENQUERY([Adventure Works DW],

'SELECT

[ProspectAlternateKey],

[FirstName],

[LastName],

[MaritalStatus],

[Gender],

[YearlyIncome],

[TotalChildren],

[NumberChildrenAtHome],

[HouseOwnerFlag],

[NumberCarsOwned]

FROM

[dbo].[ProspectiveBuyer]

') AS t

ON

[TM_Decision_Tree].[First Name] = t.[FirstName] AND

[TM_Decision_Tree].[Last Name] = t.[LastName] AND

[TM_Decision_Tree].[Marital Status] = t.[MaritalStatus] AND

[TM_Decision_Tree].[Gender] = t.[Gender] AND

[TM_Decision_Tree].[Yearly Income] = t.[YearlyIncome] AND

[TM_Decision_Tree].[Total Children] = t.[TotalChildren] AND

[TM_Decision_Tree].[Number Children At Home] = t.[NumberChildrenAtHome] AND

[TM_Decision_Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND

[TM_Decision_Tree].[Number Cars Owned] = t.[NumberCarsOwned]