IMPLEMENTACION DE UN MODELO PREDICTIVO DE ...red.uao.edu.co/bitstream/10614/1989/1/T0003659.pdf2.3.1 Metodología CRISP_DM 26 2.4 ESTANDAR PMML 28 2.4.1 Formato del pmml 28 2.4.2 Estructura

IMPLEMENTACION DE UN MODELO PREDICTIVO DE MINERIA D E DATOS UTILIZANDO CLEMENTINE

DIANA CAROLINA BEDOYA PADILLA HERBERTH JOIMAN GOMEZ CASTANEDA

UNIVERSIDAD AUTONOMA DE OCCIDENTE FACULTAD DE INGENIERIA

DEPARTAMENTO DE CIENCIAS DE LA INFORMACION PROGRAMA DE INGENIERIA INFORMATICA

SANTIAGO DE CALI 2008

IMPLEMENTACION DE UN MODELO PREDICTIVO DE MINERIA D E DATOS UTILIZANDO CLEMENTINE

DIANA CAROLINA BEDOYA PADILLA HERBERTH JOIMAN GOMEZ CASTAÑEDA

Trabajo de Pasantía para optar al título de Ingeniero Informático

Directora LYDA PEÑA PAZ

Ingeniera de Sistemas Magíster en Ciencias Computacionales

UNIVERSIDAD AUTONOMA DE OCCIDENTE FACULTAD DE INGENIERIA

DEPARTAMENTO DE CIENCIAS DE LA INFORMACION PROGRAMA DE INGENIERIA INFORMATICA

SANTIAGO DE CALI 2008

Nota de aceptación:

Aprobado por el Comité de Grado en cumplimiento de los requisitos exigidos por la Universidad Autónoma de Occidente para optar al título de Ingeniero Informático Ing. Oscar Marino Carvajal Docente.

Santiago de Cali, 18 de Febrero de 2008

CONTENIDO

Pág. GLOSARIO 12

RESUMEN 14

INTRODUCCION 15

1 PLANTEAMIENTO DEL PROBLEMA 17

2 MARCO TEORICO 19

2.1 MINERÍA DE DATOS 19

2.1.1 Los fundamentos de la minería de datos 20

2.1.2 El alcance de la minería de datos 20

2.1.3 Metodología de minería de datos 21

2.1.4 Arquitectura para minería de datos 22

2.2 SISTEMA DE CALIFICACIÓN CREDITICIA 23

2.2.1 Funcionamiento de un sistema de calificación crediticia 24

2.2.2 Beneficios del sistema de calificación crediticia 24

2.2.3 Confiabilidad del sistema de calificación crediticia 25

2.3 DEFINICION MODELO PREDICTIVO 25

2.3.1 Metodología CRISP_DM 26

2.4 ESTANDAR PMML 28

2.4.1 Formato del pmml 28

2.4.2 Estructura de regresión en pmml 29

2.4.3 Software para el procesamiento de pmml 34

2.5 IMPORTAR UN MODELO PMML EN CLEMENTINE 35

2.6 EJECUCION DE UN MODELO EN CLEMENTINE 37

2.7 COMPARACION DE RESULTADO EN SPSS Y SPSS CLEMENTINE 39

3 ANTECEDENTES 41

3.1 HERRAMIENTAS DE MINERIA EN FINANCIERA COOMEVA 42

3.2 SPSS CLEMENTINE 43

3.3 SPSS 43

3.4 SQL SERVER ANALYTICAL SERVICES 44

3.5 ORACLE MINERIA DE DATOS 44

3.6 CUADRO COMPARATIVO 45

4 OBJETIVOS 47

4.1 OBJETIVO GENERAL 47

4.2 OBJETIVOS ESPECIFICOS 47

5 JUSTIFICACION 48

6 METODOLOGÍA 49

6.1 ESQUEMA GENERAL DEL PROYECTO 49

7. DESARROLLO 52

7.1 ESPECIFICACIONES DE REQUERIMIENTOS 52

7.2 REVISION DE LOS REQUERIMIENTOS 53

7.3 ANALISIS DE LOS REQUERIMIENTOS 54

7.4 RESOLUCION DE INQUIETUDES 56

7.5 LEVANTAMIENTO DE INFORMACION 56

7.5.1 Requerimiento 001: Extracción de información fuente 57

7.5.2 Requerimiento 002: Transformación de Variables 57

7.5.3 Requerimiento 003: Ejecución PMML 57

7.5.4 Requerimiento 004: Calculo 57

7.5.5 Requerimiento 005, Requerimiento 006 : Calificación 58

7.5.6 Requerimiento 007: Esquema 58

7.5.7 Requerimiento 008: Generar Reporte 58

7.5.8 Requerimiento 009: Almacenar en el AS/400 58

7.6 MODIFICACION DE REQUERIMIENTOS 53

7.7 VALIDACION Y VERIFICACION 59

7.8 ELABORACIÓN DE CASOS DE USO 60

7.8.1 Modelo de operación del software 61

7.8.2 Listado casos de uso 63

7.8.3 Especificación casos de uso 65

7.8.4 Aprobación de casos de uso 65

7.8.5 Validación y verificación 65

7.9. DISEÑO DE LA SOLUCIÓN 65

7.9.1 Arquitectura usada 65

7.9.2 Perspectivas de análisis de arquitectura 66

7.9.3 Vista de descomposición funcional 67

7.9.4 Vista de capas y componentes 68

7.9.5 Vista de distribución física 73

7.10 CONSTRUCCIÓN: EJECUCIÓN DEL MODELO DE MINERÍA 74

7.10.1 Desarrollo del software de procesamiento pmml 74

7.10.2 Ejecución del modelo logístico multinomial. 79

7.11 ASEGURAMIENTO DE CALIDAD Y PRUEBAS 83

8. CONCLUSIONES 85

BIBLIOGRAFÍA 87

ANEXOS 89

LISTA DE FIGURAS

Pág. Figura 1. Esquema de fases en CRISP-DM 27

Figura 2. Ejemplo de flujo de trabajo en SPSS Clementine 37

Figura 3. Definición de variables en SPSS Clementine. 38

Figura 4. Revisión de datos en SPSS Clementine 38

Fígura 5. Visualización de resultados del modelo en SPSS Clementine 39

Figura 6. Esquema de actividades del proyecto 51

Figura 7. Esquema de la fase de especificación de requerimientos 52

Figura 8. Esquema de la fase de elaboración de casos de uso 60

Figura 9. Modelo de operación del modelo de otorgamiento 61

Figura 10. Modelo de operación de la generación del reporte 63

Figura 11. Esquema de vista de arquitectura funcional 68

Figura 12. Esquema de arquitectura de tres capas 69

Figura 13. Esquema de funcionamiento de la capa de presentación 70

Figura 14. Esquema de funcionamiento capa de lógica de dominio 71

Figura 15. Esquema de funcionamiento capa de acceso a datos 71

Figura 16. Esquema de funcionamiento de las diferentes capas 72

Figura 17. Esquema de vista física de arquitectura 73

Figura 18. Modelo de operación de ejecución del PMML 75

Figura 19. Esquema de la generación de Java a partir de XSD 77

Figura 20. Esquema de un Modelo de minería como una función paramétrica 79

Figura 21. Ejemplo de modelo de Minería para Cálculo de PI 80

Figura 22. Esquema de la fase de Pruebas 84

LISTA DE TABLAS

Pág. Tabla 1. Cuadro comparativo de herramientas de minería 45

Tabla 2. Ejemplo de transformación requerida 57

Tabla 3. Listado de módulos del sistema 64

Tabla 4. Listado de casos de uso del sistema 64

Tabla 5. Perspectivas seleccionadas de Análisis de Arquitectura 67

Tabla 6. Mecanismos de procesamiento XML en Java 76

Tabla 7. Ejemplos de errores en generación de Java a partir de XSD 77

Tabla 8. Ejemplos de soluciones para generación de Java a partir de XSD 78

Tabla 9. Ejemplo de variable categorial (Discreta) Edad 79

Tabla 10. Ejemplo de variable categorial (Discreta) Sexo 80

Tabla 11. Ejemplo de valores para los predictores 82

Tabla 12. Ejemplo de valores para los predictores 82

LISTA DE CODIGOS

Pág.

Código 1. Esquema general de un archivo PMML 29

Código 2. Estructura general de un archivo PMML 2.1 30

Código 3. Modelo de regresión en PMML 2.1 31

Código 4. Modelo de regresión en PMML 3.1 32

Código 5. Matriz de parámetros en PMML 33

Código 6. Uso de JAXP para cargar un modelo PMML 78

Código 7. Ejemplo de diccionario de datos en PMML 80

Código 8. Ejemplo de listado de parámetros PMML 81

Código 9. Ejemplo de matriz de conversión de parámetros en PMML 82

Código 10. Ejemplo de matriz de parámetros en PMML 83

LISTA DE ANEXOS

Pág. Anexo A. Caso de Uso 001: Extracción variables 89

Anexo B. Caso de Uso 002: Transformación variables 92

Anexo C. Caso de Uso 003: Ejecución PMML 964

Anexo D. Caso de Uso 004: Cálculo puntaje y homologación 964

Anexo E. Caso de Uso 005: Calificación riesgo endeudamiento 67

Anexo F. Caso de Uso 006: Calificación crédito monto 101

Anexo G. Caso de Uso 007: Esquema 35

Anexo H. Caso de Uso 008: Reporte 10576

Anexo I. Caso de Uso 009: Almacenamiento AS400 107

Anexo J. Desarrollo del algoritmo de regresión logística polinomial 109

GLOSARIO AS/400: el servidor AS/400 es un ordenador de IBM de gamas baja y media, llegando a solaparse con los grandes host y con los pequeños servidores Windows y GNU/Linux, para todo tipo de empresas y departamentos. BODEGA DE DATOS : data warehouse (bodega o almacén de datos) lo asocia con una colección de datos de gran volumen, provenientes de sistemas en operación y otras fuentes, después de aplicarles los procesos de análisis, selección y transferencia de datos seleccionados. CASO DE USO: en ingeniería del software, un caso de uso es una técnica para la captura de requisitos potenciales de un nuevo sistema o una actualización software. Cada caso de uso proporciona uno o más escenarios que indican cómo debería interactuar el sistema con el usuario o con otro sistema para conseguir un objetivo específico. INTELIGENCIA DE NEGOCIOS: la Inteligencia de Negocios, es una alternativa tecnológica y de administración de negocios, que permite manejar la información para la toma de decisiones acertadas en todos los niveles de la organización, desde la extracción, depuración y transformación de datos, hasta la explotación y distribución de la información mediante herramientas de fácil uso para los usuarios. IU: (user interface) Interfaz grafica de usuario MINERIA DE DATOS: la minería de datos es un proceso analítico diseñado para explorar grandes volúmenes de datos (generalmente datos de negocio y mercado) con el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes variables. Esto permite generar conocimiento que ayuda a mejorar la toma de decisiones en los procesos fundamentales de un negocio PMML: es un lenguaje de marcas basado en el estándar XML que sirve para describir modelos estadísticos y de minería de datos. Para ello requiere definir los datos de entrada al modelo, las transformaciones realizadas sobre los mismos y los parámetros propios que lo definen. SARC: el SARC se ocupa en forma integral de todas y cada una de las etapas del ciclo de crédito (otorgamiento, seguimiento, control, recuperación, etc.)

RESUMEN

Al interior de los procesos de otorgamiento de crédito, es necesario analizar al cliente para determinar el nivel de riesgo asociado y los montos que pueden aprobarse en las diferentes transacciones. Tareas que son necesarias no solo debido a las políticas internas de la institución, sino también debido a las normatividades legales. Con el fin de realizar estas evaluaciones y valoraciones de los clientes, Coomeva trabajó en un modelo de minería de datos. Este modelo de minería de datos tiene establecidas unas reglas, de acuerdo al comportamiento histórico de la población asociada a Coomeva, que permite calificar a las personas que solicitan crédito. Este modelo de minería, sin embargo, incluye un conjunto adicional de reglas y transformaciones e integrarse al sistema operacional de la entidad Taylor & Johnson, con el fin de poder ser utilizado al interior de la compañía. En este informe se documenta el proceso para la implementación de un modelo predictivo de minería de datos para el modelo de otorgamiento en Coomeva Financiero, que permite integrar esta funcionalidad al software de Taylor & Johnson para agilizar los estudios y llegar a una decisión rápida para las solicitudes de crédito. Para la ejecución del modelo de minería, se empleó el mismo modelo entrenado que posee Coomeva Financiero en una herramienta llamada SPSS (statistical package for the social science) o Clementine exportándolo a un archivo PMML (predictive model markup language), el cual se ejecuta directamente desde la aplicación.

15

INTRODUCCION En la actualidad, los bancos y entidades de financiamiento, requieren establecer sistemas que permitan determinar, mitigar y controlar el nivel de riesgo crediticio de sus operaciones. Debido a una serie de normatividades legales, las compañías del sector financiero deben determinar la probabilidad que los créditos que manejan dejen de ser pagados o tengan complicaciones en su pago oportuno. Esto con el fin que el banco tome medidas y haga las reservas requeridas para que los problemas que puedan ocurrir con los créditos y las inversiones no terminen afectando los ahorros y depósitos del público y los inversionistas. Como parte del proceso de otorgamiento de crédito personal y financiero, las entidades bancarias suelen usar modelos estadísticos y/o de minería de datos que permitan determinar la probabilidad de incumplimiento del crédito. Si la probabilidad es muy alta, muy probablemente el crédito no será aprobado. Un crédito con una probabilidad de incumplimiento muy alta puede no ser un buen negocio, no solo por el riesgo de no pago del cliente, sino por los altos niveles de reservas que se pueden requerir. La Cooperativa Coomeva, y la nueva Financiera Coomeva, han estado trabajando durante varios años en la definición y perfeccionamiento de modelos de minería de datos que permitan determinar con el mayor nivel de precisión el nivel de riesgo crediticio. Para la nueva oferta de servicios para 2008, la Financiera Coomeva desea establecer un nuevo modelo de otorgamiento crediticio que aproveche estos modelos de minería de datos y desarrollar un sistema que genere recomendaciones de aprobación o no del crédito de acuerdo a la probabilidad de incumplimiento que se pueden calcular. Geniar, compañía que ha desarrollado algunos proyectos de integración de aplicaciones e inteligencia de negocios en Coomeva y otras compañías de la región, ha sido designada para construir una solución que permita integrar los modelos de minería de datos desarrollados en SPSS Clementine en las aplicaciones de negocio de la entidad financiera. La solución planteada se basa en el uso del estándar PMML para el intercambio de modelos de minería de datos. Empleando este estándar, el modelo de minería de datos puede ser creado en SPSS Clemetine, exportado en un archivo especial e importado en una solución de software. Como parte de la solución se construyó un módulo de software que ejecuta el modelo de minería basado en el PMML y otro módulo que usa al primero para ejecutar el modelo de otorgamiento y hacer la recomendación de acuerdo a los datos del solicitante.

16

El presente trabajo incluye un informe de la pasantía de los estudiantes Herberth Joiman Gómez y Diana Carolina Bedoya, quienes participaron en la construcción del modelo de otorgamiento y el mecanismo de ejecución de PMML dentro del proyecto desarrollado por Geniar para la Financiera Coomeva.

17

1. PLANTEAMIENTO DEL PROBLEMA Desde hace mucho tiempo poder conocer, controlar y cambiar la realidad financiera de la empresa es uno de los puntos donde se encuentran más dificultades. Sin duda, disponer de los recursos adecuados para afrontar las acciones necesarias, permite adoptar una buena planificación de la estrategia financiera y conocer la realidad de la empresa, enfrentando de esta forma los retos y problemas diarios con máxima eficiencia. Las diferentes crisis bancarias que han ocurrido en América Latina en las últimas décadas, incluyendo la crisis del sector financiero en Colombia a finales de la década de los 90, han creado una mayor conciencia sobre la necesidad de contar con mecanismos para evaluar y mitigar los riesgos. Para una institución financiera, brindar créditos a personas que no están en capacidad de pagarlos, representa un gran riesgo. Los clientes que incumplen en sus créditos generan procesos complejos de expropiación, descontento del público y pérdidas de dinero que pueden llevar a una compañía a la quiebra, por esta razón, analizar adecuadamente los clientes es una necesidad indudable y la práctica de la evaluación de capacidad y calificación crediticia se han convertido en prácticas bien establecidas. Determinar si un cliente es apto o no para acceder a un crédito, se basa normalmente en la probabilidad de incumplimiento de ese cliente. Aunque las estimaciones de probabilidad en su mayoría son subjetivas, las técnicas de evaluación de crédito se han mejorado en los últimos años. Un buen administrador de crédito en una institución financiera puede hacer juicios razonables exactos acerca de la probabilidad de incumplimiento de diferentes clases de clientes. Una institución financiera entonces, de acuerdo a su visión de negocio, debe establecer los márgenes de riesgo permitidos. Márgenes que le permitan lograr la mayor colocación posible en niveles apropiados de probabilidad de incumplimiento. Desde hace algunos años en Colombia, es obligatorio que todas las compañías financieras cuenten con sistemas de administración de riesgo crediticio (SARC) que le permitan conocer, monitorear y controlar los niveles de riesgo asociados a su colocación. Las áreas de negocio evalúan constantemente la situación financiera de cada cliente, realizando cuando menos una vez al año, revisión exhaustiva y análisis del riesgo de cada préstamo. Si se llegara a detectar cualquier deterioro de la situación financiera del cliente, se cambia su calificación de inmediato. De esta manera, el Grupo determina los cambios experimentados por los perfiles de riesgo

18

de cada cliente. En estas revisiones se considera el riesgo de crédito global, incluyendo operaciones con instrumentos financieros, derivados financieros y cambios. En el caso de los riesgos superiores a lo aceptable, se realizan revisiones complementarias con mayor frecuencia, mínimo trimestralmente. Las empresas se basan en la aplicación de estrategias bien definidas para controlar cualquier tipo de riesgo, entre las que destacan la centralización de los procesos de crédito, la diversificación de la cartera, un mejor análisis del crédito, una estrecha vigilancia y un modelo de calificación del riesgo crediticio. En los últimos años, la práctica de evaluación crediticia de los clientes ha involucrado cada vez más diferentes variables y factores. Situación la cual genera, en muchos casos, que los modelos de evaluación excedan las posibilidades reales de hacer el proceso de forma manual. Adicionalmente, la tendencia a emplear la gran cantidad de información histórica de las transacciones de los clientes, llevan a las instituciones financieras cada vez más hacia la automatización de estos procesos. El negocio y el proceso de otorgamiento crediticio en la cooperativa Coomeva y financiera Coomeva se ha estado refinando y evolucionando con el tiempo. Desde hace algunos años se ha estado trabajando en tema de minería de datos para mejorar los esquemas de análisis de riesgo crediticio y para ser más asertivos en los procesos de otorgamiento de los créditos. Hoy en día el software bancario de Coomeva, Taylor & Jhonson, no incluye algunas de las definiciones más recientes del negocio. El software soporta un modelo de operación, con una serie de pasos basados en reglas, que no soporta el nuevo modelo basado en el esquema de minería de datos. Para lograr que el software bancario soporte el nuevo modelo de otorgamiento basado en minería de datos, es necesario construir un servicio de software que permita ejecutar el modelo predictivo con los datos del solicitante del crédito. Debido a que el grupo estadístico de Coomeva trabaja con herramientas de minería de datos SPSS Clementine, los modelos predictivos se hallan construidos en este sistema. Modelos que incluyen algunos modelos de cálculo de riesgo crediticio y de probabilidad de incumplimiento que deberían ser integrados en el corto y mediano plazo al software bancario. ¿Cómo implementar un servicio de ejecución de un modelo predictivo desarrollado en SPSS Clementine, de forma que pueda ser integrado a la solución del sistema bancario en la Financiera y la Cooperativa Coomeva?

19

2. MARCO TEORICO 2.1 MINERÍA DE DATOS

La Minería de Datos (Data Mining), es la extracción de información oculta y predecible de grandes bases de datos, es una tecnología con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases y Bodegas de Información (Data Warehouse). Las herramientas de Minería de Datos predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información. Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. Las herramientas de Minería de Datos pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Muchas compañías ya colectan y refinan cantidades masivas de datos. Las técnicas de Minería de Datos pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas ya que son traídas en línea. Una vez que las herramientas de Minería de Datos fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles clientes tienen más probabilidad de responder al próximo correo promocional, y por qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc.1

1 Página de Consultas Monografias, [en línea] Data Mining, Argentina: Monografias SA, 2004 [consultado 01 de septiembre de 2007] Disponible en internet:

http://www.monografias.com/trabajos7/dami/dami.shtml

20

2.1.1 Los fundamentos de la minería de datos. Las técnicas de Minería de Datos son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. La Minería de Datos toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. La Minería de Datos está soportada por tres tecnologías que son suficientemente maduras: • Recolección masiva de datos • Potente computadoras con multiprocesadores • Algoritmos de Minería de Datos

Los algoritmos de Minería de Datos utilizan técnicas que han existido por lo menos desde la década de los 90, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente tienen mejor rendimiento que métodos estadísticos tradicionales. 2.1.2 El alcance de la minería de datos. El nombre de Minería de Datos deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Minería de Datos puede generar nuevas oportunidades de negocios al proveer estas capacidades: Predicción automatizada de tendencias y comportamientos. La minería de datos automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Minería de Datos barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos donde puede aplicarse minería incluyen la detección de transacciones fraudulentas de tarjetas de créditos y la identificación de datos anormales que pueden representar errores de digitación en la carga de datos.

21

Las técnicas de Minería de Datos pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Algunas de las técnicas más comúnmente usadas en Minería de Datos son: • Redes neuronales artificiales: modelos predecibles no-lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. • Árboles de decisión : estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión. • Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. • Método del vecino más cercano : una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos. • Regla de introducción: la extracción de reglas “Si x Entonces y” (if-then) a partir de datos basados en significado estadístico. 2.1.3 Metodología de minería de datos. La Minería de Datos es el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de Minería de Datos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Minería de Datos en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado en situaciones similares donde usted no conoce la respuesta. Para determinar si un modelo es bueno el primer paso que se debe realizar es probar con un modelo donde se conoce la respuesta. Con Minería de Datos, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Minería de Datos. Una vez que el proceso está completo, los

22

resultados pueden ser probados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos. Las principales metodologías utilizadas por los analistas para la realización de proyectos de Minería de Datos son CRISP-DM y SEMMA. Estas metodologías presentan diferentes fases que proporciona una idea más amplia respecto a la realización de proyectos de Minería de Datos y me permiten adaptarlas al desarrollo de los proyectos específicos de cada organización. Así mismo, la presentación de las fortalezas y debilidades de cada una de las metodologías hace posible la selección informada de una técnica de desarrollo apropiada para cada caso, donde comparten la misma esencia, estructurando el proyecto de Minería de Datos en fases que se encuentran interrelacionadas entre sí, convirtiendo el proceso de Minería de datos en un proceso iterativo e interactivo. La metodología CRISP-DM mantiene una perspectiva más amplia respecto a los objetivos empresariales del proyecto ya que desde la primera fase del proyecto comienza realizando un análisis del problema empresarial para su transformación en un problema técnico, de esta manera, esta metodología permite estar mucho más cerca al concepto real del proyecto y ser integrada con una metodología de Gestión de Proyectos específica que completaría las tareas administrativas y técnicas. CRISP-DM ha sido diseñada como una metodología neutra respecto a la herramienta que se utilice para el desarrollo del proyecto de Minería de Datos siendo su distribución libre y gratuita. La metodología SEMMA se centra más en las características técnicas del desarrollo del proceso y desde la primera fase comienza realizando un muestreo de datos y sólo es abierta en sus aspectos generales ya que está muy ligada a los productos SAS donde se encuentra implementada. 2.1.4 Arquitectura para minería de datos. Para aplicar estas técnicas avanzadas, éstas deben estar totalmente integradas con las Bodegas de Datos, así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Minería de Datos actualmente operan fuera de la Bodega de Datos, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con la Bodega de Datos simplifica la aplicación de los resultados desde Minería de Datos. La Bodega de Datos analítica resultante puede ser aplicada para mejorar procesos de negocios en toda la organización, en áreas

23

tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es una Bodega de Datos que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospectación. Esta Bodega de Datos puede ser implementada en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido. Un servidor multidimensional OLAP permite que un modelo de negocios más sofisticado pueda ser aplicado cuando se navega por la Bodega de Datos. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio. El servidor de Minería de Datos debe estar integrado con la Bodega de Datos y el servidor OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado conjunto de metadatos centrado en procesos define los objetivos de la Minería de Datos para resultados específicos tales como manejos de campaña, prospectación, y optimización de promociones. La integración con la Bodega de Datos permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que la Bodega de Datos crece con nuevas decisiones y resultados, la organización puede "minar" (detectar) las mejores prácticas y aplicarlas en futuras decisiones. Este diseño además de proveer datos a los usuarios finales a través de software de consultas y reportes, el servidor de Análisis Avanzado aplica los modelos de negocios del usuario directamente a la Bodega de Datos y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el servidor OLAP proveyendo un nivel de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes. 2.2 SISTEMA DE CALIFICACIÓN CREDITICIA

El sistema de calificación crediticia es un sistema estadístico de evaluación automática para la concesión de créditos, que predice la entrada en mora de una operación de riesgo. Produce una clasificación ordenada, basada sobre la mora y el riesgo, mediante la suma de puntos asociados. • A las respuestas a los cuestionarios de la solicitud de crédito. • Al perfil crediticio que surja de los registros del comité de créditos.

24

• Al perfil económico - financiero que surja de los estados financieros del solicitante.

2.2.1 Funcionamiento de un sistema de calificación crediticia. El funcionamiento de un sistema de calificación crediticia puede esquematizarse en los siguientes pasos:

• Se obtiene información de la solicitud de crédito o del informe de crédito o de otras fuentes como los estados financieros. • Utilizando un programa computarizado se compara la información obtenida con el desempeño crediticio de otros solicitantes con perfiles similares. Se otorgan puntos por cada uno de los factores que ayudan a predecir cuál perfil de solicitante es el que tendrá el mejor desempeño en el cumplimiento de sus obligaciones. • El total de puntos constituye la calificación (score) y así determina si el solicitante es merecedor de crédito, es decir si su perfil predice el mejor desempeño en el cumplimiento de sus obligaciones.

2.2.2 Beneficios del sistema de calificación credit icia. El Sistema de Calificación crediticia ofrece una variedad de beneficios para las entidades financieras que lo implementan. Entre tale beneficios, es posible mencionar:

• Disminuye el tiempo necesario para la concesión de crédito, siendo posible la evaluación instantánea. • Reduce la cartera irregular. • Uniforma los criterios de concesión de créditos. • Disminuye los costes de análisis de créditos. • Facilita los cambios en la política de créditos. • Mejora la utilización de la experiencia de los analistas de la entidad. • Está basado sobre datos reales y estadísticas, por lo tanto es más confiable que los métodos basados sobre la subjetividad o el criterio del analista. • Trata a todos los solicitantes por igual, en forma objetiva (los métodos subjetivos o de criterios generalmente se basan sobre pautas que no han sido evaluadas sistemática-mente y cuyos resultados pueden variar según el individuo que las aplica) En resumen, un sistema de este tipo permite a las entidades evaluar solicitantes en forma rápida, consistente e imparcial, tomando en cuenta un gran número de las características de los solicitantes.

25

2.2.3 Confiabilidad del sistema de calificación cre diticia. El sistema de calificación crediticia tiene asociado un margen de error. El nivel de confiabilidad del sistema depende de la confiabilidad del modelo predictivo que propone. Un Sistema de Calificación Crediticia es más confiable si se tiene las siguientes características: • Cuanto mejor y más amplia sea la fuente de información. • Si tiene un diseño correcto. • Si es estadísticamente válido, es decir si está basado sobre una base de datos reales suficientemente amplia. • Si está validado contra una amplia muestra de clientes cumplidores y no- cumplidores. • Si esta verificado en su utilización contra los resultados reales. Estas características nos muestran que la calificación crediticia es más útil en la atención de operaciones de banca individual, donde existe un gran número de solicitudes que debe ser resuelto en un lapso de tiempo muy corto. Pero también existe una variedad de calificaciones crediticias aptas para su utilización con empresas como ser pruebas de "pasa/no pasa", préstamo por fórmula, clasificación de deudores, calificaciones crediticias para micro-emprendimientos, la matriz de crédito comercial, etc.2

2.3 DEFINICIÓN MODELO PREDICTIVO El desarrollo del modelo predictivo debe seguir los lineamientos de un proyecto de minería de datos. En la actualidad, las metodologías más conocidas en esta área son CRISP-DM y SEMMA. Coomeva hace uso de la metodología CRISP-DM ya que esta es directamente soportada por la herramienta SPSS Clementine. El Modelo Predictivo de Probabilidad de Incumplimiento incluido en el modelo de otorgamiento fue desarrollado por el grupo estadístico de Coomeva y suministrado al grupo de trabajo para su incorporación al servicio que debía construirse. A continuación se incluye una breve descripción de la metodología CRISP-DM y de algunos de los pasos requeridos para construir un modelo predictivo en Clementine, y para exportar e importar el modelo en formato PMML.

2 Página de Consultas Monografias [en línea] Data Mining, Argentina: Monografias SA, 2004 [consultado 01 de septiembre de 2007]. Disponible en internet: http://www.monografias.com/trabajos7/dami/dami.shtml

26

Algunas de estas tareas fueron desarrolladas por Geniar y los autores del trabajo para revisar el modelo de minería, verificar la ejecución del mismo y realizar las pruebas del funcionamiento del software desarrollado comparando los resultados obtenidos con los valores esperados arrojados por estas herramientas. 2.3.1 Metodología Crisp-Dm. CRISP-DM es, en realidad, un proceso estándar para minería de datos establecido por un consorcio internacional de compañías que define estándares en torno al tema de minería de datos. La versión inicial se definió en 1999 por las compañías SPSS, AG, NCR y OHRA. El proceso define una serie de fases y actividades que deben llevarse a cabo para el desarrollo de un proyecto de minería de datos. Cada una de las actividades con un conjunto de tareas y entregables definidos. La metodología incluye un conjunto de fases: • Entendimiento del Negocio • Entendimiento de los Datos • Preparación de los Datos • Modelamiento • Evaluación • Despliegue

27

Figura 1. Esquema de fases en CRISP-DM A continuación se relacionan los objetivos de cada una de las fases definidas en CRISP-DM. • Entendimiento del negocio. Comprender los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Básicamente, definir los objetivos de negocio en torno del proyecto de minería de datos. • Comprensión de los datos . Recopilar y familiarizarse con los datos, identificar los problemas de calidad de datos y ver las primeras potencialidades o subconjuntos de datos que puede ser interesante de analizar (según los objetivos de negocio definidos en la fase anterior). • Preparación de los datos . Definición de la “vista minable”, el conjunto de datos que será usado en el modelo de minería. Aquí se incluyen actividades de integración, selección, limpieza y transformación. • Modelado . Aplicación de técnicas de modelado o de minería de datos propiamente dichas sobre las vistas de datos minables definidas.

Entendimiento del

Negocio

Entendimiento de

los datos

Preparación de los

datos

Modelamiento

Evaluación

Despliegue

28

• Evaluación . Revisión de los modelos de minería encontrados (desde el punto de vista de los objetivos del negocio). Se definen experimentos y pruebas que permiten comprobar si el modelo nos sirve para responder a algunos de los requerimientos del negocio. • Despliegue . Uso y explotación de la potencialidad de los modelos, integrarlos en los procesos de toma de decisión de la organización, difundir informes sobre el conocimiento extraído, y hacer uso dentro de las actividades de toma de decisiones de la compañía. 2.4 ESTÁNDAR PMML El estándar PMML (Predictive Model Markup Language) es un lenguaje basado en XML que permite el intercambio de modelos predictivos y de minería de datos en diferentes lenguajes y herramientas. Usando PMML es posible exportar un modelo de minería de datos de un sistema e importarlo en otro. Por ejemplo, es posible exportar un modelo de minería incluyendo el pre-procesamiento de una aplicativo como SPSS y luego importar el mismo modelo en otro aplicativo como Clementine. El mecanismo de intercambio PMML está diseñado no solo para utilizar modelos creados en un sistema en otro sistema, sino también para incorporar la ejecución del modelo predictivo en aplicaciones de negocio. Los modelos exportados en PMML incluyen la información requerida para la ejecución del modelo predictivo. Esto puede aprovecharse para incluir la ejecución del modelo predictivo directamente en las aplicaciones. Algunas librerías y sistemas permiten la ejecución directa del modelo predictivo desde la aplicación. Sistemas como Clementine Server, DB2 Datawarehouse edition, IBM Scoring Beans u Oracle Database Server, permiten importar el modelo PMML y ejecutarlo directamente desde un aplicativo. El API estándar Java Datamining (JDM) está diseñado para ofrecer esta funcionalidad desde Java. 2.4.1 Formato del pmml. El formato PMML está definido por un archivo estándar de definición de estructura. El formato estándar es administrado por el Data Mining Group (DMG). Las primeras versiones del estándar PMML están definidas a través de documentos DTD (Document Type Definition). Las versiones más modernas del estándar (versiones 2.1 y posteriores) están definidas a través de un archivo de esquema XSD (Xml Schema Definition).

29

El formato PMML representa en realidad una estructura de datos con una o varias subestructuras. Las subestructuras pueden representar diferentes algoritmos de minería de datos. Un archivo PMML puede incluir definiciones de diferentes modelos de minería de datos. Podría, por ejemplo, incluir la definición de un modelo de regresión lineal y un modelo de redes neuronales. Cada uno de los tipos de modelos está definido en un tipo de estructura diferente. Existe una estructura que permite definir los modelos de regresión lineal, por ejemplo, y otra estructura que permite definir los modelos de redes neuronales. 2.4.2 Estructura de regresión en pmml. El modelo de minería de datos empleado en el modelo de otorgamiento de Coomeva corresponde al algoritmo de regresión logística multinomial. El cual maneja una serie de estructuras concretas de acuerdo a la versión de PMML utilizada.

• Estructura general de PMML Un archivo PMML es fundamentalmente un archivo XML que sigue un esquema definido. Desde la versión 2.1 este esquema está definido a través de un esquema XSD, por lo cual es necesario definir un namespace por defecto. Un documento PMML incluye un elemento raíz con el tipo PMML, que define la versión y el namespace por defecto. El namespace por defecto establece, el archivo XSD a utilizar, uno diferente de acuerdo a la versión del PMML. Un archivo PMML en versión 2.1 incluye un elemento raíz como el que se muestra en el ejemplo. Código 1. Esquema general de un archivo PMML

... ... modelos de minería ...

El archivo PMML, en versión 2.1 tiene una estructura general como se detalla en el siguiente esquema XSD.

30

Código 2. Estructura General de un archivo PMML 2.1

El esquema define al elemento PMML, el elemento raíz del archivo. Elemento que incluye el atributo versión obligatorio, definiendo el tipo de PMML que está siendo definido. Básicamente el archivo incluye un encabezado y un diccionario de datos obligatorios. Un encabezado que define el nombre y la versión de la aplicación que ha generado el archivo y un diccionario de datos que define los tipos de datos y las restricciones de los valores que son entradas y salidas de los modelos de minería definidos en el archivo. Adicionalmente, opcionalmente, el archivo puede definir una Tarea de Construcción y/o un Diccionario de Transformación, que define el conjunto de tareas de preprocesamiento que se pueden requerir para ejecutar los modelos. El archivo puede definir tareas de sumatorias, productos, generación de promedios y otros que sean requeridos para ejecutar los modelos. Un archivo puede definir cero, uno o muchos modelos de minería de datos. Modelos que pueden ser de diferentes tipos de acuerdo a la versión de PMML usada. Cada versión de PMML incluye un listado de tipos de modelos que pueden

31

ser definidos. Cada versión ha incluido nuevos tipos de modelos. Para el caso de la versión 2.1, el PMML permite definir uno o varios modelos de árboles, redes neuronales, clusters, regresiones, redes Naive Bayes, reglas de asociación o modelos de secuencia.

• Modelos de regresión en PMML 2.1 .Los diferentes tipos de regresión se incluyen en un único tipo de estructura. Básicamente un elemento “RegressionModel” que incluye información del algoritmo utilizado y las matrices de valores del modelo. Un ejemplo de elemento RegressionModel para una regresión logística multinomial en versión PMML 2.1. se presenta a continuación Código 3. Modelo de regresión en PMML 2.1

En el caso de PMML 2.1 toda la información del modelo de regresión se halla en una única matriz. La matriz define por cada una de las categorías de predicción, los diferentes parámetros del modelo (predictores), el tipo de predictor (numérico o categorial) y el factor coeficiente.

32

• Modelos de regresión en PMML 3.1. En PMML 3.1, el modelo de regresión se define en un elemento “RegressionModel”, de forma similar al PMML 2.1. Pero la estructura permite la inclusión de una serie adicional de extensiones, los predictores están definidos en el diccionario de datos y la matriz de regresión solo define los coeficientes. Para un modelo de regresión logística multinomial, las variables y predictores deben estar definidas en el diccionario de datos del documento. Código 4. Modelo de Regresión en PMML 3.1

:

El modelo de regresión hace referencia a las variables definidas en el diccionario de datos. Estableciendo los valores que son objetivo de predicción y los coeficientes del algoritmo.

33

Código 5. Matriz de Parámetros en PMML

• Modelos de regresión en PMML de SPSS. Los aplicativos de SPSS generan los archivos PMML en un formato diferente, basado en la versión 3.1 pero con una serie de extensiones e información adicional para el proceso estadístico y análisis gráfico. Información adicional que no es necesariamente relevante para la ejecución del modelo predictivo. El formato usado por SPSS está definido en un archivo separado para los diferentes tipos de modelos de minería. El modelo de regresión logística está definido el archivo “spss-logreg-1.0.xsd”. El modelo incluye una serie de matrices diferentes a las definidas en el estándar PMML, incluyendo información de covarianza, relación entre variables y otros factores que no son requeridos en el estándar y que no son necesarios para la ejecución del modelo predictivo.

34

2.4.3 Software para el procesamiento de pmml. Con el fin de procesar el modelo de minería de datos en PMML y poder ser usado en la aplicación de modelo de otorgamiento para Coomeva, varias librerías y aplicaciones de software fueron evaluadas y analizadas. Algunas librerías y aplicaciones de código abierto (opensource) y otras librerías y aplicaciones comerciales. Los productos de código abierto analizados se relacionan a continuación: Tabla 1. Productos evaluados de código abierto para ejecutar PMML

Producto Soporte PMML

Comentarios

Augustus http://augustus.sourceforge.net/

Soporta PMML 2.1, 3.0 y 3.1

Soporta el uso de scoring con tareas de preprocesamiento y con varios tipos diferentes de procesamiento. El software esta en Python y, de acuerdo a las políticas de Coomeva, no podría usarse en aplicativos corporativos.

Rattle http://rattle.togaware.com/

Soporta PMML 2.1

El software esta en R, y de acuerdo a las políticas de Coomeva, no podrá usarse en aplicativos corporativos

Weka http://www.cs.waikato.ac.nz/ml/weka/

No soporta PMML

No soporta la lectura de modelos en PMML.

RapidMiner (Yale) http://rapid-i.com/

Soporta la grabación de PMML v.2.1


AlphaMiner http://www.eti.hku.hk/alphaminer

Soporta la grabación de PMML v.2.1


Los productos comerciales analizados se relacionan en la tabla a continuación:

35

Tabla 2. Productos evaluados comerciales para ejecu tar PMML

Producto Soporte PMML Comentarios Clementine 11 Soporta PMML 3.1 El software está basado en java, pero

ejecuta el modelo de minería empleando una librería en código nativo. No puede usarse en aplicaciones sin comprar licencias adicionales.

SPSS v16 Soporta PMML 3.1 El software está basado en java, pero ejecuta el modelo de minería empleando una librería en código nativo. No puede usarse en aplicaciones.

DB2 Datawarehouse Edition v.9.1

Soporta PMML 3.0 y 3.1.

La librería de scoring de Java utiliza una serie de procedimientos almacenados DB2 con librerías en código nativo. No puede usarse en aplicaciones sin comprar licencias adicionales.

DB2 Intelligent Miner Scoring v8.2

Soporta PMML 1.1, 2.0 y 2.1

La librería de scoring en Java utiliza una serie de procedimientos almacenados con librerías en código nativo. Las librerías deben instalarse en una base de datos DB2 u Oracle. Ya no es posible licenciar este software por fuera del producto de DB2 Datawarehouse Edition.

2.5 IMPORTAR UN MODELO PMML EN CLEMENTINE El lenguaje de marcado de modelos predictivos (PMML), es un estándar basado en XML que permite a una aplicación de minería de datos intercambiar modelos predictivos con otras aplicaciones. Usando este formato, es posible por ejemplo, exportar un modelo de SPSS y cargarlo en SPSS Clemetine para su ejecución o consulta. Con el fin de construir la aplicación, se espera hacer uso del estándar PMML para importar las definiciones obtenidas en la herramienta SPSS Clementine por parte del grupo estadístico de Coomeva y ejecutarlo como parte del sistema del modelo de otorgamiento. En cada punto del proceso de minería de datos, la interfaz visual de Clementine implica el uso de técnicas empresariales. Los algoritmos de modelado, tales como predicción, clasificación, segmentación y detección de asociaciones, garantizan la

36

obtención de modelos exactos y potentes. Los resultados del modelo se pueden distribuir y leer fácilmente en bases de datos, SPSS y en una amplia variedad de aplicaciones En esta ruta de datos existe una secuencia de operaciones y los datos fluyen registro por registro desde el origen pasando por cada manipulación y, finalmente, llega al destino, que puede ser un modelo o un tipo de datos de resultados. Coomeva suministró un modelo entrenado en Clementine y SPSS, un conjunto de datos de prueba y un conjunto de datos obtenidos después de ejecutar el modelo entrenado. Se utilizó Clementine para ejecutar el modelo y verificar que los resultados obtenidos fueran los correctos y los mas precisos posibles, debido a que SPSS y Clementine manejan algoritmos diferentes, es necesario establecer el algoritmo que se debe utilizar en el sistema. De esta forma, si se modifica el PMML, el programa funcionará de acuerdo a lo esperado por los usuarios de Coomeva Financiero. En la figura 2 se muestra un flujo de trabajo en SPSS Clementine en donde se muestra una fuente de datos en Excel (de donde se extraen los datos) y los modelos de minería importados. Los modelos de minería se ven como unas poliedros de color amarillo sobre los cuales podemos hacer consultas. El resultado de aplicar los datos de Excel se muestra en unas tablas adicionales que pueden ser visualizadas en pantalla o exportadas a otros archivos o bases de datos.

37

Figura 2. Ejemplo de flujo de trabajo en SPSS Cleme ntine

2.6 EJECUCIÓN DE UN MODELO EN CLEMENTINE Para poder ejecutar un modelo de SPSS Clementine es necesario especificar la correspondencia de las variables de la fuente de datos con los parámetros del modelo de minería. Es necesario indicar las columnas de las fuentes de datos que se deberían usar como parámetros del modelo de minería de datos. Para el caso de las pruebas se tomaron los archivos de datos y se hicieron asignaciones automáticas de los tipos de datos y rangos de valores. Luego de manera manual es necesario asignar las variables de entrada y de salida del modelo predictivo. Para nuestro caso, varias variables de entrada y una sola variable de salida (probabilidad de incumplimiento).

38

Figura 3. Definición de variables en SPSS Clementin e.

Una vez definidas las variables, estas pueden ser visualizadas y revisadas en el mismo entorno de trabajo de SPSS Clementine. La figura muestra el conjunto de datos de prueba extraídos de Excel. Figura 4. Revisión de datos en SPSS Clementine

Después de importar y ejecutar el modelo PMML generado en SPSS y Clementine podemos observar los resultados arrojados por el modelo entrenado que define si va a cumplir o no con el crédito y las probabilidades de incumplimiento.

39

El archivo PMML exportado del SPSS y Clementine incluye toda la información para ejecutar la predicción usando el modelo. El modelo recibe unos valores de entrada, que se convierten en una serie de parámetros. Si las variables son categoriales o discretas, se convierten en parámetros para cada tipo de valor. Si las variables son de valor o continuas se convierten en un solo parámetro. La siguiente imagen muestra cada uno de los valores de entrada y las variables de predicción que definen si una persona va a cumplir o no con el crédito y las probabilidades de incumplimiento. Fígura 5. Visualización de resultados del modelo en SPSS Clementine

2.7 COMPARACIÓN DE RESULTADOS EN SPSS Y SPSS CLEMEN TINE Como parte del proyecto, se revisaron los resultados del modelo de minería aplicado en SPSS y SPSS Clementine. En las pruebas realizadas se obtienen los resultados precisos y se observan diferencias en las probabilidades calculadas por el SPSS y por el PMML importado a SPSS Clementine. El modelo exportado a PMML en SPSS y subido a SPSS

40

Clementine genera dos variables de resultado, una es la clasificación ($X-INCUMPLE que toma el valor 0 si el cliente no incumplirá y 1 si el cliente incumplirá) y otra es la probabilidad ($XC-INCUMPLE). Cuando en la variable de clasificación $X-INCUMPLE el modelo arroja para un cliente el valor 0, se debe hallar el complemento de la variable $XC-INCUMPLE (1 - $XC-INCUMPLE) y el valor resultante es el que corresponde a la probabilidad de que incumpla.

41

3. ANTECEDENTES Las diferentes crisis financieras han hecho que los bancos sean cada vez más cautelosos en el manejo de sus riesgos y operaciones. La profunda crisis financiera de 1994 que llevó a la quiebra a una gran cantidad de empresas y bancos en México, Venezuela y todo Suramérica, fue uno de los principales factores de alerta. Con el fin de prevenir estos posibles colapsos financieros, los principales bancos a nivel mundial han establecido una serie de acuerdos que permiten regular su comportamiento y definir parámetros para sus procesos regulatorios. Acuerdos que se han definido normalmente a partir de un Comité de Supervisión Bancaria en Basilea (Suiza). Los acuerdos del comité de supervisión bancaria, conocidos como Acuerdos de Basilea, se establecieron en 1988 (Basilea I) y fueron revisados posteriormente en 2004 (Basilea II). Los acuerdos recogen pautas para la adecuación de capital y sirven como la base para que instituciones financieras, incluyendo cooperativas de ahorro y crédito, determinen sus requerimientos de capital. Este modelo define una metodología estándar para calcular la proporción de capitales sobre bienes, o la cantidad de capital en una institución financiera sobre los bienes de esa institución de acuerdo al riesgo. Con el reconocimiento del Fondo Monetario Internacional y del Banco Mundial como una buena práctica internacional, el gobierno colombiano ha establecido una serie de normas que garanticen su aplicación en nuestro país desde 2002. A partir de esas medidas los bancos en Colombia deben implementar un sistema de administración de riesgo crediticio (SARC). Normas de obligatorio cumplimiento por todas las entidades financieras. Los sistemas SARC típicamente involucra el establecimiento de estrategias de minería de datos que permitan determinar con mayor certeza el nivel de riesgo que maneja una institución financiera. La idea es lograr determinar el nivel de riesgo que afronta una organización en sus operaciones crediticias y cubrimiento de pérdidas esperadas con la construcción de provisiones. El SARC se ocupa de forma integral de todas y cada una de las etapas del ciclo de crédito (otorgamiento, seguimiento, control, recuperación, etc.) La Cooperativa Coomeva Financiera desarrolla actividades propias de una institución financiera, incluyendo préstamos y otros tipos de operaciones bancarios. Para el desarrollo de estas actividades, la cooperativa ha debido establecer modelos de riesgo que le permitan cumplir con las exigencias de ley en torno del Sistema de Administración de Riesgo Crediticio.

42

En un principio Coomeva utilizaba SPSS, una herramienta líder en tecnología de análisis predictivo, capaz de dirigir y automatizar las decisiones del negocio que permitían obtener una pequeña ventaja competitiva en el mercado, pero el énfasis de esta herramienta era solucionar problemas estadísticos y no se trabajaba con un enfoque de minería de datos. En la búsqueda de una herramienta más adecuada, que permitiera realizar los análisis de riesgo basado en modelos predictivos, se optó por incorporar el producto Clementine de SPSS. Herramienta de Minería de Datos que permite soportar la implementación de los modelos predictivos y de análisis que permitiesen analizar los recaudos y el nivel de riesgo del conjunto de créditos de la institución. La Cooperativa Coomeva Financiera seleccionó a Clementine debido a que, como resultado de la evaluación, se estableció como una herramienta que apoya el ciclo completo de Minería de Datos, y está diseñada de acuerdo a los estándares de la industria de Minería de Datos en términos de técnicas y algoritmos de minería y de la metodología de aplicación – CRISP-DM (Cross Industry Standard Process for Data Mining) desarrollado y respaldado por un consorcio de algunas de las mayores compañías en la industria de la minería de datos, el cual abarca todo el ciclo de vida de un proyecto de minería de datos. En la metodología CRISP-DM, el proceso de minería de datos se divide en seis fases: análisis del problema, análisis de los datos, preparación de los datos, modelado, evaluación y desarrollo. La metodología CRISP-DM hace de Minería de Datos un proceso de negocio al enfocar la tecnología de Minería de Datos en resolver problemas de negocio específicos. El principal énfasis de todo el proceso se centra entonces en hallar y resolver modelos de los problemas de negocio. Los primeros proyectos de Minería de Datos al interior de la Cooperativa Coomeva Financiera se centraron entonces en brindar el soporte adecuado a los procesos de administración de riesgo crediticio. Trabajo centrado en la fundamentación del sistema de administración de riesgo crediticio y la constitución de un esquema de calificación crediticia para los diferentes clientes y asociados a la cooperativa. 3.1 HERRAMIENTAS DE MINERÍA EN FINANCIERA COOMEVA La Cooperativa Multiactiva y la Financiera Coomeva cuentan en la actualidad con varias herramientas de software que puedan aplicarse para desarrollar modelos de minería de datos. Las herramientas de software revisadas son: • SPSS Clementine 9 • SPSS 15

43

• SQL Server 2005 Analytical Services (opción de SQL Server 2005) • Oracle Data Miner 10g (opción de Oracle Database 10g Enterprise) 3.2 SPSS CLEMENTINE SPSS Clementine es uno de los productos líderes del mercado de minería de datos, junto con las aplicaciones de SAS. Uno de las principales características de SPSS Clementine, es la interfaz de usuario basada en flujos de trabajo. Esta interfaz permite en un solo entorno de trabajo, definir los procesos y transformaciones para construir los modelos de minería de datos, así como los reportes y consultas sobre el modelo. SPSS Clementine incluye soporte a la metodología CRISP-DM. Los proyectos se organizan en una serie de carpetas por cada una de las etapas de la metodología y es posible hacer seguimiento al proyecto allí mismo en el aplicativo. SPSS Clementine ofrece soporte a una gran cantidad de algoritmos diferentes de minería de datos. Incluyendo modelos de regresión y de redes neuronales. Adicionalmente ofrece soporte para importar y exportar modelos PMML de acuerdo a la versión 3.1 y al formato con extensiones de SPSS. SPSS Clementine incluye una aplicación cliente desarrollada en Java, en donde se definen, visualizan y consultan los modelos de minería de datos. Los algoritmos de minería, sin embargo, están contenidos en unos archivos compilados (.DLL), lo que hace suponer que algunos de los procesos se hacen en código nativo por razones de velocidad. El SPSS Clementine incluye un servidor central de procesamiento que es usado por la aplicación cliente y puede ser utilizado remotamente por aplicaciones de usuario. 3.3 SPSS SPSS es una de las herramientas de procesamiento estadístico líderes en el mercado. Usando la herramienta es posible realizar procesamiento estadístico avanzada para una gran variedad de aplicaciones, incluyendo procesamiento de encuestas, mejoramiento continuo y minería de datos. SPSS no incluye una interfaz de usuario especialmente diseñada para proyectos de minería de datos, ni incluye un soporte directo a la metodología CRISP-DM. En su lugar, la aplicación ofrece una gran variedad de herramientas para procesar conjuntos de datos y puede ser usada por personal especializado en la realización de un sinnúmero de experimentos y técnicas.

44

SPSS ofrece soporte a varios algoritmos de minería de datos y soporta el uso de PMML para exportar e importar modelos. Las versiones anteriores de SPSS utilizaban la versión PMML 2.1. La versión 15, usada en la actualidad en Coomeva, utiliza la versión PMML 3.1 con extensiones de SPSS, con el cual es posible interactuar directamente con SPSS Clementine. Al igual que SPSS Clementine, el software parece ser una combinación de módulos escritos en Java y en código nativo. Algunas de las librerías son compartidas entre las dos herramientas. 3.4 SQL SERVER ANALYTICAL SERVICES Microsoft SQL Server es el servidor de bases de datos de Microsoft. Desde la versión SQL Server 2000 incluye una serie de opciones para la creación y consulta de sistemas de bodegas de datos y herramientas analíticas en línea (OLAP) y soporte a unos primeros modelos de minería de datos. Este servicio inicialmente conocido como OLAP Services ahora se conoce como Analytical Services. En Microsoft SQL Server 2005 Analytical Services, se incluye un modelo unificado de trabajo que permite construir modelos de bodegas de datos y de minería de datos usando sentencias parecidas a SQL y usando el mismo conjunto de herramientas. Microsoft SQL Server 2005 Analytical Services provee un conjunto de algoritmos de minería de datos que pueden ser extendidos por el usuario. El sistema ofrece un API que permite que los desarrolladores construyan nuevos modelos de minería de datos y usarlos en las mismas herramientas e interfaces, tal como si fuesen algoritmos incluidos en la aplicación. Microsoft SQL Server 2005 Analytical Services permite importar y exportar modelos de minería de datos empleando PMML 2.1, pero no soporta esto para todos los tios de algoritmos. En la actualidad, no puede interactuar directamente con modelos creados en SPSS Clementine o SPSS. 3.5 ORACLE MINERIA DE DATOS Oracle ofrece como una opción de su sistema de base de datos, una serie de módulos de minería de datos. En las versiones de la base de datos Oracle Database 9i y anteriores, las herramientas de minería de datos eran aplicaciones separadas del sistema, desarrolladas en Java y conocidas como Oracle Darwin. A partir de la versión Oracle Database 10g, las herramientas de minería están integradas al motor de la base de datos y ofrecen un nivel superior de rendimiento y capacidad de procesamiento.

45

En la actualidad, existe un producto conocido como Oracle Data Miner que permite definir y ejecutar remotamente los modelos de minería de datos y una serie de módulos internos en el sistema de base de datos que incluyen las funcionalidades de entrenamiento y consulta de los modelos. Los módulos de minería de datos son opciones del servidor de base de datos Oracle Database Enterprise 10g y debe licenciarse por separado. Los sistemas de minería de datos de Oracle soportan una gran cantidad de algoritmos de minería, incluyendo algoritmos avanzados de bioinformática (como Blast) que normalmente no se encuentran en este tipo de herramientas. Los aplicativos clientes de Oracle están en Java y el sistema en general incluye una serie de APIs en Java y PL/SQL que permiten ejecutar y consultar los modelos de minería desde las aplicaciones de negocio. 3.6 CUADRO COMPARATIVO Con el fin de resumir algunos de los temas revisados de las diferentes herramientas, se presenta a continuación una tabla resumen. Tabla 1. Cuadro comparativo de herramientas de Mine ría Característica SPSS

Clementine SPSS Oracle SQL Server

Algoritmos soportados

Predicción y Clasificación: Red neuronal, Arboles decisión, Inducción de reglas, Regresión lineal, Regresión logística, Regresión logística multinomial. Cluster: Red de Kohonen, K medias, Conglomerado Two Step Detección de asociaciones: GRI, A priori y diagrama de Malla Reducción de datos: Análisis factorial y de

Análisis estadístico (Correlación, regresiones,...) Con algoritmo de aprendizaje: •Redes neuronales y algoritmos genéticos • Inducción de árboles y reglas Otros algoritmos: • Inducción de reglas de asociación • Inducción de clasificadores bayesianos

Algoritmos de clasificación, regresión, cluster, asociaciones, detección de anomalías, minería de texto, importancia de atributos y extracción de características. Incluye algoritmos avanzados de Naive Bayes, árboles de decisión, redes adaptativas, máquinas de soporte vectorial (SVM), Cluster O-cluster y Blast

Algoritmo de clasificación: -Arboles de decisión Algoritmos de Regresión -Series de Tiempo Algoritmos de Segmentación: -Clústeres Algoritmos de Asociación -Asociación Algoritmos de Análisis de secuencia -Clústeres e secuencia

46

componentes principales.

entre otros.

Modelo de Regresión Logística Multinomial

Si Si Si Si

PMML versión 3.1 con extensiones de SPSS

versión 3.1 con extensiones de SPSS

versión 2.1-3.2. (No se revisó el funcionamiento de extensiones de SPSS)

versión 2.1 (no se soportan todos los modelos)

Integración con la base de datos

Uso de JDBC y ODBC

Uso de JDBC y ODBC

Integración nativa solo con Oracle

Integración nativa solo con SQL Server

Integración con aplicaciones

APIs en Java (estándar JDM) y XMLA

APIs en Java APIs en Java (estándar JDM) y PL/SQL

APIs en .Net (DMO – Data Mining Object).

Fuente: Página Oficial de MTBase [en línea], Algoritmos de Minería de Datos, España: Microsoft Corporation,2008 [consultado 01 de septiembre de 2007]. Disponible en Internet: http://technet.microsoft.com/es-es/library/ms175595.aspx

47

4. OBJETIVOS 4.1 OBJETIVO GENERAL El objetivo del proyecto es desarrollo e implementación de un Servicio de Software que permita ejecutar modelos predictivos de minería de datos, para el Otorgamiento Crediticio de la Financiera Coomeva. 4.2 OBJETIVOS ESPECIFICOS • Analizar los principios básicos de la aplicación de minería de datos en un problema de negocio empleando una metodología como CRISP-DM • Analizar los principales componentes de las herramientas de minería de datos Clementine. • Analizar los principales componentes de las herramientas de minería de datos y revisar las diferencias y similitudes de las herramientas SPSS y Clementine • Revisar una solución actual de minería de datos aplicada para la calificación crediticia al interior de la Cooperativa Coomeva Financiera. • Implementar un modelo predictivo, aplicable para la calificación crediticia, empleando Clementine • Desarrollar el Servicio Web del modelo de otorgamiento, de acuerdo a los requerimientos definidos. • Construir el mecanismo de ejecución del modelo de minería en PMML. • Construir las librerías clientes del servicio web de acuerdo al estándar de Coomeva • Construir un programa de ejemplo, para ejecutar pruebas del servicio.

48

5. JUSTIFICACION El proyecto de "Implementación de un modelo predictivo de minería de datos utilizando Clementine" se justifica gracias a la variedad de beneficios que acarrea tanto para la compañía Geniar Architect, la Universidad y los autores del mismo. Para Geniar Architect, el proyecto representa una oportunidad ideal para consolidar una metodología de trabajo para proyectos de minería de datos y para establecer consideraciones sobre el uso de herramientas de minería para este propósito en sus clientes. Para la empresa, el proyecto representa la oportunidad de consolidar la experiencia propia y de uno de sus clientes más grandes, en la consolidación de una metodología de trabajo que pueda aplicarse en otros clientes de diferente tamaño, representa la oportunidad de evaluar y conocer las herramientas de minería de datos de Clementine y sus posibilidades en la solución de problemas de negocio. Representa el primer paso para consolidar un grupo de expertos en inteligencia de negocios en minería de datos, tendiente a la certificación de los profesionales y a la certificación de competencias de la compañía en el área Para la Universidad Autónoma de Occidente, el proyecto aporta un conjunto de experiencias prácticas, y un caso real de aplicación de minería de datos, que le permite a los miembros de la Facultad aprender sobre el tema, iniciar nuevos proyectos de investigación al respecto y sentar las bases para consolidar cursos, talleres y proyectos de investigación posteriores sobre la aplicación de técnicas de minería de datos en aplicaciones de negocio. Para la universidad, representa uno de los primeros proyectos de práctica en aplicación de minería de datos, brindando la oportunidad para crear espacios de práctica en esta área y consolidar nuevas temáticas que puedan ser seleccionadas por las empresas y estudiantes para suplir los requisitos de grado. Para los autores Diana Carolina Bedoya y Herberth Joiman Gómez, el proyecto representa una oportunidad de profundizar en un conjunto de temas que son de gran interés para su desarrollo profesional, considerando especialmente su preferencia hacia sistemas de bases de datos y esquemas de inteligencia de negocios. Representa la oportunidad de aprender más sobre los sistemas de bases de datos, el manejo de la información en las grandes empresas, las técnicas de minería de datos y las aplicaciones de estas técnicas en la solución de problemas reales de negocio. Representa la posibilidad de iniciarse en el área de consultoría en inteligencia de negocios, área que es de su interés profesional.

49

6. METODOLOGÍA Para el desarrollo del proyecto de construcción del servicio de ejecución del modelo predictivo de minería para otorgamiento crediticio al interior de Coomeva, se siguieron una serie de fases y actividades enmarcadas en el proyecto general que definió Coomeva para implementar el modelo de otorgamiento. Como parte del proyecto, Coomeva estableció el modelo de otorgamiento incluyendo el modelo predictivo de minería de datos. Geniar, por su parte, desarrolló la solución de software que permite ejecutar el modelo de minería y que cuenta con mecanismos para ser integrado al aplicativo bancario de la entidad financiera. Para el desarrollo de la solución de software, Geniar aplicó la metodología de desarrollo de aplicaciones definida al interior de la compañía. Esta metodología de trabajo permite el desarrollo de forma organizada y administrada de proyectos para la implementación de soluciones de software y la construcción de servicios y aplicaciones web. Esta metodología fue aplicada en el proyecto, buscando lograr la mayor calidad en el producto final y el mayor nivel de satisfacción del cliente. 6.1 ESQUEMA GENERAL DEL PROYECTO Para el desarrollo completo del modelo de otorgamiento para Financiera Coomeva se desarrollaron las siguientes actividades: • Definición del modelo predictivo (minería de datos) • Definición del modelo de otorgamiento • Especificación de Requerimientos • Revisión de los Requerimientos • Elaboración de los casos de uso • Diseño de la Solución • Construcción de la Solución • Aseguramiento de Calidad • Pruebas del Sistema • Despliegue de la solución Para desarrollar el modelo de otorgamiento, algunas actividades se definieron como responsabilidad del grupo de trabajo de Financiera Coomeva y otras actividades se definieron como responsabilidad de Geniar.

50

Las tareas relacionadas con la definición del modelo de otorgamiento, el modelo de minería de datos, las pruebas y el despliegue de la aplicación serían responsabilidad de Coomeva. Las tareas relacionadas con la construcción del software estarían a cargo de Geniar. Para desarrollar la fase de especificación de requerimientos y Revisión de los requerimientos se aplican metodologías de desarrollo de Software de Geniar que y una vez aprobados los requerimientos del proyecto se realizan unas actividades en la fase elaboración de los casos de uso. Para acometer el proceso de construcción del software, se aplicó la metodología de desarrollo de software definida al interior de Geniar. Metodología con una diversidad de pasos y formatos que permiten ejecutar, controlar y administrar el proyecto de forma que pueda ser ejecutado con la mayor calidad y el mayor nivel de satisfacción de los clientes. Por efecto de una serie de acuerdos de confidencialidad suscritos entre Geniar y Coomeva y entre los desarrolladores del proyecto y Geniar, algunos de los documentos, formatos y procedimientos no se presentan como parte del informe. Sin embargo, se ha procurado incluir en todo el documento información general y específica que da cuenta del trabajo realizado sin afectar los acuerdos de confidencialidad suscritos. La figura 6 resume las tareas del proyecto y las responsabilidades de Coomeva y Geniar en las mismas.

51

Figura 6. Esquema de Actividades del Proyecto

Dirección Nacional Otorgamiento y Crédito Coomeva

Geniar (Pasantía)

Definición modelo

predictivo (minería)

Definición modelo de

otorgamiento

Especificación de

Requerimientos

Pruebas del Sistema

Despliegue

Revisión de los

Requerimientos

Elaboración de casos

de uso

Diseño de la solución

Construcción de la solución

Aseguramiento de

Calidad

52

7. DESARROLLO

7.1 ESPECIFICACIONES DE REQUERIMIENTOS

Para desarrollar la especificación de los requerimientos, se aplicó la metodología de desarrollo de software implementada en Geniar y usada en ciclos de vida de desarrollo basados en requerimientos entregados por el cliente. La metodología de desarrollo de Geniar define diferentes tipos de ciclo de vida de desarrollo de acuerdo a ciertas condiciones de los proyectos como se muestra en la figura 7. De acuerdo al ciclo de vida seleccionado, una serie de fases, actividades y formatos deben desarrollarse. No todos los proyectos siguen el mismo conjunto de fases, actividades y formatos. Figura 7. Esquema de la fase de Especificación de R equerimientos

Geniar (Pasantía)

Comité de Trabajo Geniar - Coomeva

Revisión de los

requerimientos

Análisis de

Requerimientos

Validación y Verificación

Resolución inquietudes

Levantamiento

información

Modificación de

requerimientos

53

El anterior ciclo de vida fue utilizado en el proyecto ya que el usuario especificó los requerimientos y es necesario trabajar en conjunto con el cliente en la revisión y aseguramiento de calidad de los requerimientos. Normalmente el cliente desarrolla el conjunto de requerimientos y los documenta, pero deben ser analizados y revisados con el fin de lograr un conjunto adecuado de requisitos, consiste, sin contradicciones, y completo como base para la construcción del sistema de software. 7.2 REVISIÓN DE LOS REQUERIMIENTOS La Financiera Coomeva suministró un documento de soporte de requerimientos desde el punto de vista de negocio, el cual describe todas las condiciones para aplicar el modelo de otorgamiento. Este conjunto de requerimientos fue preparado por el grupo de trabajo de Coomeva a partir del análisis y revisión de los procesos, y la experiencia previa que han tenido en el modelo de otorgamiento existente el aplicativo actual y la definición de modelos de minería de datos para el manejo del riesgo crediticio. El documento de requerimientos define una serie de necesidades de procesamiento y se organiza dividido en cinco procesos: • Extracción de Información Fuente . De acuerdo a la solicitud del crédito, se extrae la información requerida del aplicativo Taylor & Johnson del sistema AS/400. Entre la información que se extrae se incluyen algunos variables sociodemográficas y crediticias del cliente para realizar los cálculos del PI y calificación de otorgamiento. • Transformación de variables . Debido a que el modelo de minería de datos requiere de las variables en un formato particular, posiblemente diferente al formato existente en el aplicativo de Taylor & Johnson, se transforman las variables que así lo requieran. • Cálculo de recomendación de otorgamiento. De acuerdo al modelo de otorgamiento definido, se ejecuta el modelo de minería en PMML, se realizan unos cálculos de acuerdo a unas tablas predefinidas en Coomeva. Al final de esta serie de pasos se obtiene la decisión sugerida y el modelo genera una recomendación de otorgamiento. • Reportes. Se genera un reporte de decisión de otorgamiento que contiene toda la información relacionada con la información básica del cliente,

54

características del crédito solicitado, perfil del cliente, Resultados de la calificación (scoring), Resultados de Capacidad de Pago y Endeudamiento Mensual. • Almacenamiento de parámetros y resultados. Para cada una de las ejecuciones del modelo, es necesario dejar un registro de todos los parámetros, variables y cálculos realizados. Esto con fines de auditoría y manejo de información histórica. El sistema debe almacenar esta información en una base de datos en el AS/400 de donde se extraerá información para la bodega de datos del sistema de administración de riesgo crediticio (SARC). En base a estos requerimientos se realiza una propuesta y determinación del tiempo del proyecto. La propuesta presenta la cotización de la consultoría para el desarrollo e implementación de un Servicio Web que soporte el modelo de Otorgamiento de Coomeva, ejecutando el modelo de minería de datos en PMML y manejando las reglas de negocio definidas por Coomeva Financiero. 7.3 ANÁLISIS DE LOS REQUERIMIENTOS Al revisar el documento de requerimientos entregado por Coomeva se encontró que el conjunto inicial incluía una serie de requerimientos funcionales, y que algunos de los temas requeridos en el desarrollo no habían sido mencionados. Entre los principales temas que se requirió información adicional, debido a que el documento no los mencionaba, se encontraron: • Necesidad de integración del servicio con Clementine para poder modificar fácilmente el modelo predictivo. • Necesidades de integración del servicio con el software bancario de Taylor & Johnson. • Modelo de Datos en el AS/400 de donde se requiere extraer la información. • Esquema de seguridad a utilizar. • Esquema de registros de auditoría a utilizar.

En cuanto a la posibilidad de integración con Clementine, se estableció que el mecanismo más apropiado era el uso de archivos en formato PMML para intercambiar la información del modelo predictivo. La idea sería que el grupo de Coomeva pueda revisar y actualizar el modelo de minería en Clementine, y se pueda actualizar fácilmente el modelo en el servicio de software que se va a construir.

55

A partir de esta revisión inicial se organizó una reunión, en donde se revisó detenidamente el documento de soporte de requerimientos para un mejor entendimiento de los requisitos y las condiciones planteadas. Entre las aclaraciones realizadas al documento en la reunión, se revisaron las siguientes: • En las pruebas iníciales por parte de Coomeva, el software de SPSS y de SPSS Clementine, al parecer ejecutan de forma diferente el modelo PMML. Es necesario importar ambos modelos PMML de forma que se pueden verificar los resultados, y determinar el mecanismo más apropiado para que funcione apropiadamente y se pueda generar el resultado de otorgamiento.

• Al ejecutar el modelo, se predice la variable de “incumple”, que determina si el cliente va a incumplir con el pago del crédito o no. Si este valor es positivo (es decir el cliente va a incumplir), la probabilidad es la que arroja el modelo. Si el valor es negativo (es decir el cliente no va a incumplir), la probabilidad que arroja es la probabilidad de cumplir con el pago. Si se desea obtener la probabilidad de incumplimiento, se calcula hallando el complemento de la probabilidad que arroja el modelo.

• Después de obtener los datos requeridos por el modelo desde el AS/400 se deben realizar unas transformaciones de las variables antes de poder ser usado por el algoritmo.

• Con los datos transformados se calcula la probabilidad de incumplimiento usando el modelo predictivo definido en PMML, con este resultado se homologa y clasifican las variables.

• De acuerdo a la probabilidad de incumplimiento y el nivel de riesgo asociado se determina la sugerencia para determinar si se otorga el crédito.

• Cuando que se ejecuta el algoritmo se debe actualizar una tabla que registra todos los datos del proceso en cada ocasión. Estos datos luego serán usados por Coomeva para actualizar una parte de la Bodega de Datos que ellos están definiendo. Este proceso de carga esta por fuera del alcance del proyecto.

• En el momento en que Taylor & Johnson realice un cambio de cualquier clase en los datos del crédito, se debe invocar al componente que se está construyendo.

56

7.4 RESOLUCIÓN DE INQUIETUDES Se realizaron las siguientes especificaciones del documento de soporte de requerimientos: • Para que la ejecución del PMML funcione correctamente y los valores obtenidos del PMML en SPSS ó Clementine sean lo más precisos posibles, se especifican las librerías y tablas a extraer del AS/400. • El proceso involucra consultar en las bases de datos de AS/400 los datos del asociado y su transformación para poder ser usados en el algoritmo. • Con los datos se realizan cálculos para determinar las probabilidades de incumplimiento usando el modelo PMML, las dos variables que arroja el PMML de acierto o no y la probabilidad de incumplimiento son el resultado que se homologa a una banda de riesgo de acuerdo a unos rangos que dependen del tipo de crédito. • Todos los datos de entradas del algoritmo, cálculos y resultados se deben almacenar en una tabla del sistema. Esta tabla es definida por Geniar como parte del software a desarrollar. • Los datos de la tabla podrán ser importados a una bodega de datos por el personal de Coomeva. Este proceso de carga esta por fuera del alcance del proyecto. Este es una primera versión del modelo de otorgamiento. El software estará basado en este primer modelo de operación del negocio. Modelo que está orientado al otorgamiento de crédito personal de asociados a la cooperativa. La idea de Coomeva Financiero es ser más específicos en el futuro e incluir nuevos tipos de modelos para otros dominios. Hoy en día el modelo no está segmentado y es el mismo para todas las líneas de crédito. En un futuro probablemente se construirán modelos específicos para cada línea de crédito. Adicionalmente, seguramente se crearán modelos para clientes que no sean asociados a la cooperativa y para compañías, no solo personas naturales. 7.5 LEVANTAMIENTO DE INFORMACIÓN Los requerimientos definidos están explicados de manera general y agrupados debido al documento de acuerdo de confidencialidad establecido entre Coomeva y Geniar.

57

7.5.1 requerimiento 001: Extracción de información fuente. Una vez autenticado el usuario en la aplicación, el sistema extrae del aplicativo Taylor la información sociodemográfica y crediticia del cliente a partir de tres variables de entrada las cuales permiten realizar el cálculo de la calificación (score), de la probabilidad de incumplimiento (PI) y la calificación de otorgamiento. 7.5.2 requerimiento 002: Transformación de Variabl es. Una vez autenticado el usuario en la aplicación se transforman las variables extraídas de a acuerdo a una tabla establecida, ya que los códigos que se usan en el sistema de Taylor & Johnson no son los mismos que se utilizan dentro del modelo de minería del AS/400. Tabla 2. Ejemplo de Transformación Requerida

Variable: Numero de hijos Variable de tipo categórica que se debe agrupar por categorías.

Categoría (valor en AS/400)

Descripción Categoría Transformación (valor en el modelo)

1 1 1 2 2, 3 1 3 4, 5 2 4 6 ó mas 2

7.5.3 Requerimiento 003: Ejecución PMML. Una vez autenticado el usuario en la aplicación se utilizan las variables transformadas y se asignan calores a los parámetros del modelo, luego se obtiene el estado del valor puntaje acierta y las probabilidades de que cumpla o no utilizando el algoritmo de regresión lineal definida en el modelo PMML. Se almacenan unas variables específicas de forma temporal en una tabla del AS/400 para que posteriormente se ingrese en la bodega de datos en una estructura predefinida. Esta tabla también podrá ser usado para efecto de tareas de auditoría y seguimiento. 7.5.4 Requerimiento 004: Calculo. Una vez autenticado el usuario en la aplicación se utiliza el valor calculado de la probabilidad de incumplimiento y se calcula el puntaje “Score” de acuerdo a

IMPLEMENTACION DE UN MODELO PREDICTIVO DE ...red.uao.edu.co/bitstream/10614/1989/1/T0003659.pdf2.3.1 Metodología CRISP_DM 26 2.4 ESTANDAR PMML 28 2.4.1 Formato del pmml 28 2.4.2 Estructura

Documents