-
IMPLEMENTACION DE UN MODELO PREDICTIVO DE MINERIA D E DATOS
UTILIZANDO CLEMENTINE
DIANA CAROLINA BEDOYA PADILLA HERBERTH JOIMAN GOMEZ
CASTANEDA
UNIVERSIDAD AUTONOMA DE OCCIDENTE FACULTAD DE INGENIERIA
DEPARTAMENTO DE CIENCIAS DE LA INFORMACION PROGRAMA DE
INGENIERIA INFORMATICA
SANTIAGO DE CALI 2008
-
IMPLEMENTACION DE UN MODELO PREDICTIVO DE MINERIA D E DATOS
UTILIZANDO CLEMENTINE
DIANA CAROLINA BEDOYA PADILLA HERBERTH JOIMAN GOMEZ
CASTAÑEDA
Trabajo de Pasantía para optar al título de Ingeniero
Informático
Directora LYDA PEÑA PAZ
Ingeniera de Sistemas Magíster en Ciencias Computacionales
UNIVERSIDAD AUTONOMA DE OCCIDENTE FACULTAD DE INGENIERIA
DEPARTAMENTO DE CIENCIAS DE LA INFORMACION PROGRAMA DE
INGENIERIA INFORMATICA
SANTIAGO DE CALI 2008
-
Nota de aceptación:
Aprobado por el Comité de Grado en cumplimiento de los
requisitos exigidos por la Universidad Autónoma de Occidente para
optar al título de Ingeniero Informático Ing. Oscar Marino Carvajal
Docente.
Santiago de Cali, 18 de Febrero de 2008
-
CONTENIDO
Pág. GLOSARIO 12
RESUMEN 14
INTRODUCCION 15
1 PLANTEAMIENTO DEL PROBLEMA 17
2 MARCO TEORICO 19
2.1 MINERÍA DE DATOS 19
2.1.1 Los fundamentos de la minería de datos 20
2.1.2 El alcance de la minería de datos 20
2.1.3 Metodología de minería de datos 21
2.1.4 Arquitectura para minería de datos 22
2.2 SISTEMA DE CALIFICACIÓN CREDITICIA 23
2.2.1 Funcionamiento de un sistema de calificación crediticia
24
2.2.2 Beneficios del sistema de calificación crediticia 24
2.2.3 Confiabilidad del sistema de calificación crediticia
25
2.3 DEFINICION MODELO PREDICTIVO 25
2.3.1 Metodología CRISP_DM 26
2.4 ESTANDAR PMML 28
2.4.1 Formato del pmml 28
2.4.2 Estructura de regresión en pmml 29
2.4.3 Software para el procesamiento de pmml 34
-
2.5 IMPORTAR UN MODELO PMML EN CLEMENTINE 35
2.6 EJECUCION DE UN MODELO EN CLEMENTINE 37
2.7 COMPARACION DE RESULTADO EN SPSS Y SPSS CLEMENTINE 39
3 ANTECEDENTES 41
3.1 HERRAMIENTAS DE MINERIA EN FINANCIERA COOMEVA 42
3.2 SPSS CLEMENTINE 43
3.3 SPSS 43
3.4 SQL SERVER ANALYTICAL SERVICES 44
3.5 ORACLE MINERIA DE DATOS 44
3.6 CUADRO COMPARATIVO 45
4 OBJETIVOS 47
4.1 OBJETIVO GENERAL 47
4.2 OBJETIVOS ESPECIFICOS 47
5 JUSTIFICACION 48
6 METODOLOGÍA 49
6.1 ESQUEMA GENERAL DEL PROYECTO 49
7. DESARROLLO 52
7.1 ESPECIFICACIONES DE REQUERIMIENTOS 52
7.2 REVISION DE LOS REQUERIMIENTOS 53
7.3 ANALISIS DE LOS REQUERIMIENTOS 54
7.4 RESOLUCION DE INQUIETUDES 56
7.5 LEVANTAMIENTO DE INFORMACION 56
-
7.5.1 Requerimiento 001: Extracción de información fuente 57
7.5.2 Requerimiento 002: Transformación de Variables 57
7.5.3 Requerimiento 003: Ejecución PMML 57
7.5.4 Requerimiento 004: Calculo 57
7.5.5 Requerimiento 005, Requerimiento 006 : Calificación 58
7.5.6 Requerimiento 007: Esquema 58
7.5.7 Requerimiento 008: Generar Reporte 58
7.5.8 Requerimiento 009: Almacenar en el AS/400 58
7.6 MODIFICACION DE REQUERIMIENTOS 53
7.7 VALIDACION Y VERIFICACION 59
7.8 ELABORACIÓN DE CASOS DE USO 60
7.8.1 Modelo de operación del software 61
7.8.2 Listado casos de uso 63
7.8.3 Especificación casos de uso 65
7.8.4 Aprobación de casos de uso 65
7.8.5 Validación y verificación 65
7.9. DISEÑO DE LA SOLUCIÓN 65
7.9.1 Arquitectura usada 65
7.9.2 Perspectivas de análisis de arquitectura 66
7.9.3 Vista de descomposición funcional 67
7.9.4 Vista de capas y componentes 68
7.9.5 Vista de distribución física 73
-
7.10 CONSTRUCCIÓN: EJECUCIÓN DEL MODELO DE MINERÍA 74
7.10.1 Desarrollo del software de procesamiento pmml 74
7.10.2 Ejecución del modelo logístico multinomial. 79
7.11 ASEGURAMIENTO DE CALIDAD Y PRUEBAS 83
8. CONCLUSIONES 85
BIBLIOGRAFÍA 87
ANEXOS 89
-
LISTA DE FIGURAS
Pág. Figura 1. Esquema de fases en CRISP-DM 27
Figura 2. Ejemplo de flujo de trabajo en SPSS Clementine 37
Figura 3. Definición de variables en SPSS Clementine. 38
Figura 4. Revisión de datos en SPSS Clementine 38
Fígura 5. Visualización de resultados del modelo en SPSS
Clementine 39
Figura 6. Esquema de actividades del proyecto 51
Figura 7. Esquema de la fase de especificación de requerimientos
52
Figura 8. Esquema de la fase de elaboración de casos de uso
60
Figura 9. Modelo de operación del modelo de otorgamiento 61
Figura 10. Modelo de operación de la generación del reporte
63
Figura 11. Esquema de vista de arquitectura funcional 68
Figura 12. Esquema de arquitectura de tres capas 69
Figura 13. Esquema de funcionamiento de la capa de presentación
70
Figura 14. Esquema de funcionamiento capa de lógica de dominio
71
Figura 15. Esquema de funcionamiento capa de acceso a datos
71
Figura 16. Esquema de funcionamiento de las diferentes capas
72
Figura 17. Esquema de vista física de arquitectura 73
Figura 18. Modelo de operación de ejecución del PMML 75
Figura 19. Esquema de la generación de Java a partir de XSD
77
Figura 20. Esquema de un Modelo de minería como una función
paramétrica 79
-
Figura 21. Ejemplo de modelo de Minería para Cálculo de PI
80
Figura 22. Esquema de la fase de Pruebas 84
-
LISTA DE TABLAS
Pág. Tabla 1. Cuadro comparativo de herramientas de minería
45
Tabla 2. Ejemplo de transformación requerida 57
Tabla 3. Listado de módulos del sistema 64
Tabla 4. Listado de casos de uso del sistema 64
Tabla 5. Perspectivas seleccionadas de Análisis de Arquitectura
67
Tabla 6. Mecanismos de procesamiento XML en Java 76
Tabla 7. Ejemplos de errores en generación de Java a partir de
XSD 77
Tabla 8. Ejemplos de soluciones para generación de Java a partir
de XSD 78
Tabla 9. Ejemplo de variable categorial (Discreta) Edad 79
Tabla 10. Ejemplo de variable categorial (Discreta) Sexo 80
Tabla 11. Ejemplo de valores para los predictores 82
Tabla 12. Ejemplo de valores para los predictores 82
-
LISTA DE CODIGOS
Pág.
Código 1. Esquema general de un archivo PMML 29
Código 2. Estructura general de un archivo PMML 2.1 30
Código 3. Modelo de regresión en PMML 2.1 31
Código 4. Modelo de regresión en PMML 3.1 32
Código 5. Matriz de parámetros en PMML 33
Código 6. Uso de JAXP para cargar un modelo PMML 78
Código 7. Ejemplo de diccionario de datos en PMML 80
Código 8. Ejemplo de listado de parámetros PMML 81
Código 9. Ejemplo de matriz de conversión de parámetros en PMML
82
Código 10. Ejemplo de matriz de parámetros en PMML 83
-
LISTA DE ANEXOS
Pág. Anexo A. Caso de Uso 001: Extracción variables 89
Anexo B. Caso de Uso 002: Transformación variables 92
Anexo C. Caso de Uso 003: Ejecución PMML 964
Anexo D. Caso de Uso 004: Cálculo puntaje y homologación 964
Anexo E. Caso de Uso 005: Calificación riesgo endeudamiento
67
Anexo F. Caso de Uso 006: Calificación crédito monto 101
Anexo G. Caso de Uso 007: Esquema 35
Anexo H. Caso de Uso 008: Reporte 10576
Anexo I. Caso de Uso 009: Almacenamiento AS400 107
Anexo J. Desarrollo del algoritmo de regresión logística
polinomial 109
-
GLOSARIO AS/400: el servidor AS/400 es un ordenador de IBM de
gamas baja y media, llegando a solaparse con los grandes host y con
los pequeños servidores Windows y GNU/Linux, para todo tipo de
empresas y departamentos. BODEGA DE DATOS : data warehouse (bodega
o almacén de datos) lo asocia con una colección de datos de gran
volumen, provenientes de sistemas en operación y otras fuentes,
después de aplicarles los procesos de análisis, selección y
transferencia de datos seleccionados. CASO DE USO: en ingeniería
del software, un caso de uso es una técnica para la captura de
requisitos potenciales de un nuevo sistema o una actualización
software. Cada caso de uso proporciona uno o más escenarios que
indican cómo debería interactuar el sistema con el usuario o con
otro sistema para conseguir un objetivo específico. INTELIGENCIA DE
NEGOCIOS: la Inteligencia de Negocios, es una alternativa
tecnológica y de administración de negocios, que permite manejar la
información para la toma de decisiones acertadas en todos los
niveles de la organización, desde la extracción, depuración y
transformación de datos, hasta la explotación y distribución de la
información mediante herramientas de fácil uso para los usuarios.
IU: (user interface) Interfaz grafica de usuario MINERIA DE DATOS:
la minería de datos es un proceso analítico diseñado para explorar
grandes volúmenes de datos (generalmente datos de negocio y
mercado) con el objeto de descubrir patrones y modelos de
comportamiento o relaciones entre diferentes variables. Esto
permite generar conocimiento que ayuda a mejorar la toma de
decisiones en los procesos fundamentales de un negocio PMML: es un
lenguaje de marcas basado en el estándar XML que sirve para
describir modelos estadísticos y de minería de datos. Para ello
requiere definir los datos de entrada al modelo, las
transformaciones realizadas sobre los mismos y los parámetros
propios que lo definen. SARC: el SARC se ocupa en forma integral de
todas y cada una de las etapas del ciclo de crédito (otorgamiento,
seguimiento, control, recuperación, etc.)
-
RESUMEN
Al interior de los procesos de otorgamiento de crédito, es
necesario analizar al cliente para determinar el nivel de riesgo
asociado y los montos que pueden aprobarse en las diferentes
transacciones. Tareas que son necesarias no solo debido a las
políticas internas de la institución, sino también debido a las
normatividades legales. Con el fin de realizar estas evaluaciones y
valoraciones de los clientes, Coomeva trabajó en un modelo de
minería de datos. Este modelo de minería de datos tiene
establecidas unas reglas, de acuerdo al comportamiento histórico de
la población asociada a Coomeva, que permite calificar a las
personas que solicitan crédito. Este modelo de minería, sin
embargo, incluye un conjunto adicional de reglas y transformaciones
e integrarse al sistema operacional de la entidad Taylor &
Johnson, con el fin de poder ser utilizado al interior de la
compañía. En este informe se documenta el proceso para la
implementación de un modelo predictivo de minería de datos para el
modelo de otorgamiento en Coomeva Financiero, que permite integrar
esta funcionalidad al software de Taylor & Johnson para
agilizar los estudios y llegar a una decisión rápida para las
solicitudes de crédito. Para la ejecución del modelo de minería, se
empleó el mismo modelo entrenado que posee Coomeva Financiero en
una herramienta llamada SPSS (statistical package for the social
science) o Clementine exportándolo a un archivo PMML (predictive
model markup language), el cual se ejecuta directamente desde la
aplicación.
-
15
INTRODUCCION En la actualidad, los bancos y entidades de
financiamiento, requieren establecer sistemas que permitan
determinar, mitigar y controlar el nivel de riesgo crediticio de
sus operaciones. Debido a una serie de normatividades legales, las
compañías del sector financiero deben determinar la probabilidad
que los créditos que manejan dejen de ser pagados o tengan
complicaciones en su pago oportuno. Esto con el fin que el banco
tome medidas y haga las reservas requeridas para que los problemas
que puedan ocurrir con los créditos y las inversiones no terminen
afectando los ahorros y depósitos del público y los inversionistas.
Como parte del proceso de otorgamiento de crédito personal y
financiero, las entidades bancarias suelen usar modelos
estadísticos y/o de minería de datos que permitan determinar la
probabilidad de incumplimiento del crédito. Si la probabilidad es
muy alta, muy probablemente el crédito no será aprobado. Un crédito
con una probabilidad de incumplimiento muy alta puede no ser un
buen negocio, no solo por el riesgo de no pago del cliente, sino
por los altos niveles de reservas que se pueden requerir. La
Cooperativa Coomeva, y la nueva Financiera Coomeva, han estado
trabajando durante varios años en la definición y perfeccionamiento
de modelos de minería de datos que permitan determinar con el mayor
nivel de precisión el nivel de riesgo crediticio. Para la nueva
oferta de servicios para 2008, la Financiera Coomeva desea
establecer un nuevo modelo de otorgamiento crediticio que aproveche
estos modelos de minería de datos y desarrollar un sistema que
genere recomendaciones de aprobación o no del crédito de acuerdo a
la probabilidad de incumplimiento que se pueden calcular. Geniar,
compañía que ha desarrollado algunos proyectos de integración de
aplicaciones e inteligencia de negocios en Coomeva y otras
compañías de la región, ha sido designada para construir una
solución que permita integrar los modelos de minería de datos
desarrollados en SPSS Clementine en las aplicaciones de negocio de
la entidad financiera. La solución planteada se basa en el uso del
estándar PMML para el intercambio de modelos de minería de datos.
Empleando este estándar, el modelo de minería de datos puede ser
creado en SPSS Clemetine, exportado en un archivo especial e
importado en una solución de software. Como parte de la solución se
construyó un módulo de software que ejecuta el modelo de minería
basado en el PMML y otro módulo que usa al primero para ejecutar el
modelo de otorgamiento y hacer la recomendación de acuerdo a los
datos del solicitante.
-
16
El presente trabajo incluye un informe de la pasantía de los
estudiantes Herberth Joiman Gómez y Diana Carolina Bedoya, quienes
participaron en la construcción del modelo de otorgamiento y el
mecanismo de ejecución de PMML dentro del proyecto desarrollado por
Geniar para la Financiera Coomeva.
-
17
1. PLANTEAMIENTO DEL PROBLEMA Desde hace mucho tiempo poder
conocer, controlar y cambiar la realidad financiera de la empresa
es uno de los puntos donde se encuentran más dificultades. Sin
duda, disponer de los recursos adecuados para afrontar las acciones
necesarias, permite adoptar una buena planificación de la
estrategia financiera y conocer la realidad de la empresa,
enfrentando de esta forma los retos y problemas diarios con máxima
eficiencia. Las diferentes crisis bancarias que han ocurrido en
América Latina en las últimas décadas, incluyendo la crisis del
sector financiero en Colombia a finales de la década de los 90, han
creado una mayor conciencia sobre la necesidad de contar con
mecanismos para evaluar y mitigar los riesgos. Para una institución
financiera, brindar créditos a personas que no están en capacidad
de pagarlos, representa un gran riesgo. Los clientes que incumplen
en sus créditos generan procesos complejos de expropiación,
descontento del público y pérdidas de dinero que pueden llevar a
una compañía a la quiebra, por esta razón, analizar adecuadamente
los clientes es una necesidad indudable y la práctica de la
evaluación de capacidad y calificación crediticia se han convertido
en prácticas bien establecidas. Determinar si un cliente es apto o
no para acceder a un crédito, se basa normalmente en la
probabilidad de incumplimiento de ese cliente. Aunque las
estimaciones de probabilidad en su mayoría son subjetivas, las
técnicas de evaluación de crédito se han mejorado en los últimos
años. Un buen administrador de crédito en una institución
financiera puede hacer juicios razonables exactos acerca de la
probabilidad de incumplimiento de diferentes clases de clientes.
Una institución financiera entonces, de acuerdo a su visión de
negocio, debe establecer los márgenes de riesgo permitidos.
Márgenes que le permitan lograr la mayor colocación posible en
niveles apropiados de probabilidad de incumplimiento. Desde hace
algunos años en Colombia, es obligatorio que todas las compañías
financieras cuenten con sistemas de administración de riesgo
crediticio (SARC) que le permitan conocer, monitorear y controlar
los niveles de riesgo asociados a su colocación. Las áreas de
negocio evalúan constantemente la situación financiera de cada
cliente, realizando cuando menos una vez al año, revisión
exhaustiva y análisis del riesgo de cada préstamo. Si se llegara a
detectar cualquier deterioro de la situación financiera del
cliente, se cambia su calificación de inmediato. De esta manera, el
Grupo determina los cambios experimentados por los perfiles de
riesgo
-
18
de cada cliente. En estas revisiones se considera el riesgo de
crédito global, incluyendo operaciones con instrumentos
financieros, derivados financieros y cambios. En el caso de los
riesgos superiores a lo aceptable, se realizan revisiones
complementarias con mayor frecuencia, mínimo trimestralmente. Las
empresas se basan en la aplicación de estrategias bien definidas
para controlar cualquier tipo de riesgo, entre las que destacan la
centralización de los procesos de crédito, la diversificación de la
cartera, un mejor análisis del crédito, una estrecha vigilancia y
un modelo de calificación del riesgo crediticio. En los últimos
años, la práctica de evaluación crediticia de los clientes ha
involucrado cada vez más diferentes variables y factores. Situación
la cual genera, en muchos casos, que los modelos de evaluación
excedan las posibilidades reales de hacer el proceso de forma
manual. Adicionalmente, la tendencia a emplear la gran cantidad de
información histórica de las transacciones de los clientes, llevan
a las instituciones financieras cada vez más hacia la
automatización de estos procesos. El negocio y el proceso de
otorgamiento crediticio en la cooperativa Coomeva y financiera
Coomeva se ha estado refinando y evolucionando con el tiempo. Desde
hace algunos años se ha estado trabajando en tema de minería de
datos para mejorar los esquemas de análisis de riesgo crediticio y
para ser más asertivos en los procesos de otorgamiento de los
créditos. Hoy en día el software bancario de Coomeva, Taylor &
Jhonson, no incluye algunas de las definiciones más recientes del
negocio. El software soporta un modelo de operación, con una serie
de pasos basados en reglas, que no soporta el nuevo modelo basado
en el esquema de minería de datos. Para lograr que el software
bancario soporte el nuevo modelo de otorgamiento basado en minería
de datos, es necesario construir un servicio de software que
permita ejecutar el modelo predictivo con los datos del solicitante
del crédito. Debido a que el grupo estadístico de Coomeva trabaja
con herramientas de minería de datos SPSS Clementine, los modelos
predictivos se hallan construidos en este sistema. Modelos que
incluyen algunos modelos de cálculo de riesgo crediticio y de
probabilidad de incumplimiento que deberían ser integrados en el
corto y mediano plazo al software bancario. ¿Cómo implementar un
servicio de ejecución de un modelo predictivo desarrollado en SPSS
Clementine, de forma que pueda ser integrado a la solución del
sistema bancario en la Financiera y la Cooperativa Coomeva?
-
19
2. MARCO TEORICO 2.1 MINERÍA DE DATOS
La Minería de Datos (Data Mining), es la extracción de
información oculta y predecible de grandes bases de datos, es una
tecnología con gran potencial para ayudar a las compañías a
concentrarse en la información más importante de sus Bases y
Bodegas de Información (Data Warehouse). Las herramientas de
Minería de Datos predicen futuras tendencias y comportamientos,
permitiendo en los negocios tomar decisiones proactivas y
conducidas por un conocimiento acabado de la información. Los
análisis prospectivos automatizados ofrecidos por un producto así
van más allá de los eventos pasados provistos por herramientas
retrospectivas típicas de sistemas de soporte de decisión. Las
herramientas de Minería de Datos pueden responder a preguntas de
negocios que tradicionalmente consumen demasiado tiempo para poder
ser resueltas y a los cuales los usuarios de esta información casi
no están dispuestos a aceptar. Estas herramientas exploran las
bases de datos en busca de patrones ocultos, encontrando
información predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas. Muchas compañías ya
colectan y refinan cantidades masivas de datos. Las técnicas de
Minería de Datos pueden ser implementadas rápidamente en
plataformas ya existentes de software y hardware para acrecentar el
valor de las fuentes de información existentes y pueden ser
integradas con nuevos productos y sistemas ya que son traídas en
línea. Una vez que las herramientas de Minería de Datos fueron
implementadas en computadoras cliente servidor de alto rendimiento
o de procesamiento paralelo, pueden analizar bases de datos masivas
para brindar respuesta a preguntas tales como, "¿Cuáles clientes
tienen más probabilidad de responder al próximo correo promocional,
y por qué? y presentar los resultados en formas de tablas, con
gráficos, reportes, texto, hipertexto, etc.1
1 Página de Consultas Monografias, [en línea] Data Mining,
Argentina: Monografias SA, 2004 [consultado 01 de septiembre de
2007] Disponible en internet:
http://www.monografias.com/trabajos7/dami/dami.shtml
-
20
2.1.1 Los fundamentos de la minería de datos. Las técnicas de
Minería de Datos son el resultado de un largo proceso de
investigación y desarrollo de productos. Esta evolución comenzó
cuando los datos de negocios fueron almacenados por primera vez en
computadoras, y continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para permitir a los
usuarios navegar a través de los datos en tiempo real. La Minería
de Datos toma este proceso de evolución más allá del acceso y
navegación retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. La Minería de Datos está
soportada por tres tecnologías que son suficientemente maduras: •
Recolección masiva de datos • Potente computadoras con
multiprocesadores • Algoritmos de Minería de Datos
Los algoritmos de Minería de Datos utilizan técnicas que han
existido por lo menos desde la década de los 90, pero que sólo han
sido implementadas recientemente como herramientas maduras,
confiables, entendibles que consistentemente tienen mejor
rendimiento que métodos estadísticos tradicionales. 2.1.2 El
alcance de la minería de datos. El nombre de Minería de Datos
deriva de las similitudes entre buscar valiosa información de
negocios en grandes bases de datos. Dadas bases de datos de
suficiente tamaño y calidad, la tecnología de Minería de Datos
puede generar nuevas oportunidades de negocios al proveer estas
capacidades: Predicción automatizada de tendencias y
comportamientos. La minería de datos automatiza el proceso de
encontrar información predecible en grandes bases de datos.
Preguntas que tradicionalmente requerían un intenso análisis
manual, ahora pueden ser contestadas directa y rápidamente desde
los datos. Problemas predecibles incluyen pronósticos de problemas
financieros futuros y otras formas de incumplimiento, e identificar
segmentos de población que probablemente respondan similarmente a
eventos dados. Descubrimiento automatizado de modelos previamente
desconocidos. Las herramientas de Minería de Datos barren las bases
de datos e identifican modelos previamente escondidos en un sólo
paso. Otros problemas de descubrimiento de modelos donde puede
aplicarse minería incluyen la detección de transacciones
fraudulentas de tarjetas de créditos y la identificación de datos
anormales que pueden representar errores de digitación en la carga
de datos.
-
21
Las técnicas de Minería de Datos pueden redituar los beneficios
de automatización en las plataformas de hardware y software
existentes y puede ser implementada en sistemas nuevos a medida que
las plataformas existentes se actualicen y nuevos productos sean
desarrollados. Algunas de las técnicas más comúnmente usadas en
Minería de Datos son: • Redes neuronales artificiales: modelos
predecibles no-lineales que aprenden a través del entrenamiento y
semejan la estructura de una red neuronal biológica. • Árboles de
decisión : estructuras de forma de árbol que representan conjuntos
de decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Métodos específicos de
árboles de decisión incluyen Árboles de Clasificación y Regresión.
• Algoritmos genéticos: técnicas de optimización que usan procesos
tales como combinaciones genéticas, mutaciones y selección natural
en un diseño basado en los conceptos de evolución. • Método del
vecino más cercano : una técnica que clasifica cada registro en un
conjunto de datos basado en una combinación de las clases del/de
los k registro (s) más similar/es a él en un conjunto de datos
históricos. • Regla de introducción: la extracción de reglas “Si x
Entonces y” (if-then) a partir de datos basados en significado
estadístico. 2.1.3 Metodología de minería de datos. La Minería de
Datos es el acto de construir un modelo en una situación donde
usted conoce la respuesta y luego la aplica en otra situación de la
cual desconoce la respuesta. Este acto de construcción de un modelo
es algo que la gente ha estado haciendo desde hace mucho tiempo,
seguramente desde antes del auge de las computadoras y de la
tecnología de Minería de Datos. Las computadoras son cargadas con
mucha información acerca de una variedad de situaciones donde una
respuesta es conocida y luego el software de Minería de Datos en la
computadora debe correr a través de los datos y distinguir las
características de los datos que llevarán al modelo. Una vez que el
modelo se construyó, puede ser usado en situaciones similares donde
usted no conoce la respuesta. Para determinar si un modelo es bueno
el primer paso que se debe realizar es probar con un modelo donde
se conoce la respuesta. Con Minería de Datos, la mejor manera para
realizar esto es dejando de lado ciertos datos para aislarlos del
proceso de Minería de Datos. Una vez que el proceso está completo,
los
-
22
resultados pueden ser probados contra los datos excluidos para
confirmar la validez del modelo. Si el modelo funciona, las
observaciones deben mantenerse para los datos excluidos. Las
principales metodologías utilizadas por los analistas para la
realización de proyectos de Minería de Datos son CRISP-DM y SEMMA.
Estas metodologías presentan diferentes fases que proporciona una
idea más amplia respecto a la realización de proyectos de Minería
de Datos y me permiten adaptarlas al desarrollo de los proyectos
específicos de cada organización. Así mismo, la presentación de las
fortalezas y debilidades de cada una de las metodologías hace
posible la selección informada de una técnica de desarrollo
apropiada para cada caso, donde comparten la misma esencia,
estructurando el proyecto de Minería de Datos en fases que se
encuentran interrelacionadas entre sí, convirtiendo el proceso de
Minería de datos en un proceso iterativo e interactivo. La
metodología CRISP-DM mantiene una perspectiva más amplia respecto a
los objetivos empresariales del proyecto ya que desde la primera
fase del proyecto comienza realizando un análisis del problema
empresarial para su transformación en un problema técnico, de esta
manera, esta metodología permite estar mucho más cerca al concepto
real del proyecto y ser integrada con una metodología de Gestión de
Proyectos específica que completaría las tareas administrativas y
técnicas. CRISP-DM ha sido diseñada como una metodología neutra
respecto a la herramienta que se utilice para el desarrollo del
proyecto de Minería de Datos siendo su distribución libre y
gratuita. La metodología SEMMA se centra más en las características
técnicas del desarrollo del proceso y desde la primera fase
comienza realizando un muestreo de datos y sólo es abierta en sus
aspectos generales ya que está muy ligada a los productos SAS donde
se encuentra implementada. 2.1.4 Arquitectura para minería de
datos. Para aplicar estas técnicas avanzadas, éstas deben estar
totalmente integradas con las Bodegas de Datos, así como con
herramientas flexibles e interactivas para el análisis de negocios.
Varias herramientas de Minería de Datos actualmente operan fuera de
la Bodega de Datos, requiriendo pasos extra para extraer, importar
y analizar los datos. Además, cuando nuevos conceptos requieren
implementación operacional, la integración con la Bodega de Datos
simplifica la aplicación de los resultados desde Minería de Datos.
La Bodega de Datos analítica resultante puede ser aplicada para
mejorar procesos de negocios en toda la organización, en áreas
-
23
tales como manejo de campañas promocionales, detección de
fraudes, lanzamiento de nuevos productos, etc. El punto de inicio
ideal es una Bodega de Datos que contenga una combinación de datos
de seguimiento interno de todos los clientes junto con datos
externos de mercado acerca de la actividad de los competidores.
Información histórica sobre potenciales clientes también provee una
excelente base para prospectación. Esta Bodega de Datos puede ser
implementada en una variedad de sistemas de bases relacionales y
debe ser optimizado para un acceso a los datos flexible y rápido.
Un servidor multidimensional OLAP permite que un modelo de negocios
más sofisticado pueda ser aplicado cuando se navega por la Bodega
de Datos. Las estructuras multidimensionales permiten que el
usuario analice los datos de acuerdo a como quiera mirar el
negocio. El servidor de Minería de Datos debe estar integrado con
la Bodega de Datos y el servidor OLAP para insertar el análisis de
negocios directamente en esta infraestructura. Un avanzado conjunto
de metadatos centrado en procesos define los objetivos de la
Minería de Datos para resultados específicos tales como manejos de
campaña, prospectación, y optimización de promociones. La
integración con la Bodega de Datos permite que decisiones
operacionales sean implementadas directamente y monitoreadas. A
medida que la Bodega de Datos crece con nuevas decisiones y
resultados, la organización puede "minar" (detectar) las mejores
prácticas y aplicarlas en futuras decisiones. Este diseño además de
proveer datos a los usuarios finales a través de software de
consultas y reportes, el servidor de Análisis Avanzado aplica los
modelos de negocios del usuario directamente a la Bodega de Datos y
devuelve un análisis proactivo de la información más relevante.
Estos resultados mejoran los metadatos en el servidor OLAP
proveyendo un nivel de metadatos que representa una vista
fraccionada de los datos. Generadores de reportes, visualizadores y
otras herramientas de análisis pueden ser aplicadas para planificar
futuras acciones y confirmar el impacto de esos planes. 2.2 SISTEMA
DE CALIFICACIÓN CREDITICIA
El sistema de calificación crediticia es un sistema estadístico
de evaluación automática para la concesión de créditos, que predice
la entrada en mora de una operación de riesgo. Produce una
clasificación ordenada, basada sobre la mora y el riesgo, mediante
la suma de puntos asociados. • A las respuestas a los cuestionarios
de la solicitud de crédito. • Al perfil crediticio que surja de los
registros del comité de créditos.
-
24
• Al perfil económico - financiero que surja de los estados
financieros del solicitante.
2.2.1 Funcionamiento de un sistema de calificación crediticia.
El funcionamiento de un sistema de calificación crediticia puede
esquematizarse en los siguientes pasos:
• Se obtiene información de la solicitud de crédito o del
informe de crédito o de otras fuentes como los estados financieros.
• Utilizando un programa computarizado se compara la información
obtenida con el desempeño crediticio de otros solicitantes con
perfiles similares. Se otorgan puntos por cada uno de los factores
que ayudan a predecir cuál perfil de solicitante es el que tendrá
el mejor desempeño en el cumplimiento de sus obligaciones. • El
total de puntos constituye la calificación (score) y así determina
si el solicitante es merecedor de crédito, es decir si su perfil
predice el mejor desempeño en el cumplimiento de sus
obligaciones.
2.2.2 Beneficios del sistema de calificación credit icia. El
Sistema de Calificación crediticia ofrece una variedad de
beneficios para las entidades financieras que lo implementan. Entre
tale beneficios, es posible mencionar:
• Disminuye el tiempo necesario para la concesión de crédito,
siendo posible la evaluación instantánea. • Reduce la cartera
irregular. • Uniforma los criterios de concesión de créditos. •
Disminuye los costes de análisis de créditos. • Facilita los
cambios en la política de créditos. • Mejora la utilización de la
experiencia de los analistas de la entidad. • Está basado sobre
datos reales y estadísticas, por lo tanto es más confiable que los
métodos basados sobre la subjetividad o el criterio del analista. •
Trata a todos los solicitantes por igual, en forma objetiva (los
métodos subjetivos o de criterios generalmente se basan sobre
pautas que no han sido evaluadas sistemática-mente y cuyos
resultados pueden variar según el individuo que las aplica) En
resumen, un sistema de este tipo permite a las entidades evaluar
solicitantes en forma rápida, consistente e imparcial, tomando en
cuenta un gran número de las características de los
solicitantes.
-
25
2.2.3 Confiabilidad del sistema de calificación cre diticia. El
sistema de calificación crediticia tiene asociado un margen de
error. El nivel de confiabilidad del sistema depende de la
confiabilidad del modelo predictivo que propone. Un Sistema de
Calificación Crediticia es más confiable si se tiene las siguientes
características: • Cuanto mejor y más amplia sea la fuente de
información. • Si tiene un diseño correcto. • Si es
estadísticamente válido, es decir si está basado sobre una base de
datos reales suficientemente amplia. • Si está validado contra una
amplia muestra de clientes cumplidores y no- cumplidores. • Si esta
verificado en su utilización contra los resultados reales. Estas
características nos muestran que la calificación crediticia es más
útil en la atención de operaciones de banca individual, donde
existe un gran número de solicitudes que debe ser resuelto en un
lapso de tiempo muy corto. Pero también existe una variedad de
calificaciones crediticias aptas para su utilización con empresas
como ser pruebas de "pasa/no pasa", préstamo por fórmula,
clasificación de deudores, calificaciones crediticias para
micro-emprendimientos, la matriz de crédito comercial, etc.2
2.3 DEFINICIÓN MODELO PREDICTIVO El desarrollo del modelo
predictivo debe seguir los lineamientos de un proyecto de minería
de datos. En la actualidad, las metodologías más conocidas en esta
área son CRISP-DM y SEMMA. Coomeva hace uso de la metodología
CRISP-DM ya que esta es directamente soportada por la herramienta
SPSS Clementine. El Modelo Predictivo de Probabilidad de
Incumplimiento incluido en el modelo de otorgamiento fue
desarrollado por el grupo estadístico de Coomeva y suministrado al
grupo de trabajo para su incorporación al servicio que debía
construirse. A continuación se incluye una breve descripción de la
metodología CRISP-DM y de algunos de los pasos requeridos para
construir un modelo predictivo en Clementine, y para exportar e
importar el modelo en formato PMML.
2 Página de Consultas Monografias [en línea] Data Mining,
Argentina: Monografias SA, 2004 [consultado 01 de septiembre de
2007]. Disponible en internet:
http://www.monografias.com/trabajos7/dami/dami.shtml
-
26
Algunas de estas tareas fueron desarrolladas por Geniar y los
autores del trabajo para revisar el modelo de minería, verificar la
ejecución del mismo y realizar las pruebas del funcionamiento del
software desarrollado comparando los resultados obtenidos con los
valores esperados arrojados por estas herramientas. 2.3.1
Metodología Crisp-Dm. CRISP-DM es, en realidad, un proceso estándar
para minería de datos establecido por un consorcio internacional de
compañías que define estándares en torno al tema de minería de
datos. La versión inicial se definió en 1999 por las compañías
SPSS, AG, NCR y OHRA. El proceso define una serie de fases y
actividades que deben llevarse a cabo para el desarrollo de un
proyecto de minería de datos. Cada una de las actividades con un
conjunto de tareas y entregables definidos. La metodología incluye
un conjunto de fases: • Entendimiento del Negocio • Entendimiento
de los Datos • Preparación de los Datos • Modelamiento • Evaluación
• Despliegue
-
27
Figura 1. Esquema de fases en CRISP-DM A continuación se
relacionan los objetivos de cada una de las fases definidas en
CRISP-DM. • Entendimiento del negocio. Comprender los objetivos y
requerimientos del proyecto desde una perspectiva de negocio.
Básicamente, definir los objetivos de negocio en torno del proyecto
de minería de datos. • Comprensión de los datos . Recopilar y
familiarizarse con los datos, identificar los problemas de calidad
de datos y ver las primeras potencialidades o subconjuntos de datos
que puede ser interesante de analizar (según los objetivos de
negocio definidos en la fase anterior). • Preparación de los datos
. Definición de la “vista minable”, el conjunto de datos que será
usado en el modelo de minería. Aquí se incluyen actividades de
integración, selección, limpieza y transformación. • Modelado .
Aplicación de técnicas de modelado o de minería de datos
propiamente dichas sobre las vistas de datos minables
definidas.
Entendimiento del
Negocio
Entendimiento de
los datos
Preparación de los
datos
Modelamiento
Evaluación
Despliegue
-
28
• Evaluación . Revisión de los modelos de minería encontrados
(desde el punto de vista de los objetivos del negocio). Se definen
experimentos y pruebas que permiten comprobar si el modelo nos
sirve para responder a algunos de los requerimientos del negocio. •
Despliegue . Uso y explotación de la potencialidad de los modelos,
integrarlos en los procesos de toma de decisión de la organización,
difundir informes sobre el conocimiento extraído, y hacer uso
dentro de las actividades de toma de decisiones de la compañía. 2.4
ESTÁNDAR PMML El estándar PMML (Predictive Model Markup Language)
es un lenguaje basado en XML que permite el intercambio de modelos
predictivos y de minería de datos en diferentes lenguajes y
herramientas. Usando PMML es posible exportar un modelo de minería
de datos de un sistema e importarlo en otro. Por ejemplo, es
posible exportar un modelo de minería incluyendo el
pre-procesamiento de una aplicativo como SPSS y luego importar el
mismo modelo en otro aplicativo como Clementine. El mecanismo de
intercambio PMML está diseñado no solo para utilizar modelos
creados en un sistema en otro sistema, sino también para incorporar
la ejecución del modelo predictivo en aplicaciones de negocio. Los
modelos exportados en PMML incluyen la información requerida para
la ejecución del modelo predictivo. Esto puede aprovecharse para
incluir la ejecución del modelo predictivo directamente en las
aplicaciones. Algunas librerías y sistemas permiten la ejecución
directa del modelo predictivo desde la aplicación. Sistemas como
Clementine Server, DB2 Datawarehouse edition, IBM Scoring Beans u
Oracle Database Server, permiten importar el modelo PMML y
ejecutarlo directamente desde un aplicativo. El API estándar Java
Datamining (JDM) está diseñado para ofrecer esta funcionalidad
desde Java. 2.4.1 Formato del pmml. El formato PMML está definido
por un archivo estándar de definición de estructura. El formato
estándar es administrado por el Data Mining Group (DMG). Las
primeras versiones del estándar PMML están definidas a través de
documentos DTD (Document Type Definition). Las versiones más
modernas del estándar (versiones 2.1 y posteriores) están definidas
a través de un archivo de esquema XSD (Xml Schema Definition).
-
29
El formato PMML representa en realidad una estructura de datos
con una o varias subestructuras. Las subestructuras pueden
representar diferentes algoritmos de minería de datos. Un archivo
PMML puede incluir definiciones de diferentes modelos de minería de
datos. Podría, por ejemplo, incluir la definición de un modelo de
regresión lineal y un modelo de redes neuronales. Cada uno de los
tipos de modelos está definido en un tipo de estructura diferente.
Existe una estructura que permite definir los modelos de regresión
lineal, por ejemplo, y otra estructura que permite definir los
modelos de redes neuronales. 2.4.2 Estructura de regresión en pmml.
El modelo de minería de datos empleado en el modelo de otorgamiento
de Coomeva corresponde al algoritmo de regresión logística
multinomial. El cual maneja una serie de estructuras concretas de
acuerdo a la versión de PMML utilizada.
• Estructura general de PMML Un archivo PMML es fundamentalmente
un archivo XML que sigue un esquema definido. Desde la versión 2.1
este esquema está definido a través de un esquema XSD, por lo cual
es necesario definir un namespace por defecto. Un documento PMML
incluye un elemento raíz con el tipo PMML, que define la versión y
el namespace por defecto. El namespace por defecto establece, el
archivo XSD a utilizar, uno diferente de acuerdo a la versión del
PMML. Un archivo PMML en versión 2.1 incluye un elemento raíz como
el que se muestra en el ejemplo. Código 1. Esquema general de un
archivo PMML
... ... modelos de minería ...
El archivo PMML, en versión 2.1 tiene una estructura general
como se detalla en el siguiente esquema XSD.
-
30
Código 2. Estructura General de un archivo PMML 2.1
El esquema define al elemento PMML, el elemento raíz del
archivo. Elemento que incluye el atributo versión obligatorio,
definiendo el tipo de PMML que está siendo definido. Básicamente el
archivo incluye un encabezado y un diccionario de datos
obligatorios. Un encabezado que define el nombre y la versión de la
aplicación que ha generado el archivo y un diccionario de datos que
define los tipos de datos y las restricciones de los valores que
son entradas y salidas de los modelos de minería definidos en el
archivo. Adicionalmente, opcionalmente, el archivo puede definir
una Tarea de Construcción y/o un Diccionario de Transformación, que
define el conjunto de tareas de preprocesamiento que se pueden
requerir para ejecutar los modelos. El archivo puede definir tareas
de sumatorias, productos, generación de promedios y otros que sean
requeridos para ejecutar los modelos. Un archivo puede definir
cero, uno o muchos modelos de minería de datos. Modelos que pueden
ser de diferentes tipos de acuerdo a la versión de PMML usada. Cada
versión de PMML incluye un listado de tipos de modelos que
pueden
-
31
ser definidos. Cada versión ha incluido nuevos tipos de modelos.
Para el caso de la versión 2.1, el PMML permite definir uno o
varios modelos de árboles, redes neuronales, clusters, regresiones,
redes Naive Bayes, reglas de asociación o modelos de secuencia.
• Modelos de regresión en PMML 2.1 .Los diferentes tipos de
regresión se incluyen en un único tipo de estructura. Básicamente
un elemento “RegressionModel” que incluye información del algoritmo
utilizado y las matrices de valores del modelo. Un ejemplo de
elemento RegressionModel para una regresión logística multinomial
en versión PMML 2.1. se presenta a continuación Código 3. Modelo de
regresión en PMML 2.1
En el caso de PMML 2.1 toda la información del modelo de
regresión se halla en una única matriz. La matriz define por cada
una de las categorías de predicción, los diferentes parámetros del
modelo (predictores), el tipo de predictor (numérico o categorial)
y el factor coeficiente.
-
32
• Modelos de regresión en PMML 3.1. En PMML 3.1, el modelo de
regresión se define en un elemento “RegressionModel”, de forma
similar al PMML 2.1. Pero la estructura permite la inclusión de una
serie adicional de extensiones, los predictores están definidos en
el diccionario de datos y la matriz de regresión solo define los
coeficientes. Para un modelo de regresión logística multinomial,
las variables y predictores deben estar definidas en el diccionario
de datos del documento. Código 4. Modelo de Regresión en PMML
3.1
:
El modelo de regresión hace referencia a las variables definidas
en el diccionario de datos. Estableciendo los valores que son
objetivo de predicción y los coeficientes del algoritmo.
-
33
Código 5. Matriz de Parámetros en PMML
• Modelos de regresión en PMML de SPSS. Los aplicativos de SPSS
generan los archivos PMML en un formato diferente, basado en la
versión 3.1 pero con una serie de extensiones e información
adicional para el proceso estadístico y análisis gráfico.
Información adicional que no es necesariamente relevante para la
ejecución del modelo predictivo. El formato usado por SPSS está
definido en un archivo separado para los diferentes tipos de
modelos de minería. El modelo de regresión logística está definido
el archivo “spss-logreg-1.0.xsd”. El modelo incluye una serie de
matrices diferentes a las definidas en el estándar PMML, incluyendo
información de covarianza, relación entre variables y otros
factores que no son requeridos en el estándar y que no son
necesarios para la ejecución del modelo predictivo.
-
34
2.4.3 Software para el procesamiento de pmml. Con el fin de
procesar el modelo de minería de datos en PMML y poder ser usado en
la aplicación de modelo de otorgamiento para Coomeva, varias
librerías y aplicaciones de software fueron evaluadas y analizadas.
Algunas librerías y aplicaciones de código abierto (opensource) y
otras librerías y aplicaciones comerciales. Los productos de código
abierto analizados se relacionan a continuación: Tabla 1. Productos
evaluados de código abierto para ejecutar PMML
Producto Soporte PMML
Comentarios
Augustus http://augustus.sourceforge.net/
Soporta PMML 2.1, 3.0 y 3.1
Soporta el uso de scoring con tareas de preprocesamiento y con
varios tipos diferentes de procesamiento. El software esta en
Python y, de acuerdo a las políticas de Coomeva, no podría usarse
en aplicativos corporativos.
Rattle http://rattle.togaware.com/
Soporta PMML 2.1
El software esta en R, y de acuerdo a las políticas de Coomeva,
no podrá usarse en aplicativos corporativos
Weka http://www.cs.waikato.ac.nz/ml/weka/
No soporta PMML
No soporta la lectura de modelos en PMML.
RapidMiner (Yale) http://rapid-i.com/
Soporta la grabación de PMML v.2.1
No soporta la lectura de modelos en PMML.
AlphaMiner http://www.eti.hku.hk/alphaminer
Soporta la grabación de PMML v.2.1
No soporta la lectura de modelos en PMML.
Los productos comerciales analizados se relacionan en la tabla a
continuación:
-
35
Tabla 2. Productos evaluados comerciales para ejecu tar PMML
Producto Soporte PMML Comentarios Clementine 11 Soporta PMML 3.1
El software está basado en java, pero
ejecuta el modelo de minería empleando una librería en código
nativo. No puede usarse en aplicaciones sin comprar licencias
adicionales.
SPSS v16 Soporta PMML 3.1 El software está basado en java, pero
ejecuta el modelo de minería empleando una librería en código
nativo. No puede usarse en aplicaciones.
DB2 Datawarehouse Edition v.9.1
Soporta PMML 3.0 y 3.1.
La librería de scoring de Java utiliza una serie de
procedimientos almacenados DB2 con librerías en código nativo. No
puede usarse en aplicaciones sin comprar licencias adicionales.
DB2 Intelligent Miner Scoring v8.2
Soporta PMML 1.1, 2.0 y 2.1
La librería de scoring en Java utiliza una serie de
procedimientos almacenados con librerías en código nativo. Las
librerías deben instalarse en una base de datos DB2 u Oracle. Ya no
es posible licenciar este software por fuera del producto de DB2
Datawarehouse Edition.
2.5 IMPORTAR UN MODELO PMML EN CLEMENTINE El lenguaje de marcado
de modelos predictivos (PMML), es un estándar basado en XML que
permite a una aplicación de minería de datos intercambiar modelos
predictivos con otras aplicaciones. Usando este formato, es posible
por ejemplo, exportar un modelo de SPSS y cargarlo en SPSS
Clemetine para su ejecución o consulta. Con el fin de construir la
aplicación, se espera hacer uso del estándar PMML para importar las
definiciones obtenidas en la herramienta SPSS Clementine por parte
del grupo estadístico de Coomeva y ejecutarlo como parte del
sistema del modelo de otorgamiento. En cada punto del proceso de
minería de datos, la interfaz visual de Clementine implica el uso
de técnicas empresariales. Los algoritmos de modelado, tales como
predicción, clasificación, segmentación y detección de
asociaciones, garantizan la
-
36
obtención de modelos exactos y potentes. Los resultados del
modelo se pueden distribuir y leer fácilmente en bases de datos,
SPSS y en una amplia variedad de aplicaciones En esta ruta de datos
existe una secuencia de operaciones y los datos fluyen registro por
registro desde el origen pasando por cada manipulación y,
finalmente, llega al destino, que puede ser un modelo o un tipo de
datos de resultados. Coomeva suministró un modelo entrenado en
Clementine y SPSS, un conjunto de datos de prueba y un conjunto de
datos obtenidos después de ejecutar el modelo entrenado. Se utilizó
Clementine para ejecutar el modelo y verificar que los resultados
obtenidos fueran los correctos y los mas precisos posibles, debido
a que SPSS y Clementine manejan algoritmos diferentes, es necesario
establecer el algoritmo que se debe utilizar en el sistema. De esta
forma, si se modifica el PMML, el programa funcionará de acuerdo a
lo esperado por los usuarios de Coomeva Financiero. En la figura 2
se muestra un flujo de trabajo en SPSS Clementine en donde se
muestra una fuente de datos en Excel (de donde se extraen los
datos) y los modelos de minería importados. Los modelos de minería
se ven como unas poliedros de color amarillo sobre los cuales
podemos hacer consultas. El resultado de aplicar los datos de Excel
se muestra en unas tablas adicionales que pueden ser visualizadas
en pantalla o exportadas a otros archivos o bases de datos.
-
37
Figura 2. Ejemplo de flujo de trabajo en SPSS Cleme ntine
2.6 EJECUCIÓN DE UN MODELO EN CLEMENTINE Para poder ejecutar un
modelo de SPSS Clementine es necesario especificar la
correspondencia de las variables de la fuente de datos con los
parámetros del modelo de minería. Es necesario indicar las columnas
de las fuentes de datos que se deberían usar como parámetros del
modelo de minería de datos. Para el caso de las pruebas se tomaron
los archivos de datos y se hicieron asignaciones automáticas de los
tipos de datos y rangos de valores. Luego de manera manual es
necesario asignar las variables de entrada y de salida del modelo
predictivo. Para nuestro caso, varias variables de entrada y una
sola variable de salida (probabilidad de incumplimiento).
-
38
Figura 3. Definición de variables en SPSS Clementin e.
Una vez definidas las variables, estas pueden ser visualizadas y
revisadas en el mismo entorno de trabajo de SPSS Clementine. La
figura muestra el conjunto de datos de prueba extraídos de Excel.
Figura 4. Revisión de datos en SPSS Clementine
Después de importar y ejecutar el modelo PMML generado en SPSS y
Clementine podemos observar los resultados arrojados por el modelo
entrenado que define si va a cumplir o no con el crédito y las
probabilidades de incumplimiento.
-
39
El archivo PMML exportado del SPSS y Clementine incluye toda la
información para ejecutar la predicción usando el modelo. El modelo
recibe unos valores de entrada, que se convierten en una serie de
parámetros. Si las variables son categoriales o discretas, se
convierten en parámetros para cada tipo de valor. Si las variables
son de valor o continuas se convierten en un solo parámetro. La
siguiente imagen muestra cada uno de los valores de entrada y las
variables de predicción que definen si una persona va a cumplir o
no con el crédito y las probabilidades de incumplimiento. Fígura 5.
Visualización de resultados del modelo en SPSS Clementine
2.7 COMPARACIÓN DE RESULTADOS EN SPSS Y SPSS CLEMEN TINE Como
parte del proyecto, se revisaron los resultados del modelo de
minería aplicado en SPSS y SPSS Clementine. En las pruebas
realizadas se obtienen los resultados precisos y se observan
diferencias en las probabilidades calculadas por el SPSS y por el
PMML importado a SPSS Clementine. El modelo exportado a PMML en
SPSS y subido a SPSS
-
40
Clementine genera dos variables de resultado, una es la
clasificación ($X-INCUMPLE que toma el valor 0 si el cliente no
incumplirá y 1 si el cliente incumplirá) y otra es la probabilidad
($XC-INCUMPLE). Cuando en la variable de clasificación $X-INCUMPLE
el modelo arroja para un cliente el valor 0, se debe hallar el
complemento de la variable $XC-INCUMPLE (1 - $XC-INCUMPLE) y el
valor resultante es el que corresponde a la probabilidad de que
incumpla.
-
41
3. ANTECEDENTES Las diferentes crisis financieras han hecho que
los bancos sean cada vez más cautelosos en el manejo de sus riesgos
y operaciones. La profunda crisis financiera de 1994 que llevó a la
quiebra a una gran cantidad de empresas y bancos en México,
Venezuela y todo Suramérica, fue uno de los principales factores de
alerta. Con el fin de prevenir estos posibles colapsos financieros,
los principales bancos a nivel mundial han establecido una serie de
acuerdos que permiten regular su comportamiento y definir
parámetros para sus procesos regulatorios. Acuerdos que se han
definido normalmente a partir de un Comité de Supervisión Bancaria
en Basilea (Suiza). Los acuerdos del comité de supervisión
bancaria, conocidos como Acuerdos de Basilea, se establecieron en
1988 (Basilea I) y fueron revisados posteriormente en 2004 (Basilea
II). Los acuerdos recogen pautas para la adecuación de capital y
sirven como la base para que instituciones financieras, incluyendo
cooperativas de ahorro y crédito, determinen sus requerimientos de
capital. Este modelo define una metodología estándar para calcular
la proporción de capitales sobre bienes, o la cantidad de capital
en una institución financiera sobre los bienes de esa institución
de acuerdo al riesgo. Con el reconocimiento del Fondo Monetario
Internacional y del Banco Mundial como una buena práctica
internacional, el gobierno colombiano ha establecido una serie de
normas que garanticen su aplicación en nuestro país desde 2002. A
partir de esas medidas los bancos en Colombia deben implementar un
sistema de administración de riesgo crediticio (SARC). Normas de
obligatorio cumplimiento por todas las entidades financieras. Los
sistemas SARC típicamente involucra el establecimiento de
estrategias de minería de datos que permitan determinar con mayor
certeza el nivel de riesgo que maneja una institución financiera.
La idea es lograr determinar el nivel de riesgo que afronta una
organización en sus operaciones crediticias y cubrimiento de
pérdidas esperadas con la construcción de provisiones. El SARC se
ocupa de forma integral de todas y cada una de las etapas del ciclo
de crédito (otorgamiento, seguimiento, control, recuperación, etc.)
La Cooperativa Coomeva Financiera desarrolla actividades propias de
una institución financiera, incluyendo préstamos y otros tipos de
operaciones bancarios. Para el desarrollo de estas actividades, la
cooperativa ha debido establecer modelos de riesgo que le permitan
cumplir con las exigencias de ley en torno del Sistema de
Administración de Riesgo Crediticio.
-
42
En un principio Coomeva utilizaba SPSS, una herramienta líder en
tecnología de análisis predictivo, capaz de dirigir y automatizar
las decisiones del negocio que permitían obtener una pequeña
ventaja competitiva en el mercado, pero el énfasis de esta
herramienta era solucionar problemas estadísticos y no se trabajaba
con un enfoque de minería de datos. En la búsqueda de una
herramienta más adecuada, que permitiera realizar los análisis de
riesgo basado en modelos predictivos, se optó por incorporar el
producto Clementine de SPSS. Herramienta de Minería de Datos que
permite soportar la implementación de los modelos predictivos y de
análisis que permitiesen analizar los recaudos y el nivel de riesgo
del conjunto de créditos de la institución. La Cooperativa Coomeva
Financiera seleccionó a Clementine debido a que, como resultado de
la evaluación, se estableció como una herramienta que apoya el
ciclo completo de Minería de Datos, y está diseñada de acuerdo a
los estándares de la industria de Minería de Datos en términos de
técnicas y algoritmos de minería y de la metodología de aplicación
– CRISP-DM (Cross Industry Standard Process for Data Mining)
desarrollado y respaldado por un consorcio de algunas de las
mayores compañías en la industria de la minería de datos, el cual
abarca todo el ciclo de vida de un proyecto de minería de datos. En
la metodología CRISP-DM, el proceso de minería de datos se divide
en seis fases: análisis del problema, análisis de los datos,
preparación de los datos, modelado, evaluación y desarrollo. La
metodología CRISP-DM hace de Minería de Datos un proceso de negocio
al enfocar la tecnología de Minería de Datos en resolver problemas
de negocio específicos. El principal énfasis de todo el proceso se
centra entonces en hallar y resolver modelos de los problemas de
negocio. Los primeros proyectos de Minería de Datos al interior de
la Cooperativa Coomeva Financiera se centraron entonces en brindar
el soporte adecuado a los procesos de administración de riesgo
crediticio. Trabajo centrado en la fundamentación del sistema de
administración de riesgo crediticio y la constitución de un esquema
de calificación crediticia para los diferentes clientes y asociados
a la cooperativa. 3.1 HERRAMIENTAS DE MINERÍA EN FINANCIERA COOMEVA
La Cooperativa Multiactiva y la Financiera Coomeva cuentan en la
actualidad con varias herramientas de software que puedan aplicarse
para desarrollar modelos de minería de datos. Las herramientas de
software revisadas son: • SPSS Clementine 9 • SPSS 15
-
43
• SQL Server 2005 Analytical Services (opción de SQL Server
2005) • Oracle Data Miner 10g (opción de Oracle Database 10g
Enterprise) 3.2 SPSS CLEMENTINE SPSS Clementine es uno de los
productos líderes del mercado de minería de datos, junto con las
aplicaciones de SAS. Uno de las principales características de SPSS
Clementine, es la interfaz de usuario basada en flujos de trabajo.
Esta interfaz permite en un solo entorno de trabajo, definir los
procesos y transformaciones para construir los modelos de minería
de datos, así como los reportes y consultas sobre el modelo. SPSS
Clementine incluye soporte a la metodología CRISP-DM. Los proyectos
se organizan en una serie de carpetas por cada una de las etapas de
la metodología y es posible hacer seguimiento al proyecto allí
mismo en el aplicativo. SPSS Clementine ofrece soporte a una gran
cantidad de algoritmos diferentes de minería de datos. Incluyendo
modelos de regresión y de redes neuronales. Adicionalmente ofrece
soporte para importar y exportar modelos PMML de acuerdo a la
versión 3.1 y al formato con extensiones de SPSS. SPSS Clementine
incluye una aplicación cliente desarrollada en Java, en donde se
definen, visualizan y consultan los modelos de minería de datos.
Los algoritmos de minería, sin embargo, están contenidos en unos
archivos compilados (.DLL), lo que hace suponer que algunos de los
procesos se hacen en código nativo por razones de velocidad. El
SPSS Clementine incluye un servidor central de procesamiento que es
usado por la aplicación cliente y puede ser utilizado remotamente
por aplicaciones de usuario. 3.3 SPSS SPSS es una de las
herramientas de procesamiento estadístico líderes en el mercado.
Usando la herramienta es posible realizar procesamiento estadístico
avanzada para una gran variedad de aplicaciones, incluyendo
procesamiento de encuestas, mejoramiento continuo y minería de
datos. SPSS no incluye una interfaz de usuario especialmente
diseñada para proyectos de minería de datos, ni incluye un soporte
directo a la metodología CRISP-DM. En su lugar, la aplicación
ofrece una gran variedad de herramientas para procesar conjuntos de
datos y puede ser usada por personal especializado en la
realización de un sinnúmero de experimentos y técnicas.
-
44
SPSS ofrece soporte a varios algoritmos de minería de datos y
soporta el uso de PMML para exportar e importar modelos. Las
versiones anteriores de SPSS utilizaban la versión PMML 2.1. La
versión 15, usada en la actualidad en Coomeva, utiliza la versión
PMML 3.1 con extensiones de SPSS, con el cual es posible
interactuar directamente con SPSS Clementine. Al igual que SPSS
Clementine, el software parece ser una combinación de módulos
escritos en Java y en código nativo. Algunas de las librerías son
compartidas entre las dos herramientas. 3.4 SQL SERVER ANALYTICAL
SERVICES Microsoft SQL Server es el servidor de bases de datos de
Microsoft. Desde la versión SQL Server 2000 incluye una serie de
opciones para la creación y consulta de sistemas de bodegas de
datos y herramientas analíticas en línea (OLAP) y soporte a unos
primeros modelos de minería de datos. Este servicio inicialmente
conocido como OLAP Services ahora se conoce como Analytical
Services. En Microsoft SQL Server 2005 Analytical Services, se
incluye un modelo unificado de trabajo que permite construir
modelos de bodegas de datos y de minería de datos usando sentencias
parecidas a SQL y usando el mismo conjunto de herramientas.
Microsoft SQL Server 2005 Analytical Services provee un conjunto de
algoritmos de minería de datos que pueden ser extendidos por el
usuario. El sistema ofrece un API que permite que los
desarrolladores construyan nuevos modelos de minería de datos y
usarlos en las mismas herramientas e interfaces, tal como si fuesen
algoritmos incluidos en la aplicación. Microsoft SQL Server 2005
Analytical Services permite importar y exportar modelos de minería
de datos empleando PMML 2.1, pero no soporta esto para todos los
tios de algoritmos. En la actualidad, no puede interactuar
directamente con modelos creados en SPSS Clementine o SPSS. 3.5
ORACLE MINERIA DE DATOS Oracle ofrece como una opción de su sistema
de base de datos, una serie de módulos de minería de datos. En las
versiones de la base de datos Oracle Database 9i y anteriores, las
herramientas de minería de datos eran aplicaciones separadas del
sistema, desarrolladas en Java y conocidas como Oracle Darwin. A
partir de la versión Oracle Database 10g, las herramientas de
minería están integradas al motor de la base de datos y ofrecen un
nivel superior de rendimiento y capacidad de procesamiento.
-
45
En la actualidad, existe un producto conocido como Oracle Data
Miner que permite definir y ejecutar remotamente los modelos de
minería de datos y una serie de módulos internos en el sistema de
base de datos que incluyen las funcionalidades de entrenamiento y
consulta de los modelos. Los módulos de minería de datos son
opciones del servidor de base de datos Oracle Database Enterprise
10g y debe licenciarse por separado. Los sistemas de minería de
datos de Oracle soportan una gran cantidad de algoritmos de
minería, incluyendo algoritmos avanzados de bioinformática (como
Blast) que normalmente no se encuentran en este tipo de
herramientas. Los aplicativos clientes de Oracle están en Java y el
sistema en general incluye una serie de APIs en Java y PL/SQL que
permiten ejecutar y consultar los modelos de minería desde las
aplicaciones de negocio. 3.6 CUADRO COMPARATIVO Con el fin de
resumir algunos de los temas revisados de las diferentes
herramientas, se presenta a continuación una tabla resumen. Tabla
1. Cuadro comparativo de herramientas de Mine ría Característica
SPSS
Clementine SPSS Oracle SQL Server
Algoritmos soportados
Predicción y Clasificación: Red neuronal, Arboles decisión,
Inducción de reglas, Regresión lineal, Regresión logística,
Regresión logística multinomial. Cluster: Red de Kohonen, K medias,
Conglomerado Two Step Detección de asociaciones: GRI, A priori y
diagrama de Malla Reducción de datos: Análisis factorial y de
Análisis estadístico (Correlación, regresiones,...) Con
algoritmo de aprendizaje: •Redes neuronales y algoritmos genéticos
• Inducción de árboles y reglas Otros algoritmos: • Inducción de
reglas de asociación • Inducción de clasificadores bayesianos
Algoritmos de clasificación, regresión, cluster, asociaciones,
detección de anomalías, minería de texto, importancia de atributos
y extracción de características. Incluye algoritmos avanzados de
Naive Bayes, árboles de decisión, redes adaptativas, máquinas de
soporte vectorial (SVM), Cluster O-cluster y Blast
Algoritmo de clasificación: -Arboles de decisión Algoritmos de
Regresión -Series de Tiempo Algoritmos de Segmentación: -Clústeres
Algoritmos de Asociación -Asociación Algoritmos de Análisis de
secuencia -Clústeres e secuencia
-
46
componentes principales.
entre otros.
Modelo de Regresión Logística Multinomial
Si Si Si Si
PMML versión 3.1 con extensiones de SPSS
versión 3.1 con extensiones de SPSS
versión 2.1-3.2. (No se revisó el funcionamiento de extensiones
de SPSS)
versión 2.1 (no se soportan todos los modelos)
Integración con la base de datos
Uso de JDBC y ODBC
Uso de JDBC y ODBC
Integración nativa solo con Oracle
Integración nativa solo con SQL Server
Integración con aplicaciones
APIs en Java (estándar JDM) y XMLA
APIs en Java APIs en Java (estándar JDM) y PL/SQL
APIs en .Net (DMO – Data Mining Object).
Fuente: Página Oficial de MTBase [en línea], Algoritmos de
Minería de Datos, España: Microsoft Corporation,2008 [consultado 01
de septiembre de 2007]. Disponible en Internet:
http://technet.microsoft.com/es-es/library/ms175595.aspx
-
47
4. OBJETIVOS 4.1 OBJETIVO GENERAL El objetivo del proyecto es
desarrollo e implementación de un Servicio de Software que permita
ejecutar modelos predictivos de minería de datos, para el
Otorgamiento Crediticio de la Financiera Coomeva. 4.2 OBJETIVOS
ESPECIFICOS • Analizar los principios básicos de la aplicación de
minería de datos en un problema de negocio empleando una
metodología como CRISP-DM • Analizar los principales componentes de
las herramientas de minería de datos Clementine. • Analizar los
principales componentes de las herramientas de minería de datos y
revisar las diferencias y similitudes de las herramientas SPSS y
Clementine • Revisar una solución actual de minería de datos
aplicada para la calificación crediticia al interior de la
Cooperativa Coomeva Financiera. • Implementar un modelo predictivo,
aplicable para la calificación crediticia, empleando Clementine •
Desarrollar el Servicio Web del modelo de otorgamiento, de acuerdo
a los requerimientos definidos. • Construir el mecanismo de
ejecución del modelo de minería en PMML. • Construir las librerías
clientes del servicio web de acuerdo al estándar de Coomeva •
Construir un programa de ejemplo, para ejecutar pruebas del
servicio.
-
48
5. JUSTIFICACION El proyecto de "Implementación de un modelo
predictivo de minería de datos utilizando Clementine" se justifica
gracias a la variedad de beneficios que acarrea tanto para la
compañía Geniar Architect, la Universidad y los autores del mismo.
Para Geniar Architect, el proyecto representa una oportunidad ideal
para consolidar una metodología de trabajo para proyectos de
minería de datos y para establecer consideraciones sobre el uso de
herramientas de minería para este propósito en sus clientes. Para
la empresa, el proyecto representa la oportunidad de consolidar la
experiencia propia y de uno de sus clientes más grandes, en la
consolidación de una metodología de trabajo que pueda aplicarse en
otros clientes de diferente tamaño, representa la oportunidad de
evaluar y conocer las herramientas de minería de datos de
Clementine y sus posibilidades en la solución de problemas de
negocio. Representa el primer paso para consolidar un grupo de
expertos en inteligencia de negocios en minería de datos, tendiente
a la certificación de los profesionales y a la certificación de
competencias de la compañía en el área Para la Universidad Autónoma
de Occidente, el proyecto aporta un conjunto de experiencias
prácticas, y un caso real de aplicación de minería de datos, que le
permite a los miembros de la Facultad aprender sobre el tema,
iniciar nuevos proyectos de investigación al respecto y sentar las
bases para consolidar cursos, talleres y proyectos de investigación
posteriores sobre la aplicación de técnicas de minería de datos en
aplicaciones de negocio. Para la universidad, representa uno de los
primeros proyectos de práctica en aplicación de minería de datos,
brindando la oportunidad para crear espacios de práctica en esta
área y consolidar nuevas temáticas que puedan ser seleccionadas por
las empresas y estudiantes para suplir los requisitos de grado.
Para los autores Diana Carolina Bedoya y Herberth Joiman Gómez, el
proyecto representa una oportunidad de profundizar en un conjunto
de temas que son de gran interés para su desarrollo profesional,
considerando especialmente su preferencia hacia sistemas de bases
de datos y esquemas de inteligencia de negocios. Representa la
oportunidad de aprender más sobre los sistemas de bases de datos,
el manejo de la información en las grandes empresas, las técnicas
de minería de datos y las aplicaciones de estas técnicas en la
solución de problemas reales de negocio. Representa la posibilidad
de iniciarse en el área de consultoría en inteligencia de negocios,
área que es de su interés profesional.
-
49
6. METODOLOGÍA Para el desarrollo del proyecto de construcción
del servicio de ejecución del modelo predictivo de minería para
otorgamiento crediticio al interior de Coomeva, se siguieron una
serie de fases y actividades enmarcadas en el proyecto general que
definió Coomeva para implementar el modelo de otorgamiento. Como
parte del proyecto, Coomeva estableció el modelo de otorgamiento
incluyendo el modelo predictivo de minería de datos. Geniar, por su
parte, desarrolló la solución de software que permite ejecutar el
modelo de minería y que cuenta con mecanismos para ser integrado al
aplicativo bancario de la entidad financiera. Para el desarrollo de
la solución de software, Geniar aplicó la metodología de desarrollo
de aplicaciones definida al interior de la compañía. Esta
metodología de trabajo permite el desarrollo de forma organizada y
administrada de proyectos para la implementación de soluciones de
software y la construcción de servicios y aplicaciones web. Esta
metodología fue aplicada en el proyecto, buscando lograr la mayor
calidad en el producto final y el mayor nivel de satisfacción del
cliente. 6.1 ESQUEMA GENERAL DEL PROYECTO Para el desarrollo
completo del modelo de otorgamiento para Financiera Coomeva se
desarrollaron las siguientes actividades: • Definición del modelo
predictivo (minería de datos) • Definición del modelo de
otorgamiento • Especificación de Requerimientos • Revisión de los
Requerimientos • Elaboración de los casos de uso • Diseño de la
Solución • Construcción de la Solución • Aseguramiento de Calidad •
Pruebas del Sistema • Despliegue de la solución Para desarrollar el
modelo de otorgamiento, algunas actividades se definieron como
responsabilidad del grupo de trabajo de Financiera Coomeva y otras
actividades se definieron como responsabilidad de Geniar.
-
50
Las tareas relacionadas con la definición del modelo de
otorgamiento, el modelo de minería de datos, las pruebas y el
despliegue de la aplicación serían responsabilidad de Coomeva. Las
tareas relacionadas con la construcción del software estarían a
cargo de Geniar. Para desarrollar la fase de especificación de
requerimientos y Revisión de los requerimientos se aplican
metodologías de desarrollo de Software de Geniar que y una vez
aprobados los requerimientos del proyecto se realizan unas
actividades en la fase elaboración de los casos de uso. Para
acometer el proceso de construcción del software, se aplicó la
metodología de desarrollo de software definida al interior de
Geniar. Metodología con una diversidad de pasos y formatos que
permiten ejecutar, controlar y administrar el proyecto de forma que
pueda ser ejecutado con la mayor calidad y el mayor nivel de
satisfacción de los clientes. Por efecto de una serie de acuerdos
de confidencialidad suscritos entre Geniar y Coomeva y entre los
desarrolladores del proyecto y Geniar, algunos de los documentos,
formatos y procedimientos no se presentan como parte del informe.
Sin embargo, se ha procurado incluir en todo el documento
información general y específica que da cuenta del trabajo
realizado sin afectar los acuerdos de confidencialidad suscritos.
La figura 6 resume las tareas del proyecto y las responsabilidades
de Coomeva y Geniar en las mismas.
-
51
Figura 6. Esquema de Actividades del Proyecto
Dirección Nacional Otorgamiento y Crédito Coomeva
Geniar (Pasantía)
Definición modelo
predictivo (minería)
Definición modelo de
otorgamiento
Especificación de
Requerimientos
Pruebas del Sistema
Despliegue
Revisión de los
Requerimientos
Elaboración de casos
de uso
Diseño de la solución
Construcción de la solución
Aseguramiento de
Calidad
-
52
7. DESARROLLO
7.1 ESPECIFICACIONES DE REQUERIMIENTOS
Para desarrollar la especificación de los requerimientos, se
aplicó la metodología de desarrollo de software implementada en
Geniar y usada en ciclos de vida de desarrollo basados en
requerimientos entregados por el cliente. La metodología de
desarrollo de Geniar define diferentes tipos de ciclo de vida de
desarrollo de acuerdo a ciertas condiciones de los proyectos como
se muestra en la figura 7. De acuerdo al ciclo de vida
seleccionado, una serie de fases, actividades y formatos deben
desarrollarse. No todos los proyectos siguen el mismo conjunto de
fases, actividades y formatos. Figura 7. Esquema de la fase de
Especificación de R equerimientos
Geniar (Pasantía)
Comité de Trabajo Geniar - Coomeva
Revisión de los
requerimientos
Análisis de
Requerimientos
Validación y Verificación
Resolución inquietudes
Levantamiento
información
Modificación de
requerimientos
-
53
El anterior ciclo de vida fue utilizado en el proyecto ya que el
usuario especificó los requerimientos y es necesario trabajar en
conjunto con el cliente en la revisión y aseguramiento de calidad
de los requerimientos. Normalmente el cliente desarrolla el
conjunto de requerimientos y los documenta, pero deben ser
analizados y revisados con el fin de lograr un conjunto adecuado de
requisitos, consiste, sin contradicciones, y completo como base
para la construcción del sistema de software. 7.2 REVISIÓN DE LOS
REQUERIMIENTOS La Financiera Coomeva suministró un documento de
soporte de requerimientos desde el punto de vista de negocio, el
cual describe todas las condiciones para aplicar el modelo de
otorgamiento. Este conjunto de requerimientos fue preparado por el
grupo de trabajo de Coomeva a partir del análisis y revisión de los
procesos, y la experiencia previa que han tenido en el modelo de
otorgamiento existente el aplicativo actual y la definición de
modelos de minería de datos para el manejo del riesgo crediticio.
El documento de requerimientos define una serie de necesidades de
procesamiento y se organiza dividido en cinco procesos: •
Extracción de Información Fuente . De acuerdo a la solicitud del
crédito, se extrae la información requerida del aplicativo Taylor
& Johnson del sistema AS/400. Entre la información que se
extrae se incluyen algunos variables sociodemográficas y
crediticias del cliente para realizar los cálculos del PI y
calificación de otorgamiento. • Transformación de variables .
Debido a que el modelo de minería de datos requiere de las
variables en un formato particular, posiblemente diferente al
formato existente en el aplicativo de Taylor & Johnson, se
transforman las variables que así lo requieran. • Cálculo de
recomendación de otorgamiento. De acuerdo al modelo de otorgamiento
definido, se ejecuta el modelo de minería en PMML, se realizan unos
cálculos de acuerdo a unas tablas predefinidas en Coomeva. Al final
de esta serie de pasos se obtiene la decisión sugerida y el modelo
genera una recomendación de otorgamiento. • Reportes. Se genera un
reporte de decisión de otorgamiento que contiene toda la
información relacionada con la información básica del cliente,
-
54
características del crédito solicitado, perfil del cliente,
Resultados de la calificación (scoring), Resultados de Capacidad de
Pago y Endeudamiento Mensual. • Almacenamiento de parámetros y
resultados. Para cada una de las ejecuciones del modelo, es
necesario dejar un registro de todos los parámetros, variables y
cálculos realizados. Esto con fines de auditoría y manejo de
información histórica. El sistema debe almacenar esta información
en una base de datos en el AS/400 de donde se extraerá información
para la bodega de datos del sistema de administración de riesgo
crediticio (SARC). En base a estos requerimientos se realiza una
propuesta y determinación del tiempo del proyecto. La propuesta
presenta la cotización de la consultoría para el desarrollo e
implementación de un Servicio Web que soporte el modelo de
Otorgamiento de Coomeva, ejecutando el modelo de minería de datos
en PMML y manejando las reglas de negocio definidas por Coomeva
Financiero. 7.3 ANÁLISIS DE LOS REQUERIMIENTOS Al revisar el
documento de requerimientos entregado por Coomeva se encontró que
el conjunto inicial incluía una serie de requerimientos
funcionales, y que algunos de los temas requeridos en el desarrollo
no habían sido mencionados. Entre los principales temas que se
requirió información adicional, debido a que el documento no los
mencionaba, se encontraron: • Necesidad de integración del servicio
con Clementine para poder modificar fácilmente el modelo
predictivo. • Necesidades de integración del servicio con el
software bancario de Taylor & Johnson. • Modelo de Datos en el
AS/400 de donde se requiere extraer la información. • Esquema de
seguridad a utilizar. • Esquema de registros de auditoría a
utilizar.
En cuanto a la posibilidad de integración con Clementine, se
estableció que el mecanismo más apropiado era el uso de archivos en
formato PMML para intercambiar la información del modelo
predictivo. La idea sería que el grupo de Coomeva pueda revisar y
actualizar el modelo de minería en Clementine, y se pueda
actualizar fácilmente el modelo en el servicio de software que se
va a construir.
-
55
A partir de esta revisión inicial se organizó una reunión, en
donde se revisó detenidamente el documento de soporte de
requerimientos para un mejor entendimiento de los requisitos y las
condiciones planteadas. Entre las aclaraciones realizadas al
documento en la reunión, se revisaron las siguientes: • En las
pruebas iníciales por parte de Coomeva, el software de SPSS y de
SPSS Clementine, al parecer ejecutan de forma diferente el modelo
PMML. Es necesario importar ambos modelos PMML de forma que se
pueden verificar los resultados, y determinar el mecanismo más
apropiado para que funcione apropiadamente y se pueda generar el
resultado de otorgamiento.
• Al ejecutar el modelo, se predice la variable de “incumple”,
que determina si el cliente va a incumplir con el pago del crédito
o no. Si este valor es positivo (es decir el cliente va a
incumplir), la probabilidad es la que arroja el modelo. Si el valor
es negativo (es decir el cliente no va a incumplir), la
probabilidad que arroja es la probabilidad de cumplir con el pago.
Si se desea obtener la probabilidad de incumplimiento, se calcula
hallando el complemento de la probabilidad que arroja el
modelo.
• Después de obtener los datos requeridos por el modelo desde el
AS/400 se deben realizar unas transformaciones de las variables
antes de poder ser usado por el algoritmo.
• Con los datos transformados se calcula la probabilidad de
incumplimiento usando el modelo predictivo definido en PMML, con
este resultado se homologa y clasifican las variables.
• De acuerdo a la probabilidad de incumplimiento y el nivel de
riesgo asociado se determina la sugerencia para determinar si se
otorga el crédito.
• Cuando que se ejecuta el algoritmo se debe actualizar una
tabla que registra todos los datos del proceso en cada ocasión.
Estos datos luego serán usados por Coomeva para actualizar una
parte de la Bodega de Datos que ellos están definiendo. Este
proceso de carga esta por fuera del alcance del proyecto.
• En el momento en que Taylor & Johnson realice un cambio de
cualquier clase en los datos del crédito, se debe invocar al
componente que se está construyendo.
-
56
7.4 RESOLUCIÓN DE INQUIETUDES Se realizaron las siguientes
especificaciones del documento de soporte de requerimientos: • Para
que la ejecución del PMML funcione correctamente y los valores
obtenidos del PMML en SPSS ó Clementine sean lo más precisos
posibles, se especifican las librerías y tablas a extraer del
AS/400. • El proceso involucra consultar en las bases de datos de
AS/400 los datos del asociado y su transformación para poder ser
usados en el algoritmo. • Con los datos se realizan cálculos para
determinar las probabilidades de incumplimiento usando el modelo
PMML, las dos variables que arroja el PMML de acierto o no y la
probabilidad de incumplimiento son el resultado que se homologa a
una banda de riesgo de acuerdo a unos rangos que dependen del tipo
de crédito. • Todos los datos de entradas del algoritmo, cálculos y
resultados se deben almacenar en una tabla del sistema. Esta tabla
es definida por Geniar como parte del software a desarrollar. • Los
datos de la tabla podrán ser importados a una bodega de datos por
el personal de Coomeva. Este proceso de carga esta por fuera del
alcance del proyecto. Este es una primera versión del modelo de
otorgamiento. El software estará basado en este primer modelo de
operación del negocio. Modelo que está orientado al otorgamiento de
crédito personal de asociados a la cooperativa. La idea de Coomeva
Financiero es ser más específicos en el futuro e incluir nuevos
tipos de modelos para otros dominios. Hoy en día el modelo no está
segmentado y es el mismo para todas las líneas de crédito. En un
futuro probablemente se construirán modelos específicos para cada
línea de crédito. Adicionalmente, seguramente se crearán modelos
para clientes que no sean asociados a la cooperativa y para
compañías, no solo personas naturales. 7.5 LEVANTAMIENTO DE
INFORMACIÓN Los requerimientos definidos están explicados de manera
general y agrupados debido al documento de acuerdo de
confidencialidad establecido entre Coomeva y Geniar.
-
57
7.5.1 requerimiento 001: Extracción de información fuente. Una
vez autenticado el usuario en la aplicación, el sistema extrae del
aplicativo Taylor la información sociodemográfica y crediticia del
cliente a partir de tres variables de entrada las cuales permiten
realizar el cálculo de la calificación (score), de la probabilidad
de incumplimiento (PI) y la calificación de otorgamiento. 7.5.2
requerimiento 002: Transformación de Variabl es. Una vez
autenticado el usuario en la aplicación se transforman las
variables extraídas de a acuerdo a una tabla establecida, ya que
los códigos que se usan en el sistema de Taylor & Johnson no
son los mismos que se utilizan dentro del modelo de minería del
AS/400. Tabla 2. Ejemplo de Transformación Requerida
Variable: Numero de hijos Variable de tipo categórica que se
debe agrupar por categorías.
Categoría (valor en AS/400)
Descripción Categoría Transformación (valor en el modelo)
1 1 1 2 2, 3 1 3 4, 5 2 4 6 ó mas 2
7.5.3 Requerimiento 003: Ejecución PMML. Una vez autenticado el
usuario en la aplicación se utilizan las variables transformadas y
se asignan calores a los parámetros del modelo, luego se obtiene el
estado del valor puntaje acierta y las probabilidades de que cumpla
o no utilizando el algoritmo de regresión lineal definida en el
modelo PMML. Se almacenan unas variables específicas de forma
temporal en una tabla del AS/400 para que posteriormente se ingrese
en la bodega de datos en una estructura predefinida. Esta tabla
también podrá ser usado para efecto de tareas de auditoría y
seguimiento. 7.5.4 Requerimiento 004: Calculo. Una vez autenticado
el usuario en la aplicación se utiliza el valor calculado de la
probabilidad de incumplimiento y se calcula el puntaje “Score” de
acuerdo a