Top Banner

of 12

Metodología crisp para la implementación Data Warehouse.pdf

Oct 16, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • OCTAVIO J. SALCEDO PARRA, RITA MILENA GALEANO, LUIS G. RODRIGUEZ B.

    METODOLOGA CRISP PARA LA IMPLEMENTACIN DATA WAREHOUSE

    Ternura, vol. 14, nm. 26, enero-junio, 2010, pp. 35-48,

    Universidad Distrital Francisco Jos de Caldas

    Colombia

    Metodologa crisp para la implementacin

    Data Warehouse

    Methodology crisp for data warehouse implementation

    Resumen

    En la actualidad la generacin de informes claros, y ante todo veraces,

    con base en la informacin de las empresas, es un elemento fundamental

    en la toma de decisiones.Debido a esta necesidad Data warehouse como

    recurso esencial para sus procesos, cimentado primordialmente bajo la

    filosofa OLAP y el cual utiliza el concepto EIS y DSS para la realizacin de

    los informes . Definicin del data warehouse como un sistema integrado.

    La tendencia hacia la que apunta la inteligencia de negocios es la

    divulgacin de la informacin, tanto a nivel general como al que lo

    necesite desde diferentes dimensiones y niveles asociados, para lograr

    informes directamente detallados en la toma de decisiones como objetivo

    de los data warehouse .

    Para llevar a cabo los procesos es necesario disponer una metodologa

    adecuada los cuales constituyan los cimientos para obtencin de

    excelentes resultados.

  • 1. Introduccin

    Uno de los principales fines de la computacin desde sus orgenes ha sido

    presentar una herramienta de apoyo al hombre de tal forma que su

    trabajo disminuya haciendo las cosas ms fciles de llevar, llevando

    consigo innovacin y evolucin tecnolgica.

    La tendencia futura del manejo de informacin est orientada y

    focalizada principalmente a la inteligencia de negocios, que

    anteriormente muy poco trataban de eso. Cabe rescatar que el xito de

    la inteligencia de negocios, especficamente en los Data warehouse

    como procesos y no como productos reside sobre la metodologa

    implementada y las tcnicas aplicadas para la realizacin del proyecto.

    2. Generalidades.

    Hoy en da las organizaciones orientan sus mayores esfuerzos de sus

    ingresos, para lograr un mayor rendimiento se debe realizar una serie de

    procesos estratgicos que involucren las variables de la empresa y su

    entorno.

    Los Data warehouse pueden estar compuestos por Data Marts, son una

    particularizacin de las bodegas de datos, que heredan de las mismas

    caractersticas de los data warehouse cuyo enfoque es sobre las reas o

    mdulos especficos de la empresa, los Data Marts influye en el manejo

    de un control ms adecuado de los datos bajo la filosofa OLAP (On-Line

    Analitycal Processing) que a su vez usa estructuras multidimensionales.

    3. Conceptos Asociados

    La importancia que ha adquirido la tenencia de la informacin como

    recurso potencial de las empresas .como herramientas claves para atacar

    problemas, brindar soluciones y realizar proyecciones para ofrecer una

    mejor gestin.

    Data warehouse nace como tentativa a la construccin de un nuevo

    concepto tecnolgico y herramienta competitiva para disear nuevas

    alternativas de negocio.

  • W.H.Inmon, considerado el padre de la bodega de datos en el 92, define

    los data warehouse como: un sistema orientado al usuario final, integrado,

    con variaciones de tiempo y sobre todo una coleccin de datos como

    soporte al proceso de toma de decisiones

    Ralph Kimball, lo define como una copia de datos de la transaccin

    estructurados especficamente para preguntar y divulgar.

    Con-ciencias

    Este proceso puede ser visto de dos

    formas, una global que aplicara a

    Data warehouse, y una parcial que

    vendra a estar representada por

    los Data Marts donde seria los

    ltimos que realizaran funciones

    especficas, coordinadas y

    correlacionadas para conformar el

    todo o el sistema data warehouse.

    Segn Ralph Kimball, una Data Mart es: un subconjunto lgico del Data

    warehouse completo. A esta definicin la global comunicacin agrega en

    enero de1999 es un almacn de datos diseado para dar soporte a un

    departamento o unidad de negocio.

    Para cumplir con los objetivos, la tecnologa Data warehouse es utilizada

    por la ventaja de tiempo de respuesta a la hora de realizar consultas

    utiliza una serie de mecanismos para proporcionar los beneficios ante

    mencionados. Est sustentada principalmente en dos grandes sistemas .

    Sistema tcnico operacional. Encargado de las tareas principales de la

    empresa.

    Sistema de soporte de decisiones. Su fin principal est orientado hacia un

    planeamiento, previsin y administracin de la organizacin donde se

    encuentra reflejado el proceso Data Warehouse.

    3.1 Particularizacin de las necesidades del cliente

    Se enfoca directamente en los datos propios

  • 3.2 unificacin

    Independiente de las diferentes formas en la que se encuentran

    almacenados los datos en la BD origen. Al ser llevado al DW por medio del

    proceso de transformacin.

    3.3 De tiempo variable

    Pueden manejar una lnea de tiempo que oscila aproximadamente entre

    cinco y diez aos y dichos datos no pueden ser alterados una vez alojados

    en el DW

    3.4 no voltil

    Estabilidad y persistencia de datos y la conservacin en el tiempo es lo que

    precisa la robustez del Data warehouse.

    4. Metodologa

    CRISP-DM (Cross-Industry Standard Processfor Data Mining).la metodologa

    CRISP es una de las principales metodologas por seguir por los analistasen

    la inteligencia de negocios, donde se puede rescatarprimordialmente

    Data Warehousey Data Mining

    La metodologa CRISP est sustentada en estndares internacionales que

    reflejan la robustez de sus procesos y que facilitan la unificacin.

    Ademsde ello, esta tecnologa interrelaciona lasdiferentesfases del

    proceso entre s, de tal maneraquese consolida un proceso iterativo y

    recproco.Otroaspecto fundamental de esta tecnologa es

  • queesplanteada como una metodologa imparcial oneutrarespecto a la

    herramienta que se utilice.

    El ciclo de vida del proyecto segn la metodologa CRISP est basado en

    seis faces cambiantes entre s y nunca terminantes, lo cual lo postula

    como unciclo en constante movimiento.

    4.1 Comprensin del negocio

    Esta fase subdivide las siguientes categoras:

    Definicin de los objetivos de negocio

    Evaluacin de la situacin

    Definicin de los objetivos del data warehouse

    Realizacin del plan del proyecto

    4.2 Comprensin de los datos

    Recoleccin inicial de datos

    Descubrimiento de los datos

    Exploracin de los datos

    Verificacin de calidad de datos

    4.3 Preparacin de datos

    Seleccin de datos

    Depuracin de los datos

    Estructuracin de los datos

    Integracin de los datos

    Formato de datos

  • 4.4 Modelado

    Seleccin de la tcnica de modelado

    Generar el plan de pruebas

    Construccin del modelo

    Evaluacin del modelo

    4.5 Evaluacin

    Evaluar resultados

    Proceso de revisin

    Determinacin de los pasos siguientes

    4.6 Despliegue o divulgacin

    Plan de divulgacin o implementacin

    Plan de monitoreo y mantenimiento

    Presentacin del informe final

    Con-ciencias

    5. Resultados

    5.1 Lenguajes de consulta inductivos

  • Son consultas que se proyectan hasta los lmites de bsqueda de

    patrones, los cuales ceden a los usuarios los privilegios de restringir la

    bsqueda inductiva.

  • Para alimentar el modelo es necesario utilizar la clusula

    INSERTITINTO, utilizada comnmente en base de datos.

  • Con-ciencias

    5.2 Lgica Difusa

    Esclarecer el anlisis de los datos seguido de los modelos que la

    lgica borrosa incorpora. The Fuzzy Logic se agrega como una de las

    herramientas ms utilizadas, tanto en el campo de la inteligencia de

    negocios, como el reconocimiento de patrones, Data Mining, estadstica

    aplicada, segmentacin clientes y otros campos.

    5.2.3 Modelo Matemtico

    Sea u el conjunto, posiblemente infinito, de todas las preposiciones.

    Sean p, q,r,s. sus elementos; es decir proposiciones atmicas

    En lgica clsica presuponemos una aplicacin v del conjunto U en

    el conjunto (0,1), de tal manera que v(p) =Ocupando p es falsa y v(p)=1

    cuando p es verdadera .

    P=q si v(p)=v(q)

    En la teora axiomtica de la probabilidad definimos los espacios de

    probabilidades por tres factores:

    Conjunto no vacio de resultados (0) , conjunto de sucesos o eventos

    como parte de w(a) y una funcin (p) en el intervalo [0,1], que verifica:

  • (v) y falso (f) para cualquier predicado. Por ejemplo

    V = (Bx; x es B) F= (Bx; x no es B)

  • Conclusiones

    La bodega de datos es una herramienta muy necesaria y muy ventajosa

    para las empresas con respecto a la toma de decisiones, adems

    representan un instrumento para ayudar a optimizar el costo/beneficio y

    obtener la mayor productividad no solo en trminos econmicos si no

    financieros, humanos ,culturales y en general todo los que abarquen en el

    proceso empresarial.