Almacenes de Datos, OLAP y Minera de Datos
Conceptos de almacenes de datos (Data Warehousing)
Conceptos de almacenes de datos (Data Warehousing)
Un almacn de datos es una tecnologa de gestin y anlisis de los
datos. Puede definirse como una coleccin de datos clasificados por
temas, integrada, variable en el tiempo y no voltil que se utiliza
como ayuda al proceso de toma de decisiones por parte de quienes
dirigen una organizacin.
Los almacenes Web de datos son almacenes de datos distribuidos
que se implementan sobre la Web, no existiendo ningn repositorio
centralizado.
Ventajas:
Alto retorno de inversin
Ventajas competitivas derivadas de su utilizacin
Mayor productividad de los responsables de la toma de
decisiones
Comparacin entre OLTP y almacenes de datos:
Proceso de Transacciones en Lnea (OLTP)Almacenes de datos
Almacena datos actuales.Almacena datos histricos.
Almacena datos detallados.Almacena datos resumidos en poca gran
medida.
Los datos son dinmicos.Los datos son principalmente
estticos.
Procesamiento repetitivo.Procesamiento ad hoc, no estructurado y
heurstico.
Alta tasa de transacciones.Tasa media baja de transacciones.
Patrn de uso predecible.Patrn de uso impredecible.
Dirigido por transacciones.Dirigido por anlisis.
Orientado a la aplicacin.Orientado a los temas.
Soporta las decisiones cotidianas.Soporta las decisiones
estratgicas.
Sirve a un gran nmero de usuarios administrativos /
operacionales.Sirve a un nmero relativamente bajo de usuarios de
tipo gerencial.
Problemas de los almacenes de datos
Subestimacin de los recursos necesarios para la carga de
datos.
Problemas ocultos de los sistemas de origen.
No se capturan los datos requeridos.
Incremento de la demanda por parte de los usuarios finales.
Homogeneizacin de los datos.
Alta demanda de recursos.
Propiedad de los datos.
Altos costes de mantenimiento.
Proyectos de larga duracin.
Complejidad de la integracin.
Arquitectura de un almacn de datos
Las principales componentes de un almacn de datos son:
1. Fuentes de Datos operacionales: todos los datos operacionales
previamente almacenados en BDs, archivos propietarios, estaciones
primarias de trabajo e incluso en sistemas externos como Internet,
bases de datos comerciales bases de datos dependientes de los
proveedores clientes de la organizacin.
2. Repositorio de datos operacionales (Operacional Data Store -
ODS): es un almacn de datos operacionales actuales e integrados que
se utilizan para el anlisis.
3. Gestor de carga ( componente de interfaz): realiza todas las
operaciones asociadas con la extraccin y carga de los datos en el
almacn. Se incluyen transformaciones simples.
4. Gestor del almacn de datos: realiza las operaciones asociadas
con la gestin de datos dentro del almacn. Incluye el anlisis de los
datos para garantizar su coherencia, transformacin y combinacin de
datos de origen, creacin de ndices y vistas, generalizacin de
agregaciones y desnormalizaciones, y el archivado y copia de
seguridad de los datos.
5. Gestor de consultas ( componente de servicio): realiza todas
las operaciones asociadas con la gestin de las consultas de los
usuarios: dirigir consultas hacia tablas apropiadas y planificar su
ejecucin.
6. Datos detallados: rea del almacn que guarda todos los datos
detallados contenidos en el esquema de la BD.
7. Datos poco resumidos y muy resumidos: guarda todos los datos,
poco muy resumidos (agregados), que hayan sido establecidos por el
gestor de datos como resmenes predefinidos.
8. Datos de archivo / copia de seguridad: guarda los datos
detallado y resumidos con el propsito de mantener un archivo y
disponer de copias de seguridad.
9. Metadatos: guarda todas las definiciones de metadatos (datos
acerca de los datos) utilizadas por todos los procesos del almacn.
Se utilizan para propsitos tales como:
los procesos de extraccin y carga: los metadatos mapean las
fuentes de datos sobre una vista comn de los datos utilizada dentro
del almacn
el proceso de gestin del almacn: los metadatos se utilizan para
automatizar la produccin de tablas de resmenes
como parte del proceso de gestin de consultas: los metadatos se
usan para dirigir una consulta a la fuente de datos ms
apropiada.
10. Herramientas de acceso para usuarios finales:
Consulta y generacin de informes: Incluyen generacin de informes
de produccin de carcter operacional, peridicos con altos volmenes
de tareas- y escritores de informes diseados para usuarios finales,
de bajo costo-. Las herramientas de consulta para almacenes de
datos relacionales estn diseadas para aceptar SQL generar
instrucciones SQL con el fin de consultar los datos del almacn.
Desarrollo de aplicaciones: Puede requerirse por algunos
usuarios.
Sistemas de informacin ejecutiva (EIS): Inicialmente para ayuda
a la toma de decisiones estratgicas de alto nivel. Se han ampliado
para incluir soporte para todos los niveles de gestin.
Procesamiento analtico en lnea (OLAP): Basadas en el concepto de
BDs multidimensionales. Permiten analizar los datos mediante vistas
complejas de carcter multidimensional. Genera modelos
retrospectivos.
Minera de Datos: Proceso de descubrimiento de nuevas
correlaciones, patrones y tendencias significativas procesando
grandes cantidades de datos mediante tcnicas estadsticas,
matemticas y de inteligencia artificial. Posee la capacidad de
construir modelos predictivos.
Flujos de datos en un almacn
Los almacenes de datos se centran en la gestin de cinco flujos
principales de datos:
1. Flujo de entrada: Constituido por lo procesos asociados con
la extraccin, limpieza y carga de los datos de los sistemas de
origen en el almacn de datos.
2. Flujo ascendente: Constituido por los procesos asociados con
la adicin de valor a los datos del almacn, mediante los procesos de
resumen, empaquetado y distribucin de los datos.
3. Flujo descendente: Son los procesos asociados con el
archivado y la realizacin de copias de seguridad de los datos en el
almacn.
4. Flujo de salida: Procesos asociados con la puesta de los
datos a disponibilidad de los usuarios finales.
5. Metaflujo: Procesos asociados con la gestin de los datos
sobre los datos: metadatos.
Herramientas y tecnologas de almacn de datos
1. Herramientas de extraccin, limpieza y transformacin
Generadores de cdigo: Crean programas de transformacin 3GL / 4GL
personalizados, basado en las especificaciones de datos de origen y
de destino.
Replicacin de datos: emplean disparadores (triggers) en BDs usan
el registro de actividad para capturar cambios efectuados en un
origen de datos y aplicarlos sobre una copia ubicada en otro
sistema diferente.
Motores de transformacin dinmica: dirigidos por reglas, capturan
datos de un sistema de origen a intervalos definidos por el
usuario, los transforman y envan para su carga en un entorno
destino.
2. Sistemas de Gestin de Bases de Datos para almacenes de
datos
Los requisitos para un Sistema de Gestin de Bases de Datos
Relacional (SGBDR) para almacenes de datos incluyen:
velocidad de carga buena, a partir del requerimiento de carga
incremental de nuevos datos de manera peridica, con ventanas
temporales cortas.
el procesamiento de la carga, lo que incluye pasos para incluir
datos nuevos, actualizar, convertir, filtrar, indexar y actualizar
metadatos.
la gestin de la calidad de los datos, ya que deben garantizarse:
coherencia local, coherencia global e integridad referencial a
pesar de los posibles problemas en los orgenes de datos.
la velocidad de las consultas no debe disminuir. Las tcnicas de
gestin basadas en hechos y en anlisis ad hoc no deben ser
ralentizadas inhibidas por las prestaciones del SGBR del almacn de
datos.
escalabilidad en el rango de almacenamiento: el SGBDR no debe
tener limitaciones de arquitectura en lo que respecta ala tamao de
la BD, y debe soportar gestin modular y paralela. En caso de fallo,
debe soportar una disponibilidad continua y proporcionar mecanismos
para la recuperacin. Debe permitir usar dispositivos de
almacenamiento masivo: discos pticos, y dispositivos de gestin
jerrquica de almacenamiento. La velocidad de las consultas no debe
depender del tamao de la BD, sino solamente de su complejidad.
escalabilidad en cuanto a nmero de usuarios: los SGBDR deben ser
capaces de soportar miles de usuarios concurrentes sin que por ello
sufran una degradacin en la velocidad de procesamiento de las
consultas.
Almacn de datos en red: capacidad para coopera en una red de
almacenes de datos. Debe incluir herramientas que coordinen las
transferencias de subconjuntos de datos entre diversos
almacenes.
Administracin del almacn: demandan alta flexibilidad y gran
facilidad de administracin. El SGBD debe proporcionar controles
para implementar lmites de utilizacin de los recursos, contabilidad
de costos, mecanismos de asignacin de prioridad a las consultas,
para optimizacin y control de la carga de trabajo, etc.
Anlisis dimensional integrado: para proporcionar las mximas
prestaciones a las herramientas OLAP relacionales. Soporte para
creacin rpida y simple de los tipos de resmenes precalculados y
para automatizar la creacin de agregados precalculados. Los clculos
dinmicos de agregados deben ser coherentes con las prestaciones de
procesamiento interactivo que esperan los usuarios finales.
Funcionalidad avanzada de consultas: Debe proporcionarse un
conjunto completo y avanzado de operaciones que permitan clculos
analticos complejos, anlisis secuenciales y comparativos y acceso
coherente a datos detallados y de resumen.
3. Metadatos de un almacn de datos
Su objetivo principal es mostrar cual es el camino que lleva
hacia el origen de los datos, de modo que los administradores del
almacn de datos conozcan la historia de cualquier elemento
almacenado. Su gestin es una tarea compleja y difcil. Se usan para
diversos propsitos, resultando elementos crticos para conseguir una
plena integracin del almacn.
El principal problema de integracin consiste en sincronizar los
diversos tipos de metadatos utilizados en el almacn.
4. Herramientas de administracin y gestin
Deben ser capaces de soportar tareas tales como:
monitorizar la carga de datos desde mltiples fuentes;
comprobar la calidad e integridad de los datos;
gestionar y actualizar los metadatos;
monitorizar el rendimiento de la BD para garantizar tiempos de
respuesta cortos a las consultas y eficiente empleo de los
recursos;
auditar el uso del almacn para atribuir los costos respectivos a
los distintos usuarios;
replicar, dividir y distribuir los datos;
purgar los datos;
archivar y realizar copias de seguridad;
implementar mecanismos de recuperacin ante fallos;
gestionar adecuadamente la seguridad.
Mercados de datos (Data Marts)
Un subconjunto de un almacn de datos que soporta los requisitos
de un departamento rea de negocios concreto.
Las principales caractersticas que diferencian a los mercados de
datos de los almacenes de datos son:
un mercado de datos se centra nicamente en los requisitos de los
usuarios asociados con un departamento rea de negocio concreto;
los mercados de datos no contienen normalmente datos
operacionales detallados, a diferencia de lo que sucede con los
almacenes de datos;
como los mercados de datos contienen menos informacin que un
almacn de datos, son ms fciles de comprender y de utilizar.
Razones para crear un mercado de datos:
Proporcionar a los usuarios acceso a los datos que necesiten
analizar de manera mas frecuente.
Proporcionar los datos en una forma que se adapte a la vista
colectiva que tiene de los datos un grupo de usuarios
pertenecientes a un departamento rea de negocios concreto.
Mejorar el tiempo de respuesta a las consultas del usuario
final, gracias a la reduccin en el volumen de los datos a los que
hay que acceder.
Proporcionar datos apropiadamente estructurados segn dicten los
requisitos de las herramientas de accesos para usuarios finales,
las cuales pueden requerir sus propias estructuras de BD
internas.
Los mercados de datos emplean normalmente menos datos, por lo
que las tareas de limpieza, carga, transformacin e integracin de
los datos son ms sencillas, lo que trae como resultado que la
implementacin y puesta en marcha sea ms simple que establecer un
almacn corporativo.
El costo de implementacin de los mercados es inferior al
requerido para un almacn corporativo.
Los usuarios potenciales estn claramente definidos y son ms
fciles de convencer para que colaboren con un proyecto de mercado
de datos que para un proyecto de almacn corporativo.
Cuestiones fundamentales en los mercados de datos
Funcionalidad: Las capacidades se han incrementado. La
complejidad y el tamao de algunos mercados de datos es comparables
con algunos almacenes corporativos de baja gama.
Tamao: Los usuarios esperan tiempos de respuesta ms cortos.
Velocidad de carga: Deben equilibrarse dos componentes crticos:
tiempo de respuesta de las consultas del usuario final y velocidad
de carga de los datos.
Acceso de los usuarios a mltiples mercados de datos: Una tcnica
posible es replicar datos entre diferentes mercados, otra construir
mercados de datos virtuales.
Acceso Internet / intranet al mercado de datos: bajo costo,
utilizando navegadores.
Administracin: Necesidad de gestionar y coordinar
centralizadamente las actividades de los mercados de datos. Surgen
problemas con las versiones, coherencia e integridad de los datos y
metadatos, seguridad del nivel corporativo y con los ajustes del
rendimiento.
Instalacin: Cada vez son ms complejos de construir.
Diseo de almacenes de datos
Diseo de la BD para un almacn de datos
Se necesita responder a preguntas tales como: Qu requisitos de
usuario son los ms importantes? Qu datos deben considerarse en
primer lugar? Deber reducirse el alcance del proyecto para que sea
ms manejable y al mismo tiempo proporcionar una infraestructura que
pueda crecer posteriormente hasta convertirse en un almacn de datos
completo de mbito corporativo?
Modelado de la dimensionalidad
Tcnica de diseo lgico que trata de presentar los datos de una
manera estndar e intuitiva que permita un acceso de alto
rendimiento.
Utiliza los conceptos del modelado Entidad Relacin (ER), con
algunas restricciones importantes. Todo modelo dimensional
(dimensional model DM) est compuesto de una tabla con una clave
principal compuesta, denominada tabla de hechos, y un conjunto de
tablas mas pequeas denominadas tablas de dimensin. Cada tabla de
dimensin tiene una clave principal simple (no compuesta) que se
corresponde con exactamente uno de los componentes de la clave
compuesta de la tabla de hechos. Todas las claves naturales se
sustituyen por claves subrogadas de manera que toda combinacin
entre la tabla de hechos y las de dimensiones estn basadas en estas
claves subrogadas.
Esquema ( combinacin) en estrella: Estructura lgica que tiene
una tabla de hechos que contiene datos factuales en el centro,
rodeada por tablas de dimensin que contienen datos de
referencia.
Esquema en copo de nieve: Variante en el que las tablas de
dimensin no contienen datos desnormalizados.
Esquema en copo de estrella: Estructura hbrida que contiene
mezcla de esquemas en estrella y en copo de nieve.
La forma predecible y estndar del modelo dimensional ofrece
ventajas para un entorno de almacn de datos:
Eficiencia: La coherencia de la estructura de BD subyacente
permite un acceso ms eficiente a los datos por parte de las
distintas herramientas, incluyendo las de consultas y generacin de
informes.
Posibilidad de gestionar requisitos cambiantes, ya que el
esquema puede adaptarse a cambios en los requisitos de los usuarios
producto de que todas las dimensiones son equivalentes en trminos
de proporcionar acceso a la tabla de hechos. El diseo est mejor
adaptado para soportar consultas ad hoc.
Ampliabilidad para:
a) permitir adicin de nuevos hechos, siempre que sean coherentes
con la granularidad fundamental de la tabla de hechos
existente;
b) adicin de nuevas dimensiones, siempre y cuando haya un nico
valor de dicha dimensin definido para cada registro de hechos
existente;
c) Adicin de nuevos atributos dimensionales; y
d) descomposicin de los registros de dimensin existentes para
tener un menor nivel de granularidad a partir de un cierto instante
temporal.
Capacidad de modelar situaciones empresariales comunes.
Procesamiento de consultas predecible, ya que en el nivel mas
bajo, cada tabla de hechos debe ser consultada de manera
independiente.
Metodologa de diseo de BDs para DW
Un aspecto importante en el trabajo con almacenes de datos es
comprender que un modelo ER se descompone normalmente en mltiples
modelos DM. Los diferentes DM se asocian mediante tablas de
dimensin conformadas (compartidas).
Comnmente se emplea la llamada Metodologa de los Nueve
pasos:
1. Seleccin del proceso: Hace referencia al tema objetivo de un
mercado concreto.
2. Seleccin de la granularidad: Decidir exactamente qu es lo que
va a representar cada registro de la tabla de hechos. Determina
tambin la granularidad de las tablas de dimensin.
3. Identificacin y conformacin de las dimensiones: Se establece
el contexto para consultar los hechos. Un buen conjunto de
dimensiones hace que el mercado sea comprensible y fcil de
usar.
4. Seleccin de los hechos: La granularidad determina cules
hechos pueden emplearse en el mercado de datos.
5. Almacenamiento de los valores precalculados en la tabla de
hechos: Anlisis para evaluar posibilidad de empleo de valores
precalculados.
6. Terminacin de las tablas de dimensin: Se aaden tantas
descripciones textuales, intuitivas y comprensibles para los
usuarios, como sea posible. El uso de un mercado de datos est
determinado por el mbito y naturaleza de los atributos de las
tablas de dimensin.
7. Seleccin de la duracin de la BD: Hasta que momento del pasado
debe retroceder la tabla de hechos.
8. Control de dimensiones lentamente cambiantes.
9. Seleccin de las prioridades de consulta y de los modos de
consulta: Considera los aspectos del diseo fsico.
Criterios para verificar la dimensionalidad de un almacn de
datos
Se dividen en tres grupos amplios:
1- Arquitectura: Son caractersticas fundamentales de la forma en
que el sistema completo est organizado.
2- Administracin: Son tcticos, pero esenciales para la operacin
adecuada de un almacn de datos orientado dimensionalmente.
3- Expresin: Capacidades analticas necesarias en situaciones
reales.
OLAP
El Procesamiento Analtico en Lnea (OLAP) es la sntesis, anlisis
y consolidacin dinmica de grandes volmenes de datos
multidimensionales.
Aplicaciones:
clculo de presupuestos,
anlisis de rendimiento financiero,
anlisis y previsin de ventas,
anlisis e investigacin de mercados y
segmentacin de mercados / clientes.
Caractersticas
Vistas multidimensionales de los datos: requisito fundamental
para la construccin de un modelo de negocio realista. Una vista
multidimensional de los datos proporciona la base para el
procesamiento analtico, al permitir un acceso flexible a los datos
corporativos. Debe tratar todas las dimensiones de manera
equitativa. No debe influenciar los tipos de operaciones permitidas
sobre una determinada dimensin ni la tasa a la que estas
operaciones se realicen. Debe permitir que los usuarios analicen
los datos segn cualquier dimensin y en cualquier nivel de
agregacin, manteniendo una misma funcionalidad y facilidad de uso.
Igualmente, debe soportar todas las vistas multidimensionales de
los datos en la manera mas intuitiva posible. Los sistemas OLAP
deben ocultar lo ms posible a los usuarios la sintaxis de consultas
complejas y proporcionar tiempos de respuesta siempre cortos para
todas las consultas, independientemente de su complejidad.
Soporte para clculos complejos: El software debe proporcionar
diversos mtodos de clculo suficientemente potentes, como los
requeridos para realizar previsiones de ventas, que utilizan
algoritmos de clculos de tendencias: medias mviles y crecimientos
porcentuales.
Inteligencia temporal: Caracterstica clave. Debe poderse definir
conceptos como acumulados de ao, comparaciones entre perodos,
etc.
Beneficios:
mayor productividad de los usuarios finales de la organizacin,
de los desarrolladores de los departamentos de tecnologas de la
informacin, acceso controlado y oportuno a la informacin de carcter
estratgico;
reduccin en la carga de trabajo de desarrollo de aplicaciones,
pues brinda autosuficiencia para los usuarios finales que pueden
desarrollar sus propios modelos y cambios de esquema;
se conserva el control sobre la integridad de los datos
corporativos, ya que los sistemas OLAP dependen de los almacenes de
datos y de los sistemas OLTP para refrescar sus datos de
origen;
menor frecuencia de consultas y menor trfico de los sistemas
OLTP en el almacn de datos;
mayores ingresos y beneficios potenciales al permitir que la
organizacin responda rpidamente a las demandas del mercado.
Representacin de datos multidimensionales Cubos
Los servidores de BDs OLAP utilizan estructuras
multidimensionales para almacenar los datos y relaciones entre los
mismos. La mejor forma de visualizar estructuras multidimensionales
es como cubos de datos. Cada lado de un cubo se denomina
dimensin.
El tiempo de respuesta depende de cuantas celdas se sumen en la
marcha. Con el incremento del nmero de dimensiones, el nmero de
celdas del cubo crece exponencialmente. Sin embargo, la mayora de
las consultas tratan con datos resumidos de alto nivel, por lo que
pueden previamente agregarse (consolidarse) todos los totales y
subtotales lgicos segn todas las dimensiones. Esta agregacin previa
puede ser especialmente valiosa ya que las dimensiones tpicas son
de naturaleza jerrquica. Imponer jerarqua predefinida para cada
dimensin permite agregacin lgica previa y, a la inversa,
profundizacin lgica.
Operaciones analticas comunes:
Consolidacin: implica agregacin de datos, como totalizaciones
simples expresiones complejas que impliquen datos relacionados.
Profundizacin: operacin inversa de la consolidacin. Implica
mostrar datos de detalle comprendidos en datos consolidados.
Navegacin (pivotaje): capacidad de examinar los datos desde
diferentes puntos de vista, con el fin de analizar tendencias y
encontrar patrones.
La pre-agregacin, las jerarquas dimensionales y la gestin de
datos dispersos pueden reducir significativamente el tamao de la
base de datos y las necesidades de clculo. Estas tcnicas eliminan
la necesidad de efectuar combinaciones multitabla y proporcionan un
acceso rpido y directo a las matrices de datos, acelerando la
ejecucin de las consultas multidimensionales.
Los servidores OLAP tienen la capacidad de almacenar datos
multidimensionales de manera comprimida, para maximizar el empleo
del espacio. Los datos densos, que existen para un alto porcentaje
de celdas, pueden almacenarse independientemente de los datos
dispersos, aquellos en que un porcentaje altamente significativo de
celdas estn vacas. La capacidad de un SGBD para omitir celdas vacas
repetitivas contribuye a reducir el tamao del cubo y la cantidad de
procesamiento. Estas optimizaciones minimizan necesidades de
almacenamiento fsico, permitiendo el anlisis de grandes cantidades
de datos, con incremento en las prestaciones, etc.
Reglas de Codd para las herramientas OLAP:
1. Vista conceptual multidimensional
2. Transparencia
3. Accesibilidad
4. Prestaciones coherentes en la generacin de informes
5. Arquitectura cliente servidor
6. Dimensionalidad genrica
7. Gestin dinmica de matrices dispersas
8. Soporte multiusuario
9. Operaciones interdimensionales no restringidas
10. Manipulacin de datos intuitiva
11. Generacin flexible de informes
12. Dimensiones y niveles de agregacin ilimitados
Categoras de herramientas OLAP
OLAP multidimensional (MOLAP): Utilizan estructuras
especializadas de datos y SGBD multidimensionales para organizar,
navegar y analizar los datos.
Los problemas de desarrollo asociados con la tecnologa MOLAP
son:
a) Slo pueden almacenarse y analizarse de manera eficiente una
cantidad limitada de datos.
b) La navegacin y el anlisis de datos estn limitados. El soporte
de nuevos requisitos puede demandar la reorganizacin fsica de los
datos.
c) Requieren un conjunto diferente de capacidades y herramientas
para construir y mantener la BD, incrementando el costo y
complejidad de las tareas de soporte.
OLAP relacional (ROLAP): Soportan productos SGBDR mediante el
uso de un nivel de metadatos, evitndose as crear una estructura de
datos multidimensional esttica. Algunos productos ROLAP disponen de
motores SQL mejorados para soportar la complejidad del anlisis
multidimensional; pero otros productos recomiendan usar BDs
altamente desnormalizadas como el esquema en estrella.
Los problemas de desarrollo asociados con la tecnologa ROLAP
son:
a) Problemas de rendimiento asociados con el procesamiento de
consultas complejas que requieran efectuar mltiples pasadas a travs
de los datos relacionales.
b) Desarrollo de middleware para facilitar el desarrollo de
aplicaciones multidimensionales: software que convierta la relacin
bidimensional en una estructura multidimensional.
c) Desarrollo de una opcin para crear estructuras
multidimensionales persistentes, junto con las funciones para
ayudar a administrarlas.
OLAP hbrido (HOLAP): Proporciona capacidades limitadas de
anlisis, bien mediante SGBDR por un servidor MOLAP intermedio. El
servidor suministra un cubo de datos que se almacena, analiza y
mantiene localmente.
Los problemas de desarrollo asociados con la tecnologa HOLAP
son:
a) La arquitectura provoca una significativa redundancia de los
datos y puede causar problemas en las redes que soporten muchos
usuarios.
b) La capacidad de cada usuario para construir un cubo
personalizado puede provocar una falta de coherencia entre los
datos de diferentes usuarios.
c) Slo puede mantenerse de manera eficiente una cantidad
limitada de datos.
OLAP de escritorio (Desktop OLAP - DOLAP): Almacenan los datos
OLAP en archivos situados en la plataforma del cliente y soportan
el procesamiento multidimensional utilizando un motor
multidimensional del lado del cliente. Requiere extractos
relativamente pequeos de los datos en las mquinas de los clientes,
los cuales pueden distribuirse por adelantado bajo peticin.
Los problemas de desarrollo asociados con la tecnologa DOLAP
son:
a) Provisin de controles de seguridad apropiados, ya que los
datos se extraen fsicamente del sistema.
b) Se necesita reducir el esfuerzo necesario para implementar y
mantener herramientas DOLAP
c) Las tendencias actuales apuntan hacia el uso de clientes
simples.
Extensiones OLAP a la norma SQL
Una limitacin de SQL para los analistas empresariales es su
dificultad para responder a consultas frecuentes en dicho entorno
como el clculo del porcentaje de cambio de una serie de valores
entre el mes actual y el correspondiente del ao anterior, calcular
una serie de medias mviles, sumas acumulativas y otras funciones
estadsticas.
El estndar SQL: 2003 (ISO/IEC 9075-2) soporta la funcionalidad
OLAP al proporcionar una serie de extensiones para:
1.- Capacidades de agrupacin ampliadas (T431)
La agregacin se proporciona mediante extensiones a la clusula
GROUP BY:
1.1.- Extensin ROLLUP a GROUP BY: Permite calcular mltiples
niveles de subtotales segn un grupo especificado de
dimensiones.
SELECT GROUP BY ROLLUP (lista de columnas)
1.2.- Extensin CUBE para GROUP BY: Forma un conjunto
especificado de columnas de agrupamiento y crea subtotales para
todas las posibles combinaciones.
SELECT GROUP BY CUBE (lista de columnas)
CUBE puede utilizarse en cualquier situacin donde sea necesario
informe de tablas cruzadas. Es especialmente adecuado en aquellas
columnas que usen mltiples dimensiones, en lugar de columnas que
representen diferentes niveles de una misma direccin.
2.- Operadores OLAP elementales (T611)
Los operadores OLAP elementales del estndar SQL soportan
diversas operaciones:
2.1.- Funciones de clasificacin ordenada: Calcula la posicin de
un registro en relacin con los restantes registros del conjunto de
datos, basndose en los valores de un conjunto de medidas. Hay
distintos tipos de funciones de clasificacin. Ejemplos:
RANK ( ) OVER (ORDER BY lista_de_Columnas)
DENSE_RANK( ) OVER (ORDER BY lista_de_Columnas)
La diferencia entre ambos operadores est en que DENSE_RANK no
deja huecos en la secuencia de clasificacin cuando existen empates
para un cierto puesto.
2.2.- Clculos de ventana mvil: Pueden utilizarse para calcular
agregados acumulativos, mviles y centrados. Se devuelve un valor
para cada fila de una tabla que depender de otras filas dentro de
la ventana correspondiente.
Minera de Datos (Data Mining )
Proceso de extraer informacin vlida, previamente desconocida,
comprensible y til de bases de datos de gran tamao y utilizar dicha
informacin para tomar decisiones de negocios.
Ejemplos de aplicaciones:
Comercio al por menor / marketing
Identificacin de patrones de compra de los clientes
Determinacin de asociaciones entre las caractersticas
demogrficas de los clientes
Prediccin de la respuesta a las campaas de publicidad
Anlisis de cestas de la compra
Banca
Deteccin de patrones de uso fraudulento de tarjetas de
crdito
Identificacin de clientes leales
Prediccin de clientes que tienen probabilidad de cambiar de
suministrador de servicio
Determinacin de los gastos realizados por ciertos grupos de
clientes
Seguros
Anlisis de partes
Prediccin de los clientes que suscriben nuevas plizas
Medicina
Caracterizacin del comportamiento de los pacientes para predecir
las visitas quirrgicas
Identificacin de terapias mdicas adecuadas para diferentes
enfermedades
Tcnicas de Minera de datos
Hay cuatro operaciones principales:
1. Modelado predictivo
Puede utilizarse para analizar una base de datos existente con
el fin de determinar ciertas caractersticas esenciales (modelo)
acerca del conjunto de datos. Se utilizan observaciones para formar
un modelo de las caractersticas ms importantes de algn tipo de
fenmeno. Es similar al proceso de aprendizaje humano. El modelo se
desarrolla utilizando una tcnica de aprendizaje supervisado que
tiene dos fases: entrenamiento y prueba. La fase de entrenamiento
construye un modelo utilizando una muestra de datos histricos
denominada conjunto de entrenamiento. Las pruebas permiten
comprobar el modelo utilizando datos nuevos, no empleados
previamente para el entrenamiento.
Clasificacin: Tcnica empleada para establecer una clase
predeterminada especfica para cada registro de una BD. Hay dos
tipos bsicos: induccin en rbol e induccin neuronal.
Prediccin de valores: Se utiliza para estimar un valor numrico
continuo que est asociado con un registro de BD.
2. Segmentacin de la Base de Datos
Su objetivo es realizar la particin de la BD en un nmero
desconocido de segmentos clsteres de registros similares:
compartiendo un conjunto de propiedades, y que, por ello, se
consideran homogneos. Los segmentos tienen una alta homogeneidad
interna y alta heterogeneidad externa. Este enfoque utiliza
aprendizaje NO supervisado para descubrir subconjuntos homogneos
dentro de una base de datos con el fin de mejorar la precisin de
los perfiles. Se asocia con las tcnicas de agrupacin neuronal
demogrfica, que se distinguen por los tipos permitidos de datos de
entrada, los mtodos utilizados para calcular la distancia entre los
registros y la presentacin de los segmentos resultantes para su
anlisis.
3. Anlisis de enlaces
Trata de establecer vnculos, denominados asociaciones, entre los
registros individuales entre los conjuntos de registros de una BD.
Hay tres tipos:
a) descubrimiento de asociaciones: trata de encontrar elementos
que impliquen la presencia de otros elementos en el mismo
suceso;
b) descubrimiento de patrones secuenciales: trata de encontrar
patrones entre sucesos tales que la presencia de un conjunto de
elementos es seguida por otro conjunto de elementos en una BD de
sucesos a lo largo de un perodo de tiempo; y
c) descubrimiento de secuencias temporales similares: se utiliza
para descubrir enlaces entre dos conjuntos de datos que sean
dependientes del tiempo, y est basado en el grado de semejanza
exhibido por ambas series temporales.
4. Deteccin de desviaciones
Tcnica novedosa que identifica las excepciones: que expresa la
desviacin con respecto a una cierta expectativa a una norma
previamente conocida.
El proceso de Minera de Datos
Existe una especificacin denominada Proceso estndar
intersectorial para la minera de datos (CRoss Industry Standard
Process for Data Mining CRISP-DM) cuyo objetivo es hacer que los
grandes proyectos de DM funcionen de manera eficiente y que sean
mas baratos, fiables y con mejor factibilidad de gestin.
La metodologa CRISP-DM es un modelo de proceso jerrquico. El
proceso se divide en seis fases genricas:
a) Comprensin del negocio: Se centra en comprender los
requisitos y objetivos del proyecto desde la perspectiva del
negocio.
b) Comprensin de los datos: Incluye la recopilacin inicial de
datos y se preocupa por establecer sus principales
caractersticas.
c) Preparacin de los datos: Actividades para construir el
conjunto final de datos al que pueden aplicrsele las herramientas
de modelado.
d) Modelado: Propiamente Minera. Implica seleccionar las tcnicas
de modelado, los parmetros y evaluar el modelo.
e) Evaluacin: Valida el modelo desde el punto de vista del
anlisis de datos.
f) Implantacin: El conocimiento obtenido y reflejado en el
modelo tiene que organizarse y presentarse de una manera
comprensible por parte de los usuarios.
Herramientas
Las caractersticas ms importantes son:
1) Preparacin de los datos: Aspecto que demanda mayor tiempo.
Puede dar soporte a operaciones de limpieza, transformacin, etc.,
de datos, as como para muestreo con vistas a la creacin de
conjuntos para entrenamiento y validacin, etc.
2) Seleccin de las operaciones (algoritmos) de minera de datos:
Su comprensin asegurar que cumplan los requisitos que demandan los
usuarios. Es importante conocer como los distintos algoritmos
tratan los tipos de datos de las variables de respuesta y variables
predictoras (columnas de la BD que pueden usarse para construir un
modelo predictor de los valores de otra columna), la rapidez con
que llevan a cabo la fase de entrenamiento y la velocidad con que
operan sobre nuevos datos. Debe analizarse su sensibilidad al ruido
(diferencia entre un modelo y sus predicciones), establecer
sensibilidad a la falta de datos de un algoritmo dado y robustez de
patrones que dicho algoritmo descubre en presencia de datos
irrelevantes incorrectos.
3) Escalabilidad y prestaciones del producto: Consideraciones
importantes cuando se trabaja con datos crecientes en trminos del
nmero de filas columnas, posiblemente con controles de validacin
sofisticados. Puede demandar el uso de tecnologas de
multiprocesamiento simtrico (Symmetric Multi Processing SMP) de
procesamiento masivamente paralelo (Massively Parallel Processing
MPP)
4) Funcionalidades para comprender los resultados,
proporcionadas mediante medidas que describan la precisin y lo
significativo de los datos, permitiendo que el usuario analice la
sensibilidad del resultado. Tambin es til la presentacin de
resultados con el empleo de varias maneras alternativas, por
ejemplo, visualmente.
Una matriz de confusin muestra el nmero real de valores de una
clase comparndolo con el nmero predicho. Ilustra la capacidad
predictiva del modelo y presenta los detalles necesarios para ver
donde pudiera estar fallando.
El anlisis de sensibilidad determina la sensibilidad del modelo
respecto a pequeas fluctuaciones de un valor predictor. Permite
evaluar los efectos que tienen el ruido y los cambios ambientales
sobre la precisin del modelo.
Las tcnicas de visualizacin permiten mostrar los datos
grficamente para facilitar la comprensin de su significado. Las
capacidades van desde las simples grficas de dispersin hasta
representaciones multidimensionales complejas:
Minera de datos y almacenes de datos
Un desafo principal para las organizaciones es identificar los
datos ms adecuados para aplicar estas tcnicas. La Minera de Datos
necesita una fuente de datos unificada, independiente, limpia,
integrada y auto coherente. Un almacn de datos est bien preparado
para proporcionar los datos requeridos por la Minera de Datos.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005;
Parte 9: Captulos 31 al 34; pp 1035-1127
Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado
5)
16