Top Banner
Universidad Austral de Chile Facultad de Ciencias Económicas y Administrativas Escuela de Ingeniería Comercial Trabajo Ayudantía “Data Warehouse” Integrantes: Ana Barros P. Viviana Estrada R. Mº Eugenia Guarda C. Pamela Quintuprai M. Asignatura : Sistemas de información Empresarial.
27

C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Jun 29, 2015

Download

Technology

anabarrospineda
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Universidad Austral de Chile

Facultad de Ciencias Económicas y Administrativas

Escuela de Ingeniería Comercial

Trabajo Ayudantía

“Data Warehouse”

Integrantes: Ana Barros P.

Viviana Estrada R.

Mº Eugenia Guarda C.

Pamela Quintuprai M.

Asignatura : Sistemas de información

Empresarial.

Ayudante: José luis Carrasco V.

Page 2: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

07 de junio de 2010

Introducción

En la actualidad, toda empresa requiere utilizar mecanismos e

instrumentos que le faciliten la correcta toma de decisiones. Para ello,

se necesitan datos y cifras confiables, precisas y oportunas, lo que

trae consigo un mayor requerimiento en la velocidad de la

información. Es aquí donde cobra importancia la utilización de

herramientas que nos ayuden a minimizar el tiempo para analizar

gran cantidad de información con mayor velocidad y precisión.

En un comienzo se contaba únicamente con bases de datos donde se

guardaba la información. Luego aparecieron las bases de datos

relacionales. Finalmente aparecieron nuevos sistemas que no

solamente se dedican a guardar información, sino que tienen un

enfoque gerencial, ofreciendo un apoyo a la toma de decisiones. Es

en este ámbito donde aparece el data warehouses, componente de

Bussines Intelligent que viene a facilitar los requerimientos de manejo

de datos para la correcta toma de decisiones dentro de la empresa.

En el presente informe se exponen una serie de conceptos asociados

al almacenamiento y manejo de información.

Desarrollo de las actividades

Business Inteligente:

Es la habilidad para transformar los datos en información, y la

información en conocimiento, de forma que se pueda optimizar el

proceso de toma de decisiones en los negocios.

 

 

Page 3: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

 

Desde un punto de vista más pragmático, y asociándolo directamente

con las tecnologías de la información, podemos definir Business

Intelligence como el conjunto de metodologías, aplicaciones y

tecnologías que permiten reunir, depurar y transformar datos de los

sistemas transaccionales e información desestructurada (interna y

externa a la compañía) en información estructurada, para su

explotación directa (reporting, análisis OLTP / OLAP, alertas) o para su

análisis y conversión en conocimiento, dando así soporte a la toma de

decisiones sobre el negocio. La inteligencia de negocio actúa como un

factor estratégico para una empresa u organización, generando una

potencial ventaja competitiva, que no es otra que proporcionar

información privilegiada para responder a los problemas de negocio:

entrada a nuevos mercados, promociones u ofertas de productos,

eliminación de islas de información, control financiero, optimización

de costes, planificación de la producción, análisis de perfiles de

clientes, rentabilidad de un producto concreto, etc.

Por otro lado, los principales componentes de orígenes de datos en el

Business Intelligence que existen en la actualidad son:

Datamart

Datawarehouse

DW - Almacenes de datos, Bodegas de Datos (Data

warehouses)

ETL - Transformar, Extraer y Cargar datos

DM - Minería de datos (Data mining)

Aplicaciones OLAP - cubos OLAP, procesamiento analítico

Page 4: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

línea, Online Analytical Processing and multidimensional

analysis

MIS - Sistemas de Información para la Administración

(Management Information Systems)

Consultas e informes - Information visualization, and

Dashboarding

Calidad de Datos y limpieza de Datos

Sistemas de previsión empresarial

DSS - Apoyo en la toma de decisiones (Decision Support

Systems)

CRM - Customer Relationship Management

Ejemplo:

Aplicar Business Intelligence al análisis de ventas, ayuda a poder

ajustar los precios y bajar los márgenes, pues puedes estudiar como

van a responder las ventas.

Ariel sobre su detergente básico, donde sale un niño que se mancha

de helado. Dice algo como:

"Ariel te limpia todo. Todo menos la cartera, ya que Ariel básico es un

20% más barato"

La clave de este anuncio (des del punto de vista BI) es la palabra

“básico”. Ariel, gracias al análisis de datos, se habrá dado cuenta de

que el mayor porcentaje de ventas lo sigue teniendo en su producto

básico, y no en los típicos "con jabón de Marsella","detergente del

futuro", y cosas similares.

ERPs:

Los sistemas de planificación de recursos de la empresa (en

inglés ERP, enterprise resource planning) son sistemas de gestión de

información que integran y automatizan muchas de las prácticas de

negocio asociadas con los aspectos operativos o productivos de una

empresa. Aunque en el día a día no necesitamos estos sistemas, no

deja de ser interesante que haya un amplio abanico de ERP libres,

Page 5: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

dada la elevada dependencia que generan estas aplicaciones

respecto del proveedor cuando no son libres, como bien apuntó

Ricardo Galli Aparte de la (importantísima) reducción de costes

aparejada a la libertad del software, donde habitualmente se paga

por el mantenimiento pero no por el software en sí mismo. Entre los

más conocidos de esta lista es OpenBRAVO, pero no es el único

Existen 3 características que definen a un ERP:

1. Son sistemas integrales,

2. son sistemas modulares

3. y adaptables.

 

Los objetivos principales de los sistemas ERP son:

1. Optimización de los procesos empresariales.

2. Acceso a información confiable, precisa y oportuna.

3. La posibilidad de compartir información entre todos los

componentes de la organización.

4. Eliminación de datos y operaciones innecesarias.

5. Reducción de tiempos y de los costes de los procesos.

Ejemplo:

ERP Propietario:

SAP Business One

Microsoft Dynamics NAV

Sage línea 100

Solmicro

CCS Agresso

ERP Opensource son:

Openbravo

Openxpertya

Tiny ERP

Page 6: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Abanq

ERP SaaS son:

 

Netsuite

Salesforce

Business by design (creado por SAP)

Intacct

Workday

GSInnovate

ETL

Los procesos ETL (Extraction, Transformation and Loading -

extracción, transformación y carga) son los componentes más

importantes y de valor añadido de una infraestructura de Business

Intelligence (BI). Aún pueden ser invisibles por los usuarios de la

plataforma de BI, los procesos ETL recuperan los datos de todos los

sistemas operativos y les pre-elaboran para las herramientas de

análisis y de reporting. La exactitud de la plataforma BI entera

depende de los procesos ETL.

    Los procesos de Extracción, Transformación y Carga constan de

múltiples pasos, cuyo objetivo es transferir datos desde las

aplicaciones de producción a los sistemas de Inteligencia de negocio :

Extracción de los datos desde las aplicaciones y bases de datos

de producción (ERP, CRM, RDBMS, archivos, etc.)

Transformación de estos datos para reconciliarlos en todos los

sistemas source, realizar cálculos o análisis sintáctico de

cadenas, enriquecerlos con información de búsqueda externa

y, además, adaptarlos al formato preciso por el sistema

objetivo (Third Normal Form, Star Schema, Slowly Changing

Dimensions, etc.)

Carga de los datos resultantes en las diversas aplicaciones de

BI:Almacenes de datos históricos generales (data warehouse) o

Page 7: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

almacenes de datos empresariales, almacenes de datos

históricos individuales (data mart), aplicaciones OLAP

(Procesamiento analítico en línea) o “cubos”, etc

La latencia de los procesos ETL varía desde los lotes (a veces, de

forma mensual o semanal, pero en la mayoría de los casos

diariamente), al tiempo casi real con actualizaciones más frecuentes

(cada hora, cada pocos minutos, etc.).

 

 

 

Ejemplo:

Kettle ETL-Pentaho Data Integration (PDI?

Kettle Spoon ETL-Transformación gráfica de un proceso ETL de

ejemplo con una herramienta Spoon.

Kettle PAN ETL-ejecución batch de las transformaciones

diseñadas con la herramienta Spoon de PDI.

Ejemplo de ETLde calidad de datos: implementaciones

interesantes se muestran en el proceso de cargar una bodega

de datos diseñados en el pentaho data integration 3.0.

Interfase Web

  Las páginas Web supusieron la aparición de las interfaces web,

interfaces gráficas de usuario con unos elementos comunes de

presentación y navegación que pronto se convirtieron en estándares

de facto. Este tipo de interfaces deben servir de intermediarias entre

Page 8: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

unos usuarios genéricos, no acostumbrados generalmente al uso de

aplicaciones informáticas, y unos sistemas de información y procesos

transaccionales que corren por debajo, debiendo posibilitar la

localización de la información deseada, el entendimiento claro de las

funcionalidades ofrecidas, la realización práctica de tareas específicas

por parte de los usuarios y la navegación intuitiva por las diferentes

páginas que forman el sitio web.

 

  Hay dos tipos de interfaces de usuario según su manera de

interactuar: Alfanumérica (intérpretes de pedidos) y gráficas de

usuarios (GUI, Graphic User Interface). Estas últimas permiten

comunicarse con el ordenador de una forma rápida, intuitiva y gráfica

(ventanas, botones, etc.).

En el primer caso se trata de un conjunto de dispositivos que

permiten la interacción hombre-máquina, de forma que

permiten acceder y coger datos del ordenador. Un ejemplo de

este tipo de interfaz es linux, Ms Dos, Unix.

Las Interfaces de software son programas o parte de ellos que

permiten comunicarse con el ordenador. Ejemplos de este tipo

de interfaz son: Fox Toolkit, Object Central (framework

multiplataforma para generar interfaces gráficas para

usuarios),Glow (framework multiplataforma y orientada a

objetos para crear aplicaciones interactivas utilizando OpenGL o

APIs similares como Mesa), GTK+ es un conjunto de

herramientas para crear GUIs. GTK+ (útil tanto para pequeños

proyectos como para aplicaciones completas)

Interfase Cliente-Servidor

La interfaz de cliente incorpora otras herramientas importantes:

Aquellas asociadas al acceso al curso y su gestión.

Junto a estas, se dispone de la posibilidad de realizar los exámenes

propuestos por el tutor o acceder a los eventos definidos por este (por

ejemplo, avisos de clases presenciales). Los eventos se definen como

aquellos hechos o noticias de especial relevancia que emitidos por el

Page 9: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

profesor, deben ocupar un papel diferenciado del resto de noticias del

tablón.

Sin embargo, el diseño de ATF no busca que su interfaz cliente se

restrinja al aula virtual desarrollado. No se pensó como un desarrollo

cerrado. La interfaz puede estar constituida por cualquier navegador

comercial. De esta forma, los servicios ofrecidos por el sistema,

pueden ser disfrutados por usuarios (al menos en su mayor parte)

que no dispongan del cliente del Aula Virtual. El Aula Virtual, no

obstante, ofrece una normalización de acceso al sistema y a los

cursos educativos, junto con el uso de las funcionalidades ofrecidas

del sistema ATF.

Ejemplo:

 

Servidores de archivos: Servidor donde se almacena archivos y

aplicaciones de productividad como por ejemplo procesadores

de texto, hojas de cálculo, etc.

Servidores de bases de datos: Servidor donde se almacenan las

bases de datos, tablas, índices. Es uno de los servidores que

más carga tiene.

Servidores de transacciones: Servidor que cumple o procesa

todas las transacciones. Valida primero y recién genera un

pedido al servidor de bases de datos.

Servidores de Groupware: Servidor utilizado para el

seguimiento de operaciones dentro de la red.

Servidores de objetos: Contienen objetos que deben estar fuera

del servidor de base de datos. Estos objetos pueden ser videos,

imágenes, objetos multimedia en general.

Servidores Web: Se usan como una forma inteligente para

comunicación entre empresas a través de Internet. Este

servidor permite transacciones con el acondicionamiento de un

browser específico

 

Page 10: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Modelos de Datos

ER (Entidad Relación): El modelo de datos más extendido es

el denominado ENTIDAD/RELACIÓN (E/R).En el modelo E/R se parte de

una situación real a partir de la cual se definen entidades y relaciones

entre dichas entidades:

Entidad : Objeto del mundo real sobre el que queremos almacenar

información (Ej: una persona). Las entidades están compuestas de

atributos que son los datos que definen el objeto (para la entidad

persona serían DNI, nombre, apellidos, dirección,...). De entre los

atributos habrá uno o un conjunto de ellos que no se repite; a este

atributo o conjunto de atributos se le llama clave de la entidad,

(para la entidad persona una clave seria DNI). En toda entidad

siempre hay al menos una clave que en el peor de los casos estará

formada por todos los atributos de la tabla. Ya que pueden haber

varias claves y necesitamos elegir una, lo haremos atendiendo a

estas normas:

Que sea única.

Que se tenga pleno conocimiento de ella.- ¿Por qué

en las empresas se asigna a cada cliente un número de

cliente?.

Que sea mínima, ya que será muy utilizada por el gestor

de base de datos.

Relación : Asociación entre entidades, sin existencia propia en el

mundo real que estamos modelando, pero necesaria para reflejar las

interacciones existentes entre entidades. Las relaciones pueden ser

de tres tipos:

o Relaciones 1-1: Las entidades que intervienen en la

relación se asocian una a una (Ej: la entidad HOMBRE, la

entidad MUJER y entre ellos la relación MATRIMONIO).

Page 11: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

o Relaciones 1-n: Una ocurrencia de una entidad está

asociada con muchas (n) de otra (Ej: la entidad EMPERSA,

la entidad TRABAJADOR y entre ellos la relación

TRABAJAR-EN).

o Relaciones n-n: Cada ocurrencia, en cualquiera de las

dos entidades de la relación, puede estar asociada con

muchas (n) de la otra y viceversa (Ej: la entidad ALUMNO,

la entidad EMPRESA y entre ellos la relación MATRÍCULA).

Notación empleada para elaborar modelos E-R:

Ejemplo de diagrama E-R

Page 12: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

UML (Lenguaje de Modelado Unificado): Lenguaje Unificado de

Modelado es el lenguaje de modelado de sistemas de software más

conocido y utilizado en la actualidad; está respaldado por el OMG

(Object Management Group). Es un lenguaje gráfico para visualizar,

especificar, construir y documentar un sistema, es decir, permite la

representación conceptual y física. UML ofrece un estándar para

describir un "plano" del sistema (modelo), incluyendo aspectos

conceptuales tales como procesos de negocio y funciones del

sistema, y aspectos concretos como expresiones de lenguajes de

programación, esquemas de bases de datos y componentes

reutilizables. Es importante resaltar que UML es un "lenguaje de

modelado" para especificar o para describir métodos o procesos. Se

utiliza para definir un sistema, para detallar los artefactos en el

sistema y para documentar y construir. En otras palabras, es el

lenguaje en el que está descrito el modelo. UML cuenta con varios

tipos de diagramas, los cuales muestran diferentes aspectos de las

entidades representadas.

Ejemplo:

Page 13: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

OO (Orientado a Objetos): Los sistemas basados en modelos de

datos orientados a objeto fueron inspirados a partir del paradigma de

programación orientada a objeto. Entre los primeros lenguajes

orientados a objetos podemos citar Smalltalk y Simula. Ejemplos más

recientes son C++, CIOS, CLU y JAVA.

El modelo de bases de datos orientado a objetos se basa en el

concepto de encapsulamiento de datos y código que opera sobre

estos en un objeto. Los objetos estructurados se agrupan en clases. El

conjunto de clases está estructurado en sub y superclases basado en

una extensión del concepto ISA del modelo Entidad - Relación. Puesto

que el valor de un dato en un objeto también es un objeto, es posible

representar el contenido del objeto dando como resultado un objeto

compuesto. El modelo orientado a objetos se basa en encapsular

código y datos en una única unidad, llamada objeto. El interfaz entre

un objeto y el resto del sistema se define mediante un conjunto de

mensajes.

Un objeto tiene asociado:

un conjunto de variables que contienen los datos del objeto. El

valor de cada variable es un objeto.

Page 14: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Un conjunto de mensajes a los que el objeto responde.

Un método, que es un trozo de código para implementar cada

mensaje. Un método devuelve un valor como respuesta al

mensaje.

    El término mensaje en un contexto orientado a objetos, no

implica el uso de un mensaje físico en una red de computadoras, si

no que se refiere al paso de solicitudes entre objetos sin tener en

cuenta detalles específicos de implementación.

    La capacidad de modificar la definición de un objeto sin

afectar al resto del sistema está considerada como una de las

mayores ventajas del modelo de programación orientado a

objetos.

Ejemplo:

Consideremos un objeto que representa una cuenta bancaria.

Tal objeto contiene variables de ejemplares número- cuenta y

saldo. Asumamos que un banco ha estado pagando un 6% de

interés en todas las cuentas, pero ahora está cambiando su

política de pagar un 5% si el saldo es menor que $180.000, o un

6% si el saldo es mayor o igual que $180.000. Para la mayoría de

los modelos de datos, hacer este ajuste significaría cambiar el

código en uno o más programas de aplicación. Para el modelo

orientado a objetos, el único cambio se hace en el método pago-

interés.

Describir cada etapa del diseño de un DW

“Un Data Warehouse no se puede comprar, se tiene que construir”, la

construcción e implantación de un Data Warehouse es un proceso

evolutivo. Este proceso se tiene que apoyar en una metodología

específica para este tipo de procesos, si bien es más importante que

la elección de la mejor de las metodologías, el realizar un control para

asegurar el seguimiento de la misma. En las fases que se establezcan

en el alcance del proyecto es fundamental el incluir una fase de

Page 15: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

formación en la herramienta utilizada para un máximo

aprovechamiento de la aplicación. El seguir los pasos de la

metodología y el comenzar el Data Warehouse por un área específica

de la empresa, nos permitirá obtener resultados tangibles en un corto

espacio de tiempo. Planteamos aquí la metodología propuesta por

SAS Institute: la "Rapid Warehousing Methodology" basada en el

desarrollo incremental del proyecto de Data Warehouse dividido en

cinco fases:

Definición de los requerimientos de información

Tal como sucede en todo tipo de proyectos, sobre todo si involucran

técnicas novedosas como son las relativas al Data Warehouse, es

analizar las necesidades y hacer comprender las ventajas que este

sistema puede reportar.

Diseño y modelización

Los requerimientos de información identificados durante la anterior

fase proporcionarán las bases para realizar el diseño y la

modelización del Data Warehouse.

En esta fase se identificarán las fuentes de los datos (sistema

operacional, fuentes externas) y las transformaciones necesarias

para, a partir de dichas fuentes, obtener el modelo lógico de datos del

Data Warehouse. Este modelo estará formado por entidades y

Page 16: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

relaciones que permitirán resolver las necesidades de negocio de la

organización.

El modelo lógico se traducirá posteriormente en el modelo físico de

datos que se almacenará en el Data Warehouse y que definirá la

arquitectura de almacenamiento del Data Warehouse adaptándose al

tipo de explotación que se realice del mismo.

La mayor parte estas definiciones de los datos del Data Warehouse

estarán almacenadas en los metadatos y formarán parte del mismo.

Implementación

La implantación de un Data Warehouse lleva implícitos los siguientes

pasos:

Extracción de los datos del sistema operacional y

transformación de los mismos.

Carga de los datos validados en el Data Warehouse. Esta carga

deberá ser planificada con una periodicidad que se adaptará a

las necesidades de refresco detectadas durante las fases de

diseño del nuevo sistema.

Explotación del Data Warehouse mediante diversas técnicas

dependiendo del tipo de aplicación que se de a los datos:

Query & Reporting

On-line analytical processing (OLAP)

Executive Information System (EIS) ó Información de

gestión

Decision Support Systems (DSS)

Visualización de la información

Data Mining ó Minería de Datos, etc.

Page 17: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

La información necesaria para mantener el control sobre los datos se

almacena en los metadatos técnicos (cuando describen las

características físicas de los datos) y de negocio (cuando describen

cómo se usan esos datos). Dichos metadatos deberán ser accesibles

por los usuarios finales que permitirán en todo momento tanto al

usuario, como al administrador que deberá además tener la facultad

de modificarlos según varíen las necesidades de información.

Con la finalización de esta fase se obtendrá un Data Warehouse

disponible para su uso por parte de los usuarios finales y el

departamento de informática.

Revisión La construcción del Data Warehouse no finaliza con la

implantación del mismo, sino que es una tarea iterativa en la que se

trata de incrementar su alcance aprendiendo de las experiencias

anteriores. Después de implantarse, debería realizarse una revisión

del Data Warehouse planteando preguntas que permitan, después de

los seis o nueve meses posteriores a su puesta en marcha, definir

cuáles serían los aspectos a mejorar o potenciar en función de la

utilización que se haga del nuevo sistema.

Diseño de la estructura de cursos de formación Con la

información obtenida de reuniones con los distintos usuarios se

diseñarán una serie de cursos a medida, que tendrán como objetivo el

proporcionar la formación estadística necesaria para el mejor

aprovechamiento de la funcionalidad incluida en la aplicación. Se

realizarán prácticas sobre el desarrollo realizado, las cuales

permitirán fijar los conceptos adquiridos y servirán como formación a

los usuarios.

Modelos de DW:

El data warehouse está elaborado en base al Modelo

Multidimensional. La estructura básica del DW consta de dos

elementos Tablas y Esquemas.

Page 18: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Como cualquier base de datos relacional, un DW se compone de

tablas. Hay dos tipos básicos de tabla.

Tablas Fact o tablas de hecho: Contienen los valores de las

medidas de negocios, por ejemplo: ventas promedio en dólares,

número de unidades vendidas, etc.

Tablas Lock-up o tablas de dimensiones: Contienen el detalle de

los valores que se encuentran asociados a la tabla Fact.

Los Esquemas son la colección de tablas en DW

Hay dos categorías básicas: Esquemas Estrellas (Star Schema) y

Esquemas en Copo de Nieve (Snowflake Schema).

Esquema Estrella (Star Schema)

El esquema estrella recibe su nombre producto de la estructura que

se forma cuando la tabla de hecho está rodeada de las tablas

dimensionales.

Todo objeto de análisis es un hecho. Este hecho se representa en el

modelo dimensional en forma de tabla de hechos. Los hechos son

analizados a su vez, a través de las dimensiones o componentes

(tantas como dimensiones participen en la descripción del hecho),

que se representan en el modelo dimensional a partir de las tablas de

dimensiones.

En el esquema estrella una sola tabla de hecho está relacionada a

cada tabla de dimensión. Las tablas de dimensiones son enlazadas a

la tabla de hechos mediante referencias de una llave foránea. La llave

primaria de la tabla fact recibe el nombre de clave compuesta o

concatenada debido a que se forma de la composición (o

concatenación) de las llaves primarias de las tablas dimensionales a

las que está unida. Así entonces, se distinguen dos tipos de columnas

en una tabla fact: columnas fact y columnas key. Donde la columna

Page 19: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

fact es la que almacena alguna medida de negocio y una columna key

forma parte de la clave compuesta de la tabla.

Los hechos tienen columnas de datos denominadas métricas y las

dimensiones tienen columnas que representan los niveles de

jerarquías.

Ejemplo:

Tenemos Ventas y sus dimensiones: Tiempo, Localización y Producto.

Alguna métrica de ventas seria número de unidades vendidas y valor

de la venta. En cuanto a los niveles de jerarquía de las dimensiones

encontraríamos para la dimensión Tiempo día, semana y mes, para la

localización tendríamos almacén, población, provincia, para la

dimensión Producto encontraríamos producto, familia, departamento.

Las métricas son indicadores que nos permiten cuantificar los hechos

y siempre hay que intentar buscar métricas que sean aditivas. Una

métrica es aditiva cuando es sumarizable por todas sus dimensiones.

Otro ejemplo: Una fábrica tiene 50 unidades en el almacén en Enero.

En Febrero tiene 30 y en Marzo 10. Esta métrica no es sumarizable,

ya que 50+30+10 no da el inventario final del trimestre. Esto suele

pasar bastante con la dimensión TIEMPO.

Page 20: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Esquemas en Copo de Nieve (Snowflake Schema)

Esquema en copo de nieve (bola de nieve) es una variedad más

compleja del esquema estrella. El afinamiento está orientado a

facilitar mantenimiento de dimensiones.

Lo que distingue a la arquitectura en copo de nieve de la esquema

estrella, es que las tablas de dimensiones en este modelo

representan relaciones normalizadas (3NF) y forman parte de un

modelo relacional

de base de datos

Con varios usos del esquema en bola de nieve, el más común es

cuando las tablas de dimensiones están muy grandes o muy

complejas y es muy difícil representar los datos en esquema estrella

Por ejemplo, si una tabla dimensional de los clientes (CUSTOMERS)

contiene un millón de filas, sería una idea buena crear una tabla con

grupos de clientes (CUSTOMER_GROUPS) y mover los datos comunes

para cada grupo de clientes a esta tabla. El tamaño de estas dos

tablas será mucho menor que de una tabla no normalizada con todos

los datos de clientes

El problema es que para extraer datos de las tablas en esquema de

copo de nieve, a veces hay que vincular muchas tablas en las

sentencias SQL que puede llegar a ser muy complejo y difícil para

mantener.

Modelo Data warehouse: Supermercado

Page 21: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

Análisis

EL data warehouse descrito anteriormente es el de un supermercado,

donde se identificaron cuatro variables importantes para su

funcionamiento y análisis. La primera variable es la de los

proveedores donde se debe identificar el tipo de área a la cual

pertenecen los productos que suministran. Una segunda variable es la

de los productos donde identificamos el tipo de productos, el área y

departamento en el cual se clasifican en el supermercado, además

esta variable se relaciona con la variable tiempo ya que es en esta

relación que se observa el tiempo (día, mes, semestre, año) en que se

tarda en vender estos productos, en la variable tiempo es donde se

recopilara la información de las ventas en espacios de tiempo

determinados para los distintos tipos análisis requeridos por los

usuarios, como por ejemplo se puede mencionar: que productos son

los que más se venden, en que sucursal hay mas ventas, etc.

Finalmente la variable sucursal donde identificamos desde donde se

encuentra la sucursal numero uno a las sucursales a nivel país, y se

relaciona con las demás variables ya que es aquí donde observamos

el tiempo de venta de los productos, que productos fueron los más

Page 22: C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia

vendidos en una sucursal y a cuales se les debe potenciar más, a que

proveedor se debe fortalecer, entre otros.

Conclusión

Las organizaciones están comprendiendo que para ser competitivas

necesitan administrar la información de manera eficaz y eficiente al

igual que cualquier otro recurso. En este sentido, se debe comprender

que la producción, distribución, seguridad, almacenamiento y

recuperación de toda la información en la organización implica ciertos

costos.

En la actualidad no sólo basta poseer, organizar y utilizar la

información en función de las operaciones regulares de la empresa,

se debe gestionar la información de manera tal que permita

diferenciarse de la competencia, en consecuencia el uso y la

implementación adecuada de los sistemas de información son fuentes

de ventajas competitivas. Por consiguiente aquellos programas que

ayuden y soporten la toma de decisiones a un nivel más estratégicos

desempeñan roles críticos en la organización, ejemplos de estos

programas son: CMI, DSS, EIS, ERP, CMR.