Proiectarea structurii depozitului de date Modelarea dimensionala
Proiectarea structurii
depozitului de date
Modelarea dimensionala
Ciclul de via al depozitelor de date
Masa de informaii care se va stoca n depozit trebuieorganizat de aa manier nct s reflecte att dateleimportante ct i contextul lorCerine:
Datele operaionale sunt integrate n depozitprin utilizarea de convenii consistente nprivina numelor, msurtorilor, atributelor isemanticii.
Depozitul de date se proiecteaz innd contde cerinele exprese ale viitorilor utilizatori.
Structura depozitului de date are n vedereidentificarea precis a datelor stocate iaccesul rapid la ele.
Realizarea depozitelor de date Modelarea dimensional ofer suportul necesar pentru
proiectarea structurii depozitului de date. Structura se implementeaz sub forma unei baze de date care
s asigure att stocarea unui volum imens de date ct i accesul rapid la ele (baze de date client-server).
Urmtoarea etap este popularea cu date a depozitului - .
Aceast etap va fi reluat periodic pentru a aduga datele noi. n final, depozitul este dat n exploatare curent explorare analiz raportare.
activiti asistate de instrumente software de la simple browsere i generatoare de rapoarte la instrumente sofisticate de data mining.
Exploatarea curent va evidenia noi cerine informaionale pentru asistarea deciziei, cerine care vor conduce la
extinderea structurii depozitului, popularea cu date istorice a extensiei integrarea noilor date n aplicaii de analiz.
Procesul de dezvoltare a depozitelor de date este incremental i
ciclic pe tot parcursul vieii.
Proiectare
Populare Analiz
Modelarea dimensional Principiul : obiectivul major al unui sistem decizional este analiza performanelor organizaiei.
Indicatorii de performan vor fi analizai de-a lungul unor dimensiuni - axe de analiz . Acest tip de modelare este independent de tehnologiile ce vor fi utilizate.
Modelarea dimensional tehnic de proiectare logic ce permite structurarea variabilelor, fiind folosit pentru vizualizarea modelelor de date sub forma unui set de variabile cheie pentru activitatea analizat (variabile descrise n funcie de caracteristicile activitii respective) permite conceptualizarea i reprezentarea aspectelor cantitative, msurabile ale activitii n strns legtur cu contextul n care s-a desfurat activitatea respectiv.
Sistemele tranzactionale
Aceste corelatii intre valorile inregistrate ale activitatii si contextul in care s-a desfasurat aceasta constituie temele multiplelor rapoarte de sinteza pe care le produc sistemele tranzactionale.
Aceste rapoarte sunt insa predefinite si sintetizarea lor in vederea efectuarii unor analize comparative a mai multor parametrii se face de obicei off - line, prin copierea rapoartelor in alte medii de lucru si procesarea lor ad-hoc.
Modelarea dimensionala Ofera un model conceptual comun tuturor acestor rapoarte si posibilitatea de agregare a lor intr-o structura Uniforma simpla flexibila pastrand in acelasi timp legatura cu sursele initiale de date si, in consecinta, accesul la diferite nivele de detaliu, pana la setul de tranzactii initiale (drill down)
Modelarea dimensionala 1. Fapte colectii de fapte
2. Dimensiuni (criterii de analiza, context)
Ierarhii
3.Masuri (variabile, indicatori)
4. Granularitate
5. Grad de imprastiere
Modelarea dimensional Colecia de fapte un ansamblu de date corelate constnd din variabile i date de context. Faptele modeleaz subiectul de analiz. O fapt reprezint msura activitii determinat la intersecia tuturor informaiilor referitoare la activitate. O tranzacie a activitii sau un eveniment Starea unui obiect Modificrile strii unui obiect
Modelarea dimensional Dimensiunile parametrii activitii, decupajul din activitatea global care corespunde msurii criteriile de agregare. zi, lun, an, trimestru, sezon (interval de timp),locaie, zon geografic,client, furnizor, produs sau grup (clas, categorie) de clieni, furnizori, produse,angajat, structur organizatoric Dimensiunea modeleaz o perspectiv de analiz; ea se compune din parametrii corespunznd informaiilor care fac s varieze msurile activitii. Tot ca dimensiune se pot modela variante de msuri: valori reale, valori bugetate, valori estimate. Aceast dimensiune oarecum artificial se cheam scenariu
Modelarea dimensional Caracteristici Furnizeaz informaii descriptive despre fiecare variabil (msur, indicator) Conin n general date statistice . Atributele dimensionale nu se schimb aa de des ca faptele totui, pot apare modificri iar modelul dimensional trebuie s permit modificarea pentru a asigura coerena i corectitudinea datelor. Sunt eseniale pentru analiz. Un model dimensional ce ofer un numr mare de atribute dimensionale permite analize ct mai complexe i ct mai variate
Modelarea dimensional Dimensiunile sunt identificate n bazele de date t ranzac ionale ca f i ind cmpuri le ce con in caracteristicile unei tranzacii, datele de identificare a tranzaciei respective, de obicei coduri-chei externe care fac legtura cu nomenclatoarele ce le expliciteaz. Dimensiunea se materializeaz prin setul de valori posibile care alctuiesc domeniul caracteristicii respective, valorile se numesc membrii dimensiunii.
Modelarea dimensionala
Parametrii (atributele dimensionale) Sunt de obicei campuri calitative, de tip text In cazul in care un parametru este numeric, acesta trebuie sa indeplineasca doua conditii:
Sa aiba valori discrete Sa fie cvasiconstante
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Este mai fin
Reprezentarea grafic la nivel conceptual a unei dimensiuni
Parametrii (atributele dimensionale)
1. De prezentare nu au valoare analitica
2. De agregare - stabilesc nivelele de agregare la care se va efectua analiza
3. De cauzalitate se folosesc in realizarea de modele (descriptive sau predictive) care sa explice evolutia indicatorilor.
Modelarea dimensional Dimensiunile pot avea multiplii - grupe de valori ale dimensiunii respective cu o caracteristic comun. IERARHII structuri arborescente formate din dimensiuni i
multiplii acestora. o grupare de parametrii de agregare care
urmeaza o directie de agregare Membrii unei dimensiuni se pot aranja n una sau mai multe ierarhii . Ierarhia organizeaz parametrii unei dimensiuni dup o relaie de tip este mai fin n conformitate cu nivelul lor de detaliu.
Ierarhii alternative ale dimensiunii TIMP
Anul
Sezonul
Semestrul
Trimestrul Sptmna
Luna
Data calendaristic
Ziua
Ierarhia Anotimp
Ierarhia Calendar
Ierarhia Sapte_zile
Ierarhiile alternative ale dimensiunii CLIENT
Zona
Statut
Judet
Localitate Categorie
Client
Subctg
IerarhiaFormaJuridica
IerarhiaClasificare
IerarhiaGeografie
all
CONTURI
Clasa de conturi
Grupa conturi
Cont
Tip cont Cont
Ierarhia plan contabil
Ierarhia functionalitate conturi
Ierarhia Plan Contabil ALL
Clasa 1 (conturi de capitaluri)
Clasa 2 (conturi de imobilizari)
..
Clasa 9
Grupa 20 (imobilizari necorporale)
Grupa 29 (provizioane pentru depreceierea imob)
Cont 201 Cont 211
Cont 212
..
..
Modelarea dimensional
Variabile (msuri) - aspectul cantitativ, comensurabil n uniti clasice de msur (kg.,buci, uniti monetare). O variabil este un atribut numeric al unui element din baza de fapte, un indicator sau o msur prin care se poate analiza performana activitii modelate. Exemple volumul vnzrilor (cantitativ/valoric), volumul achiziiilor, costul transportului, volumul datoriilor, volumul creanelor, profitul, volumul taxelor i impozitelor. datele cantitative centralizate
Modelarea dimensional Tabela de fapte ocup locul central n cadrul unui model dimensional i corespunde coleciei de fapte.
regrupeaz toi indicatorii referitori la un subiect de analiz care partajeaz acelai ansamblu de dimensiuni i care nu pot fi dedui din ali indicatori.
Vnzri
Cantitate Valoare
Tabela de fapte
Msuri ale activitii
Reprezentarea grafic la nivel conceptual a unei tabele de fapte
Modelarea dimensional
Granularitatea FAPTELOR reprezint gradul de detaliere a acestora - nivelul de detaliu necesar analizelor, care exprim numrul de membri ai unei dimensiuni. Se recomand ca tabela de fapte s menin granularitatea cea mai fin posibil.
determin dimensiunile principale ale modelului determin volumul bazei de date
26
Granularitatea datelor n depoziten Este un aspect important n proiectarea depozitelor de date, deoarece
determin volumul ocupat de daten Granularitatea se refer la nivelul de detaliu (sau de rezumare) a unei
uniti de date din depozit:n Cu ct nivelul de detaliu este mai mare, cu att granularitatea este mai mic
(mai fin) de ex. o simpl tranzacie este de granularitate micn Cu ct rezumarea este mai puternic, cu att granularitatea este mai mare;
de ex. suma tuturor tranzaciilor dintr-o lun
27
Niveluri de granularitate multiple n Nivelul de granularitate fin (detaliere mare) se folosete n bazele de
date operaionale i ca date nerezumate (sau slab rezumate) n depoziten Pe nivelul de granularitate ridicat (date puternic rezumate) se pot stoca
date pe perioade ndelungate i se folosesc pentru decizii de organizare
Modelarea dimensional Gradul de imprastiere a datelor ex: masura: vanzari
dimensiuni : client, produs, timp
Indicatorul volumul vanzarilor va avea valori valide numai pentru o mica fractiune a produsului cartezian a
dimensiunilor ( daca vanzarile reale se inregistreaza doar pentru 1% din combinatiile posibile clienti *produse*nr
zile gradul de imprastiere este de 9,99%)
Modelarea dimensional
Un model tridimensional se poate vizualiza/reprezenta cu ajutorul unui cub.
Un model multidimensional are ns mai multe dimensiuni un hypercub.
Perspectivele multidimensionale asupra datelor sunt numite cuburi de date.
Modelarea dimensional Modelul stea o reprezentare intuitiv a cubului de date conine o tabel de fapte (coninutul cubului de date)
un set de tabele dimensionale (dimensiunile activitii).
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Vnzri
IDTimp IDProdus
IDMagazin Cantitate Valoare
Magazin
IDMagazin Denumire magazin
Localitate Jude
Regiune ara
Produs
IDProdus Denumire prod.
Marc prod. Subcategorie prod
Categorie prod Raion
Modelarea dimensional
Modelul fulg de zpad o variant a schemei stea, rezultatul descompunerii uneia sau mai multor dimensiuni care au ierarhii (integrarea unor subdimensiuni sau a unor dimensiuni alternative).
dimensiunile sunt normalizate - apariia unui numr mare de noi tabele poate compromite performanele de navigare complicnd lucrurile n termeni de lizibilitate i gestiune
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Vnzri
IDTimp IDProdus
IDMagazin Cantitate Valoare
Magazin
IDMagazin Denumire magazin
Produs
IDProdus Denumire prod.
Marc prod. Subcategorie prod
Categorie prod Raion
Adres
IDLocalitate Jude
Regiune ara
Modelarea dimensional
Galaxia (constelaia) o colecie de scheme stea care au atribute dimensionale comune.
Fuzionarea mai multor modele stea i/sau fulg de nea care utilizeaz dimensiuni comune.
Serviciu
IDServiciu Denumire serv.
Subcategorie serv. Categorie serv.
Vnzri serv
IDTimp IDServiciu IDMagazin
Valoare serv.
Magazin
IDMagazin Denumire magazin
Localitate Jude
Regiune ara
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Vnzri prod.
IDTimp IDProdus
IDMagazin Cantitate
Valoare prod.
Produs
IDProdus Denumire prod.
Marc prod. Subcategorie prod
Categorie prod Raion
Modelarea logic
Implementarea modelului dimensional n mediul relaional:
fiecare fapt corespunde unei tabele, numit tabele de fapte
fiecare dimensiune corespunde unei tabele, numit tabel de dimensiuni.
Tabela de fapte CARACTERISTICI: Conine un numr foarte mare de tupluri milioane- care reprezint produsul cartezian al dimensiunilor
Dimensiunea ei crete dinamic, n funcie de cantitatea de date ncrcate la fiecare ciclu de mprosptare a bazei de date, precum i n funcie de cantitatea de date istorice stocate n baza de date.
Tabela de fapte
Este tabela care reflect performana activitii analizate. Conine toate msurile importante.
Cheia primar a tabelei este o cheie compus din cheile primare ale tabelelor dimensionale Este normalizat i realizeaz o legtur indirect ntre dimensiuni
Modelul stea
Tabela de fapte se leag de dimensiuni prin join-uri de egalitate.
Fiecare atribut din cheia primar a tabelei de fapte reprezint cheia primar a unei dimensiuni
Atributele care nu sunt chei pot fi agregate (tabelele de fapte conin doar atribute numerice)
Tabelele sunt denormalizate
Vnzri (IDProdus, IDMagazin, IDTimp, Cantitate, Valoare) Timp (IDTimp, Zi , Lun, Trimestru, Semestru, An) Magazin (IDMagazin, DenMagazin, Localitate, Jude Regiune, ar) Produs (IDProdus, Denumire prod., Marc prod., Subcategorie prod., Categorie prod., Raion)
Modelarea logic Paradigma obiect
Fiecare tabel de fapt corespunde unei clase, denumit clas de fapt;
fiecare dimensiune corespunde unei clase, denumit clas de dimensiuni.
Etapele generale ale procesului de proiectare a unui depozit de date
Delimitarea procesului economic ce va fi modelat.
Stabilirea nivelului de granularitate. Alegerea dimensiunilor - criterii de agregare
Alegerea msurilor
Seciune din modelul relaional al unei aplicaii tranzacionale n domeniul bancar:
Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau
ridicare de numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru fiecare
operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n localiti diferite.
CLIENT Client_id Nume Prenume Adresa Tip client Cont Telefon Data_deschidere
TRANZACII Tranz_nb Data_tranz Operaie Client_id Operator_id Suma Comision_id
COSTURI TRANZACII Comision_id Denumire Descriere Cost Data_modif
Modelare dimensional
msura activitii:
comisioanele asociate operaiilor dimensiuni: dat, operaie, filial, client
Dimensiunea DimensiuneaTIMP OPERAIE
TRANZACII
Dimensiunea FILIALA
Dimensiunea CLIENT
Schema stea a unui depozit de date
Timp_idZiuaLunaTrimestruAn
Operaie_idDenumire
Timp_idOperaie_idFiliala_idClient_idSumComision
Client_idNumeTip_client
Filiala_idNumeOraZona
TRANZACIICLIENT
FILIALA
Schema fulg de nea a unui depozit de datenomenclatoarele au subnomenclatoare sau nomenclatoare alternative
Timp_idZiuaLunaTrimestruAn
Operaie_idDenumire
Timp_idOperaie_idFiliala_idClient_idSumComision
Client_idNumeTip_clientLocalitatea
Filiala_idNumeOra
Timp_idZiuaSezon
OrasZona
Tip clientCtg clientSubctg client
Dimensiunea DimensiuneaTIMP OPERAIE
TRANZACIICLIENT
Dimensiunea FILIALA
Dimensiunea CLIENT
PERSONAL
DimensiuneaOPERATOR
Schema constelaie a unui depozit de date
Timp_idZiuaLunaTrimestruAn
Operaie_idDenumire
Timp_idOperaie_idFiliala_idClient_idSumComision
Client_idNumeTip_client
Filiala_idNumeOraZona
Timp_idFiliala_idOperator_idNr_tranzaciiComision_mediu
Operator_idNumeData_incadrareSalariu
Aspecte particulare ale proiectrii dimensionale
Aditivitatea faptelor faptele sunt numerice i n general aditive i valorificate de o manier continu (msurile sunt numerice i aditive pentru a permite rezumarea unui numr mare de nregistrri n cteva nregistrri).
Fapte semi-aditive : fapte care pot fi adiionate doar dup anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor indicatori)
Fapte non-aditive : nu pot fi deloc adiionate (indicatori calculai ca raport intre ali indicatori)
Vnzri IDTimp IDProdus TotalCantitate TotalValoare NrClienti Marjabrut
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Produs
IDProdus Denumire prod.
Marc prod. Subcategorie prod
Categorie prod Raion
Marjabrut = Profitbrut / Costprodus Marjabruta este non aditiv deoarece aceasta se calculeaza ca ratie a sumelor si nu ca suma a raiilor.
Vnzri
IDTimp IDProdus TotalCantitate TotalValoare NrClienti Costprodus
Timp
IDTimp Zi
Lun Trimestru Semestru
An
Produs
IDProdus Denumire prod.
Marc prod. Subcategorie prod
Categorie prod Raion
TotalCantitate, TotalValoare, NrClienti i Costprodus sunt perfect aditive. NrClieni este semi-aditiv.
Aspecte particulare ale proiectrii dimensionale
Tabelele de fapte fr fapte - pentru reprezentarea acelor procese ale activitii care dei nu prezint fapte msurabile sunt interesante pentru procesul de analiz, deci trebuie s fie cuprinse n depozitul de date
Tabelele de urmrire a evenimentelor au ca scop contorizarea evenimentelor rezultate din prezena simultan a mai multor dimensiuni n acelai loc i n acelai timp
Participare IDTimp IDCurs IDProfesor IDStudent
Ora/Timp
IDTimp
Curs
IDCurs
Profesor
IDProfesor
Student
IDStudent
Aspecte particulare ale proiectrii dimensionale Tabelele de acoperire spre deosebire de cele de urmrire a evenimentelor au ca scop de a pune n eviden ceea ce nu s-a ntmplat mai degrab dect ceea ce s-a ntmplat. Tabelele de acoperire in evidena tuturor instanierilor unor dimensiuni care la un moment dat sunt supuse unor stri, explicnd astfel componenta de acoperire din denumirea lor
Un exemplu clasic este tabela de urmrire a produselor aflate n promoie. Prin comparaie cu tabela aferent activitii de vnzare se pot determina produsele aflate n promoie dar care nu au fost vndute
Vnzri
IDTimp IDProdus IDPromo TotalCantitate TotalValoare NrClienti Costprodus Dataultimachiz
Timp
IDTimp
Produs
IDProdus
Promoie
IDPromo
Produse promo
IDTimp IDProdus IDPromo existen