Robert Robert Wrembel Wrembel Politechnika Pozna Politechnika Poznańska ska Instytut Informatyki Instytut Informatyki [email protected][email protected]www.cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel rwrembel Hurtownie danych Hurtownie danych - przegl przeglą d d technologii technologii 2 R.Wrembel - Politechnika Poznańska, Instytut Informatyki Kierunki rozwoju Kierunki rozwoju Półautomatyczne konstruowanie schematów HD Ewolucja HD temporalne i wielowersyjne HD ETL optymalizacja ETL ETL czasu rzeczywistego ewolucja ETL konstruowanie ETL dla źródeł o złożonych strukturach Magazynowanie i przetwarzanie danych złożonych HD XML przestrzenny OLAP (Spatial OLAP) analiza danych strumieniowych (data streams) HD dla bio-informatyki Integracja HD
23
Embed
Hurtownie danych -przegląd technologii · Analiza danych przestrzennych geografia, geologia, urbanistyka, gospodarka leśna, przemysłwydobywczy, astronomia Analiza przestrzenno-czasowa
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Robert Robert WrembelWrembelPolitechnika PoznaPolitechnika Poznańńskaska
Hurtownie danych Hurtownie danych -- przeglprzegląąd d technologiitechnologii
2R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Kierunki rozwojuKierunki rozwoju
� Półautomatyczne konstruowanie schematów HD� Ewolucja HD ���� temporalne i wielowersyjne HD� ETL
� optymalizacja ETL� ETL czasu rzeczywistego� ewolucja ETL� konstruowanie ETL dla źródeł o złożonych strukturach
� Magazynowanie i przetwarzanie danych złożonych� HD XML� przestrzenny OLAP (Spatial OLAP)� analiza danych strumieniowych (data streams)� HD dla bio-informatyki
� Integracja HD
3
Konstruowanie schematu HDKonstruowanie schematu HD
� Modelowanie konceptualne� model związków-encji� UML i rozszerzenia stereotypów
� Koncentracja na wymagania użytkowników (user/demand driven) - podejście tradycyjne� analiza wymagań� wywiady z użytkownikami realizowane przez analityków� uwzględnia cele biznesowe
� Koncentracja na strukturę i zawartość źródeł(source/supply/data driven)� schemat HD odzwierciedla strukturę źródeł� automatyczne konstruowanie� nie uwzględnia celów biznesowych
4
Konstruowanie schematu HDKonstruowanie schematu HD
� Półautomatycznie na podstawie struktury systemów źródłowych
� Song I.-Y., Khare R., Dai B.: SAMSTAR: a semi-automated lexical method for generatingstar schemas from an entity-relationship diagram. DOLAP, 2007
12R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Ewolucja HD Ewolucja HD -- przykprzykłład ad (2)(2)
� Przyporządkowanie produktów do kategorii
V1 V2
1 maja 2004
13R.Wrembel - Politechnika Poznańska, Instytut Informatyki
� Przewidywanie przyszłości i trendów biznesowych� Analiza alternatywnych rozwiązań biznesowych
(ang. what-if analysis)� Przykład:
� zapytanie o spadek/wzrost łącznej kwoty mandatów płaconych w województwie wielkopolskim, przy założeniu, że minimalna i maksymalna grzywna za jazdę bez zapiętych pasów bezpieczeństwa została zwiększona o 10%
Ewolucja HDEwolucja HD
14R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Temporalne HDTemporalne HD
� Znaczniki czasowe ważności danych� Umożliwiają przechowywanie historycznych wersji
DANYCH� Wersje uporządkowane liniowo
� brak wsparcia dla symulacji
15R.Wrembel - Politechnika Poznańska, Instytut Informatyki
WielowersyjnaWielowersyjna HDHD
� Mechanizm rozwiązującego problemy związane z koniecznością zarządzania zmianami schematu i struktury wymiarów
� MVDW składa się ze zbioru trwałych wersji� każda wersja posiada znaczniki czasowe początku i końca jej
ważności
t1 t2 t3 t4
16R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Temporalne i Temporalne i wielowersyjnewielowersyjne jjęęzyki zyki zapytazapytańń
� Przeszukiwanie danych w wersjach w zadanym przedziale czasowym
� Wyznaczenie wyników zapytań z poszczególnych wersji i ich integracja w jeden spójny zbiór posiadający strukturę magazynu z zadanej wersji lub momentu czasowego
17/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Optymalizacja ETLOptymalizacja ETL
� Optymalizacja przez transformację przepływu � zmianę kolejności elementów w przepływie� zrównoleglenie zadania� scalenie kilku zadań
� Wyznaczenie poprawnych transformacji dla zadanego przepływu
� Znalezienie przepływu minimalizującego czas wykonania
18/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
PrzykPrzykłładad
7
64 5
Sprzedaż {..., kwota, data, ...}
Sales {..., cost, sales_date, ...}
NotNull(kwota)
31
2
EUR2PLN KonwDaty SUM(cost,month)
8
Select(kwota>9000)
� Źródło Sprzedaż� kwota [PLN]� data [yyyy-mm-dd]� przechowuje dane nt
sprzedaży miesięcznej
� Źródło Sales� cost [EUR]� sales_date [dd/mm/yy]� przechowuje dane nt
sprzedaży dziennej
19/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
� select * from klienci@ZR1 where miasto='Pozna ń'
� czy jest indeks na atrybucie miasto?� jaka jest selektywność warunku� jaki optymalizator wykorzystuje źródło� odczytanie całej tabeli klienci może okazać się bardziej
efektywne
22/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ArktosArktos IIII
� Transformacje przepływów� swap - selekcja jak najwcześniej� factorize - Z11 i Z12 wykonują te same operacje na 2
różnych strumieniach wejściowych ���� wykonanie operacji na scalonym strumieniu
� distribute� merge - logiczne grupowanie zadań, które muszą nastąpić
po sobie� split
Z2Z1
Z2 Z1
Z2
Z11
Z12
Z2 Z1
swap factorize distribute
Z2Z1
Z
merge split
23/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ArktosArktos IIII
� Poprawność transformacji� Swap
� Z1 ma jedno źródło, Z2 ma jeden cel� kompatybilność schematów we/wy
• we.Z1={b,c} i wy.Z1={b,c}• we.Z2={b,c} i wy.Z2={b,c}
� Factorize/Distribute� Z11 i Z12 mają 1 cel Z2 (operacja na zbiorach)� Z11 i Z12 realizują tę samą operację ale na innych
przepływach wejściowych
Z2Z1
abcd
bc
bc
bc
bc
Z2
Z11
Z12
24/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ArktosArktos IIII
� Przeszukiwanie przestrzeni dozwolonych transformacji przepływu ETL� pełne (nie realizowalne w skończonym czasie dla 40 i
więcej zadań)� heurystyki
25/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ETL czasu rzeczywistegoETL czasu rzeczywistego
� Zastosowanie ���� HD czasu rzeczywistego� Cechy
� czas pomiędzy zmianą w źródle, a uaktualnieniem HD ����kilka - kilkadziesiąt minut
� wolumen odczytywanych i przetwarzanych danych ���� mały w porównaniu z podejściem standardowym ���� możliwośćprzetwarzania potokowego w RAM
� Problemy� inny rodzaj przetwarzania ���� mikro-wsadowe� częstotliwość uaktualniania HD i struktur fizycznych
(perspektywy zmaterializowane, indeksy)
26/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ETL czasu rzeczywistegoETL czasu rzeczywistego
mon
itor
mon
itor
tran
sfor
mac
ja
inte
grac
ja
mikro-partycja
partycja główna
mik
ro-w
sad
zasilanie w cyklu dziennym
zasilanie w czasie rzeczywistym
� Mikro-partycja (MP) przechowuje zmiany z bieżącego dnia � Zawartość MP przesyłana wsadowo do partycji głównej (PG) np. raz na
dobę� Pełen obraz danych ���� MP+PG (zintegrowane np. za pomocą perspektywy)� Kimball R., Caserta J.: The Data Warehouse ETL Toolkit: Practical Techniques for Extracting,
Cleaning. Wiley, 2004
27/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ETL czasu rzeczywistegoETL czasu rzeczywistego
� regulatorZ - zarządza przesyłaniem danych ze źródła, (bada aktualne obciążenie źródła, czy aktualny wolumen danych zmieści się w zadanym oknie czasowym)
� regulatorD - informuje, z którego źródła dane są gotowe do odczytania (przygotowany został wolumen danych)
� regulatorH - zarządza przesyłaniem danych do HD (zapewnia QoS-QoD)� Vassiliadis P., Simitsis A.: Near Real Time ETL. Annals of Information Systems, Springer, 2009
mon
itor
HDregu
lato
rZ
regulatorD regulatorH
mon
itor
regu
lato
rZ
28/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Ewolucja ETLEwolucja ETL
� Zmiana struktury źródła danych� konieczność przedefiniowania (fragmentu) procesu ETL� ponowna optymalizacja procesu
� Problematyka� wykrywania zmian w strukturze źródeł� automatyczna modyfikacja procesu ETL
� Sellis T., Simitsis A.: ETL Workflows: From Formal Specification to Optimization. ADBIS 2007
29/72R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ETL dla danych zETL dla danych złłoożżonychonych
� Źródła danych� multimedialne, GIS, XML, tekstowe bd, strony WWW
� Czyszczenie danych i eliminowanie duplikatów� równoważne sobie obrazy, mapy� równoważne dokumenty XML (struktura i/lub zawartość)
� Dane o większych rozmiarach� Przetwarzanie danych bardziej złożone obliczeniowo ����
problem zakończenia procesu w zadanym czasie
30R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Magazynowanie i analiza danych Magazynowanie i analiza danych zzłłoożżonychonych
� Obiektowo-relacyjne HD� Multimedialne HD� Semistrukturalne HD� Magazynowanie i przetwarzanie danych ze
strumieni (ang. data streams)
31R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Hurtownie danych dla XMLHurtownie danych dla XML
� Powszechność danych XML (systemy e-...)� Potrzeba analizy tych danych w sposób podobny do
tradycyjnego� Budowanie HD w oparciu o źródła XML� Analiza danych XML
� Byung-Kwon Park B-K., Han H., Song I-Y.: XML-OLAP: A Multidimensional Analysis Framework for XML Warehouses. DAWAK, 2005
� Boussaid O., Messaoud R.B., Choquet R., Anthoard S.: X-Warehousing : An XML-Based Approach for Warehousing Complex Data. ADBIS, 2006
� Ravat F., Teste O., Tournier R., Zurlfluh Z.: Designing and Implementing OLAP Systems from XML Documents. Annals of Information Systems, Springer, 2008
32R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Hurtownie danych dla XMLHurtownie danych dla XML
� Schemat konceptualny HD dla XML jest reprezentowany tzw. modelem galaktyki
Konferencje
Czas
Artykuły
Autorzy
nazwaseria
wsp. przyj ęć
rok miesi ąc dzień
rodzaj
autor
zespół
instytut
tytuł
kategoriamiastokraj
33R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Hurtownie danych dla XMLHurtownie danych dla XML
� Metodyka projektowania HD
schematgalaktyki
wymaganiadot. analizy
XML schemat dokumentówopisany DTD
scal
anie spójny schemat
galaktyki HD
� Scalanie schematu galaktyki ze schematem dokumentów XML może wymagać modyfikacji galaktyki i dokumentów
� Dokumenty XML składowane w relacyjnej bazie danych
34R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Hurtownie danych dla XMLHurtownie danych dla XML
� X-Warehouse
XMLtransformacja dokumentów XML zgodnie z schematem konceptualnym
drzewo atrybutów implementowane jako XML Schema
35R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Dok. XMLDok. XML
Dok. XMLDok. XML
Dok. XML
Dok. XML
Hurtownie danych dla XMLHurtownie danych dla XML
� XML-OLAP� fakty i instancje wymiarów są reprezentowane za
pomocą dokumentów XML� przechowywane w bazie danych XML� język analizy danych XML-MDX bazujący na językach
MDX i XQuery� miary specyfikowane za pomocą wyrażeń XQuery -
analogia do perspektywy udostępniającej jeden atrybut� operatory agregacji miary
• dla wartości numerycznych• dla wartości tekstowych
– podsumowanie treści
– główny temat
– n słów kluczowych
Dok. XML
Dok. XML
36R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Przestrzenny OLAPPrzestrzenny OLAP
� 80% danych ma charakter przestrzenny [Gonzales L.:
� obiekty geometryczne 2 i 3 wymiarowe� mapy, zdjęcia
� Systemy GIS (Geographical InformationSystems)/przestrzenne bazy danych� wsparcie dla przetwarzania obiektów przestrzennych � indeksowanie� składowanie� brak wparcia dla OLAP
37R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Przestrzenny OLAPPrzestrzenny OLAP
� Analiza danych przestrzennych� geografia, geologia, urbanistyka, gospodarka leśna,
przemysł wydobywczy, astronomia
� Analiza przestrzenno-czasowa� np. zmiany biegu rzek, ukształtowania terenu
� Przetwarzanie obrazów + analiza ich zawartości
38R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Przestrzenny OLAPPrzestrzenny OLAP
� Zbiory danych przestrzennych� United Nations Environment Program
• zasoby wodne, populacje, obszary leśne, emisja zanieczyszczeń, zmiany klimatyczne
� NASA� System obserwacji ziemi NASA EOSDIS
• głównie zdjęcia satelitarne• 1 000 TB rocznie
39R.Wrembel - Politechnika Poznańska, Instytut Informatyki