This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Systemübergreifende Kostennormalisierung für Integrationsprozesse
Matthias Böhm1,2 , Dirk Habich2, Wolfgang Lehner2, Uwe Wloka1
1 Hochschule für Technik und Wirtschaft Dresden (FH), Database Group2 Technische Universität Dresden, Database Technology Group
BTW 2009
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 2
>Problemstellung
Einführung Integrationsprozesse
Invoke o3
Fork o1
Assign o5Assign o2
Selection o4
Join o8
Assign o9
Invoke o10
Invoke o6
Selection o7
Receive o1
Switch o2
Translation o5
Assign o6
Assign o8
Invoke o7
Invoke o9
Translation o3
Assign o4
a) Datengetriebener Integrationsprozess
b) Zeitbasierter Integrationsprozess
SAP R/3
JDBC
Web Service
JDBC JDBC
Web Service
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 3
>Problemstellung
Kontext Modellgetriebene Generierung
von Integrationsprozessen GCIP (Generation of Complex
Integration Processes)
Problem Vergleichbarkeit von
Integrationssystemen Voraussetzung für systemübergreifende Optimierung
Überblick Problemstellungen der Kostenmodellierung und -normalisierung Plattforminvariantes Kostenmodell für Integrationsprozesse Algorithmen zur Kostennormalisierung
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 4
>Problemstellung
Annahme 1: Generierbarkeit Plattformunabhängige Modellierung möglich Generierung von Plattformspezifischen Integrationsaufgaben
möglich (GCIP, Orchid, ETL Prozesse) Voraussetzung für Wahlmöglichkeit
Annahme 2: Auswahlmöglichkeit Typische IT Infrastruktur umfasst mehrere Integrationssysteme mit überlappenden
Funktionalitäten [Sto02] Spezielle Operatoren Unterstützte externe Systeme Möglichkeiten auf externe Ereignisse zu reagieren Transaktionale Eigenschaften
Auswahl IS ohne externes Verhalten zu beeinflussen (Korrektheit)
[Sto02] Michael Stonebraker. Too Much Middleware. SIGMOD Record, 31(1), 2002.
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 5
>Problemstellung
Vision des „Invisible Deployments“ Kernidee
Ebene der Integrationssysteme und -technologien systematisch zu abstrahieren Virtualisierung im Sinne der transparenten Auswahl
Hauptproblem der Kostennormalisierung: Die Kostennormalisierung ist per Definition unidirektional, da eine denormalisierte in exakt eine normalisierte Form abgebildet werden kann (jedoch nicht vice versa).
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 7
>Gliederung
Problemstellung und Herausforderungen
Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken
Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur
Anwendungsszenario Plan- und Kostendiagramme
Experimentelle Evaluierung
Zusammenfassung
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 8
>Kostenmodellierung
Hauptproblem Systemübergreifender Charakter des Anwendungsgebietes
Beispiel
Plan/System
Statistik o1 o2 o3 Summe
Ps1 |dsin| - 1573 1345
|dsout| 1573 1345 0
Ps2 |dsin| - 1105 1017
|dsout| 1105 1017 0
Abstrakter Kostenvergleich (z.B. auf Ebene der Kardinalitäten) schlägt fehl, da unterschiedliche Arbeitslast
Receive o1 Translation o2
Invoke o3
|dsout| |dsin|+|dsout|
|dsin|+|dsout|
Ps2
???
Plan/System
Statistik o1 o2 o3 Summe
Ps1 |dsin| - 1573 1345
|dsout| 1573 1345 0
C(ol) 1573 2918 1345 5836
Ps2 |dsin| - 1105 1017
|dsout| 1105 1017 0
C(ol) 1105 2122 1017 4244
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 9
>Kostenmodellierung (2)
Hauptproblem Systemübergreifender Charakter des Anwendungsgebietes
BeispielReceive o1 Translation
o2
Invoke o3
te(ol) te(ol) te(ol)
Plan/System
Statistik o1 o2 o3 Summe
Ps1 te(ol) 10 ms 150 ms 70 ms
Ps2 te(ol) 10 ms 140 ms 61 ms
Vergleich normalisierter Verarbeitungsstatistiken (Ausführungszeit) schlägt ebenfalls fehlt, da keine Aussage über Arbeitslast
Ps2
???
Plan/System
Statistik o1 o2 o3 Summe
Ps1 te(ol) 10 ms 150 ms 70 ms 230 ms
Ps2 te(ol) 10 ms 140 ms 61 ms 211 ms
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 10
>Kostenmodellierung (3)
Lösungsansatz Zweistufiges Verfahren der Kostenmodellierung Stufe 1: Bestimmung absoluter Kosten auf abstraktem Niveau Stufe 2: Gewichtung mit normalisierten Statistiken
Plan/System
Statistik o1 o2 o3 Summe
Ps1
C(ol) 1573 2918 1345 5836
Ps2
C(ol) 1105 2122 1017 4244
Receive o1 Translation o2
Invoke o3
te(ol) |dsout|
te(ol)|dsin|+|dsout|
te(ol)|dsin|+|dsout|
Ps1
Plan/System
Statistik o1 o2 o3 Summe
Ps1 te(ol) 10 ms 150 ms 70 ms 230 ms
C(ol) 1573 2918 1345 5836
Ps2 te(ol) 10 ms 140 ms 61 ms 211 ms
C(ol) 1105 2122 1017 4244
Plan/System
Statistik o1 o2 o3 Summe
Ps1 te(ol) 10 ms 150 ms 70 ms 230 ms
C(ol) 1573 2918 1345 5836
NC(ol) 0.0064 0.0514 0.0420 0.1098
Ps2 te(ol) 10 ms 140 ms 61 ms 211 ms
C(ol) 1105 2122 1017 4244
NC(ol) 0.0091 0.0660 0.0599 0.1350
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 11
>Kostenmodellierung (4)
Plattforminvariantes Kostenmodell Ausgelegt für Message Transformation Model (MTM)
Interaktionsorientierte Operatoren Datenflussorientierte Operatoren (angelehnt an [Mak07]) Kontrollflussorientierte Operatoren
Problembehebung Herstellung der Vergleichbarkeit bei disjunkten Prozessinstanzen Unterschiedliche Hardware wird modellinhärent berücksichtigt
Im Papier: Vollständiges plattforminvariantes Kostenmodell Erhebung von Statistiken (Anforderungen, Vorgehensweise)
[Mak07] Mazeyar E. Makoui. Anfrageoptimierung in objektrelationalen Datenbanken durch kostenbedingte Termersetzungen. Dissertation, Universität Hannover, 2007.
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 12
>Gliederung
Problemstellung und Herausforderungen
Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken
Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur
Anwendungsszenario Plan- und Kostendiagramme
Experimentelle Evaluierung
Zusammenfassung
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 13
>Kostennormalisierung
Überblick zur Kostennormalisierung
Detaillierte Verarbeitungsstatistiken
Grundnormalisierung Algorithmus BaseNormalization- Parallelität von Instanzen- Ressourcenverwendung- Unterschiedliche Verarbeitungsmodelle
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 16
>Grundnormalisierung (3)
Problembehebung Parallelität von Instanzen Ressourcenverwendung Unterschiedliche Verarbeitungsmodelle (mit Einschränkungen)
Im Papier: Algorithmus 1 BaseNormalization Formale Komplexitätsanalyse des Algorithmus: O(n2 m2)
n … Anzahl Prozessinstanzen m … Anzahl Operatoren
Problem Statistiken beziehen sich semantisch auf Integrationsaufgabe/Operationen des
konkreten Integrationssystems
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 17
>Semantik Transformation
Intuition zum Algorithmus SemanticTransformation Problem: Erhobene Statistiken beziehen sich semantisch auf Operatoren des
Zielsystems (und nicht die zentrale Repräsentation)
PETL
PMTM
o1 o2 o3 o4 o6o5
o1‘ o2‘ o3‘ o4‘ o6‘o5‘ o7‘
1:1 N:1 1:N N:M(1:1) (N:1)
Problem: Fehlende Statistiken
Idee Bestimmung des semantischen Bezugs (invers zur Generierung) Verwendung bidirektionaler Transformationsregel (falls vorhanden) Übernahme von Statistiken
Direkte Übernahme falls verlustfrei möglich Andernfalls Gruppierung der Statistiken als Teilprozesse
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 18
>Semantik Transformation (2)
Problembehebung Semantik erhobener Statistiken
Im Papier: Algorithmus 2 SemanticTransformation Formale Komplexitätsanalyse des Algorithmus: O(m2 + m´)
m … Anzahl Operatoren (Quellsystem) m´… Anzahl Operatoren (Zielsystem)
Problem Inkonsistente und fehlende Statistiken
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 19
>Statistische Korrektur
Intuition zum Algorithmus StatisticalCorrection Problem: Inkonsistente und unvollständige Statistiken
PMTM o1 o2 o3 o4 o6o5 o7
te(op1)|dsin||dsout|
te(op2)|dsin||dsout|
te(o2)|dsin||dsout|
te(o1)|dsout|
1) Prüfung |dsout|(oi) == |dsin|(oi+1)
te(o3)|dsin||dsout|
te(o4)|dsin||dsout|
te(o5)|dsin||dsout|
te(o7)|dsin||dsout|
te(o6)|dsin||dsout|
2) Interpolation
Idee Bestimmung von Inkonsistenzen zwischen Statistiken Löschung von inkonsistenten Statistiken Berechnung (Interpolation) fehlender Statistiken
Statistiken welche nicht erhobenen werden konnten Statistiken welche aus 1:N / N:M Abbildungen hervorgegangen sind Statistiken welche im Zuge der Konsistenzanalyse gelöscht wurden
Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 20