API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg Grundseminar, Betreuung durch Prof. Dr. Olaf Zukunft 05.12.2014
API Monitoring mit Predictive Analytics
von Bjoumlrn Baltbardis
Bjoumlrn Baltbardis M-INF HAW-HamburgGrundseminar Betreuung durch Prof Dr Olaf Zukunft 05122014
Bjoumlrn Baltbardis Folie 2Grundseminar M-INF HAW Hamburg
Inhalt des Vortrags
bull Einfuumlhrungndash Motivationndash XING API
bull Erkennungsmetrikenbull Loumlsungsstrategienndash Asynchrone Auswertungndash Information Flow Processing
bull Ziele und Ausblick
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg
Motivation
bull XINGndash soziales Netzwerkndash 14 Mio Mitglieder [XNG1] ndash ca14 Mio Requests Tagndash ca 60-80 des Traffic entfallen auf die API
bull Groszliges Datenaufkommenndash schwer angemessen zu uumlberwachen
bull Problemendash Fehlerndash Missbrauch
[Abb13 1]13
[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
XING API
Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg
XING API
bull Oumlffentliche REST APIbull 89 Resources in 15 Kategorien
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 2Grundseminar M-INF HAW Hamburg
Inhalt des Vortrags
bull Einfuumlhrungndash Motivationndash XING API
bull Erkennungsmetrikenbull Loumlsungsstrategienndash Asynchrone Auswertungndash Information Flow Processing
bull Ziele und Ausblick
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg
Motivation
bull XINGndash soziales Netzwerkndash 14 Mio Mitglieder [XNG1] ndash ca14 Mio Requests Tagndash ca 60-80 des Traffic entfallen auf die API
bull Groszliges Datenaufkommenndash schwer angemessen zu uumlberwachen
bull Problemendash Fehlerndash Missbrauch
[Abb13 1]13
[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
XING API
Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg
XING API
bull Oumlffentliche REST APIbull 89 Resources in 15 Kategorien
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 3Grundseminar M-INF HAW Hamburg
Motivation
bull XINGndash soziales Netzwerkndash 14 Mio Mitglieder [XNG1] ndash ca14 Mio Requests Tagndash ca 60-80 des Traffic entfallen auf die API
bull Groszliges Datenaufkommenndash schwer angemessen zu uumlberwachen
bull Problemendash Fehlerndash Missbrauch
[Abb13 1]13
[XNG1]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
XING API
Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg
XING API
bull Oumlffentliche REST APIbull 89 Resources in 15 Kategorien
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
XING API
Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg
XING API
bull Oumlffentliche REST APIbull 89 Resources in 15 Kategorien
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 5Grundseminar M-INF HAW Hamburg
XING API
bull Oumlffentliche REST APIbull 89 Resources in 15 Kategorien
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 6Grundseminar M-INF HAW Hamburg
Resource Beispiel - XING API
GET13 v1usersme13 Shows13 a13 par8cular13 users13 profile13
Parameters13 fields13 (OPTIONAL)13
13 13 13 users13 [13 13 13 13 13 13 13 13 13 13 13 13 id13 17425810_c9de1713 13 13 13 13 13 13 ac8ve_email13 bjoernbaltbardisde13 13 13 13 13 13 13 badges13 [13 13 13 13 13 13 13 13 13 PREMIUM13 13 13 13 13 13 13 ]13 13 13 13 13 13 13 birth_date13 13 13 13 13 13 13 13 13 13 year13 199213 13 13 13 13 13 13 13 13 month13 113 13 13 13 13 13 13 13 13 day13 2313 13 13 13 13 13 13 13 13 13 13 [helliphellip]13 13
ltxml13 version=1013 encoding=UTF-shy‐8gt13 ltusersgt13 13 13 ltusergt13 13 13 13 13 ltidgt17425810_c9de17ltidgt13 13 13 13 13 ltac8ve_emailgtbjoernbaltbardisdeltac8ve_emailgt13 13 13 13 13 ltbadgesgt13 13 13 13 13 13 13 ltbadgegtPREMIUMltbadgegt13 13 13 13 13 ltbadgesgt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 13 ltyeargt1992ltyeargt13 13 13 13 13 13 13 ltmonthgt1ltmonthgt13 13 13 13 13 13 13 ltdaygt23ltdaygt13 13 13 13 13 ltbirth_dategt13 13 13 13 13 13 [helliphellip]13 13 ltusergt13 ltusersgt13
Response13 (JSON)13 Response13 (XML)13
[XNG2]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull Fehlerpraumlven8on13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 8Grundseminar M-INF HAW Hamburg
OAuth ndash Missbrauchsrisiko
bull Mehrstufiger AuthentifizierungsmechanismusAPI-shy‐Consumer13 MusterApp13
|13
API13 Server13
User13
Zugriffsanfrage13 consumer_key13
Gewaumlhrt13 access_token13
[XNG3]13 13 Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 9Grundseminar M-INF HAW Hamburg
OAuth - Missbrauchsrisiko
bull consumer key kann gestohlen missbraucht werdenndash Verschleierung von API Nutzungndash Datenabruf im falschen Namenndash Rechtemissbrauchndash Umgehen von Thresholds beim Throttling
bull od fuumlr andere Apps erhoumlhen
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 10Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
GET v1usersme ldquofields ldquodisplay_name photo_urlsldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Bjoumlrn13 Baltbardis13
Kontakt13 113
Kontakt13 313
Kontakt13 213
MusterApp13 13
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
GET v1usersuser_idcontact_requests consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
Beispielhalter13 Ablauf13
113 Profil13 abrufen13
213 Kontakte13 abrufen13
313 Kontaktanfragen13 abrufen13
egrave13 Verhalten13 des13 consumer13 keys13 13 bdquo123XXXXXXXXXXXXXXXXXldquo13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 11Grundseminar M-INF HAW Hamburg
Missbrauchserkennung
BadApp13 13
GET v1usersme ldquofields ldquodisplay_name private_addressldquo consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Andere13 Parameter13
Moumlgliche13 Verdachtsfaumllle13
PUT v1usersmeweb_profilesfacebook consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoXYZXXXXXXXXXXXXXXXXXldquo
Bisher13 ungenutzte13 Resources13
Anomalien13 gegenuumlber13 bisherigen13 AbfolgenAlgorithmen13 GET v1usersmecontacts 113
GET v1usersme 213
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
ERKENNUNGSMETRIKEN
bull Missbrauchserkennung13 bull FehlerpraumlvenHon13 bull Technische13 Gegebenheiten13
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 13Grundseminar M-INF HAW Hamburg
Fehler Praumlvention
bull Was ist ein Fehlerndash Server gibt 400er oder 500er Status-Code zuruumlck
bull Wiederkehrende Muster bei Fehlernndash Aumlhnliche Abfolgendash Aumlhnliche Parameterndash Haumlufung bei bestimmten consumer_keylsquos
bull Vorteilendash Server-Fehler fruumlhzeitig erkennen
bull haumlufig Sicherheitsrelevantbull fruumlhzeitige Berichtigung experimenteller Features
ndash Detaillierte Fehleranalyse Tools fuumlr consumer
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 14Grundseminar M-INF HAW Hamburg
Technische Gegebenheiten
GET v1usersmecontacts consumer_key ldquo123XXXXXXXXXXXXXXXXXldquo access_token ldquoABCXXXXXXXXXXXXXXXXXldquo
xws-shy‐1413
xws-shy‐1513
xws-shy‐1613
MusterApp13
duration 0314159265359 recorded_at 2014-12-05T124831+0200 method GET path_info v1usersmecontacts host xws-15xxxcom params limit 100 offset 0 status 200 size 1234 ip_address rdquoXXXXXXXXXXXX consumer_key 123XXXXXXXXXXXXXXXXX access_token ABCXXXXXXXXXXXXXXXXX
API13 Server13
Analyse13 Server13 (Master)13
RabbitMQ13 Message13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull Informa8on13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 16Grundseminar M-INF HAW Hamburg
Asynchrone Auswertung
bull Im Cluster aus Performancegruumlndenbull Hadoop - de facto Standard
ndash Eigenes verteiltes Dateisystemndash MapReduce
bull Viele Erweiterungenndash Hive SQL aumlhnliche Abfragesprachendash Pig Erweitert MapReduce Faumlhigkeitenndash Drill Analyse und Query Enginendash Mahout Verteiltes machine learning Modul
[Abb13 2]13
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[HAD113 CUG1]13 13
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 17Grundseminar M-INF HAW Hamburg
Clustering
bull Grundlage fuumlr Anomalieerkennung
bull Typische Verfahrenndash partitionierendes Clustering (zB k-means)ndash hierarchisches Clusteringndash dichtenbasiertes Clustering
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[Abb13 3113 3213 33]13
[CLE1]13 13
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 18Grundseminar M-INF HAW Hamburg
Anomalie-Erkennung mit Hadoop
bdquoA Scalable Non-Parametric Anomaly Detection Framework for Hadoopldquo
bull Skalierbare Anomalie-Erkennungbull Clusteringndash bdquonon parametric clusteringldquo (Mean Shift Clustering)
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[YU1]13 13 Eine13 Anomalie13 Vier13 Anomalien13
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
LOumlSUNGSSTRATEGIEN
bull Asynchrone13 Auswertung13 13 bull InformaHon13 Flow13 Processing13 13
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 20Grundseminar M-INF HAW Hamburg
Information Flow Processing
bull Keine Speicherungbull Data Stream Processing (DSP)ndash Aus DBMS entstandenndash SQL aumlhnliche bestaumlndige Abfragen
bull Complex Event Processing (CEP)ndash Informationen = Eventsndash Atomare Events -gt houmlherwertige Eventsndash Eigene Sprache zur Definition von Mustern
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[CUG113 ZHA1]13 13
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 21Grundseminar M-INF HAW Hamburg
Vergleich IFP Frameworks
bdquoProcessing flows of information From data stream to complex event processingldquobull Gegenuumlberstellung DSP CEPbull 35 Sprachen bzw Frameworks untersuchtbull Betrachtet ndash Verteilung Benachrichtigung Zeitmodell
Datenmodell RegelmodellbdquoScalable hybrid stream and hadoop network analysis systemldquobull Hadoop + CEP =gt Stormbull Stream Daten angereichert mit persistenten
Daten
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
[BUM113 CUG113 DIA1]13 13
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
ZIELE UND AUSBLICK
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 23Grundseminar M-INF HAW Hamburg
Ziele und Ausblick
bull Grundprojektndash Analyse und Tests der Loumlsungsstrategien mit
Testdatenbull Generator fuumlr Testdaten
ndash Vergleich versch Algorithmenbull Hauptprojekt und Masterthesisndash Vertiefungndash Sammeln und Auswerten von Produktivdatenndash Ausarbeitung von Prozess bei Anomalie
Einfuumlhrung Erkennungsmetriken Loumlsungsstrategien Ziele und Ausblick
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Vielen Dank
Vielen Dank Fragen [Abb13 4]13
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 25Grundseminar M-INF HAW Hamburg
Quellen
bull XNG1 ldquoXING ist das soziale Netzwerk fuumlr berufliche Kontakterdquohttpscorporatexingcomdeutschunternehmen [Stand 281114]
bull XNG2 ldquoResourcesrdquohttpsdevxingcomdocsresources [Stand 011214]
bull XNG3 ldquoBrief information about Oauthrdquohttpsdevxingcomdocsauthentication [Stand 011214]
bull HAD1 httphadoopapacheorgbull CUG1 Gianpaolo Cugola and Alessandro Margara 2012 Processing flows of information From
data stream to complex event processing ACM Comput Surv 44 3 Article 15 (June 2012)bull ZHA1 Haopeng Zhang Yanlei Diao and Neil Immerman 2014 On complexity and optimization
of expensive queries in complex event processing In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD 14) ACM New York NY USA
bull DIA1 Yanlei Diao Neil Immerman and Daniel Gyllstrom SASE+ An Agile Language for Kleene Closure over Event Streams University of Massachusetts Amherst
bull BUM1 Vernon KC Bumgardner and Victor W Marek 2014 Scalable hybrid stream and hadoop network analysis system In Proceedings of the 5th ACMSPEC international conference on Performance engineering (ICPE 14) ACM New York NY USA
bull YU1 Li Yu and Zhiling Lan 2013 A scalable non-parametric anomaly detection framework for Hadoop In Proceedings of the 2013 ACM Cloud and Autonomic Computing Conference (CAC 13) ACM New York NY USA
bull CLE1 Juumlrgen Cleve and Uwe Laumlmmel Data Mining De Gruyter Oldenbourg 978-3486713916
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview
Bjoumlrn Baltbardis Folie 26Grundseminar M-INF HAW Hamburg
Abbildungen
bull Abbildung 1 Folie 3 XING Logo httpscorporatexingcomdeutschpressebildarchivxing-logoslogos-printformat
bull Abbildung 2 Folie 16 Hadoop httphadoopapacheorg
bull Abbildung 31 Folie 17 Clustering Beispiel 1httphomedeibpolimiitmatteuccClusteringtutorial_html
bull Abbildung 32 Folie 17 Clustering Beispiel 2httphomepagesuni-paderborndepschaelsemantisches_clusteringSchael_SemantischesClusteringhtml
bull Abbildung 33 Folie 17 Clustering Beispiel 3 httpwwwdbsinformatikuni-muenchende~kailingFoprassubspace1html
bull Abbildung 4 Folie 24 Marvin httpsdevxingcomoverview