Business Integration mitCDH 4
(including Apache Hadoop)
Alexander Alten-LorenzCustomer Operations Engineer, Cloudera INC
Muenchen, 18. September 2012
Herausforderungen
Größe Veränderungen Struktur
Business Integration• CRM
• Analysen
• Social Networks
• Marketing
• Dokumente
• Such-Indices
• Rechnungsdaten
• Risikomanagement
• Universaler Datenzugriff
• Data Governance
• SAP / Salesforce
• Artikelmanagement
Anwendungsbeispiele
Risiko Management
• Problem: Bewertung von Kunden und Projekten
• Lösung: Finanzhistorie, Kommunikation, Mustererkennung
• Anwender: Banken, Versicherungen
Empfehlungen
• Problem: Passende Produkte für Kunden empfehlen
• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse
• Anwender: eCommerce, Advertising
Graph-Analyse
• Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen
• Lösung: Social Media Traffic auswerten und statistisch aufbereiten
• Anwender: Unternehmen, Behörden, NGO
Gefahrenerkennung
• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse
• Anwender: Retailer, Banken, Einzelhandel
Textanalysen
• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge erkennen
• Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
Datenmengen
• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data
Apache Hadoop
• Software Framework für grosse Mengen an unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
• HDFS: Verteilte Datenspeicherung
• MapReduce: Verteilte Datenverarbeitung
Hadoop ClusterData Node
Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Hadoop Distributed File System
Datei
Block Block Block Block Block Block Block
Data Node Data Node Data Node
MapReduceDaten
QueryRDBMS
Daten
QueryHadoop
Eigenschaften
HDFS MapReduce
Verteilung
Ausfallsicherheit
Skalierbarkeit
✔ ✔
✔ ✔
✔ ✔
Hadoop-Ökosystem
MapReduce
HDFSJava API
RDBMS
Sqoop Flume
Logs
Connectors
...
Pig
Scripts
Hive
SQL HBase
Oozie
Zookeeper
Mahout
Hue
Whirr
Avro
Beispiel einer Integration
Aufgabenstellung• Auswerten von vorhandenen Daten aus
unterschiedlichen Datenbanken / CRM Systemen
• Realtime und Lifetime Statisken per Produkt
• Wiederkehrende Analysen
• Re-Import CRM
• Einzelabfragen per Enduser (Analyst)
Lösungsweg
• Sqoop als Connector zu CRM / DB
• Terradata, Oracle, Postgres, MySQL
• Hive - HBase Integration
• Hive, gesteuert durch Oozie Workload Orchestrator
• Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
Sqoop
HiveHBase
Kerberos(AD, MITv5)
Oozie
HUEEnduser
CRM Park CDHIntegration Authentifikation
Automation
Real Time
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
• CDH4 / Cloudera Manager4
• > 280 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
Cloudera Manager• Automated Deployment
• Monitoring
• Service Management
• Log Management
• Events and Alerts
• Reporting
• Support Integration
Danke!
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://hadoop. apache.org/