Top Banner
Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
23
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: BI mit Apache Hadoop (CDH)

Business Integration mitCDH 4

(including Apache Hadoop)

Alexander Alten-LorenzCustomer Operations Engineer, Cloudera INC

Muenchen, 18. September 2012

Page 2: BI mit Apache Hadoop (CDH)

Herausforderungen

Größe Veränderungen Struktur

Page 3: BI mit Apache Hadoop (CDH)

Business Integration• CRM

• Analysen

• Social Networks

• Marketing

• Dokumente

• Such-Indices

• Rechnungsdaten

• Risikomanagement

• Universaler Datenzugriff

• Data Governance

• SAP / Salesforce

• Artikelmanagement

Page 4: BI mit Apache Hadoop (CDH)

Anwendungsbeispiele

Page 5: BI mit Apache Hadoop (CDH)

Risiko Management

• Problem: Bewertung von Kunden und Projekten

• Lösung: Finanzhistorie, Kommunikation, Mustererkennung

• Anwender: Banken, Versicherungen

Page 6: BI mit Apache Hadoop (CDH)

Empfehlungen

• Problem: Passende Produkte für Kunden empfehlen

• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse

• Anwender: eCommerce, Advertising

Page 7: BI mit Apache Hadoop (CDH)

Graph-Analyse

• Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen

• Lösung: Social Media Traffic auswerten und statistisch aufbereiten

• Anwender: Unternehmen, Behörden, NGO

Page 8: BI mit Apache Hadoop (CDH)

Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch

• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse

• Anwender: Retailer, Banken, Einzelhandel

Page 9: BI mit Apache Hadoop (CDH)

Textanalysen

• Problem: Bedeutung von Text erkennen

• Lösung: Schlüsselworte, Zusammenhänge erkennen

• Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung

Page 10: BI mit Apache Hadoop (CDH)

Datenmengen

• Ebay: 5 PB, Search Optimization

• Facebook: 30 PB, Logs, Reports

• Walmart, 2.5 PB, Customer Transactions

http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data

Page 11: BI mit Apache Hadoop (CDH)

Apache Hadoop

• Software Framework für grosse Mengen an unstrukturierten Daten

• Apache-Lizenz

• Zwei Kern-Komponenten

• HDFS: Verteilte Datenspeicherung

• MapReduce: Verteilte Datenverarbeitung

Page 12: BI mit Apache Hadoop (CDH)

Hadoop ClusterData Node

Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Page 13: BI mit Apache Hadoop (CDH)

Hadoop Distributed File System

Datei

Block Block Block Block Block Block Block

Data Node Data Node Data Node

Page 14: BI mit Apache Hadoop (CDH)

MapReduceDaten

QueryRDBMS

Daten

QueryHadoop

Page 15: BI mit Apache Hadoop (CDH)

Eigenschaften

HDFS MapReduce

Verteilung

Ausfallsicherheit

Skalierbarkeit

✔ ✔

✔ ✔

✔ ✔

Page 16: BI mit Apache Hadoop (CDH)

Hadoop-Ökosystem

MapReduce

HDFSJava API

RDBMS

Sqoop Flume

Logs

Connectors

...

Pig

Scripts

Hive

SQL HBase

Oozie

Zookeeper

Mahout

Hue

Whirr

Avro

Page 17: BI mit Apache Hadoop (CDH)

Beispiel einer Integration

Page 18: BI mit Apache Hadoop (CDH)

Aufgabenstellung• Auswerten von vorhandenen Daten aus

unterschiedlichen Datenbanken / CRM Systemen

• Realtime und Lifetime Statisken per Produkt

• Wiederkehrende Analysen

• Re-Import CRM

• Einzelabfragen per Enduser (Analyst)

Page 19: BI mit Apache Hadoop (CDH)

Lösungsweg

• Sqoop als Connector zu CRM / DB

• Terradata, Oracle, Postgres, MySQL

• Hive - HBase Integration

• Hive, gesteuert durch Oozie Workload Orchestrator

• Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)

Page 20: BI mit Apache Hadoop (CDH)

Sqoop

HiveHBase

Kerberos(AD, MITv5)

Oozie

HUEEnduser

CRM Park CDHIntegration Authentifikation

Automation

Real Time

Page 21: BI mit Apache Hadoop (CDH)

Cloudera

• 2009 in Palo Alto gegründet

• Cloudera's Distribution Including Hadoop

• CDH4 / Cloudera Manager4

• > 280 Angestellte weltweit

• Training, Consulting, Support, Development

• Enterprise Tools

Page 22: BI mit Apache Hadoop (CDH)

Cloudera Manager• Automated Deployment

• Monitoring

• Service Management

• Log Management

• Events and Alerts

• Reporting

• Support Integration

Page 23: BI mit Apache Hadoop (CDH)

Danke!

[email protected]

• Twitter: @mapredit

• Blog: mapredit.blogspot.com

• http://www.cloudera.com/

• http://hadoop. apache.org/