Transcript

Business Integration mitCDH 4

(including Apache Hadoop)

Alexander Alten-LorenzCustomer Operations Engineer, Cloudera INC

Muenchen, 18. September 2012

Herausforderungen

Größe Veränderungen Struktur

Business Integration• CRM

• Analysen

• Social Networks

• Marketing

• Dokumente

• Such-Indices

• Rechnungsdaten

• Risikomanagement

• Universaler Datenzugriff

• Data Governance

• SAP / Salesforce

• Artikelmanagement

Anwendungsbeispiele

Risiko Management

• Problem: Bewertung von Kunden und Projekten

• Lösung: Finanzhistorie, Kommunikation, Mustererkennung

• Anwender: Banken, Versicherungen

Empfehlungen

• Problem: Passende Produkte für Kunden empfehlen

• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse

• Anwender: eCommerce, Advertising

Graph-Analyse

• Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen

• Lösung: Social Media Traffic auswerten und statistisch aufbereiten

• Anwender: Unternehmen, Behörden, NGO

Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch

• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse

• Anwender: Retailer, Banken, Einzelhandel

Textanalysen

• Problem: Bedeutung von Text erkennen

• Lösung: Schlüsselworte, Zusammenhänge erkennen

• Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung

Datenmengen

• Ebay: 5 PB, Search Optimization

• Facebook: 30 PB, Logs, Reports

• Walmart, 2.5 PB, Customer Transactions

http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data

Apache Hadoop

• Software Framework für grosse Mengen an unstrukturierten Daten

• Apache-Lizenz

• Zwei Kern-Komponenten

• HDFS: Verteilte Datenspeicherung

• MapReduce: Verteilte Datenverarbeitung

Hadoop ClusterData Node

Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Hadoop Distributed File System

Datei

Block Block Block Block Block Block Block

Data Node Data Node Data Node

MapReduceDaten

QueryRDBMS

Daten

QueryHadoop

Eigenschaften

HDFS MapReduce

Verteilung

Ausfallsicherheit

Skalierbarkeit

✔ ✔

✔ ✔

✔ ✔

Hadoop-Ökosystem

MapReduce

HDFSJava API

RDBMS

Sqoop Flume

Logs

Connectors

...

Pig

Scripts

Hive

SQL HBase

Oozie

Zookeeper

Mahout

Hue

Whirr

Avro

Beispiel einer Integration

Aufgabenstellung• Auswerten von vorhandenen Daten aus

unterschiedlichen Datenbanken / CRM Systemen

• Realtime und Lifetime Statisken per Produkt

• Wiederkehrende Analysen

• Re-Import CRM

• Einzelabfragen per Enduser (Analyst)

Lösungsweg

• Sqoop als Connector zu CRM / DB

• Terradata, Oracle, Postgres, MySQL

• Hive - HBase Integration

• Hive, gesteuert durch Oozie Workload Orchestrator

• Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)

Sqoop

HiveHBase

Kerberos(AD, MITv5)

Oozie

HUEEnduser

CRM Park CDHIntegration Authentifikation

Automation

Real Time

Cloudera

• 2009 in Palo Alto gegründet

• Cloudera's Distribution Including Hadoop

• CDH4 / Cloudera Manager4

• > 280 Angestellte weltweit

• Training, Consulting, Support, Development

• Enterprise Tools

Cloudera Manager• Automated Deployment

• Monitoring

• Service Management

• Log Management

• Events and Alerts

• Reporting

• Support Integration

Danke!

• alexander@cloudera.com

• Twitter: @mapredit

• Blog: mapredit.blogspot.com

• http://www.cloudera.com/

• http://hadoop. apache.org/

top related