Top Banner
“Big Data” mit Apache Hadoop Alexander Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. April 2012 1
22
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Big Data mit Apache Hadoop

“Big Data” mitApache Hadoop

Alexander LorenzCustomer Operations Engineer, Cloudera INC

Muenchen, 18. April 2012

1

Page 2: Big Data mit Apache Hadoop

Herausforderungen

Größe Veränderungen Struktur

2

Page 3: Big Data mit Apache Hadoop

Beispiele• Web Logs

• RFID

• Social Networks

• Webseiten

• Dokumente

• Such-Indices

• Verbindungsdaten

• Astronomie

• Genetik

• Überwachung

• Medizin

• Bilder, Videos

3

Page 4: Big Data mit Apache Hadoop

Datenmengen

• Ebay: 5 PB, Search Optimization

• Facebook: 30 PB, Logs, Reports

• Walmart, 2.5 PB, Customer Transactions

http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data

4

Page 5: Big Data mit Apache Hadoop

10 Petabytes

http://blog.backblaze.com/2011/01/05/10-petabytes-visualized/

5

Page 6: Big Data mit Apache Hadoop

Etwas Geschichte

Dateisystem

Verarbeitung

RealTime

Lizenz

GFS HDFS

MapReduce MapReduce

BigTable HBase

nicht offen Apache

6

Page 7: Big Data mit Apache Hadoop

Apache Hadoop

• Software Framework für grosse Mengen an unstrukturierten Daten

• Apache-Lizenz

• Zwei Kern-Komponenten

• HDFS: Verteilte Datenspeicherung

• MapReduce: Verteilte Datenverarbeitung

7

Page 8: Big Data mit Apache Hadoop

Hadoop ClusterData Node

Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

8

Page 9: Big Data mit Apache Hadoop

Wo?• Eigenes Rechenzentrum

• Dienstleister des Vertrauens

• Cloud-Dienstleister

• Amazon

• Rackspace

9

Page 10: Big Data mit Apache Hadoop

Hadoop Distributed File System

Datei

Block Block Block Block Block Block Block

Data Node Data Node Data Node

10

Page 11: Big Data mit Apache Hadoop

MapReduceDaten

QueryRDBMS

Daten

QueryHadoop

11

Page 12: Big Data mit Apache Hadoop

Eigenschaften

HDFS MapReduce

Verteilung

Ausfallsicherheit

Skalierbarkeit

✔ ✔

✔ ✔

✔ ✔

12

Page 13: Big Data mit Apache Hadoop

Hadoop-Ökosystem

MapReduce

HDFSJava API

RDBMS

Sqoop Flume

Logs

Connectors

...

Pig

Scripts

Hive

SQL HBase

Oozie

Zookeeper

Mahout

Hue

Whirr

Avro

13

Page 14: Big Data mit Apache Hadoop

Cloudera

• 2009 in Palo Alto gegründet

• Cloudera's Distribution Including Hadoop

• CDH4 Beta 1 verfügbar

• > 200 Angestellte weltweit

• Training, Consulting, Support, Development

• Enterprise Tools

14

Page 15: Big Data mit Apache Hadoop

Cloudera Manager• Automated Deployment

• Monitoring

• Service Management

• Log Management

• Events and Alerts

• Reporting

• Support Integration

15

Page 16: Big Data mit Apache Hadoop

Anwendungsbeispiele

16

Page 17: Big Data mit Apache Hadoop

Risiko Management

• Problem: Bewertung von Kunden und Projekten

• Lösung: Finanzhistorie, Kommunikation, Mustererkennung

• Anwender: Banken, Versicherungen

17

Page 18: Big Data mit Apache Hadoop

Empfehlungen

• Problem: Passende Produkte für Kunden empfehlen

• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse

• Anwender: eCommerce, Advertising

18

Page 19: Big Data mit Apache Hadoop

Graph-Analyse

• Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen

• Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten

• Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale

19

Page 20: Big Data mit Apache Hadoop

Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch

• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse

• Anwender: ISPs, Banken

20

Page 21: Big Data mit Apache Hadoop

Textanalysen

• Problem: Bedeutung von Text erkennen

• Lösung: Schlüsselworte, Zusammenhänge erkennen

• Anwender: eCommerce

21

Page 22: Big Data mit Apache Hadoop

Danke!

[email protected]

• Twitter: @mapredit

• Blog: mapredit.blogspot.com

• http://www.cloudera.com/

• http://apache.hadoop.org/

• http://www.shs-viveon.com

22