Transcript

“Big Data” mitApache Hadoop

Alexander LorenzCustomer Operations Engineer, Cloudera INC

Muenchen, 18. April 2012

1

Herausforderungen

Größe Veränderungen Struktur

2

Beispiele• Web Logs

• RFID

• Social Networks

• Webseiten

• Dokumente

• Such-Indices

• Verbindungsdaten

• Astronomie

• Genetik

• Überwachung

• Medizin

• Bilder, Videos

3

Datenmengen

• Ebay: 5 PB, Search Optimization

• Facebook: 30 PB, Logs, Reports

• Walmart, 2.5 PB, Customer Transactions

http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data

4

10 Petabytes

http://blog.backblaze.com/2011/01/05/10-petabytes-visualized/

5

Etwas Geschichte

Dateisystem

Verarbeitung

RealTime

Lizenz

GFS HDFS

MapReduce MapReduce

BigTable HBase

nicht offen Apache

6

Apache Hadoop

• Software Framework für grosse Mengen an unstrukturierten Daten

• Apache-Lizenz

• Zwei Kern-Komponenten

• HDFS: Verteilte Datenspeicherung

• MapReduce: Verteilte Datenverarbeitung

7

Hadoop ClusterData Node

Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

Data Node

8

Wo?• Eigenes Rechenzentrum

• Dienstleister des Vertrauens

• Cloud-Dienstleister

• Amazon

• Rackspace

9

Hadoop Distributed File System

Datei

Block Block Block Block Block Block Block

Data Node Data Node Data Node

10

MapReduceDaten

QueryRDBMS

Daten

QueryHadoop

11

Eigenschaften

HDFS MapReduce

Verteilung

Ausfallsicherheit

Skalierbarkeit

✔ ✔

✔ ✔

✔ ✔

12

Hadoop-Ökosystem

MapReduce

HDFSJava API

RDBMS

Sqoop Flume

Logs

Connectors

...

Pig

Scripts

Hive

SQL HBase

Oozie

Zookeeper

Mahout

Hue

Whirr

Avro

13

Cloudera

• 2009 in Palo Alto gegründet

• Cloudera's Distribution Including Hadoop

• CDH4 Beta 1 verfügbar

• > 200 Angestellte weltweit

• Training, Consulting, Support, Development

• Enterprise Tools

14

Cloudera Manager• Automated Deployment

• Monitoring

• Service Management

• Log Management

• Events and Alerts

• Reporting

• Support Integration

15

Anwendungsbeispiele

16

Risiko Management

• Problem: Bewertung von Kunden und Projekten

• Lösung: Finanzhistorie, Kommunikation, Mustererkennung

• Anwender: Banken, Versicherungen

17

Empfehlungen

• Problem: Passende Produkte für Kunden empfehlen

• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse

• Anwender: eCommerce, Advertising

18

Graph-Analyse

• Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen

• Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten

• Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale

19

Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch

• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse

• Anwender: ISPs, Banken

20

Textanalysen

• Problem: Bedeutung von Text erkennen

• Lösung: Schlüsselworte, Zusammenhänge erkennen

• Anwender: eCommerce

21

Danke!

• alexander@cloudera.com

• Twitter: @mapredit

• Blog: mapredit.blogspot.com

• http://www.cloudera.com/

• http://apache.hadoop.org/

• http://www.shs-viveon.com

22

top related