Top Banner
© inovex Academy Hadoop & map-reduce 1
39

Webinar - Big Data: Einführung in Hadoop und MapReduce

Jul 07, 2015

Download

Documents

inovex GmbH

Bei der Präsentation handelt es sich um die Folien des Webinars „Big Data: Einführung in Hadoop und MapReduce“, das von inovex in 2012 und 2013 durchgeführt wurde.
Herausforderung Big Data: Viele Unternehmen sind heute gezwungen, mit immer größeren Datenmengen umzugehen. Wenn Datenvolumina jenseits von 100 TB ausgewertet werden sollen, sich die Analyse-Anforderungen häufig ändern oder klassische ETL-Prozesse zu langsam sind, dann versprechen die neuen Big-Data-Technologien rund um das Hadoop-Ecosystem fundierte Abhilfe.
Das Webinar richtete sich an Personen, die sich mit der Analyse großer Datenmengen beschäftigen. Das Ziel war es, ein solides Überblickswissen zu den neuen Big-Data-Technologien zu vermitteln, damit die Teilnehmer die Potenziale von Big Data für das eigene Unternehmen eigenständig bewerten können. In dem 45-minütigen Webinar erklärte das inovex-Team die Idee und die Funktionsweise des Hadoop File Systems, die wesentlichen Komponenten eines Hadoop-Clusters und was es beim Aufbau zu beachten gilt sowie das Grundprinzip und die Implementierungsmöglichkeiten von MapReduce.
inovex als Hadoop-Spezialist: Das Apache Hadoop Framework hat sich als Technologie-Standard für Big Data etabliert. inovex ist einer der ersten BI-Dienstleister in Deutschland, die über Projekterfahrung mit Hadoop verfügen. Das Unternehmen deckt die ganze Hadoop-Palette ab: Aufbau der Infrastruktur, Big Data Engineering, Einführung von MapReduce und die Unterstützung angrenzender Technologien (HBase, Pig, Hive).
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Hadoop & map-reduce

1

Page 2: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Speakers

1

Dr. Kathrin SpreyerBig Data Engineer

Patrick ThomaHead of Solution Development

Page 3: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Inevitable hadoop

2004: Google MapReduce paper

2006: Hadoop team around Doug Cutting at Yahoo!

2010/11: IBM’s Watson

2011/12: Hadoop connectors for Oracle products

Oct 2012: Microsoft (connectors f. Azure, HDInsights)

Oct 2012: SAP (cooperation w/ support companies)

3

Page 4: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Motivation

1. sample use case: logfile analytics @ 1&1

2. 80 TB/month to be processed

3. too slow on existing hardware

4. further scaling not possible -- or extremely expensive

4

Page 5: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Amazing performance improvement

4

Page 6: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Overview

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

6

Page 7: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

What?

1. framework for distributed data processing

2. highly scalable: TBs and PBs

3. originated at Google

4. open-source implementation: Apache Hadoop

7

Page 8: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

The big picture

8

input

Page 9: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

The big picture

8

Page 10: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 11: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 12: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Why?

1. too much data for one machine

2. processing speed

3. scaling out vs. scaling up

9

Photo by Flo P.

Page 13: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 14: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 15: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 16: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 17: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 18: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 19: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 20: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 21: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy 14

HDFS(hadoop distributed file system)

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 22: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 23: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 24: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 25: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 26: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 27: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 28: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 29: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 30: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 31: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 32: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Apis

20

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 33: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Basic map-reduce Apis

1. Java

2. C++ (Pipes)

3. Python (Dumbo)

4. streaming (any language)

21

Page 34: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Higher-level Apis

1. Apache Pig (data flow language)

2. Apache Hive (SQL dialect)

22

alternative: graphical ETL tools, e.g., Pentaho Data Integration

Page 35: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Cluster sizing

23

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 36: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 37: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Network topology

1. single data center

2. rack topology

3. bandwidth

25

Page 38: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Questions?

26

Page 39: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Contact:[email protected]

27