Top Banner
SQL on Hadoop für praktikables BI auf Big Data Hans-Peter Zorn, Dr. Dominik Benz und Sébastien Jelsch, Inovex GmbH
28

SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

Jul 28, 2018

Download

Documents

hoangthuy
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

SQL on Hadoop für praktikables BI auf Big Data

!

Hans-Peter Zorn, Dr. Dominik Benz und Sébastien Jelsch, Inovex GmbH

Page 2: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

2

War nicht BigData das gleiche NoSQL?

Page 3: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

3

Wie viele SQL Lösungen für Hadoop gibt es mittlerweile?

Page 4: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

4

!No SQL!?

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigSQLAster SQL/Mapreduce

Oracle Hadoop ConnectorInfiniDB

Kylin

Page 5: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

5

Warum jetzt doch SQL?

flickr.com/salynaz

• Türöffner zur BigData-Welt

• Kenntnisse weit verbreitet

• Software:Treiber vorhanden flickr.com/salynaz

Page 6: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

6

No SQL?

Hive Presto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigSQLAster SQL/Mapreduce

Oracle Hadoop Connector InfiniDB

Kylin

Page 7: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

7

Hive

ursprünglich von Facebook

• ursprünglich von Facebook

• Compiliert HiveQL, ein SQL-Dialekt, zu MapReduce-Jobs

• Schema wird separat zu den Daten abgelegt: Metastore

Page 8: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

8

Hive Architektur

Metastore

Hive Server2

Parser, Analyzer, Compiler

Anwender

HadoopHiveQuery

Page 9: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

9

Hive

ETL: gut geeignet

• ETL: gut geeignet

• Ad-hoc: Zu hohe Latenz

• Analytics: Latenz, Sprachumfang ungenügend

Page 10: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

10

Hive auf Mapreduce

Rot: Plattenzugriff

Kunden Adressen Käufe Produkte

Map Map

Reduce

Temporärtabelle

Map

Reduce

Reduce-sideJoin

HDFS

Shuffle

Shuffle

HDFS

HDFS

HDFS

Map-SideJoin

HDFS

HDFSHD

FS

HDFS

Zieltabelle

Page 11: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

11

Optimiertes Hive: DAGs

Kunden Adressen Käufe Produkte

Map Map

Reduce

Reduce

Reduce-sideJoin

Shuffle

Shuffle

Map-SideJoin

HDFS

HDFSHD

FS

HDFS

Adressen

HDFS

Page 12: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

12

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigQueryAster SQL/Mapreduce

Oracle Hadoop Connector InfiniDB

Kylin

Page 13: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

13

MPP (massive parallel processing) Datenbanken

HDFS

Slave (blackbox)

Master

Slave (blackbox)

Slave (blackbox)

Slave (blackbox)

HDFS HDFS HDFS

Page 14: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

14

MPP-basiert

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigSQLAster SQL/Mapreduce

Oracle Hadoop Connector InfiniDB

Kylin

Page 15: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

15

Stinger initiative

• Hortonworks/Microsoft

• Hive weiterentwickeln

• Geschwindigkeit: Tez, ORC

• SQL-Features, Analytische Queries (OVER)

• Security (GRANT)

Page 16: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

16

Tez und Spark

TEZ HiveSpark

Spark MR

YARN

• YARN: Tez, Spark und Hive nebeneinander

• Tez: Neuer, spezialisierter

• Spark: generischer, viel Monumentum

TEZ HiveSpark

Spark MR

YARN

Page 17: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

17

Impala

• MPP-basiert

• Queries zu nativem Code

• Speicherhungrig, empfohlen 128GB

• keine strukturierten Datentypen

• Zwischenergebnisse müssen in RAM passen (bis Impala 2.0)

Page 18: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

18

Facebooks Presto

• MPP-Engine

• Discovery-Server + Worker-Nodes

• Struktur-Datentypen -> JSON

• Hive, Cassandra, MySQL

• Anwendung bei Facebook: Fact-table in Hive, Dimensions in MySQL

• einfaches Deployment

Page 19: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

19

Apache Drill

• MapR’s

• Schema-on-Read

• Connectoren für Hive, HBase, JSON, CSV.

• Joins über mehrere Quellen hinweg

• Compliliert Queries zu Java-Byte-Code

• Version 0.5.0

Page 20: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

20

Kylin

• Sehr neu, entwickelt von eBay

• (M)OLAP Engine

• Stern-Schema über Web-GUI definiert

• Aggregate werden per MapReduce vorgerechnet und in HBase gespeichert

Page 21: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

21

Mondrian/Saiku

Page 22: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

22

Mondrian mit Hive / Impala + Saiku UI

Page 23: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

23

Mondrian mit Hive / Impala + Saiku UI

Praktische Erfahrung für dieses Setup mit

Business Objects

Page 24: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

24

Mondrian mit Kylin

Page 25: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

25

Doch einige Zahlen

50,91&

34,31&

16,69&

30,96&

39,43&

5,25&9,25&

0,00&

10,00&

20,00&

30,00&

40,00&

50,00&

60,00&

70,00&

Hive&

Shark&

Shark/Cluster&

Impala&

Presto&

Drill&

Tajo&

Page 26: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

26

Resume I

Zahlen noch unzuverlässig

Schnell

Ausgereift

Connectivity

Sprach- UmfangHive

PrestoImpalaDrill

Tez/Spark

Tajo

Page 27: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

Resumé• Extrem schnell wachsendes, sich änderndes

Umfeld.

• Keine „One-Size-Fits-All“ Lösung bisher

• Anhand des individuellen Anwendungsfalles zu evaluieren.

• Anbindung an BI-Tools wird besser

Page 28: SQL on Hadoop für praktikables BI auf Big Data Hans-Peter ... · Kylin. 15 Stinger initiative ... Mondrian mit Hive / Impala + Saiku UI Praktische Erfahrung! für dieses Setup mit!

28

Kontakt !Hans-Peter Zorn Data Management & Analytics !inovex GmbH Office Karlsruhe Ludwig-Erhard-Allee 6 76131 Karlsruhe !0173 31 81 093 [email protected] !

Vielen Dank für Eure Aufmerksamkeit!