ЭКОСИСТЕМЫ HADOOP Становление и тенденции коммерциализации
ЭКОСИСТЕМЫHADOOP
Становление и тенденции коммерциализации
ЭКОСИСТЕМА?
«Экосистема» как архитектура конкретных решений, использующих Hadoop
Тиражируемые ИТ-решения, связанные с Hadoop
«Экосистема» программных
продуктов, стыкующихся с
Hadoop (как проектов фонда
Apache, так и сторонних)
Готовые сборки «экосистем» –дистриубитвы
Hadoop
Готовые услуги по предоставлению
«экосистем» –«Hadoop как услуга»
Готовые аппаратно-программные «экосистемы»
HADOOP И СВЯЗАННЫЕ
ПРОЕКТЫ
Проекты Apache
Сторонние проекты
HADOOP 2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ
YARN[yet another resource
negotiator]
От MapReduce отделена логика управления
ресурсами и планирования заданий
Мультиарендность в одном кластере
YARN – «кластерная операционная система»
Изображения: ©2014, Hortonworks
“ЭКОСИСТЕМА”ПРОЕКТОВ
HDFS
GlusterFS
Ceph
YARN
MapReduce(пакетная
обработка)
Tez(интерактивная
обработка)
Amazon S3 CloudStore
Swift
Pig(сценарии)
Hive(запросы)
HBase(NoSQL)
Impala(SQL)
Drill(аналог Dremel)
Mahout(машинное обучение)
Zookeeper(координатор)
Ambari(управление)
Hue(ClouderaManager)
Ganglia(монитор)
Spark(оперативная обработка)
Storm(поточная
обработка)
Kafka(брокер
сообщений)
Oozie(workflow)
Sqoop(пакетная загрука)
Flume(поточная загрузка)
Hama(машинное обучение)
Taychon(in-memory data grid)
Azure Blob
Storage
файловые системы объектные хранилища
обработчики
СУБД-сервис
глубинный анализ
связующие управляющие
Сторонние проекты
ЯдроHadoop
Проекты Фонда
Apache
BigTop(сборка пакетов)
©2014, Arian Nawa
ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАН НАВА)
ДИСТРИБУТИВЫ HADOOP
Рынок дистрибутивов Hadoop
ДИСТРИБУТИВЫ-ЛИДЕРЫ
Cloudera
Oracle Big Data
Appliance
EMC Isilon
MapR
Amazon EMR
Pivotal Greenplu
m HD(первая версия)
Hortonworks
Teradata
MircosoftWindows и
Azure
Изображение: ©2013, Altoros
ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»
IBM
выпускается
EMC (Pivotal)
выпускается
Intel
закрыт(в пользу Cloudera)
Yahoo
закрыт [в пользу Hortonworks]
Дистрибутивы Linux
Red Hat, Fedora, CentOS SuSE Debian, Ubuntu
Apache BigTop
.rpm .debрецепты для Vagrant,
docker…
HADOOP КАК УСЛУГА
Hadoop в публичных облаках
ОСНОВНЫЕ ПРОВАЙДЕРЫ
• На базе MapR
• Интегрирован с S3
AmazonElastic MapReduce
• На базе Hortonworks
• Интегрирован с SwiftFSRackspace
• На базе HortonworksMicrosoft Azure
• BigInsightsIBM Bluemix
HADOOP-КОМПЛЕКСЫ
Тиражируемые интегрированные аппаратно-программные комплексы с Hadoop
КОМПЛЕКСЫ
Hadoopна «голом железе»
Oracle Big Data Appliance
Teradata HadoopAppliance
EMC/PivotalGreenplum HD
Конвергентные комплексы
VCE [Cisco – Vmware – EMC]
FlexPod[Cisco –… – NetApp]
IBM/LenovoPure for Hadoop
КАРТИНЫ МИРА ОТ DATAMEER
… названные «экосистема Hadoop»
HADOOP ECOSYSTEM
as of January, 2012
Изображение: ©2012, Datameer
Изображение: ©2013, Datameer
Изображение: ©2014, Forrester Research
… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)
АРХИТЕКТУРНЫЕ РЕШЕНИЯ
Λ-АРХИТЕКТУРА
Все данные
Свежие данные
Предобработанные
данные
с л о й р а з д а ч и
…
п а к е т н ы й с л о й
б ы с т р ы й с л о й
Данные реального
времени
Поток данных Инкремент данных
Комплексный
агрегат
Частичный
агрегат
Частичный
агрегат
Пакетные представления
Представление реального времени
MapReduce
Storm
HDFSFlume
Flume
HBase
Свежие данные подпадают одновременно в слои пакетной и быстрой обработки
и комбинируются в отдельном слое раздачи
SPARKСамый активный
свободный проект
в области больших данных
file = spark.textFile("hdfs://...")
file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)
Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти
Изображение: ©2014, Apache Software Foundation
SharkSpark
SQL
Spark
streamingMLib
Graph
X
Проекты над Spark:
SQL НАД HADOOP
Изображение: ©2014, Gigaom Research
Федераторы
Teradata SQL-H Greenplum Hawk
Встраиваемые в «экосистему» (YARN)
Cloudera ImpalaHadapt
(поглощена Teradata)
SQL над Apache Spark
Shark Spark SQL
В развитие Hive
HortonworksStinger
Facebook Presto
«Появление решений, обеспечивающих
выполнение ANSI SQL над Hadoop
создало непосредственную возможность
признания Hadoop уже в 2015 году
как практической платформы данных для
широкого круга организаций»
Forrester Research, ноябрь 2014
ГЛОССАРИЙ
Applicance
Программно-аппаратный
комплекс
Комплекс
Bare-metal
«Голое железо»
Box
Узел
Chunk
Блок данных
Commodity hardware
Оборудование массового
класса
Curring
Каррирование
A…J
Data node
Узел данных
Deployment
Развёртывание
Direct-attached storage
Устройство хранения прямого
подключения
Engine
Механизм
Движок
Job
Задание
Job tracker
Трекерзаданий
Machine
Машина
Map
[?]
Mapper
[?]
Mapping
Соответствие
Master node
Главный узел
Multi-tennancy
Мульти-арендность
M…R
Name node
Узел имён
Namespace
Пространство имён
Node
Узел
Realtime
…реального времени
Reduce
Свёртка
Сведение
Reducer
Свёртка
S…W
Shard
Узел [распределённо
го хранения]
Shuffle
Тасовка
Slave node
Подчинённый узел
Slot
Слот
Stack
Стек
Task
Задача
Task tracker
Трекер задач
Trail
След
Worker
Исполнитель
Worker node
Узел исполнения
Workflow
Поток операций
Workload
Нагрузка