Top Banner
YaC, Москва, 19 сентября 2011 года Alex Kozlov, Cloudera Inc. Managing a Zoo: Tools for Managing and Monitoring Distributed Systems from Cloudera
27

Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Jan 27, 2015

Download

Technology

yaevents

Александр Козлов, Cloudera Inc.

Александр Козлов, старший архитектор в Cloudera Inc., работает с большими компаниями, многие из которых находятся в рейтинге Fortune 500, над проектами по созданию систем анализа большого количества данных. Закончил аспирантуру физического факультета Московского государственного университета, после чего также получил степень Ph.D. в Стэнфорде. До Cloudera и после окончания учебы работал над статистическим анализом данных и соответствующими компьютерными технологиями в SGI, Hewlett-Packard, а также стартапе Turn.

Тема доклада
Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera.

Тезисы
Поддержание распределенных систем, состоящих из тысяч компьютеров, является сложной задачей. Компания Cloudera, которая специализируется на создании распределенных технологий, разработала набор средств для централизованного управления распределенных Hadoop/HBase кластеров. Hadoop и HBase являются проектами Apache Software Foundation, и их применение для анализа частично структурированных данных ускоряется во всем мире. В этом докладе будет рассказано о SCM, системе для конфигурации, настройки, и управления Hadoop/HBase и Activity Monitor, системе для мониторинга ряда ОС и Hadoop/HBase метрик, а также об особенностях подхода Cloudera в отличие от существующих решений для мониторинга (Tivoli, xCat, Ganglia, Nagios и т.д.).
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

YaC, Москва, 19 сентября 2011 года

Alex Kozlov, Cloudera Inc.

Managing a Zoo: Tools for Managing and

Monitoring Distributed Systems from

Cloudera

Page 2: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Agenda

• About Cloudera and myself

• Background info – Data, data everywhere

– Corporate data management, distributed systems, functional languages

– Hadoop ecosystem

• Distributed system maintenance – Installation/Updating/Monitoring

• Fixed images

• Standard configuration management tools

– Our solution • Partial failures

• Node cast

• …

• Implementation

• What’s next

©2011 Cloudera, Inc. All Rights Reserved.

2

Page 3: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Founded in the summer 2008

Cloudera’s mission is to help organizations profit from all of their data.

Cloudera helps organizations profit from all of their data. We deliver the industry-standard platform which consolidates, stores and processes any kind of data, from any source, at scale. We make it possible to do more powerful analysis of more kinds of data, at scale, than ever before. With Cloudera, you get better insight into their customers, partners, vendors and businesses.

Мы поставляем стандартные платформы для объединения, хранения и обрабатывания большого количества данных любого типа, от любого источника. Мы делаем это в масштабе большем чем когда-либо прежде. С Cloudera, вы получите лучшее понимание своих клиентов, партнеров, поставщиков и предприятий.

About Cloudera

©2011 Cloudera, Inc. All Rights Reserved.

3

Page 4: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

4

Introduction

# whoami

alexvk

– Закончил ФизФак МГУ,

Stanford University

– Работал в SGI, HP, Turn

– Senior Solutions Architect, Cloudera, Inc.

# whoru

– Sysadmin

– IT Manager

– TechOps

– Data Scientist

– Researcher

– Developer

– CTO?

– Just curious?

©2011 Cloudera, Inc. All Rights Reserved.

Page 5: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Data, data everywhere

We are storing a lot more data:

– 1 click on an average web-site generates

about 100 lines of logs (somewhere)

– 1 additional attribute/integer (8 bytes) means

1TB/day of data (from an ex-Google

employee)

40-80PB stores are becoming common

©2011 Cloudera, Inc. All Rights Reserved.

5

Page 6: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

6

Corporate data management

• Traditional

– EDW, centralized (SPoF)

– Fixed set of queries

(sales/revenue by quarter, etc.)

– ETL pipeline taking up to 24-

hours to run

• Future

– Data from • Any source

• Any kind

• At scale

– Flexible insights • The value is not known

beforehand

• Multiple facets of deep,

exhaustive analysis

– Interactive • 5 min delay from click to

insights

©2011 Cloudera, Inc. All Rights Reserved.

Page 7: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

2002 2004 2008 2010 2011 2012

The Origins of Hadoop

©2011 Cloudera, Inc. All Rights Reserved.

7

Open source web

crawler project created

by Doug Cutting

Publishes MapReduce

and GFS Paper

Open Source

MapReduce and

HDFS project created

by Doug Cutting

Runs 4,000-node

Hadoop cluster

Hadoop tops Terabyte

sort benchmark

Created Hive, adding

SQL support Releases CDH3 and

Cloudera Enterprise

Releases Cloudera

Enterprise 3.5 & SCM

Express

Page 8: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

What is Hadoop?

HDFS + MapReduce = Hadoop

Hadoop is an ecosystem (HBase

+ friends)

Distributed storage

Moving computations to the data

A new model for fault tolerance

©2011 Cloudera, Inc. All Rights Reserved.

8

Page 9: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

CDH Overview

©2011 Cloudera, Inc. All Rights Reserved.

9

The #1 commercial and non-commercial Apache Hadoop distribution.

Coordination

Data Integration Fast Read/Write Access

Languages / Compilers

Workflow Scheduling Metadata

APACHE ZOOKEEPER

APACHE FLUME, APACHE SQOOP

APACHE HBASE

APACHE PIG, APACHE HIVE

APACHE OOZIE APACHE OOZIE APACHE HIVE

File System Mount UI Framework SDK

FUSE-DFS HUE HUE SDK

Page 10: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

10

Landscape

In 2008 (Cloudera founded)

– 3-5 companies, mostly in social

networking space, using

Hadoop in production

– A lot of interest, but mostly for

the wrong reason

– Biggest applications just smart

log processing

– Largest installation in 10s of PB

In 2011

– 100s of paying clients

– 2-3x growth in Hadoop

conference attendance year-

over-year

– HBase, Oozie, Mahout

– Lots of research (Spark,

Mesos, Low latency DFS/MR,

Graph algorithms)

– Largest installations in 100s of

PB

©2011 Cloudera, Inc. All Rights Reserved.

Page 11: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Problem

• Handling large data in distributed systems is uniquely challenging from an operational perspective.

• Traditional approaches are valuable, but insufficient. Domain knowledge is vital.

• Need for support within the frameworks themselves for operational concerns.

©2011 Cloudera, Inc. All Rights Reserved.

11

Page 12: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Datacenter(s) as a computer

• Existing tools do not generalize well – Partial failure (how many machines might fail before

the datacenter becomes non-operational? … about 50%)

– Hadoop like metrics (data locality, # of slots, heartbeat delays)

– Installation and lifecycle management

– Heterogenious nodes

• The ultimate user wants to USE the system, not CONFIGURE it – let insight = [ for i in my_smart_algos -> data |> i ]

©2011 Cloudera, Inc. All Rights Reserved.

12

Page 13: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Why not machine images

• Machines have complex state (config,

local data)

– Hard unless the state is trivial

– Images need (rolling) upgrades

– Machines can change (multiple) roles

©2011 Cloudera, Inc. All Rights Reserved.

13

Page 14: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Why not config management tools

• Make assumption of running M services

on N machines, not X services running in

the “cloud”

– Very bad with “partial failures”

– Don’t understand Hadoop specific “state”

– Don’t understand Hadoop specific metrics

©2011 Cloudera, Inc. All Rights Reserved.

14

Page 15: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Our solution

• Managing partial failure – Cluster is still usable if x% fail (but might have a data loss

if 3 nodes fail at the same time)

– “Running with concerning health”

• Node cast – Every node can be multiple things (think zoo: it can be a

tiger or a lion or a monkey)

• Finding nodes like one or jobs like one – Nodes are grouped according to functionality (datanode,

tasktracker, regionserver, namenode, jobtracker)

– Find jobs that are similar to a given one and track outliers

• Drill down for Hadoop-specific diagnostic – Workflow -> Jobs -> Tasks -> Attempts

©2011 Cloudera, Inc. All Rights Reserved.

15

Page 16: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Details

• Written in Python and Django

• Each node runs “SCM agent”

• Dial-in mode

• Agent does the best effort to make the prescribed service(s) run

• All state managed by the “server”

• Diagnostic is passed via heartbeats

• Centralized configuration management

©2011 Cloudera, Inc. All Rights Reserved.

16

Page 17: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Services

©2011 Cloudera, Inc. All Rights Reserved.

17

Page 18: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Services (partial failure)

©2011 Cloudera, Inc. All Rights Reserved.

18

Page 19: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

New service

©2011 Cloudera, Inc. All Rights Reserved.

19

Page 20: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

SCM node selection

©2011 Cloudera, Inc. All Rights Reserved.

20

Page 21: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Visualising drill-down

©2011 Cloudera, Inc. All Rights Reserved.

21

Page 22: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Job matching

• Requires that we build up a rich model of job performance over time

• Surprisingly subtle problem - how do we know when two jobs are the same?

• Periodic jobs offer more clues - time of day, submitting user, map class, reduce class.

• Query jobs are more difficult – For e.g. Hive, query string analysis can tell us

something

©2011 Cloudera, Inc. All Rights Reserved.

22

Page 23: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Job matching

©2011 Cloudera, Inc. All Rights Reserved.

23

Page 24: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Diagnosing job performance

• Ok, your job really is slow. What now?

• Major cause of slowness, as seen by customers, is skew

• Two predominant types of skew

– Environmental skew, when identical tasks run differently depending

on where they run. Breaks MR notion of homogeneity, causes

severe slowdown.

– Workload skew, when supposedly identical tasks have vastly

differing amounts of work to do,

©2011 Cloudera, Inc. All Rights Reserved.

24

Page 25: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Visualising skew

©2011 Cloudera, Inc. All Rights Reserved.

25

Page 26: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

What’s next

• Cloudera Enterprise 3.5 & Hadoop

express (June 2011, SCM & SCM

Express)

• Cloudera Enterprise 3.7 on the way

©2011 Cloudera, Inc. All Rights Reserved.

26

Page 27: Контроль зверей: инструменты для управления и мониторинга распределенных систем от Cloudera. Александр

Questions?

Do not hesitate to email me alexvk at cloudera dot com

©2011 Cloudera, Inc. All Rights Reserved.

27