Top Banner
© Acroquest Technology Co., Ltd. All rights reserve Hadoop World 2011 NYC フフフフフフフ フフフフフフフフ Acroquest Technology 阪阪阪 阪阪 阪阪阪阪 一、 2011/11/28 Hadoop 阪阪阪阪阪阪阪阪阪阪阪阪阪 7 阪阪阪阪阪
31

Hadoop scr第7回 hw2011フィードバック

May 26, 2015

Download

Technology

Hadoopソースコードリーディング第7回 Hadoop World 2011 New York 参加報告の発表資料です。「インフラとしてのHadoop」を、注目の3セッションを通して紹介します。
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

Hadoop World 2011NYC

フィードバック~インフラとしての    ~

Acroquest Technology阪本雄一郎、落合雄介

2011/11/28Hadoop ソースコードリーディング第 7 回発表資料

Page 2: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 2

目次

1. 自己紹介2. Hadoop World セッション内容の変化3. セッション紹介4. インフラとしての Hadoop

会場の Sheraton New York Hotel & Towers

Page 3: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 3

1. 自己紹介

阪本雄一郎   Acroquest Technology プロジェクトリーダーとして

サービスオーダシステムを開発 Flume による

ログ収集プラットフォーム構築を実施 HBase 検証案件実施

落合雄介   Acroquest Technology Hadoop 関連案件に従事

– MapReduce によるログデータ整形・解析– HBase 検証案件– ログ分析 Hadoop インフラ構築

Page 4: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

2. Hadoop World セッション内容の変化

4

昨年( Hadoop World 2010 )

Hadoopコンポーネント

利用事例30 セッション

Hadoop検証

5 セッション

今年( Hadoop World 2011 )

Hadoopコンポーネント

利用事例30 セッション

→Hadoop + α の組み合わせ事例をいくつか紹介します

Hadoopコアセッション

5 セッション

Hadoop連携

15 セッション

Hadoop検証

5 セッション

Hadoop連携

5 セッション

Hadoop (+周辺プロダクト)を単に使うだけでなく、OSS や独自 FW を組み合わせて利用する事例が増えてきた

Page 5: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

3. セッション紹介

I. R と Hadoop の融合II. Hadoop を使った衛星画像解析III. Hadoop をクラウド上に展開

5

Page 6: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

I. R と Hadoop の融合

6

The Powerful Marriage of R and Hadoop注目のセッションで、200 人の会場がいっぱいでした

Page 7: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-1. 発表者概要

Revolution Analytics Founded in 2007 R 言語の商用利用に特化

David Champagne Principal Architect/Engineer for SPSS

– SPSS :統計パッケージソフト開発、2009 年 IBM が 12 億ドルで買収

7

Page 8: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-2. R 言語とは

8

統計解析向けプログラミング言語 統計解析に適した命令体系を持つ 開発実行環境も含む

- R console : CUI- R Commander  : GUI

世界中の R ユーザが「 CRAN ( Comprehensive R Archive Network )」でライブラリを提供

オープンソース

Page 9: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-3. R 言語との連携の動機

9

R 言語は 200 万人以上のユーザを持つオープンソース統計言語

R プログラマが簡単に Hadoop 上のデータを扱い、 MapReduce で処理できるようにしたい

R を、 Hadoop 上で、 Hadoop の中身を意識せずとも動かせるようにしたい

Page 10: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-4. アーキテクチャ

10

rhbaserhdfs

rmr

作った部分

Page 11: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-5. rmr の特徴

11

Java を書くよりシンプル Hive, Pig ほどシンプルではなく、

より汎用的 プロトタイピングをしやすい

Page 12: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-6. Hive と rmr の記述の違い

12

単純な集計では Hive の方がコード量は少ない・ Map Reduce の処理を 明示的に記せること・ Map, Reduce で、 R 言語の 関数を呼び出せることが特徴

男女のユニークユーザ数をそれぞれ求める処理

Page 13: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-7. rmr における記述量

13

k-means : クラスタリングのアルゴリズムの一つ

クラスタリング: 複数のデータを持つ要素を、 特徴別のグループに分類する (購買意欲の高いユーザと  それ以外のユーザを分類する、など)

rmr で大幅に  コード量 = 実装の手間を削減!

R 言語に備わっているk-means のライブラリを使用可能なため

Page 14: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-8. 大量データ統計処理の今後

R と Hadoop が組み合わさることで、Big Data の柔軟な解析への期待が高まる k-means クラスタリングの例のように、

統計的分析を簡易な記述で実現可能になる 統計処理の理論に慣れていないエンジニアにも

Big Data の分析が容易になる

14

Page 15: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

II. Hadoop を使った衛星画像解析

Indexing the Earth –Large Scale Satellite Image Processing Using Hadoop

15

How many planes in this image?

Page 16: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-1. 発表者概要

Skybox Imaging 衛星画像をもとに、映像解析・監視を

行う

Oliver Guinan Ground Systems 部の副部長 世界最大級のコンシューマ向け

インターネットアプリケーションを開発 16

Page 17: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 17

Hadoop をそのまま使っても遅いので、ネイティブコードを呼び出せるようにしまし

た!

端的に言うと・・・

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-2. 概要

Page 18: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-3. フレームワーク作成の動機

大量データの映像解析をしたい 衛星画像から送られてくるデータは 1TB/日 大量データを分散させて保持させたい→ Hadoop が使える。

画像解析ライブラリをそのまま使いたい しかし、 Hadoop 、 Java には弱点あり

ジョブ起動が遅い 科学計算ライブラリが不十分

18

画像解析ライブラリが使えるネイティブコードを呼び出した

い!

Page 19: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-4. アーキテクチャ

タスクの中でネイティブコード( C 言語)を呼び出す仕組みを構築

19

ココ

Busboy (バズボーイ):飲食店で、食器を下げたり皿洗いをしたりする人

Page 20: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-5. 業務特化の 1 つの解

Hadoop と自社フレームワークを組み合わせて、  高速処理+ネイティブライブラリ呼び出しを実現

既存の処理を Java で再実装することなく、C 言語などの既存の資産を使う

→Hadoop はあくまでインフラとして使う

20

Page 21: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

III. Hadoop をクラウド上に展開

Hadoop as a Service in Cloud

21

Page 22: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-1. 仮想化の要請

22

オペレーション、

メンテナンスの単純化

コスト低減 ニーズに応じた素早い対応

しかし、 Hadoopは一般的に仮想化と相性が悪いと言われている:

 ディスクの分散、

 ラックアウェアネス、 ・・・

Page 23: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-2. Big Data への対応で必要なのは Hadoop だけではない

23

Big Data 対応のための統合された基盤が求められている

・ Big Data のトレンドは、  Hadoop だけではない

 ・ Hadoop は他の技術と併用される:   Big SQL, NoSQL, etc,…

 ・全てのインフラを統一したい

・共通のハードウェア基盤

 ・ハードウェア、ドライバの  テストフェーズをなくしたい

 ・すでにあるチーム内で、制御、  診断、キャパシティマネジメントを  こなしたい

Page 24: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-3. 参考: Disney の Data Management Platform

24

Disney は、 2008 年から仮想化、 2009 年から Hadoopに取り組んでいる。

2010 年には、Cloud Platform を構築し、全サービスのうち 60% のサーバイメージを仮想環境に移行した

Hadoop 環境は Disney Cloud Services とは別

Advancing Disney’s Data Infrastructure with Hadoop

Matt Estes, Disney

より

Page 25: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-4. 参考: Disney の Data Management Platform

25

2011 年の取り組みで、

Hadoop クラスタをData Management Platform として統一

Hadoop を使ったサービスを大規模に展開する企業も、仮想化に注目している

Page 26: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-5. ディスクの構成

26

扱いやすい

ローカルディスクを使うことで、HDFS の特性を生かす

NW IO がネックに

Page 27: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-6. vSphere を通したラックアウェアネス

27

Rack script を自動生成することで、問題を解決

Rack awareness :Hadoop は大量のネットワーク通信を行うため、通信量を減らせるようマシンの物理的配置を設定する。

ラックアウェアネスの考慮が必要な点は、仮想化を行う際の、 「どの物理ノードに乗っているか気にしなくて良い」という利点に矛盾する

Page 28: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-7. Muti-tenant への対応

28

Multi-tenant :1 つのクラスタの中で複数のシステムを構築・動作させる

巨大クラスタを占有するのと、クラスタを共有するのと、用途によって使い分ける

顧客の要請に応じた使いわけ

Page 29: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-8. クラウド上の Hadoop 構築で、柔軟な対応が可能に

Hadoop を仮想環境で動作させる仕組みができた

「 Hadoop だけは特別」ではない。他のプラットフォームと同様に、「クラウドに Hadoop を展開して利用する」というユースケースもあり得る

29

Page 30: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

4. インフラとしての Hadoop

Hadoop はインフラとなりつつある MapReduce で計算して終わり!な時代は過ぎた Hadoop をベースに OSS/フレームワークを組

み合わせて、新たな仕組みを構築する動きが出てきた

「目的」ではなく「手段」として Hadoop を使う 「大量データだから Hadoop をとりあえず使お

う」だと、 Hadoop のメリットは少ない 大量データを分析し役立てたいから Hadoop を使

う、と考えると、 Hadoop を最大限に生かすことができる 30

Page 31: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 31

ぜひ日本でも事例を増やしましょう!