Top Banner
分散ストレージ技術Cephの最新情報 Haruka Iwao Cloud Evangelist, Red Hat K.K. 12 October 2014
71

分散ストレージ技術Cephの最新情報

Jul 11, 2015

Download

Engineering

Haruka Iwao
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 分散ストレージ技術Cephの最新情報

分散ストレージ技術Cephの最新情報

Haruka Iwao

Cloud Evangelist, Red Hat K.K.

12 October 2014

Page 2: 分散ストレージ技術Cephの最新情報

提供

Page 3: 分散ストレージ技術Cephの最新情報

OpenStack seminar

@Lenovo Enterprise Solutions Center

2014年12月19日(金)16時~「RHEL OpenStack 運用管理のツボ」Red Hat Forum にて大好評でした「OpenStack ハンズオン」の続編セミナーです。

更に具体的な「Red Hat の OpenStackを本番環境で稼働する際のポイント」について紹介させていただきます。

お申込み⇒ http://bit.ly/1xODIPE

2015年1月23日(金)13時~ 開催予定*

Intel On Ramp RHEL OSP ハンズオン研修Red Hat Forum で満員で終了した「OpenStack ハンズオン」のRerunです。

OpenStackを使ってみたい技術者の方におススメのセミナーです。

2015年2月13日(金)16時~ 開催予定*「OpenStack運用管理のツボ」通常のハンズオンではカバーしきれない、本番環境で使用する際のポイントを、

実際にOpenStackを運用しているSEが紹介します。

*開催予定のセミナー詳細につきましてはLESの担当営業までお問い合わせください

Page 4: 分散ストレージ技術Cephの最新情報

わたしはだれ?

• 岩尾はるか (@Yuryu)

• レッドハット株式会社

– Cloud Evangelist

–兼Storage Solutions Architect

• コミケ/KindleでLinux Kernel

本出してます

• Enlightened

Page 5: 分散ストレージ技術Cephの最新情報

もくじ

• Cephとは

• Cephのアーキテクチャ

• GlusterFSとの比較

• 最近の動向

• ユースケース

Page 6: 分散ストレージ技術Cephの最新情報

Cephとは

Page 7: 分散ストレージ技術Cephの最新情報

Cephとは

• オープンソースの分散ストレージ

• オブジェクトとブロック両対応

• 大規模にスケールする(~10000台)

• エクサバイト(ペタの1000倍)が射程

Page 8: 分散ストレージ技術Cephの最新情報

Cephの10年

RHEL-OSP

認定

FEB 2014

MAY 2012Inktank設立

OpenStack

統合

2011

2010Linux

Kernel にマージ

オープンソース化

2006

2004 UCSCで

開発開始

Production

Readyに

SEPT 2012

2012CloudStack

統合

OCT 2013Inktank Ceph

Enterprise 出荷

Xen統合

2013

APR 2014

レッドハットがInktankを買収

Page 9: 分散ストレージ技術Cephの最新情報

Cephの統合されたストレージ

FILE

SYSTEM

BLOCK

STORAGE

OBJECT

STORAGE

Keystone

Geo-Replication

Erasure Coding

マルチテナント

S3 & Swift

OpenStack

Linux カーネル

Tiering

クローン

Snapshots

CIFS/NFS

HDFS

分散メタデータ

Linux Kernel

POSIX

Page 10: 分散ストレージ技術Cephの最新情報

Cephを支えるコミュニティ

COMMUNITY METRICS DASHBOARD

METRICS.CEPH.COM

Page 11: 分散ストレージ技術Cephの最新情報

Inktank Ceph Enterprise

DEPLOYMENT TOOLS

新しい「ウィザード」形式のインストールツール

依存関係も含めたローカルレポジトリを提供

クラスタ構築ツール

CALAMARI

オンプレミス, Webアプリ

クラスタのモニタリング、監視

RESTful API

インスタンス数無制限

CEPH FOR OBJECT & BLOCK

SUPPORT SERVICES

SLA付きテクニカルサポート

バグのエスカレーション

ホットフィックスの提供

ロードマップへの反映

Page 12: 分散ストレージ技術Cephの最新情報

ICE Release Cycles

2013 2014 2015

Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2

Page 13: 分散ストレージ技術Cephの最新情報

Cephのアーキテクチャ

Page 14: 分散ストレージ技術Cephの最新情報

Cephのコンポーネント

APP HOST/VM CLIENT

Page 15: 分散ストレージ技術Cephの最新情報

RADOS

APP HOST/VM CLIENT

Page 16: 分散ストレージ技術Cephの最新情報

• 信頼性のある(Reliable)

–データ消失を避けるため複製を作成

• 自律的な(Autonomic)

–お互いに通信し、障害を検知

–レプリケーションが透過的に行われる

• 分散(Distributed)

• オブジェクトストア(Object Store)

RADOSとは

Page 17: 分散ストレージ技術Cephの最新情報

• Cephの中核

• すべてのデータをRADOSに保存

• monと osdの2つから成る

• CRUSHアルゴリズムが特徴

RADOSとは (2)

Page 18: 分散ストレージ技術Cephの最新情報

• Object storage daemon

• 1ディスクにつき1OSD

• xfs/btrfsをバックエンドに使用

– Btrfsのサポートは実験的

• 整合性担保と性能向上のため、Write-

aheadなジャーナルを利用

• OSDの台数は3〜数万

OSD

Page 19: 分散ストレージ技術Cephの最新情報

• Monitoring daemon

• クラスタマップとクラスタの状態を管理

• 3, 5など奇数で少ない台数

• データ本体やメタデータは管理しない

MON

Page 20: 分散ストレージ技術Cephの最新情報

OSD と MON

btrfs

xfs

ext4

Page 21: 分散ストレージ技術Cephの最新情報

RADOSクラスタ

RADOS CLUSTER

Page 22: 分散ストレージ技術Cephの最新情報

• RADOS は “CRUSH” アルゴリズムを用いてオブジェクトを配置

–オブジェクトの場所は100%計算のみで求められる

• メタデータサーバーが不要

– SPoFなし

–非常に良いスケーラビリティ

オブジェクトの配置

Page 23: 分散ストレージ技術Cephの最新情報

CRUSH アルゴリズム

CLUSTERPOOLS

(CONTAINING PGs)

POO

L

A

POO

L

B

POO

L C

POO

L

D

Page 24: 分散ストレージ技術Cephの最新情報

• 階層的なOSDのマップ

–障害単位(ラックやスイッチ)をまたいで複製

–トラフィックの集中を防止

クラスタマップ

24

Page 25: 分散ストレージ技術Cephの最新情報

RGW

APP HOST/VM CLIENT

Page 26: 分散ストレージ技術Cephの最新情報

RADOS Gateway

socket

REST

RADOS CLUSTER

Page 27: 分散ストレージ技術Cephの最新情報

• RESTベースのオブジェクトストアプロキシ

• オブジェクトはRADOSに格納

• S3/Swiftと互換なAPIを持つ

• 課金のための利用量統計を提供

RADOS Gateway(2)

Page 28: 分散ストレージ技術Cephの最新情報

マルチサイトRGW

Page 29: 分散ストレージ技術Cephの最新情報

RBD

APP HOST/VM CLIENT

Page 30: 分散ストレージ技術Cephの最新情報

• RADOSにディスクイメージを格納

• クラスタ全体にストライピング

• スナップショットのサポート

• Copy-on-writeクローンをサポート

• Linux Kernel, KVM, OpenStackから利用可能

RBD (2)

Page 31: 分散ストレージ技術Cephの最新情報

RBD + 仮想化

Copyright © 2014 Red Hat

K.K.31

RADOS CLUSTER

Page 32: 分散ストレージ技術Cephの最新情報

RBD + カーネルモジュール

RADOS CLUSTER

Page 33: 分散ストレージ技術Cephの最新情報

CephFS

APP HOST/VM CLIENT

Page 34: 分散ストレージ技術Cephの最新情報

CephFS

• POSIX互換のファイルシステム

• RADOS上に構築

• Linuxのネイティブドライバ(cephfs)またはFUSEでマウント

• メタデータサーバー(mds)がファイルシステムツリーを管理

– mdsはCephFSのみで利用

Page 35: 分散ストレージ技術Cephの最新情報

CephFSのアーキテクチャ

RADOS CLUSTER

datametadata

Page 36: 分散ストレージ技術Cephの最新情報

CephFSの信頼性

• MDSはファイルシステムに対する変更をジャーナルとしてRADOSに記録

– MDSが停止した場合はジャーナルから状態を復元

• HAまたは負荷分散のために、複数のMDS

を利用可能

• MDSはデータを扱わない

– I/Oのボトルネックにならない

Page 37: 分散ストレージ技術Cephの最新情報
Page 38: 分散ストレージ技術Cephの最新情報
Page 39: 分散ストレージ技術Cephの最新情報
Page 40: 分散ストレージ技術Cephの最新情報
Page 41: 分散ストレージ技術Cephの最新情報

DYNAMIC SUBTREE PARTITIONING

Page 42: 分散ストレージ技術Cephの最新情報

GlusterFSとの比較

Page 43: 分散ストレージ技術Cephの最新情報

GlusterFSの構造

Page 44: 分散ストレージ技術Cephの最新情報

GlusterFSのレプリケーション

Page 45: 分散ストレージ技術Cephの最新情報

CephとGlusterFS共通点

• 単一障害点(SPoF)なし

• 高い耐障害性と可用性

• 100%オープンソース

• ペタバイト級のストレージ

• 非常に良いスケーラビリティ

• Linuxで動く

Page 46: 分散ストレージ技術Cephの最新情報

GlusterFSとの違い

Ceph GlusterFS

データ配置 オブジェクト単位 ファイル単位

ファイルの場所 決定的なアルゴリズムによる(CRUSH)

分散ハッシュテーブル, xattrに保存

レプリケーション サーバーサイド クライアントサイド

主な使い道 オブジェクト/ブロックストア

POSIX互換のファイルシステム

ライセンス LGPLv2 GPLv2 / LGPLv3+

Page 47: 分散ストレージ技術Cephの最新情報

CephとGlusterFSユースケース

• Ceph

– S3/Swift互換オブジェクトストア

– OpenStack、KVM仮想環境のストレージ

–ブロックストレージ

• GlusterFS

– NFSを置き換える大きなストレージ

– Hadoop HDFS互換のストレージ

–コンテンツ配信のバックエンド

Page 48: 分散ストレージ技術Cephの最新情報

Ceph, GlusterFS, ICE, RHS

RED HAT

INKTANK CEPH ENTERPRISE

RED HAT

STORAGE SERVER

Page 49: 分散ストレージ技術Cephの最新情報

CephとOpenStack

Page 50: 分散ストレージ技術Cephの最新情報

CephとOpenStack

RADOS CLUSTER

Page 51: 分散ストレージ技術Cephの最新情報

• オブジェクト、ブロックそれぞれに最適化されたアーキテクチャ

• 単一のストレージプール

–高いディスク使用効率

• OpenStackの各コンポーネントに組み込みのドライバサポート

–高い性能と可用性

CephとOpenStack: 利点

Copyright © 2014 Red Hat

K.K.51

Page 52: 分散ストレージ技術Cephの最新情報

From OpenStack User Survey

http://superuser.openstack.org/articles/openstack-user-survey-insights-november-2014

November 2014

Page 53: 分散ストレージ技術Cephの最新情報

最近の動向

Page 54: 分散ストレージ技術Cephの最新情報

Ceph最近の新機能

• Erasure Coding

• 階層化キャッシュ(SSD)のサポート

• RADOS性能改善

• CephFSの改善

• KVSバックエンド

• Standalone radosgw

Page 55: 分散ストレージ技術Cephの最新情報

Erasure Coding

CEPH STORAGE CLUSTER CEPH STORAGE CLUSTER

オブジェクトの完全な複製

非常に高い耐障害性

高速なリカバリー

複製+パリティーを保存

費用対効果が高い

リカバリーに時間とCPUが必要

Page 56: 分散ストレージ技術Cephの最新情報

階層化キャッシュ(write back)

CEPH STORAGE CLUSTER

Read/Write Read/Write

Page 57: 分散ストレージ技術Cephの最新情報

階層化キャッシュ(write thru)

CEPH STORAGE CLUSTER

Write Write Read Read

Page 58: 分散ストレージ技術Cephの最新情報

KVSによるOSDバックエンド

• OSDのバックエンドにLevelDBを使用(xfs

の代替)

• 特に小さなオブジェクトのパフォーマンスが向上

• 不揮発メモリKVSやRocksDBなどのサポートも計画

Page 59: 分散ストレージ技術Cephの最新情報

Ceph次のリリースに向けて

• CephFS Hadoop Support

• Kerberos / ADサポート

• RADOSからの並列読み込み

• Object versioning

• スケーラビリティの向上(10,000OSD超)

• セキュリティ、安定性の改善

• etc…

https://wiki.ceph.com/Planning/Blueprints

Page 60: 分散ストレージ技術Cephの最新情報

ユースケース

Page 61: 分散ストレージ技術Cephの最新情報

Web Application

S3/Swift S3/Swift S3/Swift S3/Swift

Page 62: 分散ストレージ技術Cephの最新情報

Web Scale Applications

Native

ProtocolNative

ProtocolNative

ProtocolNative

Protocol

Page 63: 分散ストレージ技術Cephの最新情報

Archive / Cold Storage

Site A Site B

CEPH STORAGE CLUSTER CEPH STORAGE CLUSTER

Page 64: 分散ストレージ技術Cephの最新情報

Databases

Native

Protocol

Native

Protocol

Native

ProtocolNative

Protocol

Page 65: 分散ストレージ技術Cephの最新情報

Deploying Ceph in the Wild

Ceph Day London 2014の発表。事例が複数掲載されている。http://www.slideshare.net/Inktank_Ceph/deploying-ceph-in-the-wild

Page 66: 分散ストレージ技術Cephの最新情報

Ceph at CERN

http://www.slideshare.net/Inktank_Ceph/scaling-ceph-at-cern

Page 67: 分散ストレージ技術Cephの最新情報

Cephベンチマーク例

• Mellanoxによるベンチマーク例(5ノード)

http://www.mellanox.com/related-docs/whitepapers/WP_Deploying_Ceph_over_High_Performance_Networks.pdf

Page 68: 分散ストレージ技術Cephの最新情報

Cephベンチマーク Intel/IDCF

http://www.intel.co.jp/content/dam/www/public/ijkk/jp/ja/documents/white-papers/xeon-e5-storage-server-performance-test-idc-frontier-paper.pdf

Page 69: 分散ストレージ技術Cephの最新情報

まとめ

Page 70: 分散ストレージ技術Cephの最新情報

まとめ

• Cephはペタバイト級のストレージ

–オブジェクト(RGW)

–ブロック(RBD)

–ファイルシステム(CephFS)

• 特にOpenStackと相性がいい

• プロダクションでの使用例も多数

• Red Hatから買えます

Page 71: 分散ストレージ技術Cephの最新情報

Thank you