Top Banner
PRIMECLUSTER PRIMECLUSTER™ コンセプトガイド 4.1 (Solaris™ オペレーティングシステム /Linux ) Redakteur Fujitsu Siemens Computers GmbH Paderborn 33094 Paderborn E メール : Email: [email protected] 電話 : (089) 636-00000 ファックス : (++49) 700 / 372 00001 U42121-J-Z100-3-76 Sprachen: En 2005 6 月版
94

PRIMECLUSTER™ - Fujitsusoftware.fujitsu.com/jp/manual/manualfiles/M050010/J2UZ...Fujitsu Siemens Computers GmbH Paderborn 33094 Paderborn E メール: Email: [email protected]

Oct 24, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • PRIMECLUSTER

    PRIMECLUSTER™ コンセプトガイド 4.1

    (Solaris™ オペレーティングシステム /Linux 版 )RedakteurFujitsu Siemens Computers GmbH Paderborn33094 PaderbornE メール : Email: [email protected]電話 : (089) 636-00000ファックス : (++49) 700 / 372 00001U42121-J-Z100-3-76Sprachen: En

    2005 年 6 月版

  • 版権および商標

    PRIMECLUSTER は、富士通株式会社の商標です。

    Sun、Sun Microsystems、Sun ロゴ、Solaris およびすべての Solaris に関連する商標及びロゴは、米国およびその他の国における米国 Sun Microsystems, Inc. の商標または 登録商標であり、同社のライセンスを受けて使用しています。

    その他各種製品名は、各社の製品名称、商標または登録商標です。

    Linux は、Linus Torvalds 氏の米国およびその他の国における登録商標あるいは商標です。

    お願い

    ●本書を無断で他に転載しないようお願いします。

    ●本書は予告なしに変更されることがあります。

    Copyright(C) 2005 富士通株式会社 . All Rights Reserved. Copyright (C) 2005 Fujitsu Siemens Computers GmbH.All Rights Reserved.

  • 目次

    1 はじめに ........................................................................................................................................... 11.1 本書の構成 ....................................................................................................................................................... 11.2 マニュアル ....................................................................................................................................................... 11.3 本書の表記について ....................................................................................................................................... 2

    1.3.1 表記 ....................................................................................................................................................... 21.3.1.1 プロンプト ............................................................................................................................ 21.3.1.2 マニュアルページのセクション番号 ................................................................................ 31.3.1.3 キーボード ............................................................................................................................ 31.3.1.4 書体 / 記号 ............................................................................................................................ 31.3.1.5 例 1 ......................................................................................................................................... 31.3.1.6 例 2 ......................................................................................................................................... 3

    1.3.2 コマンド構文 ....................................................................................................................................... 41.4 表記記号 ........................................................................................................................................................... 41.5 略称 ................................................................................................................................................................... 4

    2 クラスタリングテクノロジーの概要 .......................................................................................... 52.1 概要 ................................................................................................................................................................... 52.2 高可用性 (HA) .................................................................................................................................................. 6

    2.2.1 クラスタインタコネクト ................................................................................................................... 62.2.2 HA マネージャ (RMS) ........................................................................................................................ 6

    2.2.2.1 データ整合性の保証 ............................................................................................................ 62.2.2.2 ウィザード .......................................................................................................................... 10

    2.3 拡張性 ( スケーラビリティ ) ....................................................................................................................... 10

    3 PRIMECLUSTER のアーキテクチャ ....................................................................................... 133.1 アーキテクチャの概要 ................................................................................................................................. 133.2 PRIMECLUSTER 設計理念 .......................................................................................................................... 15

    3.2.1 モジュール方式 ................................................................................................................................. 153.2.2 プラットフォーム非依存性 ............................................................................................................. 153.2.3 拡張性 ( スケーラビリティ ) ........................................................................................................... 153.2.4 可用性 ................................................................................................................................................. 153.2.5 データの整合性保証 ......................................................................................................................... 16

    3.3 PRIMECLUSTER のモジュール .................................................................................................................. 163.3.1 CF ........................................................................................................................................................ 16

    3.3.1.1 OSD ...................................................................................................................................... 173.3.1.2 ICF ....................................................................................................................................... 173.3.1.3 JOIN ..................................................................................................................................... 173.3.1.4 ENS ...................................................................................................................................... 173.3.1.5 Cluster Admin ...................................................................................................................... 183.3.1.6 Web-Based Admin View ...................................................................................................... 183.3.1.7 SNMP ................................................................................................................................... 183.3.1.8 PRIMECLUSTER SF .......................................................................................................... 193.3.1.9 SCON (Solaris) .................................................................................................................... 25

    3.3.2 RMS ..................................................................................................................................................... 273.3.2.1 RMS ウィザード ................................................................................................................ 283.3.2.2 プロセス監視機構 .............................................................................................................. 28

    3.3.3 SIS (Solaris) ......................................................................................................................................... 283.3.4 PAS ...................................................................................................................................................... 293.3.5 GDS ..................................................................................................................................................... 303.3.6 GFS ...................................................................................................................................................... 32

    3.3.6.1 GFS ローカルファイルシステム (Solaris) ...................................................................... 323.3.6.2 GFS 共用ファイルシステム ............................................................................................. 323.3.6.3 メリット .............................................................................................................................. 34

    J2UZ-5301-02Z2(A)

  • 目次

    3.3.7 GLS ...................................................................................................................................................... 353.3.7.1 高速切替方式 ...................................................................................................................... 363.3.7.2 NIC 切替方式 ...................................................................................................................... 36

    4 クラスタインタコネクトの詳細 ................................................................................................ 374.1 概要 ................................................................................................................................................................. 37

    4.1.1 クラスタインタコネクトと通常のネットワークとの違い ......................................................... 374.1.2 ネットワークの可用性 ..................................................................................................................... 374.1.3 インタコネクトプロトコル ............................................................................................................. 38

    4.2 クラスタインタコネクトの要件 ................................................................................................................. 384.2.1 冗長化 ................................................................................................................................................. 384.2.2 経路 ..................................................................................................................................................... 39

    4.2.2.1 ハートビート ...................................................................................................................... 394.2.3 プロパティ ......................................................................................................................................... 40

    4.2.3.1 帯域幅 .................................................................................................................................. 404.2.3.2 応答待ち時間 ( レイテンシ ) ............................................................................................ 414.2.3.3 信頼性 .................................................................................................................................. 424.2.3.4 デバイスインタフェース (Solaris) ................................................................................... 424.2.3.5 セキュリティ ...................................................................................................................... 43

    5 RMS (Reliant Monitor Services) ................................................................................................. 455.1 RMS の概要 .................................................................................................................................................... 45

    5.1.1 冗長化 ................................................................................................................................................. 465.1.2 アプリケーションの切替え ............................................................................................................. 46

    5.1.2.1 自動切替え .......................................................................................................................... 465.1.2.2 手動切替え .......................................................................................................................... 475.1.2.3 IP エイリアス ..................................................................................................................... 475.1.2.4 データの整合性 .................................................................................................................. 47

    5.2 RMS の監視と切替え .................................................................................................................................... 475.2.1 BM ( ベースモニタ ) ......................................................................................................................... 485.2.2 構成定義ファイル ............................................................................................................................. 48

    5.2.2.1 オブジェクト間の依存関係 .............................................................................................. 485.2.2.2 オブジェクトタイプ (Object Type) .................................................................................. 495.2.2.3 オブジェクト定義 (Object Definition) .............................................................................. 49

    5.2.3 構成スクリプト ................................................................................................................................. 495.2.4 ディテクタ ......................................................................................................................................... 515.2.5 RMS 環境変数 .................................................................................................................................... 51

    5.3 RMS の管理 .................................................................................................................................................... 515.4 カスタマイズオプション ............................................................................................................................. 52

    5.4.1 汎用リソースタイプとディテクタ ................................................................................................. 52

    6 RMS ウィザード ........................................................................................................................... 536.1 RMS ウィザードの概要 ................................................................................................................................ 536.2 RMS ウィザードのアーキテクチャ ............................................................................................................ 536.3 RMS Wizard Tools .......................................................................................................................................... 54

    6.3.1 共用ディスク装置への対応 ............................................................................................................. 546.4 RMS Wizard Kit .............................................................................................................................................. 55

    7 SIS (Solaris) ................................................................................................................................... 577.1 SIS の概要 ...................................................................................................................................................... 57

    7.1.1 機能 ..................................................................................................................................................... 577.1.2 サービス提供ノード (Service Node) ................................................................................................ 587.1.3 ゲートウェイノード (Gateway Node) .............................................................................................. 587.1.4 プライマリデータベースノード (Primary Database Node) ........................................................... 587.1.5 バックアップデータベースノード (Backup Database Node) ........................................................ 587.1.6 サテライトノード (Satellite Node) ................................................................................................... 58

    7.2 SIS クラスタシステムの設計例 .................................................................................................................. 607.3 VIP 負荷分散アルゴリズム .......................................................................................................................... 61

    J2UZ-5301-02Z2(A)

  • 目次

    7.4 プロキシアドレス (Proxy Address) ............................................................................................................. 617.5 プライベートアドレス (Private Address) .................................................................................................... 617.6 バックアップノード ..................................................................................................................................... 61

    用語集 .................................................................................................................................................. 63

    略語 ...................................................................................................................................................... 79

    図 .......................................................................................................................................................... 83

    索引 ...................................................................................................................................................... 85

    J2UZ-5301-02Z2(A)

  • 目次

    J2UZ-5301-02Z2(A)

  • 1 はじめに本書では、PRIMECLUSTER の各種製品の概要について説明します。PRIMECLUSTER 製品は、高可用性(HA) と拡張性を保証する、オペレーティングシステムおよびハードウェアプラットフォーム非依存のクラスタリングソリューションです。PRIMECLUSTER のモジュール化されたソフトウェアアーキテクチャにより、クラスタ内の全てのコンピュータ ( ノード ) に導入される基本的なモジュールセット、および特定のアプリケーションをサポートするオプションモジュールで構成されます。モジュール化されたアーキテクチャにより多様なユーザに柔軟なクラスタリングソリューションを提供することが可能になります。このソリューションは現在および将来のあらゆるプラットフォームに適応可能です。

    本書では、PRIMECLUSTER の全てのコンポーネントについて説明します。 ただし、リリースによっては利用できないコンポーネントもあります。 それぞれのプラットフォームで使用できる機能については、" 製品添付インストールガイド " を確認してください。

    本書はエンドユーザ、システム管理者を対象にしています。本書はクラスタソリューションの基本概念の説明を目的としたもので、管理方法、構成設定、およびインストールの説明書ではありません ( 詳細については、1 ページの "1.2 マニュアル " を参照してください )。

    1.1 本書の構成

    本書は以下の章で構成されています。

    ● 5 ページの "2 クラスタリングテクノロジーの概要 " では、PRIMECLUSTER の主なコンポーネントなどのクラスタリングの概念とメリットについて説明します。

    ● 13 ページの "3 PRIMECLUSTER のアーキテクチャ " では、PRIMECLUSTER のアーキテクチャおよび主な機能について説明します。

    ● 37 ページの "4 クラスタインタコネクトの詳細 " では、クラスタインタコネクトの概要、要件、設計上の検討事項について説明します。

    ● 45 ページの "5 RMS (Reliant Monitor Services)" では、RMS の基本的な概念、コンポーネント、メリットについて説明します。

    ● 53 ページの "6 RMS ウィザード " では、RMS ウィザードを構成する RMS Wizard Tools と RMSWizard Kit について説明します。

    ● 57 ページの "7 SIS (Solaris)" では、Scalable Internet Services (SIS) の基本的な概念とコンポーネントについて説明します。

    1.2 マニュアル

    このセクションで紹介するマニュアルには、PRIMECLUSTER に関する情報が記載されています。

    PRIMECLUSTER には本書以外に以下のマニュアルがあります。

    ● "PRIMECLUSTER Cluster Foundation 導入運用手引書 (Solaris™ オペレーティングシステム版 )"— Solaris 版の PRIMECLUSTER CF の構成設定および管理方法について説明しています。

    ● "PRIMECLUSTER Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" — Linux 版の PRIMECLUSTER CF の構成設定および管理方法について説明しています。

    ● "PRIMECLUSTER RMS 導入運用手引書 4.1 (Solaris™ オペレーティングシステム /Linux 版 )"— PRIMECLUSTER Wizard Tools を使用して、RMS を構成および管理する手順について説明しています。

    ● "PRIMECLUSTER Global Disk Services 説明書 (Solaris™ オペレーティングシステム版 )"— Solaris 版 GDS の構成設定および管理について説明しています。

    J2UZ-5301-02Z2(A) 1

  • 本書の表記について はじめに

    ● "PRIMECLUSTER Global Disk Services 説明書 4.1 (Linux 版 )" — Linux 版 GDS の構成設定および管理について説明しています。

    ● "PRIMECLUSTER Global File Services 説明書 (Solaris™ オペレーティングシステム版 )"— Solaris 版 GFS の構成設定および管理について説明しています。

    ● "PRIMECLUSTER Global File Services 説明書 4.1 (Linux 版 )" — Linux 版の GFS 構成設定および管理について説明しています。

    ● "PRIMECLUSTER Global Link Services 説明書 ( 伝送路二重化機能編 ) (Solaris™ オペレーティングシステム版 )" — Solaris 版 GLS 伝送路二重化機能の構成設定および管理について説明しています。

    ● "PRIMECLUSTER Global Link Services 説明書 4.1 ( 伝送路二重化機能編 ) (Linux 版 )" — Linux 版GLS 伝送路二重化機能の構成設定および管理について説明しています。

    ● "PRIMECLUSTER Global Link Services 説明書 ( マルチパス機能編 ) (Solaris™ オペレーティングシステム版 )" — Solaris 版 GLS マルチパス機能の構成設定および管理について説明しています。

    ● "PRIMECLUSTER Web-Based Admin View操作手引書 (Solaris/Linux)" — PRIMECLUSTERサービスの運用管理GUIを使用するための共通基盤として動作するWeb-Based Admin Viewについて説明しています。

    ● "PRIMECLUSTER 導入運用手引書 4.1" — PRIMECLUSTER システムの導入から運用管理までの一連の流れ、および操作について説明しています。

    ● " 製品添付インストールガイド (Solaris™ オペレーティングシステム版 )" — このドキュメントは、PRIMECLUSTER (Solaris™ オペレーティングシステム版 ) のインストール、構成設定、および操作に関する最新情報が記載されています。

    ● " 製品添付インストールガイド (Linux 版 )" — このドキュメントは、PRIMECLUSTER (Linux 版 )のインストール、構成設定、および操作に関する最新情報が記載されています。

    ● RMS ウィザードマニュアルパッケージ — PRIMECLUSTER CD に収録されています。このマニュアルパッケージに含まれるドキュメントでは、切替えファイルシステムの設定方法や、切替え IPアドレスの設定方法、その他さまざまなウィザードによる設定方法について詳しく説明しています。

    以降、マニュアル名の "PRIMECLUSTER" を省略して記述する場合があります。

    1.3 本書の表記について

    表現を標準化するため、このマニュアルにはいくつかの表記上、印刷上、構文上の規則があります。

    1.3.1 表記

    以下の表記規則があります。

    1.3.1.1 プロンプト

    実行にシステム管理者 ( ルート ) 権限が必要なコマンドライン例の場合、先頭にシステム管理者プロンプトを示すハッシュ記号 (#) が付いています。いくつかの例で、node# という表記は、指定されたノードの rootプロンプトを表しています。 たとえば、コマンド名の前に fuji2#が記述されていると、そのコマンドが fuji2 という名前のノード上で、root ユーザとして実行されたことを示しています。システム管理者権限を必要としないエントリの場合、先頭にドル記号 ($) が付いています。

    2 J2UZ-5301-02Z2(A)

  • はじめに 本書の表記について

    1.3.1.2 マニュアルページのセクション番号

    オペレーティングシステムコマンドの後ろにマニュアルページのセクション番号が括弧付きで示されています。例 : cp(1)

    1.3.1.3 キーボード

    印字されない文字のキーストロークは< Enter >や< F1 >などのキーアイコンで表示されます。たとえば、< Enter >は Enter というラベルの付いたキーを押すことを意味し、< Ctrl > + < B >は Ctrl または Control というラベルの付いたキーを押しながら< B >キーを押すことを意味します。

    1.3.1.4 書体 / 記号

    以下の書体は特定要素の強調に使用されます。

    書体規則の例を以下に示します。

    1.3.1.5 例 1

    以下に /etc/passwdファイルのエントリの一部を示します。

    root:x:0:1:0000-Admin(0000):/:/sbin/kshsysadm:x:0:0:System Admin.:/usr/admin:/usr/sbin/sysadmsetup:x:0:0:System Setup:/usr/admin:/usr/sbin/setupdaemon:x:1:1:0000-Admin(0000):/:

    1.3.1.6 例 2

    cat(1) コマンドでファイルの内容を表示するには、以下のコマンドラインを入力します。

    $ cat <ファイル名>

    書体 使用方法

    固定幅 コンピュータ出力、およびプログラムリスト : テキスト本文中のコマンド、ファイル名、マニュアルページ名、他のリテラルプログラミング項目

    斜体 具体的な数値に置き換える必要のある変数。具体的な数値に置き換える必要のあるコマンド行の変数。隣接する文字列と区別するためかぎ括弧で括られて表記される場合がありますが ( 例 : RMS)、特に指定のない限り、かぎ括弧は入力対象ではありません。

    CUI または GUI 内の項目名。

    太字 記述どおりに入力する必要のあるコマンドライン項目

    " 均等幅 " 参照先のタイトル名、マニュアル名、画面名等

    [ 均等幅 ] ツールバー名、メニュー名、コマンド名、アイコン名

    <均等幅> ボタン名

    J2UZ-5301-02Z2(A) 3

  • 表記記号 はじめに

    1.3.2 コマンド構文

    コマンド構文には以下の規則があります。

    1.4 表記記号

    特に注意すべき事項の前には以下の記号が付いています。

    説明されている内容に関する重要な情報が記述されていることを示します。

    データが破損する可能性のある状態を示します。

    1.5 略称

    参照する Solaris™ オペレーティングシステム ( 以降、Solaris) のマニュアル名称で "Solaris X" と書かれている部分は、Solaris™ 8 オペレーティングシステム ( 以降、Solaris 8)、または Solaris™ 9 オペレーティングシステム ( 以降、Solaris 9) と読み替えてマニュアルを参照してください。

    記号 名前 意味

    [ ] 角括弧 オプション項目を囲む。{ } 波括弧 択一選択の複数選択肢を囲む。各項目は縦線 (|) で区切られる。| 縦線 波括弧で囲まれている場合は、択一選択の各選択肢の区切り。波括弧で囲ま

    れていない場合は、1 つのプログラムの出力が他のプログラムの入力にパイプされることを示すリテラル要素。

    ( ) 丸括弧 繰り返しの際にグループ化される項目を囲む。... 省略符号 項目の繰り返しを示す。1 グループの項目を繰り返す場合には、項目グルー

    プを丸括弧で囲む。

    4 J2UZ-5301-02Z2(A)

  • 2 クラスタリングテクノロジーの概要本章では、PRIMECLUSTER の主なコンポーネントを含むクラスタリングテクノロジーの基本概念とメリットについて説明します。

    本章で説明する内容は以下のとおりです。

    ● 5 ページの "2.1 概要 " では、クラスタリングテクノロジーの概念について説明します。

    ● 6 ページの "2.2 高可用性 (HA)" では、PRIMECLUSTER の高可用性機能について説明します。

    ● 10 ページの "2.3 拡張性 ( スケーラビリティ )" では、PRIMECLUSTER の拡張性におけるメリットについて説明します。

    2.1 概要

    一般にクラスタとは、以下の機能を提供するコンピュータ、またはコンピュータのパーティション ( この単位をノードと呼びます ) の結合体を意味します。

    ● 高可用性 (HA) — クラスタを構成する各コンポーネントの冗長化により実現する。

    ● 拡張性 — アプリケーションリソースを複数個動作させることにより実現する。

    本書では、PRIMECLUSTER ソフトウェア製品群により実現する、高可用性および拡張性を保証するクラスタシステムを中心に説明します。管理用クラスタシステムや R&D 向け並列計算用クラスタなどの、他の種類のクラスタシステムについては本書の説明対象外です。図 1 は、一般的な 2 ノードクラスタシステムを示しています。

    図 1: 一般的な 2 ノードクラスタシステム

    ノード 2冗長クラスタインタコネクト

    クラスタコンソール

    ノード 1

    冗長 SAN

    共用ディスク装置

    J2UZ-5301-02Z2(A) 5

  • 高可用性 (HA) クラスタリングテクノロジーの概要

    2.2 高可用性 (HA)

    HA クラスタは冗長化されたコンポーネントにより、各種の障害に対して対応することができます。多くの HA クラスタは、共用記憶装置環境を採用 / 必須としています。しかし、PRIMECLUSTER は共有アクセス Storage Area Network (SAN) によるクラスタノードから記憶装置への接続機能をサポートしていますが、共用記憶装置は PRIMECLUSTER による HA クラスタの必須機能ではありません。PRIMECLUSTERを構成する各ノードは同じクラスタの他のノードとクラスタインタコネクトを利用して定周期間隔で通信を行いその応答を確認することにより、各ノードが稼動中かどうかを監視します。この定周期間隔の通信をハートビートと呼びます。

    2.2.1 クラスタインタコネクト

    クラスタインタコネクトとは PRIMECLUSTER がノード間の通信処理に使用する専用のネットワーク接続であり、クラスタシステムのもっとも基本的な構成要素です。クラスタインタコネクトの故障によるクラスタ全停止を防ぐために、クラスタインタコネクトの冗長化をぜひお勧めします。

    クラスタインタコネクトは、ハートビート要求の他、各種のイベント通知、プロセス間通信、クラスタファイルアクセスなどのノード間のメッセージを伝送します。詳細は、本マニュアルの 37 ページの "4クラスタインタコネクトの詳細 " で説明します。

    2.2.2 HA マネージャ (RMS)

    PRIMECLUSTER のクラスタシステムを構成する各ノード間のハートビートを行うことで、ノードが正常に動作しているかどうか、およびクラスタ内のクラスタインタコネクトを利用した通信機能が正常であるかどうかを判断します。しかし、ユーザの業務や SAN のホストアダプタの動作状態はクラスタインタコネクトを利用したハートビートでは判断できません。PRIMECLUSTER が提供するディテクタと呼ばれる監視プログラムは、ユーザ業務が動作するための各種コンポーネントおよび、ユーザ業務が使用するリソースの状態を監視します。各種リソースやユーザ業務の障害をディテクタが検出すると、PRIMECLUSTER の HA マネージャである Reliant Monitor Services (RMS) に通知されます。

    2.2.2.1 データ整合性の保証

    RMS は以下の処理により、ユーザ資産であるデータ整合性を保証します。

    ● ユーザ業務および各種リソースの監視

    ● ユーザ業務を同時に複数実行させないこと

    ● 全てのクラスタノードの状態を確認した上でユーザ業務を自動起動する (RMS 環境変数の設定により、制御されている場合は除く )

    以下に、データ整合性を保証するための機能や処理の内容について説明します。

    ユーザ業務の監視

    RMS はアプリケーション固有のルールおよびクラスタ構成で設定されます。RMS の構成情報は、ユーザが定義するユーザ業務固有の定義と、動作するクラスタ環境の情報で構成されます。ディテクタが障害を検出すると、RMS は定義に従い適切な処置をとり、ユーザ業務を続行させるために必要なリソースのリカバリを行います。リカバリ処理はユーザ業務、およびおのおののリソースごとに定義することができます。

    RMS には以下のリカバリ処理があります。

    ● ローカルリカバリ — ユーザ業務を他のノードに切替えずに、現在のノードで再度 Onlineに戻すリカバリ処理

    ● リモートリカバリ — ユーザ業務を他のノードに切替える ( フェイルオーバ )

    6 J2UZ-5301-02Z2(A)

  • クラスタリングテクノロジーの概要 高可用性 (HA)

    クラスタパーティションに対する処理

    クラスタパーティションとはクラスタインタコネクトの障害により起こりうる現象のことです。クラスタの一部または全てのノードは処理を続行できますが、クラスタノードの一部のノードの通信は停止した状態を示します。この状態はスプリットブレイン状態とも呼ばれます。この状態をできるだけ回避するためにもクラスタインタコネクトの冗長化が必要になります。

    図 2 は、クラスタインタコネクトの 2 箇所の切断によりノード 1 とノード 2 の通信が停止した場合の例を示しています。2 つのノードはまだ SAN にアクセスすることができるため、各ノード上で独立してリカバリ処理を行うとユーザ業務がクラスタの 2 つのノードで互いに認識されないまま実行される可能性があります。この状態で互いに連携されていないユーザ業務が個別にデータを更新すると、共用ディスク装置上のユーザ資産を破損する危険性が生じることになります。

    図 2: 2 ノードクラスタのクラスタパーティション

    ハートビートによる相手ノードとの通信が行えない場合、各ノードは相手の状態が確認できないノードに LEFTCLUSTER 状態を設定します。LEFTCLUSTER 状態とは、動作中 (UP) と停止中 (DOWN) の中間の状態で、ノードがクラスタシステムから外れていて、現在の状態が動作しているのか、それとも停止しているのか不明であることを意味します。各ノードがリカバリ処理を開始する前に、クラスタシステムは各ノードの状態を確認し、整合性が保てることを確認しなければなりません。この確認を行わない場合は前述のとおりユーザ資産を破壊する可能性があるからです。この整合性の保たれている状態をPRIMECLUSTER のマニュアルではクラスタ整合状態 ( クォーラム ) と定義します。

    PRIMECLUSTER のマニュアルでは「クラスタ整合状態」と「クォーラム」とは同じ意味です。クラスタ整合状態とは、クラスタの全てのノードが動作中 (UP) または 停止中 (DOWN) のいずれかの状態で、動作中の UPノードが他の全ての UP状態のノードと通信可能な状態である場合に設定されます。クラスタ内で定義されているユーザ業務は、共用ディスク装置上のデータの変更を伴う処理を開始する前にクラスタがクラスタ整合状態になっていることを確認する必要があります。RMS はクラスタシステム内のユーザ業務起動前に、クラスタシステムがクラスタ整合状態になっていることを確認してから動作します。

    PRIMECLUSTER は、クラスタシステムを構成するノードのアーキテクチャに応じた方法で、クラスタノードの強制停止を行います。PRIMECLUSTER はノードが LEFTCLUSTER 状態であると判断すると、ノードを強制停止してユーザ業務のリカバリ処理 (ローカルリカバリあるいはリモートリカバリ (フェイルオーバ )) を行い、データの整合性を保証します。

    クラスタコンソール

    ノード 1 ノード 2

    冗長 SAN

    共用ディスク装置

    クラスタパーティション : 両方のインタコネクトに障害が発生している

    冗長クラスタインタコネクト

    J2UZ-5301-02Z2(A) 7

  • 高可用性 (HA) クラスタリングテクノロジーの概要

    クォーラムという用語の意味は、クラスタパーティションの処理を説明する文書にはさまざまな意味に用いられています。通常は、クラスタシステムを構成するノードが n 個存在した場合、互いに (n + 1)/2 個のノードが参照できればクォーラムであり、クォーラムでないノードは I/O 処理を行うことができません。PRIMECLUSTER ではクォーラムの意味が上記の意味と異なるため、「クラスタ整合状態」という言葉を採用しています。

    クラスタ整合性モニタ (CIM)

    PRIMECLUSTER はクラスタ整合性モニタ (CIM) により、ユーザ業務がクラスタの複数ノードで共用されている資源を使った処理を、処理の競合をおこすことなく安全に処理することができるかどうかを判断します。つまり、処理を行うノードが、クラスタ整合状態であるクラスタシステムのメンバである場合、共用リソースを安全に使用することができることになります。

    PRIMECLUSTER システムにおける整合状態は、CIM が監視するクラスタシステムの全てのノードが動作中 (UP) または停止中 (DOWN) のいずれかの状態、かつ安全な状態である場合に設定されます。CIM が監視するノードは、CIM 構成時に設定されたノード全てです。CIM はクラスタの状態を調べる場合、これらのノードのみを対象とします。

    CIM は他のノードが安全である場合、クラスタ整合状態であると判断します。

    クラスタを構成するノードの状態を調べる方式は CIM 方式と呼ばれます。CIM は複数の異なる CIM 方式を使用することができます。PRIMECLUSTER では以下の方式が使用可能です。

    ● NSM — ノード状態モニタ (NSM) はノードの状態を定周期で監視し、現在および過去のクラスタノードのノード状態を管理します。この方法は NULL 方式またはデフォルト CIM 方式とも呼ばれます。NSM は PRIMECLUSTER CF に組込まれています。

    ● RCI — RCI (Remote Cabinet Interface) は、Solaris システム上でシステム間の状態通知やシステム制御を非同期で行う PRIMEPOWER 専用制御機構です ( 詳細については、"Cluster Foundation 導入運用手引書 4.1 (Solaris 版 )" を参照してください )。

    ● MMB — MMB (Management Board) は、Linux システム上でシステム間の状態通知やシステム制御を非同期で行う PRIMEQUEST 専用制御機構です ( 詳細については、"Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" を参照してください )。

    PRIMECLUSTER は、複数の CIM 方式を登録して使用することができます。複数の CIM 方式が登録されている場合は、優先度の高い方式でノードの状態が判断できない場合にのみ優先度の低い方式を使用して確認します。例として、CIM 方式として RCI と NSM が登録され、RCI の方が優先度が高い場合は、CIM は、RCI を使用した CIM 方式で確認を行います。対象が PRIMEPOWER ノードまたは PRIMEPOWER パーティションであれば、RCI CIM 方式が UP または DOWN を返して処理は終了します。一方、RCI 方式によりチェックされるノードが RCI に接続されていない、または RCI が故障していた場合は、RCI 方式は失敗するため、CIM は NSM による CIM 方式を使用してノード状態を調べます。PRIMEQUEST ノードでは、CIM 方式として MMB と NSM が使用され、MMB の方が優先度が高い場合は、CIM は、MMB を使用した CIM 方式で確認を行い、MMB CIM 方式が UP または DOWN を返して処理は終了します。MMB 方式によりチェックされるノードが MMB に接続されていない、または MMB が故障していた場合は、MMB 方式は失敗するため、CIM は NSM による CIM 方式を使用してノード状態を調べます。

    CIM は対象ノードに関して、クラスタ整合状態である (TRUE)、 またはクラスタ整合状態でない (FALSE)のいずれかのノード状態を通知します。TRUEと FALSEの定義は以下のとおりです。

    ● TRUE — 全ての CIM ノードにとって、UP、または DOWNの状態が既知の状態

    ● FALSE — 全ての CIM ノードにとって、UP、または DOWNの状態が不明な状態

    8 J2UZ-5301-02Z2(A)

  • クラスタリングテクノロジーの概要 高可用性 (HA)

    シャットダウン機構 (PRIMECLUSTER SF)

    CIM は、クラスタ整合状態である場合にユーザ業務に対して動作することを許可しますが、クラスタ整合状態でない場合はこれを解決するような処理を行いません。高可用性要件ではクラスタ整合状態を保証するために複数の方式が使用されます。しかし、ノード間の協調を必要とせず、かつ完全に効果のある方法は 1 つだけです。PRIMECLUSTER では、クラスタ整合状態を妨げるような問題が発生した場合は、シャットダウン機構 (SF) を使用して、クラスタ整合状態に戻します。図 2 のクラスタパーティションの例では、2 つのノードは互いに相手ノードに対して LEFTCLUSTERを通知した結果、CIM は FALSEと判断します。PRIMECLUSTER は、クラスタシステムをクラスタ整合状態にするため、SF は強制的に相手ノードを停止することで、生存ノードを 1 つにして競合の発生しない安全な状態にします。

    SF の設定により、PRIMECLUSTER は異常となったノードを強制停止することができます。SF はノードを強制停止するような要求を受けると、ノードを強制停止を行い、成功した場合にノードの状態はLEFTCLUSTERから DOWNに変化します。

    状態をLEFTCLUSTERからDOWNに変更すると PRIMECLUSTERは各種、リカバリ処理を開始します。ノードの強制停止の方法は、システムによって異なります。たとえば、Solarisでは有効なシャットダウンエージェントが、Linuxでは使用できないことがあります。

    システムに登録されている全ての方式を実行しても要求したノードの強制停止成功の応答が得られない場合、処理はそこで停止します。この場合、クラスタはクラスタ整合状態ではない状態のままなので、オペレータによる操作が必要になります。

    このフェイルセイフ方式により、誤ってクラスタパーティションに分割されたクラスタシステムの 2 箇所でユーザ業務を実行し、その競合によりユーザデータが破壊されることを防ぐことができます。また、システム負荷 (System Load) が著しく高いことなどが原因で、ノードがハートビートに対する応答に失敗し、後から復活するという状況でも、ユーザ資産は競合から保護されます。

    PRIMECLUSTER はハードウェア固有のさまざまな方法で、Solaris または Linux が稼動するノードをリセットするように定義することができます。PRIMECLUSTER は RCI の使用、コンソール装置に対する BREAK 信号送信、RSB の使用または MMB の使用でノードの強制停止が可能です。

    非同期監視 (Monitoring Agent)

    PRIMEPOWER ハードウェアは、シャットダウン機構で説明した RCI (Remote Cabinet Interface) を備えており、PRIMEQUEST ハードウェアは、シャットダウン機構で説明した MMB (Management Board) を備えています。RCI / MMB には、システムの停止機能以外に、システムの状態を調べる機能があり、ノードにパニックが発生したり、ノードがシャットダウンさせられたりした場合には直ちにそれを検出することができます。

    PRIMECLUSTER は、これらのハードウェアの機能を使用してシステム状態の変化をすばやく検出し、クラスタを構成するノードに通知します。PRIMECLUSTER のこの監視機能を非同期監視 (Monitoring Agent)といいます。非同期監視を使用しない場合、ノードのパニックを検出する機能はクラスタのハートビートタイムアウトのみであるため、デフォルトのハートビート間隔の設定では検出に 10 秒が必要です。非同期監視を使用した場合、ノードのパニックを即時に検出することができます。非同期監視テクノロジーにより、PRIMECLUSTER は監視対象ノードの障害からすばやく復旧することができます。非同期監視は、シャットダウン機構のプラグインとして実装されています。

    J2UZ-5301-02Z2(A) 9

  • 拡張性 ( スケーラビリティ ) クラスタリングテクノロジーの概要

    ノードに異常が発生した場合、PRIMECLUSTER は以下の処理を行います。

    ● ノード異常の検出

    ● 異常となった障害の通知

    ● ノード状態の確認

    ● ノードの強制停止

    MA はノード異常を検出すると、ただちに SF に通知します。 SF は、MA による障害通知が本当に正しいかどうかを判断するために、ノード状態に関する冗長確認を行います。 この検証処理は、正常に動作しているノードが誤って停止されないようにするために行われます。

    SF は、以下のようにしてノードの状態を確認します。

    ● 全ての登録済み MA から再度ノードの状態情報を採取する。

    ● CF ハートビート要求への応答があったかどうかを確認する。

    全ての MA から SF に対してノード障害の通知があり、CF から SF に対して、ハートビート要求への応答がなかった旨の通知があった場合は、SF は MA に対して障害の発生したノードの強制停止を要求します。 ノードの強制停止が完了すると、他方のノードは DOWNの状態になります。

    2.2.2.2 ウィザード

    ユーザ業務を適切にリカバリするには、ユーザ業務の正常な動作に必要なリソースをあらかじめ RMS に定義し、その状態を通知しておかなければなりません。リソース構成およびリソース間の関係はきわめて複雑になる場合があります。RMS Wizard Tools および RMS Wizard Kit は、これらの情報を RMS に指定するための構成定義を行います。また、userApplication Configuration Wizard を用いることでこれらをGUI により構成することができます。RMS Wizard Tools は、クラスタや一般的なアプリケーションサービスに関係する一般的な情報を設定します。

    RMS Wizard Kit の可用性についての詳細は、当社技術員 (SE) にお問い合わせください。

    2.3 拡張性 ( スケーラビリティ )

    高い拡張性も PRIMECLUSTER の特長の 1 つです。PRIMECLUSTER の拡張性は、クラスタの処理能力の拡張によって実現されます。拡張性が重要なユーザ業務の形態は、基本的に以下の 2 種類のタイプがあります。

    ● クラスタソフトウェアと密接に連携した分散環境向け

    ● クラスタを意識しないもの

    クラスタソフトウェアと連携するケース

    クラスタソフトウェアと連携する拡張性のあるアプリケーションの一例として、Oracle 9iRAC があります。Oracle 9iRAC はクラスタシステム上の一部または全てのノード上で、データベースサーバの Oracleインスタンスを起動します。また、Oracle 9iRAC は、PAS (Parallel Application Services) との連携により、異なるノード上の Oracle インスタンス間のメッセージ送信機能を提供します。

    10 J2UZ-5301-02Z2(A)

  • クラスタリングテクノロジーの概要 拡張性 ( スケーラビリティ )

    クラスタを意識しないもの

    クラスタ環境を意識せずに動作することができるようなユーザ業務は、複数ノードで同時に動作させることができます。とりわけ、1 台のコンピュータ上で複数ユーザがアプリケーションを実行するような場合は、Scalable Internet Services (SIS) および Global File Services (GFS) の機能によりクラスタノード間負荷分散効果が増大します。SIS の詳細については本マニュアルの 57 ページの "7 SIS (Solaris)" を、GFS の詳細については本マニュアルの 16 ページの "3.3 PRIMECLUSTER のモジュール " および "Global File Services 説明書 4.1 (Linux 版 )" を参照してください。

    J2UZ-5301-02Z2(A) 11

  • 拡張性 ( スケーラビリティ ) クラスタリングテクノロジーの概要

    12 J2UZ-5301-02Z2(A)

  • 3 PRIMECLUSTER のアーキテクチャ本章では、PRIMECLUSTER のアーキテクチャおよび主な機能について説明します。

    本章で説明する内容は以下のとおりです。

    ● 13 ページの "3.1 アーキテクチャの概要 " では、基本的な PRIMECLUSTER コンポーネントおよびクラスタリング環境でのコンポーネントの機能について説明します。

    ● 15 ページの "3.2 PRIMECLUSTER 設計理念 " では、オペレーティングシステムおよびプラットフォームの独立性、拡張性、可用性、データの整合性保証など、PRIMECLUSTER 設計の理念について説明します。

    ● 16 ページの "3.3 PRIMECLUSTER のモジュール " では、Cluster Foundation (CF)、Reliant MonitorServices (RMS)、Web-Based Admin View グラフィカルユーザインターフェース (GUI)、およびオプションの PRIMECLUSTER サービスについて説明します。

    3.1 アーキテクチャの概要

    PRIMECLUSTER は、高可用性 (HA) を実現するソフトウェアやハードウェアを構築してきた実績に基づいて設計されています。PRIMECLUSTER はこのソリューションとして以下の特徴があります。

    ● 新しいハードウェアプラットフォーム、オペレーティングシステム、およびクラスタインターコネクトへの容易な移植性

    ● クラスタシステムを使用 / 管理するために視覚的、感覚的に理解しやすい操作方法

    ● 他のアプリケーションが PRIMECLUSTER との通信機能や、PRIMECLUSTER の機能を利用するためのインタフェースの提供

    図 3: 一般的な PRIMECLUSTER の設定図

    OS OS

    PRIMECLUSTER のサービス

    エンタープライズマネージメント

    アプリケーション

    Storage Area Network

    クラスタのインタコネクト

    PRIMECLUSTER

    クラスタマネージャ

    CF

    OS

    サーバ サーバ...

    ...

    サーバ

    ディスク ディスク ディスク

    PRIMECLUSTER のサービス

    PRIMECLUSTER のサービス

    OS

    J2UZ-5301-02Z2(A) 13

  • アーキテクチャの概要 PRIMECLUSTER のアーキテクチャ

    図 4 は、PRIMECLUSTER ソフトウェアのアーキテクチャおよび PRIMECLUSTER とオペレーティングシステム本体とのインタフェースの概念を示しています。PRIMECLUSTER の全てのモジュールは、OS 依存層 (OS Dependent。以降、OSD 層と呼ぶ ) に対して、OS 非依存型インタフェースを使用して、モジュール間の通信や基本オペレーティングシステムのサービスへのアクセスを行います。OSD 層には以下の機能があります。

    ● メモリアロケーション

    ● シンクロナイゼーション

    ● デバイスおよびネットワークアクセス

    図 4: PRIMECLUSTER フレームワークの概要

    プラットフォーム

    オペレーティング

    システム

    OS 非依存型ユーザインタフェース

    OS 依存型ユーザインタフェース

    アプリケーションレベル

    カーネルレベル

    システムコールインタフェース

    OSD システム I/F

    PRIMECLUSTER の基本モジュールおよび

    オプションモジュール

    OSD ネットワーク I/F

    ネットワーク I/O システム

    インタコネクトハードウェア

    高可用性

    マネージャアプリケーション

    管理および

    構成設定

    14 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER 設計理念

    3.2 PRIMECLUSTER 設計理念

    PRIMECLUSTER クラスタリングソフトウェアは以下を目標に設計されています。

    ● モジュール方式

    ● プラットフォーム非依存性

    ● 拡張性 ( スケーラビリティ )

    ● 可用性

    ● データの整合性保証

    3.2.1 モジュール方式

    PRIMECLUSTER は、基本的なクラスタリング機能を提供する、Cluster Foundation (CF) と呼ばれるモジュールを中心とした集合体で構成されます。PRIMECLUSTER には Parallel Application Services (PAS) モジュール、Scalable Internet Services (SIS) モジュール、および Reliant Monitor Services (RMS) モジュールなど、さまざまなモジュールで機能を拡張することが可能です。

    3.2.2 プラットフォーム非依存性

    PRIMECLUSTER のアーキテクチャはオペレーティングシステムやハードウェアプラットフォームに依存しません。PRIMECLUSTER のモジュールは、オペレーティングシステムのカーネル機構の抽象化に基づいて設計およびコーディングされています。これはオペレーティングシステムやネットワークインタコネクトの種類によって固有の OSD 層で処理されます。この方式により、オペレーティングシステムを変更することなしに、PRIMECLUSTER をサポート対象上に実装することができます。これにより、ユーザニーズに合わせたプラットフォームに展開することができます。

    3.2.3 拡張性 ( スケーラビリティ )

    PRIMECLUSTER 製品は高可用性に加えて拡張性も備えています。PRIMECLUSTER は、共通のサービスを提供するために、複数のノードを連携して動作させることができます。たとえば SIS では、WWW サービスに対するアクセスを、クラスタの全ノードへ分散させることができます。PAS では、データベースを複数のノードにわたって並列に動作させることができます。GFS では、多数のノード上の連携プロセスが同一のデータにアクセスできるようクラスタ規模のファイルシステムを実現しています。

    リソース ( 特に CPU) に対するアプリケーションの要求が、単一マシンの能力を超えてしまっている場合には、PRIMECLUSTER の拡張性が大きな意味を持ちます。ノードをクラスタ化することによって、このようなアプリケーションに対してより大きな処理能力を提供することができます。

    3.2.4 可用性

    PRIMECLUSTER では、全てのクラスタ情報をノード間で完全に複製して、ソフトウェアの一点故障を回避します。また、冗長化された複数のクラスタインタコネクトにより、ハードウェアの一点故障 (SinglePoint of Failure) も回避することができます。また、PRIMECLUSTER の HA マネージャである RMS により、ノード障害の発生時に、ユーザ業務をフェイルオーバさせることができるので、業務の可用性を保証します。さらに、PRIMECLUSTER には、ネットークの可用性を向上させるオプションのネットワーク負荷分散モジュール (SIS、GLS) も存在します。

    J2UZ-5301-02Z2(A) 15

  • PRIMECLUSTER のモジュール PRIMECLUSTER のアーキテクチャ

    3.2.5 データの整合性保証

    PRIMECLUSTER のアルゴリズムは、クラスタパーティション ( またはスプリットブレイン状態 ) 発生時においても、また、複数のハードウェアインタコネクトに障害が発生してもデータの不整合を起さないように設計されています。クラスタ整合状態 ( クォーラム ) を利用したアルゴリズムは、クラスタパーティションにより分断されているクラスタシステムの一部のみ動作させます。

    3.3 PRIMECLUSTER のモジュール

    PRIMECLUSTER のコアコンポーネントである Cluster Foundation (CF) は、全てのコンポーネントの基礎となるクラスタの機能を提供します。CF の構成は以下のとおりです。

    ● Cluster Admin — クラスタの管理、構成、監視、および診断サービスのインタフェースを提供します。

    ● Web-Based Admin View — PRIMECLUSTERの全てのGUIが稼動するフレームワークを提供します。

    ● PRIMECLUSTER Simple Network Management Protocol (SNMP) — PRIMECLUSTER モジュールの状態や構成に関する情報や統計を収集およびレポートする機能を提供します。

    上記コンポーネントを基盤として、PRIMECLUSTER の機能を強化するオプションコンポーネントと製品群を以下に示します。

    ● Reliant Monitor Services (RMS) — ユーザ業務の各種プロセスおよび各種リソースの高可用性のため、ユーザ業務のフェイルオーバを制御します。さらに、RMS ウィザードにより RMS の容易な設定を可能にします。

    ● RMS ウィザード — RMS の構成が行えます。

    ● RMS Wizard Kit — ユーザ固有の業務に応じて RMS を構成します。

    ● Parallel Application Services (PAS) — 並列データベースソフトウェアに対する高性能かつ高速な通信機能を提供します。

    ● Global Disk Services (GDS) — ディスク装置に格納されているデータの可用性と運用管理性を向上させるボリューム管理機能を提供します。

    ● Global File Services (GFS) — 共用ディスク装置に接続している複数ノードによるアクセス機能を備えたファイルシステムを提供します。

    ● Global Link Services (GLS) — 複数のネットワークインタフェースカード (NIC) を使った冗長化パスを構築することにより信頼性の高い通信機能を可能にします。

    3.3.1 CF

    CF は、他の全ての PRIMECLUSTER モジュール / コンポーネントが使用する OSD 層などの基盤機能を提供します。

    CF には以下の特徴があります。

    ● システム起動時に自動的にロードされる、ロード可能な擬似デバイスドライバの装備

    ● OSD および汎用モジュールを含む CF ドライバ

    次に CF の機能について説明します。

    16 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER のモジュール

    3.3.1.1 OSD

    CF の OSD 層モジュールは、OS と全ての PRIMECLUSTER モジュールが依存する抽象化された OS 非依存部との間を橋渡しするインタフェースを提供します。このため、PRIMECLUSTER がサポートする OSとアーキテクチャにおけるソースファイルは同一となります。この設計理念は、以下の 2 つのメリットのために採用しています。

    ● ソース保守管理情報の一本化による万全なユーザ支援体制

    ● 新しい OS やアーキテクチャへの移植が容易なため市場ニーズへ迅速に対応できる

    3.3.1.2 ICF

    ICF ( ノード間通信機構 ) モジュールは、PRIMECLUSTER における全てのノード間通信のネットワーク通信層です。ICF モジュールには以下の機能があります。

    ● 到着順を保証したクラスタノード間のデータグラム通信サービス

    ● 送信順序の保証 ( 宛先ノードの異常がない場合 )

    ● OSD を経由したネットワークへのインタフェース

    ハードウェアの一点故障 (Single Point of Failure) を回避するため、ICF は冗長化されたクラスタインタコネクトでも使用できます。複数のクラスタインタコネクトが使用可能な場合、ICF は使用可能な全てのインタコネクトにメッセージを分散させることにより、パフォーマンスを向上させます。ひとたび障害が発生すると、クラスタインタコネクト間の自動切替えが行われます。また、ICF には、クラスタインタコネクトの間欠障害に対する経路リカバリ機構も保持しています。

    ICF は、CF の内部コンポーネントのみで使用可能であり、上位層の各種プログラム ( 一般的なユーザプログラム ) では使用することはできません。そのかわり、クラスタインタコネクトにアクセスするアプリケーションには Cluster Interconnect Protocol (CIP) が使用可能です。CIP は ICF 上で TCP/IP プロトコルを提供します。

    3.3.1.3 JOIN

    JOIN モジュールは、ノードを動的にクラスタに参入させる機構です。参入すべきクラスタが存在しない初期状態の場合は、CF が 1 ノードのクラスタシステム ( 初期クラスタ ) を作成します。このとき、複数ノードが同時に初期クラスタを作成するようなケースが考えられますが、分散ノード環境におけるリーダ選択アルゴリズムにより、マスタノードが決定され、初期クラスタが作成されます。

    初期クラスタが作成されると、JOIN モジュールは他のノードをクラスタに参入させることができます。JOIN モジュールは、初期クラスタ作成段階にプロトコルバージョン情報を提供し、ローリングアップグレードをサポートする機構が組込まれています。各ノード間で使用しているプロトコルのバージョンが異なる場合、クラスタの全ノードがサポートしているバージョンを自動的に指定します。

    3.3.1.4 ENS

    ENS ( イベント通知サービス ) モジュールは、さまざまなイベントをクラスタシステムの各ノードに通知する機構です。ENS のキューにいったん格納されたメッセージは、全てのノードに配送されるか、または、どのノードにも配送されないかのいずれかの状態を取ることが保証されます。PRIMECLUSTER モジュールおよびアプリケーションプログラムは ENS を使用することで、ノードの参入や、クラスタから削除したなどのイベント通知を受けることができます。また、各プログラム固有のイベントを各プログラム間で定義して、通知することができます。

    J2UZ-5301-02Z2(A) 17

  • PRIMECLUSTER のモジュール PRIMECLUSTER のアーキテクチャ

    3.3.1.5 Cluster Admin

    Cluster Admin マネージャは、以下の管理機構を提供します。

    ● クラスタシステムの構成

    ● クラスタシステムの管理

    ● クラスタシステムの運用および診断機構

    Cluster Admin マネージャを使った管理は、クラスタシステム内の任意のノードから実行することができます。また、ネットワーク経由で、遠隔地のクライアントから管理を行うことも可能です。ユーザは Java対応の Web ブラウザを使って管理を行いますが、ノード上でコマンドラインインタフェースを使用することもできます。多様で明解な画面表現やイベントログにより、クラスタの状態に関して簡潔でタイムリーな情報をユーザに提供します。

    3.3.1.6 Web-Based Admin View

    Web-Based Admin View は、PRIMECLUSTER 製品が使用する GUI 基盤です。Web-Based Admin View の機能を以下に示します。

    ● 複数の GUI の共通基盤PRIMECLUSTER には、CF、SIS、RMS、SF を制御する Cluster Admin GUI の他に、GDS や GFSなどの他のサービスをサポートする GUI が用意されている。Web-Based Admin View には、これらの全ての GUI が共通基盤として動作する。

    ● シングルログイン1 回のログインで複数ノード、複数の GUI 製品を使用することが可能

    ● パスワードの暗号化クライアントブラウザと管理サーバの間で送信されるパスワードは暗号化される

    ● ロギング構成設定または管理に関する全ての GUI 操作のロギング

    ● 3 層構造管理サーバをクラスタシステムと分離した外部に設定

    Web-Based Admin View の機能の詳細については、"Web-Based Admin View 操作手引書 V4.1 (Solaris/Linux)" を参照してください。

    3.3.1.7 SNMP

    PRIMECLUSTER SNMP は、PRIMECLUSTER モジュールの状態や構成に関する情報や統計を収集および通知する機能を提供します。ユーザは、通知された情報を SNMP 管理サーバに問い合わせることで得ることができます。現在SNMPを使って情報を表示しているPRIMECLUSTERモジュールを以下に示します。

    ● Cluster Foundation (CF)

    ● Reliant Monitor Services (RMS)

    PRIMECLUSTER SNMP は主に MIB (Management Information Bases) とサブエージェントで構成されています。MIB は SNMP により提供される情報の内容を定義するファイルです。サブエージェントはPRIMECLUSTER コンポーネントに問い合わせて情報を表示するプログラムです。

    18 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER のモジュール

    3.3.1.8 PRIMECLUSTER SF

    PRIMECLUSTER シャットダウン機構 (PRIMECLUSTER SF) は、クラスタシステム内でユーザ資産に対する競合が発生するような異常処理時に、他のノードを停止させることを保証する機能を提供します。PRIMECLUSTER SF は主に以下のコンポーネントで構成されます。

    ● SD ( シャットダウンデーモン ) — クラスタノードの状態を監視し、状態を収集したり、ノードの手動シャットダウンを要求したりするためのインタフェースを提供します。

    ● SA ( シャットダウンエージェント ) — リモートクラスタノードを停止させることを保証します。

    ● MA ( 非同期監視 ) — SA の機能に加え、リモートクラスタノードの状態を監視し、そのノードのダウンを即時に検出します。

    PRIMECLUSTER SF には以下の長所があります。

    ● 異常が発生したクラスタノードを強制停止させる。

    ● 任意の PRIMECLUSTER モジュールからクラスタノードを強制停止させる。

    ● 冗長シャットダウン方式が利用できる。

    非同期監視

    非同期監視は、ハードウェア特性を活かしてノードの状態を監視し、ノードダウンを即時に検出します。PRIMECLUSTER システムは、クラスタインタコネクトを利用した、ハートビートの送信と応答によるノードの状態監視を定周期間隔で行っていますが、非同期監視を利用することにより、より即時的なノードのダウン検出を実現します。

    非同期監視は以下の機能を提供します。

    ノードの状態監視

    非同期監視は、ハードウェアが提供する機能を利用したノードの状態監視を行います。突然のシステムパニックや電源切断など、万が一他のノードに異常が発生した場合、SF にその異常を通知します。また、システム負荷 (System Load) が著しく高いことが原因で、クラスタノード間でのハートビート要求の送信と応答が一時的に途切れた場合でも、非同期監視がオプションハードウェアを経由してノードの状態を正確に判断します。

    ノードの強制停止

    SA ( シャットダウンエージェント ) としての機能を提供し、異常が発生したノードの強制停止を保証します。

    サポートされるオプションハードウェアを以下に示します。

    ● RCI 非同期監視 (RCI) (PRIMEPOWER)

    PRIMEPOWER に搭載されるハードウェアの 1 つ、RCI を利用してノードの状態を監視する機能です。ハードウェア本体に標準で実装されているシステム監視機構 (System Control Facility: SCFと略する ) がハードウェアの状態を監視し、その状態をソフトウェアに通知することでノードダウンを判断することができます。また、他ノードを意図的にパニックあるいはリセットさせることで確実な強制停止を実現し、ユーザ資産への競合を防ぎます。

    RCI 非同期監視のノード状態の監視は、/var/adm/messages ファイルに以下のメッセージ (a)が出力されてから、(b) が出力されるまでの間機能しています。コンソール非同期監視の場合は、それぞれ (c) と (d) に該当します。ノード状態の監視が機能していない状態では、ノードを強制的に停止する機能が正常に動作しないことがあります。MMB 非同期監視の場合は、それぞれ (e) と(f) に該当します。

    J2UZ-5301-02Z2(A) 19

  • PRIMECLUSTER のモジュール PRIMECLUSTER のアーキテクチャ

    (a) FJSVcluster:INFO:DEV:3042: The RCI monitoring agent has been started

    FJSVcluster:情報 :DEV:3042: RCI非同期監視機能を開始しました。

    (b) FJSVcluster:INFO:DEV:3043: The RCI monitoring agent has been stopped

    FJSVcluster:情報 :DEV: 3043: RCI非同期監視機能を停止しました。

    (c) FJSVcluster:INFO:DEV:3040: The console monitoring agent has been started (node:monitored node name)

    FJSVcluster:情報 :DEV: 3040: コンソール非同期監視機能を開始しました。(node:監視対象ノード名 )

    (d) FJSVcluster:INFO:DEV:3041: The console monitoring agent has been stopped (node:monitored node name)

    FJSVcluster:情報 :DEV:3041: コンソール非同期監視機能を停止しました。(node:監視対象ノード名 )

    (e) FJSVcluster:INFO:DEV:3080: The MMB monitoring agent has been started.

    (f) FJSVcluster:INFO:DEV:3081: The MMB monitoring agent has been stopped.

    ● コンソール非同期監視 (RCCU)

    クラスタシステムを構成する各ノードのコンソールに表示されるメッセージを監視する機能です。パニック発生時等のコンソールメッセージを他ノードが検出し、メッセージ出力ノードのノードダウンを判断します。コンソール非同期監視は通常、数珠状に 1 対 1 の関係で他ノードの状態を監視しており、異常が発生してノードがダウンした場合、ダウンノードが監視していたノードを監視する役目を、その他のノードに引き継ぎます。また、ノードに対して break 信号を送信して確実なノード停止を行います。

    ノードがダウンした場合の監視の引き継ぎについて、3 ノードで構成されるクラスタシステムを例に示します。

    図 5 は、 3 ノードのクラスタシステムにおいて、1 つのノードが停止した場合に監視機能がどのように引き継がれるかを示しています。点線は、どのノードがどのノードを監視しているかを表します。

    図 5: 正常稼動時のコンソール非同期監視の処理

    RCCU RCCU RCCU

    ノード 1 ノード 3ノード 2

    冗長クラスタインタコネクト

    管理 LAN

    監視対象の矢印:ノード 1 がノード 2 を監視している

    コンソール回線

    20 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER のモジュール

    ノード 2 に異常が発生してダウンすると、以下の処理が実行されます。

    ■ ノード 1 はノード 3 の状態監視を開始します。

    ■ 以下のメッセージがノード 1 の /var/adm/messagesファイルに出力されます。

    FJSVcluster:INFO:DEV:3044: The console monitoring agent took over monitoring (node: targetnode)

    FJSVcluster:情報 :DEV:3044: コンソール非同期監視機能の監視対象にノード targetnode を追加しました。

    図 6 は、ノード 2 が停止した場合に、ノード 1 がノード 3 を監視対象ノードとして追加する様子を示しています。

    図 6: ノード異常発生時のコンソール非同期監視の処理

    ノード 2 が異常から復旧後に起動してくると、以下の処理が実行されます。

    ■ 従来の正常起動時の監視形態に戻ります。

    ■ 以下のメッセージがノード 1 の /var/adm/messages ファイルに出力されます。

    FJSVcluster:INFO:DEV:3045: The console monitoring agent cancelled to monitor (node: targetnode)

    FJSVcluster:情報 :DEV:3045: コンソール非同期監視機能の監視対象からノード targetnodeを削除しました。

    RCCU RCCU RCCU

    ノード 3ノード 2

    冗長クラスタインタコネクト

    管理 LAN

    監視対象の矢印:ノード 1 がノード 3 を監視対象に追加した

    ノード 1

    コンソール回線

    J2UZ-5301-02Z2(A) 21

  • PRIMECLUSTER のモジュール PRIMECLUSTER のアーキテクチャ

    図 7 は、クラスタに復旧したノード 2 がノード 3 の監視を再開する様子を示しています。

    図 7: ノード復旧時のコンソール非同期監視の処理

    コンソール非同期監視では、コンソールのメッセージを監視しているため、突然の電源切断の状態を判断できず LEFTCLUSTER状態が発生します。本現象が発生した場合は、ノードに DOWNマークを付ける必要があります。DOWN マークの付けかたについては、"Cluster Foundation 導入運用手引書 4.1 (Linux 版 )" の "5.7 ノードに DOWNマークを付ける " を参照してください。

    ● MMB 非同期監視 (MMB) (PRIMEQUEST)

    PRIMEQUEST に搭載されるハードウェアの 1 つ、MMB を利用してノードの状態を監視する機能です。ハードウェア本体に標準で実装されている MMB がハードウェアの状態を監視し、その状態をソフトウェアに通知することでノードダウンを判断することができます。また、他ノードを意図的にパニックあるいはリセットさせることで確実な強制停止を実現し、ユーザ資産への競合を防ぎます。

    ● MMB の異常が発生している状態でノード異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなることがあります ( 最大 6 秒 )。

    ● 全ノードで片系の MMB 管理 LAN に異常が発生している状態でノード異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなることがあります ( 最大 6 秒 )。

    ● MMB の異常を検出するには最大 10 分かかります。

    ● MMB の異常を復旧させた場合、その復旧を検出するには最大 10 分かかります。ただし、復旧をまだ検出していない状態でノードの異常が発生した場合、その時点で復旧されたことを認識するため、実際には MMB 非同期監視は問題なく動作します。MMB の異常を復旧させた後、すぐにその復旧を検出させたい場合は、シャットダウン機構 (SF) を再起動してください。

    ● 自ノードに異常 (smtptrapd が停止 ) が発生した場合、以下のメッセージが表示されます。

    FJSVcluster:INFO:DEV:3084:Monitoring another node has been stopped.

    RCCU RCCU RCCU

    ノード 1 ノード 3ノード 2

    冗長クラスタインタコネクト

    管理 LAN

    監視対象の矢印:ノード 2 がノード 3 の監視を再開した

    コンソール回線

    22 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER のモジュール

    この場合は、ノード状態の監視が機能していない状態となります。よって、この状態でノード異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなることがあります。また、ノード起動またはシャットダウン機構 (SF) の再起動後、以下のメッセージが表示されていない場合も、ノード状態の監視が機能していない状態となります。よって、この状態でノード異常が発生した場合、通常よりノードのダウンを確定するまでにかかる時間が長くなることがあります。

    FJSVcluster:INFO:DEV:3083:Monitoring another node has been started.

    ● ノード起動中に以下のメッセージが表示されることがあります。

    FJSVcluster: INFO: DEV: 3084: Monitoring another node has been stopped.

    これは、smtptrapd が起動中のためであり、smtptrapd が起動してから約 10 分以内に以下のメッセージが出力されれば問題ありません。

    FJSVcluster: INFO: DEV: 3083: Monitoring another node has been started.

    ● ノード起動直後にsdtool -sを実行すると、自ノードのテスト状態(Test State)にTestFailedと表示される場合があります。ノード起動直後に自ノードのテスト状態を参照したい場合は、sdtool -rを実行後、sdtool -sを実行してください。

    MMB の非同期監視では、MMB 管理 LAN が切断した場合、以下のメッセージが表示されます。

    各メッセージの対処法に従い、対処を行ってください。なお、7213 番のエラーメッセージが表示された場合は、ノード状態の監視が機能していない状態となります。よって、ノードを強制的に停止する機能が正常に動作しないことがあります。また、自ノードに異常 (smtptrapd が異常終了等 ) が発生した場合は、以下のメッセージが表示されます。

    この場合も、ノード状態の監視が機能していない状態となります。よって、ノードを強制的に停止する機能が正常に動作しないことがあります。メッセージの詳細については、"Cluster Foundation 導入運用手引書 " の "10.13 非同期監視メッセージ " を参照してください。

    SA ( シャットダウンエージェント )

    PRIMECLUSTER シャットダウン機構では、以下のシャットダウンエージェントを提供します。

    ● RCI(SA_pprcip, SA_pprcir) — Remote Cabinet Interface

    PRIMEPOWER に搭載されるハードウェアの1つ、RCI を利用して、他ノードを意図的にパニックあるいはリセットさせることで、確実な強制停止を実現します。

    FJSVcluster:WARN:DEV:5021:An error has been detected in part of the transmission route to MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2)

    FJSVcluster:ERROR:DEV:7213:An error has been detected in the transmission route to MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2)

    FJSVcluster:ERROR:DEV:7210:An error was detected in MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2 status:status detail:detail)

    J2UZ-5301-02Z2(A) 23

  • PRIMECLUSTER のモジュール PRIMECLUSTER のアーキテクチャ

    ● RCCU (SA_rccu) — リモートコンソール接続装置

    各ノードに接続しているリモートコンソール接続装置を利用して、他ノードに break 信号を送信して確実なノード停止を実現します。

    ● XSCF (SA_xscfp, SA_xscfr, SA_rccu) — eXtended System Control Facility

    PRIMEPOWER に搭載されるハードウェアの1つ、XSCF を利用して、他ノードを意図的にパニックあるいはリセットさせることで、確実な強制停止を実現します。また、コンソールに XSCF を使用している場合は、他ノードに break 信号を送信して確実なノード停止を実現します。

    ● NPS (SA_wtinps) — ネットワーク電源スイッチ ( 未サポート )

    Western Telematic Inc. のネットワーク電源スイッチ (WTINPS) 装置を使用して、他ノードをシャットダウンさせることで、確実なノード停止を実現します。

    ● RPS (SA_rps) — リモート電源スイッチ ( 未サポート )

    リモート電源スイッチ (RPS) 装置を使用して、他ノードをシャットダウンさせることで、確実なノード停止を実現します。

    ● RSB (SA_rsb) — リモートサービスボード

    RemoteView サービスボード (RSB) を使用して、他ノードをシャットダウンさせることで、確実なノード停止を実現します。

    ● BLADE (SA_blade)

    PRIMERGY ブレードサーバで使用可能な機能で、SNMP コマンドを使用して、他ノードをシャットダウンさせることで、確実なノード停止を実現します。

    ● IPMI (SA_ipmi) — Intelligent Platform Management Interface

    PRIMERGY に搭載されるハードウェアの1つ、IPMI を使用して、他ノードをシャットダウンさせることで、確実なノード停止を実現します。

    ● MMB (SA_mmbp, SA_mmbr) — Management Board

    PRIMEQUEST に搭載されるハードウェアの1つ、MMB を利用して、他ノードを意図的にパニックあるいはリセットさせることで、確実な強制停止を実現します。

    ● LKCD (SA_lkcd)

    相手ノードパニック時に (LKCD) Linux Kernel Crash dumps を使用してクラッシュダンプ採取を行う場合にクラスタ高速切り替えを実現します。

    ● netdump (SA_lkcd)

    相手ノードパニック時に netdump を使用してクラッシュダンプ採取を行う場合にクラスタ高速切り替えを実現します。

    ● diskdump (SA_lkcd)

    相手ノードパニック時に diskdump を使用してクラッシュダンプ採取を行う場合にクラスタ高速切り替えを実現します。

    24 J2UZ-5301-02Z2(A)

  • PRIMECLUSTER のアーキテクチャ PRIMECLUSTER のモジュール

    3.3.1.9 SCON (Solaris)

    PRIMECLUSTER では、クラスタコンソールを使用することで、スタンドアロンシステ�