AIの力で障害検知・解析をサポート! Loom(ログ解析ソリューション)のご紹介 2017年7月26日 NECネッツエスアイ株式会社 山本悠介
Jan 21, 2018
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介
2017年7月26日
NECネッツエスアイ株式会社 山本悠介
2 ⓒ NEC Networks & System Integration Corporation 2015
自己紹介
会社 NECネッツエスアイ(株)氏名山本悠介
出身石川県輪島市
趣味将棋、テニス
過去の仕事
SDN製品検証(OpenStack, NVP, PLUMgrid, Contrail) など
今の仕事
OpenStackの社内講師お客様にオススメできる新製品発掘と評価
⇒2017/5, OpenStack Summit Bostonに参加
目次
1. こんな課題ありませんか?
2. Loom Systems社とは
3. Loomの特長
4. デモ
5. まとめ
参考:OpenStackログ事情①
4
サービス ログファイル
Nova(7ファイル)
/var/log/nova/nova-api-metadata.log/var/log/nova/nova-compute.log/var/log/nova/nova-scheduler.log/var/log/nova/nova-api-os-compute.log/var/log/nova/nova-cert.log/var/log/nova/nova-conductor.log/var/log/nova/nova-consoleauth.log
Keystone(3ファイル)
/var/log/keystone/keystone-apache-error.log/var/log/keystone/keystone.log/var/log/keystone/ssl_access.log
Neutron(9ファイル)
/var/log/neutron/neutron-dnsmasq.log/var/log/neutron/neutron-ha-tool.log/var/log/neutron/neutron-dhcp-agent.log/var/log/neutron/neutron-l3-agent.log/var/log/neutron/neutron-linuxbridge-agent.log/var/log/neutron/neutron-metadata-agent.log/var/log/neutron/neutron-metering-agent.log/var/log/neutron/neutron-ns-metadata-proxy-*.log/var/log/neutron/neutron-server.log
Glance(2ファイル)
/var/log/glance/glance-api.log/var/log/glance/glance-registry.log
Horizon(2ファイル)
/var/log/horizon/horizon-error.log/var/log/horizon/ssl_access.log
サービス ログファイル
Cinder(3ファイル)
/var/log/cinder/cinder-volume.log/var/log/cinder/cinder-scheduler.log/var/log/cinder/cinder-api.log
RabbitMQ(6ファイル)
/var/log/rabbitmq/rabbit*rabbit_mq_*.log/var/log/rabbitmq/rabbit*_rabbit_mq_*sasl.log/var/log/rabbitmq/shutdown_log/var/log/rabbitmq/shutdown_err/var/log/rabbitmq/startup_log/var/log/rabbitmq/startup_err
GaleraCluster(1ファイル)
/var/log/mysql_logs/galera_server_error.log
Memcached(1ファイル)
/var/log/memcached.log
計34ファイル + syslog
参考:OpenStackログ事情②
5
引用:http://www.slideshare.net/VirtualTech-JP/ntt-openstack-summit-2015-tokyo-after-one-year-of-openstack-cloud-operation-ntt-docomo
ログ出力数80M行&100GB/日(内クリティカル0)
参考:出力パターンの揺れ
6
ログ名 タグ付けパターン タグ付け結果
neutron-dnsmasq.log
^(?<time>.+[0-9]{2}(:[0-9]{2}){2}) (?<process>[^ ]+)¥[(?<pid>[0-9]+)¥]:¥s(?<message>.+)$
[time] May 7 14:13:28[process] dnsmasq-dhcp[pid] 19663[message] DHCPACK(ns-09 ・・・
neutron-ha-tool.log
^(?<time>[0-9]{2}-[0-9]{2}¥s[0-9]{2}:[0-9]{2}) (?<process>[^ ]+) (?<type>[^ ]+) (?<message>.+)$
[time] 05-17 18:55[process] neutron-ha-tool[type] DEBUG[message] list_agents: {u‘a・・・
neutron-dhcp-agent.log
^(?<time>[0-9]{4}-[^ ]* [^ ]*) (?<pid>[^ ]*) (?<level>[^ ]*) (?<message>.*)$
[time] 2016-05-17 17:00:39.106[pid] 2853[level] ERROR[message] oslo_messaging._・・・
同じコンポーネントでもサービス毎にフォーマットの揺れがあり
7 ⓒ NEC Networks & System Integration Corporation 2015
こんな課題ありませんか?
1.ログの量が膨大すぎる2.ログの正規化は複雑すぎる3.解析のための人材と工数の確保が困難
運用中のシステムからログは採取しているが・・・
Loomで解決できます!!
8 ⓒ NEC Networks & System Integration Corporation 2015
Loom Systems社とは
・GartnerのCool Vendor 2017に選出・CTOは以前にもAI関連で企業し、成功させた実績有り・イスラエルトップのVCであるJVPがリードVC・日本VCのグローバルブレインも投資を開始
Loom Systems社のアピールポイント
いま注目のAI企業!
9 ⓒ NEC Networks & System Integration Corporation 2015
Loomの3つの特長
1. ノウハウの共有化2. 価値の無いログの最小化3. 設定や定義の最小化
既存のログ運用と何が違う?
10 ⓒ NEC Networks & System Integration Corporation 2015
①ノウハウの共有化 1/2
⇒ しかし、正確さや必要な工数は個人の「ノウハウ」や「Google力」に依存するところが大
障害時、運用者はシステムのログから根本原因や解決策を判断しなければなりません。
根本原因(案)
解決策(案)
Loomから候補を提示します!
ログとノウハウを同時に表示 ⇒ スキルの平準化に
編集も可。
日本語も可。
11 ⓒ NEC Networks & System Integration Corporation 2015
①ノウハウの共有化 2/2
Ø根本原因と解決策はどこから学習している?a. Webクローリング
b. ユーザー自身が登録した情報
c. Loomを利用しているユーザー(他社含む)が登録した情報
ユーザーはそれぞれがコントリビューターかつ恩恵を受ける関係
⇒Webの情報を利用することで一からノウハウを貯めるということがありません
企業A
The Internet
企業B
DB更新
最新DB
DB更新
最新DB
12 ⓒ NEC Networks & System Integration Corporation 2015
②価値の無いログの最小化
Øまず、正常な状態を学習します(約一週間)
l学習はログを送付するだけ。設定不要。lLoomが重要度が高いと検知したログのみ表示されるため、表示されるログ量は激減。
•全てのログを表示する画面も用意されていますlログ単体では重要度が低くても曜日、時間帯、量によってこれまで埋もれていた異常を検知
普段より、量が多いことを検知
13 ⓒ NEC Networks & System Integration Corporation 2015
③設定や定義の最小化
ログをそのまま送付するだけでLoom側で自動整形ØOpenStackのようなログでもrsyslogで送るだけでOK!
Stack Traceを表示
原因解析に役立つ情報を表示
14 ⓒ NEC Networks & System Integration Corporation 2015
よくある質問
Q1. LoomはSaaS?オンプレには対応していない?A1. どちらでも提供可能です
Q2. OpenStack用の製品?A2. 汎用的に作られており、ログ量が多く、ノウハウが揃っていない
システムに向いています
Q3. サーバのみに対応した製品?A3. サーバ以外にも、ネットワーク製品、ストレージ製品に対応しています
15 ⓒ NEC Networks & System Integration Corporation 2015
デモ
16 ⓒ NEC Networks & System Integration Corporation 2015
日本語化について
日本語対応も進んでいます!
17 ⓒ NEC Networks & System Integration Corporation 2015
まとめ
1.ログの量が膨大すぎる⇒正常状態を学習しフィルタ。埋もれていた異常を検知!
2.ログの正規化は複雑すぎる⇒正規化はLoomで自動実行。ユーザはログを送付するだけ!
3.解析のための人材と工数の確保が困難⇒精度の高い原因や解決の候補を参照することでスキル差が縮まり工数も圧縮!
18 ⓒ NEC Networks & System Integration Corporation 2015
NESIC版「GPU on OpenStack」のご紹介
19 ⓒ NEC Networks & System Integration Corporation 2015
さいごに
ご清聴ありがとうございました
「Loom」や「GPUonOpenStack」に興味がある方はお気軽にご連絡ください!
●連絡先TEL:03-6699-7624Mail:[email protected]
Appendix
22 ⓒ NEC Networks & System Integration Corporation 2015
セットアップ手順(1/3)
①OpenStackログはLinux Serverを選択
23 ⓒ NEC Networks & System Integration Corporation 2015
セットアップ手順(2/3)
②Ubuntu OpenStackのログ監視をするため、
Debianを指定
③rsyslogのバージョン指定
8.14.0以上推奨④証明書をDownload
⑤証明書を指定のディレクトリに配置
⑥rsyslog-gnutlsをインストール
24 ⓒ NEC Networks & System Integration Corporation 2015
セットアップ手順(3/3)
⑦Stream application logsにチェックを入れる
⑧必要なログ情報を記載
⑨Downloadし指定のディレクトリにconfigを配置
⑩configチェック
⑪rsyslogの再起動Loomへのログ送付開始
⑫6514ポートを使うため穴あけが必要
25 ⓒ NEC Networks & System Integration Corporation 2015
参考:Loom用rsyslogのコンフィグファイル
26 ⓒ NEC Networks & System Integration Corporation 2015
Loomが保有するナレッジ表示
Loomのナレッジベースから自動で記載されることを確認した
【MySQLのエラーログ】
LoomのナレッジはLinuxの一般的なエラーのみ。OpenStackなどのナレッジはこれから
27 ⓒ NEC Networks & System Integration Corporation 2015
ユーザーによるナレッジ登録
28 ⓒ NEC Networks & System Integration Corporation 2015
エラー解消後のフィードバック
エラーが解消した場合、「Done」を押下
問題の原因がナレッジ通りであれば、チェック
解決方法をフィードバック
29 ⓒ NEC Networks & System Integration Corporation 2015
Slack連携機能
SlackのWebhook URLを登録することで、Slackで通知を受け取ることが可能【Loomの設定画面】
【Slackの通知画面】
30 ⓒ NEC Networks & System Integration Corporation 2015
▌configファイルに記載されたLoomドメイン
【EC2(52.39.14.136)との通信キャプチャ】