Top Banner
AIの力で障害検知・解析をサポート! Loom(ログ解析ソリューション)のご紹介 2017年7月26日 NECネッツエスアイ株式会社 山本悠介
30

AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

Jan 21, 2018

Download

Technology

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介

2017年7月26日

NECネッツエスアイ株式会社 山本悠介

Page 2: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

2 ⓒ NEC Networks & System Integration Corporation 2015

自己紹介

会社 NECネッツエスアイ(株)氏名山本悠介

出身石川県輪島市

趣味将棋、テニス

過去の仕事

SDN製品検証(OpenStack, NVP, PLUMgrid, Contrail) など

今の仕事

OpenStackの社内講師お客様にオススメできる新製品発掘と評価

⇒2017/5, OpenStack Summit Bostonに参加

Page 3: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

目次

1. こんな課題ありませんか?

2. Loom Systems社とは

3. Loomの特長

4. デモ

5. まとめ

Page 4: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

参考:OpenStackログ事情①

4

サービス ログファイル

Nova(7ファイル)

/var/log/nova/nova-api-metadata.log/var/log/nova/nova-compute.log/var/log/nova/nova-scheduler.log/var/log/nova/nova-api-os-compute.log/var/log/nova/nova-cert.log/var/log/nova/nova-conductor.log/var/log/nova/nova-consoleauth.log

Keystone(3ファイル)

/var/log/keystone/keystone-apache-error.log/var/log/keystone/keystone.log/var/log/keystone/ssl_access.log

Neutron(9ファイル)

/var/log/neutron/neutron-dnsmasq.log/var/log/neutron/neutron-ha-tool.log/var/log/neutron/neutron-dhcp-agent.log/var/log/neutron/neutron-l3-agent.log/var/log/neutron/neutron-linuxbridge-agent.log/var/log/neutron/neutron-metadata-agent.log/var/log/neutron/neutron-metering-agent.log/var/log/neutron/neutron-ns-metadata-proxy-*.log/var/log/neutron/neutron-server.log

Glance(2ファイル)

/var/log/glance/glance-api.log/var/log/glance/glance-registry.log

Horizon(2ファイル)

/var/log/horizon/horizon-error.log/var/log/horizon/ssl_access.log

サービス ログファイル

Cinder(3ファイル)

/var/log/cinder/cinder-volume.log/var/log/cinder/cinder-scheduler.log/var/log/cinder/cinder-api.log

RabbitMQ(6ファイル)

/var/log/rabbitmq/rabbit*rabbit_mq_*.log/var/log/rabbitmq/rabbit*_rabbit_mq_*sasl.log/var/log/rabbitmq/shutdown_log/var/log/rabbitmq/shutdown_err/var/log/rabbitmq/startup_log/var/log/rabbitmq/startup_err

GaleraCluster(1ファイル)

/var/log/mysql_logs/galera_server_error.log

Memcached(1ファイル)

/var/log/memcached.log

計34ファイル + syslog

Page 5: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

参考:OpenStackログ事情②

5

引用:http://www.slideshare.net/VirtualTech-JP/ntt-openstack-summit-2015-tokyo-after-one-year-of-openstack-cloud-operation-ntt-docomo

ログ出力数80M行&100GB/日(内クリティカル0)

Page 6: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

参考:出力パターンの揺れ

6

ログ名 タグ付けパターン タグ付け結果

neutron-dnsmasq.log

^(?<time>.+[0-9]{2}(:[0-9]{2}){2}) (?<process>[^ ]+)¥[(?<pid>[0-9]+)¥]:¥s(?<message>.+)$

[time] May 7 14:13:28[process] dnsmasq-dhcp[pid] 19663[message] DHCPACK(ns-09 ・・・

neutron-ha-tool.log

^(?<time>[0-9]{2}-[0-9]{2}¥s[0-9]{2}:[0-9]{2}) (?<process>[^ ]+) (?<type>[^ ]+) (?<message>.+)$

[time] 05-17 18:55[process] neutron-ha-tool[type] DEBUG[message] list_agents: {u‘a・・・

neutron-dhcp-agent.log

^(?<time>[0-9]{4}-[^ ]* [^ ]*) (?<pid>[^ ]*) (?<level>[^ ]*) (?<message>.*)$

[time] 2016-05-17 17:00:39.106[pid] 2853[level] ERROR[message] oslo_messaging._・・・

同じコンポーネントでもサービス毎にフォーマットの揺れがあり

Page 7: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

7 ⓒ NEC Networks & System Integration Corporation 2015

こんな課題ありませんか?

1.ログの量が膨大すぎる2.ログの正規化は複雑すぎる3.解析のための人材と工数の確保が困難

運用中のシステムからログは採取しているが・・・

Loomで解決できます!!

Page 8: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

8 ⓒ NEC Networks & System Integration Corporation 2015

Loom Systems社とは

・GartnerのCool Vendor 2017に選出・CTOは以前にもAI関連で企業し、成功させた実績有り・イスラエルトップのVCであるJVPがリードVC・日本VCのグローバルブレインも投資を開始

Loom Systems社のアピールポイント

いま注目のAI企業!

Page 9: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

9 ⓒ NEC Networks & System Integration Corporation 2015

Loomの3つの特長

1. ノウハウの共有化2. 価値の無いログの最小化3. 設定や定義の最小化

既存のログ運用と何が違う?

Page 10: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

10 ⓒ NEC Networks & System Integration Corporation 2015

①ノウハウの共有化 1/2

⇒ しかし、正確さや必要な工数は個人の「ノウハウ」や「Google力」に依存するところが大

障害時、運用者はシステムのログから根本原因や解決策を判断しなければなりません。

根本原因(案)

解決策(案)

Loomから候補を提示します!

ログとノウハウを同時に表示 ⇒ スキルの平準化に

編集も可。

日本語も可。

Page 11: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

11 ⓒ NEC Networks & System Integration Corporation 2015

①ノウハウの共有化 2/2

Ø根本原因と解決策はどこから学習している?a. Webクローリング

b. ユーザー自身が登録した情報

c. Loomを利用しているユーザー(他社含む)が登録した情報

ユーザーはそれぞれがコントリビューターかつ恩恵を受ける関係

⇒Webの情報を利用することで一からノウハウを貯めるということがありません

企業A

The Internet

企業B

DB更新

最新DB

DB更新

最新DB

Page 12: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

12 ⓒ NEC Networks & System Integration Corporation 2015

②価値の無いログの最小化

Øまず、正常な状態を学習します(約一週間)

l学習はログを送付するだけ。設定不要。lLoomが重要度が高いと検知したログのみ表示されるため、表示されるログ量は激減。

•全てのログを表示する画面も用意されていますlログ単体では重要度が低くても曜日、時間帯、量によってこれまで埋もれていた異常を検知

普段より、量が多いことを検知

Page 13: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

13 ⓒ NEC Networks & System Integration Corporation 2015

③設定や定義の最小化

ログをそのまま送付するだけでLoom側で自動整形ØOpenStackのようなログでもrsyslogで送るだけでOK!

Stack Traceを表示

原因解析に役立つ情報を表示

Page 14: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

14 ⓒ NEC Networks & System Integration Corporation 2015

よくある質問

Q1. LoomはSaaS?オンプレには対応していない?A1. どちらでも提供可能です

Q2. OpenStack用の製品?A2. 汎用的に作られており、ログ量が多く、ノウハウが揃っていない

システムに向いています

Q3. サーバのみに対応した製品?A3. サーバ以外にも、ネットワーク製品、ストレージ製品に対応しています

Page 15: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

15 ⓒ NEC Networks & System Integration Corporation 2015

デモ

Page 16: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

16 ⓒ NEC Networks & System Integration Corporation 2015

日本語化について

日本語対応も進んでいます!

Page 17: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

17 ⓒ NEC Networks & System Integration Corporation 2015

まとめ

1.ログの量が膨大すぎる⇒正常状態を学習しフィルタ。埋もれていた異常を検知!

2.ログの正規化は複雑すぎる⇒正規化はLoomで自動実行。ユーザはログを送付するだけ!

3.解析のための人材と工数の確保が困難⇒精度の高い原因や解決の候補を参照することでスキル差が縮まり工数も圧縮!

Page 18: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

18 ⓒ NEC Networks & System Integration Corporation 2015

NESIC版「GPU on OpenStack」のご紹介

Page 19: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

19 ⓒ NEC Networks & System Integration Corporation 2015

さいごに

ご清聴ありがとうございました

「Loom」や「GPUonOpenStack」に興味がある方はお気軽にご連絡ください!

●連絡先TEL:03-6699-7624Mail:[email protected]

Page 20: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
Page 21: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

Appendix

Page 22: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

22 ⓒ NEC Networks & System Integration Corporation 2015

セットアップ手順(1/3)

①OpenStackログはLinux Serverを選択

Page 23: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

23 ⓒ NEC Networks & System Integration Corporation 2015

セットアップ手順(2/3)

②Ubuntu OpenStackのログ監視をするため、

Debianを指定

③rsyslogのバージョン指定

8.14.0以上推奨④証明書をDownload

⑤証明書を指定のディレクトリに配置

⑥rsyslog-gnutlsをインストール

Page 24: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

24 ⓒ NEC Networks & System Integration Corporation 2015

セットアップ手順(3/3)

⑦Stream application logsにチェックを入れる

⑧必要なログ情報を記載

⑨Downloadし指定のディレクトリにconfigを配置

⑩configチェック

⑪rsyslogの再起動Loomへのログ送付開始

⑫6514ポートを使うため穴あけが必要

Page 25: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

25 ⓒ NEC Networks & System Integration Corporation 2015

参考:Loom用rsyslogのコンフィグファイル

Page 26: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

26 ⓒ NEC Networks & System Integration Corporation 2015

Loomが保有するナレッジ表示

Loomのナレッジベースから自動で記載されることを確認した

【MySQLのエラーログ】

LoomのナレッジはLinuxの一般的なエラーのみ。OpenStackなどのナレッジはこれから

Page 27: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

27 ⓒ NEC Networks & System Integration Corporation 2015

ユーザーによるナレッジ登録

Page 28: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

28 ⓒ NEC Networks & System Integration Corporation 2015

エラー解消後のフィードバック

エラーが解消した場合、「Done」を押下

問題の原因がナレッジ通りであれば、チェック

解決方法をフィードバック

Page 29: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

29 ⓒ NEC Networks & System Integration Corporation 2015

Slack連携機能

SlackのWebhook URLを登録することで、Slackで通知を受け取ることが可能【Loomの設定画面】

【Slackの通知画面】

Page 30: AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月

30 ⓒ NEC Networks & System Integration Corporation 2015

▌configファイルに記載されたLoomドメイン

【EC2(52.39.14.136)との通信キャプチャ】