エヌビディア GPU が加速するディープラーニング

エヌビディア合同会社プラットフォームビジネス本部部長林憲一

エヌビディア GPU が加速するディープラーニング

ゲーム自動車エンタープライズ HPC & クラウド

ビジュアルコンピューティングの世界的リーダー

ディープラーニング最も急速にマーケットが拡大しているセグメント

ディープラーニングのために GPU を活用している企業例

顔、場所、物体認識

音声認識および翻訳

自然言語処理

ビデオ検索および分析

インデキシングおよび検索

レコメンデーションエンジン

コンピュータビジョン

自動運転

応用分野

幅広いディープラーニングの応用例

「検索の50%は音声か画像になるだろう」

Andrew Ng, Baidu

「ディープラーニングのおかげで、わずか一年で音声認識の誤認識率が23%から8%に下がりました。

自動写真整理とインテリジェント写真検索によって、まさに探していたイメージを見つけることができます。

文脈を理解し、自然言語処理、言語翻訳によって、ユーザーに即座に返事ができるのです。」

スンダル・ピチャイグーグル上級副社長

Google now

Google I/O 2015 基調講演

ディープラーニングを加速する3つの要因

ビッグデータよりよいモデル強力な GPU アクセラレータ

パフォーマンスリーダー

0

500

1000

1500

2000

2500

3000

3500

2008 2009 2010 2011 2012 2013 2014

倍精度演算性能

NVIDIA GPU x86 CPU

M2090

M1060

K20

K80

WestmereSandy Bridge

Haswell

GFLOPS

0

100

200

300

400

500

600

2008 2009 2010 2011 2012 2013 2014

メモリバンド幅

NVIDIA GPU x86 CPU

GB/s

K20

K80

WestmereSandy Bridge

Haswell

Ivy Bridge

K40

Ivy Bridge

K40

M2090

M1060

TESLA K80ビッグデータ解析と科学技術計算のた

めの世界最速のアクセラレータ

Caffe Benchmark: AlexNet training throughput based on 20 iterations, CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2

最大性能アプリケーション毎に

ダイナミックに性能を最大化

メモリ倍増ビッグデータアプリに最適

24GB

オイル& ガス

ビッグデータ解析

HPC 可視化

K4012GB

2倍高速2.9 TF| 4,992 コア | 480 GB/s

0x

5x

10x

15x

20x

25x

1 2 3

ディープラーニング: Caffe

最高のスループットのためのデュアル

GPU アクセラレータ

GPU とソフトウェアの進化による性能向上

AlexNet [A. Krizhevsky et al.,2012]

2.5M

18M23M

43M

0

10

20

30

40

50

16 Core CPU GTX Titan Titan BlackcuDNN v1

Titan XcuDNN v2

Millions

of

Images

1日当りにトレーンングできる画像の数 (Caffe)

E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo

GPU は CPU の17倍の性能

ディープラーニングの性能を倍増

DIGITS 2 cuDNN 3 CUDA 7.5

自動マルチ GPU スケーリングで2倍の学習スピードを実現

単一GPUで2倍の学習スピードを実現より大きなモデルのサポート

2倍のデータセットインストラクションレベルの

プロファイリング

DIGITS

ディープラーニング GPU

トレーニングシステム

GPU様々な GPU ハードウェア

GPUクラウド

GPU クラスタ

マルチ GPU

ユーザインターフェース

レイヤー可視化

DNN の構成

データ処理トレーニング進捗管理

TheanoTorch

CaffecuDNN, cuBLAS

CUDA

クラスター、サーバー運用に最適

24時間365日連続運用でビジネスを加速

ゲーマー、開発者に最適

いつでも、どこでも開発

GeForce で開発、Tesla で運用

GeForce Tesla

クラスター運用での最高性能

堅牢性、信頼性

データセンターのために設計Tier1 OEMシステム

ストレステスト

NVIDIA GPUDirect RDMA

メモリエラー保護

高速な演算

エンタープライズレベルサポート

GPU モニタリングと管理

3 年保証Gaming Drivers

ゲーム

GeForce Tesla

データセンターワークロード

なぜ運用には Tesla か?

判断基準 GeForce Tesla

実効演算性能動作クロックが動的に変化し、

演算性能は状況により変動一定のクロックで安定した性能

メモリーエラー保護なし全てのメモリがECC保護

動的ページリタイアメント

クラスター運用を

サポートする機能なし

GPUDirect RDMA

Tesla Compute Cluster ドライバ

クラスターモニタリング

および管理なし

GPU モニタリング・管理用のNVML

NVSMI

サードパーティ管理ツール

なぜ運用には Tesla か?

Tesla は予測可能な性能と運用管理性を提供

SG

EM

M /

W

2012 20142008 2010 2016

48

36

12

0

24

60

2018

72

Tesla Fermi

Kepler

Maxwell

Pascal16 ビット演算3D メモリNVLink

Volta

GPU ロードマップPascal アーキテクチャで１ワット当りのSGEMM性能を2倍に

GPU

CUDA

GPU最適化ライブラリ (cuDNN, cuBLAS)

DLフレームワーク (Caffe, Torch, Theano)

DIGITS

アプリケーション

ディープラーニングにベストなプラットフォームを開発

すべての研究者や開発者に対して魅力的なプラットフォーム

NVIDIA ディープラーニングプラットフォーム

エヌビディア GPU が加速するディープラーニング

Technology