YOU ARE DOWNLOADING DOCUMENT

Please tick the box to continue:

Transcript
Page 1: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

NIPS 2016論文紹介

Riemannian SVRG: Fast Stochastic Optimization on Riemannian Manifolds

Takami Sato

2017/02/03 NIPS2016論文紹介 1

Authors: Hongyi Zhang, Sashank J. Reddi and Suvrit Sra

Page 2: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

論文諭旨

• SVRGをリーマン多様体上の最適化に拡張(RSVRG)

• 測地的凸関数の場合で、線形収束することを証明 – 先行研究はGDの線形収束、SGDの劣線形収束

• 測地的非凸関数場合で、局所解に劣線形収束することを証明 – 先行研究は𝑂(1/𝜖2)だが本論文は𝑂(1/𝜖)

• 勾配のノルムの上界が定数で抑えられる(Gradient Dominated)場合、 非凸でも大域的最適解に線形収束することを証明

• 主固有ベクトルを求める問題がGradient Dominatedな、 リーマン多様体上の最適化になることを証明

• PCAとRiemman centroidを求める問題に対して、 数値実験でRSVRGの優位性を検証

2017/02/03 NIPS2016論文紹介 2

Page 3: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

リーマン多様体上での最適化

基本的にこの資料を参考にしました

2017/02/03 NIPS2016論文紹介 3

http://www.slideshare.net/Suurist/hiroyuki-sato-62489428

議事録もある http://suuri.st/portfolio/%E4%BD%90%E8%97%A4%E5%AF%9B%E4%B9%8B

Page 4: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

モチベーション

制約ありの最適化問題を、リーマン多様体上で制約なし最適化にしたい

2017/02/03 NIPS2016論文紹介 4

制約あり最適化

リーマン多様体上の最適化

制約として考えずに、空間を曲げてしまう

n-1次元球面

Page 5: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

リーマン多様体とは

2017/02/03 NIPS2016論文紹介 5

リーマン多様体 (Riemannian manifold)

可微分多様体Mが、M上の各点における接空間に内積が与えられている場合

多様体

• 局所的にユークリッド空間とみなせる※空間 • 遠くはわからんが、生活する分には不自由ない空間的な雰囲気

• 昔の人は、平面上に住んでると思っていたがとくに不自由はなし

可微分

• なめらか

• 局所的なユークリッド空間を滑らかになるように繋ぎ合わせた

※ユークリッド空間と同相

Page 6: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

リーマン多様体とは

2017/02/03 NIPS2016論文紹介 6

リーマン多様体 (Riemannian manifold)

可微分多様体Mが、M上の各点における接空間に内積が与えられている場合

接空間(tangent space)に内積

• 多様体で“ちゃんとした”距離を定義したい

• 接空間(各点の方向微分が貼る空間を集めた空間)が内積空間だ(計量が入ってる)と良い

ユークリッド空間 上の滑らかな曲線𝑐の長さは以下

(始点を0、終点を1で表した曲線)

微分の長さが定義が必要 → 接空間で内積が定義

Page 7: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

いろんなリーマン多様体とは

2017/02/03 NIPS2016論文紹介 7

ドーナツ型

(よくあるRPGのマップ)

多様体に対して、接空間 ( ) が外側みたいに見えますが

多様体は外側の空間なしに定義することができます。不思議! (ただし、閉多様体はユークリッド空間に埋め込める)

球面

Page 8: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

有限和

SGDは各反復でサンプルを母集団からサンプリング

降下方向の分散が大きい

収束させるためにステップサイズで調整するため収束が遅い

ステップサイズ固定: 定数項が残って収束しない

ステップサイズ減少: sub-linear収束

普通データサイズ有限なんだし、分散押さえて評価できるんじゃね?

(Variance Reduction テクニック)

線形収束証明できたわ

2017/02/03 NIPS2016論文紹介 8

← これがSVRG

Page 9: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

SVRGが解ける問題

2017/02/03 NIPS2016論文紹介 9

𝑓𝑖は平滑(smooth)かつ強凸(strongly convex) ※後述

※強凸性より

ここだけなら線形収束

こいつのせいで収束が遅い

Page 10: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

SVRGとは

正確には、

2017/02/03 NIPS2016論文紹介 10

SAG 『線形収束したぞ』

SVRG 『降下方向が、

勾配の普遍推定量になるようにしたぞ』

SAGA 『SAGとSVRGの中間的なの作ったぞ』

Page 11: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

各反復の計算方法

𝑥𝑡+1 = 𝑥𝑡 − 𝛼1

𝑛 ℎ𝑖

𝑡

𝑛

𝑖=1

𝑤𝑖𝑡ℎ ℎ𝑡𝑖 =

𝛻𝑓𝑖 𝑥𝑡 𝑖𝑓 𝑖 = 𝑖 𝑡

ℎ𝑖𝑡−1 (𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)

2017/02/03 NIPS2016論文紹介 11

𝑥𝑡+1 = 𝑥𝑡 − 𝛼1

𝑛 𝛻𝑓𝑖 𝑥

𝑛

𝑖=1

+1

𝑛𝛻𝑓𝑖 𝑡 (𝑥𝑡) − 𝛻𝑓𝑖 𝑡 𝑥

𝑥𝑡+1 = 𝑥𝑡 − 𝛼1

𝑛 ℎ𝑖

𝑡

𝑛

𝑖=1

+ 𝛻𝑓𝑖(𝑡) − ℎ𝑖 𝑡𝑡

SAG (Stochastic Average Gradient)

SVRG (Stochastic Variance Reduction Gradient)

SAGA (略称謎)

各反復データ一個選んで降下方向を更新

適当なタイミングで𝛻𝑓𝑖 𝑥 をn個計算して、さらに各反復データ一個選んで降下方向を更新

SVRGの全部の勾配計算するところも、各反復で推定

Page 12: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

分散縮小(Variance Reduction)

ある確率変数の分散を、相関のある別の確率変数で下げる。

MCMC法とかで使われてた手法らしい

2017/02/03 NIPS2016論文紹介 12

𝑍𝛼 = 𝛼 𝑋 − 𝑌 + 𝐸(𝑌)

𝐸(𝑍𝛼) = 𝛼𝐸 𝑋) + 1 − 𝛼 𝐸(𝑌 期待値 𝛼 = 1なら

Xの普遍推定量

𝑉(𝑍𝛼) = 𝛼2(𝑉 𝑋) + 𝑉 𝑌 − 2𝑐𝑜𝑣(𝑋, 𝑌 ) 分散 𝛼 < 1なら

分散減少(SAG)

SVRG: X ≔ 𝛻𝑓𝑖 𝑡 𝑥𝑡 , 𝑌 = 𝛻𝑓𝑖 𝑡 𝑥

Page 13: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

収束性の速さ

最適化手法の良さを、 ε精度を得るまでの計算量のオーダーで評価

2017/02/03 NIPS2016論文紹介 13

劣線形収束(sublinear convergence)

1反復で1定割合で誤差が減る場合、ε精度に必要な反復数は O(log1

𝜖)

線形収束(linear convergence)

k反復で誤差が1/kに減る場合、ε精度に必要な反復数は O(1

𝜖)

超線形収束(superlinear convergence)

線形収束より速い収束率 (一定割合でなくもう少し早く減る場合)

2次収束(Second-order convergence)

1反復で反復数の2乗割合で誤差が減る場合、反復数は O(loglog1

𝜖)

Page 14: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

各種アルゴリズムの収束性

有限和凸関数に各種手法の収束性は以下、nはデータ数、𝜅は条件数※後述

2017/02/03 NIPS2016論文紹介 14

リプシッツ連続かつ強凸

最急降下法 𝑛𝜅 ⋅ log (1

𝜖)

Nesterovの加速勾配降下法

𝑛 𝜅 ⋅ log (1

𝜖)

確率的勾配降下法 𝜅

𝜖

SVRG 𝑛 + 𝜅 log (1

𝜖)

データが多いとき、 計算量を削減

Page 15: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

SVRGの収束性の計算方法

2017/02/03 NIPS2016論文紹介 15

NIPS2016のチュートリアル資料より http://www.di.ens.fr/~fbach/fbach_tutorial_vr_nips_2016.pdf

内部ループが𝜅回の反復で、 誤差が定数割合減ることを証明

外部ループ毎に 全勾配を計算O(n)

外部ループ毎に定数割合で誤差が改善(線形収束) 外部ループ毎にO(n)で全勾配計算と、O(1)の内部ループを𝜅回

𝑛 + 𝜅 log (1

𝜖)

Page 16: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

SVRGの威力

SVRG元論文[Johnson+ 2013]より

2017/02/03 NIPS2016論文紹介 16

Page 17: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

リーマン多様体上での最適化

• 接ベクトル方向に進むと、多様体からはみ出る

• SVRGの主要アイデア 過去の勾配との足し算ができない

2017/02/03 NIPS2016論文紹介 17

問題点

解決法

• 点𝑥の接空間𝑇𝑥𝑀から𝑀への写像(レトラクション)を定義

– 多様体上でそれっぽい進行方向を得る

• SVRGの主要アイデア 過去の勾配との足し算ができない – 𝑇𝑥𝑀から𝑇𝑦𝑀への写像を定義して、過去の勾配は今の接空間に移す

Page 18: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

リーマン多様体上での最適化

• 接ベクトル方向に進むと、多様体からはみ出る

• SVRGの主要アイデア 過去の勾配との足し算ができない

2017/02/03 NIPS2016論文紹介 18

問題点

解決法

• 点𝑥の接空間𝑇𝑥𝑀から𝑀への写像(レトラクション)を定義

– 多様体上でそれっぽい進行方向を得る

• SVRGの主要アイデア 過去の勾配との足し算ができない – 𝑇𝑥𝑀から𝑇𝑦𝑀への写像を定義して、過去の勾配は今の接空間に移す

結局、制約の空間に射影しているので、 実用レベルでは射影勾配降下法と

変わらないかも

Page 19: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

この論文での設定

• レトラクションとして写像を構成せずに指数写像があることを仮定

• 接空間間の写像も陽に定義せず、性質のみ議論

2017/02/03 NIPS2016論文紹介 19

指数写像

測地線 (始点がゼロ、終点が1で最短距離を通る線)

に対して、下記を満たす測地線が存在する写像

もし任意の2点で測地線が一意に定まる場合、逆写像が存在し、

の が測地的距離

Parallel Transport

これで勾配間の足し算ができる

Page 20: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

各種いつもの設定をリーマン多様体上に拡張

2017/02/03 NIPS2016論文紹介 20

g-convex(測地的凸)

μ-strongly g-convex(測地的強凸)

L-g-smooth(測地的リプシッツ連続)

劣勾配

τ-gradient dominated (勾配優位)

Page 21: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

測地的凸関数の場合で線形収束

2017/02/03 NIPS2016論文紹介 21

• 条件数𝜅 ≔ 𝐿/𝜇が2乗で収束性に影響

• 多様体が負の曲率を保つ場合に大きくなる𝜁が収束性に影響

Page 22: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

証明の注意点

• 普通のSVRGの収束性解析では、 勾配の2乗を の項で押さえられたが、 RSVRGでは最適解との距離で抑えた

• (リプシッツ連続の性質があれば の補題になおせる)

2017/02/03 NIPS2016論文紹介 22

Page 23: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

測地的非凸関数が局所解に劣線形収束

2017/02/03 NIPS2016論文紹介 23

Page 24: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

証明は

絶賛勉強中

2017/02/03 NIPS2016論文紹介 24

Page 25: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

測地的非凸関数が勾配優位のとき大域的最適解に線形収束

線形収束していて、

2017/02/03 NIPS2016論文紹介 25

μ-strongly g-convexな関数はgradient dominatedなので

多様体が負の曲率を保つ場合に大きくなる𝜁 ≥ 1 の影響が小さくなって

何故かこっちから測地的強凸のケースを証明すると、 曲率の影響が弱まって、条件数の影響も弱まっている!!!

Page 26: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

証明は

絶賛勉強中

2017/02/03 NIPS2016論文紹介 26

Page 27: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

主固有ベクトルを求める問題がGradient Dominated

2017/02/03 NIPS2016論文紹介 27

主固有ベクトルを求める問題

Page 28: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

証明は

絶賛勉強中

2017/02/03 NIPS2016論文紹介 28

Page 29: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

この問題𝑂 1/𝛿 で解けるか

2017/02/03 NIPS2016論文紹介 29

𝑂 1/𝛿 でとけると考えられているが、 今のところ𝑂 1/𝛿2 の証明しかわかっていないらしい

y軸は精度が2倍になるのに必要なepoch(外部ループ)数

色はepochレンジに対応。epochが進むと線形になっているっぽい

Page 30: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

数値実験: Riemman centroid

𝐴𝑖は半正定値行列

2017/02/03 NIPS2016論文紹介 30

Riemman centroid

• この問題はユークリッド空間だと非凸だが

• リーマン多様体上だと測地的強凸の最適化

Page 31: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

数値実験: Riemman centroid

𝐴𝑖は半正定値行列

2017/02/03 NIPS2016論文紹介 31

Riemman centroid

行列サイズは100×100

• RSVRGが圧勝

• 準ニュートン法系の手法も試したが遅すぎて載せていない

Page 32: NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

まとめ&議論

• SVRGをリーマン多様体上に初めて拡張

• 凸、強凸、非凸の場合の収束性を解析

• 勾配優位の場合に大域的収束性を証明 – より一般にリーマン多様体上で大域的収束性を保証できる問題群を一般

化できる可能性

• リーマン多様体上のよくあるテクニックを使った解析をしていない – レトラクションやVector transportなど

2017/02/03 NIPS2016論文紹介 32

議論

まとめ


Related Documents