枝刈り探索による大規模グラフ上の高速な影響力推定・影響 …...Coin-flip tech. [Kempe-Kleinberg-Tardos. KDD'03] Inf 𝑆≜ 1 𝑟 1≤ ≤𝑟 R𝐺 𝑖

枝刈り探索による大規模グラフ上の高速な影響力推定・影響最大化アルゴリズム

大坂直人

東京大学

1

2017/2/9 基盤(S)離散構造処理系プロジェクトセミナー@北海道大学

自己紹介

▶名前：大坂直人

▶所属：東京大学大学院情報理工学系研究科コンピュータ科学専攻博士2年 (本郷)

▶研究の興味：アルゴリズム全般、理論＋実験

▶趣味：きつね、読書

2宮城蔵王キツネ村にて

昨今の拡散の研究の背景 (2000s~)

オンラインネットワーク上の拡散現象の威力

▶ explicit／implicitに相互影響、速くて、大きい

3

Social Networking Service Eメールサービス

有名なHotmailの例 (1996)

今、データもある、計算資源もある

拡散の過程や人々の活動を理解・予測・制御したい！

“Get a free e-mail

account with Hotmail”

中心的な問題＝影響最大化[Kempe-Kleinberg-Tardos. KDD'03]

Informalには …

▶目標：最多人数に情報を伝える集団の特定

▶動機：バイラルマーケティングへの応用

4

試供品

試供品

私の研究の主題

大規模？

▶オンラインソーシャルネットワークが対象

▶105~108点=ユーザ、107~1010辺=友達関係

拡散解析？

▶例：影響最大化・頂点の影響力推定

▶最適化・計算する対象の定式化も必須

効率的？

▶Ω(点数2)時間は遅い⇝高級な操作は✘

▶Ω(辺数)空間も厳しいかも⇝ I/O効率的な手法5

大規模グラフの拡散解析の効率的アルゴリズム

やってきた／やっていること

6

高速な影響最大化近似手法私、秋葉拓哉、𠮷田悠一、河原林健一

AAAI 2014複数トピックの導入

私、𠮷田悠一

NIPS 2015

時間減衰要素の導入私、山口勇太郎、垣村尚徳、河原林健一

ECML-PKDD 2016

ポートフォリオ最適化によるリスク回避私、𠮷田悠一

WWW 2017

動的グラフ上の実時間索引手法私、秋葉拓哉、𠮷田悠一、河原林健一

VLDB 2016

効率的アルゴリズムより良い拡散モデル

高速な影響最大化近似手法私、秋葉拓哉、𠮷田悠一、河原林健一

AAAI 2014

動的グラフ上の実時間索引手法私、秋葉拓哉、𠮷田悠一、河原林健一

VLDB 2016

効率的アルゴリズム

今回話す研究

7

武器：実グラフの構造的性質の活用特徴：精度を落とさず、冗長計算を削減課題：空間使用量は改善せず …辛い！

http://www.cise.ufl.edu/research/sparse/

matrices/SNAP/soc-Epinions1.html

http://www.cise.ufl.edu/research/sparse/matrices/SNAP/soc-Epinions1.html

影響最大化問題 (formal)[Kempe-Kleinberg-Tardos. KDD'03]

入力：グラフ 𝐺 = (𝑉, 𝐸)、辺確率 𝑝: 𝐸 → (0,1]、整数𝑘

出力：𝐴 ⊆ 𝑉 ( 𝐴 = 𝑘)

目標：max Inf(𝐴)

8

影響拡散 𝐄[𝐴の影響が伝わった頂点数]

独立カスケード [Goldenberg-Libai-Muller. Market. Lett.'01]

成否が確率的・独立に決まる ≒感染症のモデル

a

b

d

fe

ca

b

d

fe

ca

b

d

fe

c

0.6 0.1

0.3

0.4 0.8

0.2 0.5

研究①枝刈りシミュレーションを用いた高速な影響最大化手法

9

研究①の背景

当時、高速・高精度な手法は無かった10

既存手法の目標は Inf(⋅)の効率的近似計算

カテゴリ戦略・特徴代表的手法

シミュレーション拡散過程を素朴に実行高品質・低速

CELF++ [Goyal+. WWW'11]

CELF [Leskovec+. KDD'07]

スナップショットランダムグラフを標本し再利用高品質・低速

StaticGreedy [Cheng+. CIKM'13]

高速化したい！

ヒューリスティクス精度保証無し高速・低品質

IRIE [Jung+. ICDM'12]

SAEDV [Jiang+. AAAI'11]

PMIA [Chen+. KDD'10]

研究①の貢献 [大坂-秋葉-𠮷田-河原林. AAAI'14]

主な課題

▶様々な頂点集合について到達可能な頂点数の計算が必要

解決法

▶冗長な幅優先探索を徹底的に削減

▶計算結果に影響無し

実験評価

▶ 7,000万辺を20分で処理

▶愚直な手法の400倍高速11

6

34

5

2

1

2

影響最大化の高速近似手法の提案

スナップショット手法の概略

12

最適解の厳密計算NP-困難

貪欲算法が定数近似単調性・劣モジュラ性

目的関数の厳密計算#P-困難

ランダムグラフ上の到達可能頂点数で近似

貪欲算法×幅優先探索𝒌 ⋅ 𝑽 ⋅ 𝑬 時間

一筋縄ではいかない…

我々の新技法

障壁解決法

Inf ⋅ の最大化問題としての性質

▶NP-困難 [Kempe-Kleinberg-Tardos. KDD'03]

Set Coverから帰着

▶ Inf ⋅ は単調・劣モジュラ [Kempe-Kleinberg-Tardos. KDD'03]

𝑓 𝐴 + 𝑥 − 𝑓 𝐴 ≥ 𝑓 𝐵 + 𝑥 − 𝑓 𝐵∀𝐴 ⊆ 𝐵 ⊆ 𝑉, 𝑥 ∈ 𝑉 ∖ 𝐵

▶貪欲算法が 1 − e−1 ≈ 63%-近似[Nemhauser-Wolsey-Fisher. Math. Program.'78]

❝argmax𝑣

Inf 𝐴 + 𝑣 − Inf(𝐴)を選び𝐴に追加❞ × 𝑘回

13

⇓

Inf ⋅ の計算問題としての性質

▶厳密計算は #P-困難 [Chen-Wang-Wang. KDD'10]

s-t連結部分グラフ数え上げ問題から帰着

※初の厳密計算手法 [Maehara-Suzuki-Ishihata. WWW'17]

▶近似計算

14

𝐺𝑖上で𝑆から到達可能な頂点数

拡散過程ランダムグラフ上の到達可能性

Coin-flip tech. [Kempe-Kleinberg-Tardos. KDD'03]

Inf 𝑆 ≜1

𝑟

1≤𝑖≤𝑟

R𝐺𝑖 𝑆

=

𝑟個のランダムグラフ 𝐺1, … , 𝐺𝑟 を生成辺𝑒を確率𝑝𝑒で残す

経験的には 𝑟 ≈ 100で十分

最終的にしたいこと & その難しさ

15

𝐴0 = ∅for 𝑗 = 1 to 𝑘

𝑣𝑗∗ ← argmax

𝑣∈𝑉 1≤𝑖≤𝑟 R𝐺𝑖 𝐴𝑗−1 + 𝑣 − R𝐺𝑖 𝐴𝑗−1

𝐴𝑗 ← 𝐴𝑗−1 + 𝑣𝑗∗

簡単では？

▶最初の反復 (𝐴0 = ∅) を考えてみると…

R𝐺1 𝑣1 ⋯ R𝐺1 𝑣𝑛

⋮ ⋱ ⋮

R𝐺𝑟 𝑣1 ⋯ R𝐺𝑟 𝑣𝑛

𝑟 ⋅ 𝑉 回の幅優先探索(BFS)は遅すぎ

計算対象

各𝑂(|𝐸|)時間

6

34

5

2

1

2

提案手法：枝刈りシミュレーション

技法Ⅰ = 枝刈りBFSによる超高速な子孫数え上げ

▶最初の反復に有効

技法Ⅱ = 不要なBFSの検知・回避

▶最初以降の反復に有効

特徴

▶ソーシャルネットワークの構造的性質を活用

▶計算結果に影響無し

▶最悪時間計算量はおそらく改善しない

▶空間計算量 = 𝑂 𝑟( 𝑉 + |𝐸|)※説明は 𝑟 = 1

16

技法Ⅰ：枝刈りBFS

計算対象：R𝐺 𝑣1 , R𝐺 𝑣2 , … , R𝐺 𝑣𝑛※簡単のため𝐺はDAG (前処理で強連結成分分解)

17

▶前処理：次数最大のハブℎの子孫・先祖を計算

① 𝑏 ∈ ℎの先祖

▶ℎの子孫を無視してBFS

▶答＝(#探索点)+(#ℎの子孫)

② 𝑎 ∉ ℎの先祖

▶そのままBFS

▶答＝(#探索点)

𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓

𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓



18






▶そのままBFS


𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓

𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓



19






▶そのままBFS


𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓

𝑏

𝑎ℎ

𝑐

𝑑

𝑒

𝑓

技法Ⅰ：Q. 枝刈りBFSは効果的ですか？

▶パスグラフでは計Θ 𝑉 2 時間

▶でも、ソーシャルネットワークなら…

20

複雑ネットワークソーシャル・ウェブ・共著

http://www.cise.ufl.edu/research/sparse

/matrices/SNAP/soc-Epinions1.html

ランダムグラフ DAG

Core

Fringe

ℎ巨大成分高次数


技法Ⅰ：A. 枝刈りBFSは効果的でした！

▶平均探索頂点数：400,000 ⇨ 6

21

探索頂点数の分布

普通のBFS

枝刈り

BFS

ℎ

データセット：LiveJournal, 𝑉 = 4.8M, 𝐸 = 69M, 𝑝𝑒 = 0.1 ∀𝑒

技法Ⅱ：不要なBFSの検出・回避

▶計算対象：R𝐺 {𝑣1∗, 𝑣} − R𝐺 𝑣1

∗ ∀𝑣

▶計算済み：R𝐺 𝑣 ∀𝑣 By 枝刈りBFS

回避条件

(𝑣の子孫) ∩ (𝑣1∗の子孫) = ∅

⇕R𝐺 {𝑣1

∗, 𝑣} − R𝐺 𝑣1∗ = R𝐺 𝑣

検出方法

▶ 𝑣1∗の子孫から逆BFSで線形時間

6/4

4/3

1/0

𝑣1∗

2/2

1/1

3/3

※不可避な頂点は素直にBFS

左： R𝐺 𝑣右： R𝐺 𝑣1

∗, 𝑣 − R𝐺 𝑣1∗

実験評価：提案手法の実行時間シードサイズ 𝑘 = 50

23

データセット技法Ⅰ有技法Ⅱ有

技法Ⅰ無技法Ⅱ有

技法Ⅰ有技法Ⅱ無

技法Ⅰ無技法Ⅱ無

DBLP

𝑝𝑒 = 0.0127秒 26秒 149秒 158秒

DBLP

𝑝𝑒 = 0.154秒 3,036秒 306秒 3,275秒

LiveJournal

𝑝𝑒 = 0.01327秒 1,934秒 2,176秒 3,820秒

LiveJournal

𝑝𝑒 = 0.1634秒 272,518秒 2,426秒 272,973秒

データセット 𝑉 𝐸

DBLP 655K 2.0M

LiveJournal 4.8M 69M400倍

Environment: Intel Xeon X5670 (2.93GHz), 48GB, Language: C++

実験評価：影響拡散の値の比較シードサイズ 𝑘 = 50

24

▶提案手法が最良

データセット提案手法StaticGreedy

DU[Cheng+'13]

IRIE[Jung+'12]

PMIA[Chen+'10]

SAEDV[Jiang+'11]

DBLP

𝑝𝑒 = 0.01332 330 323 317 76

DBLP

𝑝𝑒 = 0.1100076 -- 99533 99505 99579

LiveJournal

𝑝𝑒 = 0.0147527 -- 41906 40544 26066

LiveJournal

𝑝𝑒 = 0.11686629 -- 1682436 -- 1682242


DBLP 655K 2.0M

LiveJournal 4.8M 69M

実験評価：実行時間の比較シードサイズ 𝑘 = 50

25Environment: Intel Xeon X5670 (2.93GHz), 48GB, Language: C++

▶ヒューリスティクスと同等

▶辺確率設定に対して頑健

データセット提案手法StaticGreedy

DU[Cheng+'13]

IRIE[Jung+'12]

PMIA[Chen+'10]

SAEDV[Jiang+'11]

DBLP

𝑝𝑒 = 0.0127秒 117秒 77秒 4秒 388秒

DBLP

𝑝𝑒 = 0.152秒 OOM 77秒 289秒 388秒

LiveJournal

𝑝𝑒 = 0.01327秒 OOM 1,622秒 500秒 1,275秒

LiveJournal

𝑝𝑒 = 0.1663秒 OOM 1,635秒 OOM 1,294秒


DBLP 655K 2.0M

LiveJournal 4.8M 69M

その後、数多くの手法が出現

26我々の手法はもはや時代遅れ…？






PMC [我々. AAAI'14]StaticGreedy [Cheng+. CIKM'13]

逆到達可能集合逆シミュレーションの結果を活用 (後述)

高品質・ほぼ線形時間

IMM [Tang+. SIGMOD'15]

TIM+ [Tang+. SIGMOD'14]

RIS [Borgs+. SODA'14]


EaSyIM [Galhotra+. SIGMOD'16]




Debunking the Myths of Influence Maximization:

An In-Depth Benchmarking Study[Arora-Galhotra-Ranu. SIGMOD'17]

▶徹底的な実験で既存手法の性能を検証

▶我々の手法について …

27

要約

グラフ・辺確率設定に対し速度は安定だが、メモリ消費が莫大

研究①のまとめ

▶解決できた点

▶スナップショット手法の効率改善

▶浮上した課題

▶莫大なメモリ使用量 𝑂 𝑟 𝑉 + 𝐸

28

研究②成長するグラフにおける影響力推定・影響最大化のための実時間完全動的索引手法

29

研究②の背景

現実のソーシャルネットワークは動的・成長する

▶最新の解析結果を追跡したい

▶静的手法の逐次適用⇝線形時間以上

30

Q. 研究①は使えますか？

A. 難しい; ハブ頂点の先祖・子孫の動的更新が大変

友達関係の成立・解消

研究②の貢献 [大坂-秋葉-𠮷田-河原林. VLDB'16]

31

成長するグラフ上の影響解析をサポートする完全動的索引手法の提案

b

a

I0

b

a

I1

b

a

I2

影響力最大はa bの影響力は3 bの影響力は2

索引構築数千万辺

索引更新追加+削除

1秒未満

解析クエリ精度保証

既存の静的手法との関連

32






PMC [我々. AAAI'14]

StaticGreedy [Cheng+. CIKM'13]

逆到達可能集合逆シミュレーションの結果を活用 (後述)

高品質・ほぼ線形時間

IMM [Tang+. SIGMOD'15]

TIM+ [Tang+. SIGMOD'14]

RIS [Borgs+. SODA'14]


EaSyIM [Galhotra+. SIGMOD'16]




この手法の発展

Reverse Influence Sampling アルゴリズム[Borgs-Brautbar-Chayes-Lucier. SODA'14]

▶逆到達可能 (Reverse Reachable; RR) 集合

一様無作為に選んだ頂点に影響しうる頂点集合

33

z＝ランダムグラフ上でに到達z

a

b

d

fe

ca

b

d

fe

ca

b

d

fe

ca

bz

ca

za

f

z

Reverse Influence Sampling アルゴリズム[Borgs-Brautbar-Chayes-Lucier. SODA'14]

▶逆到達可能 (Reverse Reachable; RR) 集合

一様無作為に選んだ頂点に影響しうる頂点集合

34

Inf 𝑆 ∝ 𝐄[#𝑆と交わる逆到達可能集合]

探索辺数 = Θ 𝜖−3 𝑉 + 𝐸 log 𝑉[Borgs-Brautbar-Chayes-Lucier. SODA'14]

z＝ランダムグラフ上でに到達z

a

be

ca

da

f

ca

be

ca

da

f

c

提案手法の概要

①索引構造

▶動的更新しやすい＆省メモリ

②解析クエリ手法

▶逆到達可能集合を利用

③索引更新手法

▶正しく＆効率的に到達可能性を修正

35

目標：

グラフ変化に応じて逆到達可能集合を更新

①索引構造

36

逆到達可能集合完全情報提案スケッチ

索引更新難情報過少

拡散経路が分からない

索引更新易消費空間大

索引更新易消費空間小

z

d

fez

d

fe

a

z

d

fe

c0.5

0.3

0.10.6

0.2

0.20.9

乱数は振直す

z に届く頂点・辺だけ


▶逆到達可能集合の逆インデックス

1つ目の逆到達可能集合 = 𝑎, 𝑏, 𝑒

2つ目の逆到達可能集合 = 𝑎, 𝑑

3つ目の逆到達可能集合 = 𝑎, 𝑐, 𝑓

4つ目の逆到達可能集合 = 𝑏, 𝑒, 𝑓

5つ目の逆到達可能集合 = 𝑐, 𝑑, 𝑒

37

a b c d e f

1

2

3

4

5

頂点⟷逆到達可能集合相互に表引き可能


38

a b c d e f

1 ✔

2

3 ✔

4 ✔

5 ✔ ✔

{c, e}?

k=2?

貪欲に頂点を選択

4×定数

▶影響最大化：交わるスケッチ数が最大の頂点集合

▶影響力推定：頂点集合と交わるスケッチ数の計算

{a, e}

a b c d e f

1

2

3

4

5

③索引更新手法

グラフが変化したら …

各スケッチを独立に更新し、以下を保つ :

❝ 任意のはを通りに到る ❞z

a

b

d

fz

ca

b

d

fz

ca

b

d

fz

cac 削除 db 追加

⇝索引再構築の必要無

39

基本はBFS

5つの操作

辺追加・辺削除・辺確率変更・頂点追加・頂点削除

辺削除の例1

40

z

vu

Q.「に到達可能な頂点」が減る？z

辺削除の例1

41

z

vu

Q.「に到達可能な頂点」が減る？A.減らない

z

辺削除の例2

42

uv

z

Q.「に到達可能な頂点」が減る？z

出近傍無し

辺削除の例2

43

uv

z

Q.「に到達可能な頂点」が減る？A.少し減る

z

から逆幅優先探索で良いのでは？を消すため全を見る⇝全体を走査

辺削除の素朴な更新方法

z＼遅い／

zv

u

uv

z

課題Ⅱ

効率的な逆幅優先探索課題Ⅰ

迂回路の検知

44

辺削除の高速な反映：到達可能木の導入

45

を根とするスケッチの部分有向木

技法Ⅰ= 迂回路の存在判定技法Ⅱ= 逆幅優先探索の範囲抑制

* 頂点削除もOK

z

z

消費空間≤|スケッチ|

辺削除の高速な反映：迂回路の存在判定

46

uv ∉到達可能木 ⇒ からへ迂回路が有る※逆は成立しない

z

z

vu

u

実験では10%が枝刈り

辺削除の高速な反映：探索範囲の抑制

を根とする部分木Tuだけ調査 & 木を更新

Tu高々数頂点

uv

z

u

> 100,000 点平均的に

辺削除の高速な反映：探索範囲の抑制

を根とする部分木Tuだけ調査 & 木を更新

Tu高々数頂点

u

> 100,000 点平均的に

48

uv

z

上手くいくワケ

49

http://www.cise.ufl.edu/research/sparse/

matrices/SNAP/soc-Epinions1.html

Core-fringe 構造

Fringe は木っぽいTu 小さい技法Ⅱが効果的

Core は密迂回路沢山技法Ⅰが効果的

[Leskovec-Lang-Dasgupta-Mahoney. WWW'08]

[Maehara-Akiba-Iwata-Kawarabayashi. PVLDB'14]

Core

Fringe


実験評価

▶ 索引構築・索引更新・影響力推定・影響最大化の効率を評価

▶ データ：Koblenz Network Collection

辺の作成時刻付き

▶ 計算機：Intel Xeon E5-2690 2.90GHz CPU + 256GB RAM

▶ コンパイラ：g++v4.6.3 (-O2)

▶ 索引サイズ =32(|𝑉| + |𝐸|) log |𝑉|

50

http://konect.uni-koblenz.de/

http://konect.uni-koblenz.de/

実験：索引構築

51

実験設定索引構築

ネットワーク 𝒑 時間サイズ

Epinions13万点 84万辺

① 89 s 1 GB

② 62 s 1 GB

YouTube322万点 1,875万辺

① 5,000 s 45 GB

② 1,986 s 4 GB

Flickr230万点 3,314万辺

① 5,468 s 31 GB

② 4,254 s 12 GB

▶数時間だが一度きり

①辺uvの確率 = 0.1, 0.01, 0.001から無作為に選択②辺uvの確率 = 入次数(v)-1

完全な情報

サイズ

6 GB

7 GB

250 GB

180 GB

≈ 282 GB

≈ 292 GB

実験：グラフ変化による索引更新

52

実験設定単一辺操作単一頂点操作

ネットワーク 𝒑 追加削除確率変更追加削除


① 4.1 ms 1.0 ms 5.8 ms 0.8 ms 14.8 ms

② 1.0 ms 1.8 ms 1.7 ms 0.7 ms 8.3 ms


① 31.8 ms 0.3 ms 236.2 ms 0.0 ms 92.2 ms

② 0.1 ms 0.0 ms 1.5 ms 0.7 ms 5.7 ms


① 89.6 ms 2.4 ms 125.2 ms 0.0 ms 459.0 ms

② 0.2 ms 0.1 ms 4.8 ms 2.1 ms 53.8 ms


▶ (更新時間) ≪ (構築時間)

▶頂点削除が最遅 ∵多量の辺削除を伴う但し，頻度は少ないと思われる

実験：単一頂点の影響力推定の時間

実験設定本研究静的手法

ネットワーク 𝒑 索引構築クエリ MC[Kempe+'03]

RIS[Borgs+'14]


① 89 s 0.97 μs 6 s 9 s

② 62 s 0.96 μs 0.01 s 9 s


① 5,000 s 1.79 μs > 100 s 519 s

② 1,986 s 1.68 μs 0.02 s 447 s


① 5,468 s 1.83 μs > 100 s 350 s

② 4,254 s 1.74 μs 0.05 s 473 s

53

▶ 100万点／秒の追跡可能▶∵表引きしてるだけ①辺uvの確率 = 0.1, 0.01, 0.001から無作為に選択②辺uvの確率 = 入次数(v)-1


実験：影響最大化の時間 (シードサイズ 𝑘 = 100)

54

実験設定本研究静的手法

ネットワーク 𝒑 クエリ RIS[Borgs+'14]

IMM[Tang+'15]

PMC[Ohsaka+'14]

IRIE[Jung+'12]


① 0.5 s 10 s 39 s 11 s 13 s

② 0.4 s 12 s 0.3 s 21 s 13 s


① 23 s 508 s メモリ不足 284 s 250 s

② 1 s 535 s 8 s 922 s 239 s


① 16 s 361 s メモリ不足 173 s 497 s

② 3 s 617 s 6 s 932 s 457 s

▶スケッチが既にある効果本研究と同精度設定

研究②のまとめ

解決した点

▶動的設定で影響解析を効率的に実現

浮上した課題

▶莫大な索引サイズ：数千万辺で10GBオーダー

55

滞在中の計画／アイデア

今回扱った基礎的な操作を圧縮したまま出来る？

▶巨大データ×確率的振舞の空間を効率化

▶サンプリングによる近似も重いため

▶超高速な動的・オンライン処理

▶研究②の影響最大化は実はnotオンライン

56

枝刈り探索による大規模グラフ上の 高速な影響力推定・影響 …...Coin-flip tech. [Kempe-Kleinberg-Tardos. KDD'03] Inf 𝑆≜ 1 𝑟 1≤ ≤𝑟 R𝐺 𝑖

Documents

枝刈り探索による大規模グラフ上の高速な影響力推定・影響 …...Coin-flip tech. [Kempe-Kleinberg-Tardos. KDD'03] Inf 𝑆≜ 1 𝑟 1≤ ≤𝑟 R𝐺 𝑖