Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion by M. Hammar, R. Karlsson and B. Nilsson 担当:Quasi_quant2010 KDD2014勉強会 1 【KDD2014勉強会】
Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion
by M. Hammar, R. Karlsson and B. Nilsson
担当:Quasi_quant2010
KDD2014勉強会 1
【KDD2014勉強会】
本論文を読んだ動機 -潜在層を広げたい:集客・消費層の増加を狙う-
KDD2014勉強会 2
DisplayやSearch等、機械学習では 効率的な集客層の刈り取りに関するリサーチが多数
ダイレクトマーケティングの観点では、人手によりユーザーを カバーしきれない為、機械で情報推薦する以外、手段はない。
CTR(集客層刈り取り)・CV(消費層刈り取り)予測など
潜在層を増やすアプローチも定量的に評価出来ないか
評価出来れば、マス広告とインターネット広告の協業も可能
潜在層 集客層 消費層
CTR予測 ? CV予測
研究背景 - 情報に感染するユーザー数はどの様に増えるか -
KDD2014勉強会 3
命題
twitterが持つ会話ネットワークと特定出来ない何かに影響される情報感染についての理解
貢献
twitterが持つ会話ネットワークに影響を受ける情報感染
あるユーザーとその近接ユーザー間が会話ネットワーク内で情報感染 すると仮定し、そのダイナミクスをブラウン運動で近似
特定出来ない何かに影響をうける情報感染
会話ネットワーク外で情報感染する数と仮定し その数をポアソン分布で仮定
感想
予測ではなくデータフィッティングし、情報感染の考察を行っている
アイディア - マス媒体による感染と会話ネットワーク -
KDD2014勉強会 4
部分コミュニティA 部分コミュニティB
あるイベントで機械学習のイベントがあったとする
会話ネットワークを通じて情報感染する
口コミなど特定できない影響でユーザーが情報感染する
twitter会話ネットワーク
特定できない影響で 情報に感染したユーザー
情報感染したユーザーの近接ユーザーが感染
情報感染したユーザーの親ノード
アイディア - 会話ネットワーク内外の時系列図 -
KDD2014勉強会 5
b a
c
会話ネットワーク内
会話ネットワーク外
a
c
会話ネットワーク内
会話ネットワーク外 b
時刻
t
時刻
t+
1
twitterの会話ネットワーク - ノード・エッジ・ユーザー間距離の定義 -
KDD2014勉強会 6
G(V,E)
v∈V : ノードはtwitterユーザー
e∈E : vi がvjにツイートした時の有効エッジ
wij
viがvjに会話した数(wij ≠ wji)
N(vi)
viが会話した全ての近接ユーザー
ηij = | N(vi) ∩ N(vj) |
viとvjが共有した近接ユーザーの数
dij = 1 / (wij+1)(wji+1)ɤ(ηij+1) ɤ
ɤ≧1を満たす固定パラメータ
w12=0, w21=5, N(v1)={v3, v4, v5} N(v4)={v1, v3, v5}
η14=2
会話数
G(V,E)
明示的な親密さ 暗示的な親密さ
モデル - 近接ユーザー間の情報感染:幾何ブラウン運動-
KDD2014勉強会 7
モデル上の親密さが観測上の親密さを超えると情報に感染
If log(Stij) ≧ dij,
then vjはviにより情報感染、感染数 += 1
近接ユーザー間の親密さをGBMと仮定
ただし、不等式ではStのパラメータを推定できないので、 log(St
ij) ≡ dij と仮定する
Ck
Ck Ck
Ck
モデル - 何かより情報感染したユーザー数:ポアソン分布 -
KDD2014勉強会 8
シミュレーション総時間のtwitterデータを15分間隔で分割
イベントトピックをtweetしたユーザーを情報感染したとみなす
会話ネットワーク外のtweet回数をカウント(=k)
kがポアソン分布に従うと仮定
会話ネットワーク外のユーザー数をM0の時、 15分間隔で ユーザーが感染する情報数を
λ / M0
データ - マスデータとtwitterデータの整理 -
KDD2014勉強会 9
Gold Standard Report(GSR)
位置情報, 日付, イベントの業種, ハシュタグ, etc
ハシュタグ:40種類のイベントで、64ユニークハシュタグ
twitter(2012/5~2013/9)
Sample JSON(https://gist.github.com/edstenson/1206391)
観測期間の内、GSRイベントに無関係なtweetは除去
除外条件はハシュタグ
位置情報はほぼ記録されていない為、推定(http://archive.is/srm8P)
GSRに含まれる2000の位置情報に関する固有名詞を抽出
前述にない表現・品詞ならば、ユーザー属性情報・tweetテキストに基づきユーザー位置情報やtweet内容の位置情報を推定。
実験 - 会話ネットワークで情報に感染するとは? -
KDD2014勉強会 10
情報感染したユーザー数 = 近接ユーザー間の情報感染ユーザー数 + 何かより情報感染したユーザー数
近接ユーザー間の情報感染ユーザー数:幾何ブラウン運動
初期値、すべてのユーザーは感染していない
t番目繰り返し時、会話ネットワークG(V,E)とdijが観測値として与えられ、部分コミュニティパラメータμ、σを推定
何かより情報感染したユーザー数:ポアソン分布
ポアソンパラメータλはシミュレーション時間中、一定
t番目繰り返し時、会話ネットワーク外のユーザー数をM0t
結果 - 部分コミュニティを考慮するしない -
KDD2014勉強会 11
会話ネットワークに部分コミュニティを考慮することで フィッティング精度が高まっている
感染数の予測は78%~95%なので、fittingとしてはOK
結果 - 推定・実現グラフは異なる性質を持つ -
KDD2014勉強会 12
推定・実現グラフは、平均クラスタ数が1/10と大きく異なる
実現グラフは疎(平均クラスタ数)だが、 経路長・直径が推定グラフより大きい。
結果として平均次数は1%の誤差、連結ノード数は10%の誤差
推定・実現グラフは異なる性質を持っている?
ただし、グラフ密度は一致
推定・実現グラフは異なる性質を持つ?
感想 - 発想は面白かった。が、改善点も多い? -
発想
twitterトピックが推定できれば、会話ネットワーク内・外で 情報感染するユーザー数を考慮でき、 会話ネットワークの外力(マス,etc)による影響を分解した
Twitterのフォロー・フォロワー関係で会話ネットワークが生成されると考えてもよいのでは?
改善点
推定・実現グラフは異なっていると考えてよいはずで、会話ネットワークの近接度合をブラウン距離で測る意味を再考した方が?
リンク優先接続・ノード生成消滅を加味したネットワークってない?
実現グラフはスケールフリー性が強く、スモールワールド性が低い?この性質を再現できるリンク予測の生成モデルを使った方が?
KDD2014勉強会 13
附録
KDD2014勉強会 14
アイディア - 会話ネットワーク内外の時系列図 -
KDD2014勉強会 15
b a
c
会話ネットワーク内
会話ネットワーク外
a
c
会話ネットワーク内
会話ネットワーク外 b
時刻
t
時刻
t+
1
このエッジが フォロー・フォロワー関係で生成
twitterの会話ネットワーク - ユーザー間の親密さ、dijの解釈 -
KDD2014勉強会 16
wij → 大 ⇔ dij → 小
会話数が多ければ、viが感じるvjへの親密さを明示的に観測
wji → 大 ⇔ dij → 小
会話数が多ければ、vjが感じるviへの親密さを明示的に観測 ただしɤ乗なので、ユーザー間の親密さに差が生じる
ηij → 大 ⇔ dij → 小
viとvjがより多くのユーザーを共有すれば、暗示的に親密と観測
wij > wji (ɤ=1)
vjのviへの親近感の方がviのvjへの親近感より強い
スモールワールド性
KDD2014勉強会 17
誰に対しても少ない人数で到達できる(隣接距離が小さい)
親コードが子ノードを共有し易い(クラスタ性が高い)
[出典]mixiのスモールワールド性の検証(http://alpha.mixi.co.jp/entry/2008/10643/)
[出典]図:スモールワールド・ネットワーク(http://japan.cnet.com/sp/column_ncompany/20130167/)
スケールフリー性
KDD2014勉強会 18
次数kiの分布関数がベキ関数
[出典]矢久保考介、トポロジー理工学特別講義I、複雑ネットワークの統計的性質