社会ネットワーク分析 第5章について @Kshi_Kshi 2012/08/23 (木) 1
社会ネットワーク分析 第5章について
@Kshi_Kshi
2012/08/23 (木)
1
「オープンソースで学ぶ社会ネットワーク分析
ソーシャルWebの「つながり」を見つけ出す」
の5章についてたんたん述べるだけの
内容となっております。
Chapter 5: 「2モードネットワーク」
おかしいところがあれば、(たくさんあるかと思います。)
適時突っ込んでいただければと思います。
本発表について
2
自己紹介
3
氏名等 @Kshi_Kshi / 越川 兼地 (こしかわ けんじ)
所属等 調布にある大学に通ってます。現在M2です。にわか情報系。
研究等 只今論文執筆中、締切明日 8/24 (´∀`;)
Title:「CRFを用いたメディア情報の抽出とLinked Data化
~ ソーシャルメディアとマスメディアの比較事例 ~」
その他 近頃研究に追われ、ソーシャル的な活動は薄くなりがち。
ランニングがマイブーム。
前回の勉強会: 8/02(木) 西新宿から調布まで走って帰宅してみた。
4
前章までのおさらい
5
1章 「イントロダクション」 @who_you_me http://bit.ly/PCsmcQ 2章 「グラフ理論スピード入門」 @teruu http://slidesha.re/RClpxR 3章 「中心性、権力、ボトルネック」 @shigex http://slidesha.re/MwxTDc 4章 「クリーク、クラスタ、コンポーネント」 @kat_tin http://slidesha.re/NguPNR そして、今回は 5章 「2モードネットワーク」 その前に 軽く、前回までのおさらいをしようかと思います。
1章のまとめ
6
• 本でやることを紹介した章 • 社会ネットワーク分析の世界へ • 事例:
– アクメコンサルティング – 監獄 / テロ組織 – エジプト革命とTwitter “インフォーマルネットワーク”
• 弱い紐帯 / 強い紐帯 とかいろいろ。
=> SNAの話を聞いて、ワクワクしましたよね?
2章のキーワード
7
• グラフ – 有向 / 無向 – 重みなし / 重みつき – 1モード(一部グラフ) / 2モード(二部グラフ) / マルチモード
• 表現方法: – 隣接行列 / エッジリスト / 隣接リスト
• 探索: – 深さ優先探索 / 幅優先探索 / 単純路と通路 / ダイクストラのアルゴ
リズム
• グラフの定量化: – グラフの距離 (最短単純路, コストに基づく最短単純路 , ユークリッ
ド距離)/ グラフの直径
• スモールワールド・ネットワーク
=> グラフ理論の基礎について学びました。
3章のキーワード
8
• 中心性 – 次数中心性
– 近接中心性
– 媒介中心性
– 固有ベクトル中心性
• クラウトスコア / PageRank
=> ネットワーク分析の手がかりとなる
重要な指標の中心性について学びました。
4章のキーワード
9
• コンポーネント / サブグラフ • トライアド • クラスタ係数 • 構造的空隙 / 境界連結者 • クリーク(完全サブグラフ) • 階層的クラスタリング
=> ネットワークを眺めて、意味を解釈できるように
なりました? 中心性の指標を使って階層的クラスタリングできるよ
うになった? (個人的にこの章の理解は怪しいので、鵜呑みにしないで下さい.)
おさらい終了。
10
以降、5章について。述べていきます。
目次
11
5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか
② 2モードネットワークの理論 所属関係ネットワーク
属性ネットワーク
少し数学
実際の2モードネットワーク
PACネットワーク
候補者ネットワーク
③ マルチモードネットワークの拡張
④ 練習問題
2モードネットワークって ?
12
• 2モードネットワーク
– 学術名称: ニ部グラフ / Biparite Graph
画像引用元: http://d.hatena.ne.jp/snatool/20111030/1319931225 今までの章で主に扱っていたグラフ
頂点集合を二つの部分集合に分割して各集合内の頂点同士の間には辺が無いようにできるグラフのことである。
Wikipedia – 2部グラフ: http://bit.ly/NFcGsY
二部グラフ
各集合間での エッジは無し
ニ部グラフを分析する嬉しさ
13
• 世の中に存在する関係の多くはニ部グラフもしくは,マルチグラフだから。 – 政治献金関係(候補者と献金する団体), 雇用関係(会社と従業員),twitterのお気に入り(ユーザとお気に入りツイート),etc…
• その他メリット: – 教えてください。
事例紹介 => 次スライド
目次
14
5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか
② 2モードネットワークの理論 所属関係ネットワーク
属性ネットワーク
少し数学
実際の2モードネットワーク
PACネットワーク
候補者ネットワーク
③ マルチモードネットワークの拡張
練習問題
「選挙資金は選挙に影響を与えるか?」
15
ノード:政治組織 / 政治活動委員会(PAC) 赤: 共和党 青: 民主党 緑: シングルイシューグループ 紫: 業界団体 黄: NPO
エッジ: PAC間のリンク(資金がどこで使われたかに依存) e.g.
• PAC-A 及び PAC-B が同じ候補者に献金したら、この2つのノードはリンクされる。
=> 共通に献金している相手が多ければ多いほど、リンクが強いものに。最も強い線は太線になってる。
Q. なにこの太線? この3つのノードって何??
緑ノードの圧倒的!存在感!
冒頭の話の続き
16
共和党クラスタ
民主党クラスタ
ヒラリー・クリントンを落選させることを目的としていたクラスタ
NARAL(妊娠中絶権擁護全国連盟)
生まれる権利を守る全米委員会
AFL-CIO PAC (米最大の労働組合と委任により1100万人の選挙票を操れる団体)
冒頭の話の続き
17
共和党クラスタ
民主党クラスタ
ヒラリー・クリントンを落選させることを目的としていたクラスタ
NARAL(妊娠中絶権擁護全国連盟)
生まれる権利を守る全米委員会
AFL-CIO PAC (米最大の労働組合と委任により1100万人の選挙票を操れる団体)
• 世の中的背景:(米 2000年の選挙) 労働組合票は民主党に流れていた。
共和党としては、下院を支配し与党になるためには、労働組合が牛耳っている地区(オハイオ・ミシガン)で勝利しなければならなかった。
共和党としては、労働組合票が欲しい。 => 労働組合にとっておいしい政策を打つ必要があった。論争の的となる問題が中絶だった。
冒頭の話の続き
18
共和党クラスタ
民主党クラスタ
ヒラリー・クリントンを落選させることを目的としていたクラスタ
NARAL(妊娠中絶権擁護全国連盟)
生まれる権利を守る全米委員会
AFL-CIO PAC (米最大の労働組合と委任により1100万人の選挙票を操れる団体)
• ここで何が言いたかったのか?
ニ部グラフを分析することで、
世に起こっている事象やその問題の本質に迫ることができたってこと。
冒頭の話の続き
19
共和党クラスタ
民主党クラスタ
ヒラリー・クリントンを落選させることを目的としていたクラスタ
NARAL(妊娠中絶権擁護全国連盟)
生まれる権利を守る全米委員会
AFL-CIO PAC (米最大の労働組合と委任により1100万人の選挙票を操れる団体)
冒頭の話の続き
20
共和党クラスタ
民主党クラスタ
ヒラリー・クリントンを落選させることを目的としていたクラスタ
NARAL(妊娠中絶権擁護全国連盟)
生まれる権利を守る全米委員会
AFL-CIO PAC (米最大の労働組合と委任により1100万人の選挙票を操れる団体)
• ここで何が言いたかったのか?
政治献金の関係(ニ部グラフ)を分析することで、世に起
こっている事象やその問題の本質に迫ることができたってこと。
(論争の的:中絶を認めるのか否か?, ヒラリークリントン,…) => ニ部グラフの分析って凄いでしょ ^_^ じゃあ、どうやって分析したら、知見が獲得できるの? => 次節で紹介
目次
21
5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか
② 2モードネットワークの理論 所属関係ネットワーク
属性ネットワーク
少し数学
実際の2モードネットワーク
PACネットワーク
候補者ネットワーク
③ マルチモードネットワークの拡張
練習問題
2モードネットワークの理論
22
• とあるクラブの所属関係 二部グラフからの推測: Q. AとBが同じメンバーなら、彼らは知り合いだろうか? <飛び交う憶測> 入部時期が同じだったらその可能性が高いのでは? クラブのメンバー規模が大きかったら・・・? このクラブが全国に支店を持っていたら? ネットの会員という場合もありうる。うーん。。。
このような憶測から分析を始めることができる! => Step.1 グラフからいろいろ憶測してみよう!
もしかして 閉じたトライアドかも?
続き
23
少しグラフの規模を拡大してみた。
• EFHは共通のグループに属している。
こいつらの中には強い結びつきがありそう。
• そうだ
• 射影してみよう。
続き
24
射影後
他のネットワークのように分析が可能になった。
前章にやった - アイランド法 - クラスタ法 が適しているらしい。 Why? => 類似性や相関関係を求める
ときに適している手法だから。
射影
Step2. 憶測をヒントにネットワークを射影して 新しいネットワークを作り分析をする!
Q. えっでも・・・ 射影ってめんどくさくないですか??? パッとできるんですか??
Q. えっでも・・・ 射影ってめんどくさくないですか??? パッとできるんですか??
26
A. 転置行列の概念で解決さっ!
えっ誰・・・?
少し数学
27 ※ 計算量 O(n * m * n)
D C A E B F
3 2 4 1 5
D
C A E B F
2 1
1 1
1 1
2部グラフの分析まとめ
28
• 二部グラフの分析は
1. どこに関係がありそうか憶測する。
2. 憶測が顕著に現れるであろうネットワークを作る。(転置行列を使う)
3. 前章までに行った分析等をしてみる。
実際の2モードネットワーク
29
• Networkxをつかって、実際に分析してみようという内容
• コード・データなど
https://github.com/maksim2042/SNABook/tree/master/chapter5
• データのサンプル
実際の2モードネットワーク
30
コメント参照。
PACネットワーク
31
1. これを使って何ができるのだろうか。まず、PACの所属関係ネットワークを計算しよう。
2. コードがりがりして、ネット
ワークを作る。(可視化に工夫はしよう。)
<知見> このデータセットでもっとも強
い関係は、IDがC00000422のオハイオ州コロンバスに住むクレイグ・アンダーソン博士とIDがC00000372の鉄路保全政治同盟という鉄道会社社員の労働組合PAC(ミシガン州サウスフィールド)である。
可視化!
知見獲得
PACネットワーク2
32
1. 候補者ネットワークを作ろう。 2. 候補者ネットワークを計算するには、
射影の向きを単純に逆にして、PACの表ではなく候補者の表の射影グラフを計算すればよい。
=> コードがりがり。 <知見> コアネットワーク(図5-7)には、明ら
かに境界連結者候補によってつながれたいくつかの密集したクラスタが含まれている。2000年には多くの民主党候補が保守的な傾向を示し、その結果、普段なら共和党を支援する人々から多額の献金を受け取っている。もちろん、それでも彼らは選挙では負けている。
重要なノードだけを可視化するために、 ノイズになるノードをカットする基準を 得るために重みのヒストグラム化をした
知見獲得
可視化!
PACネットワーク2
33
1. 候補者ネットワークを作ろう。 2. 候補者ネットワークを計算するには、
射影の向きを単純に逆にして、PACの表ではなく候補者の表の射影グラフを計算すればよい。
=> コードがりがり。 <知見> コアネットワーク(図5-7)には、明ら
かに境界連結者候補によってつながれたいくつかの密集したクラスタが含まれている。2000年には多くの民主党候補が保守的な傾向を示し、その結果、普段なら共和党を支援する人々から多額の献金を受け取っている。もちろん、それでも彼らは選挙では負けている。
重要なノードだけを可視化するために、 ノイズになるノードをカットする基準を 得るために重みのヒストグラム化をした
知見獲得
可視化!
練習問題
階層的クラスタ分析(4.5節)を使えば、クラスタのなかに誰がいるのかを調べられる。境界連結者は、媒介中心性(3.2.4節})かトライアドセンサス(4.3.7節)を使えば見つけられる。 これらのテクニックは今までの章で説明したので、読者への練習問題としておきたい
目次
34
5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか
② 2モードネットワークの理論 所属関係ネットワーク
属性ネットワーク
少し数学
実際の2モードネットワーク
PACネットワーク
候補者ネットワーク
③ マルチモードネットワークの拡張
練習問題
マルチモードネットワークの拡張
35
• 分析の仕方は、 基本的には、2部グラフの時と同じ。
1. どこに関係がありそうか憶測する。 2. 憶測が顕著に現れるであろうネットワークを作
る。(転置行列を使う) 3. 前章までに行った分析等をしてみる。
• この節で、複数種のノードからどのようなネッ
トワークが作れるかの感覚を養うのが節の目的かと。
事例紹介
36
アクメ株式会社という小さな機械メーカーがあるものとする。この会社には、ある程度の数の社員がいて、何らかの命令系統のもとに動いている。社員たちは、社内外に友人関係を持ち、何らかの専門知識について正規の教育を受け、何かしらの資産を持っている。会社が作っている装置は、部品と作業によって作られる。作業とは、誰かがリソースに対してスキルを適用することである(つまり、スプロケットを作るには、旋盤の操作方法を知っていて、一定量の鉄を持っている人が、時間を費やしてスプロケットを作らなければならない)。
テキストからまるまる引用
マルチモードネットワーク分析の感覚を養おう
37
こんなネットワークが作れる
このマルチモードネットワークから
練習問題
38
Question
このモデルで実現可能な仕事をどのようにして判断したらよいだろうか。
(仕事を担当している人が仕事を完成させるために必要なリソースを持っていたら、その仕事は達成可能だとしよう。)
Answer
5章 まとめ
39
• 二部グラフ及びマルチモードネットワークの分析は
1. どこに関係がありそうか憶測する。
2. 憶測が顕著に現れるであろうネットワークを作る。(転置行列を使う)
3. 前章までに行った分析等をしてみる。
40
ご清聴 ありがとうございました。
本スライドに用いたフォント
41
コンセプト
妹のような少女が一生懸命、丁寧に手書きで書いた文字をイメージしたフォント
http://www.vector.co.jp/soft/winnt/writing/se496865.html
「妹フォント」