Top Banner
ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング 高橋柊
22

ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

May 28, 2015

Download

Technology

Shu Takahashi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

ベクトル空間モデルを用いた知識共有コミュニティでのユーザマッチング

高橋柊

Page 2: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

投稿数の増加が必要不可欠

興味範囲の類似するユーザを検出

興味範囲の類似するユーザの投稿項目を提示

研究の背景・目的

Page 3: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 文体識別によるブログ推薦システム[瀬川 09]

• QAサイトにおける質問推薦へ向けた履歴データの分析 [片山 10]

! 処理コスト

! 適応データセットの限定

先行研究

Page 4: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

ユーザの興味範囲を表す興味ベクトルを生成

余弦値に基づくユーザ間の類似度計算

興味ベクトルをK-means法でクラスタリング

提案手法

Page 5: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

ユーザの興味範囲を表す興味ベクトルを生成

余弦値に基づくユーザ間の類似度計算

興味ベクトルをK-means法でクラスタリング

提案手法

Page 6: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

•ユーザの興味範囲を表す

•次元は全ユーザの投稿項目数

•各成分はユーザが当該項目に投稿している場合1,投稿していない場合は0

array(3){[20]=>int(1)[200]=>int(1)[2000]=>int(1)

}

項目20,200,2000に投稿

興味ベクトル

通常,疎ベクトルとして与えられる

Page 7: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

ユーザの興味範囲を表す興味ベクトルを生成

余弦値に基づくユーザ間の類似度計算

興味ベクトルをK-means法でクラスタリング

提案手法

Page 8: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 2 人のユーザ    

• 両ユーザの興味ベクトルは

• 類似度     は興味ベクトル間の余弦値より算出

sim(Ui, Uj) =~ui · ~uj

|~ui|| ~uj |

Ui, Uj

sim(Ui, Uj)

値が1に近いほど の興味範囲は似ているUi, Uj

~ui, ~uj

余弦値に基づく類似度計算

Page 9: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

投稿項目に重なりがない場合は……?

• 疎ベクトル同士の余弦値計算は低コスト

• ユーザと投稿項目に最も重なりがあるユーザを抽出

余弦値のメリット・デメリット

! 投稿項目に重なりがある場合のみ有効

Page 10: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

ユーザの興味範囲を表す興味ベクトルを生成

余弦値に基づくユーザ間の類似度計算

興味ベクトルをK-means法でクラスタリング

提案手法

Page 11: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 非階層クラスタリングアルゴリズム

• 他のクラスタリングアルゴリズムに対し非常に少ない計算量

K-means法

Page 12: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

アイテムをランダムにクラスタに振り分け

クラスタの重心を計算

アイテムを一番近いクラスタの重心に振り分け

① ② ③K-means法のプロセス

Page 13: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• アイテムは正規化された興味ベクトル

• 重心は正規化されたクラスタ内の平均ベクトル

• 距離はユークリッド距離

興味ベクトルへの適応

Page 14: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 投稿項目に重なりがないユーザ同士の類似性を検出

• 類似ユーザ検出率の増加

! 計算コスト増大

クラスタリングのメリット・デメリット

Page 15: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 日本語版Wikipediaのダンプデータを利用

• 投稿ページがカテゴリに属している1050ユーザを対象

• 投稿項目はユーザの投稿したページが属しているカテゴリ315589個

評価実験データ

Page 16: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

実験結果(余弦値)ユーザ間の最大類似度が 1 に近いユーザ

ユーザ間の最大類似度が 0 に近いユーザ

18585 12204 0.942809 8 9

18126 18585 0.942809 9 8

Ui Uj sim(Ui, Uj) | ~uj ||~ui|

14840 12316 0.008216 2 7407

15564 377 0.009562 3 3645

Ui Uj sim(Ui, Uj) | ~uj ||~ui|

Page 17: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

•最大となる     が0.9~1のユーザが多い

•最大となる     が0.9~1のユーザの投稿項目には類似性がある

余弦値分布のヒストグラム

0

50

100

150

200

250

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

coun

t

ǡሺ ሻ

最大となる の分布sim(Ui, Uj)

sim(Ui, Uj)

sim(Ui, Uj)

Page 18: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• K-分割交差検定により精度を検証

•検証用データの投稿項目ごとに,訓練用データから得られた各クラスタのユーザが投稿している割合を算出

•得られた割合の標準偏差を評価値として採用(0 ≦ 評価値 ≦ 0.1558)

訓練用 検証用

投稿項目315589個

5個に分割

クラスタリングの評価手法

Page 19: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

評価値 カテゴリ名 投稿ユーザ数

0.138454 日本海軍の運搬船 14

0.129549 鉄道駅前画像 5

0.128800 兵庫県出身の人物 4

評価値 カテゴリ名 投稿ユーザ数

0.043301 栄市の企業 10

0.043938 日本語の個人名 12

0.045397 日本の国際関係史 10

評価値が高い項目

評価値が低い項目

実験結果(クラスタリング)

Page 20: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

検出方法 非検出数 検出率 (%)

余弦値 11 98.9523

K-means 1 99.9047

• 余弦値により類似ユーザが検出されないユーザとクラスタリング により類似ユーザが検出されないユーザに重なりなし

実験結果(検出率)

Page 21: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

• 余弦値に基づく類似度計算により少ない処理コストで類似ユーザの抽出が可能

• 余弦値に基づく類似度計算ではユーザの持つ投稿項目により結果が変動

• 学習データに似ている項目が多く存在するほどユーザの興味範囲に基づくクラスタリング

の精度は上昇

興味ベクトルによる類似ユーザ検出は有用

考察

Page 22: ベクトル空間モデルを用いた 知識共有コミュニティでのユーザマッチング

質疑応答