Top Banner
Keyword Trackerで抽出した splogリストについて 2009730日木曜日
40

Keyword Trackerで抽出したsplogリストについて

Dec 18, 2014

Download

Technology

moai kids

 
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Keyword Trackerで抽出したsplogリストについて

Keyword Trackerで抽出したsplogリストについて

2009年7月30日木曜日

Page 2: Keyword Trackerで抽出したsplogリストについて

はじめに

✓Keywrod Trackerで収集したブログデータを元に、spamブログ(splog)の抽出、解析を行いました。

✓本日はその結果ならびに傾向をご報告いたします。

2009年7月30日木曜日

Page 3: Keyword Trackerで抽出したsplogリストについて

アジェンダ

✓はじめに

✓背景

✓splogの定義

✓splog抽出結果と傾向

✓今後の展開について

2009年7月30日木曜日

Page 4: Keyword Trackerで抽出したsplogリストについて

Keyword Tracker日々投稿されるブログ記事を用いて、その日の話題のワードや、ワードのトレンドを解析するアプリケーション

大手13ブログサービスの新着ブログ記事をクローリングして取得

http://kt.nd-ilab.jp/

2009年7月30日木曜日

Page 5: Keyword Trackerで抽出したsplogリストについて

ランキング

2009年7月30日木曜日

Page 6: Keyword Trackerで抽出したsplogリストについて

ワード詳細

出現数の推移

係り受け関係にある動詞/形容詞等

共起語

2009年7月30日木曜日

Page 7: Keyword Trackerで抽出したsplogリストについて

属性情報ブログサービス別の

投稿比率

性別/世代別/地域別

2009年7月30日木曜日

Page 8: Keyword Trackerで抽出したsplogリストについて

Keyword Tracker1日あたりのクローリング記事数→約80万~90万記事

意外とspamブログ(以降splogで統一)記事が多いため、splogの記事内容にワードの解析結果が影響を受ける。→splog対策が必要 ノイズとなる記事エントリーを除去することで Keyword Trackerの精度も向上

2009年7月30日木曜日

Page 9: Keyword Trackerで抽出したsplogリストについて

アジェンダ

✓はじめに

✓背景

✓splogの定義

✓splog抽出結果と傾向

✓今後の展開について

2009年7月30日木曜日

Page 10: Keyword Trackerで抽出したsplogリストについて

spamの定義

ここでは「自らの利益のために、不

特定多数に対し利益誘導に

つながる行為を行うこと」

とする

2009年7月30日木曜日

Page 11: Keyword Trackerで抽出したsplogリストについて

splogの種別splogは大別して以下の4種に分類されます。※1

※1『ユーザ適応型Splog フィルタリングのためのユーザ固有Splog 空間の分析』より分類種別を参考

種別 内容 目的

アフィリエイト型記事本文中にアフィリエイト対象の商品サイトへのリンクを大量に貼付

アフィリエイトリンクのクリック、商品購入。

コピー&ペースト型話題のワード、時事ニュース記事などを含む文章を他サイトから大量に引用(無断借用)し貼付

SEO効果。副次的に広告やサイドバー貼付のアフィリエイトリンクなどのクリックを期待

ワードサラダ型話題のワードを元に、文法的に自然文に見えるが人目では違和感のある文章を貼付

SEO効果。副次的に広告やサイドバー貼付のアフィリエイトリンクなどのクリックを期待

アダルト型アダルトコンテンツを貼付 コンテンツの購入。広告やアフィ

リエイトリンクのクリック。

2009年7月30日木曜日

Page 12: Keyword Trackerで抽出したsplogリストについて

アフィリエイト型

2009年7月30日木曜日

Page 13: Keyword Trackerで抽出したsplogリストについて

ワードサラダ+コピペ型

2009年7月30日木曜日

Page 14: Keyword Trackerで抽出したsplogリストについて

アダルト型

自粛2009年7月30日木曜日

Page 15: Keyword Trackerで抽出したsplogリストについて

アジェンダ

✓はじめに

✓背景

✓splogの定義

✓splog抽出結果と傾向

✓今後の展開について

2009年7月30日木曜日

Page 16: Keyword Trackerで抽出したsplogリストについて

今回採用したアルゴリズム✓リストマッチ(ブラックリスト)

- リンク先に特定のURLが含まれている場合spamと判定- 「利益誘導につながる行為」✓類似文章投稿

- 短期間に、類似内容のブログ記事を複数回投稿した場合にspamと判定。準完全一致検索。

- 「不特定多数に~」✓Bayesian Filter

- 過去にspam判定されたブログ記事と内容が類似している場合にspam判定。いわゆるベイズ推定による判定。

2009年7月30日木曜日

Page 17: Keyword Trackerで抽出したsplogリストについて

ブラックリスト✓特定の情報商材系サイト、アダルトサイト、buzzプロモーションサイト等のURLをブラックリスト化。✓ブラックリストURLに合致するリンクが存在する文書を

splog判定

✓Keyword Trackerでクロールした記事をHadoopで解析して、出現頻度が高いURLを目視確認し、悪質なものをブラックリスト化しています。

2009年7月30日木曜日

Page 18: Keyword Trackerで抽出したsplogリストについて

類似文章投稿✓ある期間内に投稿されたブログのうち、内容が類似している文章が複数有る場合splog判定を行う。✓類似検索にはPrefix Filterの手法を適用

- Prefix Filterについては研究レポートを見てください。http://www.slideshare.net/moaikids/prefix-filter-1126120

2009年7月30日木曜日

Page 19: Keyword Trackerで抽出したsplogリストについて

Bayesian Filter✓過去にブラックリスト、類似文章投稿判定によりsplog判定された記事データを学習データとして、ベイズ推定によりsplog判定を行う。✓今回は多項ナイーブベイズを用いています。✓ベイズについては先月もやったので割愛。

2009年7月30日木曜日

Page 20: Keyword Trackerで抽出したsplogリストについて

採用しなかったアルゴリズム✓リンク構造の解析

- 間に合わなかった✓ユーザのネットワーク性、グラフ構造の解析

- 間に合わなかった

✓複数のBayesian Filterルールを組み合わせてのAdaBoostingによる判定- 間に合わなかった

2009年7月30日木曜日

Page 21: Keyword Trackerで抽出したsplogリストについて

splogの種別との対応

種別 ブラックリスト 類似文章 ベイズ

アフィリエイト型 ○ - -

コピー&ペースト型 △ ○ △(辞書による)

ワードサラダ型 - ○ △(辞書による)

アダルト型 △ - △(辞書による)

2009年7月30日木曜日

Page 22: Keyword Trackerで抽出したsplogリストについて

2009/07/24~7/26のデータを元に算出

今回抽出できたsplogの比率

1.15%

98.85%

通常 splog

全クロール記事の1%強をsplog判定抽出ルールには ブラックリスト/類似文章投稿/Bayesian Filterを使用

2009年7月30日木曜日

Page 23: Keyword Trackerで抽出したsplogリストについて

サービスごとのsplog比率2009/07/24~7/26のデータを元に各サービスのspam数/spam比率を算出

0%

3.00%

6.00%

9.00%

12.00%

15.00%

ameblo fc2 yahoo livedoor jugem seesaa yaplogcocolog goo0

3,000

6,000

9,000

12,000

15,000

比率 spam数1%以上

2009年7月30日木曜日

Page 24: Keyword Trackerで抽出したsplogリストについて

2009/07/24~7/26のデータを元に算出

抽出アルゴリズム別の件数

5%

50%46%

ブラックリスト類似文章ベイズ

ブラックリスト/類似文章での抽出がそれぞれ半数程度。spam記事は日々対象の話題を変えてるので、過去のsplogで使用されたワードとの類似性(ベイズ)では抽出比率が低い?

2009年7月30日木曜日

Page 25: Keyword Trackerで抽出したsplogリストについて

抽出アルゴリズム別の精度

類似文章の精度が低い(60%強)。他はほぼ100%。

2009/07/24~7/26のデータを元に数百件のデータを無作為に抽出。目視確認によりsplogかそうでないかを判定。

0%

20.00%

40.00%

60.00%

80.00%

100.00%

ブラックリスト 類似文章 ベイズ0

3,000

6,000

9,000

12,000

15,000

精度spam数

2009年7月30日木曜日

Page 26: Keyword Trackerで抽出したsplogリストについて

類似文章の精度が低い理由✓ユーザの操作ミスにより悪意無く同一の文章が複数回投稿されるケースがある。✓テンプレート化された文章の投稿

2009年7月30日木曜日

Page 27: Keyword Trackerで抽出したsplogリストについて

ヒューリスティックアプローチによる改善案

✓類似文章の投稿回数に閾値を設ける。- 例:30分以内に類似文章をn件以上投稿したらsplog判定する

✓短すぎる文章は評価しない

2009年7月30日木曜日

Page 28: Keyword Trackerで抽出したsplogリストについて

ヒューリスティックアプローチによる改善案

2009/07/27のデータを元に算出閾値を2~4に変更して測定

0%

18.00%

36.00%

54.00%

72.00%

90.00%

2 3 40

140

280

420

560

700

精度件数

閾値を上げれば精度は向上するが抽出件数は減るF値も下がる。あまり改善になってない。

2009年7月30日木曜日

Page 29: Keyword Trackerで抽出したsplogリストについて

Keyword Trackerでの結論✓悪意有無に関わらず、類似の文章を複数回投稿することはノイズとなるので、splog判定を行う事にする。✓該当文書の削除、ブログの削除など厳しい措置が伴う場合は、再現率、F値より適合率(精度)を優先させた方がよい。

✓短すぎる文章は評価しないようにする。

2009年7月30日木曜日

Page 30: Keyword Trackerで抽出したsplogリストについて

各ブログでの比較アメブロ、fc2、seesaa、yaplog、livedoor、yahoo、yaplogを比較

0%

20.00%

40.00%

60.00%

80.00%

100.00%

ブラックリスト 類似文章投稿 ベイズ(×10)

アメブロ全体平均FC2seesaalivedooryahooyaplog

splogが多いと思われるブログはブラックリストやベイズフィルターでの検出率が高い。

2009年7月30日木曜日

Page 31: Keyword Trackerで抽出したsplogリストについて

まとめ✓類似文章投稿

- ブログ投稿の性質などから精度は低いが、学習データ無しにノイズを抽出するのには有効な手法

- 類似文章数の閾値により精度の調整は可✓Bayesian Filter

- 学習データの質が高ければ精度も高くなる。- 日々話題の傾向が変わるため、メンテナンスをしないとデータが形骸化する可能性がある。

2009年7月30日木曜日

Page 32: Keyword Trackerで抽出したsplogリストについて

まとめ✓ブログごとの傾向

- FC2とseesaaはなかなかのレベル- amebloは記事数に比してspamの比率が少ない(絶対数は多い)

- yahooが優秀。ブラックリスト、ベイジアンフィルターではほとんど検知されない

✓もっとspamは多いはずなので、引き続き精度高く多くのsplogを検知したい- でも「日本のブログの30%はspam」というのは言い過ぎだと思う。

2009年7月30日木曜日

Page 33: Keyword Trackerで抽出したsplogリストについて

アジェンダ

✓はじめに

✓背景

✓splogの定義

✓splog抽出結果と傾向

✓今後の展開について

2009年7月30日木曜日

Page 34: Keyword Trackerで抽出したsplogリストについて

splog判定APIの公開✓Google App Engine for java(GAE/J)上にsplog判定を行う

APIを公開中。- http://splogapi.appspot.com/splog/(URL)

GETリクエスト時のHTTPステータスコードにより判定- 200:splog- 404:splogではない

- 現在データ蓄積中。ドキュメント作成中。http://splogapi.appspot.com/

2009年7月30日木曜日

Page 35: Keyword Trackerで抽出したsplogリストについて

splog api

2009年7月30日木曜日

Page 36: Keyword Trackerで抽出したsplogリストについて

GAE/J

2009年7月30日木曜日

Page 37: Keyword Trackerで抽出したsplogリストについて

APIを用いたマッシュアップ✓検索結果からsplogと思われる記事を消す/隠す

- greasemonkeyスクリプトで試作予定。- 主なブログ検索サイトを対象にする予定です。- 現在作成中。完成したら公開します。✓他に何かアイデアがあれば教えてください。もしくは何か作ってください。

2009年7月30日木曜日

Page 38: Keyword Trackerで抽出したsplogリストについて

greasemonkey

2009年7月30日木曜日

Page 39: Keyword Trackerで抽出したsplogリストについて

splog判定の精度向上✓引き続きがんばります

2009年7月30日木曜日

Page 40: Keyword Trackerで抽出したsplogリストについて

ご清聴ありがとうございました。

2009年7月30日木曜日