トピックモデルでテキストをクラスタリングしてみた

トピックモデルでテキストをクラスタリングしてみた

Oisix ・機械学習勉強会 2017 年 1 月 30 日

今回のゴール

ニュース記事をいい感じにカテゴライズした

い！

どう達成する？

機械学習を使うってことは

ディープラーニングね！

機械学習はディープラーニングだけじゃ

ない

これ！やってみよう！

トピックモデルとは？

ある文章は複数のトピックを持つと仮定そのトピックを抽出するモデル

文書データ

トピック抽出

政治・経済

スポーツ科学・技術国会

内閣GDP

アジア民主主義安全保障不景気民主党

野球サッカーゴール優勝

ボールオリンピック練習怪我

人工知能IoT進化

スマホ通信

ノーベル賞法則

自然現象

イメージ

なんだ！単純そうだ！よゆー ( ＾∀＾ )

じゃなかった・・・・orz

ディリクレ分布・カテゴリ分布・ユニグラムモデル・混合ユニグラムモデル・最尤推定・ベイズ推定・ EMアルゴリズム・変分ベイ

ズ・ギブスサンプリング・ラグランジュの未定乗数

法・特異値分解・潜在意味解析 (LSA) ・潜在ディリク

レ配分法 (LDA)

諦めて勉強します

開発環境

言語： Python 3.5.2 Anaconda 4.2.0 (x86_64)

ライブラリ： gensim 0.13.4

マシン： MacBook Pro　　　　　　プロセッサ： 2.9 GHz Intel Core i5　　　　　　メモリ： 16 GB

ワークフロー

1 ．データ（文書群）を用意する

2 ．文書を単語に分ける ( 形態素解析 )3 ．単語辞書を定義

4 ．文書のベクトル化 (bag of words)5 ． LDA のモデルに投入

1 ．データ（文書群）を用意する

IT 関連・スポーツ記事を 500 ずつ

http://headlines.yahoo.co.jp/rss/list

2 ．文書を単語に分ける ( 形態素解析 )オープンソース形態素解析エンジン MeCab を

使う

辞書がかなり重要！

3 ．単語辞書を定義import gensimdictionary = gensim.corpora.Dictionary(docs)dictionary.filter_extremes(no_below=1, no_above=0.6)

出力形式word_id word frequency

1382 人工知能 6

1383 人間 4

1384 人 8

・・・

データの前処理

単語の出現が１文書以下のときor

単語が 60% 以上の文書に登場したとき

除外

4 ．文書のベクトル化 (bag of words)corpus = [dictionary.doc2bow(doc) for doc in

docs]出力形式

・・・

doc_id word_id frequency

5 1382 5

5 1395 2

5 1402 1

5 1405 3

辞書の単語数次元のベクトルに変換

単語の順序は無視（文脈は加味しない）

5 ． LDA のモデルに投入lda = gensim.models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=10)

結果①各トピックの単語分布

結果②各ドキュメントのトピック分布[(0, 0.0011494875610395532), (1, 0.0011495216687281548), (2, 0.0011496757886118457), (3, 0.0011495369772548966), (4, 0.0011494898792352231), (5, 0.0011495350667500301), (6, 0.0011494309427501576), (7, 0.0011495365332948294), (8, 0.0011494727694675608), (9, 0.98965431281286775)]

topic_0: [(' 機能 ', 0.012867980011525922), (' 情報 ', 0.012866562485143618), (' 参加 ', 0.012864776822333324), (' 組織 ', 0.01286474405616749), (' サービス ', 0.0097301626205478289), (' 提供 ', 0.009729611435667529), (' 日立 ', 0.0097275009231823951), (' 情報共有 ', 0.0097274642885800313), (' サイバー攻撃 ', 0.0097273991777577958), (' コミュニティ ', 0.0097272270792)]

LDA ってなに？

Latent Dirichlet Allocation

潜在的ディリクレ配分法

ちょっとイメージだけ・・

LDA は、文書集合の潜在トピック座標単体上への射影であ

る。

music

game play

LDA の幾何学的解釈 ( ３単語しかない世界 )

play game music

文書 A における単語分布

play game music

文書 Bにおける単語分布単語座標単体

各文書は単語座標単体上の座標

基底ベクトルは単語分布

潜在トピック座標単体文書 d

文書を単語空間 (3次元 )からより低次元のトピック空間 (2次元 )へ射影している

分布に偏りがある

1

2

Topic0 Topic1 Topic2 Topic3 Topic4

孫社長ドル Google 充電 AQUOS PHONE

孫正義売上高ロゴ画面スマホ発言増トップページ Excel ドコモ

孫違法コピー AI クリックスタンダードTwitter プラチナバン

ド検索タブ ARROWS

つぶやきサウンド友達 Word GALAXY S

投資株 ZOTAC iQON IQ

ソフトバンクグループ

騎手 GeForce GTX 表示澤活発宇佐美不審虎の巻坂田

　各トピックの単語分布 (Topic0 〜4)

Topic5 Topic6 Topic7 Topic8 Topic9

投資アプリ格闘技ホームラン監督ダル機能武田長谷部氏

ガッツポーズ技術 K-1 坂本選手筆記体バッテリーニコニコ町会

議チップ試合

井端対応戦国キャッチャーやる浮気搭載 SUPP 川島日本代表

ドーピング容量違法コピー修正 W 杯複利通信プロレス K−1 サッカーXPS 募集プラチナバン

ドZALMAN チーム

　　各トピックの単語分布 (Topic5 〜9)

　　各ドキュメントのトピック分布Topic Number Distribution

0 0.000301217

1 0.000301208

2 0.818409556

3 0.000301233

4 0.010190877

5 0.000301223

6 0.163988078

7 0.000301223

8 0.005604168

9 0.000301214

クラスタリングできた？

もう１ステップ！

Kmeans でクラスタリング

vec_list = []for n in range(len(corpus)): vec_list.append([lda[corpus[n]][i][1] for i in range(10)])result = KMeans(n_clusters=10).fit_predict(vec_list)

・ AI で合併症リスクを予測、 NTT データがスペインで実証実験を開始・ AI 記者がニュース原稿作成、 NTT データが実証実験・“ IoT 熱”は一段落？本命は AI か・ AI 記者が気象ニュース原稿を作成する実証実験 --NTT データが実施・ Alphabet （ Google の親会社）、“その他”部門の営業損失 10 億ドルで利益が予測に届かず・ HTC のハードウェア責任者が Google の「 Daydream 」チームに・グーグル、「 Daydream 」アプリの配信をすべての開発者に開放 etc.

・ 2 年ぶり復帰の鈴木軍が大暴れ　みのるがオカダを圧倒 = 新日本・ IWGP王者ヒロム失態…ドラゴン・リー襲撃も返り討ち = 新日本・【新日本・後楽園】みのる大胆予告！新日の全ベルト強奪・キングス３連敗　Ｂリーグ、地元沖縄で新潟に７４－８２・千葉が川崎を下して初の日本一＝全日本バスケ・大仁田がカシンに王道マットでの電流爆破マッチ提案 etc.

トピックモデルでテキストをクラスタリングしてみた

Data & Analytics