Page 1
再帰的クラスタリングによるテキストデータ集合の可視化マップ
奥田 澄 † 砂山 渡 ††広島市立大学 大学院情報科学研究科 (731-3194広島市安佐南区大塚東 3-4-1)
概要
近年の情報量の増大に伴い,幅広くテキスト情報を
獲得する機会が増えつつある.動的なデータ集合から
効率よく幅広い情報を集めるためには,クラスタリン
グなどのデータ分類の手法が適用されることが多いが,
多くのクラスタリング手法による分類では,情報が一
つのクラスタに集中する傾向がある.そこで本研究で
は,クラスタリング手法により分類されたクラスタ内
のテキスト集合を一つのテキストとして統合し,再帰
的にクラスタリングを行うことで,情報の偏りを避け
られる手法を提案する.実験により,提案手法が,情
報の偏りを避けた分類を行えることを確認し,クラス
タリング結果を可視化したマップを用いることで,幅
広い情報の収集に役立てられることを確認した.
1 序論
近年,情報インフラの整備が行われており,我々が手
に入れられる情報の量は爆発的に増大している.これ
らの情報から隠された意味を見いだすためのデータマ
イニングの研究が盛んに行われている.例えば大量の
インターネット上の webページから必要に応じたページを探したり,どのような情報が有るか把握していな
いデータ集合から,幅広い情報を取得する需要が高まっ
ている.そのためには,データを分類して可視化する
ことで人間が意味を理解しやすい環境を構築する事が
不可欠と考えられ,大規模なデータに対して表示画面
上の情報量を積極的に制御する可視化手法 [1]など,多くの研究が活発に行われている.
本研究では,テキスト集合を再帰的なクラスタリン
グにより分類し,直感的理解が可能な地図形式のイン
タフェース上に表示する事で,データの視認性を高め,
幅広いデータにアクセスできる環境の構築を目指す.
2 関連研究
2.1 テキストマイニングに関する研究
テキストマイニングを用いて診療放射線業務のヒュー
マンエラーの状況や原因について分析する研究 [4]がある.アンケートで得られたエラー内容記述を形態素
解析してクラスタ分析を行い,一般的に関係の強い単
語情報を抜き出し,エラー発生の過程や原因を質的に
把握する研究である.テキストデータを対象としてい
て,クラスタ分析を行う点では共通しているが,関係
の強い単語のみを提示しており,新しい単語間の関係
性を探すことは難しい.本研究では,地図形式で示さ
れたテキスト群から幅広い情報の収集を支援する.
2.2 クラスタリングに関する研究
既存のクラスタリング手法 [2, 3]は,データの分類が階層的に行われる階層型手法と,特定のクラスタ数
に分類する非階層型手法とに分けられる.本研究で提
案するクラスタリング手法は階層型クラスタリング手
法となる.これらのクラスタリング手法では,最初に
計算したデータ間の関係値を使用してクラスタリング
を行う.本研究では複数回のクラスタリングを行うこ
とを前提に,クラスタリング結果における各クラスタ
に含まれる全データを,1つのデータと見なして,そ
の新たなデータ間の関係値を再度計算する.
2.3 情報の視覚化に関する研究
二部グラフ構造をもつデータ集合に階層的クラスタ
リングを施した上で可視化し,データ間の関係把握を
支援する研究 [5]がある.クラスタを単一データとして可視化し,表示階層をスライドバーで変更することで
動的に表示情報を変更する.クラスタを等高線のよう
に表現しており,この点では本研究と共通するが,関
係を示すリンクが多く可読性が下がってしまう.本研
究では,クラスタを拡大して詳細情報を確認する事で,
情報の関係性をより直感的に理解する支援を行う.
多次元データを三次元の図形として可視化し,その
三次元の情報を基にクラスタ分析を行う研究 [6]がある.球面に写像されたデータ群をクラスタリングする
ことで球状に関係性のグラフ作成する研究で,多次元
データという構造的なデータ集合のクラスタリングを
行っている.本研究ではテキストデータのような非構
造的なデータ集合のクラスタリングとその結果の表示
を行う.
3 システムの構成
システム全体の構成を図 1に示す.システムはテキスト集合を入力とする.入力されたテキスト集合に対
1
Page 2
図 1: 地図生成のアルゴリズム
し再帰的クラスタリングを行い,その結果を地図状に
可視化する.
3.1 入力:テキスト集合
少なくとも1つ以上の名詞が含まれているテキスト
の集合を入力とする.現在,計算処理の工夫などを十
分に行っていないため,与えられるテキスト数は 1000未満としているが,視認性などを考慮して,今後 10000程度までのテキストを扱えるようにする見込みとなっ
ている.
3.2 再帰的クラスタリング
再帰的クラスタリングは,テキスト間の関係値の算
出とリンクの生成,クラスタリング,クラスタ内テキ
ストデータの統合の3ステップを繰り返す事で行う.
3.2.1 テキスト間の関係値の算出とリンクの生成
テキスト間の関係値は,式 (1)で表される cos類似度によって与える.
relation(a, b) =Num(a ∪ b)
√Num(a) × Num(b)
(1)
Num(a) :テキスト aが含む単語 (名詞)数入力されたテキスト集合内の,各テキスト間の関係
値を求め,しきい値 K以上の関係値をもつテキスト間
にリンクを生成する.しきい値 Kの設定方法によって,
再帰的クラスタリングにおけるクラスタリングの回数
が異なってくるが,現在は経験的に適度な階層化が行
える値として,テキストデータ数の半分を超えない数
のリンクが生成される,最大の値としている.
3.2.2 クラスタリング
クラスタリングには,既存のNewman[7]アルゴリズムを用いる.以下にアルゴリズムを示す.
1) 全てのテキストを一つのクラスタとして定義
2) 評価値 Qの増減 ∆Qが最大になるテキストを結合
3) 2)を繰り返し,Qが最大になれば終了
Q =∑
l
(ell − al2) (2)
∆Q = elm + eml − 2alam = 2(elm − alam) (3)
評価値 Qは式 (2),評価値 Qの増減 ∆Qは式 (3)で定義される.ただし,elmはクラスタ lに属するテキス
トとクラスタ mに属するテキストの間のリンク数の合
計,al はクラスタ lに属するテキストへのリンク数の
合計∑
m alm を表す.
この手法は,クラスタ内部のリンク数がより多く,ク
ラスタ間のリンク数が少なくなるようにクラスタを生
成する.
3.2.3 クラスタ内テキストデータの統合
各クラスタに属するテキストの集合を一つのテキス
トとして統合する.具体的には,全テキストを連結し
て 1つのテキストを生成する.
3.2.4 再帰的クラスタリングとその効果
再帰的クラスタリングの過程において,テキストデー
タの統合が繰り返されるため,徐々にテキストデータ
の総数が減少し,最終的に1つのテキストに全テキス
トが統合されるか,1.00から 0.01ずつ下げていくしきい値が 0.01になった時点で,再帰処理を終了する.従来のクラスタリング手法の多くは,特に関連する
テキスト集合をクラスタリングする際において,一つ
の大きなクラスタを形成しやすく,テキスト集合を見
やすく分類することができない.そこで本手法では,一
つの大きなクラスタを形成しそうな場合などにおいて,
そのクラスタの重みを相対的に下げる目的で,テキス
トの統合を行っている.そのため,一つの大きなクラス
タを形成しにくくなると考えられる反面,必ずしも正
確な分類を行えなくなるリスクも生じると考えている.
3.3 地図の生成
本節では,クラスタリング結果を地図状に描画する
方法について述べる.
地図の描画方法は,既存手法の地図型アニメーショ
ンインタフェース [8]を利用して行う.地図の構成要素
2
Page 3
表 1: 地図型インタフェースの構成要素
名前 画像 説明
島海に囲まれた緑の領域全体
一番大きなテキスト集合
エリア島の内部の枠線で囲まれた領域全体
リンクで繋がれたテキスト集合
町 一つのテキスト
道路町やエリア間を繋ぐ線
町やエリア間が閾値以上の関係値を持つ
鉄道町やエリア間を繋ぐ点線
町やエリア間の関係値が 0.97以上となる
図 2: 逆さにしたデンドログラムと島,エリアの関係
を,表 1に示す.表 1の「エリア」以外は既存手法で用いられていたもので,「エリア」はクラスタリング結果
の階層化に際して,クラスタを表す「島」を重ねて表
示する必要があるため,クラスタ内のクラスタを「エ
リア」として新たに定義する.
再帰的でないクラスタリングの結果は,クラスタを
「島」,クラスタ内のテキストデータ間のリンクを「道
路」「線路」として表現し,テキストデータを「町」と
して表現する.
再帰的クラスタリングによって,テキストデータが
統合されていく様子は,他のクラスタリング手法を表
現する際にも用いられる,いわゆるトーナメントのよ
うなデンドログラムによって表すことができる.本研
究では,このデンドログラムを図 2のように逆さまに表現した上で,各段階におけるクラスタを,「島」また
は「エリア」として重ねて表現する.
インタフェースの概観を図 3に示す.画面上部に4つの「島」が表示され,各島内の白い線で囲まれてい
る領域が「エリア」が重ねて表示されている.
図 3: インタフェースの概観
3.4 インタフェース上の操作と使用例
図 3のように表されるインタフェースは,「メインの地図」「サブの地図」「町名ボタン」の三つから構成さ
れ,それぞれ,大局視,局所視,視認性向上のための
ボタンを表す.
ユーザは主に「メインの地図」を操作する事で情報
の探索を行う.地図上で行える操作は,「拡大」「縮小」
「平行移動」「ダブルクリック」で,「拡大」「縮小」「平行
移動」などの操作は,マウスで既存のWebサービスにおける地図と同様の操作によって行う事が可能となっ
ている.
たとえば,大学の近くで昼食をとる店舗の候補を列
挙したいユーザを仮定する.そのユーザは大学の近辺
の飲食店情報のテキストデータを入力として与え,そ
の地図を作成し表示する(図 4左上).JR線に近い店舗に着目したい場合は,「JR」と名前のついた島をマウスホイールで地図を拡大,平行移動しながら島のズーム
アップを行う(図 4中上).島を眺めると,その中の1つの「ハンバーガー」というにエリアに着目し,またそ
のエリアの拡大を行う(図 4右上).さらに,「ショップ」と名前がついたエリアを拡大し(図 4中下),そこから1つの町に着目してダブルクリックを行うと,その情
報元のテキストデータにアクセスできる(図 4左下).提案する再帰的クラスタリングによって,情報がひ
とつの島やエリアに偏らずに表示されるため,幅広い
情報にアクセスしやすくなっていると考えられる.
4 再帰的クラスタリングによる各クラスタへのテキストの密集度の調査
本章では,再帰的クラスタリングがどの程度,テキ
スト集合を偏らせずにクラスタリングを行うことがで
きたかを調査した結果について述べる.
3
Page 4
図 4: 基本操作例
4.1 調査方法
表 2に示すテキスト集合 (いずれもWebサイトから収集)に対してクラスタリングを行い,提案手法と最短距離法による結果を比較した.なお最短距離法は,二
つのクラスタに属するテキスト集合のうち,最も強い
関係値をクラスタ間の関係値としてクラスタリングを
行っていく.
クラスタ内のテキストの密集度 densityを,式 (4)によって定義する.ただし node(i)は,クラスタ iに含ま
れるテキストデータ数を表す.データの総数とクラス
タ数が同じ場合,データが均等に分かれているほど,密
集度 densityの値は大きくなる.今回データの総数は,
提案手法と比較手法で同一となるため,データが偏ら
ずに分かれているほど,大きな値を取る.
density =∏
i
node(i) (4)
4.2 調査結果
図 5から図 6に片対数の実験結果の表を示す.表中の縦軸は密集度 densityの対数を,横軸はクラスタリン
グの際のリンクを生成するための関係値のしきい値を
表す.
図 5から図 6および,その他のテキストに対する結果から共通して言える事は,グラフ中の最大値はいず
れも提案手法が非常に大きくなり,提案する再帰的ク
ラスタリングが,データを分散する効果があったこと
表 2: テキストの密集度調査に用いたテキスト
No テーマ テキストの種類 情報数
1 飲み会 飲食店の店舗情報 961
2 車 国内車の情報 1021
3 世界の料理 世界の料理の情報 256
4 ゲームソフト ゲームソフトのレビュー 502
5 怖い話 怖い話 495
6 企業研究 パナソニック商品情報 626
が確認できた.また共通して,グラフの左側では提案
手法の方が大きな値をとった.これは,情報を探す際
の最初の大項目(島)がしっかりと分かれることを意
味しており,幅広い情報の探索に役立てられると考え
られる.
5 クラスタリング結果の有用性の評価実験
本章では,地図形式インタフェースにおけるクラス
タリング結果の違いと,ユーザが幅広い情報の収集の
実現可能生との関係を評価した実験について述べる.
実験は,情報科学を専攻する大学生,大学院生計 18名に,表 2の 6つのテキスト集合を用いて 6つの情報収集課題を行ってもらった.各課題は 10分間で行ってもらい,例えば「企業研究」では,「あなたは,企業の
将来性を評価するために,企業の商品情報を調べるこ
4
Page 5
図 5: 「車」のテキスト集合のまとまり具合調査結果
図 6:「企業研究」のテキスト集合のまとまり具合調査結果
とにしました.企業のウリとなっていると思われる商
品を列挙してください.」のように,複数の情報を収集
することが必要な課題を設定した.
比較手法として,地図形式による描画インタフェー
スは共通として,クラスタリング手法に最短距離法を
利用したインタフェースを用いた.被験者には提案手
法と比較手法それぞれを 3回ずつもちいて,3つずつ課題を行ってもらった.使用順序や課題の割り当ては,
被験者間で偏りがないように設定した.
実験の評価は,どれくらい幅広くテキストを収集で
きたかをもとに行う.比較手法の最短距離法によるデ
ンドログラムを用いて,収集したテキストがデンドロ
グラム上で交わる階層 (末端のデータがある位置を 0として,データが交わってクラスタが生成されるしきい
値ごとに 1ずつ加える)の値の平均を求め,それを収集したテキストの分散度として定義して評価を行った.
すなわち,収集したデータを統合する概念が上位であ
るほど,階層値,ならびに分散度が大きくなる.
図 7: 積極的に情報収集をした被験者の平均分散度
図 8: 情報収集に消極的だった被験者の平均分散度
5.1 実験結果
図 7に積極的に情報を収集 (各テーマごとに平均収集数より多い)した被験者の分散度の各課題ごとの平均値を,図 8に情報収集に積極的でなかった (各テーマごとに平均収集数より少ない)被験者の分散度の各課題ごとの平均値を示す.
図 7より,情報収集に積極的な被験者の分散度は,全てのテーマに対して提案手法のほうが大きな値を示し
ており,幅い広い情報収集を実現できたことがわかる.
これは,再帰的クラスタリングによりテキスト集合が
複数のクラスタに分散して存在しため,多くの島やエ
リアに目を向ける事ができたためと考えられる.
図 8より,情報収集に積極的でない被験者の分散度に対して,「怖い話」では提案手法でやや大きな値が出
ているものの,他のテーマではあまり差が見られなかっ
た.収集量が少ない場合は,それらが別々のエリアか
ら収集される可能性が高くなるため,あまり差がつか
なかったものと考えられる.すなわち,より多くの情
報を収集する必要がある場合に,提案システムが有効
に働くと考えられる.
また,テーマ「企業研究」において,比較手法と提案
5
Page 6
表 3: 被験者二人が「企業研究」で収集した情報
提案手法(分散度:2.6) 比較手法(分散度:1.8)
C3シリーズ液晶テレビビエラ ビエラにリンク!液晶テレビビエラ
デジタルカメラ DMC-ZX3 X3シリーズ(液晶)ビエラ
冷蔵庫 DMC-TZルミックス
ジャーポット DMC-FZ100ルミックス
ジャー炊飯器 ルミックス Gシリーズムービー一眼
洗濯機 ミニコンポ
ファックス商品ラインアップ レンジ
マッサージチェア/ フィットネス JOBAフットマッサージャー
乾電池 空気清浄機
手法で同数 (8つ)の情報を収集した二人の被験者が,実際に集めた情報 (Webページのタイトル)を表 3に示す.提案手法を使用した被験者は,収集した全ての商品
情報が違う系列の商品を示している.一方,比較手法
を使用した被験者が収集した情報は「ビエラ」に関す
る商品が 2つ,「ルミックス」に関する商品が 3つと,収集した情報に偏りが見られた.これは比較手法にお
いては,情報があまり分散できていなかったためと考
えられる.
表 4: 使いやすさと見やすさに関するアンケート結果
5段階評価の平均値提案手法 比較手法
見やすさ 4.4 4.7
使いやすさ 3.3 2.7
最後に,地図表示に関するアンケート結果を表 4に示す.「使いやすさ」は提案,比較とも高い値となって
おり,初めてでも直感的に違和感なく使えたためと考
えられる.しかし,「見やすさ」は提案,比較とも,十
分でなかった.これは,町名やエリアの配置のバラン
スが悪く,お互いが重なり合って見えにくくなる事が
あったためと考えられる.このことから,表示方法に
ついては今後改良を行って行きたいと考えている.
6 結論
本研究では,テキスト集合をクラスタリングし,クラ
スタに含まれるテキスト集合を単一テキストに統合し,
新たなテキスト間の関係値をもとに,再びクラスタリ
ングを行う手法を提案した.また,得られたデンドロ
グラムによるテキスト間の関係を,地図形式で視覚化
することで幅広い情報の取得を支援するインタフェー
スを提案した.
クラスタリングによるテキストデータの密集度調査
により,再帰的クラスタリングが最短距離法よりも,テ
キストが複数クラスタに分散させる効果があることを
確認した.また,評価実験により,提案インタフェー
スが幅広い情報を得る支援を行えることを確認した.
今後の課題として,分散させる効果に対する,分類
の精度の低下の評価や,地図型インタフェースの見や
すさの向上などが挙げられる.
謝辞
本研究の一部は栢森情報科学振興財団の研究助成を
受けて行った.
参考文献
[1] 井上悦子,吉廣卓哉,中川優:大規模クラスタリング結果のグラフによるインタラクティブな可視化
手法,情報学基礎研究会報告,Vol.2006, No.118,pp.21 – 28, 2006
[2] 嶌敏弘:データマイニング分野のクラスタリング手法 (1)クラスタリングを使ってみよう!,人工知能学会誌,Vol.18, No.1, pp.59 – 65, 2003
[3] 神嶌敏弘:データマイニング分野のクラスタリング手法 (2)大規模データへの挑戦と次元の呪いの克服,人工知能学会誌,Vol.18, No.2, pp.170 – 176,2003
[4] 五十嵐博,福士政広,星野修平:テキストマイニングを用いた診療放射線技師のヒューマンエラー
分析,日本保健科学学会誌,Vol.13, No.2, pp.59 –70, 2010
[5] 佐藤修治,三末和男,田中二郎:2部グラフの可読性向上のためのクラスタ構造の動的描画,全国大
会講演論文集,Vol.70, No.1, pp.1.709 – 1.710, 2008
[6] 徳高平蔵,藤村喜久郎,大北正昭:球面 SOMを用いたクラスタ分析,バイオメディカル・ファジィ
システム学会誌,Vol.8, No.1, pp.29 – 39, 2006
[7] M.E.Newman: Fast algorithm for detecting commu-nity structure in networks, Phys.Rev. E 69, 066133,pp. 1 – 5, 2004
[8] 砂山渡,錦戸拓也,西原陽子:地図型アニメーションインタフェースにおけるキーワードの価値変化の
検出,日本知能情報ファジィ学会誌,Vol.21, No.3,pp.304 – 315, 2009
6