This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
59
§ ¥¦解 説
データマイニング分野のクラスタリング手法(1)— クラスタリングを使ってみよう! —
A Survey of Recent Clustering Methods for Data Mining (part 1)— Try Clustering! —
神嶌 敏弘Toshihiro Kamishima
産業技術総合研究所National Institue of Advanced Industrial Science and Technology (AIST)
る.最短距離法などの階層的手法は対象間の距離が与えられれば利用できる.そこで,ハミング距離や Jaccard係数 [Jain 88]などのカテゴリ属性用の距離を導入すれば,階層的手法を適用できる.一方,k-means法を修正する手法もある.Huangらの k-mode [Huang 98]は,クラスタの代表として,セントロイドの代りにモード,すなわち,各属性についてクラスタ中で最も頻度の高い属性値を選んだ属性ベクトルを用いる.また,代表と対象の距離には単純一致係数(simple matching),すなわち,二つの属性ベクトルで一致しない属性の数を用いる.これらの手法が有効な分野も多くあるが,バスケットデータやWebページの分類では適さない場合もあるため,以下のような研究がある.§ 2 ROCK
GuhaらのROCK(RObust Clustering using linKs)[Guha 99]はリンクという概念を用いた手法である.リンクとは,二つの対象に共通に近隣である対象の数である.ただし,二つの対象が近隣であるとは,類似度(Jaccard係数などで測る)がしきい値以上であることである.二つの対象だけでなく,それらの近隣の影響を考慮することで,少数の例外的な対象の影響を受けにくいことが利点である.リンクの大きな対象を同じクラスタに,小さなものを別のクラスタに分類する目的で次の評価関数を最大化する.
ROCK は計算量が O(N3) と大きいので,この問題に取り組んだ CACTUS(CAtegorical ClusTering Us-ing Summaries)[Ganti 99]をGantiらは提案している.CACTUSは,任意の類似性に基づく近隣関係ではなく,
v
xi1 xi2 xi3
図 6 STIRR におけるデータの表現形式
対象集合中の属性値の共起性に基づいた連結関係を用いる.直観的には,共起性の強い属性値を集めて構成する領域で,対象数が多いものをクラスタとするが,形式的には以下のように定義される.i番目の属性値が ai ∈ Diで,j 番目の属性値がと aj ∈ Dj である対象の数を σ(ai,aj)で表す.属性値がランダムな場合の期待値E[σ(ai,aj)]に対して,σ(ai,aj) > αE[σ(ai,aj)]なら aiと aj は強連結であるという.ただし,α > 1 はパラメータ.この属性値の関係を属性値の集合 Si ⊂ Di と Sj ⊂ Dj に拡張する.すなわち,Si と Sj 中の属性値の任意の対が強連結であるとき Si と Sj は強連結であるという.このときクラスタ S=S1 × ·· · ×Sdは次の 3条件を満たす(1)全ての Siと Sj が強連結(2)全ての Siは極大(3)σ(S)がαE[σ(S)]より大きい.ただし,σ(S)は,属性値ベクトルが S に含まれる対象の数で,E[σ(S)]はランダムな場合の期待値.さらに,強連結な属性についての要約情報があれば,データ全体の情報がなくてもクラスタを抽出できる性質を利用して,記憶容量を削減する.この要約情報には,違う属性の属性値間の強連結性を保持する属性間要約と,同じ属性の属性値について,他の属性との強連結情報の類似性を保持する属性内要約がある.さらに,2次元空間 Di ×Dj 上にあるクラスタを最初に見つけ,次元を一つづつ増やしながら探索することで,効率の良い計算を可能にしている.§ 4 STIRR
GibsonらによるSTIRR(Sieving Through IteratedRelational Reinforcement)[Gibson 98] は属性値の共起関係を基に分類する手法である.通常のクラスタリングと異なり,対象を分類するのではなく,各属性の属性値を二つのクラスタに分割する.図 6は,STIRRにおけるデータの表現形式を示している.四角が属性を表し(xi1,xi2,xi3の 3属性),四角内の円をノードと呼び,それぞれ各属性がとりうる属性値を示す.対象はこれらのノードを結ぶ線で表す.例えば,矢印で示した破線は全ての属性で 2番目の属性値をとる対象を表す.各ノードには,重みが割り当てられており,その重みの符合の正負によって,属性値は分類される.この重みは,適当な初期値から開始して,収束するまで重みを更新する手法で求める.図中のノード vの重みを更新する場合について述べる.ノード v の属性値を含む任意の対象 xτ につ
[Cadez 00] Cadez, I. V., Gaffney, S., and Smyth, P.: A Gen-eral Probabilistic Framework for Clustering Individuals andObjects, in Proc. of The 6th Int’l Conf. on Knowledge Dis-covery and Data Mining, pp. 140–149 (2000)
[Cheeseman 96] Cheeseman, P. and Stutz, J.: BayesianClassification (AutoClass): Theory and Results, inFayyad, U. M., Diatetsky-Shapiro, G., Smyth, P., and Uthu-rusamy, R. eds., Advances in Knowledge Discovery andData Mining, chapter 6, pp. 153–180, AAAI Press/The MIT
Press (1996)[Cutting 92] Cutting, D. R., Karger, D. R., Pedersen, J. O.,
and Tukey, J. W.: Scatter/Gather: A Cluster-based Ap-proach to Browsing Large Document Collections, in Proc.of the 15th Annual ACM SIGIR Conf. on Research and
データマイニング分野のクラスタリング手法(1) 65
Development in Information Retrieval, pp. 318–329 (1992)[Dempster 77] Dempster, A. P., Laird, N. M., and Ru-
bin, D. B.: Maximum Likelihood from Incomplete Data viaThe EM Algorithm, Journal of the Royal Statistical Society(B), Vol. 39, No. 1, pp. 1–38 (1977)
[Dhillon 01] Dhillon, I. S.: Co-clustering documents andwords using Bipartite Spectral Graph Partitioning, in Proc.of The 7th Int’l Conf. on Knowledge Discovery and DataMining, pp. 269–274 (2001)
[Ding 01] Ding, C. H. Q., He, X., Zha, H., Gu, M., and Si-mon, H. D.: A Min-max Cut Algorithm for Graph Par-titioning and Data Clustering, in Proc. of the IEEE Int’lConf. on Data Mining, pp. 107–114 (2001)
[Dubes 79] Dubes, R. and Jain, A. K.: Validity Studies inClustering Methodologies, Pattern Recognition, Vol. 11, pp.235–254 (1979)
[Everitt 93] Everitt, B. S.: Cluster Analysis, Edward Arnold,
third edition (1993)[Fayyad 96] Fayyad, U. M., Piatetsky-Shapiro, G., and
Smyth, P.: From Data Mining to Knowledge Discovery:An Overview, in Fayyad, U. M., Diatetsky-Shapiro, G.,Smyth, P., and Uthurusamy, R. eds., Advances in Knowl-edge Discovery and Data Mining, chapter 1, pp. 1–34, AAAIPress/The MIT Press (1996)
[Fisher 87] Fisher, D. H.: Knowledge Acquisition via Incre-mental Conceptual Clustering, Machine Learning, Vol. 2,pp. 139–172 (1987)
[Fisher 91] Fisher, D. H. and Pazzani, M. J.: Computa-tional Models of Concept Learning, in Fisher, D. H., Paz-zani, M. J., and Langley, P. eds., Concept Formation:Knowledge and Experience in Unsupervised Learning, chap-ter 1, pp. 3–43, Morgan Kaufmann (1991)
[Ganti 99] Ganti, V., Gehrke, J., and Ramakrishnan, R.:CACTUS – Clustering Categorical Data Using Summaries,in Proc. of The 5th Int’l Conf. on Knowledge Discovery andData Mining, pp. 73–83 (1999)
[Gibson 98] Gibson, D., Kleinberg, J., and Raghavan, P.:Clustering Categorical Data: An Approach Based on Dy-namical Systems, in Proc. of the 24th Very Large DatabaseConf., pp. 311–322 (1998)
[Guha 98] Guha, S., Rastogi, R., and Shim, K.: CURE: AnEfficient Clustering Algorithm for Large Databases, in Proc.of the ACM SIGMOD Int’l Conf. on Management of Data,pp. 73–80 (1998)
[Guha 99] Guha, S., Rastogi, R., and Shim, K.: ROCK: ARobust Clustering Algorithm for Categorical Attributes, inProc. of the 15th Int’l Conf. on Data Engineering, pp. 512–521 (1999)
[Hanson 91] Hanson, R., Stutz, J., and Cheeseman, P.:Bayesian Classification with Correlation and Inheritance, inProc. of the 12th Int’l Joint Conf. on Artificial Intelligence,pp. 692–698 (1991)
[He 01] He, X., Ding, C. H. Q., Zha, H., and Simon, H. D.:Automatic Topic Identification Using Webpage Clustering,in Proc. of the IEEE Int’l Conf. on Data Mining, pp. 195–202 (2001)
[Hinneburg 99] Hinneburg, A. and Keim, D. A.: ClusteringMethods for Large Databases: From the Past to the Future,in Proc of the ACM SIGMOD Int’l Conf. on Managementof Data, p. 509 (1999)
[Huang 98] Huang, Z.: Extensions to the k-Means Algorithmfor Clustering Large Data with Categorical Values, Journalof Data Mining and Knowledge Discovery, Vol. 2, pp. 283–304 (1998)
[Jain 88] Jain, A. K. and Dubes, R. C.: Algorithms for Clus-tering Data, Prentice Hall (1988)
[Jain 99] Jain, A. K., Murty, M. N., and Flynn, P. J.: DataClustering: A Review, ACM Computing Surveys, Vol. 31,No. 3 (1999)
[Jain 00] Jain, A. K., Duin, R. P. W., and Mao, J.: Sta-tistical Pattern Recognition: A Review, IEEE Trans. onPattern Analysis and Machine Intelligence, Vol. 22, No. 1,pp. 4–37 (2000)
[Keim 99] Keim, D. A. and Hinneburg, A.: Tutorial 3. Clus-tering Techniques for Large Data Sets — From the Pastto the Future, in Tutorial Notes of The 5th Int’l Conf. onKnowledge Discovery and Data Mining, pp. 141–181 (1999)
[Kohonen 97] Kohonen, T.: Self-Organizing Maps, Springer-Verlag, second edition (1997)
[Meila 01] Meila, M. and Heckerman, D.: An ExperimentalComparison of Model-Based Clustering Methods, MachineLearning, Vol. 42, No. 9-29 (2001)
[Michalski 83] Michalski, R. S. and Stepp, R. E.: Learn-ing from Observataion: Conceptual Clustering, in Michal-ski, R. S., Carbonell, J. G., and Mitchell, T. M. eds., Ma-chine Learning I: An Artificial Intelligence Approach, chap-ter 11, pp. 331–363, Morgan Kaufmann (1983)
[Milligan 85] Milligan, G. W. and Cooper, M. C.: An Ex-amination of Procedures for Determining The Number ofClusters in A Data Set, Psychometrika, Vol. 50, No. 2, pp.159–179 (1985)
[Paliouras 00] Paliouras, G., Papatheodorou, C., andKarkaletsis, V.: Clustering the Users of Large Web Sitesinto Communities, in Proc. of the 17th Int’l Conf. on Ma-chine Learning, pp. 719–726 (2000)