データマイニングにおけるクラスタリングの研究

データマイニングにおけるクラスタリングの研究

東北大学工学部情報工学科徳山研究室　４年　　鈴木晶子

2004/03/03 卒論発表会 2

データマイニング– 巨大なデータベースから知識を抽出する技術

データマイニング技術の１つ⇒クラスタリング

研究の背景―データマイニング―

膨大な量のデータから… 役に立つ知識を発見 !!

2004/03/03 卒論発表会 3

クラスタリング入力されたデータを「クラスタ」に分割す

ることクラスタ

– データの部分集合– 類似したパターンを持つデータのみが含まれ

る

1x

2x 2x

1x

1Cクラスタ

2Cクラスタ

2004/03/03 卒論発表会 4

本研究で扱うクラスタリング数値属性をもつデータに対するクラスタ

リング d 個の属性をもつデータ ⇒d 次元空間に存在する点

商品価格売れた数A 120 1200

B 980 750

C 4500 100

D 380 1500

E 2000 450

F 650 1000

G 1350 800価格

売れた数

A

B

C

D

E

F

G

表 . ある商店の売り上げ

2004/03/03 卒論発表会 5

本研究の目的大規模データを扱う２つのクラスタリングアルゴリズムを取り上げる– BIRCH [Zhang et al. 1996]

全ての要素によって特徴づけられたクラスタを作る

– DOC [Procopiuc et al. 2002]一部の要素のみによって特徴づけられたクラスタを作る

実験を行い、各手法の特徴を明らかにする

2004/03/03 卒論発表会 6

発表の流れ BIRCH の紹介

– Clustering Feature(CF) と CF 木– アルゴリズム

DOC の紹介– 最適なクラスタの定義– アルゴリズム

実験まとめ

2004/03/03 卒論発表会 7

BIRCH [Zhang et al. 1996] “Clustering Feature” という概念を用いて階層木構造を作る

データの集合A

データの集合B

全てのデータ

集合A B∪

2004/03/03 卒論発表会 8

Clustering Feature (CF) クラスタに含まれるデータの情報を要約した

もの d 次元データ（ d 次元実ベクトル） :

N 個のデータからなるクラスタ :

クラスタの CF ベクトル

– N : クラスタに含まれるデータの数– : N 個のデータの線形和– SS : N 個のデータの二乗和

NiX i ,,2,1},{

CF ),,( SSLSN

LS )(1

N

i iX

)(1

2

N

i iX

),,,( 21 di xxxX

2004/03/03 卒論発表会 9

CF 木各ノードが“エントリー” を持った平衡

木エントリー : CF ベクトルによって表され

る各ノードのエントリー数には上限がある

A B

A B∪

A B

[CFA][CFB]

[CFX][CFY]

[CFA +

CFB]

[CFX +

CFY]

2004/03/03 卒論発表会 10

CF 木の構築 CF 木は、初めは 1 つのノードしかない。

葉ノードに 1 つずつデータを挿入していくことにより、動的に木を構築する。

2004/03/03 卒論発表会 11

CF 木の構築方法 (1/2)

[CF1][CF2]

data

1. データを挿入する葉ノードを決定する

– “data” とエントリーとの距離に基づき決定される

2. 辿り着いた葉のエントリーに“ data” を挿入する

– 既存のエントリーに挿入できない場合は新しいエントリーを追加

１つのデータ“ data” をCF 木に挿入するまでの過程

[CF1][CF2][CF3]

data

2004/03/03 卒論発表会 12

CF 木の構築方法 (2/2)

[CF1][CF2][CF3]

3. ノードの持つエントリーが増えすぎた場合、木のバランシングを行う

[CF4]data

以上の操作をデータがなくなるまで繰り返し、

CF 木を構築[CF5][CF6]

2004/03/03 卒論発表会 13

BIRCH アルゴリズム

Phase 1 : CF 木を構築する

Phase 2(optional) : CF 木を縮小する

Phase 3 : 大域的クラスタリング

Phase 4(optional) : クラスタを精錬する

データ

CF 木

クラスタ

2004/03/03 卒論発表会 14

DOC [Procopiuc et al. 2002] 射影を用いたクラスタリング

– データを低次元の部分空間に射影– その射影に対してクラスタリングを行う

x3

x2

x1

x3

x2

x1

x3

x2

x1

2004/03/03 卒論発表会 15

射影クラスタの定義幅 w の射影クラスタ：

(C, D)– C : データの集合– D : 座標軸の集合

集合 C : クラスタに含まれるデータの集合

集合 D : クラスタの幅が wに制限される座標軸の集合

x3

x2

x1ww

：　集合 C の要素21, xx ：　集合 D の要素

2004/03/03 卒論発表会 16

最適な射影クラスタの定義射影クラスタの良さ :

– |C| が大きいほど　　も大きい（⇒クラスタに含まれるデータ数が多いほど良いク

ラスタ）

– |D| が大きいほど　　も大きい　（⇒幅を制限する座標軸の数が多いほど良いクラス

タ） “ 最適なクラスタ”

– 幅 w をもつ射影クラスタのうち、良さ　　が最大となるもの

),( DC

しかし最適なクラスタを求めることは NP 困難⇒ ランダムアルゴリズムを用いて近似的に求める

2004/03/03 卒論発表会 17

2x

1x

DOC アルゴリズム1. データの中からランダムに１点

p を選ぶ2. さらにデータの中からランダム

に数点選び、集合 X とする3. 点 p と点 q∈X の射影について距

離を測り、クラスタの形を決める

4. 全データをスキャンし、クラスタの中に入る点を求める

5. 2 ～ 4 の操作を繰り返す6. 点 p を選びなおして、さらに 2 ～ 4 の操作を繰り返す7. 最後に、クラスタの“良さ”が最大となるものを１つ出力する

2x

1x

2x

1x

クラスタの

中心 p

12x

1x

2q1∈X

q2∈X

q3∈X

p

2x

1x

3

p ww

x1 軸方向の幅は 2w

2x

1x

3

p

x2 軸方向の幅は∞

2x

1x

3

p ww

2x

1x

4

2004/03/03 卒論発表会 18

DOC アルゴリズムの出力 DOC アルゴリズムによって得られるクラスタ

⇒ 幅 2w をもつクラスタ定理　 DOC アルゴリズムは 1/2 より高い確率で、最適なクラスタよりも“良さ”の値が大きいクラスタを出力する。最適なクラスタより“良さ”が大きくなる例

– 最適なクラスタに含まれる点 p を中心としたクラスタ– 形は最適なクラスタと同じ– 最適なクラスタを全て含む

ww

),( *DC

),( ** DC

x1

x3

x2

p

w

),( ** DC

2004/03/03 卒論発表会 19

n : データ数 , d : データの次元数　とすると、

全体の計算時間 : O(ndC+1)

アルゴリズムの計算時間

（ただし、 C は定数）

2004/03/03 卒論発表会 20

実験目的

BIRCH, DOCのクラスタリング精度を測定する

方法– 各アルゴリズムにデータセットを入力し、クラスタリングを行う

– FastDOCでは、一度クラスタリングされた点を取り除くことにする

ただし DOCアルゴリズムは時間がかかるため、アルゴリズムを高速化させるヒュ―リスティクスFastDOCを用いた

2004/03/03 卒論発表会 21

実験に用いたデータセット実験 1 : 人工生成データを用いた実験

– データ数 : 100,000

– 次元数 : 10~200

– クラスタ数 : 5

– 20,000 点 / １クラスタ

実験 2 : 実際のデータを用いた実験– アルファベットの発音に関する音声データ– データ数 : 6,238 ; 属性数 : 617 　 ; 　クラス数 : 26

2004/03/03 卒論発表会 22

実験結果（実験１）人工生成データに対する実験結果

50

55

60

65

70

75

80

85

90

95

100

10 25 50 100 150 200データの次元数

精度（％）

BIRCHFastDOC

2004/03/03 卒論発表会 23

実験結果（実験２）実際のデータに対する実験結果

– 音声データに対するクラスタリング精度

FastDOCのほうが精度が低い原因–データを射影することにより考慮する属性の数が減り、一部の情報が失われた

–クラスタの幅が 2wか∞かの２つしかないので、データセットを正確に分割できない

BIRCH : 53.6% FastDOC : 30.7%

2004/03/03 卒論発表会 24

2 つのクラスタリングアルゴリズム– BIRCH :

– DOC :

クラスタの数が多く、クラスタ１個あたりに含まれるデータの数が少ないデータセットには不向き

今後の課題―アルゴリズムの改良―– パラメータの設定方法の検討– BIRCH と DOC の融合

まとめ

階層構造を用いたボトムアップ的クラスタリング射影を用いたトップダウン的クラスタリング

fin.

データマイニングにおける クラスタリングの研究

Documents

データマイニングにおけるクラスタリングの研究