Top Banner
デデデデデデデデデデデデ デデデデデデデデデデ デデデデデデデデデデデデ デデデデデ デデ デデ
25

データマイニングにおける クラスタリングの研究

Jan 03, 2016

Download

Documents

simon-bowman

データマイニングにおける クラスタリングの研究. 東北大学工学部情報工学科 徳山研究室 4年  鈴木 晶子. 研究の背景 ― データマイニング ―. データマイニング 巨大なデータベースから知識を抽出する技術 データマイニング技術の1つ⇒ クラスタリング. 膨大な量のデータから …. 役に立つ知識を発見 !!. クラスタリング. 入力されたデータを 「クラスタ」 に分割すること クラスタ データの部分集合 類似したパターンを持つデータのみが含まれる. 本研究で扱うクラスタリング. 数値属性をもつデータに対するクラスタリング d 個の属性をもつデータ - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: データマイニングにおける クラスタリングの研究

データマイニングにおけるクラスタリングの研究

東北大学工学部情報工学科徳山研究室 4年  鈴木 晶子

Page 2: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 2

データマイニング– 巨大なデータベースから知識を抽出する技術

データマイニング技術の1つ⇒クラスタリング

研究の背景―データマイニング―

膨大な量のデータから… 役に立つ知識を発見 !!

Page 3: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 3

クラスタリング 入力されたデータを「クラスタ」に分割す

ること クラスタ

– データの部分集合– 類似したパターンを持つデータのみが含まれ

1x

2x 2x

1x

1Cクラスタ

2Cクラスタ

Page 4: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 4

本研究で扱うクラスタリング 数値属性をもつデータに対するクラスタ

リング d 個の属性をもつデータ ⇒d 次元空間に存在する点

商品 価格 売れた数A 120 1200

B 980 750

C 4500 100

D 380 1500

E 2000 450

F 650 1000

G 1350 800価格

売れた数

A

B

C

D

E

F

G

表 . ある商店の売り上げ

Page 5: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 5

本研究の目的大規模データを扱う2つのクラスタリングアルゴリズムを取り上げる– BIRCH [Zhang et al. 1996]

全ての要素によって特徴づけられたクラスタを作る

– DOC [Procopiuc et al. 2002]一部の要素のみによって特徴づけられたクラスタを作る

実験を行い、各手法の特徴を明らかにする

Page 6: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 6

発表の流れ BIRCH の紹介

– Clustering Feature(CF) と CF 木– アルゴリズム

DOC の紹介– 最適なクラスタの定義– アルゴリズム

実験 まとめ

Page 7: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 7

BIRCH [Zhang et al. 1996] “Clustering Feature” という概念を用いて 階層木構造を作る

データの集合A

データの集合B

全てのデータ

集合A B∪

Page 8: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 8

Clustering Feature (CF) クラスタに含まれるデータの情報を要約した

もの d 次元データ( d 次元実ベクトル) :

N 個のデータからなるクラスタ :

クラスタの CF ベクトル

– N : クラスタに含まれるデータの数– : N 個のデータの線形和– SS : N 個のデータの二乗和

NiX i ,,2,1},{

CF ),,( SSLSN

LS )(1

N

i iX

)(1

2

N

i iX

),,,( 21 di xxxX

Page 9: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 9

CF 木 各ノードが“エントリー” を持った平衡

木 エントリー : CF ベクトルによって表され

る 各ノードのエントリー数には上限がある

A B

A B∪

A B

[CFA][CFB]

[CFX][CFY]

[CFA +

CFB]

[CFX +

CFY]

Page 10: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 10

CF 木の構築 CF 木は、初めは 1 つのノードしかない。

葉ノードに 1 つずつデータを挿入していくことにより、動的に木を構築する。

Page 11: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 11

CF 木の構築方法 (1/2)

[CF1][CF2]

data

1. データを挿入する葉ノードを決定する

– “data” とエントリーとの距離に基づき決定される

2. 辿り着いた葉のエントリーに“ data” を挿入する

– 既存のエントリーに挿入できない場合は新しいエントリーを追加

1つのデータ“ data” をCF 木に挿入するまでの過程

[CF1][CF2][CF3]

data

Page 12: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 12

CF 木の構築方法 (2/2)

[CF1][CF2][CF3]

3. ノードの持つエントリーが増えすぎた場合、木のバランシングを行う

[CF4]data

以上の操作をデータがなくなるまで繰り返し、

CF 木を構築[CF5][CF6]

Page 13: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 13

BIRCH アルゴリズム

Phase 1 : CF 木を構築する

Phase 2(optional) : CF 木を縮小する

Phase 3 : 大域的クラスタリング

Phase 4(optional) : クラスタを精錬する

データ

CF 木

クラスタ

Page 14: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 14

DOC [Procopiuc et al. 2002] 射影を用いたクラスタリング

– データを低次元の部分空間に射影– その射影に対してクラスタリングを行う

x3

x2

x1

x3

x2

x1

x3

x2

x1

Page 15: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 15

射影クラスタの定義 幅 w の射影クラスタ :

(C, D)– C : データの集合– D : 座標軸の集合

集合 C : クラスタに含まれるデータの集合

集合 D : クラスタの幅が wに制限される座標軸の集合

x3

x2

x1ww

: 集合 C の要素21, xx : 集合 D の要素

Page 16: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 16

最適な射影クラスタの定義 射影クラスタの良さ :

– |C| が大きいほど  も大きい (⇒クラスタに含まれるデータ数が多いほど良いク

ラスタ)

– |D| が大きいほど  も大きい  (⇒幅を制限する座標軸の数が多いほど良いクラス

タ) “ 最適なクラスタ”

– 幅 w をもつ射影クラスタのうち、良さ  が最大となるもの

),( DC

しかし最適なクラスタを求めることは NP 困難⇒ ランダムアルゴリズムを用いて近似的に求める

Page 17: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 17

2x

1x

DOC アルゴリズム1. データの中からランダムに1点

p を選ぶ2. さらにデータの中からランダム

に数点選び、集合 X とする3. 点 p と点 q∈X の射影について距

離を測り、クラスタの形を決める

4. 全データをスキャンし、クラスタの中に入る点を求める

5. 2 ~ 4 の操作を繰り返す6. 点 p を選びなおして、さらに 2 ~ 4 の操作を繰り返す7. 最後に、クラスタの“良さ”が最大となるものを1つ出力する

2x

1x

2x

1x

クラスタの

中心 p

12x

1x

2q1∈X

q2∈X

q3∈X

p

2x

1x

3

p ww

x1 軸方向の幅は 2w

2x

1x

3

p

x2 軸方向の幅は∞

2x

1x

3

p ww

2x

1x

4

Page 18: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 18

DOC アルゴリズムの出力 DOC アルゴリズムによって得られるクラスタ

⇒ 幅 2w をもつクラスタ 定理  DOC アルゴリズムは 1/2 より高い確率で、 最適なクラスタよりも“良さ”の値が大きい クラスタを出力する。 最適なクラスタより“良さ”が大きくなる例

– 最適なクラスタ に含まれる 点 p を中心としたクラスタ– 形は最適なクラスタと同じ– 最適なクラスタを全て含む

ww

),( *DC

),( ** DC

x1

x3

x2

p

w

),( ** DC

Page 19: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 19

n : データ数 , d : データの次元数 とすると、

全体の計算時間 : O(ndC+1)

アルゴリズムの計算時間

(ただし、 C は定数)

Page 20: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 20

実験目的

BIRCH, DOCのクラスタリング精度を測定する

方法– 各アルゴリズムにデータセットを入力し、クラスタリングを行う

– FastDOCでは、一度クラスタリングされた点を取り除くことにする

ただし DOCアルゴリズムは時間がかかるため、アルゴリズムを高速化させるヒュ―リスティクスFastDOCを用いた

Page 21: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 21

実験に用いたデータセット 実験 1 : 人工生成データを用いた実験

– データ数 : 100,000

– 次元数 : 10~200

– クラスタ数 : 5

– 20,000 点 / 1クラスタ

実験 2 : 実際のデータを用いた実験– アルファベットの発音に関する音声データ– データ数 : 6,238 ; 属性数 : 617   ;  クラス数 : 26

Page 22: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 22

実験結果(実験1)人工生成データに対する実験結果

50

55

60

65

70

75

80

85

90

95

100

10 25 50 100 150 200データの次元数

精度(%)

BIRCHFastDOC

Page 23: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 23

実験結果(実験2)実際のデータに対する実験結果

– 音声データに対するクラスタリング精度

FastDOCのほうが精度が低い原因–データを射影することにより考慮する属性の数が減り、一部の情報が失われた

–クラスタの幅が 2wか∞かの2つしかないので、データセットを正確に分割できない

BIRCH : 53.6% FastDOC : 30.7%

Page 24: データマイニングにおける クラスタリングの研究

2004/03/03 卒論発表会 24

2 つのクラスタリングアルゴリズム– BIRCH :

– DOC :

クラスタの数が多く、クラスタ1個あたりに含まれるデータの数が少ないデータセットには不向き

今後の課題―アルゴリズムの改良―– パラメータの設定方法の検討– BIRCH と DOC の融合

まとめ

階層構造を用いたボトムアップ的クラスタリング射影を用いたトップダウン的クラスタリング

Page 25: データマイニングにおける クラスタリングの研究

fin.