10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
Post on 05-Jul-2018
216 Views
Preview:
Transcript
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
1/23
Clustering Dokumen (K-Means)
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
2/23
Table Of Contents
1. Konsep Dasar Clustering2. Tahapan Clustering3. K-Means Clustering
Algoritma K-MeansRumus Umum K-Means. Case !tu"#
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
3/23
• Klusterisasi Data, atau Data Clustering jugadisebut sebagai analisis klaster, analisissegmentasi, analisis taxonomi, atauunsupervised classification .
• Metode yang digunakan untuk mem$angungrup dari objek-objek, atau klaster-klaster,dimana objek-objek dalam satu kluster tertentu
memiliki kesamaan %iri #ang tinggi dan objek-objek pada kluster #ang $er$e"a memilikikesamaan %iri #ang ren"ah .
Konsep Dasar
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
4/23
• Tujuan dari klasterisasi data adalamengelompokkan "ata yang memilikikesamaan %iri dan memisahkan "ata ke dalamklaster yang berbeda untuk objek-objek yangmemiliki %iri #ang $er$e"a .
• !erbeda dengan klasi&ikasi , yang memilikikelas yang telah "i"e&inisikan sebelumnya.
Dalam klasterisasi , klaster akan ter$entuksen"iri berdasarkan "iri objek yang dimiliki dankriteria pengelompokan yang tela ditentukan.
Konsep Dasar
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
5/23
#. $eature %ele"tion & 'enentuan informasi fitur yang digunakan.(. 'roximity Measure
& Ta ap kuantifikasi item kemiripan data.
). Clustering Criterion & 'enentuan fungsi pembobotan * tipe aturan.
+. Clustering lgorit m & Metode klaster berdasarkan ukuran kemiripan data dan kriteria
klasterisasi.
. alidation of t e /esult0. 1nterpretation of t e /esult
Ta apan Klasterisasi
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
6/23
'roximity Measure
• Koefisien kemiripan menunjukkan kekuatanubungan antara dua data.
• %emakin banyak kemiripan titik data satu samalain, maka semakin besar koefisien kesamaan.
• Misalkan x 2 3x # , x ( , ..., x d 4 dan y 2 3y # , y ( , ..., y d 4adala dua titik data pada d dimensi. Maka nilaikoefisien kemiripan antara x dan y adala
beberapa nilai atribut fungsi s3x,y4 2 s3x # , x ( , ..., x d ,y# , y ( , ..., y d 4.
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
7/23
'roximity Measure• 'emili an jarak pada "lustering adala sangat penting, dan pili an yang
terbaik sering diperole melalui pengalaman, kemampuan, pengeta uan.• 'engukuran 5arak Data 6
& 7umerik dengan banyak fitur atau dimensi 3d4 6- 8u"lidean Distan"e 6 - Minko9ski Distan"e 6
- Man attan Distan"e 6 - Ma alanobis Distan"e 6
- Maximum Distan"e 6 - :erage Distan"e 6
& Kategorikal 6- %imple Mat" ing Distan"e
( ) 2
1
1
2),(
−= ∑=
d
j j jeuclid y x y xd
∑=
−=d
j j jman y x y xd
1
),(
j jd j y x y xd −=
= ..1max max),(
1,),(
1
1minkow ≥−= ∑=r y x y xd
r d
j
r
j j
( ) ( )∑ −−= − T mah y x y x y xd 1),(
( ) 21
1
21),(
−= ∑
=
d
j j jave y xd
y xd
≠==
y xif
y xif y x
1
0),(δ ( )∑
=
=d
j
j j sim y x y xd 1
,),( δ
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
8/23
'roximity Measure• 5ika x # 23#,(4 dan x ( 23(,)4. ;itungla 5arak x # dan x ( dengan 8u"lidean<
• 5ika ;itungla 5arak x # dan x ( dengan Ma alanobis<
37ote 6 Ma alanobis biasanya digunakan untuk meng itung jarak antar "luster4
& ;itung Mean Core"ted Matrix
& ;itung Matrik Co:arian 3C i4
( ) ( ) ( )[ ] ( ) ( )[ ] [ ] 4.122113221),( 2121
2221
2221
1
22121 ===+=−+−=−= ∑
=
d
j j jeuclid x x x xd
( )0i x
=32
43
21
1 x = 1755
2 x
[ ]323
342
3
2311
= ++++= x µ [ ]362
15
2
752
= ++= x µ
−−=
−−−−−−
=
00
11
11
3322
3423
32210
1 x −−=−−
−−=21
21316735650
2 x
== −−
−−
==7.07.0
7.07.0
22
22
31
00
11
11
011
011
311 0
10
11
1 x xnC
T
−−
=−
−=
−−
−−
==42
21
84
42
21
21
21
22
11
211 0
202
2
2 x xnC
T
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
9/23
'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<
& ;itung Matrik Co:arian 3C i4
=324321
1 x =17
552 x
== −−
−−
==7.07.0
7.07.0
22
22
31
00
11
11
011
011
311 0
10
11
1 x xnC
T
−
−=
−
−=
−
−
−
−==
42
21
84
42
2
1
21
21
22
11
2
11 02
02
22 x x
nC
T
−−
=−
−+=
−−
+==+
== ∑∑∑∑===
24.0
4.08.0
6.18.0
8.04.0
4.04.0
4.04.0
42
21
52
7.07.0
7.07.0
53
5111 2
1
2
1211 iii
iii
n
iii C nC nnn
C nn
group
( )( ) ( )
==−−−
=ΣΣ
=∑ −6.03.0
3.04.1
8.04.0
4.02
44.11
8.04.0
4.02
4.0*4.02*8.0111 Adj
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
10/23
'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<
& ;itung Mean Different 3= #,= ( 4 6
( ) ( ) [ ]
[ ] 7.42.220
41.16.5
0
4
6.03.0
3.04.1
04,,),( 211
2121
==−−−=
−−=∆∆= ∑
− T mah x x x x x xd
=324321
1 x =17
552 x
( )( ) ( )
==−−−
=ΣΣ
=∑ −6.03.0
3.04.1
8.04.0
4.02
44.11
8.04.0
4.02
4.0*4.02*8.0111 Adj
( ) [ ] [ ]043362, 21 −=−−=∆ x x[ ]
362
15
2
75
2
= ++= x µ [ ]323
342
3
2311 =
++++
= x µ
( ) ( )∑ −−= − T mah x x x x x xd 2112121 ),(
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
11/23
Clustering lgorit m
Clustering lgorit m
%e>uential ;ierar" i"al
gglomerati:e 3bottom-up4
Di:isi:e 3top-do9n4
Combinations
;ard Clustering
$u??y Clustering
'ossibilisti" Clustering
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
12/23
Klasterisasi K-Means• K-Means merupakan sala satu metode pengelompokan data non irarki yang
digunakan untuk mempartisi 7 objek data ke dalam K kelompok.• lgoritma K-Means 3Ma"@ueen, #A0B4 6
#. Tentukan jumla "luster, lalu alokasikan data ke dalam "luster se"ara a"ak.(. ;itung pusat "luster 3C4 dari data yang ada di masing-masing "luster.
). ;itung jarak 3D4 semua data ter adap masing-masing "luster, lalu alokasikan masing-masing data ke "entroid terdekat 3a4.
+. Kembali ke langka ), jika masi ada data yang berpinda "luster atau ada peruba annilai "entroid, misal dengan batasan iterasi max atau dengan obje"ti:e fun"tion.
atau
∑==
m
j ji xmC 1
1
==
lainnya
C x Dd a i j ji
,0
)),(min(,1
'ote 6 m menyatakan jumla data padasuatu kelompok, dan i menyatakan fiturke-i dalam sebua kelompok.
∑∑= =
=datan
j
k
i
i j ji C x Da F 1 1
),( ( ) ( )∑∑∑∑
= == =
=−=
k
j
n
i j
ji
k
j
n
i j
ji
datadata
C x DC x J 1 1
2
1 1
),(
( ) 2
1
1
2dim
),( −=
∑=n
j j jeuclid y x y x D
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
13/23
Conto %tudi Kasus• 'er atikan dataset berikut 6
• !entuk isualisasi data 6
Data itur itur # Kelompok 1 Kelompok 2 Kelompok 3# # #( + # ) 0 # + # (
( ) 0 ) B (
) A ( 0
#E )
1nisialisasi 6K 2 ),1terasiMax 2 (,$ungsi Objektif 3$ 1nit4 2 E,T res old 3T4 2 E. .
Tentukan ;asil k irClusteringnya <
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
14/23
Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6
• ;asil Centroid %etiap Cluster 6
Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2
( ) 2 3
0 ) 5 3B ( 2 5
) 3 5A ( 0 2 6
#E ) 3 8
Total 2 5 3 2 3 21 18 6 14
Kelompok Centroi" itur Centroi" itur #
# Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.
( Total K($x * Total K( 2 (# * 2 +.( Total K($y * Total K( 2 # * 2 ).0
) Total K)$x * Total K) 2 0 * ) 2 ( Total K)$y * Total K) 2 #+ * ) 2 +.000B
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
15/23
Conto %tudi Kasus 3Cont.4• Meng itung 5arak Data Ke Centroid 38u"lidian Distan"e4 6
%e ingga, $ baru 2 #.EEEE F #).#B+0 F ).)))) 2 #B. EBA Delta 2 G $ baru & $ lama G 2 G #B. EBA & E G 2 #B. EBA 3 H T4 , Ianjutkan <
Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aruKelompok
!e$elumn#a# # # 0.5000 4.1231 3.8006 0.5000 1 1( + # 3.0414 2.6077 4.1767 2.6077 2 2) 0 # 5.0249 3.1623 5.4263 3.1623 2 2+ # ( 0.5000 3.5777 2.8480 0.5000 1 1
( ) 1.8028 2.2804 1.6667 1.6667 3 30 ) 4.2720 1.0000 3.4319 1.0000 2 2
B ( 3.6401 2.6077 0.3333 0.3333 3 3) 4.0311 1.8439 1.0541 1.0541 3 2
A ( 0 4.6098 3.2558 1.3333 1.3333 3 3#E ) 6.8007 4.5607 3.4801 3.4801 3 2
Total 1.0000 13.1746 3.3333(Total berdasarkan kelompok
sebelumnya)
( ) ( )( ) ( ) ( ) ( ) ( ) 5.025.05.005.11115.1,1,1,1 22221 ==−+=−+−=== C x D
( ) ( )( ) ( ) ( ) ( ) ( ) 1231.41776.624.106.22.36.312.416.3,2.4,1,1 22222 ==+=−+−=−+−=== C x D
( ) ( )( ) ( ) ( ) ( ) ( ) 8006.36667.314.66671214.6667,2,1,1 22223 =−+=−+−=== C x D
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
16/23
Conto %tudi Kasus 3Cont.4• 1terasi # 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4
Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.1231 3.8006 0.5000 1( + # 3.0414 2.6077 4.1767 2.6077 2) 0 # 5.0249 3.1623 5.4263 3.1623 2+ # ( 0.5000 3.5777 2.8480 0.5000 1
( ) 1.8028 2.2804 1.6667 1.6667 30 ) 4.2720 1.0000 3.4319 1.0000 2B ( 3.6401 2.6077 0.3333 0.3333 3
) 4.0311 1.8439 1.0541 1.0541 3A ( 0 4.6098 3.2558 1.3333 1.3333 3
#E ) 6.8007 4.5607 3.4801 3.4801 3Total 2 3 5 1.0000 13.1746 3.3333
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
17/23
Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6
• ;asil Centroid %etiap Cluster 6
Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2
( ) 2 3
0 ) 5 3B ( 2 5
) 3 5A ( 0 2 6
#E ) 3 8
Total 2 3 5 2 3 15 5 12 27
Kelompok Centroi" itur Centroi" itur #
# Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.
( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B
) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
18/23
Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6
• Meng itung 5arak Data Ke Centroid 6
%e ingga, $ baru 2 #.EEEE F ).B)BE F B.#EA) 2 ##. +0+ Delta 2 G $ baru & $ lama G 2 G ##. +0+ & #B. EBA G 2 .00# 3 H T4 ,
Ianjutkan <
Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aru
Kelompok!e$elumn#a
# # # 0.5000 4.0552 4.6174 0.5000 1 1( + # 3.0414 1.2019 4.6819 1.2019 2 2) 0 # 5.0249 1.2019 5.6851 1.2019 2 2+ # ( 0.5000 4.0139 3.6770 0.5000 1 1
( ) 1.8028 3.2830 2.4331 1.8028 1 30 ) 4.2720 1.3333 3.5384 1.3333 2 2B ( 3.6401 4.4845 0.5657 0.5657 3 3
) 4.0311 3.8873 0.7211 0.7211 3 3
A ( 0 4.6098 5.2705 0.7211 0.7211 3 3#E ) 6.8007 6.6416 2.6683 2.6683 3 3
Total 1.0000 3.7370 7.1093(Total berdasarkan kelompok
sebelumnya)
Kelompok Centroi" itur Centroi" itur #
# Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.
( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B
) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
19/23
Conto %tudi Kasus 3Cont.4• 1terasi ( 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4
Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.0552 4.6174 0.5000 1( + # 3.0414 1.2019 4.6819 1.2019 2) 0 # 5.0249 1.2019 5.6851 1.2019 2+ # ( 0.5000 4.0139 3.6770 0.5000 1
( ) 1.8028 3.2830 2.4331 1.8028 10 ) 4.2720 1.3333 3.5384 1.3333 2B ( 3.6401 4.4845 0.5657 0.5657 3
) 4.0311 3.8873 0.7211 0.7211 3A ( 0 4.6098 5.2705 0.7211 0.7211 3
#E ) 6.8007 6.6416 2.6683 2.6683 3Total 2 3 5 1.0000 3.7370 7.1093
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
20/23
Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6
• ;asil Centroid %etiap Cluster 6
Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # * 1 1( + # * 4 1) 0 # * 6 1+ # ( * 1 2
( ) * 2 30 ) * 5 3B ( * 2 5
) * 3 5A ( 0 * 2 6
#E ) * 3 8
Total 3 3 4 4 6 15 5 10 24
Kelompok Centroi" itur Centroi" itur #
# Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (
( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B
) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
21/23
Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6
• Meng itung 5arak Data Ke Centroid 6
Cek 6 1terasi 2 1terasiMax. %top 1terasi < tau Cek 6 $ baru 2 (. A) F ).B)BE F +.BAB0 2 ##.#()A
Delta 2 G $ baru & $ lama G 2 G ##.#()A & ##. +0+ G 2 E.B((+ 3 J T2E. 4 , %top 1terasi <5ika kondisi stop, maka buat Tabel ;asil k ir Clustering Data dan isualisasinya.
Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok
+aru
Kelompok
!e$elumn#a# # # 1.0541 4.0552 5.2202 1.0541 1 1( + # 2.8480 1.2019 5.2202 1.2019 2 2) 0 # 4.7726 1.2019 6.1033 1.2019 2 2+ # ( 0.3333 4.0139 4.2720 0.3333 1 1
( ) 1.2019 3.2830 3.0414 1.2019 1 10 ) 3.8006 1.3333 3.9051 1.3333 2 2B ( 3.0732 4.4845 1.1180 1.1180 3 3
) 3.4319 3.8873 1.1180 1.1180 3 3
A ( 0 4.0552 5.2705 0.5000 0.5000 3 3#E ) 6.2272 6.6416 2.0616 2.0616 3 3
Total 2.5893 3.7370 4.7976(Total berdasarkan kelompok
sebelumnya)
Kelompok Centroi" itur Centroi" itur #
# Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (
( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B
) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
22/23
Conto %tudi Kasus 3Cont.4• ;asil k ir Clustering Data 6
• isualisasi ;asil k ir Clustering 6
Data # Kelompok +aru# # # 1( + # 2) 0 # 2+ # ( 1
( ) 10 ) 2B ( 3
) 3A ( 0 3
#E ) 3
8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08
23/23
!elesai
top related