-
BAB 3 EKSPLORASI DATA
Pendahuluan Eksplorasi data dilakukan sebagai langkah awal untuk
mengetahui
karakteristik dari data. Tahapan ini bertujuan untuk menyeleksi
teknik pemrosesan dan analisis data yang sesuai.
Bagian ini membahas tiga topik utama dalam eksplorasi data yaitu
statistika ringkasan, visualisasi, dan On-Line Analytical
Processing (OLAP). Statistika ringkasan. Seperti rataan dan deviasi
standar dari sekumpulan nilai, dan teknik visualisasi, seperti
histogram, dan scatter plot, merupakan metode standar yang banyak
digunakan dalam mengeksplorasi data. OLAP, yang baru-baru ini
dikembangkan, terdiri dari sekumpulan teknik untuk mengeksplorasi
array multidimensi. Fungsi analisis yang berkaitan dengan OLAP
memfokuskan pada berbagai cara untuk membuat tabel data ringkasan
dari array data multidimensi. Teknik ini melibatkan penentuan
agregasi data melalui berbagai dimensi dan berbagai nilai atribut.
Sebagai contoh, teknik OLAP dapat digunakan untuk membuat sebuah
ringkasan yang menjelaskan aktivitas penjualan pada berbagai lokasi
berdasarkan bulan dan katerogi produk.
3.1 Data Set Iris Dalam pembahasan berikutnya data set yang
banyak digunakan adalah
data set Iris yang teresedia dari Universitas California pada
Irvine (UCI) Machine Learning Repository. Data set ini mengandung
informasi dari 150 bunga Iris, sebanyak 50 bunga masing-masing
berasal dari spesies: Setosa, Versicolour, dan Virginica. Setiap
bunga dicirikan oleh 5 atribut, yaitu:
Panjang sepal dalam cm.
Lebar sepal dalam cm.
Panjang petal dalam cm.
Lebar petal dalam cm.
Kelas (Setosa, Versicolour, dan Virginica).
Sepal dari bunga adalah struktur terluar yang menjaga bagian
bunga yang paling mudah rusak seperti petal. Dalam kebanyakan
bunga, sepal berwarna hijau dan hanya petal yang berwarna-warni.
Untuk Iris, sepal juga berwarna-warni.
3.2 Statistika Ringkasan Statsitika ringkasan adalah kuantitas
seperti rataan dan simpangan baku
yang menyatakan berbagai karakteristik dari kumpulan nilai data
berukuran besar dengan sebuah bilangan atau sekumpulan kecil
bilangan.
Modul Kuliah Data Mining 38
-
a. Frekuensi dan Modus Diberikan himpunan nilai kategori yang
tidak terurut, kuantitas yang dapat dihitung untuk menentukan
karakteristik dari data adalah frekuensi. Diberikan atribut
kategori x, nilai-nilai {v1, v2, , vi, , vk} dan himpunan dari m
objek, frekuensi dari nilai vi didefinisikan sebagai:
mviatributnilaidenganobjekbanyaknya)vi(frekuensi = (3.1)
Modus dari atribut kategori adalah nilai yang memiliki frekuensi
tertinggi.
Contoh 3.1:
Diberikan himpunan mahasiswa yang memiliki sebuah atribut kelas,
yang dapat memiliki nilai salah satu dari himpunan {freshman,
sophomore, junior, senior}. Tabel 3.1 menunjukkan banyaknya
mahasiswa untuk setiap nilai dari atribut kelas. Modus dari atribut
kelas adalah freshman, dengan frekuensi 0.33. Tabel 3.1 Ukuran
kelas untuk mahasiswa
Kelas Ukuran Frekuensi freshman 140 0.33 sophomore 160 0.27
junior 130 0.22 senior 170 0.18
Atribut kategori umumnya memiliki sejumlah kecil nilai, sehingga
modus dan frekuensi dari nilai-nilai tersebut dapat menarik dan
berguna. Untuk data Iris dan atribut kelas, ketiga bentuk dari
bunga semuanya memiliki frekuensi yang sama, dengan demikian modus
tidak menarik lagi.
Untuk data kontinu, modus seringkali tidak berguna karena sebuah
nilai mungkin tidak muncul lebih dari satu kali. Meskipun demikian,
dalam banyak kasus, modus dapat memberikan informasi yang penting
tentang sifat dasar nilai atau tentang adanya nilai-nilai yang
hilang. Sebagai contoh, tinggi badan dari 20 orang diukur ke
milimeter terdekat nilainya tidak akan berulang. Tapi jika tinggi
tersebut diukur ke persepuluh dari meter terdekat, maka beberapa
orang dapat memiliki tinggi yang sama. Demikian halnya jika sebuah
nilai digunakan untuk menunjukkan nilai yang hilang, maka
nilai-nilai ini sering kali muncul sebagai modus.
b. Persentil Untuk data yang terurut, persentil dari sebuah data
set sering digunakan. Misalkan diberikan atribut x, x dapat berupa
atribut kontinu atau ordinal, dan misalkan pula sebuah nilai p
diantara 0 sampai dengan 100, persentil ke-p, xp, adalah nilai dari
x sedemikian sehingga p% dari nilai-nilai observasi dari x lebih
kecil dari xp. Sebagai contoh, persentil ke-50 adalah nilai x50%
sedemikian sehingga 50% dari semua nilai-nilai dari x lebih kecil
dari x50%. Tabel 3.2 menunjukkan persentil untuk keempat atribut
kuantitatif dari data set Iris.
Modul Kuliah Data Mining 39
-
Tabel 3.2 Persentil untuk panjang sepal, lebar sepal, panjang
petal, dan lebar petal (dalam cm).
Persentil panjang sepal lebar sepal panjang petal lebar petal 0
4.3 2.0 1.0 0.1
10 4.8 2.5 1.4 0.2 20 5.0 2.7 1.5 0.2 30 5.2 2.8 1.7 0.4 40 5.6
3.0 3.9 1.2 50 5.8 3.0 4.4 1.3 60 6.1 3.1 4.6 1.5 70 6.3 3.2 5.0
1.8 80 6.6 3.4 5.4 1.9 90 6.9 3.6 5.8 2.2
100 7.9 4.4 6.9 2.5
Contoh 3.2:
Persentil x0%, x10%, ... , x90% dari integer dari 1 sampai 10,
beturut-turut adalah 1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5,
9.5, 10.0. Min(x) = x0%, dan max(x) = x100%.
c. Ukuran lokasi: rata-rata dan median Untuk data kontinu,
statistika ringkasan yang banyak digunakan adalah
rataan dan median. Keduanya mengukur lokasi dari himpunan nilai.
Perhatikan sebuah himpunan dari m objek dan sebuah nilai atribut x.
Misalkan {x1, x2, ..., xm} adalah nilai-nilai atribut dari x untuk
objek-objek tersebut. Misalkan nilai-nilai ini adalah tinggi badan
m siswa. Misalkan {x(1), x(2), ..., x(m)} menyatakan nilai-nilai
dari x setelah diurut dalam urutan tidak menurun. Dengan demikian,
x(1) = min(x) dan x(m) = max(x). Maka rataan dan median
didefinisikan sebagai berikut:
=
==m
1iixm
1x)x(rataan (3.2)
=++==
++
r2myaitu,genapadalahmjika),xx(1r2myaitu,ganjiladalahmjikax
)x(median)1r()r(2
1),1r(
(3.3)
Median adalah nilai tengah jika jumlah nilai adalah ganjil dan
rata-rata dari dua nilai tengah jika jumlah nilai adalah genap.
Untuk tujuh nilai, median adalah x(4), sedangkan untuk sepuluh
nilai, median adalah )xx( )6()5(2
1 + . Walaupun rataan sering diinterpretasikan sebagai nilai
tengah dari
sekumpulan nilai, interpretasi ini adalah benar jika nilai
terdistribusi secara simetris. Jika distribusi nilai adalah tidak
simetris, maka median adalah indikator yang lebih baik. Di samping
itu, rataan bersifat sensitif terhadap adanya outlier. Untuk data
yang mengandung outlier, median merupakan dugaan yang baik untuk
nilai tengah dari sekumpulan nilai.
Modul Kuliah Data Mining 40
-
Untuk mengatasi masalah yang muncul dari definisi rataan, notasi
trimmed mean sering digunakan. Ditentukan persentase p di antara 0
sampai dengan 100, sebagai (p/2)% dari data bagian atas dan bagian
bawah dibuang, dan selanjutnya rataan dihitung dengan cara yang
sama menggunakan persamaan (3.2). Median adalah trimmed mean dengan
p = 100%, sedangkan pada rataan biaya nilai p = 0%.
Contoh 3.3:
Perhatikan himpunan nilai {1, 2, 3, 4, 5, 90}. Rataan dari
nilai-nilai ini adalah 17.5, sedangkan mediannya adalah 3.5. Nilai
trimmed mean dengan p = 40% adalah 3.5.
Contoh 3.4:
Nilai rataan, median dan trimmed mean (p = 20%) dari keempat
atribut kuantitatif dari data set Iris diberikan dalam Tabel 3.3.
Ketiga ukuran lokasi tersebut memiliki nilai yang mirip, kecuali
untuk atribut panjang petal.
Tabel 3.3 Nilai rataan dan median untuk panjang sepal, lebar
sepal, panjang petal, dan lebar petal (dalam cm)
Ukuran Panjang sepal Lebar sepal
Panjang petal
Lebar petal
Rataan 5.84 3.05 3.76 1.20 Median 5.80 3.00 4.35 1.30
Trimmed mean (20%) 5.79 3.02 3.72 1.12
d. Ukuran Penyebaran: Range dan Variance Statistik ringkasan
lain yang digunakan pada data kontinu adalah ukuran penyebaran dari
sekumpulan nilai. Ukuran demikian menunjukkan jika nilai atribut
menyebar secara luas atau jika nilai-nilai tersebut secara relatif
terkonsentrasi pada sebuah titik seperti rataan.
Ukuran paling sederhana dari penyebaran adalah range. Diberikan
sebuah atribut x dengan sekumpulan m nilai {x1, x2, ..., xm}, range
didefinisikan sebagai
range(x) = max(x) min(x) = x(m) x(1) (3.4) Walaupun range
menunjukkan sebaran maksimum, nilai ini dapat menimbulkan kesalahan
jika kebanyakan data terkonsentrasi dalam sebuah pita data yang
sempit, tetapi juga terdapat sejumlah kecil nilai-nilai ekstrim.
Dengan demikian digunakan variance sebagai ukuran penyebaran.
Variance dari nilai atribut x dituliskan dan didefinisikan sebagai
berikut. 2xs
=
==m
1i
2i
2x )xx(1m
1s)x(iancevar (3.5)
Standard deviation, yang merupakan akar kuadrat dari variance,
ditulis sx dan memiliki unit yang sama seperti x.
Nilai rataan dapat menyimpang karena adanya outlier, dan karena
variance dihitung dengan menggunakan rataan, maka variance juga
sensitif terhadap
Modul Kuliah Data Mining 41
-
outlier. Untuk itu seringkali digunakan ukuran sebaran yang
lain, yaitu absolute average deviation (AAD), median absolute
deviation (MAD) dan interquartile range (IQR). Formula untuk
ukuran-ukuran tersebut adalah
AAD(x) = =
m
1ii xxm
1 (3.6)
MAD(x) = ( }xx,...,xx{median m1 ) (3.7) interquartile range(x) =
x75% x25% (3.8)
Tabel 3.4 menunjukkan nilai-nilai ukuran ini untuk data set
Iris.
Tabel 3.4 Nilai Range, Standard Deviation (std), AAD, MAD dan
IQR untuk panjang sepal, lebar sepal, panjang petal, dan lebar
petal (dalam cm)
Ukuran Panjang sepal Lebar sepal
Panjang petal
Lebar petal
Range 3.6 2.4 5.9 2.4 Std 0.8 0.4 1.8 0.8
AAD 0.7 0.3 1.6 0.6 MAD 0.7 0.3 1.2 0.7 IQR 1.3 0.5 3.5 1.5
e. Statistik Ringkasan Multivariate Ukuran lokasi untuk data
yang mengandung beberapa atribut (data
multivariabel) dapat diperoleh dengan menghitung nilai rataan
dan median secara terpisah untuk setiap atribut. Dengan demikian,
untuk data set yang diberikan, rataan dari objek-objek data, x ,
diberikan oleh
x = ( )n1 x,..,x (3.9) dimana ix adalah nilai rataan dari
atribut ke-i, xi.
Untuk data multivariabel, sebaran dari setiap atribut dapat
dihitung secara bebas dari atribut-atribut lain dengan menggunakan
pendekatan yang diberikan pada bagian d. Walaupun demikian, untuk
data dengan variabel kontinu, sebaran dari data umumnya ditentukan
oleh matriks covariance S, yang memiliki entri ke-ij, sij, adalah
covariance dari nilai atribut ke-i dan nilai atribut ke-j. Dengan
demikian, jika xi dan xj berturut-turut adalah atribut ke-i dan
ke-j, maka
sij = covariance(xi, xj) (3.10) Nilai covariance(xi, xj)
diberikan oleh
covariance(xi, xj) = )xx()xx(1m1
jkjm
1kiki = (3.11)
dimana nilai dan adalah nilai-nilai dari atribut ke-i dan ke-j
untuk objek ke-k. Perhatikan bahwa covariance(x
kix kjx
i, xi) = variance(xi). Dengan demikian, matrik covariance
memiliki variance-variance dari atribut sepanjang diagonalnya.
Modul Kuliah Data Mining 42
-
Covariance dari dua atribut adalah ukuran dari derajat dimana
dua atribut berbeda dan tergantung pada besaran dari variabel.
Nilai covariance yang dekat ke 0 menunjukkan bahwa dua atribut
tidak memiliki hubungan linier, tetapi tidak mungkin menentukan
derajat hubungan antara dua variabel dengan hanya melihat nilai
dari covariance. Korelasi antar dua atribut memberikan secara
langsung indikasi seberapa kuat dua atribut tersebut berhubungan
secara linier. Entri ke-ij dari matriks korelasi (correlation), R,
adalah korelasi antara atribut ke-i dan atribut ke-j. Jika xi dan
xj adalah nilai-nilai dari atribut ke-i dan ke-j, maka
rij = correlation(xi, xj) = ji
jiss
)x,x(ariancecov (3.12)
dimana si dan sj berturut-turut adalah variance dari xi dan xj.
Entri diagonal dari R adalah correlation(xi, xi) = 1, sedangkan
untuk nilai untuk entri lainnya berada antara 1 sampai dengan 1.
3.3 Visualisasi
Visualisasi data adalah menampilkan informasi dalam format
grafik atau tabular. Visualisasi yang baik memerlukan data
(informasi) dikonversi ke dalam format visual sedemikian sehingga
karakteristik dari data dan hubungan diantara item data atau
atribut dapat dianalisa. Teknik visualisasi dalam data mining
dinyatakan sebagai visual data mining. 3.3.1 Motivasi untuk
Visualisasi
Motivasi untuk menggunaan visualisasi adalah bahwa pengguna
dapat dengan cepat menyerap sejumlah besar informasi visual dan
menemukan pola dalam informasi tersebut. Perhatikan Gambar 3.2,
yang menunjukkan Sea Surface Termperature (SST) dalam derajat
Celcius untuk Juli 1982.
Gambar 3.1 Sea Surface Termperature (SST) untuk Juli 1982
Gambar tersebut meringkas infromasi dari sekitar 250.000 angka
dan dapat dengan mudah diinterpretasikan dalam beberapa detik.
Sebagai contoh, dapat dilihat dengan mudah temperatur laut adalah
paling tinggi pada garis katulistiwa dan paling rendah di
kutub.
Modul Kuliah Data Mining 43
-
Motivasi lainnya untuk visualisasi adalah membuat penggunaan
domain knowledge. Walaupun penggunaan domain knowledge adalah
pekerjaan yang penting dalam data mining, seringkali sulit dan
tidak mungkin mengunakan seluruh pengetahuan tersebut dalam alat
statistik atau algoritmik. Dalam beberapa kasus, analisa dapat
dilakukan dengan menggunakan alat non-visual dan kemudian hasilnya
dipresentasikan secara visual untuk dievaluasi oleh domain expert.
Dalam kasus lain, setelah menemukan pola yang diinginkan, karena
dengan menggunakan domain knowledge, pengguna dapat dengan cepat
membuang beberapa pola yang tidak menarik dan langsung terfokus
pada pola yang penting.
3.3.2 Konsep Umum Berikut adalah pendekatan-pendekatan yang umum
untuk visualisasi data
dan atributnya.
a. Representasi: Pemetaan Data ke Elemen Grafik Langkah pertama
dalam visualisasi adalah pemetaan informasi ke format visual; yaitu
pemetaan objek, atribut, dan hubungan antar objek dalam sekumpulan
informasi ke objek, atribut dan hubungan visual. Bahwa objek data,
atributnya, dan hubungan antar objek data dinyatakan dalam
elemen-elemen grafis seperti titik, garis, bentuk dan warna.
Objek biasanya direpresentasikan dalam salah satu dari tiga cara
berikut. Pertama, jika hanya sebuah atribut kategori dari objek
yang diperhatikan, maka objek seringkali disatukan ke dalam
kategori-kategori berdasarkan pada nilai atribut tersebut, dan
kategori-kategori ini ditampilkan sebagai sebuah entri dalam tabel
atau area di layar. Kedua, jika sebuah objek memiliki banyak
atribut, maka objek dapat ditampilkan sebagai baris (atau kolom)
dari sebuah tabel atau sebuah garis pada sebuah grafik. Ketiga,
sebuah objek serngkali diinterpretasikan sebagai sebuah titik dalam
ruang 2 atau 3 dimensi, dimana secara grafis, titik dapat
direpresentasikan oleh gambar geometri seperti lingkaran dan
kotak.
Untuk atribut, representasi tergantung pada tipe atribut, apakah
nominal, ordinal, atau kontinu (interval atau ratio). Atribut
ordinal dan kontinu dapat dipetakan ke dalam fitur grafis terurut
dan kontinu seperti lokasi sepanjang sumbu x, y dan z; intensitas;
warna; atau ukuran (diameter, tinggi dan lain-lain). Untuk atribut
kategori, setiap kategori dapat dipetakan ke dalam posisi, warna,
bentuk, orientasi yang berbeda atau kolom dalam tabel. Untuk
atribut nominal, yang memiliki nilai terurut, penggunaan
fitur-fitur grafik, seperti warna dan posisi yang memiliki urutan
terkait dengan nilai-nilainya, harus dilakukan secara
hati-hati.
Representasi hubungan melalui elemen-elemen grafis terjadi baik
secara eksplisit maupun implisit. Untuk data graf, digunakan
representasi graf biasa, sekumpulan node dengan link diantara node.
Jika node (objek data) atau link (hubungan) memiliki atribut atau
karakteristik dari dirinya sendiri, maka atribut dan karakteristik
tersebut direpresentasikan secara grafis. Sebagai ilustrasi, jika
node adalah kota dan link adalah jalan raya, maka diameter dari
node dapat menyatakan populasi, sedangkan lebar dari link dapat
merepresentasikan volume lalu lintas.
Dalam banyak kasus, pemetaan objek dan atribut ke elemen grafis
secara implisit memetakan hubungan dalam data ke hubungan antara
elemen-elemen grafis.
Modul Kuliah Data Mining 44
-
Sebagai ilustrasi, jika objek data merepresentasikan objek fisik
yang memiliki lokasi, seperti kota, maka posisi relatif dari objek
grafis yang berhubungan dengan objek data cenderung mempertahankan
posisi relatif aktual dari data.
b. Penyusunan Pemilihan yang tepat dari representasi visual dari
objek dan atribut adalah penting untuk visualisasi yang baik.
Penyusuan kembali item dalam penampilan visual juga merupakan hal
yang penting.
Contoh 3.5:
Tabel 3.5 menunjukkan sembilan objek dengan enam atribut biner.
Dari tabel tersebut dapat dilihat bahwa hubungan antara objek dan
atribut tidak jelas. Jika baris dan kolom dipermutasikan seperti
dalam Tabel 3.6, makan kita dapat dengan jelas melihat dua tipe
objek dalam tabel, tipe yang pertama adalah objek-objek yang
memiliki nilai 1 untuk tiga atribut pertama, dan tipe yang kedua
adalah objek-objek yang memiliki nilai 1 untuk tiga atribut
terakhir.
Tabel 3.5 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut
biner (kolom)
Tabel 3.6 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut
(kolom) yang dipermutasikan sedemikian sehingga hubungan antara
baris dan kolom telihat jelas.
c. Seleksi Konsep penting lainnya dalam visualisasi adalah
seleksi, yang
mengeliminasi objek atau atribut tertentu. Jika terlalu banyak
objek data, maka
Modul Kuliah Data Mining 45
-
memvi
ensionalitas, dan terdapat banyak teknik yang dapat digunakan,
salah satunya
isualisasi seringkali ditentukan berdasarkan tipe dari data yang
, berdasarkan banyaknya atribut yang terlibat, berdasarkan tipe
atribut
unakan untuk visualisasi data dengan a teknik tersebut, seperti
histogram,
tau kontinu satu dimensi. Untuk bentuk sederhana
istribusi dari niai untuk atribut-atribut dengan membagi
nilai-
lai (objek)
sualisasikan semua objek akan menghasilkan tampilan yang penuh
sesak. Pendekatan yang paling umum untuk menangani atribut yang
banyak adalah dengan memilih sebuah subset dari atribut. Jika
dimensi terlalu tinggi, matriks plot untuk dua atribut dapat dibuat
untuk menggambarkan objek data secara simultan.
Teknik memilih sepasang (atau sejumlah kecil) atribut adalah
bentuk dari reduksi dim
adalah PCA (Principal Components Analysis).
3.3.3. Metode Teknik v
sedang dianalisisatau berdasarkan karakteristik khusus dari data
seperti struktur hirarki atau
graf.
a. Visualisasi Sejumlah Kecil Atribut Terdapat beberapa teknik
yang dapat digjumlah atribut yang sedikit. Beberapmemberikan
distribusi nilai yang diobservasi untuk satu atribut. Sedangkan
teknik yang lain seperti scatter plot digunakan untuk menampilkan
hubungan antara nilai dari dua atribut.
Stem and Leaf Plot. Stem and leaf plot dapat digunakan untuk
mendapatkan distribusi dari data integer adari stem and leaf plot,
kita bagi nilai-nilai ke dalam dua grup, dimana setiap grup
mengandung nilai-nilai yang sama kecuali untuk digit terakhirnya.
Dengan demikian, jika nilai-nilai tersebut adalah integer dua
digit, contoh 35, 36, 42, dan 51, maka stem adalah digit pada ordo
tertinggi, yaitu 3, 4, 5, sedangkan leaf adalah digit dengan ordo
rendah, yaitu 1, 2, 5, dan 6. Dengan memplotkan stem secara
vertikal dan leaf secara horizontal, maka dapat diperoleh
representasi visual dari distribusi data.
Histogram. Stem and leaf adalah salah satu bentuk dari
histogram, sebuah plot yang menampilkan dnilai yang mungkin ke
dalam bin dan menunjukkan banyaknya objek yang masuk ke dalam
setiap bin. Untuk data kategori, setiap nilai adalah bin. Jika
nilai atribut kategori terlalu banyak, maka nilai tersebut
dikombinasikan dengan mengunakan cara-cara tertentu. Untuk atribut
kontinu, range dari nilai dibagi ke dalam bin, lebar range tidak
harus sama, dan nilai-nilai dalam setiap bin dihitung. Bar plot
dikonstruksi sedemikian sehingga setiap bin direpresentasikan oleh
satu bar, dan area dari setiap bar adalah proposional dengan
banyaknya niyang masuk ke dalam range yang sesuai. Jika semua
interval memiliki lebar yang sama, maka semua bar memiliki lebar
yang sama dan tinggi bar adalah proposional ke banyaknya nilai yang
sesuai dengan bin.
Contoh 3.6:
Gambar 3.2 dari histogram
menunjukkan histogram dengan 10 bin untuk lebar petal. Bentuk
dapat tergantung pada banyaknya bin. Histogram untuk data yang
sama, tetapi dengan 20 bin ditunjukkan pada Gambar 3.3.
Modul Kuliah Data Mining 46
-
isto atif enggantikan count dengan frekuensi relatif. D
dalam
umbu y berubah, dan bentuk dari histogram tidak berubah. Variasi
lainnya,
nterval dan dua himpunan interval mendefinisikan persegi empat
dua-imensi dari nilai-nilai.
T t herdapat variasi dari plo gram. rel Histogram
(frekuensi)
alam histogram ini skala mskhususnya untuk data kategori yang
tidak terurut, adalah histogram Pareto. Histogram Pareto sama
seperti histogram biasa, hanya saja dalam histogram Pareto kategori
diurut oleh count sedemikian sehingga count menurun dari kiri ke
kanan. Histogram Dua-dimensi. Dalam histogram dua-dimensi, setiap
atribut dibagi ke dalam id
Contoh 3.7:
Gambar 3.4 menunjukkan histogram dua-dimensi dari panjang petal
dan lebar tripetal. Karena setiap a
dua-dimensi.but dibagi ke dalam 3 bin, terdapat 9 bin persegi
empat
Tinggi dari setiap bar persegi empat menunjukkan banyaknya
objek
ox Plot. Meterik adalah x plot berlabel
(dalam hal ini adalah bunga) yang masuk ke dalam setiap bin.
Kebanyakan bunga berada dalam 3 bin di sepanjang diagonal.
Gambar 3.2 Histogram untuk lebar petal dengan 10 bin
Gambar 3.3 Histogram untuk lebar petal dengan 20 bin
Gambar 3.4 Histogram dua-dimensi dari panjang petal dan lebar
petal
Bnum
ode lain untuk menunjukkan distribusi nilai dari sebuah atribut
box pl kkan sebuah boot. Gambar 3.5 menunju
Modul Kuliah Data Mining 47
-
untuk panjang sepal. Ujung paling bawah dan paling atas
berturut-turut
menunjukkan persentil ke 25 dan ke 75, sedangkan garis di dalam
kotak menunjukkan nilai persentil ke 50. Garis bawah dan atas dari
ekor menunjukkan persentil ke 10 dan ke 90. Outlier ditunjukkan
dengan tanda +.
outlier
90th percentile
th percentile 75
Contoh 3.8:
ox plot untuk empat atribut B dari da
ie chart mirip dengan histogram, tapi pie chart khususnya
digunakan art
ta set Iris ditunjukkan dalam Gambar 3.6. Pie Chart. Puntuk
atribut kategori yang memiliki nilai yang relatif kecil. Pie ch
enggunakan area relatif dari lingkaran untuk menujukkan
frekuensi relatif. m
Scatter Plot. Dalam scatter plot, setiap objek data diplot
sebagai titik dalam bidang dengan menggunakan nilai-nilai dari dua
atribut sebagai koordinat x dan y. Diasumsikan bahwa atribut adalah
bernilai integer atau real.
Contoh 3.9:
Gambar 3.7 menunjukkan scatter plot untuk setiap pasang atribut
dari data set Iris. Spesies yang berbeda dari Iris ditunjukkan
dengan tanda yang berbeda.
scatter plot dari pasangan atribut dalam format tabular ini,
yang Penyusunan dikenal sebagai scatter plot matrix, memberikan
cara yang teroganisasi untuk mengevaluasi sejumlah scatter plot
secara simultan.
10th percentile
25th percentile
th percentile 50
Gambar 3.5 Deskripsi box plot untuk panjang sepal
Gambar 3.6 Box plot untuk atribut-atribut data set Iris
Modul Kuliah Data Mining 48
-
Gambar 3.7 Matriks dari scatter plot untuk data set Iris
Terdapat dua cara menggunakan scatter plot. Pertama, secara
grafis scatter plot menunjukkan hubungan antara dua atribut.
Scatter plot juga dapat digunakan untuk mendeteksi hubungan
non-linier. Kedua, ketika label dari kelas tersedia, scatter plot
dapat digunakan untuk menyelidiki derajat dimana kedua atribut
memisahkan kelas.
Contour Plot. Untuk data 3-dimensi, dua atribut menentukan
sebuah posisi dalam bidang, sedangkan atribut yang ketiga memiliki
nilai kontinu, seperti temperatur atau elevasi. Visualisasi untuk
data demikian adalah contour plot yang memecah bidang ke dalam
daerah yang terpisah dimana nilai dari atribut ketiga (temperatur,
elevasi) kira-kira sama. Contoh umum dari contour plot adalah
contour map yang menunjukkan elevasi dari lokasi lahan.
Contoh 3.10:
Gambar 3.8 menunjukkan contour plot dari temperatur rataan
permukaan laut (STT) untuk bulan Desember 1998. Temperatur daratan
di-set ke 0C. Dalam kebanyakan contour map, seperti dalam Gambar
3.8, contour line yang memisahkan dua daerah dapat diberi label
dengan nilai yang digunakan untuk memisahkan daerah.
Modul Kuliah Data Mining 49
-
Celsius Gambar 3.8 Contour plot dari SST untuk bulan Desember
1998
3.3.4 Visualisasi Data Berdimensi Tinggi Teknik yang akan
dijelaskan berikut dapat menampilkan data dengan dimensi yang lebih
tinggi dibandingkan dengan teknik-teknik yang dibahas sebelumnya.
Teknik-teknik ini keterbatasan karena hanya menampilkan beberapa
aspek dari data.
Matriks. Sebuah citra dapat dipandang sebagai array persegi
empat dari pixel, dimana setiap pixel ditentukan oleh warnanya dan
kecerahannya. Matriks data adalah sebuah array persegi empat dari
nilai. Dengan demikian, matriks data dapat divisualisasikan sebagai
sebuah citra dengan mengasosiasikan setiap entri dari matris data
dengan sebuah pixel dalam citra. Kecerahan atau warna dari pixel
ditentukan oleh nilai dari entri matriks yang sesuai.
Jika label kelas diketahui, maka pengurutan kembali matriks data
dapat dilakukan sedemikian sehingga semua objek dari sebuah kelas
dikelompokan bersama-sama. Hal ini dapat memberikan kemudahan dalam
mendeteksi jika semua objek dalam sebuah kelas memiliki nilai-nilai
atribut yang mirip untuk beberapa atribut. Jika atribut yang
berbeda memiliki range yang berbeda, maka atribut seringkali
distandarkan sehingga memiliki rataan adalah 0 dan standard
deviation adalah 1. Hal ini dilakukan agar atribut yang memiliki
nilai yang besar tidak mendominasi plot secara visual.
Contoh 3.11:
Gambar 3.9 menunjukkan matriks data dari data set Iris yang
telah distandarisasi. 50 puluh baris yang pertama merepresentasikan
spesies Setosa dari bunga Iris, 50 baris selanjutnya
merepresentasikan spesies Versicolour, dan 50 baris terakhir
merepresentasikan spesies Virginica. Spesies Setosa memiliki lebar
dan panjang petal di bawah rata-rata, sedangkan Versicolour
memiliki lebar dan panjang petal di sekitar rata-rata. Virginica
memiliki lebar dan panjang petal di atas rata-rata.
Modul Kuliah Data Mining 50
-
standard deviation
Gambar 3.9 Plot dari matriks data Iris dimana kolom-kolom telah
distandarisasi, sehingga rataan adalah 0 dan standard deviation
adalah 1.
Data objek juga dapat divisualisasikan dalam plot matriks
poximity. Baris dan kolom dari matriks kemiripan (ketika label
kelas diketahui) diurutkan sedemikian sehingga semua objek dari
sebuah kelas dikelompokan bersama-sama. Visualisasi ini
memungkinkan kita untuk melihat kepaduan dari setiap kelas dan
keterpisahannya dari kelas yang lain.
Contoh 3.12:
Gambar 3.10 menunjukkan matriks korelasi untuk data set Iris.
Baris dan kolom diorganisasikan sedemikian sehingga semua bunga
dengan spesies tertentu dikelompokkan bersama-sama.
Gambar 3.10 Plot dari matriks korelasi dari data set Iris
Modul Kuliah Data Mining 51
-
Jika label kelas tidak diketahui, beberapa teknik (matrix
reordering dan seriation) dapat digunakan untuk menyusun ulang
baris dan kolom dari matriks kemiripan sedemikian sehingga objek
dan atribut dengan paling mirip dikelompokan bersama-sama dan dapat
diidentifikasi secara visual.
Koordinat Paralel. Koordinat paralel memiliki satu sumbu
koordinat untuk setiap atribut, tetapi sumbu-sumbu yang berbeda
adalah paralel ke sumbu lainnya (bukan tegak lurus). Sebuah objek
direpresentasikan sebagai sebuah baris (bukan sebuah titik). Secara
khusus, nilai dari setiap atribut dari sebuah objek dipetakan ke
sebuah titik pada sumbu koordinat yang sesuai dengan atribut
tersebut, dan titik-titik ini kemudian dihubungkan untuk membentuk
garis yang merepresentasikan objek.
Dalam banyak kasus, objek-objek berada dalam sejumlah kecil
grup, dimana titik-titik dalam setiap grup memiliki nilai yang
mirip untuk atribut-atributnya. Jika demikian, dan jika banyaknya
objek data tida terlalu besar, maka hasil plot koordinat paralel
dapat mengungkapkan pola yang menarik.
Contoh 3.13:
Gambar 3.11 menunjukkan plot koordinat paralel dari keempat
atribut numerik dari data set Iris. Garis yang merepresentasikan
objek dari kelas yang berbeda dibedakan dengan menggunakan tiga
bentuk garis yang berbeda yaitu solid, dot, dash. Plot koordinat
paralel menunjukkan bahwa kelas terpisah dengan baik untuk panjang
dan lebar petal, tetapi kurang terpisah dengan baik untuk panjang
dan lebar sepal. Gambar 3.14 menunjukkan plot koordinat paralel
lain untuk data yang sama, tetapi dengan pengurutan sumbu yang
berbeda.
Gambar 3.12 Plot koordinat paralel dari keempat atribut Iris
dimana atribut diurutkan untuk menunjukkan kemiripan dan
ketakmiripan grup.
Gambar 3.11 Plot koordinat paralel dari keempat atribut Iris
Salah satu kekurangan dari plot koordinat paralel adalah bahwa
deteksi dari pola dapat tergantung pada urutan. Sebagai contoh,
jika garis bersilangan terlalu banyak, plot yang dihasilkan akan
membingungkan, dan dengan demikian pengurutan sumbu koordinat perlu
dipertimbangkan untuk mendapatkan urutan sumbu dengan persilangan
paling sedikit. Bandingkan Gambar 3.12 dengan lebar
Modul Kuliah Data Mining 52
-
sepal pada bagian kiri gambar dengan Gambar 3.11. dengan lebar
sepal berada di tengah-tengah.
Koordinat Bintang dan Chernoff Face Pendekatan lain untuk
menampilkan data berdimensi banyak adalah dengan mengkodekan objek
sebagai simbol glyph atau ikon, yaitu simbol yang memberikan
informasi secara non-verbal. Setiap atribut dari objek dipetakan ke
fitur tertentu dari glyph, sedemikian sehingga nilai dari atribut
menentukan sifat eksak dari fitur. Dengan demikian, kita dapat
melihat bagaimana dua objek berbeda.
Koordinat bintang adalah salah satu dari pendekatan ini. Teknik
ini menggunakan satu sumbu untuk setiap atributnya. Semua sumbu ini
terpancar dari titik pusat, seperti jari-jari dari sebuah roda.
Secara khusus, semua nilai atribut dipetakan ke dalam range [0, 1].
Sebuah objek dipetakan ke dalam kumpulan sumbu berbentuk bintang
dengan menggunakan proses berikut: setiap nilai atribut dari objek
dikonversikan ke sebuah fraksi yang merepresentasikan jaraknya
antara nilai atribut yang minimum dan maksimum. Fraksi ini
dipetakan ke sebuah titik pada sumbu yang sesuai dengan atribut
ini. Setiap titik dihubungkan dengan sebuah segmen garis ke titik
pada sumbu sebelumnya atau yang mengikuti sumbu tersebut, sehingga
terbentuklah sebuah poligon. Ukuran dan bentuk dari poligon
memberikan deskripsi visual dari nilai atribut. Untuk kemudahan
interpretasi, himpunan sumbu yang terpisah digunakan untuk setiap
objek. Dengan kata lain, setiap objek dipetakan ke sebuah poligon.
Sebuah contoh plot koordinat bintang untuk Iris 150 diberikan dalam
Gambar 3.13.
Gambar 3.14 Chernoff face dari Iris 150 Gambar 3.13 Grafik star
dari Iris 150
Nilai-nilai fitur juga dapat dipetakan ke objek lain seperti
wajah. Teknik ini dinamakan Chernoff face (pembuatnya bernama
Herman Chernoff). Dalam teknik ini, setiap atribut diasosiasikan
dengan fitur wajah yang spesifik, dan nilai atribut digunakan untuk
menentukan cara bagaimana fitur wajah diekspresikan. Dengan
demikian, bentuk dari wajah dapat lebih memanjang sebagaimana nilai
dari fitur data yang sesuai meningkat. Sebagai contoh, Chernoff
face untuk Iris 150 diberikan dalam Gambar 3.14.
Bentuk wajah dari Chernoff face ditentukan sebagai berikut:
Modul Kuliah Data Mining 53
-
Fitur Data Fitur Wajah Panjang sepal Ukuran wajah Lebar sepal
Dahi/ panjang busur relatif dari rahang Panjang petal Bentuk dahi
Lebar petal Bentuk rahang
Fitur wajah yang lain, seperti lebar antar mata dan panjang
mulut diberikan nilai default.
Contoh 3.14:
Ilustrasi dari kedua pendekatan ini dalam merepresentasikan data
multidimensional diberikan dalam Gambar 3.15 dan 3 16. Kedua gambar
tersebut menunjukkan plot star dan wajah untuk 15 bunga dari data
set Iris. Dari ke-15 bunga tersebut, 5 bunga termasuk spesies
Setosa, 5 bunga termasuk spesies Versicolour dan 5 bunga termasuk
spesies Virginica.
Versicolour
Virginica
Setosa
Gambar 3.15 Plot 15 bunga Iris menggunakan koordinat star
Setosa
Versicolour
Virginica
Gambar 3.16 Plot 15 bunga Iris menggunakan Chernoff face
3.4 OLAP dan Analisis Data Multidimensi Sistem On-Line
Analytical Processing (OLAP) terdiri dari sejumlah sistem
basis data. Sistem OLAP memiliki fokus pada analisis interaktif
dari data dan menyediakan kemampuan visualisasi data dan membangun
statistik ringkasan.
Modul Kuliah Data Mining 54
-
Oleh karena itu dalam pembahasan ini, analisis data multidimensi
akan berdasarkan pada terminologi dan konsep untuk sistem OLAP.
3.4.1 Representasi Data Set Iris sebagai Array Multidimensi
Dalam banyak kasus, data tidak hanya dinyatakan dalam bentuk
tabel
tetapi sebagai array multidimensi. Tabel 3.7 dibuat dengan cara
mendiskretkan atribut panjang petal dan lebar petal ke dalam nilai
low, medium, dan high dan kemudian menghitung banyaknya bunga Iris
yang memiliki kombinasi lebar petal, panjang petal dan tipe
spesies. Untuk panjang petal, kategori low, medium, dan high
berturut-turut berkaitan dengan interval [0, 0.75), [0.75, 1.75),
[1.75, ). Sedangkan untuk panjang petal, kategori low, medium, dan
high berturut-turut berkaitan dengan interval [0, 2.5), [2.5, 5),
[5, ).
Tabel 3.7 Banyaknya bunga Iris yang memiliki kombinasi dari
lebar petal, panjang petal dan spesies.
Kombinasi yang kosong, yaitu kombinasi yang tidak terkait dengan
satu bungapun, tidak ditunjukkan.
Data dapat diorganisasikan sebagai array tiga dimensi.
Dimensi-dimensi tersebut menyatakan lebar petal, panjang petal, dan
tipe spesies, seperti diilustrasikan dalam Gambar 3.17.
Untuk memperjelas, potongan dari array ditunjukkan sebagai
himpunan tabel dua dimensi, masing-masing untuk setiap
spesies-lihat Tabel 3.8 sampai dengan 3.10. Informasi yang
terkandung dalam Tabel 3.7 dan Gambar 3.17 adalah sama. Dalam
representasi multidimesi seperti ditunjukkan dalam Gambar 3.17,
nilai atribut (lebar petal, panjang petal dan tipe spesies) adalah
indeks dari array.
Gambar 3.17 Representasi data multidimensi untuk data set
Iris
Modul Kuliah Data Mining 55
-
Tabel 3.8 Tabulasi silang dari data bunga berdasarkan panjang
dan lebar petal untuk spesies Setosa
Tabel 3.9 Tabulasi silang dari data bunga berdasarkan panjang
dan lebar petal untuk spesies Versicolour
Tabel 3.10 Tabulasi silang dari data bunga berdasarkan panjang
dan lebar petal untuk spesies Virginica
Tabel 3.8, 3.9 dan 3.10 menunjukkan bahwa setiap spesies Iris
ditentukan oleh kombinasi yang berbeda dari nilai panjang dan lebar
petal. Bunga Setosa memiliki panjang dan lebar petal yang rendah
(low), bunga Versicolour memiliki panjang dan lebar petal medium,
dan bunga Virginica memiliki panjang dan lebar petal yang tinggi
(high). 3.4.2 Data Multidimensi: Kasus Umum
Representasi tabular dari data seperti diberikan dalam Tabel 3.7
dinamakan tabel fakta. Terdapat dua langkah yang dapat dilakukan
dalam merepresentasikan data sebagai array multidimensi, yaitu
identifikasi dimensi dan identifikasi sebuah atribut yang merupakan
fokus dari analisis. Dimensi adalah atribut kategori atau seperti
dalam contoh sebelumnya atribut kontinu yang telah dikonversi ke
dalam atribut kategori. Nilai dari atribut memberikan indeks pada
array untuk dimensi yang sesuai dengan atribut tersebut, dan
banyaknya nilai atribut merupakan ukuran dari dimensi tersebut.
Dalam contoh sebelumnya, setiap atribut memiliki tiga kemungkinan
nilai dan dengan demikian setiap dimensi memiliki ukuran tiga dan
dapat diberi indeks oleh ketiga nilai tersebut. Sehingga dihasilkan
array multidimensi 333.
Setiap kombinasi dari nilai atribut (satu nilai untuk setiap
atribut yang berbeda) mendefinisikan sebuah sel dari array
multidimensi. Sebagai ilustrasi, jika panjang petal = low, lebar
petal = medium dan spesies = Setosa, sel yang mengandung nilai 2
diidentifikasi. Bahwa terdapat dua bunga dalam data set yang
memiliki nilai atribut demikian. Perhatikan bahwa setiap baris
(objek) dari data set dalam Tabel 3.7 berkaitan dengan sebuah sel
dalam array multidimensi.
Isi dari setiap sel menyatakan nilai dari kuantitas target
(variabel target atau atribut) yang menarik dalam analisis. Dalam
contoh Iris, kuantitas target adalah banyaknya bunga yang memiliki
panjang dan lebar petal dalam batas tertentu. Atribut target adalah
kuantitatif karena tujuan utama dari analisis data multidimensi
adalah untuk melihat kuantitas agregat seperti total atau
rataan.
Berikut adalah ringkasan prosedur untuk membuat representasi
data multidimensi dari data set yang dinyatakan dalam bentuk
tabular. Pertama,
Modul Kuliah Data Mining 56
-
identifikasi atribut kategori yang akan digunakan sebagai
dimensi dan atribut kuantitatif yang akan digunakan sebagai target
analisis. Setiap baris (objek) dalam tabel dipetakan ke sebuah sel
dalam array multidimensi. Indeks dari sel ditentukan oleh nilai
dari atribut yang dipilih sebagai dimensi, sedangkan nilai dari sel
adalah nilai dari atribut target. Sel yang tidak didefinisikan oleh
data disumsikan memiliki nilai 0.
Contoh 3.15:
Diberikan contoh penjualan produk. Tabel fakta untuk contoh ini
diberikan dalam Tabel 3.11.
Tabel 3.11 Hasil penjualan produk (dalam Dollar) untuk berbagai
lokasi dan waktu.
Product ID Location Date Revenue 1 Minneapolis Oct. 18, 2004
$250 1 Chicago Oct. 18, 2004 $79 1 Paris Oct. 18, 2004 $301 27
Minneapolis Oct. 18 $2,321 27 Chicago Oct. 18 $3,278 27 Paris Oct.
18, 2004 $1,325
Dimensi dari representasi multidimensi ini adalah atribut
product ID, location dan date, sedangkan atribut target adalah
revenue. Gambar 3.18 menunjukkan representasi multidimensi dari
data set ini.
Gambar 3.18 Representasi data multidimensi untuk data
penjualan
Modul Kuliah Data Mining 57
-
3.4.3 Analisis Data Multidimensi Terdapat bebebara teknik dalam
analisis multidimensi. Teknik tersebut diantaranya pembuatan kubus
data dan operasinya seperti slicing, dicing, reduksi dimensi,
roll-up dan drill down. Kubus Data: Komputasi Kuantitas Agregat
Motivasi utama untuk menentukan data multidimensi adalah pentingnya
membuat agregasi data dalam berbagai cara. Dalam contoh penjualan,
kita dapat menemukan pendapatan penjualan total untuk tahun
tertentu dan untuk produk tertentu. Atau mungkin ingin dilihat
pendapatan penjualan tahunan untuk setiap lokasi untuk semua
produk. Perhitungan agregasi total melibatkan penetapan nilai
tertentu untuk beberapa atribut yang digunakan sebagai dimensi dan
menjumlahkannya semua nilai yang mungkin untuk atribut-atribut yang
membentuk dimensi-dimensi sisanya. Tabel 3.13 menunjukkan total
marginal dari Tabel 3.12.
Tabel 3.12 Total yang dihasilkan dari penjumlahan semua lokasi
untuk waktu dan produk tertentu
Date Jan 1, 2004 Jan 2, 2004 Dec 31, 2004
1 $1,001 $987 $891 27 $10,265 $10,225 $9,325 Pr
oduc
t ID
Tabel 3.13 Tabel 3.12 dengan total marginal
Date Jan 1, 2004 Jan 2, 2004 Dec 31, 2004 Total
1 $1,001 $987 $891 $370,000 27 $10,265 $10,225 $9,325 $3,800,020
P
rodu
ct ID
Total $527,362 $532,953 $631,221 $227,352,127
Untuk penyederhanaan, diasumsikan bahwa semua tanggal dalam
tahun yang sama. Jika terdapat 365 hari dalam satu tahun dan 1000
produk, maka Tabel 3.12 memiliki entri sebanyak 365,000 (nilai
total), untuk setiap pasangan data produk. Kita juga dapat
menentukan lokasi toko dan tanggal dan menjumlahkan nilai pada
semua produk, atau menentukan lokasi dan produk dan menjumlahan
nilai pada seluruh tanggal.
Tabel 3.13 menunjukkan total marginal dari Tabel 3.12.
Nilai-nilai total ini dihasilkan dari penjumlahan pada tanggal dan
produk. Dalam Tabel 3.13, pendapatan penjualan total untuk produk
1, yang diperoleh dengan menjumlahkan seluruh nilai pada baris 1
(seluruh tanggal), adalah $370,000. Pendapatan penjualan total pada
1 Januari 2004, yang diperoleh dengan menjumlahkan seluruh nilai
pada kolom 1 (seluruh produk), adalah $527,362. Pendapatan
Modul Kuliah Data Mining 58
-
penjualan total, yang diperoleh dengan menjumlahkan semua baris
dan semua kolom (semua tanggal dan produk) adalah $227,352,127.
Hal yang penting dalam contoh ini adalah bahwa terdapat sejumlah
total-total (agregat) yang berbeda yang dapat dihitung untuk sebuah
array multidimensi, tergantung kepada berapa banyak atribut yang
kita jumlahkan. Diasumsikan bahwa terdapat n dimensi dan bahwa
dimensi (atribut) ke-i memiliki si nilai yang mungkin. Terdapat n
cara yang berbeda untuk menjumlahkan hanya pada sebuah atribut.
Jika kita menjumlahkan pada dimensi j, maka diperoleh s1*...*
sj-1*sj+1*...* sn total, masing-masing untuk setiap kombinasi nilai
atribut yang mungkin dari n1 atribut (dimensi) lainnya. Total yang
dihasilkan dari penjumlahan satu atribut dari array multidimensi
dengan n1 dimensi dan terdapat n array dari total. Dalam contoh
penjualan, terdapat tiga himpunan total yang dihasilkan dari
pejumlahan hanya pada satu atribut dan masing-masing total dapat
ditampilkan sebagai tabel dua dimensi.
Jika kita menjumlahkan pada dua dimensi (mungkin dimulai dengan
salah satu dari array total yang diperoleh dengan penjumlahan pada
satu dimensi), maka kita akan memperoleh sebuah array multidimensi
total dengan n2 dimensi. Terdapat
array yang berbeda untuk total. Untuk contoh penjualan, terdapat
= 3
array total yang dihasilkan dari penjumlahan pada lokasi dan
produk, lokasi dan waktu, atau produk dan waktu. Secara umum,
penjumlahan pada k dimensi
menghasilkan array total, masing-masing dengan nk dimensi.
2n
23
kn
Representasi data multidimensi, bersama dengan semua total
(agregat) yang mungkin, dikenal sebagai kubus data. Selain nama,
ukuran dari setiap dimensi, yaitu banyaknya nilai atribut, tidak
harus sama. Di samping itu, sebuah kubus data dapat memiliki
dimensi kurang atau lebih dari 3. Sebuah kubus data adalah
generalisasi dari tabulasi silang yang dikenal dalam statistika.
Jika marginal total ditambahkan, Tabel 3.8, 3.9, dan 3.10 merupakan
contoh dari tabulasi silang.
Reduksi Dimensionalitas dan Pivoting Agregasi yang dijelaskan
sebelumnya dapat dipandang sebagai bentuk reduksi dimensionalitas.
Secara khusus, dimensi ke-j dieliminasi dengan penjumlahan pada
dimensi tersebut. Secara konseptual, hal ini meringkas setiap kolom
dari sel dalam dimensi ke-j ke dalam sebuah sel. Untuk contoh data
penjualan dan data Iris, agregasi pada satu dimensi mengurangi
dimensi data dari 3 ke 2. Jika sj adalah banyaknya nilai yang
mungkin dari dimensi ke-j, banyaknya sel direduksi oleh faktor dari
sj.
Pivoting merujuk kepada agregasi pada semua dimensi kecuali 2.
Hasilnya adalah tabulasi silang dua dimensi dengan dua dimensi yang
ditentukan sebagai dimensi-dimensi sisanya. Tabel 3.13 adalah
contoh pivoting pada tanggal (date) dan produk.
Modul Kuliah Data Mining 59
-
Slicing dan Dicing Slicing adalah pemilihan sekelompok sel dari
seluruh array multidimensi dengan menentukan nilai tertentu untuk
satu atau lebih dimensi. Tabel 3.8, 3.9 dan 3.10 adalah tiga slice
dari data set Iris yang diperoleh dengan menentukan tiga nilai
terpisah untuk dimensi spesies. Dicing merupakan pemilihan sebuah
subset dari sel dengan menentukan range nilai atribut. Hal ini
ekuivalen dengan mendefinisikan sebuah subarray dari array yang
lengkap. Dalam praktis, kedua operasi ini dapat disertai oleh
agregasi pada beberapa dimensi.
Roll-up dan Drill-down Nilai atribut seperti tanggal memiliki
nilai yang menyatakan tahun, bulan dan minggu. Sebuah lokasi juga
dapat memiliki beberapa ciri seperti country, state (province) dan
city. Product dapat dibagi ke dalam berbagai kategori seperti
elektronik dan furniture.
Seringkali kategori ini dapat diorganisasikan sebagai pohon
hirarki atau lattice. Sebagai contoh, tahun berisi bulan dan
minggu, keduanya berisi hari. Lokasi dapat dibagi ke dalam negara,
yang terdiri dari negara bagian, dan negara bagian terdiri dari
kota. Contoh lain adalah kategori produk, furniture, dapat dibagi
ke dalam sub kategori kursi, meja, sofa dan lain-lain.
Struktur hirarki memunculkan operasi roll-up dan drill-down.
Sebagai ilustrasi, pada data penjualan, yang merupakan data
multidimensi dengan entri-entri untuk setiap tanggal, kita dapat
menentukan agregat (roll-up) penjualan untuk semua tanggal dalam
satu bulan. Sebaliknya, diberikan representasi data dimana dimensi
waktu dipecah ke dalam bulan, kita ingin memisahkan total penjualan
bulanan (drill down) ke dalam total penjualan harian.
Dengan demikian operasi roll-up dan drill-down berkaitan dengan
agregasi. Akan tetapi kedua ini berbeda dengan operasi agregasi
yang telah dibahas, bahwa operasi roll-up dan drill-down
mengagregasi sel dalam sebuah dimensi, bukan pada seluruh
dimensi.
Gambar 3.19 menunjukkan ilustrasi untuk operasi-operasi pada
data multidimensi.
Modul Kuliah Data Mining 60
-
Varitas A B C D
Wak
tu
Kuartal-1Kuartal-2Kuartal-3
Lokasi
BogorSukabumiSubang
Karawang
Varitas A B C D
Roll-up On Lokasi
Wak
tu Kuartal-1
Kuartal-2 Kuartal-3
Lokasi
Wilayah-1 Wilayah-2
Dice for (Lokasi = Sukabumi atau Bogor) dan (Waktu = Kuartal-1
atau Kuartal-2) dan (Varitas) = A atau B
Varitas A B
Wak
tu
Kuartal-1 Kuartal-2
Lokasi
Bogor Sukabumi
Lokasi
Bogor
Sukabumi
KarawangSubang
Varitas A B C D
Slice for Waktu =Kuartal-1
Lokasi
Varitas
Pivot
Drill-down on Waktu
Varitas
Wak
tu
JanuariFebruari
Maret
Lokasi
BogorSukabumiSubang
Karawang
OktoberNovemberDesember
A B C D
Gambar 3.19 Ilustrasi untuk operasi-operasi pada data
multidimensi.
Penutup Soal Latihan Tugas Individu Jawablah pertanyaan berikut
secara singkat dan jelas.
1. Jelaskan keuntungan dan kerugian steam and plot dan
histogram.
Modul Kuliah Data Mining 61
-
2. Jelaskan secara singkat bagaimana visualisasi dibuat untuk
menampilkan informasi yang menjelaskan bentuk sistem berikut:
a. Jaringan komputer, meliputi aspek statis dari jaringan
seperti konektivitas, dan aspek dinamik seperti traffic.
b. Distribusi spesies tanaman dan binatang di seluruh dunia
untuk kurun waktu tertentu.
c. Penggunaan resource komputer seperti processor time, main
memory, dan disk, untuk sebuah program basisdata.
Tugas Kelompok Diskusikan dengan kelompok anda penyelesaian atas
permasalahan berikut.
1. Carilah sebuah contoh data set dan aplikasikan teknik-teknik
visualisasi yang telah dijelaskan dalam bab ini.
2. Diberikan data hasil tangkapan ikan dan produk lainnya tahun
2000 dalam ton. KELOMPOK JENIS IKAN NO. KABUPATEN/ KOTA
Tanggal Penangkapan Tongkol Cucut Demesal
KRUSTASE RUMPUT LAUT
1 Kab.Sukabumi 12/1/2000 10,0 8,0 2.5 1,0 1,0
2 Kab.Cianjur 13/1/2000 5,0 4,0 2,0 0.5 2,0
3 Kab.Garut 16/01/2000 7.5 3,0 4,0 1,0 2,0
4 Kab. Kulon Progo 25/01/2000 2.5 3,0 6,0 1.5 3,0
5 Kab. Bantul 27/01/2000 4.5 2,0 3,0 3,0 4,0
6 Kab.Sukabumi 25/2/2000 12,0 10,0 7,0 2,0 1,0
7 Kab.Cianjur 1/2/2000 15,0 14,0 8,0 3,0 2,0
8 Kab.Garut 5/2/2000 10,0 9,0 2,0 1,0 5,0
9 Kab.Sukabumi 4/3/2000 0,0 2,0 3,0 4,0 2,0
10 Kab.Cianjur 5/3/2000 0,0 3,0 4,0 2,0 1,0
11 Kab.Garut 12/3/2000 3,0 2,0 5,0 1,0 3,0
12 Kab. Trenggalek 7/3/2000 3,0 2,0 8,0 1.5 2,0
13 Kab. Blitar 8/3/2000 2,0 2.5 1,0 3,0 4,0
14 Kab. Tulungagung 9/3/2000 6,0 5,0 1,0 2,0 1,0
15 Kab. Malang 10/3/2000 9,0 8,0 1,0 1,0 1,0
JUMLAH 75,0 75,0 55,0 24,0 34,0
a. Buatlah tabel fakta dari data tersebut. Lakukan diskretisasi
data jika
diperlukan. b. Tentukan representasi data multidimensi untuk
data tersebut. c. Berilah contoh operasi slicing, dicing, reduksi
dimensi, roll-up dan drill
down dengan menggunakan kubus data yang dihasilkan dari soal
nomor b.
Modul Kuliah Data Mining 62