Bab II Tinjauan Pustaka Bab ini menjelaskan tinjauan pustakan yang dipergunakan dalam pelaksanaan analisis dan perancangan perangkat lunak pendukung keputusan estimasi biaya pada IKM manufaktur. II.1 Pengolahan Data dan Knowledge Discovery in Database (KDD) Pengolahan data dapat dikategorikan menjadi dua, yaitu: On Line Transaction Processing (OLTP) dan On Line Analytical Processing (OLAP). OLTP merupakan pengolahan data operasional, karena itu data yang dipergunakan adalah data pada masa kini. Pada masa datang, data yang dihasilkan pada masa kini akan memasuki masa kadaluwarsa dan disimpan terpisah dari data operasional dan disebut sebagai data warehouse (gudang data). Menurut Han (2001), data warehouse adalah sebuah database yang dipergunakan untuk keperluan pendukung keputusan dan dikelola secara terpisah dari database operasional. Data warehouse mempunyai sifat: 1. subject oriented, karena diorganisasi berdasarkan subjek, seperti data pelanggan, data produk, dsb 2. terintegrasi, karena dibangun dari beberapa sumber data yang beragam seperti database relasional, file, dan bentuk data lain sehingga memerlukan teknik data cleaning dan data integration untuk memastikan konsistensi penamaan, pengukuran atribut, dsb. 3. time-variant, horizon data jauh lebih lama daripada data operasional, misalnya data-data dalam kurun waktu 5-10 tahun. 4. non volatile, karena tidak terjadi perubahan data.
17
Embed
Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Bab II Tinjauan Pustaka
Bab ini menjelaskan tinjauan pustakan yang dipergunakan dalam pelaksanaan
analisis dan perancangan perangkat lunak pendukung keputusan estimasi biaya
pada IKM manufaktur.
II.1 Pengolahan Data dan Knowledge Discovery in Database
(KDD)
Pengolahan data dapat dikategorikan menjadi dua, yaitu: On Line Transaction
Processing (OLTP) dan On Line Analytical Processing (OLAP). OLTP
merupakan pengolahan data operasional, karena itu data yang dipergunakan
adalah data pada masa kini. Pada masa datang, data yang dihasilkan pada masa
kini akan memasuki masa kadaluwarsa dan disimpan terpisah dari data
operasional dan disebut sebagai data warehouse (gudang data).
Menurut Han (2001), data warehouse adalah sebuah database yang dipergunakan
untuk keperluan pendukung keputusan dan dikelola secara terpisah dari database
operasional. Data warehouse mempunyai sifat:
1. subject oriented, karena diorganisasi berdasarkan subjek, seperti data
pelanggan, data produk, dsb
2. terintegrasi, karena dibangun dari beberapa sumber data yang beragam
seperti database relasional, file, dan bentuk data lain sehingga memerlukan
teknik data cleaning dan data integration untuk memastikan konsistensi
penamaan, pengukuran atribut, dsb.
3. time-variant, horizon data jauh lebih lama daripada data operasional,
misalnya data-data dalam kurun waktu 5-10 tahun.
4. non volatile, karena tidak terjadi perubahan data.
Karena data warehouse dapat terdiri dari beberapa bentuk sumber data, maka data
warehouse dimodelkan dalam bentuk data multidimensi yang dilihat sebagai data
cube. Data cube terdiri dari:
1. data dimensi, yaitu perspektif pengguna terhadap data
2. data fakta, yaitu nilai data
Gambar II-1Siklus Knowledge Discovery
Data warehouse seringkali mengandung informasi yang dapat dipergunakan
sebagai pendukung keputusan dalam siklus Knowledge Discovery in Database
(KDD). KDD adalah istilah umum yang dipakai untuk seluruh metode yang
bertujuan untuk mengetahui hubungan diantara data yang diobservasi. KDD
terdiri dari banyak tahapan yang dimulai dari identifikasi tujuan bisnis sampai
dengan penerapan aturan pada permasalahan bisnis. Secara umum, tahapan KDD
disajikan dalam Gambar II-1. Salah satu langkah dalam KDD adalah Data
Mining, yaitu ekstrasi pengetahuan dari data dalam jumlah besar (Han, 2001).
Weiss (1998) membagi data mining menjadi dua kategori, yaitu: (a) prediction
(classification, regression dan time series) dan (b) knowledge discovery
(clustering, association rule, summarization, text mining dan visualization).
Menurut Betts (2003) penerapan data mining saat ini sedang dan akan
berkembang secara luas. Penerapan data mining sangat beragam seperti contoh
dalam Tabel II-1.
Tabel II-1 Contoh Penerapan Data Mining
Aplikasi Data Masukan Data Keluaran
Business Intelligence Riwayat pembelian konsumen,
informasi kartu kredit
Produk-produk yang sering dibeli
oleh konsumen secara bersamaan
Collaborative Filtering Rating film box office, rating
novel terlaris
Rekomendasi film untuk ditonton
atau buku untuk dibaca
Network Intrusion
Detection
Data TCPDump atau log
jaringan komputer
Kejadian anomali dalam setiap
node jaringan komputer
Web Search Query oleh pengguna web Ranking halaman web
Diagnosis Medis Riwayat penyakit pasien, data
demografi
Diagonis status kesehatan pasien
Perkiraan Cuaca Data barometer, curah hujan,
pergerakan angin dan awan, data
geografis
Prediksi status cuaca pada sebuah
daerah
Beberapa framework penerapan data mining telah dikembangkan berdasarkan
proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena
kegiatan data mining semakin kompleks dengan melibatkan banyak data,
kepakaran yang bervariasi ataupun lingkungan bisnis yang beragam. Karena itu,
frameworks data mining diharapkan dapat dijadikan sebagai panduan untuk proses
koleksi data, analisis, diseminasi hasil data mining dan pengembangan dari
penerapan data mining tersebut. Beberapa framework yang berkembang saat ini
adalah:
1. CRISP (Cross Industrial Standard Process for Data Mining). Framework
ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri dari
tahapan pemahaman pada proses bisnis dan data, persiapan data,
pemodelan, evaluasi dan penerapan.
2. DMAIC (Define-Measure-Analyze-Improve-Control). Framework ini
berdasarkan pada metodologi Six-Sigma yang ditujukan untuk
mengeliminasi cacat, pemborosan, berorientasi pada pengendalian kualitas
dalam kegiatan manufaktur, industri jasa, manajemen dan aktivitas
lainnya.
3. SEMMA (Sample-Explore-Modify-Model-Assess). Framework ini
dikembangkan oleh SAS (Statistical Analysis Sistem) Institute.
Framework ini mempunyai tahapan yang mirip dengan Six-Sigma.
II.2 Pengolahan Awal Data (Data Preprocessing)
Sub bab ini membahas tentang kebutuhan data preprocessing dalam siklus KDD
beserta teknik-teknik yang biasanya dipergunakan.
Data mentah tidak selalu mempunyai format yang sesuai untuk keperluan analisis.
Data harus diolah terlebih dahulu dan diubah ke dalam bentuk yang
memungkinkan untuk proses data mining. Penyiapan data sangat penting karena
setiap teknik data mining berperilaku berbeda terhadap proses penyiapan data dan
teknik transformasi yang berbeda. Menurut Han (2001), penyiapan data dapat
dikategorikan sebagai berikut:
1. Data cleaning, terdiri dari kegiatan untuk menghilangkan noise dan
mengelola missing value. Data cleaning terdiri dari kegiatan sebagai
berikut:
a. Penanganan terhadap nilai kosong. Dalam penyiapan data, masalah
sering muncul pada saat ditemukan sebuah nilai kosong. Nilai
kosong dalam sebuah variabel adalah data yang sebenarnya ada,
namun tidak tercantum dalam data set dikarenakan kesalahan
pengisian data. Beberapa teknik data mining akan mengabaikan
atau memberikan nilai secara otomatis terhadap nilai kosong,
namun hal ini mengakibatkan pelaku data mining tidak dapat
mengendalikan keseluruhan proses data mining. Terdapat beberapa
cara untuk menangani nilai kosong, diantaranya dengan cara
mengisi nilai rata-rata data pada nilai kosong dengan Persamaan
II-1.
n
xn
ii∑
== 1µ
Persamaan II-1
Dimana µ adalah nilai rata-rata dan xi adalah data dalam
sebuah atribut.
b. Penanganan noise, yaitu random error dari variabel yang dihitung.
Dapat dilakukan dengan median filtering. Metode ini dipergunakan
pada time-series data set untuk menghilangkan outliers dan data
yang tidak baik. Metode ini termasuk non linear filtering yang
ditujukan untuk tetap mempertahankan fitur data. Dalam sebuah
data serial, teknik ini mengambil nilai dari data tengah dalam
selang data tertentu.
2. Data integration and transformation, yaitu integrasi dari beberapa sumber
data berupa database, file atau data cube. Dalam kegiatan ini juga
dilakukan transformasi data mentah menjadi data yang siap untuk di-
mining. Kegiatan yang termasuk dalam penyiapan data ini terdiri dari:
a. Data Integration, terdiri dari kegiatan penanganan terhadap
permasalahan yang muncul pada saat identifikasi entitas. Karena
data terdiri dari berbagai sumber data, maka redundansi di antara
data harus dihindari. Untuk itu dipergunakan teknik seperti analisis
korelasi di antara data.
b. Data Transformation, yaitu pengubahan bentuk data agar siap
untuk diolah, meliputi smoothing, normalisasi, generalisasi,
konstruksi atribut dan agregasi data. Normalisasi/standardisasi
dipergunakan untuk mengubah nilai data dalam sebuah data set
sehingga data set mempunyai nilai tengah nol dan variansi 1.
Normalisasi dilakukan dengan mengurangi setiap data dalam
sebuah atribut dengan nilai rata-rata atribut dan membaginya
dengan standar deviasi atribut tersebut dengan mempergunakan
Persamaan II-2.
σµ−
= ii
xSC Persamaan II-2
Dimana SCi merupakan column scaling untuk sebuah atribut.
3. Data reduction, yaitu pengurangan representasi data, dapat berupa
agregasi data, pengurangan dimensi dan kompresi data. Pada saat data set
memiliki lebih dari jumlah variabel yang dapat dipergunakan untuk
membangun model, diperlukan seleksi terhadap kandidat variabel untuk
dipergunakan untuk keperluan data mining.
4. Data discretization, yaitu pengurangan jumlah nilai pada atribut kontigu,
misalnya dengan penggunaan interval.
II.3 Clustering dengan Metode K-Means
Sub bab ini menjelaskan tentang teknik pengelompokan data dengan K-means
yang dipergunakan dalam proses perancangan sistem pendukung keputusan
estimasi biaya produksi di IKM manufaktur.
Clustering adalah pembagian data menjadi kelompok objek yang mirip, yang
disebut cluster. Sebuah cluster terdiri dari objek-objek yang mirip dan berbeda
terhadap objek dari cluster lain. Dari perspektif machine learning, cluster
merepresentasikan pola yang tersembunyi di dalam data, sehingga pencarian
cluster merupakan proses unsupervised learning. Menurut Berkhin (2002), teknik
clustering dapat diklasifikasikan menjadi hierarchical method (agglomerative dan