4/1/13 1 DATA PREPROCESSING Budi Susanto (versi 1.2) Data Preprocessing - Budi Susanto - FTI UKDW Kenali Data Anda Data Preprocessing - Budi Susanto - FTI UKDW Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang kosong, memperhalus noise data, mengetahui outlier selama pemrosesan data Mengukur Kesamaan dan ketidaksamaan Dapat berguna juga untuk mendeteksi outlier Untuk melakukan klasifikasi Pada umumnya untuk mengukur “kedekatan”.
18
Embed
Data Preprocessing - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu2.pdf · Numerik " Interval-scale " ... Noise data adalah suatu kesalahan acak atau variasi
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
4/1/13
1
DATA PREPROCESSING Budi Susanto (versi 1.2)
Data Preprocessing - Budi Susanto - FTI UKDW
Kenali Data Anda
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Atribut Data ¤ Memahami tipe atribut ¤ Membantu membetulkan data saat integrasi data
¨ Deskripsi Statistik Data ¤ Memudahkan untuk mengisi nilai yang kosong, ¤ memperhalus noise data, ¤ mengetahui outlier selama pemrosesan data
¨ Mengukur Kesamaan dan ketidaksamaan ¤ Dapat berguna juga untuk mendeteksi outlier ¤ Untuk melakukan klasifikasi ¤ Pada umumnya untuk mengukur “kedekatan”.
4/1/13
2
Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang ada pada umumnya: ¤ Banyak noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam
sumber
¨ Memahami data sangat penting untuk tahap preprosesing.
Atribut Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mencerminkan karakteristik objek data. ¨ Tipe atribut menentukan himpunan nilai yang
¨ Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange
Data Mining: Concepts and Techniques, 3th ed., p. 47
Deskripsi Statistik
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengukur penyebaran data ¤ Rentang dan Kuartil ¤ Variasi dan Standard Deviasi
Data Mining: Concepts and Techniques, 3th ed., p. 48
4/1/13
4
BoxPlot
¨ Interquartil Range (IQR) ¤ Q3 – Q1
¨ Outlier data ¤ 1.5 x IQR
Data Preprocessing - Budi Susanto - FTI UKDW
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski distance
n Euclidean dan Manhattan
¤ Cosine
4/1/13
5
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
Mengapa Perlu Data Preprocessing?
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data mentah yang ada sebagian besar kotor ¤ Tidak komplet
n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate
¤ Banyak “noise” n Berisi data yang Outlier n Berisi error
¤ Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama
4/1/13
6
Mengapa Data Preprocessing Penting?
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula.
¨ Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).
¨ Data Cleaning ¨ Data integration ¨ Data Reduction ¨ Data Transformation
Data Cleaning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier
4/1/13
8
Data Cleaning: Missing Values
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengabaikan record ¤ Biasanya untuk label klasifikasi yang kosong
¨ Mengisikan secara manual ¨ Menggunakan mean/median dari atribut yang
mengandung missing value ¤ Mean dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal
(condong) ¨ Menggunakan nilai global ¨ Menggunakan nilai termungkin
¤ Menerapkan regresi
Data Cleaning: Missing Values
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Contoh untuk missing value IPK diisi dengan rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.
¨ Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul.
Angkatan IPK Pekerjaan Kelamin
2004 3.45 Programmer L
2005 ? Ibu RT P
2003 2.81 ? P
4/1/13
9
Data Cleaning: Noisy Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur.
¨ Teknik-teknik ¤ Binning
n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries
¤ Regression ¤ Outlier Analysis
Metode Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Metode ini akan melakukan pengelompokan terhadap kumpulan data.
¨ Metode binning merupakan salah satu pendekatan dicretization.
¨ Urutan proses: ¤ Urutkan data secara ascending ¤ Lakukan partisi ke dalam bins
n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)
¤ Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb.
4/1/13
10
Partisi dalam Metode Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Partisi Equal-Width ¤ Algoritma membagi data ke dalam k interval ukuran
yang sama. Lebar interval adalah n w = (max-min)/k
¤ Batasan interval adalah n min+w, min+2w, …, min+(k-1)w
¨ Partisi Equal-depth ¤ Membagi data ke dalam k kelompok dimana tiap