-
1
KLASIFIKASI BERITA OLAHRAGA MENGGUNAKAN
ALGORITMA C5.0 BERBASIS ONTOLOGI
Skripsi
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana
Informatika Universitas Muhammadiyah Malang
LUQMAN ARIF SYAIFUDDIN
(201310370311133)
Bidang Minat
DATA SCIENCE
PROGRAM STUDI INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2019
-
2
-
3
-
4
-
5
KATA PENGANTAR
Assalamu’alaikum Wr. Wb.
Dengan memanjatkan puji syukur kehadirat Allah SWT yang
telah
memberikan rahmat dan hidayah-Nya kepada penulis sehingga
dapat
menyelesaikan skripsi sebagai tugas akhir. Berkat limpahan
nikmat dan karunia
yang telah Allah SWT berikan sehingga skripsi berjudul
“Klasifikasi Berita
Olahraga Menggunakan Algoritma C5.0 Berbasis Ontologi” ini dapat
terselesaikan.
Skripsi ini dimaksudkan untuk memenuhi persyaratan guna
memperoleh gelar
sarjana S1 Universitas Muhammadiyah Malang.
Penulis menyadari bahwa sepenuhnya penulisan Tugas Akhir ini
masih
banyak kekurangan, oleh karena itu penulis mengharapkan saran
dan kritik agar
tulisan ini bermanfaat bagi pembaca maupun peneliti lainnya.
Akhir kata penulis
mengucapkan terima kasih kepada semua pihak yang telah membantu
sehingga
terselesaikannya tugas akhir ini.
Wassalamu’alaikum Wr.Wb.
Malang, 15 Juli 2019
Penulis
-
6
LEMBAR PERSEMBAHAN
Penulis menyadari bahwa penyusunan dan pembuatan karya sederhana
ini
tidak lepas dari bantuan berbagai pihak, oleh karena itu
penulisan tugas akhir ini
penulis mengucapkan terima kasih kepada:
1. Allah Subhanahu Wa Ta’ala yang tiada henti memberikan rahmat
dan hidayah-
Nya serta menerangi setiap langkah saya.
2. Rasulullah Muhammad SAW, suri tauladanku, panutan terbaikku,
dan toko
idolaku.
3. Ibu dan bapak yang tiada kata-kata yang bisa menggambarkan
rasa terima kasih
atas do’a dan pengorbanan yang telah diberikan serta dukungan
moril dan
materil.
4. Yufis Azhar, S.Kom, M.Kom selaku dosen pembimbing I dan
Maskur, S.Kom,
M.Kom selaku dosen pembimbing II yang senantiasa telah banyak
memberikan
pengarahan dan bimbingannya selama dalam penyelesaian penulisan
Tugas
Akhir ini.
5. Seluruh dosen pengajar di Jurusan Teknik Informatika yang
telah membimbing
saya dalam menuntut ilmu sehingga saya bisa menjadi seseorang
yang lebih
baik lagi.
6. Seluruh teman-teman Teknik Informatika angkatan 2013 tercinta
yang selalu
memberikan bantuan, doa, dan dukungan moril yang tak
terhingga.
7. Bagi semua teman-teman saya di Universitas Muhammadiyah
Malang dan juga
bagi pembaca yang tertarik dengan pembahasan yang saya angkat
dalam tugas
akhir ini.
8. Kepada semua pihak yang telah membantu dalam menyelesaikan
penyusunan
maupun pengerjaan tugas akhir ini.
9. Semua pihak yang membantu dalam penulisan skripsi ini yang
tidak dapat
penulis sebutkan satu persatu.
Semoga segala bantuan dan kebaikan tersebut mendapat balasan
dari Allah
SWT. Penulis menyadari bahwa skripsi ini jauh dari sempurna dan
masih banyak
kekurangan, oleh karena itu apabila ada kesalahan dalam
penulisan skripsi ini
mohon dimaafkan. Penulis berharap semoga skripsi ini dapat
bermanfaat bagi
pembaca.
-
7
DAFTAR ISI
LEMBAR PERSETUJUAN
..............................................................................
I
LEMBAR
PENGESAHAN...............................................................................
II
LEMBAR PERNYATAAN
............................................................................
III
ABSTRAK
.......................................................................................................
IV
ABSTRACT
.......................................................................................................
V
KATA PENGANTAR
......................................................................................
VI
LEMBAR PERSEMBAHAN
........................................................................
VII
DAFTAR ISI
.................................................................................................
VIII
DAFTAR
GAMBAR.........................................................................................
X
DAFTAR TABEL
............................................................................................
XI
DAFTAR SOURCE CODE
..........................................................................
XIII
BAB I
..................................................................................................................
1
1.1 Latar Belakang
......................................................................................
1
1.2 Rumusan Masalah
.................................................................................
3
1.3 Tujuan Penelitian
...................................................................................
3
1.4 Cakupan Masalah
..................................................................................
3
1.5 Metodologi
............................................................................................
3
1.5.1 Studi Pustaka
..................................................................................
4
1.5.2 Pengumpulan
Data..........................................................................
4
1.5.3 Analisa Dan Perancangan Sistem
.................................................... 4
1.5.4 Implementasi
..................................................................................
4
1.5.5 Pengujian dan Evaluasi
...................................................................
4
1.6 Sistematika Penulisan
............................................................................
4
BAB II
................................................................................................................
6
2.1 Klasifikasi Tekss
...................................................................................
6
2.2 Berita
.....................................................................................................
6
2.3 Text Mining
...........................................................................................
7
2.4 Text Preprocessing
................................................................................
7
2.4.1 Case folding
...................................................................................
8
2.4.2 Tokenezing
.....................................................................................
8
2.4.3 Filtering
..........................................................................................
8
2.4.4 Stemming
.......................................................................................
8
-
8
2.4.5 Dictionary Construction
..................................................................
8
2.4.6 Feature Selection
............................................................................
9
2.4.7 Ontology Extraction
.......................................................................
9
2.4.8 Feature weighting
.........................................................................
10
2.5 Data Mining
........................................................................................
11
2.6 Decesion Tree
......................................................................................
11
2.7.1 AlgoritmanC5.0
............................................................................
11
2.7.2 Splitting Attribute
.........................................................................
13
2.7 Evaluasin
.............................................................................................
13
BAB III
.............................................................................................................
15
3.1 Deskripsi umum sistem
........................................................................
15
3.2 Perancangan Proses
.............................................................................
16
3.2.1 Preprocessing dokumen latih
..................................................... 16
3.2.2 Preprocessing Dokumen Uji
....................................................... 19
3.2.4 Pembentukan Tree
.....................................................................
20
3.3 Perhitngan Manual
..............................................................................
21
3.4 Rancangan Antarmuka
.........................................................................
52
BAB IV
.............................................................................................................
54
4.1 Lingkungan implementasi
....................................................................
54
Lingkungan Implementasi Perangkat Keras
................................................ 54
Lingkungan Implementasi Perangkat Lunak
............................................... 54
4.2 Implementasi Program
.........................................................................
54
4.2.1 Kelas dan Method
.......................................................................
54
4.2.2 Tahapan Pemprosesan
...............................................................
56
4.3 Pengujian sistem
..................................................................................
70
4.4 Analisa Hasil Pengujian
.......................................................................
73
BABIV
..............................................................................................................
75
1. Kesimpulane
...........................................................................................
75
2. Sarane
.....................................................................................................
75
DAFTAR PUSTAKA
.......................................................................................
76
-
9
DAFTAR GAMBAR
Gambar 1 representasi ontologi olahraga
.......................................................... 10
Gambar 2 representasi domain olahraga pada ontologi
..................................... 10 Gambar 3 Skema perancangan
sistem
...............................................................
15
Gambar 4 flowchart proses mencari term yang bersinonim
............................... 18 Gambar 5 flowchart proses
ontology extraction
................................................ 19
Gambar 6 flowchart proses training
C5.0.......................................................... 21
Gambar 7 Atribut Liga Sebagai Root Awal
...................................................... 36
Gambar 8 Tree hasil cabang ≤1.429 dari atribut liga
......................................... 38 Gambar 9 Tree hasil
cabang ≤1.531 dari atribut suporter
.................................. 40 Gambar 10 Tree hasil cabang
≤0.250 dari atribut indonesia .............................. 41
Gambar 11 Tree hasil cabang >0.250 dari atribut indonesia
............................. 43
Gambar 12 Tree hasil cabang ≤ 0.102 pada atribut tim
.................................... 44 Gambar 13 Tree hasil cabang
>0.102 dari atribut tim .......................................
45
Gambar 14 Tree hasil pembentukan cabang >1.531 dari atribut
suporter .......... 46 Gambar 15 Tree hasil cabang >1.429 dari
atribut liga ....................................... 48
Gambar 16 Tree hasil Pembentukan Cabang ≤1.633 dari Atribut tim
................ 49 Gambar 17 Tree hasil pembentukan cabang ≤1.633
dari atribut tim .................. 50
Gambar 18 Rancangan antarmuka sistem
......................................................... 53 Gambar
19 Hasil setelah dilakukan proses preprocessing dan training data
latih71
Gambar 20 menampilkan antarmuka bobot data uji
.......................................... 72 Gambar 21 nemampilkan
antarmuka decision tree
............................................ 73
Gambar 22 Tampilan antarmuka tab Data
akurasi............................................. 74
-
10
DAFTAR TABEL
Tabel 1 Dokumen Latih
.....................................................................................
22 Tabel 2 Dokumen Latih Sebelum Proses Case Folding
...................................... 23
Tabel 3 Dokumen Latih Setelah Proses Case Folding
........................................ 24 Tabel 4 Dokumen Latih
Setelah Proses Case Folding
........................................ 24
Tabel 5 Dokumen Latih Setelah Proses Filtering
............................................... 25 Tabel 6 Dokumen
Latih Hasil Proses Stemming
................................................ 26
Tabel 7 Inverted index, term frequency dan dokumen frequensi
pada Dokumen
Latih
..................................................................................................................
27 Tabel 8 Dokumen Latih Setelah Proses Feature
Selection.................................. 28
Tabel 9 sebelum proses ontology
.......................................................................
29 Tabel 10 setelah proses ontology
.......................................................................
29
Tabel 11 Hasil Nilai DF Dari Semua Term Dokumen
Latih............................... 30 Tabel 12 Dokumen Latih
Hasil Pembobotan TF-IDF ........................................
30
Tabel 13 Hasil Perhitungan Information Gain
................................................... 32 Tabel 14
Bobot Term Liga Sebelum Proses Sorting
.......................................... 32
Tabel 15 Bobot Term liga Setelah Proses Sorting
.............................................. 33 Tabel 16 Hasil
Perhitungan Median Dari Term Liga
......................................... 33
Tabel 17 Hasil Spplit Point Dari Nilai Median Untuk Atribut Liga
.................... 33 Tabel 18 Daftar Dokumen dengan Nilai Bobot
≤1.429 Untuk Atribut Liga........ 34
Tabel 19 Daftar Dokumen dengan Nilai Bobot >1.429 untuk
Atribut Liga ........ 34 Tabel 20 Hasil Perhitungan IG Untuk Setiap
Split -Point Pada Atribut Liga ...... 35
Tabel 21 Hasil Pembentukan Cabang ≤1.429 Dari Atribut
Liga......................... 36 Tabel 22 Perhitungan IG Untuk
Cabang ≤1.429 Dari Atribut Liga ................... 37
Tabel 23 Hasil Split-Point Dari Nilai Median Untuk Atribut
suporter ................ 37 Tabel 24 Hasil Perhitungan IG Untuk
Setiap Split-Point Pada Atribut suporter . 37
Tabel 25 Hasil Pembentukan Cabang ≤1.531 dari Atribut suporter
.................... 38 Tabel 26 Hasil Perhitungan IG untuk Cabang
≤1.531 dari Atribut suporter....... 39
Tabel 27 Hasil Split-Point Dari Nilai Median Untuk Atribut
indonesia .............. 39 Tabel 28 Hasil Perhitungan IG Untuk
Setiap Split-Point Pada Atribut indonesia 39
Tabel 29 Hasil Pembentukan Cabang ≤0.250 Dari Atribut indonesia
................. 40 Tabel 30 Hasil Pembentukan Cabang >0.250
Dari Atribut indonesia ................. 41
Tabel 31 Hasil Perhitungan IG Untuk Cabang >0.250 Dri Atribut
indonesia ..... 42 Tabel 32 Hasil Split-Point Dari Nilai Median
Untuk Atribut tim ....................... 42
Tabel 33 Hasil Perhitungan IG Untuk Setiap Split-Point Pada
Atribut tim ......... 42 Tabel 34 Hasil Pembentukan Cabang ≤0.102
Dari Atribut tim .......................... 43
Tabel 35 Hasil Pembentukan Cabang >1.02 Dari Atribut tim
............................ 44 Tabel 36 Hasil Pembentukan Cabang
>1.531 Dari Atribut suporter ................... 45
Tabel 37 Hasil Pembentukan Cabang >1.429 Dari Atribut liga
.......................... 46 Tabel 38 Hasil Perhitungan IG Untuk
Cabang >1.429 Dari Atribut liga............. 47
Tabel 39 Hasil Split-Point Dari Nilai Median Untuk Atribut tim
....................... 47 Tabel 40 Hasil Pembentukan Cabang ≤1.633
dari Atribut tim ........................... 48
Tabel 41 Hasil Pembentukan Cabang >1633 Dari Atribut tim
........................... 49 Tabel 42 Contoh Dokumen uji
..........................................................................
51
Tabel 43 Hasil Perhitungan Frekuensi Term
...................................................... 51 Tabel 44
Term frekuensi dari dokumen uji setelah proses ontology extraction
... 52
Tabel 45 hasil pembobotan dokumen uji
........................................................... 52
-
11
Tabel 46 Method-method dalam class TextProcessing
....................................... 56 Tabel 47 Method-method
pada kelas ontology
.................................................. 56
Tabel 48 Method-method pada kelas Weighting.java
........................................ 57 Tabel 49 Method-method
pada kelas C5processing.java ....................................
57
-
12
DAFTAR SOURCE CODE
Source Code 1 proses case folding & tokenezing
------------------------------------58
Source Code 2 proses filtering
---------------------------------------------------------58 Source
Code 3 proses stemming
-------------------------------------------------------58
Source Code 4 proses dictionary
constraction----------------------------------------59 Source Code
5 proses menghitung dokumen frekuensi
-----------------------------59
Source Code 6 proses feature selection
-----------------------------------------------60 Source Code 7
proses ontology extraction
--------------------------------------------61
Source Code 8 proses pengecekan synonim term
------------------------------------61 Source Code 9 proses
perhitungan IDF -----------------------------------------------62
Source Code 10 proses perhitungan TF-IDF
-----------------------------------------62
Source Code 11 proses pembentukan root melalui perhitungan
information gain
----------------------------------------------------------------------------------------------64
Source Code 12 proses penentuan split point
----------------------------------------65 Source Code 13 proses
pencarian dokumen untuk node selanjutnya --------------66
Source Code 14 proses pembentukan leaf
--------------------------------------------67 Source Code 15
proses perhitungan TF-IDF
-----------------------------------------68
Source Code 16 proses perhitungan term frequency dari dokummen
uji---------68 Source Code 17 proses pengkategorian dokumen uji
-------------------------------69
Source Code 18 proses perhitungan precision, recall,
f-measure……………….70
-
13
DAFTAR PUSTAKA
[1] H. Februariyanti, “Klasifikasi Dokumen Berita Teks Bahasa
Indonesia
menggunakan Ontologi,” Teknol. Inf. Din., vol. 17, no. 1, pp.
14–23, 2012.
[2] B. Kurniawan, S. Effendi, and O. S. Sitompul, “Klasifikasi
Konten Berita
Dengan Metode Text Mining,” J. Dunia Teknol. Inf., vol. 1, no.
1, pp. 14–
19, 2012.
[3] I. Ernawati, “Prediksi Status Keaktifan Studi Mahasiswa
dengan Algoritme
C5. 0 dan K-Nearest Neighbor,” 2008.
[4] K. P. Wirdhaningsih, D. E. Ratnawati, U. B. Malang, D.
Mining, and D.
Tree, “Penerapan Algoritma Decision Tree C5.0 Untuk Peramalan
Forex,”
pp. 1–6, 2012.
[5] P. Widodo, J. A. Putra, S. Afiadi, A. Z. Arifin, and D.
Herumurti,
“Klasifikasi Kategori Dokumen Berita Berbahasa Indonesia
dengan
Metode Kategorisasi Multi-Label Berbasis Domain Specific
Ontology,” J.
Teknosains, vol. II, no. 2, pp. 101–112, 2017.
[6] M. Jurusan, T. Telekomunikasi, D. Pembimbing, P.
Elektronika, and N.
Surabaya, “Kontrol Ekspresi Wajah Berdasarkan Klasifikasi Teks,”
pp. 1–
5.
[7] X. F. Zhang, H. Y. Huang, and K. L. Zhang, “KNN text
categorization
algorithm based on semantic centre,” in Proceedings - 2009
International
Conference on Information Technology and Computer Science, ITCS
2009,
2009, vol. 1, pp. 249–252.
[8] M. Stephens, A History of News, Third edit. Oxford
University Press, 2007.
[9] D. P. Langgeni, Z. K. A. Baizal, and Y. F. A. W,
“CLUSTERING
ARTIKEL BERITA BERBAHASA INDONESIA,” vol. 2010, no.
semnasIF, pp. 1–10, 2010.
[10] A. Ridok and R. Latifah, “Klasifikasi Teks Bahasa Indonesia
Pada Corpus
Tak Seimbang Menggunakan NWKNN,” Konf. Nas. Sist. dan
Inform.
2015, pp. 222–227, 2015.
[11] Librian Andy, “Stemming Bahasa Indonesia ·
sastrawi/sastrawi Wiki ·
GitHub,” 2016. [Online]. Available:
https://github.com/sastrawi/sastrawi/wiki/Stemming-Bahasa-Indonesia.
[Accessed: 17-Jul-2019].
[12] A. R. C. (3) Amalia Indranandita (1) , Budi Susanto(2),
“Sistem Klasifikasi
dan Pencarian Jurnal dengan Menggunakan Metode Naive Bayes
dan
Vector Space Model,” J. Inform., vol. 4, no. 2, p. 10, 2008.
[13] A. Elsayed, S. El-Beltagy, M. Rafea, and O. Hegazy,
“Applying data
mining for ontology building,” Proc. ISSR, 2007.
[14] A. Achmad and A. A. Ilham, “Implementasi Algoritma Term
Frequency –
Inverse Document Frequency dan Vector Space Model untuk
Klasifikasi
Dokumen Naskah Dinas,” vol. 257, pp. 88–92, Sep. 2012.
[15] S. Sumathi and S. N. Sivanandam, Introduction to Data
Mining and its
-
14
Applications, vol. 29. 2006.
[16] J. Han, M. Kamber, and J. Pei, “DATA MINING Concepts
and
Techniques,” in Data Mining, 3rd ed., 2012, pp. 1–38.
[17] A. R. Winy Firdasari, Indriati, “KLASIFIKASI BERITA
BERBAHASA
INGGRIS MENGGUNAKAN ALGORITMA C4.5 BERBASIS
ONTOLOGI,” vol. 4, pp. 1–12, 2014.
[18] I. Destuardi and S. Sumpeno, “Klasifikasi Emosi Untuk Teks
Bahasa
Indonesia Menggunakan Metode Naive Bayes,” Semin. Nas.
Pascasarj.
Inst. Teknol. Sepuluh Nop., no. c, 2009.
-
15