Page 1
i
EKSTRAKSI INFORMASI DARI ABSTRAK JURNAL
PENELITIAN BERBAHASA INDONESIA
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Oleh :
Deni Arifandi
201310370311213
JURUSAN INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2017
Page 3
KATA PENGANTAR
Puji syukur kehadirat Allah SWT atas segala limpahan rahmat dan hidayah-Nya,
serta salawat dan salam kepada Rasulullah SAW sehingga penulis dapat menyelesaikan
tugas akhir yang berjudul:
“EKSTRAKSI INFORMASI DARI ABSTRAK JURNAL
PENELITIAN BERBAHASA INDONESIA”
Di dalam tulisan ini diuraikan pokok-pokok pembahasan yang meliputi text mining,
dan juga penerapan algoritma pembelajaran untuk mengklasifikasikan jurnal berdasarkan
abstraksi dari jurnal penelitian berbahasa Indonesia.
Penulisan tugas akhir ini dimaksudkan sebagai salah satu syarat kelulusan dari
pembelajaran jenjang S1 pada Program Studi Teknik Informatika di Universitas
Muhammadiyah Malang.
Penulis menyadari bahwa penulisan Tugas Akhir ini masih banyak kekurangan. Oleh
karena itu penulis mengharapkan saran yang membangun agar tulisan ini dapat bermanfaat
bagi perkembangan ilmu pengetahuan.
Malang, 17 Oktober 2017
Penulis
Page 6
DAFTAR ISI
LEMBAR PERSETUJUAN..................................................................................... i
LEMBAR PERNYATAAN ................................................................................... iii
KATA PENGANTAR ........................................................................................... iv
ABSTRAK .............................................................................................................. v
ABSTRACT ........................................................................................................... vi
DAFTAR ISI ......................................................................................................... vii
DAFTAR GAMBAR ............................................................................................. ix
DAFTAR TABEL ................................................................................................... x
DAFTAR GRAFIK ................................................................................................ xi
BAB I ...................................................................................................................... 1
PENDAHULUAN .................................................................................................. 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 3
1.3 Tujuan ....................................................................................................... 3
1.4 Batasan Masalah ....................................................................................... 3
1.5 Metode Penelitian ..................................................................................... 3
1.5.1 Studi Literatur ........................................................................................... 3
1.5.2 Analisis Kebutuhan dan Desain Sistem .................................................... 4
1.5.4 Implementasi ............................................................................................. 4
1.5.5 Pengujian dan Evaluasi ............................................................................. 4
1.5.6 Pembuatan Laporan .................................................................................. 4
1.6 Sistematika Penulisan ............................................................................... 4
BAB II ..................................................................................................................... 6
LANDASAN TEORI .............................................................................................. 6
2.1 Data Mining .............................................................................................. 6
2.2 Text Mining .............................................................................................. 7
2.3 Ekstraksi Informasi ................................................................................... 8
2.3.1 Perbedaan Ekstraksi Informasi dan Pengambilan Informasi .................... 8
2.3.2 Pembentuk Ekstraksi Informasi ................................................................ 9
2.4 Klasifikasi ................................................................................................. 9
2.5 Algoritma ................................................................................................ 10
Page 7
2.5.1 Naive Bayes ............................................................................................ 10
2.5.2 Random Forest ....................................................................................... 10
2.5.3 Sequential Minimal Optimization ........................................................... 11
2.5.4 IBk (k-Nearest Neighbor) ....................................................................... 11
2.6 Metode Pengujian ................................................................................... 11
BAB III ................................................................................................................. 13
ANALISIS DAN PERANCANGAN SISTEM .................................................... 13
3.1 Analisis ................................................................................................... 13
3.1.1 Pengumpulan Data Penelitian ................................................................ 14
3.1.2 Anotasi Data ........................................................................................... 14
3.1.3 Ekstraksi Fitur ........................................................................................ 16
3.1.4 Pembentukan Model ............................................................................... 20
3.2 Perancangan Sistem ................................................................................ 20
3.2.1 UseCase Diagram ................................................................................... 21
3.2.2 FlowChart .............................................................................................. 21
BAB IV ................................................................................................................. 23
IMPLEMENTASI DAN PENGUJIAN ................................................................ 23
4.1 Implementasi Perangkat Lunak .............................................................. 23
4.1.1 Pengumpulan Data ................................................................................. 23
4.1.2 Anotasi Data ........................................................................................... 23
4.1.3 Ekstraksi Fitur ........................................................................................ 24
4.1.4 Pembentukan Model ............................................................................... 27
4.1.5 Klasifikasi ............................................................................................... 27
4.2 Metode dan Hasil Pengujian Klasifikasi ................................................ 28
4.2.1 Pengujian Model ..................................................................................... 28
4.2.2 Pengujian Klasifikasi .............................................................................. 29
BAB V ................................................................................................................... 31
PENUTUP ............................................................................................................. 31
5.1 Kesimpulan ............................................................................................. 31
5.2 Saran ....................................................................................................... 32
DAFTAR PUSTAKA ........................................................................................... 33
Page 8
DAFTAR TABEL
Tabel 2. 1 Confusion Matrix ................................................................................. 12
Tabel 3. 1 Konseptual Framework pengembangan sistem.................................... 13
Tabel 3. 2 Daftar bagian Abstraksi serta tag yang digunakan .............................. 15
Tabel 3. 3. Tabel Tag yang sudah dimodifikasi .................................................... 16
Tabel 3. 4 Fitur Internal ........................................................................................ 18
Tabel 3. 5 Fitur Eksternal ...................................................................................... 18
Tabel 4. 1. Contoh data yang sudah dikumpulkan.................................................23
Tabel 4. 2. Contoh data yang sudah dianotasi........................................................24
Tabel. 4.3. Hasil tes klasifikasi dan perhitungan akurasinya................................30
Page 9
DAFTAR GAMBAR
Gambar 2. 1. Proses Klasifikasi .............................................................................. 9
Gambar 3. 1 Alur ekstraksi fitur ........................................................................... 17
Gambar 3. 2 UseCase diagram Ekstraksi Informasi ............................................. 21
Gambar 3. 3. FlowChart Sistem Ekstraksi Informasi ........................................... 21
Gambar 4. 1. Proses Ekstraksi Fitur ...................................................................... 25
Gambar 4. 2. Hasil Ekstraksi Fitur ........................................................................ 25
Gambar 4. 3. Hasil Ekstraksi setelah dibentuk menjadi ARFF............................. 26
Gambar 4. 4. Hasil Tes klasifikasi sebuah abstrak jurnal.......................................28
Gambar 4. 5. Hasil tes klasifikasi dan perhitungan akurasinya..............................29
Page 10
i
DAFTAR GRAFIK
Grafik 4.1. Grafik sebaran data. ............................................................................ 26
Grafik 4.2. Grafik sebaran data setelah dilakukan resample ................................. 27
Page 12
1
DAFTAR PUSTAKA
[1] Gusti, “Universitas Gadjah Mada: Hasil Riset Perguruan Tinggi Masih
Sedikit Dimanfaatkan Industri,” 2009. [Online]. Available:
https://ugm.ac.id/id/berita/1252-
hasil.riset.perguruan.tinggi.masih.sedikit.dimanfaatkan.industri. [Accessed:
03-Feb-2017].
[2] E. P. Putra, “Abdul Mu’ti: Wisudawan UMM Lulus pada Masa Kritis |
Republika Online,” 2015. [Online]. Available:
http://www.republika.co.id/berita/pendidikan/dunia-
kampus/15/11/28/nyirgq334-abdul-muti-wisudawan-umm-lulus-pada-
masa-kritis. [Accessed: 03-Feb-2017].
[3] Mustakini JH. Analisis dan Desain Sistem Informasi pendekatan terstruktur
teori dan praktik aplikasi bisnis. Edisi kedua Yogyakarta: Andi Offset. 2005.
[4] Darujati C, Gumelar AB. Pemanfaatan Teknik Supervised Untuk Klasifikasi
Teks Bahasa Indonesia. Jurnal Bandung Text Mining. 2012;16(1):5-1.
[5] Gupta S, Manning CD. Analyzing the Dynamics of Research by Extracting
Key Aspects of Scientific Papers. InIJCNLP 2011 (pp. 1-9).
[6] Khodra ML, Purwarianti A. Ekstraksi Informasi Transaksi Online pada
Twitter. Jurnal Cybermatika. 2013 Jul 9;1(1).
[7] Ilyas R, Khodra ML. Ekstraksi Informasi 5W1H pada Berita Online Bahasa
Indonesia. Jurnal Cybermatika. 2015 Oct 12;3(1).
[8] Hermawati FA. Data Mining. 2013. ANDI: Yogyakarta.
[9] Larose DT. Discovering knowledge in data: an introduction to data mining.
John Wiley & Sons; 2014 Jun 2.
[10] Gunadi G, Sensuse DI. Penerapan Metode Data Mining Market Basket
Analysis terhadap Data Penjualan Produk Buku dengan menggunakan
Algoritma Apriori dan Frequent Pattern Growth (FPGrowth): Studi Kasus
Percetakan PT Gramedia. Jurnal Telematika MKOM. 2012;4(1).
[11] Singh MP, editor. The practical handbook of internet computing. CRC press;
2004 Sep 29.
[12] Arifin AZ, Setiono AN. Klasifikasi dokumen berita kejadian berbahasa
indonesia dengan algoritma single pass clustering. InProsiding Seminar on
Page 13
2
Intelligent Technology and its Applications (SITIA), Teknik Elektro, Institut
Teknologi Sepuluh Nopember Surabaya. 2002.
[13] Sitanggang S. Pengkategorian Buku untuk Fakultas Teknik Menggunakan
Metode Naive Bayes Classifier di Perpustakaan Universitas Widyatama
(Doctoral dissertation, Universitas Widyatama).
[14] Budiyanto A. Pengantar Algoritma dan Pemrograman. Kuliah Berseri IImu
Komputer. 2003.
[15] Nugraha DW. Penerapan Kompleksitas Waktu Algoritma Prim Untuk
Menghitung Kemampuan Komputer Dalam Melaksanakan Perintah.
InFORISTEK: Forum Teknik Elektro dan Teknologi Informasi 2012 (Vol.
2, No. 2).
[16] Jananto A. Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi
Mahasiswa. Dinamik-Jurnal Teknologi Informasi. 2013;18(1).
[17] Adnyana IM. PREDIKSI LAMA STUDI MAHASISWA DENGAN
METODE RANDOM FOREST (STUDI KASUS: STIKOM BALI). CSRID
(Computer Science Research and Its Development Journal). 2016 Nov
24;8(3):201-8.
[18] Platt J. Sequential minimal optimization: A fast algorithm for training
support vector machines.
[19] Lestari M. Penerapan Algoritma Klasifikasi Nearest Neighbor (k-NN) Untuk
Mendeteksi Penyakit Jantung. Faktor Exacta. 2015 Oct 19;7(4):366-71.
[20] Sari BN. Implementasi Teknik Seleksi Fitur Information Gain Pada
Algoritma Klasifikasi Machine Learning Untuk Prediksi Performa
Akademik Siswa. SEMNASTEKNOMEDIA ONLINE. 2016 Feb 22;4(1):2-
9.
[21] Gupta S, Manning CD. Identifying focus, techniques and domain of
scientific papers. InProceedings of the Nips-10 Workshop on Computational
Social Science and the Wisdom of Crowds. Whistler, Canada: Neural
Information Processing Systems (NIPS) Foundation 2010.
[22] Purwarianti A, Andhika A, Wicaksono AF, Afif I, Ferdian F. InaNLP:
Indonesia natural language processing toolkit, case study: Complaint tweet
classification. InAdvanced Informatics: Concepts, Theory And Application
Page 14
3
(ICAICTA), 2016 International Conference On 2016 Aug 16 (pp. 1-5).
IEEE.
[23] Hoens TR, Chawla NV. Imbalanced datasets: from sampling to classifiers.
Imbalanced Learning: Foundations, Algorithms, and Applications. 2013
May 23:43-59.