Top Banner
i HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY UNTUK CLUSTERING DOKUMEN (STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS) SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun oleh : BETTY NOVARIA M0509017 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2016
13

HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Apr 04, 2019

Download

Documents

LêKhánh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

i

HALAMAN JUDUL

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Program Studi Informatika

Disusun oleh :

BETTY NOVARIA

M0509017

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

Page 2: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

ii

HALAMAN PERSETUJUAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Skripsi ini telah disetujui untuk dipertahankan di hadapan Dewan Penguji

pada tanggal 18 Juli 2016

Pembimbing 1

Pembimbing 2

Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

Rini Anggrainingsih, S.T., M.T.

NIP. 19780909 200812 2 002

Page 3: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

iii

HALAMAN PENGESAHAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Telah dipertahankan di hadapan Dewan Penguji

pada tanggal: 18 Juli 2016

Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

( )

2. Rini Anggrainingsih, S.T., M.T.

NIP. 19780909 200812 2 002

( )

3. Abdul Aziz, S.Kom., M.Cs

NIP. 19810413 200501 1 001

( )

4. Winarno, S.Si., M.Eng

NIP. 19820520 200604 1 001

( )

Disahkan oleh

Kepala Program Studi Informatka

Drs. Bambang Harjito, M.Apps.Sc., Ph.D

NIP. 19621130 199103 1 002

Page 4: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

iv

MOTTO

“Bersukacitalah dalam pengharapan, sabarlah dalam kesesakan,

dan bertekunlah dalam doa!”

– Roma 12:12 –

“Untuk segala sesuatu ada masanya, untuk apa pun di bawah langit ada

waktunya.”

– Pengkhotbah 3:1 –

“Be faithful in small things because it is in them that your strength lies”

– Mother Teresa –

Page 5: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

v

PERSEMBAHAN

Karya ini penulis persembahkan kepada :

Tuhan Yesus Kristus

Keluarga tercinta, Alm. Bapak, Ibu, dan Kakak

Sahabat tercinta, Fransisca Kusumaningrum, Dewi Asih Sesami, Catur Ariani,

dan Erlina Nur Ratriningrum

Teman-teman Informatika UNS, Putri, Idha, Novi, Totto, Ferry, Lutvi, Andika,

Udhi, Teno, Rosa, Putri, Cerren, Maman dan teman-teman lain yang tidak

bisa penulis sebutkan satu-persatu

Page 6: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

vi

KATA PENGANTAR

Salam sejahtera,

Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya sehingga

penulis dapat menyelesaikan skripsi yang berjudul “Penerapan Group-Average

dan Cosine Similarity untuk Clustering Dokumen (Studi Kasus: Tugas Akhir

Mahasiswa S1 Informatika UNS)”.

Penulis menyadari akan keterbatasan yang penulis miliki dalam penyusunan

skripsi ini. Skripsi ini tidak akan selesai tanpa adanya bantuan dari berbagai pihak.

Oleh karena itu penulis menyampaikan terima kasih kepada :

1. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi

Informatika.

2. Bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I dan Ibu Rini

Anggrainingsih, S.T., M.T. selaku Dosen Pembimbing II yang dengan sabar

membimbing, mengarahkan, dan memberi masukan kepada penulis dalam

menyelesaikan skripsi ini.

3. Bapak Didiek Sri Wiyono, S.T., M.T. dan Ibu Rini Anggrainingsih, M.T. selaku

Pembimbing Akademik yang telah memberikan pengarahan selama proses

menuntut ilmu.

4. Keluarga tercinta yang selalu memberi semangat dan dukungan yang tiada henti.

5. Teman-teman Informatika khususnya angkatan 2009 yang telah memberikan

kebersamaan selama menempuh studi.

6. Bapak dan Ibu dosen Program Studi Informatika yang telah memberikan ilmu

yang bermanfaat kepada penulis selama menempuh studi.

7. Pihak-pihak lain yang telah membantu pelaksanaan dan penyusunan skripsi ini.

Semoga skripsi ini dapat memberikan manfaat bagi semua pihak.

Surakarta, Juni 2016

Penulis

Page 7: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

vii

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

BETTY NOVARIA

Program Studi Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret

ABSTRAK

Jumlah koleksi dokumen tugas akhir di Program Studi Informatika UNS

semakin bertambah, tetapi koleksi dokumen tugas akhir tersebut belum

dimanfaatkan secara maksimal. Padahal jika diolah dengan mengelompokkan

dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir

tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Pada penelitian ini, dilakukan clustering terhadap dokumen tugas akhir di

Program Studi Informatika UNS menggunakan metode Group-Average dan

Cosine Similarity. Bagian dokumen yang diolah adalah bab 2 yang berisi tinjauan

pustaka. Jumlah koleksi dokumen yang digunakan adalah 110 dokumen.

Hasil clustering menggunakan metode Group-Average menghasilkan 10

cluster dengan ketidaksesuaian dokumen sebanyak 8 dokumen. Analisis

dilakukan secara subyektif dengan melihat kemiripan topik berdasarkan judul

antara dokumen yang satu dengan dokumen yang lain dalam satu cluster. Hasil

analisis menunjukkan bahwa kemiripan metode yang digunakan dan studi kasus

yang diangkat di dalam penelitian tugas akhir mempengaruhi hasil pembentukan

cluster.

Kata Kunci : Clustering, Cosine Similarity, Group-Average, Text Preprocessing

Page 8: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

viii

APPLICATION OF GROUP-AVERAGE AND

COSINE SIMILARITY FROM DOCUMENTS CLUSTERING

(Case Study: Thesis in Department of Informatics, UNS)

BETTY NOVARIA

Department of Informatic. Mathematic and Science Faculty.

Sebelas Maret University

ABSTRACT

The number of thesis documents in the Department of Informatics is

increasing, but the documents have not been fully utilized. Whereas, if the

documents processed by grouping them based on similarity of topics, the

documents can provide useful information for both lecturers and students.

This research focus on clustering of thesis documents in the Department of

Informatics using Group-Average and Cosine Similarity methods. Part of

documents that was processed was chapter 2 which contains literature review. The

number of documents were used in this research are 110 documents.

The result of clustering using Group Average produced 10 clusters with

document mismatches of 8 documents. Analysis was conducted subjectively by

looking at the similarity of topics based on the title between one document with

the other documents in a single cluster. The analysis showed that the similarity of

the methods and case studies used in thesis documents affect the results of cluster

formation.

Keywords: Clustering, Cosine Similarity, Group-Average, Text Preprocessing

Page 9: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

ix

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN ................................................................................ iii

MOTTO.................................................................................................................. iv

PERSEMBAHAN ................................................................................................... v

KATA PENGANTAR ........................................................................................... vi

ABSTRAK ............................................................................................................ vii

ABSTRACT ......................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xi

DAFTAR GAMBAR ............................................................................................ xii

DAFTAR LAMPIRAN ........................................................................................ xiii

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang .......................................................................................... 1

1.2 Rumusan Masalah ..................................................................................... 2

1.3 Batasan Masalah ....................................................................................... 3

1.4 Tujuan Penelitian ...................................................................................... 3

1.5 Manfaat Penelitian .................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 4

BAB II LANDASAN TEORI ................................................................................ 5

2.1 Dasar Teori ............................................................................................... 5

2.1.1 Text Mining ....................................................................................... 5

2.1.2 Text Preprocessing ............................................................................ 5

2.1.3 TF-IDF (Term Frequency – Inverse Document Frequency) ............. 6

2.1.4 DF-Thresholding Feature Selection .................................................. 7

2.1.5 Algoritma Nazief & Adriani.............................................................. 7

2.1.6 Clustering .......................................................................................... 8

2.1.7 Group-Average Clustering ................................................................ 9

2.1.8 Cosine Similarity ............................................................................. 10

Page 10: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

x

2.2 Penelitian Terkait .................................................................................... 11

2.3 Rencana Penelitian .................................................................................. 13

BAB III METODOLOGI PENELITIAN............................................................. 16

3.1 Pengumpulan Data .................................................................................. 16

3.2 Text Preprocessing .................................................................................. 16

3.3 Pembobotan TF-IDF dan Feature Selection ........................................... 17

3.4 Clustering Dokumen dengan Group-Average ........................................ 17

3.5 Analisis Hasil.......................................................................................... 18

BAB IV HASIL DAN PEMBAHASAN ............................................................. 19

4.1 Dataset ...................................................................................................... 19

4.2 Tahap Text Preprocessing ........................................................................ 19

4.3 Pembobotan TF-IDF dan Feature Selection ............................................ 21

4.4 Clustering dengan Group Average dan Cosine Similarity ....................... 23

4.5 Analisis Hasil ........................................................................................... 31

BAB V PENUTUP ............................................................................................... 48

5.1 Kesimpulan .............................................................................................. 48

5.2 Saran ........................................................................................................ 48

DAFTAR PUSTAKA ........................................................................................... 49

Page 11: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

xi

DAFTAR TABEL

Tabel 2.1 Matriks konsep penelitian ...................................................................... 14

Tabel 4.1 Rincian Jumlah Data .............................................................................. 19

Tabel 4.2 Contoh 5 Buah Dokumen ....................................................................... 23

Tabel 4.3 Hasil Normalisasi Bobot TF-IDF pada 5 Buah Dokumen ..................... 24

Tabel 4.4 Perhitungan Perhitungan Σ 𝑤𝑞,𝑗𝑤𝑖,𝑗 ...................................................... 25

Tabel 4.5 Perhitungan Perhitungan √Σ 𝑤𝑞,𝑗2 ............................................................ 26

Tabel 4.6 Jumlah Cluster yang Dihasilkan Threshold ........................................... 31

Tabel 4.7 Analisis Topik pada Setiap Cluster ........................................................ 34

Tabel 4.8 Dokumen yang Tidak Sesuai ................................................................. 36

Tabel 4.9 Cluster 1 ................................................................................................. 36

Tabel 4.10 Cluster 2 ............................................................................................... 38

Tabel 4.11 Cluster 3 ............................................................................................... 40

Tabel 4.12 Cluster 4 ............................................................................................... 42

Tabel 4.13 Cluster 5 ............................................................................................... 43

Tabel 4.14 Cluster 6 ............................................................................................... 44

Tabel 4.15 Cluster 7 ............................................................................................... 45

Tabel 4.16 Cluster 8 ............................................................................................... 45

Tabel 4.17 Cluster 9 ............................................................................................... 46

Tabel 4.18 Cluster 10 ............................................................................................. 46

Page 12: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

xii

DAFTAR GAMBAR

Gambar 2.1 Struktur Dendrogram.......................................................................... 10

Gambar 3.1 Metodologi Penelitian ........................................................................ 16

Gambar 3.2 Diagram Alir Group-Average ............................................................ 18

Gambar 4.1 Hasil Tokenizing, Filtering, dan Stemming ....................................... 20

Gambar 4.2 Hasil Text Preprocessing dan Pembobotan TF-IDF .......................... 22

Gambar 4.3 Dendrogram Hasil Clustering 5 Dokumen ......................................... 30

Gambar 4.4 Dendrogram Hasil Clustering............................................................. 33

Page 13: HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

xiii

DAFTAR LAMPIRAN

LAMPIRAN A .................................................................................................. 51

LAMPIRAN B .................................................................................................. 57

LAMPIRAN C .................................................................................................. 75