HALAMAN JUDUL PENERAPAN GROUP-AVERAGE DAN … · dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Post on 04-Apr-2019

231 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

Transcript

i

HALAMAN JUDUL

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Program Studi Informatika

Disusun oleh :

BETTY NOVARIA

M0509017

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

ii

HALAMAN PERSETUJUAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Skripsi ini telah disetujui untuk dipertahankan di hadapan Dewan Penguji

pada tanggal 18 Juli 2016

Pembimbing 1

Pembimbing 2

Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

Rini Anggrainingsih, S.T., M.T.

NIP. 19780909 200812 2 002

iii

HALAMAN PENGESAHAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Telah dipertahankan di hadapan Dewan Penguji

pada tanggal: 18 Juli 2016

Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

( )

2. Rini Anggrainingsih, S.T., M.T.

NIP. 19780909 200812 2 002

( )

3. Abdul Aziz, S.Kom., M.Cs

NIP. 19810413 200501 1 001

( )

4. Winarno, S.Si., M.Eng

NIP. 19820520 200604 1 001

( )

Disahkan oleh

Kepala Program Studi Informatka

Drs. Bambang Harjito, M.Apps.Sc., Ph.D

NIP. 19621130 199103 1 002

iv

MOTTO

“Bersukacitalah dalam pengharapan, sabarlah dalam kesesakan,

dan bertekunlah dalam doa!”

– Roma 12:12 –

“Untuk segala sesuatu ada masanya, untuk apa pun di bawah langit ada

waktunya.”

– Pengkhotbah 3:1 –

“Be faithful in small things because it is in them that your strength lies”

– Mother Teresa –

v

PERSEMBAHAN

Karya ini penulis persembahkan kepada :

Tuhan Yesus Kristus

Keluarga tercinta, Alm. Bapak, Ibu, dan Kakak

Sahabat tercinta, Fransisca Kusumaningrum, Dewi Asih Sesami, Catur Ariani,

dan Erlina Nur Ratriningrum

Teman-teman Informatika UNS, Putri, Idha, Novi, Totto, Ferry, Lutvi, Andika,

Udhi, Teno, Rosa, Putri, Cerren, Maman dan teman-teman lain yang tidak

bisa penulis sebutkan satu-persatu

vi

KATA PENGANTAR

Salam sejahtera,

Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya sehingga

penulis dapat menyelesaikan skripsi yang berjudul “Penerapan Group-Average

dan Cosine Similarity untuk Clustering Dokumen (Studi Kasus: Tugas Akhir

Mahasiswa S1 Informatika UNS)”.

Penulis menyadari akan keterbatasan yang penulis miliki dalam penyusunan

skripsi ini. Skripsi ini tidak akan selesai tanpa adanya bantuan dari berbagai pihak.

Oleh karena itu penulis menyampaikan terima kasih kepada :

1. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi

Informatika.

2. Bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I dan Ibu Rini

Anggrainingsih, S.T., M.T. selaku Dosen Pembimbing II yang dengan sabar

membimbing, mengarahkan, dan memberi masukan kepada penulis dalam

menyelesaikan skripsi ini.

3. Bapak Didiek Sri Wiyono, S.T., M.T. dan Ibu Rini Anggrainingsih, M.T. selaku

Pembimbing Akademik yang telah memberikan pengarahan selama proses

menuntut ilmu.

4. Keluarga tercinta yang selalu memberi semangat dan dukungan yang tiada henti.

5. Teman-teman Informatika khususnya angkatan 2009 yang telah memberikan

kebersamaan selama menempuh studi.

6. Bapak dan Ibu dosen Program Studi Informatika yang telah memberikan ilmu

yang bermanfaat kepada penulis selama menempuh studi.

7. Pihak-pihak lain yang telah membantu pelaksanaan dan penyusunan skripsi ini.

Semoga skripsi ini dapat memberikan manfaat bagi semua pihak.

Surakarta, Juni 2016

Penulis

vii

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

BETTY NOVARIA

Program Studi Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret

ABSTRAK

Jumlah koleksi dokumen tugas akhir di Program Studi Informatika UNS

semakin bertambah, tetapi koleksi dokumen tugas akhir tersebut belum

dimanfaatkan secara maksimal. Padahal jika diolah dengan mengelompokkan

dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir

tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Pada penelitian ini, dilakukan clustering terhadap dokumen tugas akhir di

Program Studi Informatika UNS menggunakan metode Group-Average dan

Cosine Similarity. Bagian dokumen yang diolah adalah bab 2 yang berisi tinjauan

pustaka. Jumlah koleksi dokumen yang digunakan adalah 110 dokumen.

Hasil clustering menggunakan metode Group-Average menghasilkan 10

cluster dengan ketidaksesuaian dokumen sebanyak 8 dokumen. Analisis

dilakukan secara subyektif dengan melihat kemiripan topik berdasarkan judul

antara dokumen yang satu dengan dokumen yang lain dalam satu cluster. Hasil

analisis menunjukkan bahwa kemiripan metode yang digunakan dan studi kasus

yang diangkat di dalam penelitian tugas akhir mempengaruhi hasil pembentukan

cluster.

Kata Kunci : Clustering, Cosine Similarity, Group-Average, Text Preprocessing

viii

APPLICATION OF GROUP-AVERAGE AND

COSINE SIMILARITY FROM DOCUMENTS CLUSTERING

(Case Study: Thesis in Department of Informatics, UNS)

BETTY NOVARIA

Department of Informatic. Mathematic and Science Faculty.

Sebelas Maret University

ABSTRACT

The number of thesis documents in the Department of Informatics is

increasing, but the documents have not been fully utilized. Whereas, if the

documents processed by grouping them based on similarity of topics, the

documents can provide useful information for both lecturers and students.

This research focus on clustering of thesis documents in the Department of

Informatics using Group-Average and Cosine Similarity methods. Part of

documents that was processed was chapter 2 which contains literature review. The

number of documents were used in this research are 110 documents.

The result of clustering using Group Average produced 10 clusters with

document mismatches of 8 documents. Analysis was conducted subjectively by

looking at the similarity of topics based on the title between one document with

the other documents in a single cluster. The analysis showed that the similarity of

the methods and case studies used in thesis documents affect the results of cluster

formation.

Keywords: Clustering, Cosine Similarity, Group-Average, Text Preprocessing

ix

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN ................................................................................ iii

MOTTO.................................................................................................................. iv

PERSEMBAHAN ................................................................................................... v

KATA PENGANTAR ........................................................................................... vi

ABSTRAK ............................................................................................................ vii

ABSTRACT ......................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xi

DAFTAR GAMBAR ............................................................................................ xii

DAFTAR LAMPIRAN ........................................................................................ xiii

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang .......................................................................................... 1

1.2 Rumusan Masalah ..................................................................................... 2

1.3 Batasan Masalah ....................................................................................... 3

1.4 Tujuan Penelitian ...................................................................................... 3

1.5 Manfaat Penelitian .................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 4

BAB II LANDASAN TEORI ................................................................................ 5

2.1 Dasar Teori ............................................................................................... 5

2.1.1 Text Mining ....................................................................................... 5

2.1.2 Text Preprocessing ............................................................................ 5

2.1.3 TF-IDF (Term Frequency – Inverse Document Frequency) ............. 6

2.1.4 DF-Thresholding Feature Selection .................................................. 7

2.1.5 Algoritma Nazief & Adriani.............................................................. 7

2.1.6 Clustering .......................................................................................... 8

2.1.7 Group-Average Clustering ................................................................ 9

2.1.8 Cosine Similarity ............................................................................. 10

x

2.2 Penelitian Terkait .................................................................................... 11

2.3 Rencana Penelitian .................................................................................. 13

BAB III METODOLOGI PENELITIAN............................................................. 16

3.1 Pengumpulan Data .................................................................................. 16

3.2 Text Preprocessing .................................................................................. 16

3.3 Pembobotan TF-IDF dan Feature Selection ........................................... 17

3.4 Clustering Dokumen dengan Group-Average ........................................ 17

3.5 Analisis Hasil.......................................................................................... 18

BAB IV HASIL DAN PEMBAHASAN ............................................................. 19

4.1 Dataset ...................................................................................................... 19

4.2 Tahap Text Preprocessing ........................................................................ 19

4.3 Pembobotan TF-IDF dan Feature Selection ............................................ 21

4.4 Clustering dengan Group Average dan Cosine Similarity ....................... 23

4.5 Analisis Hasil ........................................................................................... 31

BAB V PENUTUP ............................................................................................... 48

5.1 Kesimpulan .............................................................................................. 48

5.2 Saran ........................................................................................................ 48

DAFTAR PUSTAKA ........................................................................................... 49

xi

DAFTAR TABEL

Tabel 2.1 Matriks konsep penelitian ...................................................................... 14

Tabel 4.1 Rincian Jumlah Data .............................................................................. 19

Tabel 4.2 Contoh 5 Buah Dokumen ....................................................................... 23

Tabel 4.3 Hasil Normalisasi Bobot TF-IDF pada 5 Buah Dokumen ..................... 24

Tabel 4.4 Perhitungan Perhitungan Σ 𝑤𝑞,𝑗𝑤𝑖,𝑗 ...................................................... 25

Tabel 4.5 Perhitungan Perhitungan √Σ 𝑤𝑞,𝑗2 ............................................................ 26

Tabel 4.6 Jumlah Cluster yang Dihasilkan Threshold ........................................... 31

Tabel 4.7 Analisis Topik pada Setiap Cluster ........................................................ 34

Tabel 4.8 Dokumen yang Tidak Sesuai ................................................................. 36

Tabel 4.9 Cluster 1 ................................................................................................. 36

Tabel 4.10 Cluster 2 ............................................................................................... 38

Tabel 4.11 Cluster 3 ............................................................................................... 40

Tabel 4.12 Cluster 4 ............................................................................................... 42

Tabel 4.13 Cluster 5 ............................................................................................... 43

Tabel 4.14 Cluster 6 ............................................................................................... 44

Tabel 4.15 Cluster 7 ............................................................................................... 45

Tabel 4.16 Cluster 8 ............................................................................................... 45

Tabel 4.17 Cluster 9 ............................................................................................... 46

Tabel 4.18 Cluster 10 ............................................................................................. 46

xii

DAFTAR GAMBAR

Gambar 2.1 Struktur Dendrogram.......................................................................... 10

Gambar 3.1 Metodologi Penelitian ........................................................................ 16

Gambar 3.2 Diagram Alir Group-Average ............................................................ 18

Gambar 4.1 Hasil Tokenizing, Filtering, dan Stemming ....................................... 20

Gambar 4.2 Hasil Text Preprocessing dan Pembobotan TF-IDF .......................... 22

Gambar 4.3 Dendrogram Hasil Clustering 5 Dokumen ......................................... 30

Gambar 4.4 Dendrogram Hasil Clustering............................................................. 33

xiii

DAFTAR LAMPIRAN

LAMPIRAN A .................................................................................................. 51

LAMPIRAN B .................................................................................................. 57

LAMPIRAN C .................................................................................................. 75

top related