7 BAB II TINJAUAN PUSTAKA 2.1 Peringkasan Teks Otomatis Peringkasan teks otomatis adalah proses mengurangi teks pada dokumen dengan menggunakan program komputer untuk membuat ringkasan yang berisikan poin-poin penting dimana hasil ringkasan tidak lebih dari setengah dokumen asli (Radev et al, 2002). Terdapat dua bagian dari kriteria peringkasan teks yaitu ekstraksi dan abstraksi (Suanmali et al, 2009). Teknik ekstraksi yaitu teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang disalin dan memilih bagian-bagian kalimat penting dari dokumen asli. Sedangkan teknik abstraksi adalah teknik peringkasan dengan mengambil informasi penting dari dokumen kemudian menghasilkan ringkasan yang menggunakan kalimat baru yang tidak terdapat pada dokumen asli. 2.2 Kalimat Kalimat adalah satuan bahasa terkecil yang merupakan kesatuan pikiran. Kalimat dapat dibedakan menjadi bahasa lisan dan bahasa tulis. Dalam bahasa lisan, kalimat adalah satuan bahasa yang terbentuk atas gabungan kata dengan kata, gabungan kata dengan frasa, atau gabungan frasa dengan frasa, yang minimal berupa sebuah klausa bebas yang minimal mengandung satu subjek dan predikat. Dalam bahasa tulis, kalimat adalah satuan bahasa yang diawali oleh huruf kapital, diselingi atau tidak diselingi tanda koma (,), titik dua (:) atau titik koma (;) dan diakhiri dengan lambang intonasi final yaitu tanda titik (.), tanda tanya (?) atau tanda seru (!). Pada tugas akhir ini, tiap-tiap kalimat yang ada pada dokumen akan dihitung skornya berdasarkan fitur ekstraksi. Skor dari kalimat tersebut akan menentukan apakah kalimat tersebut penting atau tidak. Kalimat yang memiliki skor tinggi kemungkinan merupakan kalimat yang penting dari sebuah dokumen.
24
Embed
BAB II TINJAUAN PUSTAKA - sinta.unud.ac.id II.pdf · 1. Menurut Yudhoyono, soal status almarhum Theys itu dikesampingkan dulu saat ini. 2. "Yang penting, pengusutan kematiannya harus
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
7
BAB II
TINJAUAN PUSTAKA
2.1 Peringkasan Teks Otomatis
Peringkasan teks otomatis adalah proses mengurangi teks pada dokumen
dengan menggunakan program komputer untuk membuat ringkasan yang
berisikan poin-poin penting dimana hasil ringkasan tidak lebih dari setengah
dokumen asli (Radev et al, 2002). Terdapat dua bagian dari kriteria peringkasan
teks yaitu ekstraksi dan abstraksi (Suanmali et al, 2009). Teknik ekstraksi yaitu
teknik peringkasan secara lengkap yang terdiri dari urutan-urutan kalimat yang
disalin dan memilih bagian-bagian kalimat penting dari dokumen asli. Sedangkan
teknik abstraksi adalah teknik peringkasan dengan mengambil informasi penting
dari dokumen kemudian menghasilkan ringkasan yang menggunakan kalimat baru
yang tidak terdapat pada dokumen asli.
2.2 Kalimat
Kalimat adalah satuan bahasa terkecil yang merupakan kesatuan pikiran.
Kalimat dapat dibedakan menjadi bahasa lisan dan bahasa tulis. Dalam bahasa
lisan, kalimat adalah satuan bahasa yang terbentuk atas gabungan kata dengan
kata, gabungan kata dengan frasa, atau gabungan frasa dengan frasa, yang
minimal berupa sebuah klausa bebas yang minimal mengandung satu subjek dan
predikat. Dalam bahasa tulis, kalimat adalah satuan bahasa yang diawali oleh
huruf kapital, diselingi atau tidak diselingi tanda koma (,), titik dua (:) atau titik
koma (;) dan diakhiri dengan lambang intonasi final yaitu tanda titik (.), tanda
tanya (?) atau tanda seru (!).
Pada tugas akhir ini, tiap-tiap kalimat yang ada pada dokumen akan
dihitung skornya berdasarkan fitur ekstraksi. Skor dari kalimat tersebut akan
menentukan apakah kalimat tersebut penting atau tidak. Kalimat yang memiliki
skor tinggi kemungkinan merupakan kalimat yang penting dari sebuah dokumen.
8
Pada tugas akhir ini, kalimat dipisahkan berdasarkan tanda titik (.) dan
kutipan langsung diasumsikan sebagai satu kalimat yang tidak dapat dipisahkan.
Berikut ini contoh pemisahan kalimat dari sebuah dokumen:
Menurut Yudhoyono, soal status almarhum Theys itu dikesampingkan dulu saat
ini. "Yang penting, pengusutan kematiannya harus tuntas demi keadilan dan
kebenaran," papar Yudhoyono yang menyebut almarhum Theys sebagai tokoh.
"Biarkanlah proses ini berjalan dengan baik, dan nanti dengan transparan dan
penjelasan gamblang rakyat akan melihat siapa almarhum Theys itu. Maka lebih
bagus, status predikat politik siapa Pak Theys itu kita kesampingkan," tambahnya.
Berdasarkan dokumen di atas, sistem akan melakukan pemisahan kalimat
berdasarkan titik (.) dan kutipan langsung. Sehingga dokumen di atas akan
menghasilkan tiga buah kalimat. Berikut ini tiga kalimat yang telah dipisahkan:
1. Menurut Yudhoyono, soal status almarhum Theys itu dikesampingkan
dulu saat ini.
2. "Yang penting, pengusutan kematiannya harus tuntas demi keadilan dan
kebenaran," papar Yudhoyono yang menyebut almarhum Theys sebagai
tokoh.
3. "Biarkanlah proses ini berjalan dengan baik, dan nanti dengan transparan
dan penjelasan gamblang rakyat akan melihat siapa almarhum Theys itu.
Maka lebih bagus, status predikat politik siapa Pak Theys itu kita
kesampingkan," tambahnya.
2.3 Text Preprocessing
Penyimpanan data secara terstruktur dapat membantu pengolahan data
yang dilakukan oleh komputer, karena data terstruktur dapat mempermudah
penciptaan algoritma yang efisien. Oleh karena itu pada text mining, dibutuhkan
pemrosesan data terlebih dahulu untuk mengubah data tekstual yang tidak
terstruktur menjadi data yang terstruktur. Di dalam text mining proses untuk
mendapatkan representasi terstruktur dari data tekstual mentah yang tidak
terstruktur disebut text preprocessing.
Tahap text preprocessing terdiri dari beberapa tahap yaitu tokenizing,
filtering, tagging, dan stemming. Pada tugas akhir ini hanya menggunakan proses
9
tokenizing, filtering, dan stemming. Proses tagging tidak digunakan karena ketiga
proses yang telah disebutkan sebelumnya sudah cukup untuk mendapatkan data
yang terstruktur. Gambar 2.1 menunjukkan tahap preprocessing text.
Gambar 2.1 Tahap Preprocessing Text
2.3.1 Tokenizing
Pada proses tokenizing, kata-kata yang ada di dalam dokumen harus
dipecah-pecah terlebih dahulu menjadi bagian-bagian yang lebih kecil berupa kata
tunggal yang memiliki arti atau biasa disebut token (Manning et al, 2009). Proses
tokenizing pada tugas akhir ini dilakukan per kalimat. Selain itu dilakukan juga
pengubahan huruf-huruf yang ada di dalam dokumen menjadi huruf kecil (case
folding) serta dilakukan penghilangan tanda baca. Hal ini dilakukan terlebih
dahulu untuk mempermudah proses pengolahan lebih lanjut.
Contoh tokenizing :
Teks asli : Saya senang bermain sepakbola di rumah sejak kecil.
Hasil tokenizing : saya, senang, bermain, sepakbola, di, rumah, sejak, kecil
2.3.2 Filtering
Text filtering bertujuan untuk mengambil kata-kata yang dapat
mempresentasikan isi dokumen dengan cara membuang kata-kata yang dianggap
tidak penting yang biasa disebut stopwords (Manning et al, 2009). Stopwords
dapat berupa kata sambung, kata depan, dan kata seru seperti “di”, “yang”, “dan”,
“ke”, “wah”, “serta”, “wow”, dan lain-lain.
Tokenizing
Filtering
Stemming
Hasil
Preprocessing
Original
Text
10
Contoh filtering :
Hasil tokenizing : saya, senang, bermain, sepakbola, di, rumah, sejak, kecil
Hasil filtering : senang, bermain, sepakbola, rumah
2.3.3 Stemming
Stemming adalah proses yang dilakukan untuk mengambil bentuk dasar
dari suatu kata yang telah melalui proses filtering (Manning et al, 2009).
Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming
untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi yang
berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua
bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia
lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk
mendapatkan root word (kata dasar) dari sebuah kata.
Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi
misalnya “berjalan”, “menjalani”, “perjalanan” sama-sama memiliki kata dasar
“jalan”. Banyak metode yang dapat digunakan untuk melakukan stemming pada
dokumen berbahasa Indonesia salah satunya adalah algoritma Nazief dan Adriani.
Algoritma ini berdasarkan aturan-aturan yang mengelompokkan imbuhan yang
diperbolehkan dan dilarang untuk digunakan. Pada tugas akhir ini menggunakan
algoritma Nazief dan Adriani karena algoritma Nazief dan Andriani merupakan
algoritma stemming untuk teks berbahasa Indonesia yang memiliki presentase
keakuratan lebih baik dari algoritma lainnya (Agusta, 2009). Berikut ini adalah
langkah-langkah yang dilakukan oleh algoritma Nazief dan Adriani (Agusta,
2009):
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tersebut adalah root word. Maka algoritma
berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang.
Jika berupa particles (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini
diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-
nya”), jika ada.
11
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan
di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-
k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam
kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan
langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke
langkah 4.
c. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus
maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
d. Periksa tabel kombinasi awalan-akhiran yang tidak diizinkan (tabel
2.1). Jika ditemukan maka algoritma berhenti, jika tidak pergi ke
langkah 4b.
e. For i=1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root
word belum juga ditemukan lakukan langkah 5, jika sudah maka
algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan
pertama algoritma berhenti.
4. Melakukan Recoding.
5. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya
secara berturut-turut adalah “di-”, “ke-”, atau “se-”.
2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan
sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”,
atau “pe-” maka berhenti.
4. Jika tipe awalan adalah “tidak ada” maka berhenti. Jika tipe awalan adalah
bukan “tidak ada” maka awalan dapat dilihat pada Tabel 2.2. Hapus
awalan jika ditemukan.
12
Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Tabel 2.2 Cara menentukan tipe awalan untuk kata yang diawali dengan"te"
Following Character Tipe
Set 1 Set 2 Set 3 Set 4 Awalan
"-r-" "-r-" - - None
"-r-" Vowel - - Ter-luluh
"-r-" Not (vowel or "-r-") "-er-" Vowel Ter
"-r-" Not (vowel or "-r-") "-er-" Not vowel Ter-
"-r-" Not (vowel or "-r-") Not "-er-" - Ter
Not (vowel or "-r-") "-er-" Vowel - None
Not (vowel or "-r-") "-er-" Not vowel - Te
Tabel 2. 3 Jenis awalan berdasarkan tipe awalannya
Tipe Awalan Awalan yang harus dihapus
di- di-
ke- ke-
se- se-
te- te-
ter- ter-
ter-luluh Ter
Contoh stemming :
Hasil filtering : senang, bermain, sepakbola, rumah
Hasil stemming : senang, main, sepakbola, rumah
13
2.4 Fitur Ekstraksi Teks
Pada tugas akhir ini menggunakan fitur ekstraksi untuk menghitung skor
tiap-tiap kalimat dalam dokumen. Untuk setiap kalimat dalam dokumen, skor
kalimat dihitung berdasarkan fitur ekstraksi dimana nilai dari tiap-tiap fitur
dinormalisasikan sehingga nilainya berada dalam range [0,1]. Normalisasi ini
dilakukan agar nilai dari tiap-tiap fitur ekstraksi tidak memiliki gap atau selisih
yang besar.
Adapun fitur-fitur ekstraksi yang digunakan pada tugas akhir ini yaitu
positive keyword pada kalimat (f1), kemiripan antar kalimat (f2), kalimat yang
menyerupai judul (f3) dan cosine similarity (f4). Penjelasan dari tiap-tiap fitur
adalah sebagai berikut ini:
2.4.1 Fitur Keyword Positif (F1)
Positif keyword adalah kata yang sering muncul pada sebuah paragraf
(Marlina, 2012). Fitur ini dapat dihitung menggunakan rumus (2.1) :
(2.1)
Dengan si(positif keyword) adalah jumlah kata dalam suatu kalimat yang
mengandung keyword dibagi dengan jumlah kata dalam seluruh kalimat yang
mengandung keyword, dengan keyword merupakan banyaknya kata yang muncul
dalam suatu dokumen. Berikut ini contoh perhitungan keyword positif:
Ibarat tambang emas, Bangka Belitung dipandang menyimpan sejumlah potensi
yang siap gali. Tidak mengherankan bila jumlah pendatang ke provinsi ini terus
bertambah. Konfilk antara warga luar dan local sendiri mulai muncul di
beberapa tempat. Beberapa terkesan sebagai konflik etnis, namun tidak
berkembang lebih jauh karena aparat pemerintah dan keamanan tampaknya