Perancangan dan Implementasi Modul Klasifikasi Jenis Kejadian pada Kronologi dalam Proses Klaim Asuransi Kendaraan Menggunakan Metode Word Embedding Artikel Ilmiah Diajukan kepada Fakultas Teknologi Informasi untuk memperoleh Gelar Sarjana Komputer Peneliti : Robin Febrianto Darmo Husodo - 672015073 Program Studi Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Satya Wacana Salatiga Januari 2020
15
Embed
Perancangan dan Implementasi Modul Klasifikasi Jenis ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Perancangan dan Implementasi Modul Klasifikasi
Jenis Kejadian pada Kronologi dalam Proses
Klaim Asuransi Kendaraan Menggunakan Metode
Word Embedding
Artikel Ilmiah
Diajukan kepada
Fakultas Teknologi Informasi
untuk memperoleh Gelar Sarjana
Komputer
Peneliti :
Robin Febrianto Darmo Husodo - 672015073
Program Studi Teknik Informatika
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Salatiga
Januari 2020
I. PENDAHULUAN
Kendaraan merupakan alat yang digunakan manusia untuk berpindah dari satu tempat ke tempat lain.
Kendaraan sudah menjadi kebutuhan sehari-hari baik untuk pergi kesekolah, bekerja, maupun liburan. Dalam
sehari-hari terdapat resiko yang tidak dapat diprediksi secara pasti seperti bencana alam, kecelakaan, hingga
kematian. Resiko-resiko tersebut dapat diartikan sebagai ketidakpastian atas sesuatu yang dapat menimbulkan
kerugian di masa depan, dimana kejadiannya seringkali tidak dapat diprediksi baik atas frekuensinya maupun
besar atau kecilnya kerugian yang ditimbulkan. Hal tersebut membuat banyaknya perusahaan asuransi yang
berdiri untuk menjadi sebuah perlindungan dan dapat meminimalisasi kerugian secara tepat dan benar.
Perusahaan asuransi juga termasuk salah satu tehnik dalam menajemen resiko yang menerima pengalihan risiko
dari tertanggung, sehingga aktifitas keseharian perusahaan adalah mengelola risiko pihak lain. Banyaknya
manfaat yang dapat dipetik oleh individu atau perusahaan dari kegiatan perasuransian, seperti perasaan aman
yang diperoleh tertanggung atas risiko-risiko yang mungkin timbul dimasa yang akan datang. [1]
Jika kendaraan rusak maka mengakibatkan terhambatnya keperluan sehari-hari. Hal tersebut akan bertambah
lama jika proses klaim asuransi kendaraan juga tidak cepat. Didalam proses klaim asuransi kendaraan terdapat
proses pengecekan kronologi. Tujuan dari pengecekan kronologi adalah mengkategorikan kronologi ke jenis
kejadian yang dicover. Jika jenis kejadian tersebut dicover maka klaim akan diterima, sedangkan jika jenis
kejadian tidak dicover maka klaim ditolak. Proses ini menjadi sangat penting karena menentukan klaim diterima
atau ditolak. Proses ini dapat dilakukan secara otomatis melihat perkembangan teknologi yang cukup pesat,
terutama dalam bidang pemrosesan bahasa manusia.
Salah satu bidang yang cocok untuk menyelesaikan masalah ini adalah kecerdasan buatan. Kecerdasan Buatan
atau Artifical Intelligence merupakan bagian dari ilmu komputer yang membuat agar mesin (komputer) dapat
melakukan pekerjaan seperti dan sebaik yang dilakukan manusia. Sistem cerdas (intelligent system) adalah sistem
yang dibangun dengan menggunakan teknik-teknik Artificial Intelligence. [2] Sejak komputer ditemukan, para
peneliti telah berpikir adakah kemungkinan agar komputer dapat belajar. Jika kita mengerti bagaimana cara
memprogram komputer agar mereka dapat belajar, dan berkembang dari pengalaman secara otomatis, hasilnya
akan luar biasa dramatis. Bayangkan komputer belajar dari data-data medical untuk menemukan cara baru
menangani suatu penyakit, belajar dari pengalaman untuk mengoptimumkan energi yang dibutuhkan untuk
melakukan pekerjaan rumah tangga, dan lain-lain. [3]
Penelitian ini mengambil latar belakang dari evaluasi klaim, fokus dari penelitian ini adalah bagaimana
melakukan klasifikasi kronologi terhadap jenis kejadian menggunakan metode word embedding. Sebelumnya
penelitian mengenai implementasi word embedding sudah dilakukan seperti pada penelitian berjudul “klasifikasi
Opini pada Fitur Produk Berbasis Graph Opinion Classification for Product Feature Based on Graph” yang
menggunakan word embedding sebagai klasifikasi opini, dan “Penerapan Algoritma Cosine Similarity dan
Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi” yang menggunakan word embedding untuk
klasifikasi dokumen skripsi. Tetapi untuk tema klasifikasi jenis kejadian untuk mempercepat proses klaim
asuransi belum pernah diakukan. Tujuan akhir dari penelitan ini adalah adalah dengan automasi klasifikasi jenis
kejadian ini dapat mengurangi waktu evaluasi klaim dengan tingkat akurasi jawaban yang tinggi. Dalam proses
klasifikasi jenis kejadian terdapat kata yang berbeda tetapi memiliki makna yang sama. Hal tersebut menjadi
masalah jika sistem hanya dapat mencocokan berdasarkan kata yang sama. Pada penelitian ini peneliti akan
melakukan perancangan dan implementasi modul klasifikasi jenis kejadian pada kronologi menggunakan metode
word embedding. Metode word embedding ini diharapkan dapat melakukan pencocokan kata yang berbeda dalam
kronologi dan jenis kejadian tetapi memiliki makna yang sama.
II. TINJAUAN PUSTAKA
Berikut adalah beberapa riset terbaru yang berkaitan dengan penelitian ini. Dalam artikel berjudul “Klasifikasi
Opini pada Fitur Produk Berbasis Graph Opinion Classification for Product Feature Based on Graph” permasala-
hannya berawal dari banyaknya opini-opini dari sebuah produk yang belum terkategori apakah opini tersebut
merupakan opini positif atau opini negatif. Solusi yang diberikan penelitian tersebut diperlukan sebuah sistem
yang dapat mengkategorikan opini dari konsumen. Metode yang digunakan dalam penelitian tersebut adalah
Word2Vec dan WordNet. Word2Vec merupakan representasi kata dalam bentuk vektor yang digunakan untuk
menghasilkan word embeddings. Sedangkan WordNet merupakan sebuah database kamus bahasa Inggris yang
memiliki hirarki keterhubungan antar kata melalui jalur yang dimiikinya. Penelitian ini memiliki tujuan yang sa-
ma yaitu mengkategorikan sebuah kalimat. Perbedaannya adalah kalimat dalam penelitian ini dikategorikan ber-
dasarkan jenis kejadiannya.
Riset selanjutnya yang berkaitan dengan penelitian ini adalah “Penerapan Algoritma Cosine Similarity dan
Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi”. Banyaknya arsip dokumen skripsi yang
terkumpul dalam bentuk soft file yang tidak terklasifikasi dengan baik mengakibatkan proses pencarian kembali
menjadi sulit. Untuk mengakses informasi yang dibutuhkan menjadi kurang cepat dan tepat apabila keseluruhan
dokumen disimpan dalam satu folder database. Maka dari itu diperlukan suatu sistem yang dapat mengklasifi-
kasikan dokumen secara otomatis ke dalam folder berbeda pada database agar lebih mudah dalam mengelola
dokumen yang ada. Metode TF-IDF merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term)
terhadap dokumen. Metode cosine similarity merupakan metode untuk menghitung kesamaan antara dua buah
objek yang dinyatakan dalam dua buah vector dengan menggunakan keywords (kata kunci) dari sebuah dokumen
sebagai ukuran. [5] Penelitian ini mengambil konsep penilaian sebuah kemiripan kata menggunakan konsep co-
sine similarity. Metode tersebut dinilai sangat baik dalam mencari kemiripan dari sebuah dokumen, hasil dari
riset tersebut menunjukkan bahwa cosine similarity mendukung nilai akurasi dari sistem hingga sistem memiliki
akurasi sebesar 98%.
Riset berjudul “Perancangan Chatbot Pusat Informasi Mahasiswa Menggunakan AIML sebagai Virtual Assistant
Berbasis Web” Mengambil tema dari keinginan program studi teknik informatika untuk mengembangkan layanan
terhadap mahasiswa, informasi yang diperoleh melalui sistem informasi dan chatting yang dilakukan antara
pengguna dengan pihak Virtual Assistant. Penelitian ini bertujuan untuk membangun chatbot yang mempunyai
tujuan sebagai Virtual Assistant yang memberikan informasi kepada mahasiswa melalui data yang tersimpan pa-
da sistem yang berisi informasi mengenai program studi teknik informatika dan penambahan pengetahuan baru
apabila data yang tersimpan tidak ditemukan. Pada perancangan dan implementasi perangkat lunak ini
menghasilkan sebuah prototipe chatbot yang dibangun dengan menggunakan mesin ALICE (Artificial Linguistik
Internet Computer Entity) sebagai penerjemah AIML (Artificial Intelligence Markup Language). AIML ini me-
nyebabkan chatbot dapat mengintegrasikan input yang diterima berupa input text. Sehingga akan dihasilkan
percakapan antara pengguna dan program. Dengan pemanfaatan chatbot yang telah dilengkapi dengan informasi
berupa audio, membuat pengguna dapat lebih mudah mendaatkan informasi yang berasal dari basis data yang
diinformasikan kepada pengguna. Dari hasil pengujian verifikasi, pengujian validitas dan pengujian prototipe
yang dilakukan sistem berjalan dengan baik sesuai dengan perencanaan. Dengan pemanfaatan chatbot yang telah
dilengkapi dengan kecerdasan buatan, membuat pengguna dapat lebih mudah mendapatkan informasi yang be-
rasal dari basis data yang diinformasikan kepada pengguna secara cepat dengan ketepatan jawaban sekitar
80%.[6] Dari riset tersebut diambil beberapa konsep pemrosesan teks menjadi sebuah vektor yang nantinya dapat diproses
oleh sistem.
III. METODOLOGI PENELITIAN
Tahap penelitian yang akan digunakan dalam perancangan dan implementasi modul klasifikasi jenis kejadian
pada kronologi dalam proses klaim asuransi kendaraan menggunakan metode word embedding secara umum
dapat dijabarkan sebagai berikut,
Gambar. 1. Tahap Penelitian
Berdasarkan gambar 1, penelitian dimulai dari menidentifikasi masalah yang akan dikaji dalam penelitian.
Pada tahap ini yang menjadi fokus dari masalah yang akan diidentifikasi adalah bagaimana proses pencocokan
kronologi dengan cangkupan asuransi yang dimiliki oleh tertanggung. Cangkupan asuransi terbagi menjadi 2
yaitu cangkupan yang dijamin dan cangkupan yang tidak dijamin. Jika kronologi yang diberikan tertanggung
termasuk dalam cangkupan yang dijamin maka klaim asuransinya akan cair, sedangkan jika kronologi yang
diberikan tertanggung termasuk dalam cangkupan yang tidak dijamin maka klaim asuransinya tidak cair.
Tahap selanjutnya adalah perancangan modul, pada tahap ini sudah diketahui dua variabel yang akan
digunakan dalam pembuatan modul ini yaitu kronologi dan cangkupan asuransi lalu data kronologi yang
digunakan berupa 72894 kronologi. Pertama-tama yang dilakukan adalah melakukan anotasi manual terhadap
riwayat kronologi yang pernah masuk. Anotasi manual dilakukan dengan tujuan mendapatkan kata kunci yang
mewakili untuk cangkupan asuransi. Hasil dari anotasi manual tersebut akan membentuk kata kunci dengan
contoh sebagai berikut :
Cangkupan Asuransi Kata Kunci
Tabrakan Tabrakan
Benturan Benturan
Benturan Menyenggol
Tergelincir Tergelincir
Terbalik Terbalik Tabel 1. Pembentukan Kata Kunci
Dari kata kunci tersebut akan dibentuk modul pencarian alias menggunakan metode word embedding. Word
embedding adalah sebuah pendekatan yang digunakan untuk merepresentasikan vector kata. Word embedding
merupakan pengembangan komputasi permodelan kata-kata yang sederhana seperti perhitungan menggunakan
jumlah dan frekuensi kemunculan kata dalam sebuah dokumen. Hasil dari word embedding ini dapat digunakan
untuk menggambarkan kedekatan sebuah kata atau sebuah dokumen namun harus dipahami kedekatan tersebut
adalah kedekatan kontekstual sesuai dengan data latih yang digunakan dalam pembentukannya, sehingga
seringkali kedekatan tersebut bukan merupakan makna sebuah kata. [13] Berikut adalah tahap proses word
embedding yang digunakan dalam penelitian ini:
1) Pra-pemrosesan data Data yang digunakan adalah data riwayat kronologi. Dari data tersebut lalu dilakukan sebuah pra-pemrosesan data yaitu
tokenizing. Proses tokenizing adalah . Dalam proses tokenizing pemecahan katanya berjumlah satu dan dua gram. Dalam pra-
pemrosesan data tidak dilakukan proses filtering stopword dan stemming. Hal tersebut bertujuan untuk menjaga orisinalitas
dari sebuah kalimat, karena nantinya kata dalam kalimat tersebut dicari karakteristiknya. Hasil dari proses tokenizing adalah
sebagai berikut :
Kalimat Hasil Tokenizing (1 Gram) Hasil Tokenizing (2 Gram)
Saat bayar parkir me-
nyerempet bagian depan
karena gelap
[“saat”,”bayar”,”parkir”,”menyeremp
et”,”bagian”,”depan”,”karena”,”gela
p”]
[“saat bayar”,”bayar parkir”,”parkir me-
nyerempet”,”menyerempet bagi-
an”,”bagian depan”,”depan kare-
na”,”karena gelap”]
Pada saat mundur bagian
kanan menyerempet pa-
pan reklame
[“pa-
da”,”saat”,”mundur”,”bagian”,”kana
n”,”menyerempet”,”papan”,”reklame
”]
[“pada saat”,”saat mundur”,”mundur ba-
gian”,”bagian kanan”,”kanan menyerem-
pet”,”menyerempet papan”,”papan
reklame”]
Saat belok terlalu mepet
kanan sehingga body me-
nyerempet pohon
[“saat”,”belok”,”terlalu”,”mepet”,”ka
nan”,”sehingga”,”body”,”menyeremp
et”,”pohon”]
[“saat belok”,”belok terlalu”,”terlalu me-
nyerempet”,”menyerempet kanan”,”kanan
sehingga”,”sehingga body”,”body me-
nyerempet”,”menyerempet pohon”]
Diserempet motor vario
tekno di jalan [“diserem-
pet”,”motor”,”vario”,”tekno”,”di”,”ja
lan”]
[“diserempet motor”,”motor vario”,”vario
tekno”,”tekno di”,”di jalan”]
Pada saat mundur bagian
belakang mobil terkena
besi bangunan yang men-
onjol
[“pa-
da”,”saat”,”mundur”,”bagian”,”belak
ang”,”mobil”,”terkena”,”besi”,”bang
unan”,”yang”,”menonjol”]
[“pada saat”,”saat mundur”,”mundur ba-
gian”,”bagian belakang”,”belakang mo-
bil”,”mobil terkena”,”terkena besi”,”besi
bangunan”,”bangunan yang”,”yang men-
onjol”]
Tabel 2. Hasil Tokenizing Kalimat
2) Skip gram
Gambar 1. Ilustrasi Model Skip Gram
Skip gram terdiri atas sebuah lapisan tersembunyi Neural Network. Pembentukan model skip gram dipengaruhi oleh be-
berapa parameter, diantaranya jumlah dimensi dari neuron (yang disebut variabel d) dan jumlah window kata (yang disebut
dengan variabel t) yang digunakan. [8]
Model skip gram yang digunakan dalam riset ini memiliki jumlah window dua kata didepan dan dua kata dibelakang. Berikut
merupakan implementasi model skip gram dalam riset ini :
Gambar 3. Implementasi Model Skip Gram
Hasil dari model skip gram dijadikan suatu karakteristik dari kata yang menjadi pusatnya. Melihat dari gambar
diatas maka karakteristik dari kata “menabrak” adalah [“mobil”, ”saya”, ”pembatas”, ”jalan”]. Karakteristik kata
“menabrak” dapat bertambah contohnya adalah jika terdapat kalimat “Depan mobil saya ngerem mendadak se-
hingga mobil saya menabrak mobil tersebut”. Karakteristik kata “menabrak” bertambah menjadi : “Menabrak“ = [“mobil”,”saya”,”pembatas”,”jalan”] + [“mobil”,”saya”,”mobil”,”tersebut”] “Menabrak“ = [“mobil”,”saya”,”pembatas”,”jalan”,”tersebut”]
3) Continuous Bag of Words Algoritma Continuous Bag of Word (CBOW) digunakan untuk melihat panjang tertentu dari sebuah kata pada dokumen
masukan. [5] Kelemahan penggunaan CBOW sebagai fitur klasifikasi teks adalah ukuran/dimensi yang besar. Jumlah fitur
yang besar dapat menurunkan kinerja dari algoritma klasifikasi yang digunakan, karena tidak semua fitur tersebut relevan
[9]. Tetapi hal tersebut sudah dioptimalkan dengan metode skip gram. Metode skip gram membatasi penggunaan kata yang
akan diambil yaitu 2 kata depan dan 2 kata belakang, sehingga untuk kata-kata lain yang tidak relevan tidak terambil menjadi
data pembelajaran sistem. Berikut adalah contoh implementasi CBOW dalam riset ini :