Top Banner
PROPOSAL TUGAS AKHIR RENCANA JUDUL IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE AARON 101402027 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA 2014
13

Proposal Rev.5

Oct 05, 2015

Download

Documents

Deddy Septianta
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
AARON
101402027
UNIVERSITAS SUMATERA UTARA
Identifikasi file adalah proses yang dilakukan untuk memahami urutan dari byte-byte
yang menyusun sebuah file, sehingga jenis file sebenarnya dari file tersebut dapat
diketahui. Identifikasi file merupakan salah satu tahapan dari prosedur forensik digital
yang diterapkan pada kasus kriminal untuk mendapatkan barang bukti digital yang valid
digunakan dalam proses pengadilan.
Pada kasus-kasus kriminal, seperti kasus korupsi, file-file dokumen yang
tersimpan dalam hard disk  komputer dapat dijadikan sebagai barang bukti. Tetapi pada
kenyataannya dalam mengumpulkan file-file dokumen yang dapat menjadi bukti digital
tersebut, para penyidik seringkali mengalami kesulitan karena dilakukannya  file forgery
oleh pihak tersangka.  File forgery adalah pemalsuan file-file dokumen yang dapat
menjadi bukti digital sehingga file-file dokumen tersebut tidak dapat dikenali sebagai file
dokumen dengan mudah.
Cara paling sederhana yang digunakan dalam  file forgery  adalah mengubah
ekstensi dari file. File-file dokumen yang telah diubah ekstensinya menjadi tidak dapat
dikenali secara langsung apabila di-browse  melalui  file browser   saja, sebagai contoh
sebuah file dokumen dengan ekstensi .doc diganti etensinya menjadi .jpg,  file browser 
tidak lagi mengenali file tersebut sebagai file dokumen melainkan mengenalinya sebagai
sebuah file citra. !al ini dikarenakan file browser sistem operasi secara umum mengenali
 jenis dari sebuah file hanya dari ekstensi file tersebut.
"alah satu cara untuk mengidentifikasi jenis file sebenarnya dari file dokumen
yang telah diubah ekstensinya ini dapat dilakukan dengan mengecek magic bytes dari file
tersebut #!ickok, et al. $%%&'. Magic Bytes adalah beberapa byte a(al dari sebuah file
yang menunjukkan isi dari file tersebut. )isalnya file dokumen dengan ekstensi .doc
memiliki magic bytes: *+% CF % / 0. kan tetapi, cara identifikasi ini
memiliki kelemahan yakni magic bytes dari sebuah file dapat diubah dengan mudah
menggunakan hex editor, sehingga identifikasi jenis file tidak dapat dilakukan.
"elain mengidentifikasi jenis file dari magic bytes, identifikasi jenis file juga dapat
dilakukan melalui konten dari file menggunakan 1aringan "araf Tiruan #!arris, $%%2',
serta  Principal Component Analysis (PCA dan 1aringan "araf Tiruan #mirani, et al.
$%%3'. pabila identifikasi dilakukan melalui konten file, maka pengubahan terhadap
ekstensi maupun magic bytes dari file tidak akan mempengaruhi hasil identifikasi jenis
file yang sebenarnya. 4amun, penggunaan 1aringan "araf Tiruan dalam identifikasi file
memiliki kelemahan seperti sulitnya menentukan arsitektur dari system dan pembelajaran
 
yang baru akan membuat sistem melupakan pembelajaran yang lama #5asabov, $%%2'.
Pelatihan yang hanya menggunakan satu 1aringan "araf Tiruan juga memerlukan (aktu
 pelatihan yang lama dan mengalami kesulitan dalam mengatasi data yang besar karena
keterbatasan sumber daya. +engan pertimbangan beberapa kelemahan dari 1aringan "araf 
Tiruan ini, penulis mengajukan metode  !istrib"ted A"tonomo"s #e"ro$%en &earning 
 'ngine (!A#%&'
satu 1aringan "araf Tiruan dalam pembelajarannya, dimana kumpulan 1aringan "araf 
Tiruan ini disebut dengan  !istrib"ted Adapti)e #e"ral #etwork (!A##  dan setiap
1aringan "araf Tiruan di dalam  !A##  dibangun, diatur dan dilatih oleh sebuah %ene
 *eg"latory 'ngine (%*' dapun karakteristik dari !A#%&' adalah adanya distribusi
 beban pada beberapa 1aringan "araf Tiruan sekaligus, sehingga memungkinkan !A#%&' 
untuk mengurangi (aktu pelatihan yang diperlukan, mengatasi data yang besar serta
memiliki fleksibilitas tinggi #tidak terikat pada satu jenis 1aringan "araf Tiruan'.
 !A#%&' telah digunakan dalam menyelesaikan analisis lattice dari permasalahan
identifikasi struktur kubik #Pasha, et al. $%%'.
/erdasarkan latar belakang diatas, penulis mengajukan proposal penelitian dengan
 judul *I+4TIFI5"I FI6 +758)4 /9+"954 574T4
)4::8454 +I"T9I/8T+ 8T747)78" 4897-:4 694I4:
4:I40.
 Forgery  terhadap file-file dokumen dengan cara mengubah ekstensi dari file dokumen
maupun mengubah magic bytes dari file-file dokumen, membuat file-file dokumen susah
diidentifikasi secara langsung melalui file browser , sehingga menyulitkan para penyidik 
dalam menemukan file-file dokumen yang dapat saja menjadi bukti digital dalam proses
 pengadilan tersangka pada kasus-kasus kriminal. /agaimana mengidentifikasi file-file
sehingga dapat diketahui apakah jenis file sebenarnya adalah merupakan file dokumen
atau bukan;
)engidentifikasi file-file berdasarkan konten menggunakan  !istrib"ted A"tonomo"s
 #e"ro$%en &earning 'ngine, sehingga dapat diketahui apakah file merupakan file
dokumen atau bukan.
4. Bata(a$ Ma(a"a)
 batasan<
. Identifikasi dilakukan pada file dokumen, dengan ekstensi dari file dokumen yang
akan diidentifikasi adalah .doc, .doc, .html, .pdf, .ppt, .ppt, .rtf, .ls, dan .ls.
$. Identifikasi dilakukan hanya melalui konten atau isi dari file.
. Ma$aat P!$!",t,a$
. )enambah pengetahuan serta (a(asan penulis dalam bidang forensik digital dan
menambah pengetahuan penulis dalam mengetahui seluk-beluk file, teknik 
identifikasi dan jaringan saraf tiruan.
$. )embantu mengidentifikasi file-file dokumen dari sekumpulan file yang tidak 
diketahui jenis file sebenarnya.
/. M!t"%,
 berikut<
forensik digital, file, ekstraksi fitur, jaringan saraf tiruan dan !A#%&'
$. nalisis Permasalahan
Pada tahap ini dilakukan analisis terhadap bahan referensi yang telah dikumpulkan
 pada tahap sebelumnya untuk mendapatkan pemahaman mengenai metode yang
 
menyelesaikan masalah identifikasi jenis file.
=. Pembangunan Program
:ambar .. menunjukkan arsitektur umum dari penelitian yang diajukan, dimana
arsitektur yang diajukan terdiri atas empat bagian, yakni data input,  pre$
 processing , !A#%&'  dan output.
 
. +raining !ataset , merupakan file-file dokumen dengan jenis file sebenarnya
sudah diketahui dan memiliki ekstensi .doc, .doc, .html, .pdf, .ppt, .ppt,
.rtf, .ls, dan .ls. +raining !ataset digunakan untuk melatih  !A## ,
sehingga  !A## dapat mengenali file-file dokumen dengan jenis file yang
telah dilatih.
ekstensi, dimana jenis file sebenarnya tidak diketahui. +esting !ataset 
digunakan untuk menguji !A##  yang telah dilatih apakah mampu mengenali
 jenis file yang sebenarnya dari file-file uji tersebut.
 
%% % &>
% $
%= =
%> >
%? ?
% >
data digunakan. da tiga tahapan yang dilakukan dalam pre$processing , yakni<
. 5alkulasi Byte Fre"ency !istrib"tion #/F+ A +istribusi Frekuensi /yte'
+ari file-file input terlebih dahulu dilakukan kalkulasi /F+ dari byte-byte
yang menyusun file tersebut. !asil dari kalkulasi /F+ adalah sebuah tabel
/F+ yang menyimpan frekuensi dari kemunculan setiap byte yang menyusun
file. 8kuran dari sebuah tabel /F+ adalah $&>, hal ini dikarenakan ada $&>
kemungkinan dari byte yang menyusun suatu file #%-$&&'.
Contoh< sebuah file dokumen dengan ekstensi .doc disusun atas byte-byte
#dalam heksadesimal'< d% cf e% a b a e %% %% %% %% %% %% %% %% %% %%
%% %% %% %% %% %% =e %% %= %% fe ff %? %% %> %% %% %% %% %% %% %% %% %% %%
fe ff ff ff %% %% %% %% $d %% %% %%. Tabel .. menunjukkan tabel /F+ yang
dihasilkan dari file tersebut.
Bariasi ukuran file yang diinputkan akan mengakibatkan terjadinya perbedaan
nilai frekuensi yang cukup signifikan pada tabel /F+. 8ntuk mengatasi hal
ini, maka setelah dilakukan kalkulasi /F+, maka dilakukanlah normalisasi
 pada /F+ sehingga setiap input file akan diberikan bobot yang sama tanpa
membedakan ukuran file. 4ilai frekuensi pada tabel /F+ yang telah
dinormalisasi akan memiliki range dari % sampai dengan .
 4ormalisasi dilakukan dengan menggunakan rumus berikut #mirani,
et al. $%%3'<
  i
i   =
+imana   i  F#  adalah nilai frekuensi untuk byte i setelah normalisasi,
i F-#  adalah nilai frekuensi untuk byte i sebelum normalisasi,
ma  F  adalah nilai frekunsi terbesar sebelum normalisasi.
Contoh Tabel /F+ yang sudah dinormalisasi dapat dilihat pada Tabel .$.
/eberapa jenis file akan memiliki satu byte dengan frekuensi
kemunculan yang jauh lebih besar dari byte-byte yang lainnya. pabila hal ini
terjadi maka hasil normalisasi akan menunjukkan perbedaan yang cukup
signifikan, dimana satu byte akan memiliki nilai frekuensi yang besar 
#mendekati ' dan byte-byte lain hanya akan memiliki nilai mendekati %.
Perbedaan signifikan ini dapat dilihat dengan jelas dalam bentuk grafik pada
gambar ..
%% % .%%%%%
Perbedaan ini menyebabkan kurangnya detail fitur untuk menentukan
 pola yang ada sehingga hasil tabel /F+ yang telah dinormalisasi perlu
diproses lagi menggunakan fungsi kompresi dan ekspansi #compressing and 
expanding f"nction . companding f"nction' untuk menekankan perbedaan pada
nilai yang lebih rendah. dapun fungsi kompresi dan ekspansi yang akan
digunakan adalah<
 paling optimum dalam fungsi kompresi dan ekspansi untuk identifikasi file
#)c+aniel, $%%'.
Contoh hasil tabel /F+ dan grafik dengan nilai frekuensi yang telah diproses
menggunakan fungsi kompresi dan ekspansi dapat dilihat pada tabel .= dan
gambar .$.
%% % .%%%%%
Tabel .=. Tabel /F+ setelah diproses menggunakan fungsi kompresi dan ekspansi
:ambar .$. :rafik dari tabel /F+ setelah diproses menggunakan fungsi kompresi dan ekspansi
=. kstraksi 4 Fitur dari /F+
+ari tabel /F+ yang telah dinormalisasi kemudian dilakukan ekstraksi fitur 
untuk mendapatkan 4 fitur-fitur dari $&> fitur /F+ yang mampu
merepresentasikan file yang diinputkan. pabila tidak dilakukan ekstraksi
fitur, $&> fitur /F+ akan memperlambat dan menurunkan akurasi identifikasi.
kstraksi fitur akan dilakukan menggunakan  Principle Component Analysis
(PCA, yang merupakan teknik ekstraksi fitur yang terkenal dalam analisis
multivarian.
al. $%%3'<
a. )ensubtraksi nilai rata-rata dari tabel fitur dari seluruh nilai fitur.
 b. )encari matriks kovarian dari tabel fitur.
c. )enghitung eigen)ector dan eigen)al"e dari matriks kovarian.
d. )emilih komponen dan membentuk vektor fitur yang baru.
e. )enghasilkan fitur-fitur baru yang mampu me(akili $&> fitur /F+
sebelumya.
!asil  Pre$processing dari data input kemudian digunakan pada bagian
 berikut dari arsitektur. /agian berikut dari arsitektur ini adalah  !A## , dimana
 !A## terdiri atas dua komponen utama, yakni<
. %ene *eg"latory 'ngine (%*'
%*' merupakan sebuah mekanisme regulasi gen yang sederhana dan
digunakan untuk mengatur konstruksi dan mutasi gen sebelum gen diteruskan
ke bagian jaringan dari !A#%&' . :ambar .= menunjukkan rsitektur umum
dari %*', dimana %*' memiliki tiga komponen utama, yakni< komponen
representasi gen yang mengatur struktur dari gen yang dibuat, komponen
fungsi objektif yang akan menghitung seluruh hasil keluaran dari bagian
 jaringan  !A#%&' dan komponen regulasi mutasi yang memutasi gen untuk 
meningkatkan performa dari jaringan #Pasha, et al. $%%'.
/ !istrib"ted Adapti)e #e"ral #etwork (!A##
 !A## merupakan sebuah jaringan saraf tiruan yang dirancang untuk 
mengurangi (aktu pelatihan dengan cara membagi beban pelatihan kepada
 beberapa jaringan saraf tiruan, dan kemudian mengkonstruksi jaringan hasil
dari beberapa jaringan saraf tiruan tersebut. /eberapa jaringan saraf tiruan
yang dimaksud akan di$hosting  pada beberapa mesin atau agen yang disebut
node "etiap node akan memiliki gennya sendiri dan berjalan secara otonomi
 pada lingkungan yang berbeda.  !A##  didesain untuk tidak terikat pada satu
 jenis jaringan saraf tiruan #Pasha, et al. $%%'.
 
dapun jaringan saraf tiruan yang akan diajukan untuk digunakan pada
node  adalah jaringan  ')ol)ing Connectionists -ystem ('Co- 'Co- 
merupakan sistem representasi pengetahuan yang mampu mengevolusikan
struktur dan fungsionalitasnya.  'Co-   berdasarkan pada  #e"ral #etwork 
#1aringan saraf', tetapi menggunakan teknik lain yang beroperasi secara
 berkelanjutan dan mengadaptasikan struktur serta fungsionalitas sistem
melalui interaksi dengan lingkungan maupun sistem yang lain. "ebuah
 jaringan  'Co-  jaringan saraf tiruan yang paling tidak memiliki satu layer 
neuron yang berevolusi #e)ol)ing layer '.  ')ol)ing layer   adalah layer 
konstruktif yang akan berkembang dan mengadaptasikan dirinya terhadap data
yang masuk. Pelatihan dengan menggunakan algoritma  'Co-   melibatkan
empat parameter, yakni< sensiti)ity threshold (- thr  , error threshold  # ' thr ', dan
dua buah learning rate n0  dan n/. -ensiti)ity threshold dan error threshold 
merupakan parameter yang mengendalikan penambahan neuron baru pada
 'Co- #Datts, $%%>'
Connectionist -ystem #-'Co- ', dimana jaringan -'Co-  terdiri atas tiga layer 
neuron, yakni< inp"t layer , e)ol)ing layer   dan o"tp"t   layer . rsitektus dari
-'Co- dapat dilihat pada gambar .@.
/agian terakhir dari arsitektur yang diajukan adalah bagian output. "istem
akan mengidentifikasi jenis file sebenarnya dari file input menggunakan jaringan
 
 jenis file sebenarnya dari file input, yakni jenis file dengan ekstensi .doc, .doc,
.html, .pdf, .ppt, .ppt, .rtf, .ls, dan .ls ataupun selain jenis-jenis file tersebut.
@. +okumentasi dan Pelaporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil analisis dan
implementasi  !istrib"ted A"tonomo"s #e"ro$%en &earning Machine dalam
identifikasi jenis file dokumen.
mirani, ).C., Toorani, ). E /eheshti, .. $%%3. 4e( pproach to Content-
 based File Type +etection Proceedings of the 01th  2''' -ymposi"m on
Comp"ters and Comm"nications (2-CC345, pp. %=-%3.
Futschik, ).. 9eeve, . 5asabov, 4. $%%=. volving Connectionist "ystem for
5no(ledge +iscovery from :ene pression +ata of Cancer Tissue Artificial 
 2ntelligence in Medicine /5: 067$058.
:arfinkel, ".6. $%%>. Forensic feat"re extraction and cross$dri)e analysi #9nline'
http<AA(((.elsevier.comAlocateAdiin #$% gustus $%='.
!arris, 9.). $%%2. sing Artificial #e"ral #etworks for Forensic File +ype
 2dentification Tesis. Purdue 8niversity
!ickok, +.1. 6esniak, +.9. 9o(e, ).C. $%%&.  File +ype !etection +echnology 8.".
ir Force 9esearch 6aboratory, Phase "TT9-F?&&%-%@-C-%%?.
 
Tesis. 8niversity of 7tago
6iao, . Bemuri, B.9. E Pasos . $%%&. daptive nomaly +etection (ith volving
Connectionist "ystems ;o"rnal of #etwork and Comp"ter Applications 14:
>%-3%.
 *ecognition Tesis. 1ames )adison 8niversity.
Pasha, ).F. 9ahmat, 9.F. /udiarto, 9. E "yukur, ). $%%. +istributed 4euro-:en
6earning ngine and its pplication to the 6attice nalysis of Cubic "tructure
Identification Problem.  2nternational ;o"rnal of 2nno)ati)e Comp"ting,
 2nformation and Control 6: 0447$04//
Datts, ).1. $%%>.  A !ecade of <asabo)3s ')ol)ing Connectionist -ystems: A
 *e)iew. 8niversity of "ydney