SOCIAL NETWORK ANALYSIS TERHADAP PENGGUNA TWITTER TERKAIT BERITA HOAX DI INDONESIA DENGAN METODE SINGLE CLUSTER MULTI NODE MENGGUNAKAN APACHE HADOOP TERDISTRIBUSI HORTONWORKS TM Skripsi Disusun Oleh: Husain Faiz Karimi 1112091000027 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA 2018 M/1439 H
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
SOCIAL NETWORK ANALYSIS TERHADAP PENGGUNA TWITTER
TERKAIT BERITA HOAX DI INDONESIA DENGAN METODE
SINGLE CLUSTER MULTI NODE MENGGUNAKAN APACHE
HADOOP TERDISTRIBUSI HORTONWORKSTM
Skripsi
Disusun Oleh:
Husain Faiz Karimi
1112091000027
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2018 M/1439 H
SOCIAL NETWORK ANALYSIS TERHADAP PENGGUNA TWITTER
TERKAIT BERITA HOAX DI INDONESIA DENGAN METODE
SINGLE CLUSTER MULTI NODE MENGGUNAKAN APACHE
HADOOP TERDISTRIBUSI HORTONWORKSTM
Skripsi
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Strata-1
Skripsi yang berjudul “Social Network Analysis Terhadap Pengguna Twitter Terkait Berita
Hoax Di Indonesia Dengan Metode Single Cluster Multi Node Menggunakan Apache Hadoop
Terdistribusi Hortonworkstm” telah diuji dan dinyatakan lulus dalam Sidang Munaqasah Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta pada
Jum’at, 05 Januari 2018. Skripsi telah diterima sebagai salah satu syarat untuk memperoleh
gelar Sarjana Strata 1 (S1) Komputer pada Program Studi Teknik Informatika.
DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-BENAR HASIL
KARYA SAYA SENDIRI YANG BELUM PERNAH DIAJUKAN SEBAGAI SKRIPSI
ATAU KARYA ILMIAH PADA PERGURUAN TINGGI ATAU LEMBAGA MANAPUN.
Jakarta, 05 Januari 2018
Husain Faiz Karimi
NIM 1112091000027
iv
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
Sebagai sivitas akademik UIN Syarif Hidayatullah Jakarta, saya yang
bertanda tangan dibawah ini:
Nama : Husain Faiz Karimi
NIM : 1112091000027
Program Studi : Teknik Informatika
Fakultas : Sains dan Teknologi
Jenis Karya : Skripsi
demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta Hak Bebas Royalti
Noneksklusif (Non-exclusive royalty Free Right) atas karya ilmiah saya yang
berjudul:
Social Network Analysis Terhadap Pengguna Twitter Terkait Berita Hoax Di Indonesia Dengan Metode Single Cluster Multi
Node Menggunakan Apache Hadoop Terdistribusi
Hortonworkstm
beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti
Noneksklusif ini Universitas Islam Negeri Syarif Hidayatullah Jakarta berhak
menyimpan, mengalih media/formatkan, mengelola dalam bentuk pangkalan data
(database), merawat dan mempublikasikan tugas akhir saya selama tetap
mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilih Hak Cipta.
Demikian pernyataan ini saya buat dengan sebenarnya.
Jakarta
05 Januari 2018
Yang Menyatakan
(Husain Faiz Karimi)
v
KATA PENGANTAR
Puji dan syukur penulis lantunkan kehadirat Allah SWT yang telah
memberikan Rahmat dan Hidayah-Nya kepada kita semua, sehingga peneliti dapat
menyelesaikan penulisan skripsi dengan judul “SOCIAL NETWORK ANALYSIS
TERHADAP PENGGUNA TWITTER TERKAIT BERITA HOAX DI
INDONESIA DENGAN METODE SINGLE CLUSTER MULTI NODE
MENGGUNAKAN APACHE HADOOP TERDISTRIBUSI
HORTONWORKSTM”. Pada kesempatan ini, peneliti berterima kasih kepada pihak-pihak yang telah banyak berjasa dan membantu dalam melakukan penulisan penelitian ini. Secara khusus peneliti mengucapkan terima kasih kepada:
1) Prof. Dr. Dede Rosyada, MA selaku rektor Universitas Islam Negeri Syarif
Hidayatullah Jakarta.
2) DR. Agus Salim, M.Si selaku Dekan Fakultas Sains dan Teknologi UIN
Syarif Hidayatullah Jakarta.
3) Ibu Arini, M.T selaku ketua program studi Teknik Informatika UIN Syarif
Hidayatullah Jakarta.
4) Feri Fahrianto, M.Sc selaku Sekretaris Program Studi Teknik Informatika,
Fakultas Sains dan Teknologi, Universitas Islam Negeri Syarif
Hidayatullah Jakarta.
5) Siti Ummi Masruroh M.Sc selaku Dosen Pembimbing I
6) Arini, M.T selaku Dosen Pembimbing II
7) Keluarga terkasih dan tersayang, yang senantiasa memberikan doa, support
dan semangat.
vi
8) Keluarga Besar KOMDA FST, Keluarga Besar LDK Syahid UIN Jakarta dan
FSLDK Banten khususnya KOMISI A. Yang telah memberikan motivasi, doa
dan bantuan dari awal hingga penulisan skripsi.
9) Irvan Faturrahman, Qadavi Muhammad Sofyan, M. Lazuardi Imani, serta
teman-teman Teknik Informatika angkatan 2012 yang selalu memberikan
inspirasi dan motivasi.
10) Senda, Gufron, Tamui, Tyo, Agung, Fahri, Budi, Syauqi, Ka Hari P. Sebagai
sahabat yang selalu mendukung dan memberikan doa terbaik kepada penulis.
Peneliti menyadari bahwa penulisan laporan hasil penelitian ini tidak
sempurna dan tidak luput dari kesalahan. Oleh karena itu, peneliti mengharapkan
kritik dan saran yang membangun dalam proses penyempurnaan laporan ini.
Akhir kata, penulis berharap laporan peneliti ini dapat bermanfaat bagi peneliti
sendiri pada khususnya dan bagi khalayak pada umumnya.
Jakarta, 05 Jakarta 2018
Peneliti
Husain Faiz Karimi
1112091000027
vii
Penulis Program Studi Judul
: Husain Faiz Karimi : Teknik Informatika : Social Network Analysis Terhadap Pengguna Twitter
Terkait Berita Hoax Di Indonesia Dengan Metode Single Cluster Multi Node Menggunakan Apache Hadoop
Terdistribusi Hortonworkstm.
ABSTRAK
Social network analysis meneliti hubungan node dalam graf. Penelitian sebelumnya hanya menggunakan 3 parameter pada SNA, tanpa melakukan manipulasi terhadap variabel bebas dan masih belum menerapkan metode clustering pada Hadoop. Namun penelitian yang melakukan eksperimen menggunakan Hadoop metode clustering (High Performance Cluster) dan 5 parameter SNA (Degree Centrality, Betweenness Centrality, Closeness Centrality, Eigenvector Centrality, dan PageRank) pada topik hoax, dengan melakukan pengubahan iterasi pengecekan dan penetapan t-max pada tools Gephi masih belum dilakukan. Berdasarkan hasil observasi selama 1 bulan, peneliti menemukan 18 hari dimana keyword hoax menjadi trending topic di Twitter. Artinya 58% pengguna lebih sering membicarakan hoax. Eksperimen intact-group comparison diterapkan pada data Twitter yang akan dikelompokan menjadi 2 kelompok (kontrol dan eksperimen). Proses ETL (Extract, Transform and Load) dilakukan menggunakan Apache NiFi. Peneliti mampu mendapatkan data sebanyak 16,400 data selama tahap penarikan data, pada penelitian sebelumnya rata-rata data yang berhasil diambil hanya sebanyak ±2000 data. Pengubahan variabel dilakukan pada kelompok eksperimen. Penambahan iterasi dari 100 menjadi 200 kali, dapat meningkatkan nilai Degree Centrality sebesar 40,79%. Penetapan t-max menjadi 60s meningkatkan 33,33% jumlah cluster yang terbentuk, dengan hasil jumlah cluster dari 3 menjadi 4 cluster. Penelitian ini dapat dikembangkan menggunakan True Experimental Design dan penambahan Sentiment Analysis.
Kata Kunci
Daftar Pustaka
Jumlah Halaman
: Apache Hadoop, SNA, Hoax, Twitter, Hadoop Multi Node,
Eksperimen Intact-Group Comparison, Apache NiFi, High Performance Cluster.
: 44 (Tahun 2001 – 2017) : VI BAB+ xix Halaman+ 196 Halaman+ 114 Gambar+ 41 Tabel
viii
DAFTAR ISI
HALAMAN PERSETUJUAN ...................................................................... ii
HALAMAN PENGESAHAN ........................................................................ iii
PERNYATAAN ORISINALITAS ................................................................ iv
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI ........................ v
KATA PENGANTAR .................................................................................... vi
ABSTRAK ...................................................................................................... viii
DAFTAR ISI ................................................................................................... ix
DAFTAR GAMBAR ...................................................................................... xiv
DAFTAR TABEL .......................................................................................... xviii
BAB I PENDAHULUAN ............................................................................... 1
1.1 Latar Belakang ..................................................................................... 1
1.2 Rumusan Masalah ................................................................................ 6
1.3 Batasan Masalah ................................................................................... 7
1.4 Tujuan Penelitian .................................................................................. 8
Gambar 2.1 Overview dari High Performance Clustering ...................................... 12
Gambar 2.2 Overview dari Load Balancing Clustering ........................................... 12
Gambar 2.3 Overview dari High Availability Clustering ......................................... 13
Gambar 2.4 Bagian Inti Arsitektur HDFS .................................................................... 16
Gambar 2.5 Interaksi NameNode dan DataNode pada HDFS ................................ 18
Gambar 2.6 Alur Komunikasi Server dan Agent ........................................................ 21
Gambar 2.7 Arsitektur NiFi Pada JVM ......................................................................... 24
Gambar 2.8 Implementasi Apache NiFi dalam Skema Cluster ............................. 25
Gambar 2.9 Aktor-aktor Tanpa Keterangan Hubungan ........................................... 30
Gambar 2.10 Sekumpulan Actor Dalam Skema Un-Directed Edge ..................... 31
Gambar 2.11 Sekumpulan Actor Dalam Skema Directed Edge ............................ 31
Gambar 2.12 Sekumpulan Actor Beserta Relasi ........................................................ 32
Gambar 2.13 Relasi Dengan Bobot Antara Node ...................................................... 32
Gambar 2.14 Edge List ...................................................................................................... 33
Gambar 2.15 Adjacency Matrix ....................................................................................... 34
Gambar 2.16 Sample Un-Directed Ties Graf .............................................................. 37
Gambar 2.17 Directed Graph .......................................................................................... 45
Gambar 2.18 a. Graf Berarah, b. Graf-Ganda Berarah ............................................. 48
Gambar 2.19 Graf Tak Berarah ....................................................................................... 48
Gambar 2.20 Graf Sederhana ........................................................................................... 49
Gambar 2.21 Graf Ganda .................................................................................................. 50
Gambar 2.22 Graf Pseudograph ..................................................................................... 50
Gambar 3.1 Alur Kerangka Pemikiran .......................................................................... 76
Gambar 4.1 Komponen Pembentuk Cluster ................................................................ 84
Gambar 4.2 Apache HTTP Server Berhasil Pada Proses Install ........................... 85
Gambar 4.3 Proses Pemilihan JDK ................................................................................ 87
Gambar 4.4 Antarmuka Install Wizard Cluster Hadoop .......................................... 87
Gambar 4.5 Target Host Master dan Slave .................................................................. 88
xiv
Gambar 4.6 Pembagian Skema Install Komponen Hadoop .................................... 88
Gambar 4.7 Komponen Apache Ambari ....................................................................... 89
Gambar 4.8 Gambar Processor GetTwitter ................................................................. 91
Gambar 4.9 Gambar Pengaturan Processor GetTwitter ........................................... 92
Gambar 4.10 Gambar Processor EvaluateJsonPath ................................................. 93
Gambar 4.11 Gambar Processor RouteOnAttribute .................................................. 93
Gambar 4.12 Gambar Contoh Data Tweet Yang Berhasil Diambil ...................... 94
Gambar 4.13 Gambar Processor ReplaceText ............................................................ 95
Gambar 4.14 Contoh Hasil ReplaceText ....................................................................... 95
Gambar 4.15 Gambar Processor MergeContent ........................................................ 95
Gambar 4.16 Proses Pengumpulan Data ....................................................................... 96
Gambar 4.17 Gambar Processor PutSolrContentStream ........................................ 97
Gambar 4.18 Proses Indexing dan Visualisasi Data .................................................. 98
Gambar 4.19 Gambar Processor UpdateAttribute ..................................................... 99
Gambar 4.20 Proses Klasifikasi Data ............................................................................ 99
Gambar 4.21 Gambar Processor MergeContent ........................................................ 100
Gambar 4.22 Proses Eksperimen Intact-Group Comparison ................................. 100
Gambar 4.23 Gambar Seluruh Alur Processor Pada Apache NiFi ....................... 101
Gambar 4.24 Proses Input Data Gephi Kelompok Kontrol ..................................... 102
Gambar 4.25 Proses Input Data Gephi Kelompok Eksperimen ............................. 102
Gambar 4.26 Proses Perhitungan Degree Centrality ................................................ 103
Gambar 4.27 Proses Perhitungan Betweenness Centrality ...................................... 103
Gambar 4.28 Proses Perhitungan Closeness Centrality ........................................... 103
Gambar 4.29 Proses Perhitungan Eigenvector Centrality ....................................... 103
Gambar 4.30 Proses Perhitungan PageRank ............................................................... 103
Gambar 5.1 Contoh Data Tweet yang Berhasil Terambil ........................................ 104
Gambar 5.2 Contoh Tweet Pasca Pengambilan Data ................................................ 104
Gambar 5.3 Grafik Histogram Data Tweet .................................................................. 106
Gambar 5.4 Grafik Source Data Tweet ......................................................................... 107
Gambar 5.5 Grafik Post User Terbanyak ..................................................................... 108
Gambar 5.6 Grafik Post Dengan Re-Tweet Terbanyak ............................................ 109
xv
Gambar 5.7 Contoh Kelompok Kontrol Hasil Klasifikasi ....................................... 109
Gambar 5.8 Contoh Kelompok Eksperimen Hasil Klasifikasi ............................... 109
Gambar 5.9 Contoh Data Kelompok Kontrol Hasil Merger ................................... 110
Gambar 5.10 Contoh Data Kelompok Eksperimen Hasil Merger ........................ 110
Gambar 5.11 Hasil Visualisasi Graf Kelompok Kontrol ......................................... 111
Gambar 5.12 Grafik Batang Degree Centrality Kelompok Kontrol..................... 113
Gambar 5.13 Grafik Batang Betweenness Centrality Kelompok Kontrol .......... 115
Gambar 5.14 Grafik Batang Closeness Centrality Kelompok Kontrol ............... 117
Gambar 5.15 Grafik Batang Eigenvector Centrality Kelompok Kontrol............ 119
Gambar 5.16 Grafik Batang PageRank Kelompok Kontrol ................................... 121
Gambar 5.17 Hasil Visualisasi Graf Kelompok Eksperimen ................................. 122
Gambar 5.18 Grafik Batang Degree Centrality Kelompok Eksperimen ............. 124
Gambar 5.19 Grafik Batang Betweenness Centrality Kelompok Eksperimen 126
Gambar 5.20 Grafik Batang Closeness Centrality Kelompok Eksperimen........ 128
Gambar 5.21 Grafik Batang Eigenvector Centrality Kelompok Eksperimen .. 130
Gambar 5.22 Grafik Batang PageRank Kelompok Eksperimen............................ 131
Gambar 5.23 Grafik 20 Besar User Kontrol Dengan Nilai DC Tertinggi .......... 134
Gambar 5.24 Cluster Nomor 1 Dengan Node Utama rockygerung ...................... 135
Gambar 5.25 Perbandingan Parameter SNA pada Anggota Cluster 1 ................. 136
Gambar 5.26 Cluster Nomor 2 Dengan Node Utama Gusmus .............................. 137
Gambar 5.27 Perbandingan Parameter SNA pada Anggota Cluster 2 ................. 138
Gambar 5.28 Cluster Nomor 3 Dengan Node Utama maspiyuuu ......................... 140
Gambar 5.29 Perbandingan Parameter SNA pada Anggota Cluster 3 ................. 141
Gambar 5.30 Kompilasi Nilai Parameter SNA Kelompok Kontrol...................... 143
Gambar 5.31 Akun Twitter @rockygerung ................................................................. 143
Gambar 5.32 Akun Twitter @gusmusgusmu .............................................................. 145
Gambar 5.33 Akun Twitter @maspiyuuu .................................................................... 145
Gambar 5.34 Grafik Status User Berpengaruh pada Kelompok Kontrol ............ 146
Gambar 5.35 Grafik Jumlah Node Di Dalam Cluster Kontrol ............................... 147
Gambar 5.36 Grafik 20 Besar User Eksperimen Dengan Nilai DC Tertinggi. 149
Gambar 5.37 Cluster A Dengan Node Utama shitlicious ........................................ 150
xvi
Gambar 5.38 Perbandingan Parameter SNA pada Anggota Cluster A ................ 151
Gambar 5.39 Cluster B Dengan Node Utama lawan_teroris .................................. 152
Gambar 5.40 Perbandingan Parameter SNA pada Anggota Cluster B ................ 153
Gambar 5.41 Cluster C Dengan Node Utama bangsa_patriot ................................ 155
Gambar 5.42 Perbandingan Parameter SNA pada Anggota Cluster C ................ 156
Gambar 5.43 Cluster D Dengan Node Utama Juno_5760 ....................................... 157
Gambar 5.44 Perbandingan Parameter SNA pada Anggota Cluster D ................ 159
Gambar 5.45 Kompilasi Nilai Parameter SNA Kelompok Eksperimen .............. 161
Gambar 5.46 Akun Twitter @shitlicious ...................................................................... 162
Gambar 5.47 Akun Twitter @lawan_teroris ................................................................ 163
Gambar 5.48 Akun Twitter @bangsa_patriot ............................................................. 163
Gambar 5.49 Akun Twitter @GusYaqut ...................................................................... 164
Gambar 5.50 Grafik Status User Berpengaruh pada Kelompok Eksperimen .. 165
Gambar 5.51 Grafik Jumlah Node Di Dalam Cluster Eksperimen ....................... 165
Gambar 5.52 Komparasi Hasil Visualisasi Graf Kelompok Kontrol dan
Eksperimen 167
Gambar 5.53 Grafik Komparasi Rank User Berpengaruh Kelompok
Kontrol dan Eksperimen 169
Gambar 5.54 Komparasi Nilai Degree Centrality Pasca Eksperimen ................. 171
Gambar 5.55 Grafik Jumlah Nilai Degree Centrality Pada Seluruh Cluster ..... 172
Gambar 5.56 Konten Tweet Node rockygerung.......................................................... 173
Gambar 5.57 Tweet Node Kecil Mention Ke Node Gusmus ................................... 174
Gambar 5.58 Konten Tweet Node maspiyuuu ............................................................. 174
Gambar 5.59 Konten Tweet Node shitlicious .............................................................. 175
Gambar 5.60 Konten 1 Tweet Node lawan_teroris .................................................... 175
Gambar 5.61 Konten 2 Tweet Node lawan_teroris .................................................... 176
Gambar 5.62 Konten 3 Tweet Node lawan_teroris .................................................... 176
Gambar 5.63 Konten Tweet Node bangsa_patriot ...................................................... 177
Gambar 5.64 Konten Tweet Node Juno_5760 ............................................................. 177
xvii
DAFTAR TABEL
Tabel 2.1 Hasil Simulasi Perhitungan Degree Centrality ........................................ 38
Tabel 2.2 Hasil Simulasi Perhitungan Betweenness Centrality ............................. 40
Tabel 2.3 Hasil Simulasi Perhitungan Closeness Centrality ................................... 42
Tabel 2.4 Hasil Simulasi Perhitungan Eigenvector Centrality ............................... 44
Tabel 2.5 Hasil Simulasi Perhitungan PageRank ....................................................... 47
Tabel 2.6 Perluasan Jenis Graf ........................................................................................ 51
Tabel 3.1 Daftar Tanggal Trending Topic Twitter ..................................................... 61
Tabel 3.2 Daftar Abstrak Studi Penelitian Sejenis ..................................................... 62
Tabel 3.3 Perbandingan Penelitian Sebelumnya Dengan Penelitian Peneliti .. 68
Tabel 3.4 Perbandingan Metode Eksperimen .............................................................. 72
Tabel 5.1 Jumlah Data Terambil Pada Setiap Loop Pengambilan ........................ 105
Tabel 5.2 Jumlah Sumber Data Pengguna Twitter ..................................................... 106
Tabel 5.3 Tabel 10 Besar User Dengan Post Terbanyak ......................................... 107
Tabel 5.4 Tabel 10 Besar User Paling Banyak di Re-Tweet ................................... 108
Tabel 5.5 User Kontrol Dengan Nilai DC Tertinggi ................................................. 112
Tabel 5.6 User Kontrol Dengan Nilai BC Tertinggi ................................................. 114
Tabel 5.7 User Kontrol Dengan Nilai CC Tertinggi ................................................. 116
Tabel 5.8 User Kontrol Dengan Nilai EC Tertinggi ................................................. 118
Tabel 5.9 User Kontrol Dengan Nilai PageRank Tertinggi .................................... 120
Tabel 5.10 User Eksperimen Dengan Nilai DC Tertinggi ...................................... 123
Tabel 5.11 User Eksperimen Dengan Nilai BC Tertinggi ....................................... 125
Tabel 5.12 User Eksperimen Dengan Nilai CC Tertinggi ....................................... 127
Tabel 5.13 User Eksperimen Dengan Nilai EC Tertinggi ....................................... 129
Tabel 5.14 User Eksperimen Dengan Nilai PageRank Tertinggi ......................... 131
Tabel 5.15 20 Besar User Kontrol Dengan Nilai DC Tertinggi ............................ 133
Tabel 5.16 Perbandingan Parameter SNA pada Anggota Cluster 1 ..................... 136
Tabel 5.17 Perbandingan Parameter SNA pada Anggota Cluster 2 ..................... 138
Tabel 5.18 Perbandingan Parameter SNA pada Anggota Cluster ......................... 141
xviii
Tabel 5.19 Kompilasi Nilai Parameter SNA Kelompok Kontrol .......................... 141
Tabel 5.20 Status User Berpengaruh pada Kelompok Kontrol .............................. 146
Tabel 5.21 Tabel Jumlah Node Di Dalam Cluster Kontrol ..................................... 147
Tabel 5.22 20 Besar User Eksperimen Dengan Nilai DC Tertinggi .................... 148
Tabel 5.23 Perbandingan Parameter SNA pada Anggota Cluster A ..................... 151
Tabel 5.24 Perbandingan Parameter SNA pada Anggota Cluster B ..................... 153
Tabel 5.25 Perbandingan Parameter SNA pada Anggota Cluster C .................... 156
Tabel 5.26 Perbandingan Parameter SNA pada Anggota Cluster D .................... 159
Tabel 5.27 Kompilasi Nilai Parameter SNA Kelompok Eksperimen .................. 160
Tabel 5.28 Status User Berpengaruh pada Kelompok Eksperimen ...................... 164
Tabel 5.29 Tabel Jumlah Node Di Dalam Cluster Eksperimen ............................. 165
Tabel 5.30 Komparasi Rank User Berpengaruh Kelompok Kontrol dan
Eksperimen 168
Tabel 5.31 Komparasi Nilai Degree Centrality Pasca Eksperimen ...................... 170
Tabel 5.32 Tabel Jumlah Nilai Degree Centrality Pada Seluruh Cluster ........... 172
xix
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pada 2015 lebih dari 75 juta masyarakat Indonesia telah memiliki akses ke
internet dan hampir semuanya adalah aktif pengguna media sosial. Jumlah
pengguna media sosial ini bertambah hampir 20 persen dari tahun sebelumnya
dengan rata-rata waktu akses 2,4 jam per hari (Republika, 2016).
Data yang berukuran raksasa sudah tidak dapat lagi dikelola secara tradisional,
dibutuhkan suatu teknologi baru untuk mengelola data secara realtime untuk
mempercepat analisis data. Ada beberapa teknologi pengelolaan data yang saat ini
berkembang pesat, salah satunya Apache Hadoop.
Setiap hari, data tercipta sebanyak 2.5 Quintillion bytes, sebanyak 90% dari
data di dunia tercipta dalam kurun waktu 2 tahun. Data ini bermunculan dari
segala sumber, yaitu: Sensor untuk mengumpulkan informasi iklim, informasi dari
media sosial, gambar digital dan video, rekaman transaksi pembelian, dan data
sinyal GPS dari smartphone (IBM, 2016).
Dengan maraknya media penyebaran data, maka muncul satu masalah utama
dalam melakukan verifikasi dan pengecekan kebenaran pada suatu data yang
muncul dan beredar dimasyarakat. Hoax mempunyai definisi untuk mengelabui
menjadi percaya atau menerima sesuatu yang palsu dan sering kali tidak masuk
akal (Merriam-Webster, 2017). Terlebih berita hoax yang dengan mudah tersebar
dan dibagikan tanpa memperhatikan kebenaran dan keaslian data dan berita.
Data yang dipaparkan oleh Kementerian Komunikasi dan Informatika
menyebut ada sebanyak 800 ribu situs di Indonesia yang terindikasi sebagai
penyebar berita palsu dan ujaran kebencian (hate speech). Menteri Kominfo
Rudiantara menjelaskan, angka tersebut merupakan data terbaru yang dimiliki oleh
1
UIN SYARIF HIDAYATULLAH JAKARTA
2
kementeriannya. Sayangnya, data itu tidak dibarengi dengan jumlah pemilik akun
di media sosial yang juga menyebarkan hoax (CNN, 2016).
Berdasarkan hasil penelitian Hunt Allcott and Matthew Gentzkow (2016). Satu
berita palsu (hoax) mempunyai pengaruh yang lebih besar dan bersifat persuasif
dibandingkan dengan satu berita pada media penyiaran berita mainstream.
Dengan adanya media sosial twitter, pengguna menjadi lebih mudah untuk
bertukar informasi atau opini secara cepat keseluruh penjuru dunia. Namun, twitter
belum memiliki teknologi untuk melakukan pengecekan kebenaran dan filtrasi
terhadap data yang beredar, dikarenakan ukuran data yang sudah terlampau besar.
Sesuai dengan data Twitter pada tahun 2016 menyebutkan bahwa Indonesia berada
pada urutan ke 3 sebagai pengguna Twitter paling aktif di dunia, dengan pengguna
asal Indonesia sebanyak 24,34 Juta pengguna (Statista, 2016).
Dengan dasar tersebut, maka diperlukan media analisis data untuk melakukan
pemetaan terhadap seberapa besar pengaruh berita hoax terhadap daya pikir
pengguna sosial media. Data tersebut dapat digunakan sebagai acuan seberapa
besar pengaruh pengguna sosial media dan seberapa jauh pemahaman pengguna
sosial media dalam menyikapi sebuah berita yang beredar.
Dalam al-Qur'an surat al-Hujurat ayat 6 telah disampaikan terkait berita bohong
dan bagaimana cara memperlakukan berita tersebut, sesuai dengan firman Allah.
“Hai orang-orang yang beriman, jika datang kepadamu orang fasik membawa
suatu berita, maka periksalah dengan teliti, agar kamu tidak menimpakan suatu
musibah kepada suatu kaum tanpa mengetahui keadaannya yang menyebabkan
kamu menyesal atas perbuatanmu itu”. (Q. S Al Hujurat ayat 6).
UIN SYARIF HIDAYATULLAH JAKARTA
3
Berdasarkan ayat al-Qur’an surat al-Hujarat bahwa setiap berita dan informasi
yang diterima haruslah diteliti dan diperiksa terlebih dahulu agar tidak
menyebabkan masalah terkait keaslian dan kebenaran suatu berita dan informasi.
Berdasarkan ayat tersebut peneliti tergerak untuk mengetahui lebih lanjut terkait
berita hoax, khususnya pada pengguna sosial media Twitter di Indonesia.
Menurut João Cunha, Catarina Silva dan Mário Antunes (2015). Analisis data
Twitter yang berjumlah besar dalam suatu dataset dapat memberikan perbaikan
yang signifikan. Dan dapat ditemukan prediksi-prediksi baru terkait kasus yang
diteliti, yang dapat menghilangkan inefficiency. Oleh karena besarnya data yang
bersumber dari Twitter yang bersifat realtime, dapat mempermudah proses analisis
dan penarikan kesimpulan sesuai dengan studi yang diteliti.
Untuk melakukan pemetaan terhadap data yang bersifat dinamis dan berjalan
secara realtime, maka dibutuhkan teknologi khusus untuk melakukan pengambilan
dan pengolahan data dari Twitter secara langsung. Teknologi tersebut ada dalam
sebuah teknologi open source bernama Apache Hadoop.
Apache Hadoop adalah framework yang dapat melakukan pemrosesan dari
sekumpulan data berukuran besar secara terdistribusi dengan menggunakan model
pemrograman sederhana. Hadoop dirancang untuk melakukan pemrosesan
terdistribusi mulai dari skala kecil yaitu single node sampai skala besar yaitu multi
node. Single node dan multi node sama-sama mempunyai kemampuan untuk
melakukan komputasi dan penyimpanan data (Hadoop. Apache, 2017)
Menurut Michael Malak (2014) Keuntungan terbesar dari Hadoop adalah
menggunakan kemampuan data locality pada High Performance Computing.
Memungkinkan HPC untuk mempunyai interkoneksi yang lebih cepat seperti
infinity band dan high-bandwidth storage.
Berdasarkan hasil penelitian Timothy S. Sliwinski dan Song-Lak Kang (2017)
Komputasi parallel (metode clustering) memberikan pelayanan yang lebih baik
UIN SYARIF HIDAYATULLAH JAKARTA
4
untuk melakukan penyelesaian analisis data pada model output yang bersifat
dinamis dan selalu bertambah dalam ukuran data. Metode parallel
memperbolehkan pengguna untuk melakukan pemanfaatan sumber daya yang
tersedia dari lebih dari satu node melebihi dari kapasitas yang diberikan oleh
single computer node. Pengguna dapat melakukan distribusi iterasi pengerjaan
sesuai dengan metode analisis yang digunakan.
Sebelumnya telah dilakukan beberapa penelitian yang dilakukan oleh (Timothy
S., Song-Lak Kang, 2017) mereka melakukan implementasi komputer terdistribusi
dan analisis data, dengan menggunakan spesifikasi cluster 640 komputer, dimana
setiap komputer mempunyai processor ganda Intel Xeon Westmere 2.8 GHz hex-
core, dengan core berjumlah 16. Dan 24 GB RAM pada setiap komputer. Hal
tersebut membuat penelitian menjadi tidak cost-efficient.
Penelitian Anusha Mogallapu (2011) dan penelitian Bentar Pritopradono (2012)
yang melakukan penelitian terkait social network analysis namun hanya
menggunakan 3 parameter perhitungan saja, sehingga hasil yang didapatkan tidak
beragam. Penelitian Feriza Julian Putra (2016) yang melakukan penelitian social
network analysis hanya pada user Telkomsel dan XL Axiata saja, sehingga data
dari user lain tidak terambil dan tidak dapat dianalisis.
Penelitian yang telah dilakukan oleh Aditya Abimanyu (2012) dengan
menggunakan tools Gephi sebagai alat bantu perhitungan dan visualisasi graf,
namun penelitian sebelumnya tidak melakukan pengubahan terhadap variabel
iterasi dan pembatasan waktu pada tools gephi. Penelitian sebelumnya hanya
menggunakan variabel standar yang telah ditetapkan oleh Gephi. Berdasarkan hal
tersebut peneliti ingin melakukan perbedaan dengan penelitian sebelumnya,
dengan melakukan pengubahan iterasi pengecekan perhitungan dari nilai 100
menjadi 200, dan menetapkan waktu maksimal (t-max) menjadi 60 detik, untuk
melihat apakah terjadi perubahan terhadap hasil yang didapat pada penelitian.
UIN SYARIF HIDAYATULLAH JAKARTA
5
Adapun hal yang peneliti usulkan pada penelitian ini sebagai pembeda dengan
penelitian lainnya adalah penggunaan Hadoop cluster multi node untuk proses
pengambilan data. Dan peneliti menggunakan 5 parameter pengukuran pada Social
Network Analysis yaitu pengukuran (Degree Centrality, Betweenness Centrality,
Closeness Centrality, Eigenvector Centrality, dan PageRank) untuk melakukan
pengukuran pada graf yang peneliti teliti.
Menurut Kate Ehrlich dan Inga Carboni (2005), Social network analysis
meneliti struktur hubungan sosial dalam sebuah kelompok untuk menemukan
hubungan informal antara manusia. Hubungan sering diterjemahkan dalam bentuk
komunikasi, kesadaran, kepercayaan, dan pengambilan keputusan. Untuk
melakukan pendekatan terhadap hubungan tersebut dibutuhkan SNA.
Peneliti melakukan observasi terhadap daftar trending topic pada sosial media
Twitter selama 1 bulan dari tanggal 15 Agustus 2017 sampai 14 September 2017,
untuk mengumpulkan data mengenai tingkat partisipasi pengguna Twitter terkait
hoax di Indonesia. Sebanyak 18 hari dari 1 bulan pelaksanaan observasi, peneliti
menemukan beberapa hashtag dan topik pembicaraan yang bersinggungan secara
langsung dengan penelitian peneliti. Munculnya topik dengan nama Saracen,
saracengate, sara, bijakbersosmed, dan topik lainnya. Artinya 58% hari topik hoax
muncul dan menjadi pembicaraan masyarakat di sosial media Twitter. Dengan
munculnya topik terkait hoax pada sosial media, menjadikan dasar peneliti untuk
melakukan penelitian.
Pada penelitian ini peneliti menggunakan parameter pengukuran pada Social
Network Analysis untuk melakukan pengukuran dan pemetaan terhadap ruang
lingkup yang peneliti teliti. Dikarenakan fleksibilitas dan tujuan yang akan dicapai
dari hasil pengolahan dan analisis data tersebut, sesuai dengan karakteristik dari
hubungan manusia itu sendiri yang diterjemahkan ke dalam kata-kata pada sosial
media Twitter. Peneliti menggunakan metode Eksperimen Intact-Group
UIN SYARIF HIDAYATULLAH JAKARTA
6
Comparison yang terdiri dari 7 langkah penelitian yaitu Pemilihan Desain,
Penentuan Sampel Representatif, Instrumentasi, Pelaksanaan Eksperimen,
Pengumpulan dan Penganalisisan Data, Analisis dan Interpretasi Data, dan
Kesimpulan Eksperimen. Ada 2 variabel yang akan peneleti ubah dan amati
perbedaannya pada penelitian ini yaitu, variabel iterasi pengecekan perhitungan
dan variabel waktu maksimal pada gephi.
Pada penelitian sebelumnya tidak dijelaskan secara mendetail mengenai desain
eksperimen apa yang digunakan pada penelitian, oleh karena itu peneliti ingin
melakukan penerapan metode eksperimen dengan desain intact-group comparison
pada penelitian sebagai pembeda dengan penelitian lain.
Peneliti juga menggunakan teknik multi node Hadoop clustering (High
Performance Cluster). Pemilihan teknik cluster dikarenakan secara alamiah jumlah
data yang dapat diambil yang bersumber dari Streaming API Twitter bersifat besar
dan berjalan dalam keadaan dinamis dan dalam rentang waktu realtime.
Berdasarkan pada latar belakang yang telah peneliti bahas, maka peneliti akan
melakukan sosial network analisis terhadap pengguna Twitter terkait berita hoax dan
menjadikannya sebagai bahan kajian yang tertuang dalam bentuk skripsi dengan judul
“Social Network Analysis Terhadap Pengguna Twitter Terkait Berita
Hoax Di Indonesia Dengan Metode Single Cluster Multi Node Menggunakan
Apache Hadoop Terdistribusi HortonworksTM”.
1.2 Rumusan Masalah
Rumusan masalah yang akan peneliti angkat dalam penelitian ini, sesuai
dengan latar belakang yang telah peneliti uraikan sebelumnya adalah:
1. Bagaimana melakukan social network analysis terhadap pengguna Twitter dengan studi data berita hoax dengan metode clustering menggunakan Apache
Hadoop terdistribusi HortonworksTM?
UIN SYARIF HIDAYATULLAH JAKARTA
7
2. Bagaimana pengaruh pengubahan iterasi pengecekan perhitungan pada gephi,
dengan penambahan iterasi, dari iterasi default sebesar 100 kali menjadi 200
kali pengecekan perhitungan?
3. Bagaimana pengaruh pengubahan penetapan waktu maksimal (t-max) pada
tahap visualisasi graf pada gephi, dengan penentuan nilai waktu maksimal (t-
max) pengecekan menjadi 60 detik?
4. Bagaimana melakukan penerapan metode eksperimen dengan desain intact-
group comparison pada penelitian?
1.3 Batasan Masalah
Batasan masalah pada penelitian ini agar tidak menyimpang terhadap topik
pembicaraan lain adalah:
1. Framework Hadoop menggunakan Hadoop yang didistibusikan oleh
HortonworksTM dan berjalan pada mode multi node.
2. Sistem ini akan mengelola data hanya dari sosial media twitter dengan API
yang telah disediakan oleh pihak twitter.
3. Penulisan Skripsi ini ditekankan pada analisis penyebaran data hoax, hubungan
user dengan user lain dalam ruang lingkup objek yang peneliti teliti.
4. Parameter utama dalam penelitian adalah pembatasan data yang hanya
bersinggungan dengan kata kunci hoax.
5. Data pengguna twitter merupakan pengguna media sosial twitter yang berasal
dari Indonesia.
6. Output dari penelitian ini adalah hasil analisis SNA berita hoax dan pengaruh
pengguna media sosial twitter terhadap berita hoax.
7. Peneliti tidak melakukan verifikasi terhadap konten tweet, setiap user yang
melakukan tweet dengan melibatkan keyword hoax, maka dapat dikategorikan
sebagai data penelitian.
8. Peneliti hanya membagi User Twitter menjadi 2 kelompok, pertama kelompok
user original yaitu user yang menuliskan tweet yang berasal dari penulisan
UIN SYARIF HIDAYATULLAH JAKARTA
8
original dari penulis tweet. Kelompok kedua yaitu user re-tweet yaitu user yang
melakukan posting ulang terhadap tweet dari user original.
9. Peneliti tidak melakukan validasi terhadap data, terkait apakah data termasuk
hoax atau bukan hoax. Seluruh tweet yang mengandung kata hoax akan
digunakan sebagai data penelitian.
1.4 Tujuan Penelitian
Tujuan utama dari penelitian ini adalah:
1. Melakukan analisis data twitter menggunakan social network analysis, dengan subjek berupa pengguna media sosial twitter, dengan objek penelitian berita hoax, dan tools yang digunakan adalah Apache Hadoop
terdistribusi HortonworksTM.
2. Mengetahui apakah terjadi perbedaan pada hasil perhitungan parameter
social network analysis, setelah dilakukan penambahan nilai variabel seperti
penambahan iterasi pengecekan perhitungan.
3. Mengetahui apakah terjadi perbedaan pada hasil visualisasi graf pada gephi.
Setelah dilakukan penetapan waktu maksimal (t-max).
4. Melakukan penerapan metode eksperimen dengan desain intact-group
comparison pada penelitian.
1.5 Manfaat Penelitian 1.5.1 Bagi Peneliti
1. Dapat memenuhi salah satu syarat wajib dalam menyelesaikan kurikulum
tingkat akhir Program Studi Teknik Informatika Fakultas Sains dan
Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
2. Menambah pengalaman dan pengetahuan dalam mengelola data pada
sistem Hadoop.
1.5.2 Bagi Pengguna
1. Memberikan wawasan baru terkait teknologi pengelolaan data yang
dapat digunakan untuk penelitian selanjutnya.
UIN SYARIF HIDAYATULLAH JAKARTA
9
2. Sebagai rujukan mengenai analisis kinerja Hadoop yang berjalan pada
multi node dan dapat dikembangkan lebih lanjut sesuai dengan
perkembangan teknologi yang ada.
3. Sebagai rujukan mengenai pemetaan penyebaran berita hoax yang
selama ini beredar dalam ruang lingkup media sosial twitter.
1.5.3 Bagi Universitas
1. Mengukur kemampuan dan pemahaman mahasiswa dalam menyerap
materi yang diperoleh selama belajar.
2. Sebagai referensi untuk penelitian selanjutnya.
3. Mengetahui kemampuan mahasiswa dalam mengimplementasikan hasil
pembelajaran selama di Universitas.
1.6 Metode Penelitian
Metode yang digunakan peneliti dalam menyusun Tugas Akhir ini adalah sebagai
berikut:
1.6.1 Metode Pengumpulan Data
1. Studi Pustaka
2. Observasi
1.6.2 Metode Eksperimen
1. Pemilihan Desain
2. Penentuan Sampel Representatif
3. Instrumentasi
4. Pelaksanaan Eksperimen
5. Pengumpulan dan Penganalisisan Data
6. Analisis dan Interpretasi Data
7. Kesimpulan Eksperimen
1.7 Sistematika Penulisan
Untuk memudahkan dalam membaca penelitian skripsi ini, maka peneliti membuat
sistematika penulisan dari penelitian ini adalah sebagai berikut: BAB 1
PENDAHULUAN
UIN SYARIF HIDAYATULLAH JAKARTA
10
Pada bab ini dijelaskan latar belakang, rumusan masalah, batasan masalah,
tujuan penelitian, manfaat penelitian, metodologi penelitian, dan
sistematika penulisan.
BAB II LANDASAN TEORI
Pada bab ini akan dijelaskan terkait teori-teori yang mendukung
eksperimen dan analisis yang dilakukan.
BAB III METODOLOGI PENELITIAN
Pada bab ini menjelaskan metode-metode yang digunakan dalam tahap
eksperimen dan analisis pada penelitian.
BAB IV EKSPERIMEN DAN IMPLEMENTASI
Pada bab ini menjelaskan proses eksperimen dan tahapan-tahapan analisis
yang dilakukan dalam penelitian ini.
BAB V HASIL ANALISIS DAN PEMBAHASAN
Pada bab ini berisi tentang output pada eksperimen yang dilakukan dan
pembahasan sesuai dengan analisis yang dilakukan terhadap data dan
sistem dalam penelitian.
BAB VI PENUTUP
Bab ini berisi tentang kesimpulan yang diperoleh dari hasil penelitian
pada skripsi ini.
UIN SYARIF HIDAYATULLAH JAKARTA
11
BAB II
LANDASAN TEORI
2.1 Hoax
Hoax adalah kegiatan untuk mengelabui menjadi percaya atau menerima sesuatu
yang palsu dan seringkali tidak masuk akal (Merriam-Webster.com, 2017). Menurut
Hunt Allcott dan Matthew Gentzkow (2016) Berita hoax adalah artikel berita atau
informasi yang memuat berita bohong yang sengaja dibuat oleh pembuatnya, untuk
menipu pembaca atau orang banyak. Semua informasi yang secara sengaja dibuat
seperti berita yang dibagikan atau share kepada orang banyak agar orang banyak
percaya dengan konten dari informasi palsu tersebut. Satu berita palsu (hoax)
mempunyai pengaruh yang lebih besar dan bersifat persuasif dibandingkan dengan
satu berita pada media penyiaran berita mainstream.
2.2 Metode Cluster
Komputer cluster adalah sekumpulan dari banyak komputer yang terhubung
dengan baik, dan bekerja bersama sehingga dapat dilihat seperti satu kesatuan
sistem. Komputer cluster mempunyai beberapa node (komputer) untuk
menjalankan tugas yang sama, yang telah dikontrol dan dijadwalkan oleh
perangkat lunak.
Komponen cluster biasanya terhubung antara satu dengan yang lain
menggunakan local area network, dengan setiap node menjalankan sistem
operasi masing-masing. Pada kondisi standar, seluruh node pada cluster
menggunakan perangkat keras yang mirip dan sistem operasi yang sama.
2.2.1 Jenis-jenis Clustering
Dalam metode clustering terdapat berbagai macam jenis cluster yang dapat
diterapkan pada komputer. Jenis-jenis clustering adalah sebagai berikut:
1. High Performance Cluster
Beberapa komputer bekerja bersama untuk menjalankan satu atau lebih
pekerjaan yang membutuhkan banyak sumber daya komputer.
11 UIN SYARIF HIDAYATULLAH JAKARTA
12
Gambar 2.1 Overview dari High Performance Clustering
(Sumber Sander Van Vugt, 2014)
High performance cluster biasanya digunakan pada lingkungan kerja
yang sangat membutuhkan sumber daya komputer. Pada jenis ini seluruh
komputer atau server bekerja sebagai satu kesatuan. Sehingga pekerjaan
yang berat dapat dibagi kepada komputer-komputer yang terhubung di
dalam cluster.
2. Load Balancing Cluster
Sekumpulan load balancer yang digunakan sebagai penyedia layanan dan
menerima permintaan dari user. Jenis cluster ini melakukan distribusi
permintaan pekerjaan kepada server yang berbeda, sesuai kegunaan dari
server yang ada.
Gambar 2.2 Overview dari Load Balancing Clustering
(Sumber Sander Van Vugt, 2014)
UIN SYARIF HIDAYATULLAH JAKARTA
13
Jenis clustering ini biasanya digunakan sebagai sistem pada layanan
website. Dikarenakan sebuah website yang ramai pengunjung
membutuhkan sokongan sumber daya komputer yang memadai untuk
mendukung proses optimalisasi dari website.
3. High Availability Cluster
Beberapa server bekerja bersama untuk memastikan bahwa sumber daya
penting yang ada pada jaringan selalu tersedia dan tidak mengalami
penurunan kecepatan dan penurunan kualitas.
Gambar 2.3 Overview dari High Availability Clustering
(Sumber Sander Van Vugt, 2014)
Tujuan utama dari penggunaan high availability clustering adalah untuk
memastikan ketersediaan sumber daya penting dalam tingkat maksimal.
Perangkat lunak melakukan monitoring terhadap kesediaan dari node di
dalam cluster, sehingga apabila salah satu server mati, maka perangkat lunak
akan melakukan monitoring dan memastikan bahwa pekerjaan tetap berjalan
pada node lain di dalam cluster (Sander Van Vugt, 2014).
2.2.2 Komputer Terdistribusi (Cluster)
Komputasi terdistribusi adalah sekumpulan sistem yang terdiri dari
hardware dan software yang mengandung lebih dari satu elemen pemroses
UIN SYARIF HIDAYATULLAH JAKARTA
14
atau storage, proses-proses yang konkuren, atau sekumpulan program yang
berjalan dalam suatu domain yang dikendalikan secara langsung.
Dalam komputasi terdistribusi, suatu program dipecah ke dalam bagian-
bagian yang berjalan secara simultan (bersamaan) pada banyak komputer
yang berkomunikasi pada satu jaringan. Komputasi terdistribusi merupakan
suatu bentuk dari komputasi paralel, tetapi komputasi paralel digunakan
untuk menggambarkan bagian-bagian program yang berjalan secara simultan
pada banyak prosesor dalam komputer yang sama. Kedua tipe pemrosesan
ini memerlukan pembagian suatu program kedalam bagian-bagian yang
berjalan secara bersamaan, tetapi program terdistribusi sering berhadapan
dengan lingkungan yang heterogen, link jaringan dengan latency bervariasi,
dan kegagalan yang tidak dapat diprediksi, baik di dalam jaringan maupun
computer (Komputasi.lipi, 2010).
2.2.3 Apache Hadoop
Hadoop adalah framework open source untuk menulis dan menjalankan
aplikasi terdistribusi yang memproses sejumlah data. Hadoop berjalan pada
sekumpulan komputer atau server dalam cluster atau layanan cloud computing.
Karena ditujukan untuk berjalan diperangkat keras cluster, Hadoop dirancang
dengan asumsi malfungsi perangkat keras yang sering terjadi. Hadoop mampu
menangani sebagian besar kegagalan tersebut. Hadoop melakukan skala secara
linear menangani data yang besar, dengan menambahkan lebih banyak node
baru ke cluster. Hadoop memungkinkan pengguna untuk menulis dengan cepat
kode paralel yang efisien. Aksesibilitas dan kesederhanaan Hadoop memberikan
keunggulan dalam menulis dan menjalankan program terdistribusi yang besar
(Chuck Lam, 2011).
2.2.4 Keuntungan Hadoop
1. Scalability. Arsitektur Hadoop yang mampu berjalan dalam lingkungan
cluster, menjadikan Hadoop mudah dan ekonomis untuk melakukan
manipulasi dalam hal penambahan jumlah node baru ke dalam cluster
UIN SYARIF HIDAYATULLAH JAKARTA
15
yang sudah terbentuk. Penambahan node mempunyai tujuan apabila
terjadi beban ekstra atau bertambahnya jumlah user di dalam sistem.
2. Fault tolerance, Kemungkinan kegagalan pada saat running system tidak
bisa dikesampingkan. HDFS menawarkan redundansi dan pemulihan
pada saat terjadinya kesalahan. Jika salah satu server berhenti berfungsi,
node lain menyimpan data sebagai hasil replikasi, yang merupakan fitur
penting dari Hadoop. Eksekusi ulang tugas merupakan fitur penting
karena perhitungan akan dialihkan ke node yang berbeda jika terjadi
kegagalan pada node yang lain. Oleh karena itu, tidak ada kehilangan
data, dan ini juga menjamin ketersediaan data kapanpun dibutuhkan.
3. Resource sharing, Hadoop mengikuti konsep komputasi terdistribusi.
Oleh karena itu, sumber daya dan CPU di seluruh cluster digunakan
bersamaan satu sama lain. Perhitungan paralel dapat dicapai dengan
mudah dengan Hadoop (Aravind Shenoy, 2014).
2.2.5 HDFS
Hadoop Distributed File System (HDFS) adalah sistem file terdistribusi
yang dirancang untuk berjalan pada perangkat keras cluster. HDFS memiliki
banyak kesamaan dengan sistem file terdistribusi yang lain. HDFS sangat
toleran terhadap kesalahan dan dirancang untuk digunakan pada perangkat
keras berbiaya rendah. HDFS menyediakan akses throughput yang tinggi ke
data aplikasi dan cocok untuk aplikasi yang memiliki kumpulan data yang
besar. HDFS adalah bagian dari proyek Apache Hadoop Core (Hadoop
Apache, 2017).
2.2.6 Arsitektur HDFS
HDFS memiliki arsitektur master / slave. Sebuah cluster HDFS terdiri
dari satu NameNode tunggal, server yang mengelola namespace system file
dan mengatur akses ke file oleh klien. Biasanya ada satu DataNode per node
di dalam cluster, yang mengelola penyimpanan yang ter-install pada node
yang berjalan. HDFS menampilkan namespace system file dan
UIN SYARIF HIDAYATULLAH JAKARTA
16
memungkinkan data pengguna disimpan di dalam file. Secara internal, file
dipecah menjadi satu atau beberapa blok dan blok ini disimpan dalam satu set
DataNodes. NameNode mengeksekusi operasi namespace system file seperti
membuka, menutup, dan mengganti nama file dan direktori. NameNode juga
menentukan pemetaan blok ke DataNodes. DataNodes bertanggung jawab
untuk melayani permintaan read and write. DataNodes juga melakukan block
creation, deletion, dan replication pada instruksi dari NameNode.
Gambar 2.4 Bagian Inti Arsitektur HDFS
(Sumber Hadoop Apache, 2017)
Gambar 2.4 menjelaskan skema replikasi data pada DataNode, setiap
user melakukan input data atau perintah secara langsung ke NameNode,
NameNode langsung melakukan penyimpanan data pada DataNode yang
tersebar pada server dan melakukan replikasi sesuai dengan konfigurasi
awal HDFS, by default HDFS hanya melakukan 1 kali replikasi blok data.
NamaNode dan DataNode dirancang untuk berjalan pada teknik cluster.
Mesin ini biasanya menjalankan sistem operasi GNU / Linux (OS). HDFS
dibangun dengan menggunakan bahasa JAVA. Setiap mesin yang
UIN SYARIF HIDAYATULLAH JAKARTA
17
mendukung JAVA dapat menjalankan perangkat lunak NameNode atau
DataNode. Penggunaan bahasa JAVA yang sangat fleksibel memungkinkan
HDFS untuk digunakan pada berbagai mesin. Biasanya sebuah NameNode
hanya berada pada satu mesin yang sengaja ditugaskan sebagai server
utama. Masing-masing mesin lainnya di dalam cluster menjalankan satu
DataNode. Keberadaan satu NamaNode tunggal dalam sebuah cluster
membuat sistem arsitektur HDFS menjadi sederhana. NameNode adalah
arbitrator dan repositori untuk semua metadata HDFS. Sistem ini dirancang
sedemikian rupa sehingga data pengguna tidak pernah mengalir melalui
NameNode (Hadoop Apache, 2017).
2.2.7 Struktur HDFS
Hadoop mempunyai struktur yang berisi sekumpulan daemons yang
berjalan berkesinambungan yang tersebar pada nodes yang berbeda dalam
satu jaringan. Daemon adalah program komputer yang berjalan pada
komputer dalam tatanan level background. Daemons mempunyai tugas yang
spesifik sesuai dengan tujuan daemon tersebut. Ada yang hanya ditugaskan
pada satu server saja dan bahkan berjalan pada semua server. Beberapa
daemons yang membentuk struktur Hadoop adalah NameNode, DataNode,
Secondary NameNode, JobTracker, dan TaskTracker.
a. NameNode
Sistem distribusi penyimpanan data pada Hadoop dinamakan Hadoop
file system atau HDFS. NameNode merupakan daemon yang berjalan
pada master di HDFS, NameNode mempunyai tugas untuk melakukan
perintah secara langsung terhadap daemon DataNode yang berjalan pada
slave, untuk melakukan proses input dan output. NameNode menyimpan
data terkait spesifikasi data seperti bagaimana data dipecah menjadi file
blocks, mengetahui node mana yg menyimpan block tersebut dan
mengetahui tingkan kesehatan dari file system untuk melakukan
monitoring terhadap HDFS.
UIN SYARIF HIDAYATULLAH JAKARTA
18
b. DataNode
Setiap komputer yang berfungsi sebagai slave di dalam cluster akan
menjadi node dimana daemon DataNode berjalan, berfungsi untuk proses
read and write blok-blok HDFS yang sudah dipecah untuk disimpan di
dalam storage. Saat proses read and write file HDFS, file dipecah menjadi
blok-blok kemudian NameNode akan memberitahu dimana DataNode
menyimpan setiap blok-blok yang tersimpan. Kemudian user melakukan
komunikasi langsung dengan daemon DataNode untuk melakukan proses
sesuai dengan dimana lokasi file yang akan di proses. DataNode dapat
melakukan komunikasi dengan DataNode lain untuk melakukan replikasi
data untuk proses redundancy data apabila terjadi kesalahan.
Gambar 2.5 Interaksi NameNode dan DataNode pada HDFS
(Sumber Chuck Lam, 2011)
Dari Gambar 2.5, menjelaskan tugas dari NameNode dan DataNode.
Data utama dipecah menjadi beberapa blok-blok dan dilakukan proses
duplikasi blok yang kemudian disimpan di dalam DataNode yang tersebar
pada cluster. Proses duplikasi dan replikasi bertujuan untuk mengurangi
kegagalan dalam cluster, sehingga apabila ada DataNode yg rusak, user
masih bisa mengakses blok lain yang telah diduplikasi. Pada proses
UIN SYARIF HIDAYATULLAH JAKARTA
19
inisiasi, DataNode melaporkan kepada NameNode terkait lokasi blok-
blok yang disimpan.
c. Secondary NameNode
Secondary NameNode (SNN) adalah daemon yang bertugas sebagai
asisten untuk melakukan monitoring terkait kondisi cluster HDFS. Sama
seperti NamneNode, setiap mesin pada cluster mempunyai satu SNN.
SNN mempunyai perbedaan dengan NameNode dimana pada setiap
proses SNN tidak menerima atau melakukan pencatatan terkait
pergantian yang terjadi pada HDFS secara real-time. SNN
berkomunikasi dengan NameNode untuk mengambil gambaran umum
dari metadata HDFS yang telah ditentukan pada konfigurasi awal. SNN
membantu untuk meminimalisir kehilangan data.
d. JobTracker
Daemon JobTracker bertugas sebagai penghubung antara services dan
Hadoop. Pada saat user melakukan input code ke dalam cluster,
JobTracker melakukan penentuan planning eksekusi dengan
menentukan file mana yang akan diproses, menentukan node-node
sesuai dengan tugas yang dibutuhkan, dan melakukan monitoring
terhadap tugas yang berjalan. Apabila ada tugas yang gagal, JobTracker
akan secara otomatis melakukan pengulangan tugas kembali dan bila
memungkinkan dilakukan pemindahan lokasi dimana tugas akan
dilakukan. Hanya ada satu daemon JobTracker pada setiap cluster
Hadoop, dan berjalan pada node yang bertugas sebagai master.
e. TaskTracker
Konsep dalam cluster berjalan berdasarkan fondasi utama pembagian
node kedalam dua arsitektur, yaitu master dan slave. dalam hubungan
antara JobTracker dan TaskTracker juga mengikuti arsitektur tersebut.
JobTracker bertugas sebagai master yang melakukan monitoring tugas-
tugas dan TaskTracker melakukan manajemen eksekusi dari tugas-tugas
UIN SYARIF HIDAYATULLAH JAKARTA
20
individual yang berjalan pada node yang bertugas sebagai slave (Chuck
Lam, 2011).
2.2.8 Keuntungan HDFS
Keuntungan dari HDFS adalah toleransi akan terjadinya kesalahan.
HDFS mampu menyediakan kemampuan untuk menyiapkan data transfer
secara cepat antara nodes yang ada apabila terjadi kesalahan di dalam
cluster Hadoop. Berkat adanya kemampuan tersebut Hadoop mampu
membuat proses yang berjalan pada cluster tetap berjalan seperti semestinya
walaupun terjadi kesalahan atau error pada cluster (Mohd Rehan G., 2015).
2.3 Apache Ambari
Apache Ambari adalah sebuah alat untuk melakukan penyediaan, pengelolaan,
dan pemantauan terhadap Apache Hadoop yang berjalan pada mode cluster multi
node. Ambari berisikan sekumpulan REST (Representational state transfer),
services yang disediakan Apache Ambari sesuai dengan komponen Hadoop yang
akan digunakan dan sesuai dengan kebutuhan. Dan menyediakan manajemen
Hadoop berbasis Browser. Ambari mempermudah user untuk melakukan
penyediaan cluster Hadoop dengan menyediakan urutan dalam melakukan install
services Hadoop yang dapat di pasang pada node yang tersedia, dan Ambari
mampu melakukan konfigurasi services Hadoop pada cluster secara mudah
dikarenakan berbasis browser. Ambari menyediakan dashboard untuk melakukan
monitoring kesehatan dan status dari cluster Hadoop (Ambari Apache, 2017).
2.3.1 Arsitektur Apache Ambari
Ambari menyediakan REST yang melakukan otomatisasi operasi di
dalam cluster Hadoop. Ambari memberikan pelayanan yang konsisten dan
aman untuk melakukan kontrol operasional secara efisien.
UIN SYARIF HIDAYATULLAH JAKARTA
21
Gambar 2.6 Alur Komunikasi Server dan Agent
(Sumber Intellipaat, 2017)
Gambar 2.6 menjelaskan bagaimana proses komunikasi antara Ambari-
Server dan Ambari-Agent. Hanya tersedia satu master pada setiap cluster
Hadoop dan beberap agent pada beberapa slave sesuai dengan spesifikasi
cluster yang dibuat. User melakukan perintah secara langsung pada server.
Arsitektur ambari biasanya mempunyai dua komponen utama yaitu
Ambari-Server dan Ambari-Agent. Server bertugas sebagai proses yang
melakukan komunikasi dengan agent yang berada pada seluruh node di
dalam cluster. Sedangkan Agent bertugas selalu aktif untuk memberikan
informasi mengenai status kesehatan dari seluruh node yang berjalan pada
cluster Hadoop (Intellipaat, 2017).
2.4 Apache Nifi
NiFi adalah sebuah projek yang dibuat oleh National Security Agency (NSA)
Amerika Serikat dan mempunyai nama Niagarafiles. Pada tahun 2014 NSA
melakukan penyebar luasan NiFi dan menjadikannya berbasis Open-Source. NiFi
mampu malakukan otomatisasi data flows dalam lingkup jaringan komputer dalam
cluster, walaupun format data dan protokol yang digunakan berbeda. Code dari NiFi
kemudian dilakukan release ke publik melalui Apache Software Foundation.
UIN SYARIF HIDAYATULLAH JAKARTA
22
NiFi dibuat untuk menciptakan kesadaran situasional yang didapat dari arus
informasi yang datang dari berbagai sumber (Convergedigest, 2014). Dataflow
adalah paradigma software yang dilandaskan pada ide untuk pemutusan aktor
pada komputasi kemudian diubah menjadi tahapan-tahapan yang dapat dieksekusi
secara bersamaan (Jonathan Beard, 2015).
2.4.1 Tantangan Dataflow
1. Systems fail yang meliputi kegagalan jaringan, kegagalan penyimpanan
data, software crashes, kesalahan dari pihak user. Dikarenakan banyak
faktor yang menentukan kegagalan dalam proses dataflow.
2. Akses data mengalami hambatan kapasitas penyimpanan. Data yang
berasal dari sumber data yang tidak terhingga mampu memberikan
kegagalan dalam hal penyimpanan yang melebihi kapasitas
penyimpanan data.
3. Adanya batasan kondisi yang menghalangi proses, Dataflow mungkin
memberikan data yang terlalu besar, terlalu kecil, terlalu cepat, terlalu
lambat, data yang rusak, kesalahan spesifikasi data, dan format data
yang salah.
4. Pengubahan data, Pengubahan data yang cepat yang dimana
memungkinkan pengubahan data noise menjadi data signal dalam
kurun waktu yang cepat, maka dibutuhkan kemampuan untuk
beradaptasi terhadap pengubahan data yang sangat cepat. Sehingga
proses pengambilan data tetap berjalan stabil.
5. Pengubahan sistem yang berbeda-beda. Protokol dan format yang
digunakan dalam sistem dapat berubah kapan saja. Dataflow
digunakan untuk mengkoneksikan apa yang penting dalam komputasi
terdistribusi dan menentukan bagaimana data bekerja.
2.4.2 Konsep Apache NiFi
Apache Nifi mempunyai konsep utama dalam melakukan proses
Dataflow dalam setiap iterasi sebagai berikut:
UIN SYARIF HIDAYATULLAH JAKARTA
23
1. Flowfile
Flowfile merepresentasikan setiap objek yang berpindah melalui
sistem, dan untuk setiap perpindahan, NiFi melakukan pelacakan
lokasi key/value yang dipasangkan dengan atribut dan kontennya.
2. FlowFile Processor
Prosesor yang melakukan pekerjaan. Prosesor melakukan kombinasi
dari routing data, transformasi data atau mediasi antar sistem. Prosesor
mempunyai akses terhadap atribut dari Flowfile dan konten stream.
Prosesor dapan melakukan operasi terhadap sejumlah FlowFile dalam
kurun waktu dan kerja yang ditentukan.
3. Connection
Connection menyediakan hubungan dalam lingkup pengerjaan antara
FlowFile Processor. Connection berfungsi sebagai queues (antrian)
dan mengizinkan beberapa proses untuk berinteraksi dalam tingkatan
yang berbeda. Queues (antrian) dapat diprioritaskan secara dinamis
sesuai dengan kebutuhan.
4. Flow Controller
Flow Controller melakukan maintenance terhadap bagaimana proses
melakukan koneksi dan mengatur threads dan alokasi tempat yang
dilakukan oleh semua proses. Flow controller berfungsi sebagai broker
yang memfasilitasi pertukaran FlowFiles diantara prosesor.
5. Process Group
Process Group adalah sekumpulan proses-proses termasuk hubungan
dan koneksi tiap proses secara spesifik. Process Group mampu
menerima data melalui port input dan mengirim data melalui port
output. Process group memperbolehkan penciptaan komponen baru
dengan menggunakan komponen-komponen lainnya.
UIN SYARIF HIDAYATULLAH JAKARTA
24
2.4.3 Arsitektur Apache Nifi
Nifi melakukan eksekusi program dalam ruang lingkup JVM (JAVA
Virtual Machine) yang berada pada level sistem operasi. Komponen-
komponen primer pada Apache NiFi adalah:
Gambar 2.7 Arsitektur NiFi Pada JVM
(Sumber NiFi Apache, 2017)
Gambar 2.7 menjelaskan bahwa Apache NiFi menggunakan JVM
untuk melakukan eksekusi program kemudian dihubungkan dengan Host
dimana NiFi di install kemudian dihubungkan menggunakan penyimpanan
baik local storage ataupun penyimpanan di HDFS. Apache NiFi
mengunakan tampilan antarmuka GUI berbasis browser.
1. Web Server. Kegunaan dari web server adalah sebagai wadah berjalannya
perintah dan kontrol NiFi berbasis HTTP.
2. Flow Controller. Adalah otak dari proses operasi. Flow controller
menyediakan thread untuk melakukan ekstensi proses yang berjalan dan
melakukan pengaturan scheduling terkait kapan sebuah ekstensi dapat
menerima data atau kode untuk dieksekusi.
3. Extension. Banyak tipe-tipe ekstensi dalam Nifi yang melakukan operasi
pengerjaan dan eksekusi di dalam lingkup JVM.
UIN SYARIF HIDAYATULLAH JAKARTA
25
4. FlowFile Repository adalah tempat NiFi melacak keadaan dari FlowFile
yang sedang aktif dalam proses Dataflow. Implementasi dari sebuah
repository adalah temporary, artinya dapat digunakan saat dibutuhkan dan
dapat tidak digunakan saat tidak dibutuhkan.
5. Content Repository. Adalah tempat dimana konten utama yang diberikan
dari FlowFile berada. Content repository menyimpan blok-blok data di
dalam file system. Lebih dari satu tempat penyimpanan dapat digunakan
dan dilakukan partisi sesuai kebutuhan untuk mengurangi dampak
kegagalan bila kerusakan data terjadi.
6. Provenance Repository. Semua event dari data disimpan pada provenance
repository. Repository ini dapat digunakan pada lebih dari satu lokasi
penyimpanan. Lokasi dari event data sudah dilakukan proses index dan
dapat dicari secara langsung.
Gambar 2.8 Implementasi Apache NiFi dalam Skema Cluster
(Sumber NiFi Apache, 2017)
Apache NiFi juga bisa diimplementasikan dalam mode clustering.
Dimana setiap host node menjalankan satu service dari NiFi dan kemudian
digabungkan melalui satu penyimpanan data yang besar pada server di
local disk ataupun di HDFS sesuai dengan besar cluster.
UIN SYARIF HIDAYATULLAH JAKARTA
26
Koordinator cluster sangat berpengaruh dan bertanggungjawab untuk
melakukan penyambungan dan pemutusan hubungan antar node. Setiap
cluster mempunyai node primer, yang berfungsi sebagai pusat kendali
(NiFi Apache, 2017).
2.5 Solr
Solr adalah alat untuk melakukan pencarian dalam skala enterprise, dalam
kurun waktu yang cepat dan scalable, yang dibuat menggunakan pondasi Apache
Lucene. Solr telah berkembang sedemikian rupa sehingga mampu menyediakan
seluruh fitur dan teknik untuk melakukan pencarian dan lainnya. Solr mampu
dijalankan berbasis cloud untuk meningkatkan ketahanan, toleransi kesalahan
dan kehandalan.
2.5.1 Fitur Solr
1. Inverted Index
Solr membuat index terbalik dari dokumen yang ditambahkan ke Solr, dan
pada saat melakukan query, Solr mencari index untuk mencocokkan
dokumen. Index invert mirip dengan indek di akhir buku.
2. Vector Space
Secara default, Solr menggunakan VSM (vector space model) berbarengan
dengan model Boolean untuk menentukan kecocokkan dokumen dengan
keyword pencarian yang user masukan.
3. Analysis Chain
Pada saat melakukan query pencarian, dokumen yang sedang melalui proses
index akan melalui beberapa rantai analisis dan pemberian token. Output dari
token terakhir yang dihasilkan menjadi keyword index suatu dokumen.
2.5.2 Tahapan Index
Tahap indexing dapat berjalan secara simpel dan mudah apabila data
mempunyai bentuk terstruktur dan terformat dengan baik. Namun apabila
bentuk data tidak terstruktur dan mempunyai berbagai macam format dan
UIN SYARIF HIDAYATULLAH JAKARTA
27
sumber data yang berbeda, proses indexing akan menjadi lebih sulit. Berikut
ini adalah tahapan pada proses indexing:
1. Text Extraction
Dalam proses ini, Solr mengekstrak teks untuk pengindeksan. Teks dapat
diperoleh, misalnya dengan membaca file, query database, merangkak
halaman web, atau membaca RSS feed. Ekstraksi dapat dilakukan oleh
aplikasi klien Java atau komponen Solr. DataImportHandler adalah modul
contrib yang bisa digunakan untuk membaca data dari databas, misalnya.
Kerangka Solr Cell, dapat langsung mengekstrak data dari file dalam
format Office, Word, dan PDF, serta format proprietary lainnya.
2. Document Preparation
Teks yang diekstraksi harus diubah menjadi dokumen Solr untuk
dikonsumsi. Dokumen yang disiapkan harus mematuhi format asli yang
ditentukan, misalnya untuk XML atau JSON. Jika data langsung dicerna
dengan menggunakan salah satu kerangka kerja Solr yang mendukung
transformasi otomatis, langkah ini mungkin tidak diperlukan.
3. Post and Commit
Selama proses ini, user memposting dokumen ke titik akhir Solr yang
sesuai dengan parameter yang dibutuhkan. Kemampuan ekstraksi yang
disediakan Solr dilakukan berdasarkan titik akhir yang user panggil.
4. Document Preprocesing
User mungkin ingin melakukan pembersihan, pengayaan, atau validasi teks
yang diterima oleh Solr. Solr menyediakan sejumlah besar implementasi
seperti UpdateRequestProcessor untuk melakukan tugas ini. Tugas ini
menguraikan penerapan prosesor untuk tugas umum seperti deteksi
duplikasi ganda dan bahasa, dan memungkinkan user menulis prosesor
khusus.
UIN SYARIF HIDAYATULLAH JAKARTA
28
5. Field Analysis
Analisis lapangan mengubah aliran input menjadi istilah. Langkah ini
mengacu pada rantai analisis penganalisis, tokenizers dan filter token yang
diterapkan pada fieldType definition.
6. Index
Output dari tahap field analysis adalah index terbalik. Istilah index
digunakan untuk melakukan pencocokkan dan ranking pada tahap query.
Proses ini akan dijalankan setelah user melakukan proses post operation.
Tahap preprocessing dan field analysis yang telah didefinisikan pada Solr
akan secara otomatis berjalan. Dan dokumen akan ter-index (Dikshant
Shahi, 2015).
2.6 Twitter
Twitter merupakan sosial media masif yang berubah menjadi situs berbagi
informasi dan berkomunikasi secara cepat. Kecepatan dan kemudahan twitter
dalam hal publikasi, membuat twitter menjadi sebuah medium pilihan bagi
pengguna untuk berkomunikasi setiap hari. Twitter mempunyai peran dan andil
penting dalam pergerakan sosial-politik seperti Arab Spring dan The Occupy Wall
Street movement. Twitter juga dapat digunakan untuk melakukan laporan
kerusakan dan persiapan informasi terkait bencana pada saat bencana alam akan
dan sedang terjadi (Shamath Kumar, 2013).
2.6.1 Glosarium Twitter
Glosarium Twitter berisi kosakata dan istilah yang sering digunakan
untuk membahas fitur dan aspek dari Twitter.
1. @. Simbol @ digunakan untuk memanggil nama pengguna dalam
Tweet: "Halo @twitter!" Orang lain akan menggunakan
@namapengguna Anda untuk menyebut Anda di Tweet dan mengirim
Direct Message atau tautan ke profil Anda.
2. @username. Anda dikenali di Twitter melalui nama pengguna yang selalu
diawali simbol @. Misalnya, Bantuan Twitter adalah @BantuanTwitter.
UIN SYARIF HIDAYATULLAH JAKARTA
29
3. #hashtag. Hashtag adalah kata atau frasa yang diawali langsung dengan
simbol #. Bila Anda melakukan klik atau menyentuh hashtag, Anda
akan melihat Tweet lain yang berisi kata kunci atau topik yang sama.
4. Geolokasi. Dengan menambahkan lokasi pada Tweet (geolokasi atau
geotag), pengguna yang melihat Tweet Anda akan mengetahui lokasi
Anda saat mengirimkan Tweet.
5. Time Stamp. Tanggal dan waktu ketika Tweet dikirim ke Twitter. Cap
waktu Tweet terlihat sebagai tulisan abu-abu di setiap tampilan rincian
Tweet.
6. Following. Berlangganan ke sebuah akun Twitter disebut “mengikuti”.
Untuk mulai mengikuti, klik atau sentuh tombol ikuti di samping nama
akun atau di halaman profil mereka untuk melihat Tweet mereka.
Pengguna di Twitter dapat mengikuti atau berhenti mengikuti pengguna
lain kapan saja, kecuali akun yang diblokir.
7. Follower. Mengikuti dihasilkan dari pengguna yang mengikuti akun
Twitter Anda. Anda dapat mengetahui jumlah mengikuti (atau pengikut)
yang Anda miliki dari profil Twitter Anda.
8. Retweet. Tindakan menyebarkan Tweet akun lain kesemua pengikut
Anda dengan mengeklik atau menyentuh tombol Retweet (Support
Twitter, 2017).
2.6.2 Streaming API
Streaming API merupakan fitur pada twitter yang membantu developer
untuk melakukan akses secara langsung ke dalam stream global Twitter
dengan latency yang rendah, sehingga memudahkan developer untuk
melakukan pengambilan data. Beberapa tipe endpoint dalam Streaming
API adalah:
1. Public Streams. Menyediakan streams yang berasal dari data publik
yang bergabung dengan Twitter. Jenis endpoint ini berguna untuk
mencari user tertentu, mencari topik dan melakukan data mining.
UIN SYARIF HIDAYATULLAH JAKARTA
30
2. User Streams. Single-user streams yang menyediakan seluruh data yang
berkesesuaian dengan seluruh informasi mengenai user pilihan.
3. Site Streams. Adalah streams untuk melakukan pencarian data yang
dikhususkan untuk mecari seluruh informasi pada banyak user.
Endpoint ini mengharuskan developer untuk melakukan koneksi ke
twitter dengan otentikasi banyak user.
2.7 Social Network Analysis
Social Network Analysis adalah sebuah analisis untuk melakukan pemeriksaan
terhadap hubungan dari komunikasi dalam sebuah kumpulan kelompok untuk
mengetahui koneksi non-formal antara manusia. SNA berlandaskan akan asumsi
dari pentingnya relasi antara node yang berinteraksi. Hal tersebut menunjukkan
arah koneksi antar user yang terkoneksi melalui background yang berbeda sampai
pada tingkatan keluarga (Rupam Some, 2013).
2.7.1 Terminologi
1. Aktor juga disebut sebagai node atau simpul. Merujuk kepada seorang
individu yang mempunyai atau tidak mempunyai hubungan dengan
individu lain. Dalam hal ini individu dengan individu, individu dengan
kelompok dan kelompok dengan kelompok.
Gambar 2.9 Aktor-aktor Tanpa Keterangan Hubungan
(Sumber Matthew Denny, 2014)
UIN SYARIF HIDAYATULLAH JAKARTA
31
2. Edge atau relasi. Menjelaskan secara spesifik hubungan antara dua
aktor. Ini dapat merujuk kepada hubungan secara langsung atau tidak
langsung seperti, aktor A menyukai aktor B, aktor B bertukar informasi
dengan aktor C dan aktor C mengikuti aktor D. Edge dapat berupa un-
directed atau tidak secara spesifik digambarkan arah hubungan seperti
aktor A dan aktor B bersekolah di tempat yang sama.
Gambar 2.10 Sekumpulan Actor Dalam Skema Un-Directed Edge
(Sumber Matthew Denny, 2014)
Gambar 2.11 Sekumpulan Actor Dalam Skema Directed Edge.
(Sumber Matthew Denny, 2014)
3. Network (Jaringan) juga bisa disebut graph, menjelaskan mengenai
sekumpulan aktor dan edge atau hubungan diantara mereka.
UIN SYARIF HIDAYATULLAH JAKARTA
32
Gambar 2.12 Sekumpulan Actor Beserta Relasi
(Sumber Matthew Denny, 2014)
4. Weighted Ties. Relasi dengan bobot. Relasi ini menjelaskan secara
spesifik bobot hubungan antar aktor.
Gambar 2.13 Relasi Dengan Bobot Antara Node
(Sumber Matthew Denny, 2014)
UIN SYARIF HIDAYATULLAH JAKARTA
33
2.7.2 Social Network Data
Data jaringan sosial dapat dikategorikan menjadi dua bentuk,
pertama edge list dan sociamatricies. Kedua format memiliki
kelemahan dan kelebihan untuk melakukan analisis data.
1. Edge List
Daftar node adalah bentuk penyimpanan untuk SNA. Bentuk ini
hanya memberikan informasi mengenai hubungan di dalam jaringan
sesuai dengan jumlah aktor. Bentuk format data ini sangat baik untuk
menyimpan informasi mengenai data yang dikoleksi secara langsung,
format ini memiliki efisiensi dalam hal penyimpanan data dan sangat
mudah untuk melakukan pengurangan atau penambahan data. Namun,
format ini diharuskan untuk lebih berhati-hati dalam memberikan
penamaan terhadap node dan selalu melakukan pencatatan terhadap
node yang sama sekali tidak memiliki hubungan sama sekali tetapi
berada di dalam jaringan yang sama.
Gambar 2.14 Edge List
(Sumber Matthew Denny, 2014)
2. Adjacency Matrix
Format ini merepresentasikan directed atau un-directed relasi
antara aktor menggunakan matrix angka. Dalam format ini tersedia
jumlah kolom dan baris sesuai sengan jumlah aktor. Setiap baris
UIN SYARIF HIDAYATULLAH JAKARTA
34
dalam sociomatrix merepresentasikan hubungan antara aktor i ke
aktor j. Keuntungan format ini adalah pada saat penyimpanan data
format ini menyimpan informasi mengenai aktor yang tidak
memiliki hubungan dengan aktor lain. Kekurangan terbesar adalah
sulitnya memanipulasi data baru.
Gambar 2.15 Adjacency Matrix
(Sumber Matthew Denny, 2014)
2.7.3 Pengukuran Parameter SNA
Untuk melakukan analisis jaringan sosial. SNA menyediakan beberapa
tools untuk melakukan pengukuran terhadap node-node dengan
menggunakan:
1. Degree Centrality (DC - Pengaruh).
Centrality ini menjelaskan mengenai pengukuran terhadap jaringan dan
mengetahui jumlah relasi terhadap aktor yang bersangkutan. Untuk skema
un-directed, relasi dihitung berdasarkan jumlah relasi pada setiap aktor.
Pada skema directed, aktor mungkin mempunyai nilai indegree dan
outdegree. Degree centrality mengukur dimana node central atau mana
node yang memiliki koneksi paling baik di dalam jaringan. Pengukuran
UIN SYARIF HIDAYATULLAH JAKARTA
35
ini melambangkan pengaruh, power dan kepentingan dari node yang
dapat memberikan akses kepada informasi.
Rumus perhitungan C (i) = d(i)
D n−1
i = Nomor node CD = Degree Centrality
n = Jumlah node d(i) = Jumlah relasi
2. Betweenness Centrality (BC - Alur Terpendek).
Centrality ini menjelaskan alur terpendek antara jaringan yang
menghubungkan aktor tertentu. Alur terpendek antara aktor dimana
informasi bergerak di dalam jaringan dikalkulasi dengan jarak alur
terpendek antara node. Hal ini mengukur bagaimana informasi dan
koneksi mengalir antara aktor dengan aktor lain dan seberapa besar
pengaruhnya dalam jaringan. Rumus perhitungan C B (i) = ∑ ≠ ≠ ( )
Pjk (i) = jumlah jalur terpendek antara node j dan k yang melewati
i Pjk = jumlah jalur terpendek antara node j dan k
i = Nomor node CB = Betweenness Centrality
3. Closeness Centrality (CC - Kedekatan).
Centrality ini mengukur berapa banyak relasi yang dibutuhkan aktor
untuk melakukan hubungan dengan seluruh aktor di dalam jaringan.
Pengukuran ini dilakukan dengan membagi angka 1 dengan seluruh
jumlah jarak geodesi dari sebuah aktor. Pengukuran ini akan mencapai
titik maksimum ketika aktor terhubung secara langsung dengan aktor
lain dalam jaringan. Dan mencapai titik minimum ketika aktor tidak
terhubung dengan aktor lain. Hal ini merepresentasikan bahwa semakin
pendek alur antara aktor menggambarkan bahwa aktor yang
bersangkutan semakin dekat hubungannya.
UIN SYARIF HIDAYATULLAH JAKARTA
36
Rumus perhitungan C (x) = N−1
C ∑ ( , )
x = Nomor node CC = Closeness Centrality
n = Jumlah node y = node tujuan
d(y, x) = Jarak terpendek antara x ke y
4. Eigenvector Centrality (EC - Relasi).
Centrality ini melakukan perhitungan terhadap aktor yang terhubung
dengan baik dengan aktor lain. Perhitungan ini menampilkan nilai dari
besarnya hubungan dari aktor-aktor yang mempunyai banyak hubungan
atau relasi di dalam jaringan.
Menurut Maksim Tsvetovat dan Alexander Kouznetsov (2011),
Algoritma Eigenvector Centrality adalah sebagai berikut:
a. Mulailah dengan menetapkan nilai sentralitas 1 ke semua nodes
(v_i = 1 untuk semua i dalam jaringan)
b. Menghitung ulang nilai setiap node sebagai jumlah tertimbang dari sentralitas semua node.
Rumus = ∑ , ∗
Vj =
∑ , = Jumlah Edge
ℎ
c. Normalisasikan v dengan membagi setiap nilai dengan nilai terbesar.
d. Ulangi proses b dan c sampai mendapat nilai tetap.
5. Page Rank (PR - Kualitas)
Pengukuran Page Rank digunakan Google untuk menentukan kualitas suatu page. Dapat digunakan untuk jaringan yang berbentuk graph berarah. Prinsip yang digunakan adalah semakin penting sebuah node, maka semakin banyak node tersebut di refer oleh node lain.
Rumus perhitungan
PR = Page Rank
i = node
∑ ( ) PRt+1( ) = (
) PRt = Nilai dari iterasi sebelumnya
C = Jumlah Arah node tujuan
UIN SYARIF HIDAYATULLAH JAKARTA
37
t = waktu
Setiap parameter melambangkan karakteristik dari masing masing
perhitungan. Semakin besar nilai parameter, maka semakin besar pula
karakteristik yang direpresentasikan oleh masing-masing parameter
(Matthew Denny, 2014).
2.7.4 Simulasi Perhitungan Manual SNA
Gambar 2.16 Sample Un-Directed Ties Graf (Data Primer)
Berdasarkan Gambar 2.16 dapat dijabarkan bahwa graf memiliki 6 node
pembentuk graf. Dengan jumlah edge sebanyak 7 edge. Dengan relasi
antara node sebagai berikut:
A. Node 1 mempunyai relasi ke node 2 dan 5.
B. Node 2 mempunyai relasi ke node 1, 3 dan 4.
C. Node 3 mempunyai relasi ke node 2, 4 dan 6.
D. Node 4 mempunyai relasi ke node 2 dan 3.
E. Node 5 mempunyai relasi ke node 1 dan 6.
F. Node 6 mempunyai relasi ke node 3 dan 5.
1. Degree Centrality.
Rumus perhitungan C (i) = d(i)
D n−1
i = Nomor node CD = Degree Centrality
n = Jumlah node d(i) = Jumlah relasi
UIN SYARIF HIDAYATULLAH JAKARTA
38
Node = 1
Rumus perhitungan C (1) = d(1) = 2 = 0,4
D
6−1 5
Node = 2
Rumus perhitungan C (2) = d(2) = 3 = 0,6
D
6−1 5
Node = 3
Rumus perhitungan C (3) = d(3) = 3 = 0,6
D
6−1 5
Node = 4
Rumus perhitungan C (4) = d(4) = 2 = 0,4
D
6−1 5
Node = 5
Rumus perhitungan C (5) = d(5) = 2 = 0,4
D
6−1 5
Node = 6
Rumus perhitungan C (6) = d(6) = 2 = 0,4
D
6−1 5
Tabel 2.1 Hasil Simulasi Perhitungan Degree Centrality
Node Nilai Degree Centrality Desimal
1 2 2/5 0,4
2 3 3/5 0,6
3 3 3/5 0,6
4 2 2/5 0,4
5 2 2/5 0,4
6 2 2/5 0,4
*Nilai adalah jumlah relasi
Dari hasil perhitungan dapat disimpulkan bahwa node 2 dan node 3
mempunyai nilai Degree Centrality sebesar 0,6 jika dibandingkan dengan
nodes lain. Hal ini dikarenakan posisi node 2 dan 3 yang berada diantara
node-node lain dan berfungsi sebagai node central dengan jumlah edge
masing- masing node 2 adalah 3 edge dan node 3 adalah 3 edge.
UIN SYARIF HIDAYATULLAH JAKARTA
39
2. Betweenness Centrality Rumus perhitungan C B (i) = ∑ ≠ ≠ ( )
Pjk (i) = jumlah jalur terpendek antara node j dan k yang melewati
i Pjk = jumlah jalur terpendek antara node j dan k
i = Nomor node CB = Betweenness Centrality Node 1 Rumus perhitungan CB(1) = ∑ ≠ ≠ (1) = 1,5
Dari perhitungan sebelumnya dapat ditarik kesimpulan bahwa node 2
dan node 3 mempunyai nilai Closeness Centrality paling tinggi dengan
nilai node 2 sebesar 0,7143 dan node 3 sebesar 0,714. Sedangkan node 4
dan node 5 memiliki nilai Closeness Centralitypaling rendah dengan
nilai node 4 sebesar 0,5556 dan node 5 sebesar 0,5556. Posisi node 4
dan node 5 berada pada graf bagian luar sedangkan node 2 dan node 3
berada pada posisi graf bagian dalam.
4. Eigenvector Centrality
Jumlah total edge list adalah 14 titik. Jumlah masing-masing edge
pada setiap node paling banyak adalah node 2 dan node 3 sebanyak 3
edge yaitu node 2 (1, 3, 4) dan node 3 (2, 4, 6).
Node 1 Rumus 1 = ∑ 1, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1 Nilai = = 14 1 = 0,07142857142857142857142857142857
UIN SYARIF HIDAYATULLAH JAKARTA
43
Nilai Eigenvector = 1 = ∑ 2 ∗ 0,07142 = 0,14284
Node 2 Rumus 2 = ∑ 2, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1
Nilai = = 141 = 0,07142857142857142857142857142857 Nilai Eigenvector = 2 = ∑ 3 ∗ 0,07142 = 0,21426
Node 3 Rumus 3 = ∑ 3, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1
Nilai = = 141 = 0,07142857142857142857142857142857 Nilai Eigenvector = 3 = ∑ 3 ∗ 0,07142 = 0,21426
Node 4 Rumus 4 = ∑ 4, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1
Nilai = = 141 = 0,07142857142857142857142857142857 Nilai Eigenvector = 4 = ∑ 2 ∗ 0,07142 = 0,14284
Node 5 Rumus 5 = ∑ 5, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1
Nilai = = 141 = 0,07142857142857142857142857142857 Nilai Eigenvector = 5 = ∑ 2 ∗ 0,07142 = 0,14284
UIN SYARIF HIDAYATULLAH JAKARTA
44
Node 6 Rumus 6 = ∑ 6, ∗ 0,07142
Jumlah Total Edge List = 14, Nilai sentralitas = 1
Nilai = = 1 = 0,07142857142857142857142857142857
14
Nilai Eigenvector = 6 = ∑ 2 ∗ 0,07142 = 0,14284
Tabel 2.4 Hasil Simulasi Perhitungan Eigenvector Centrality
Node Nilai Edge Eigenvector
1 0,07142 2 0,14284
2 0,07142 3 0,21426
3 0,07142 3 0,21426
4 0,07142 2 0,14284
5 0,07142 2 0,14284
6 0,07142 2 0,14284
Dari perhitungan didapatkan bahwa node 2 dan node 3 memiliki
nilai eigenvector paling tinggi. Dengan nilai node 2 sebesar 0,21426
dan node 3 sebesar 0,21426. Hal ini membuktikan bahwa node 2 dan
node 3 menjadi node paling berpengaruh di dalam jaringan.
5. Page Rank
Rumus perhitungan
PR = Page Rank
i = node
t = waktu
∑ ( ) PRt+1( ) = ( )
PRt = Nilai dari iterasi sebelumnya
C = Jumlah Arah node tujuan
UIN SYARIF HIDAYATULLAH JAKARTA
45
Gambar 2.17 Directed Graph (Data Primer)
Berdasarkan Gambar 2.17 graf memiliki jumlah node sebanyak 4
node. Jumlah edge sebanyak 5 edge. Keterangan masing-masing relasi
pada graf adalah sebagai berikut:
A. Node A mempunyai relasi dengan node B dan C.
B. Node B mempunyai relasi dengan node C dan D.
C. Node C mempunyai relasi dengan node A dan D.
D. Node D mempunyai relasi dengan node B dan C.
Iterasi pertama perhitungan menggunakan nilai default yaitu node awal dibagi jumlah node. PR = 14 untuk seluruh node.
Iterasi 0 PR(A) = ∑ 0( ) = 1
( ) 4 PR(B) = ∑ 0( ) = 1
( ) 4 PR(C) = ∑ 0( ) = 1
( ) 4 PR(D) = ∑ 0( ) = 1
( ) 4
UIN SYARIF HIDAYATULLAH JAKARTA
46
Iterasi 1
• Node A, Hanya node C yang melakukan referral ke node A. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah.
1 PR(A) = ∑ 1( ) = 4 = 1
( ) 3 12
• Node B, node A dan node C melakukan referral ke node B.
Nilai ( ) = Referral dari node A ke node lain berjumlah 2 arah. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah.
1 ( ) ( ) ( ) 1 1 5
5 2,5
4
4 2
PR(B) = ∑ = 1
+ 1 = + = = =
( ) ( )
( )
12 24 12
2 3
• Node C, node A dan node D melakukan referral ke node C. Nilai ( ) = Referral dari node A ke node lain berjumlah 2 arah. Nilai ( ) = Referral dari node D ke node lain berjumlah 1 arah.
1 ( ) ( ) (
) 1 1 3 9 4.5
4
4
PR(C) = ∑ = 1
+ 1 = + = = =
( ) ( )
( )
8 24 12
2 1
• Node D, node B dan node C melakukan referral ke node D. Nilai ( ) = Referral dari node B ke node lain berjumlah 1 arah. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah.
1 ( ) ( ) ( ) 1 1
4
4
4
PR(D) = ∑ = 1
+ 1 = + =
( ) ( )
( )
12
1 3
Iterasi 2
• Node A, Hanya node C yang melakukan referral ke node A. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah.
1 ( ) 4.5
4.5
1.5 PR(A) = ∑ = 12 = =
( )
3 36 12
• Node B, node A dan node C melakukan referral ke node B. Nilai ( ) = Referral dari node A ke node lain berjumlah 2 arah. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah.
1 ( ) ( ) ( ) 1 4.5
12 2
12
12
PR(B) = ∑ = 1
+ 1 = + = =
( ) ( )
( )
72 12
2 3
UIN SYARIF HIDAYATULLAH JAKARTA
47
• Node C, node A dan node D melakukan referral ke node C. Nilai ( ) = Referral dari node A ke node lain berjumlah 2 arah. Nilai ( ) = Referral dari node D ke node lain berjumlah 1 arah.
1 ( ) ( ) (
) 1 4 9 4.5
12
12
PR(C) = ∑ = 1
+ 1 = + = =
( ) ( )
( )
24 12
2 1
• Node D, node B dan node C melakukan referral ke node D.
Nilai ( ) = Referral dari node B ke node lain berjumlah 1 arah. Nilai ( ) = Referral dari node C ke node lain berjumlah 3 arah. PR(D) = ∑ 1( )
( )
Final Page Rank
2.5 4.5
= 1( ) + 1( ) = 12 + 12 = 12 = 4 ( ) ( )1336 12
Tabel 2.5 Hasil Simulasi Perhitungan PageRank
Node Iterasi ke-0 Iterasi ke-1 Iterasi ke-2 Desimal Final Page Rank A 1/4 1/12 1,5/12 0,125 1 B 1/4 2,5/12 2/12 0,167 2 C 1/4 4,5/12 4,5/12 0,375 4 D 1/4 4/12 4/12 0,333 3
2.8 Graf
Graf adalah sepasang set (V, E), yang mana V adalah set himpunan kosong
yang elemen-nya disebut dengan vertex (simpul) dan E adalah kumpulan dua
elemen subset V yang disebut edge (tepi). Jika G adalah sebuah graf yang terdiri
dari vertexs-vertexs V dan rusuk-rusuk E, maka kita dapat menuliskan G = (V, E).
2.8.1 Tipe-Tipe Graf
Tipe graf dapat dibedakan berdasarkan ada tidaknya gelang atau sisi
ganda pada suatu graf, jumlah simpul, dan orientasi arah pada sisi.
Tipe graf berdasarkan orientasi arah pada sisi, dapat dibedakan menjadi:
1. Graf berarah adalah suatu graf yang setiap sisinya diberikan orientasi
arah. Sebuah graf terarah G, terdiri dari suatu himpunan V yang disebut
vertexs (titik) dan suatu himpunan E yang disebut dengan edge (rusuk)
sedemikian rupa sehingga, tiap rusuk-rusuk e dihubungkan dengan
UIN SYARIF HIDAYATULLAH JAKARTA
48
pasangan vertexs tak terurut. Kemudian jika terdapat rusuk e1 yang
menghubungkan dua buah vertexs v1 dan v2, maka kita dapat
menuliskan e1 = (v1, v2).
Gambar 2.18 a. Graf Berarah, b. Graf-Ganda Berarah
(Sumber Anita Kurniawati, 2010)
2. Graf tak berarah adalah graf yang kedua sisinya tidak mempunyai
orientasi arah. Sebuah graf (tak terarah) G, terdiri dari suatu himpunan
V yang disebut vertexs (titik) dan suatu himpunan E yang disebut
dengan edge (rusuk) sedemikian rupa sehingga, tiap rusuk-rusuk e
dihubungkan dengan pasangan vertexs tak terurut. Kemudian jika
terdapat rusuk e1 yang menghubungkan dua buah vertexs v1 dan v2,
maka kita dapat menuliskan e1 = (v1, v2) atau e1 = (v2, v1).
Gambar 2.19 Graf Tak Berarah
(Sumber Anita Kurniawati, 2010)
Tipe graf berdasarkan ada tidaknya gelang atau sisi ganda ada sebuah graf,
dapat dibedakan menjadi:
UIN SYARIF HIDAYATULLAH JAKARTA
49
1. Graf Sederhana
Simple graph G = (V, E) terdiri dari V, yaitu set dari vertex, dan E adalah set
dari pasangan element V yang disebut edge. Sebuah edge menghubungkan 2
vertexs yang berbeda, dan tidak terdapat edge lain yang menghubungkan 2
vertexs yang telah terhubung tersebut. Atau dengan kata lain graf sederhana
ini tidak mengandung gelang maupun sisi ganda.
Gambar 2.20 Graf Sederhana
(Sumber Anita Kurniawati, 2010)
2. Graf tak Sederhana
Graf tak sederhana adalah graf yang mengandung sisi ganda atau gelang.
Graf tak sederhana dapat dibedakan menjadi 2, yaitu graf ganda
(multigraph) dan graf semu (psedograph).
a. Graf Ganda. Jika sebuah vertex terhubung dengan vertex lain hanya
melalui sebuah edge. Sehingga, tiap rusuk-rusuk e dihubungkan
dengan pasangan vertexs tak terurut. Kemudian jika terdapat rusuk e1
yang menghubungkan dua buah vertexs v1 dan v2, maka kita dapat
menuliskan e1 = (v1, v2).
UIN SYARIF HIDAYATULLAH JAKARTA
50
Gambar 2.21 Graf Ganda
(Sumber Anita Kurniawati, 2010)
b. Graf Semu
Pseudograph adalah jenis paling umum dari grafik berarah yang bisa
mengandung loop dan beberapa edge.
Gambar 2.22 Graf Pseudograph
(Sumber Anita Kurniawati, 2010)
Definisi graf dapat diperluas sehingga mencakup graf berarah ganda.
Pada graf berarah ganda, gelang dan sisi ganda diperbolehkan ada.
Sehingga perluasan definisi graf dapat dirangkum seperti:
UIN SYARIF HIDAYATULLAH JAKARTA
51
Tabel 2.6 Perluasan Jenis Graf
(Sumber Anita Kurniawati, 2010)
2.9 Gephi
Gephi adalah perangkat lunak open-source untuk visualisasi dan analisis
jaringan. Gephi membantu analis data untuk secara intuitif mengungkapkan pola
dan trend, menyoroti outliers dan bercerita tentang data. Menggunakan mesin
render 3D untuk menampilkan grafik besar secara realtime dan untuk
mempercepat eksplorasi.
Gephi menggabungkan fungsi built-in dan arsitektur yang fleksibel untuk melakukan
proses sebagai berikut:
1. Explore
2. Analyze
3. Spatialize
4. Filter
5. Cluster
6. Manipulate
7. Export
Gephi didasarkan pada paradigma visualisasi dan manipulasi yang
memungkinkan pengguna menemukan jaringan dan properti data yang
dibutuhkan dalam proses analisis data.
Berdasarkan tools gephi, gephi menentukan jumlah iterasi pengecekan
perhitungan standar sebanyak 100 kali pengecekan perhitungan dan gephi tidak
UIN SYARIF HIDAYATULLAH JAKARTA
52
melakukan pembatasan waktu maksimal pada tahap visualisasi graf. Hasil visualisasi
akan muncul ketika graf telah berhasil dimunculkan (Gephi.org, 2017).
2.10 Metode Eksperimen
Menurut Solso dan MacLin (2005), penelitian eksperimen adalah suatu
penelitian yang di dalamnya ditemukan minimal satu variabel yang dimanipulasi
untuk mempelajari hubungan sebab-akibat. Oleh karena itu, penelitian
eksperimen erat kaitanya dalam menguji suatu hipotesis dalam rangka mencari
pengaruh, hubungan, maupun perbedaan pengubahan terhadap kelompok yang
dikenakan perlakuan.
2.11.1 Karakteristik Penelitian Eksperimen
1. Variabel-veriabel penelitian dan kondisi eksperimen diatur secara
tertib ketat (rigorous management), baik dengan menetapkan kontrol,
memanipulasi langsung, maupun random (acak).
2. Adanya kelompok kontrol sebagai data dasar (base line) untuk
dibandingkan dengan kelompok eksperimen.
3. Penelitian ini memusatkan diri pada pengontrolan variansi, untuk
memaksimalkan variansi variabel yang berkaitan dengan hipotesis
penelitian, meminimalkan variansi variabel pengganggu yang mungkin
mempengaruhi hasil eksperimen, tetapi tidak menjadi tujuan
penelitian. Di samping itu, penelitian ini meminimalkan variansi
kekeliruan, termasuk kekeliruan pengukuran. Untuk itu, sebaiknya
pemilihan dan penentuan subjek, serta penempatan subjek dalarn
kelompok-kelompok dilakukan secara acak.
4. Validitas internal (internal validity) mutlak diperlukan pada rancangan
penelitian eksperimen, untuk mengetahui apakah manipulasi
eksperimen yang dilakukan pada saat studi ini memang benar-benar
menimbulkan perbedaan.
UIN SYARIF HIDAYATULLAH JAKARTA
53
5. Validitas eksternalnya (external validity) berkaitan dengan bagaimana
kerepresentatifan penemuan penelitian dan berkaitan pula dengan
menggeneralisasikan pada kondisi yang sama.
6. Semua variabel penting diusahakan konstan, kecuali variabel
perlakuan yang secara sengaja dimanipulasikan atau dibiarkan
bervariasi (Sudarwan Danim, 2002).
2.11.2 Bentuk Desain Penelitian Eksperimen
1. Pre-experimental Design
Desain ini dikatakan sebagai pre-experimental design karena
belum merupakan eksperimen sungguh-sungguh karena masih
terdapat variabel luar yang ikut berpengaruh terhadap
terbentuknya variabel dependen. Rancangan ini berguna untuk
mendapatkan informasi awal terhadap pertanyaan yang ada dalam
penelitian. Bentuk Pre-Experimental Design ini ada beberapa
macam antara lain:
a. One – Shoot Case Study
Dimana dalam desain penelitian ini terdapat suatu kelompok
diberi treatment (perlakuan) dan selanjutnya diobservasi hasilnya
(treatment adalah sebagai variabel independen dan hasil adalah
sebagai variabel dependen). Dalam eksperimen ini subjek
disajikan dengan beberapa jenis perlakuan lalu diukur hasilnya.
b. One – Group Pretest-Posttest Design
Kalau pada desain “a” tidak ada pre-test, maka pada desain ini
terdapat pre-test sebelum diberi perlakuan. Dengan demikian hasil
perlakuan dapat diketahui lebih akurat, karena dapat
membandingkan dengan keadaan sebelum diberi perlakuan.
c. Intact-Group Comparison
Pada desain ini terdapat satu kelompok yang digunakan untuk
penelitian, tetapi dibagi dua yaitu; setengah kelompok untuk
UIN SYARIF HIDAYATULLAH JAKARTA
54
eksperimen (yang diberi perlakuan) dan setengah untuk
kelompok kontrol (yang tidak diberi perlakuan).
2. True Experimental Design
Dikatakan true experimental (eksperimen yang
sebenarnya/betul-betul) karena dalam desain ini peneliti dapat
mengontrol semua variabel luar yang mempengaruhi jalannya
eksperimen. Dengan demikian validitas internal (kualitas
pelaksanaan rancangan penelitian) dapat menjadi tinggi. Ciri utama
dari true experimental adalah bahwa, sampel yang digunakan untuk
eksperimen maupun sebagai kelompok kontrol diambil secara
random (acak) dari populasi tertentu. Jadi cirinya adalah adanya
kelompok kontrol dan sampel yang dipilih secara random. Desain
true experimental terbagi atas:
a. Posttest-Only Control Design
Dalam desain ini terdapat dua kelompok yang masing-masing
dipilih secara random (R). Kelompok pertama diberi perlakuan
(X) dan kelompok lain tidak. Kelompok yang diberi perlakuan
disebut kelompok eksperimen dan kelompok yang tidak diberi
perlakuan disebut kelompok kontrol.
b. Pretest-Posttest Control Group Design
Dalam desain ini terdapat dua kelompok yang dipilih secara
acak/random, kemudian diberi pretest untuk mengetahui
keadaan awal adakah perbedaan antara kelompok eksperimen
dan kelompok kontrol.
c. The Solomon Four-Group Design
Dalam desain ini, dimana salah satu dari empat kelompok
dipilih secara random. Dua kelompok diberi pratest dan dua
kelompok tidak. Kemudian satu dari kelompok pratest dan satu
UIN SYARIF HIDAYATULLAH JAKARTA
55
dari kelompok nonpratest diberi perlakuan eksperimen, setelah
itu keempat kelompok ini diberi posttest.
3. Quasi Experimental Design
Bentuk desain eksperimen ini merupakan pengembangan dari
true experimental design, yang sulit dilaksanakan. Desain ini
mempunyai kelompok kontrol, tetapi tidak dapat berfungsi
sepenuhnya untuk mengontrol variabel-variabel luar yang
mempengaruhi pelaksanaan eksperimen. Walaupun demikian,
desain ini lebih baik dari pre-experimental design. Quasi
Experimental Design digunakan karena pada kenyataannya sulit
medapatkan kelompok kontrol yang digunakan untuk penelitian.
Dalam suatu kegiatan administrasi atau manajemen misalnya,
sering tidak mungkin menggunakan sebagian para karyawannya
untuk eksperimen dan sebagian tidak. Sebagian menggunakan
prosedur kerja baru yang lain tidak. Oleh karena itu, untuk
mengatasi kesulitan dalam menentukan kelompok kontrol dalam
penelitian, maka dikembangkan desain Quasi Experimental.
Desain eksperimen model ini diantarnya sebagai berikut:
a. Time Series Design
Dalam desain ini kelompok yang digunakan untuk penelitian
tidak dapat dipilih secara random. Sebelum diberi perlakuan,
kelompok diberi pretest sampai empat kali dengan maksud
untuk mengetahui kestabilan dan kejelasan keadaan kelompok
sebelum diberi perlakuan. Bila hasil pretest selama empat kali
ternyata nilainya berbeda-beda, berarti kelompok tersebut
keadaannya labil, tidak menentu, dan tidak konsisten. Setelah
kestabilan keadaan kelompok dapat diketahui dengan jelas,
maka baru diberi treatment/perlakuan. Desain penelitian ini
UIN SYARIF HIDAYATULLAH JAKARTA
56
hanya menggunakan satu kelompok saja, sehingga tidak
memerlukan kelompok kontrol.
b. Nonequivalent Control Group Design
Desain ini hampir sama dengan pretest-posttest control
group design, hanya pada desain ini kelompok eksperimen
maupun kelompok kontrol tidak dipilih secara random. Dalam
desain ini, baik kelompok eksperimental maupun kelompok
kontrol dibandingkan, kendati kelompok tersebut dipilih dan
ditempatkan tanpa melalui random. Dua kelompok yang ada
diberi pretest, kemudian diberikan perlakuan, dan terakhir
diberikan postest.
c. Conterbalanced Design
Desain ini semua kelompok menerima semua perlakuan,
hanya dalam urutan perlakuan yang berbeda-beda, dan
dilakukan secara random.
4. Factorial Design
Desain Faktorial selalu melibatkan dua atau lebih variabel bebas
(sekurang-kurangnya satu yang dimanipulasi). Desain faktorial
secara mendasar menghasilkan ketelitian desain true-
eksperimental dan membolehkan penyelidikan terhadap dua atau
lebih variabel, secara individual dan dalam interaksi satu sama
lain. Tujuan dari desain ini adalah untuk menentukan apakah efek
suatu variabel eksperimental dapat digeneralisasikan lewat semua
level dari suatu variabel kontrol atau apakah efek suatu variabel
eksperimen tersebut khusus untuk level khusus dari variabel
kontrol, selain itu juga dapat digunakan untuk menunjukkan
hubungan yang tidak dapat dilakukan oleh desain eksperimental
variabel tunggal (Sugiyono, 2010).
UIN SYARIF HIDAYATULLAH JAKARTA
57
2.11 Observasi
Menurut Nana Syaodih Sukmadinata (2012) Observasi merupakan suatu
teknik atau cara mengumpulkan data dengan jalan mengadakan pengamatan
terhadap kegiatan yang sedang berlangsung, kegiatan tersebut bisa berkenaan
dengan cara guru mengajar, siswa belajar, kepala sekolah yang sedang
memberikan pengarahan. Teknik observasi merupakan salah satu teknik
pengumpulan data yang digunakan peneliti untuk mengadakan pengamatan dan
pencatatan secara sistematis terhadap objek yang diteliti, baik dalam situasi
buatan yang secara khusus diadakan (laboratorium) maupun situasi alamiah
yang sebenarnya (lapangan).
2.12 Teknik Sampling
Menurut Sugiyono (2001) sampel adalah sebagian dari jumlah dan
karakteristik yang dimiliki oleh populasi. Bila populasi besar, dan peneliti tidak
mungkin mempelajari semua yang ada pada populasi, misalnya karena
keterbatasan dana, tenaga dan waktu, maka peneliti dapat menggunakan sampel
yang diambil dari populasi itu. Apa yang dipelajari dari sampel itu,
kesimpulannya akan diberlakukan untuk populasi. Untuk itu sampel yang
diambil dari populasi harus betul-betul representatif.
2.13.1 Jenis Teknik Sampling
1. Probability Sampling
Probability sampling adalah teknik sampling yang memberikan peluang
yang sama bagi setiap unsur (anggota) populasi untuk dipilih menjadi
anggota sampel. Teknik probability sampling adalah sebagai berikut:
A. Simple Random Sampling
Simple Random Sampling dinyatakan simple (sederhana) karena
pengambilan sampel anggota populasi dilakukan secara acak tanpa
memperhatikan strata yang ada dalam populasi itu.
B. Proportionate Stratified Random Sampling
UIN SYARIF HIDAYATULLAH JAKARTA
58
Proportionate Stratified Random Sampling biasa digunakan pada
populasi yang mempunyai susunan bertingkat atau berlapis-lapis.
Teknik ini digunakan bila populasi mempunyai anggota/unsur yang
tidak homogen dan berstrata secara proporsional.
C. Disproportionate Stratified Random Sampling
Disproportionate Stratified Random Sampling digunakan untuk
menentukan jumlah sampel bila populasinya berstrata tetapi kurang
proporsional.
D. Cluster Sampling (Area Sampling)
Cluster Sampling (Area Sampling) juga cluster random sampling.
Teknik ini digunakan bilamana populasi tidak terdiri dari individu-
individu, melainkan terdiri dari kelompok-kelompok individu atau
cluster. Teknik sampling daerah digunakan untuk menentukan
sampel bila objek yang akan diteliti atau sumber data sangat luas.
2. Nonprobability Sampling
Nonprobability sampling adalah teknik yang tidak memberi
peluang/kesempatan yang sama bagi setiap unsur atau anggota
populasi untuk dipilih menjadi sampel. Teknik nonprobabilty sampling
adalah sebagai berikut:
A. Sampling Sistematis
Sampling sistematis adalah teknik penentuan sampel berdasarkan
urutan dari anggota populasi yang telah diberi nomor urut.
B. Sampling Kuota
Sampling kuota adalah teknik untuk menentukan sampel dari
populasi yang mempunyai ciri-ciri tertentu sampai jumlah (kuota)
yang diinginkan. Pengumpulan data dilakukan langsung pada unit
sampling. Setelah jatah terpenuhi, maka pengumpulan data
dihentikan.
C. Sampling Aksidental
UIN SYARIF HIDAYATULLAH JAKARTA
59
Sampling aksidental adalah teknik penentuan sampel berdasarkan
kebetulan, yaitu siapa saja yang secara kebetulan bertemu dengan
peneliti dapat digunakan sebagai sampel, bila dipandang orang yang
kebetulan ditemui itu sesuai sebagai sumber data.
D. Snowball Sampling
Snowball sampling adalah teknik penentuan sampel yang awal mula
jumlahnya kecil, kemudian sampel ini disuruh memilih teman-
temannya untuk dijadikan sampel. Dan begitu seterusnya, sehingga
jumlah sampel makin lama makin banyak. Ibaratkan sebuah bola
salju yang menggelinding, makin lama semakin besar (Sugiyono,
2001).
2.13 Tahapan Eksperimen Intact-Group Comparison
Pada desain ini terdapat satu kelompok yang digunakan untuk penelitian,
tetapi dibagi dua yaitu setengah kelompok untuk eksperimen dan setengah
untuk kelompok kontrol
Menurut Sugiyono (2010), Tahap-tahap untuk menyelesaikan tahapan
eksperimen adalah sebagai berikut:
1. Pemilihan Desain
2. Penentuan Sampel Representatif
3. Instrumentasi
4. Pelaksanaan Eksperimen
5. Pengumpulan dan Penganalisisan Data
6. Analisis dan Interpretasi Data
7. Kesimpulan Eksperimen
UIN SYARIF HIDAYATULLAH JAKARTA
60
BAB III
METODOLOGI PENELITIAN
3.1 Metode Pengumpulan Data
Dalam melakukan penelitian, peneliti melakukan pengumpulan data-data
pendukung penelitian dengan metode sebagai berikut:
3.1.1 Studi Pustaka
Pada metode studi pustaka, peneliti melakukan riset, mengumpulkan
buku, jurnal, dan skripsi. Serta mempelajari teori yang berkaitan dengan
permasalahan yang akan diteliti pada penelitian ini. Peneliti juga melakukan
perbandingan dengan penelitian lain yang sudah dilakukan terlebih dahulu
oleh peneliti sebelumnya, sebagai acuan dalam melakukan penelitian dan
mengembangkan teknologi dan metode yang belum diterapkan pada
penelitian sebelumnya. Daftar referensi berupa buku, jurnal, skripsi, dan
website, peneliti jabarkan pada bagian Daftar Pustaka.
3.1.2 Observasi
Peneliti melakukan observasi pada situs sosial media Twitter selama 1
bulan dari tanggal dari tanggal 15 Agustus 2017 sampai 14 September 2017.
Peneliti melakukan pengamatan dan pencatatan selama satu bulan pada
kolom Trending Topic pada sosial media Twitter, untuk melihat apakah topik
yang berkaitan dengan keyword hoax yang peneliti angkat muncul dan
menjadi bahan pembicaraan pada masyarakat di Indonesia.
Berdasarkan observasi yang peneliti lakukan, maka peneliti mendapatkan
tabel hasil pengamatan pada sosial media Twitter sebagai berikut:
60 UIN SYARIF HIDAYATULLAH JAKARTA
61
Tabel 3.1 Daftar Tanggal Trending Topic Twitter
No Tanggal Lokasi Topik
1 25 Agustus 2017 Jakarta Saracen 2 25 Agustus 2017 Jakarta SaracenGate
3 25 Agustus 2017 Indonesia Saracen 4 25 Agustus 2017 Indonesia SaracenGate
5 26 Agustus 2017 Jakarta BijakBersosmed 6 26 Agustus 2017 Indonesia BijakBersosmed
7 28 Agustus 2017 Jakarta Saracen 8 28 Agustus 2017 Indonesia Saracen
9 29 Agustus 2017 Jakarta Jonru 10 29 Agustus 2017 Indonesia Jonru
11 30 Agustus 2017 Jakarta ILCSaracen 12 30 Agustus 2017 Jakarta TaunyaHoax
13 30 Agustus 2017 Indonesia ILCSaracen 14 30 Agustus 2017 Indonesia TaunyaHoax
15 31 Agustus 2017 Jakarta PolemikTVSaracen 16 31 Agustus 2017 Jakarta GebukHoaxJokowi 17 31 Agustus 2017 Indonesia PolemikTVSaracen 18 31 Agustus 2017 Indonesia GebukHoaxJokowi
Berdasarkan Tabel 3.1 peneliti menemukan 18 hari dimana topik yang
berkaitan dengan topik penelitian yaitu Hoax, muncul dan menjadi
perbincangan pengguna sosial media Twitter. Kemunculan topik
perbincangan yang berkaitan dengan hoax muncul sebesar 58% dari total
keseluruhan waktu pada saat observasi. Hal ini membuktikan bahwa topik
perbincangan hoax menjadi topik perbincangan yang paling sering
dibicarakan 8% lebih banyak dibandingkan topik lain. Sedangkan pada 12
hari pada masa observasi peneliti tidak menemukan munculnya keyword
yang berhubungan dengan hoax pada sosial media Twitter.
UIN SYARIF HIDAYATULLAH JAKARTA
60
3.1.3 Abstak Skripsi Terkait
Tabel 3.2 Daftar Abstrak Studi Penelitian Sejenis
No Nama Tahun Judul Abstrak 1 Hunt Allcott and 2016 SOCIAL MEDIA AND Demokrasi Amerika telah berulang kali diliputi oleh perubahan dalam teknologi
Matthew Gentzkow FAKE NEWS IN THE 2016 media. Pada abad ke-19, kertas koran murah dan penekanan yang lebih baik ELECTION memungkinkan koran partisan untuk memperluas jangkauan mereka secara dramatis. Banyak yang berpendapat bahwa efektivitas pers sebagai cek kekuasaan secara signifikan dikompromikan sebagai hasilnya (misalnya, Kaplan 2002). Pada abad ke-20, saat radio dan kemudian televisi menjadi dominan, para pengamat khawatir bahwa platform baru ini akan mengurangi perdebatan kebijakan substantif terhadap gigitan suara, hak istimewa karismatik atau "telegenic" terhadap mereka yang mungkin memiliki kemampuan lebih untuk memimpin namun kurang dipoles, dan berkonsentrasi di tangan beberapa perusahaan besar (Lang dan Lang 2002; Bagdikian 1983). Pada awal tahun 2000an, pertumbuhan berita online memicu kekhawatiran baru, di antaranya bahwa kelebihan keragaman sudut pandang akan memudahkan warga yang berpikiran serupa untuk membentuk "ruang gema" atau "gelembung filter" di mana mereka akan terisolasi dari perspektif yang berlawanan (Sunstein 2001a, b, 2007; Pariser 2011). Baru-baru ini, fokus perhatian telah beralih ke media sosial. Platform media sosial seperti Facebook memiliki struktur yang sangat berbeda dari teknologi media sebelumnya. Konten dapat disampaikan di antara pengguna tanpa penyaringan pihak ketiga, pengecekan fakta, atau keputusan editorial yang signifikan. Pengguna individual yang tidak memiliki rekam jejak atau reputasi dapat dalam beberapa kasus menjangkau sebanyak mungkin pembaca seperti Fox News, CNN, atau New York Times.
62 UIN SYARIF HIDAYATULLAH JAKARTA
61
2 João Cunha, 2015 HEALTH TWITTER BIG Kemajuan media sosial dan peningkatan volume dan kompleksitas data yang Catarina Silva, DATA MANAGEMENT dihasilkan oleh layanan Internet menjadi tantangan tidak hanya secara teknologi, Mário Antunes WITH HADOOP namun juga dalam hal area aplikasi. Kinerja dan ketersediaan pengolahan data FRAMEWORK merupakan faktor penting yang perlu dievaluasi karena mekanisme pengolahan data konvensional mungkin tidak memberikan dukungan yang memadai. Apache Hadoop dengan Mahout adalah kerangka kerja untuk penyimpanan dan mengolah data pada skala besar, termasuk alat yang berbeda untuk mendistribusikan pengolahan. Ini telah dianggap sebagai alat efektif yang saat ini digunakan oleh perusahaan kecil dan besar dan perusahaan, seperti Google dan Facebook, namun juga institusi kesehatan publik dan swasta. Mengingat kemunculannya yang baru- baru ini dan meningkatnya kompleksitas masalah teknologi terkait, berbagai solusi kerangka holistik telah diajukan untuk setiap aplikasi spesifik. Dalam karya ini, kami mengusulkan sebuah arsitektur fungsional generik dengan kerangka Apache Hadoop dan Mahout untuk menangani, menyimpan dan menganalisis data besar yang dapat digunakan dalam skenario yang berbeda. Untuk menunjukkan nilainya, kami akan menunjukkan fitur, kelebihan dan aplikasinya pada data Twitter kesehatan. Kami menunjukkan bahwa data sosial kesehatan yang besar dapat menghasilkan informasi penting, bermanfaat bagi pengguna umum dan praktisi. Hasil awal analisis data data kesehatan Twitter menggunakan Apache Hadoop menunjukkan potensi kombinasi dari teknologi tersebut.
63 UIN SYARIF HIDAYATULLAH JAKARTA
62
3 Timothy S., Song- 2017 APPLYING PARALLEL Dalam ilmu atmosfir, ukuran output simulasi terus bertambah seiring dengan Lak Kang COMPUTING sumber komputasi yang mampu menangani simulasi dengan resolusi spasial dan TECHNIQUES TO temporal skala halus menjadi lebih mudah diakses. Seiring bertambahnya ukuran ANALYZE TERABYTE output, metode analisis data serial menjadi kewalahan, mengakibatkan penundaan ATMOSPHERIC yang lama selama pemrosesan atau kegagalan total karena kendala memori. Metode BOUNDARY LAYER analisis data paralel dapat meringankan masalah ini, namun ilmuwan atmosfer MODEL OUTPUTS. seringkali tidak mengetahui bagaimana cara mencapai hal ini. Oleh karena itu, diperlukan metode contoh untuk membantu memandu penggunaan pengolahan paralel dalam analisis Big Data dari simulasi atmosfer. Dalam karya ini, metode praktis dipresentasikan dimana analisis dapat dilakukan secara paralel dengan menggunakan Message Passing Interface (MPI) dan Python. Metode ini pertama- tama mempertimbangkan dependensi spasial inheren dari proses analisis data tertentu. Dengan mengidentifikasi dependensi ini, distribusi horisontal atau vertikal dari dataset antar proses dapat dilakukan dengan proses interkomunikasi minimal. Selain itu, metode analisis diklasifikasikan sebagai data-transfer-limited atau computational-limited. Dalam masalah transfer data terbatas, waktu transfer data melebihi waktu pemrosesan. Dalam masalah komputasi yang terbatas, waktu pemrosesan melebihi waktu transfer data. Hasilnya menunjukkan bahwa dengan meningkatkan jumlah prosesor, waktu eksekusi masalah terbatas komputasi menunjukkan perbaikan. Untuk masalah transfer data-terbatas, peningkatan jumlah node menawarkan peningkatan terbesar. Untuk lebih meningkatkan kinerja dari masalah komputasi yang terbatas, kerangka kerja Graphics Processing Unit (GPU) dan Compute Unified Device Architecture (CUDA) digunakan. Hal ini menunjukkan bahwa implementasi GPU ini menawarkan perbaikan lebih lanjut atas versi MPI metode analisis yang diuji.
64
UIN SYARIF HIDAYATULLAH JAKARTA
63
4 Feriza Julian Putra, 2016 ANALISIS JARINGAN Peningkatan penggunaan internet saat ini tidak dapat dipisahkan dari peningkatan Skripsi, Universitas TEKS BERDASARKAN teknologi telekomunikasi dalam segi kecepatan dan kualitas aksesnya karena Telkom SOCIAL NETWORK adanya layanan operator telekomunikasi nasional terutama yang terbesar seperti ANALYSIS DAN TEXT Telkomsel, Indosat, XL Axiata. Dalam perkembangannya, media sosial, dalam hal MINING UNTUK ini Twitter, menjadi salah satu situs media sosial utama masyarakat Indonesia untuk BUSINESS penyampaian ekspresi secara terbuka, yang berguna untuk kepentingan individu dan INTELLIGENCE perusahaan dalam mengetahui persepsi tentang kualitas merek. Metode social MENGGUNAKAN network analysis dan text mining diterapkan untuk mengetahui persepsi kualitas ASSOCIATION RULES merek, masalah dominan yang muncul, kelompok kata, dan asosiasi kata-kata yang (STUDI KASUS muncul melalui percakapan menjadi fokus utama dalam penelitian ini. Proses yang PERCAKAPAN TWITTER dilakukan adalah meringkas data percakapan di media sosial menjadi klasifikasi PT. TELKOMSEL DAN PT. kata dominan yang telah ditentukan untuk selanjutnya diproses visualisasi XL AXIATA TBK.) jaringannya. Metode association rules dan community detection digunakan untuk menemukan asosiasi kata-kata dan kelompok kata untuk dianalisis agar mendapatkan persepsi kualitas masing-masing Merek. Hasil analisis berupa persepsi kualitas, ditunjukan dari hubungan kata-kata dominan dalam graph sesuaidengan Branding Mention Merek “Indosat” dan “Telkomsel” menunjukan proses Penelitian ini dapat diandalkan untuk pengolahan ekspresi dari media sosial kedalam asosiasi antar kata representasi untuk menghasilkan Brand Perceived Quality dan kedepannya dapat dikembangkan analisa terkait.
65 UIN SYARIF HIDAYATULLAH JAKARTA
64
5 Anusha Mogallapu, 2011 SOCIAL NETWORK Penelitian ini mempelajari struktur jejaring sosial komunitas blogger video di Master Theses, ANALYSIS OF THE YouTube. Ini menganalisis struktur jaringan sosial teman dan pelanggan dari 187 Missouri University VIDEO blogger video di YouTube dan menghitung ukuran jaringan sosial. Tesis ini of Science and BLOGGERS'COMMUNITY membandingkan hasil dengan struktur yang dijelaskan oleh Warmbrodt et al. pada Technology. IN YOUTUBE tahun 2007 dan menjelaskan alasan pembedaan. Jumlah blogger video telah meningkat pesat, dan bentuk interaksi mereka telah berubah. Akibatnya, jaringan sosial video blogger telah berevolusi dari struktur inti / pinggiran ke satu yang terpusat. Ini menunjukkan bahwa komunitas blogger video di YouTube saat ini berkisar beberapa orang pusat di jaringan.
6 Bentar 2012 SPATIAL SOCIAL Saat ini, implementasi Program Pengembangan Agribisnis Pedesaan (RADP)
Priyopradono, NETWORK ANALYSIS: khususnya di Rejang Lebong, Bengkulu berkembang. Dimulai dengan dana Master Thesis, PROGRAM Bantuan Langsung Masyarakat (di Indonesia berarti bantuan langsung masyarakat: Universitas Kristen PENGEMBANGAN BLM) kepada Gapoktan atau di Indonesia berarti bahwa Gabungan kelompok tani Satya Wacana. USAHA AGRIBISNIS (Asosiasi Petani) yang digunakan untuk penguatan modal finansial (1) budidaya PERDESAAN (PUAP) pangan tanaman pangan, hortikultura, ternak, dan perkebunan. (2) Non-pertanian DALAM MENDUKUNG industri termasuk industri rumahan pertanian, pemasaran skala kecil dan pertanian REVITALISASI berbasis usaha lainnya, analisis lain dari peran semua pemangku kepentingan aktor PENINGKATAN PANGAN RADP menjadi langkah yang relevan, untuk menemukan strategi untuk DAERAH KABUPATEN meningkatkan kinerja di RADP, dengan Tujuan memahami keterhubungan atau REJANG LEBONG Konektivitas dari para pelaku dalam jaringan. Selain itu, Untuk mengembangkan PROVINSI BENGKULU strategi, tentukan strategi dan perencanaan yang tepat dalam pelaksanaan program kerja untuk keberlanjutan program RADP untuk masa depan. Penelitian ini menggunakan Social Network Analysis (SNA) dan mencoba menggabungkan analisis spasial untuk melihat bagaimana posisi seorang aktor di wilayah geografis seperti jarak, lokasi, kedekatan, lingkungan, dan daerah dekat analisis posisi mereka di jaringan sosial.
66 UIN SYARIF HIDAYATULLAH JAKARTA
65
7 Aditya Abimanyu, 2012 ANALISA MEDIA SOSIAL Pesatnya perkembangan teknologi disertai dengan tingkat penggunaannya Skripsi, Universitas TWITTER DENGAN membawa dampak posifit di berbagai bidang kehidupan manusia, namun juga dapat Indonesia PERHITUNGAN GRAPH membawa dampak negatif jika tidak didukung dengan tanggung jawab pengguna EDIT DISTANCE UNTUK teknologi itu sendiri. Bidang telekomunikasi adalah salah satu bidang yang MENDETEKSI RUMOR perkembangannya sangat dirasakan oleh manusia. Salah satu dari perkembangan PADA TRENDING TOPIC telekomunikasi adalah lahirnya media sosial. Manusia menggunakan media sosial SIAK-NG untuk berbagi informasi apapun kepada siapapun. Namun yang menjadi masalah kemudian adalah apakah informasi yang tersebar merupakan informasi yang nilai kebenarannya telah teruji atau hanya sebuah rumor. Rumor dapat saja mengakibatkan tersebarnya informasi yang salah di suatu golongan atau komunitas manusia. Adapun topik yang terkait pada tugas akhir ini adalah siak-ng yang menjadi trending topic di media sosial twitter. 1. Mengidentifikasi rumor pada media sosial online sangat krusial nilainya karena mudahnya informasi yang disebar oleh sumber yang tidak jelas. Pada tugas akhir ini akan ditunjukkan salah satu cara pengidentifikasian rumor dengan menggunakan kalkulasi gephi edit distance. Graph edit distance merupakan salah satu langkah yang paling cocok untuk menentukan persamaan antar grafik dan pengenalan pola jaringan kompleks. Untuk mencapai tujuan akhir, langkah-langkah yang dilakukan adalah pengambilan data, konversi data, pengolahan data, dan visualisasi. Dengan pengolahan data didapat Sembilan padanan kata antara Parent Node dan Child Node serta 3 kategori edge label. Pada akhirnya ditemukan bahwa rumor sistem siak-ng sedang mengalami load tinggi merupakan rumor yang nilai kebenarannya tinggi.
67 UIN SYARIF HIDAYATULLAH JAKARTA
66
3.1.4 Perbedaan Penelitian Peneliti
Tabel 3.3 Perbandingan Penelitian Sebelumnya Dengan Penelitian Peneliti
No. Penulis Tahun Judul Perbedaan
Penelitian Sebelumnya Penelitian Penulis
1 Hunt Allcott and 2016 SOCIAL MEDIA AND Peneliti menggunakan data historis (1975- Peneliti menggunakan data yang bersifat Matthew FAKE NEWS IN THE 2016 2010). Menyediakan data online dan offline. real-time sebagai data trend dan melihat Gentzkow ELECTION Tidak menggunakan SNA sebagai alat ukur, secara langsung apa yang sedang terjadi namun lebih kepada observasi sekitar. pada subjek penelitian. Menggunakan 5 Points pengukuran SNA.
2 João Cunha, 2015 HEALTH TWITTER BIG Menggunakan alat Twitter4J API sebagai Menggunakan kombilasi Apache NiFi Catarina Silva, DATA MANAGEMENT perantara penarikan data dari Twitter. danSolrsebagaialatutama Mário Antunes WITH HADOOP MenggunakanHDFShanyasebagai pengambilan data dari twitter, sehingga FRAMEWORK perantara penyimpanan Data. data yang terambil mempunyai format data JSON yang mudah untuk dilakukan percobaan secara langsung. Menggunakan komponen utama dalam hadoop seperti HDFS, NiFi, Solr, dan Zookeeper.
3 Timothy S., Song- 2017 APPLYING PARALLEL Menggunakan 640 node, 24 GB RAM, 2 x Menggunakan cluster dengan cost yang Lak Kang COMPUTING 2.8 GHz hex-core. Tergolong eksperimen tergolong murah dan mudah untuk TECHNIQUES TO yang tidak murah. Peneliti menggunakan diterapkan sehingga mempermudah ANALYZE TERABYTE metode clustering untuk melakukan analisis proses penelitian. Menggunakan seluruh ATMOSPHERIC data berjumlah terabyte. komponen yang tersedia dan berjalan BOUNDARY LAYER pada server lokal. MODEL OUTPUTS.
68
UIN SYARIF HIDAYATULLAH JAKARTA
67
4 Feriza Julian Putra, 2016 ANALISIS JARINGAN Subjek penelitian terbatas oleh user twitter Subjek penelitian berada pada ruang Skripsi, Universitas TEKS BERDASARKAN dari PT. Telkomsel dan PT. XL Axiata. lingkup lokasi di Indonesia dengan Telkom SOCIAL NETWORK Penyebaran data sempit dikarenakan user variabel penyaringan data hoax. Setiap ANALYSIS DAN TEXT diluar subjek yang bersinggungan langsung user yang bersinggungan secara MINING UNTUK tidak ter capture pada saat data mining. langsung dan tidak langsung dapat di BUSINESS capture pada saat penarikan data. INTELLIGENCE MENGGUNAKAN ASSOCIATION RULES (STUDI KASUS PERCAKAPAN TWITTER PT. TELKOMSEL DAN PT. XL AXIATA TBK.)
5 Anusha Mogallapu, 2011 SOCIAL NETWORK Menggunakan Youtube sebagai basis Menggunakan Twitter sebagai basis Master Theses, ANALYSIS OF THE penarikan data. Hanya menggunakan penarikan data. Menggunakan5 Missouri VIDEO parameter pengukuran SNA menggunakan parameter pengukuran SNA (Degree University of BLOGGERS'COMMUNITY centrality(degree,betweennessdan centrality, betweenness centrality, Science and IN YOUTUBE closeness). Menggunakan metode closeness centrality, eigenvector Technology. eksperimen saja. centrality, dan page rank). Peneliti menjelaskan lebih detail penggunaan metode eksperimen dengan desain intact-group comparison.
69 UIN SYARIF HIDAYATULLAH JAKARTA
68
6 Bentar 2012 SPATIAL SOCIAL Menggunakan studi kasus dan data sampel. Menggunakan Twitter sebagai basis Priyopradono, NETWORK ANALYSIS: Hanya menggunakan 4 pengukuran SNA penarikan data. Menggunakan parameter Master Thesis, PROGRAM (ego network, density, degree, betweenness). pengukuran SNA (Degree centrality, Universitas Kristen PENGEMBANGAN Tidak menerapkan metode clustering. betweenness centrality, closeness Satya Wacana. USAHA AGRIBISNIS centrality, eigenvector centrality, dan PERDESAAN (PUAP) page rank). Menerapkan teknologi DALAM MENDUKUNG hadoop. Peneliti menggunakan metode REVITALISASI clustering untuk mempermudah dalam PENINGKATAN PANGAN tahapan penarikan data. DAERAH KABUPATEN REJANG LEBONG PROVINSI BENGKULU
7 Aditya Abimanyu, 2012 ANALISA MEDIA SOSIAL Tidak melakukan pengubahan terhadap Peneliti melakukan pengubahan Skripsi, Universitas TWITTER DENGAN variabel pada gephi, peneliti hanya terhadap variabel iterasi pengecekan Indonesia PERHITUNGAN GRAPH menggunakan pengaturan standar yang telah perhitungan, dari nilai standar 100 EDIT DISTANCE UNTUK disediakan oleh gephi. menjadi 200. dan menetapkan waktu MENDETEKSI RUMOR maksimal (t-max) dari tidak ada PADA TRENDING TOPIC penetapan waktu menjadi 60 detik. SIAK-NG
Peneliti hanya berfokus kepada hasil social network analysis dengan sumber data yang bersumber dari Twitter,
dengan bantuan framework Apache Hadoop single cluster multi node untuk melihat bagaimana hasil analisis dari
pengukuran parameter SNA. Berbeda dengan apa yang penelitian sebelumnya lakukan tanpa melibatkan framework
Hadoop. Peneliti menggunakan data twitter dengan batasan keyword hoax pada pengguna sosial media Twitter di
Indonesia.
70 UIN SYARIF HIDAYATULLAH JAKARTA
69
Pada penelitian ini peneliti melakukan beberapa perbedaan penting dibandingkan dengan penelitian sebelumnya.
Perbedaan tersebut adalah sebagai berikut:
1. Peneliti melakukan penerapan metode clustering High Performance Cluster (metode komputer terdistribusi),
dikarenakan metode ini mempermudah penelitian pada tahap penarikan data, jumlah data yang dapat diambil
dibatasi sebesar jumlah penyimpanan yang tersedia. Jika dibandingkan dengan metode non clustering, metode non
clustering hanya menggunakan kapasitas satu node, sehingga seluruh kegiatan dibebankan kepada satu node
sehingga tidak efisien. Menjalankan Hadoop tanpa metode clustering memiliki arti bahwa, seluruh kapasitas dan
keutamaan Hadoop tidak dapat digunakan pada tingkatan maksimal.
2. Peneliti melakukan perbandingan hasil terhadap pengubahan yang terjadi terhadap variabel yang berkaitan dengan
penelitian. Peneliti melakukan penambahan jumlah iterasi pengecekan perhitungan yang disediakan oleh Gephi
dari nilai standar sebesar 100 kali pengecekan perhitungan menjadi 200 kali pengecekan perhitungan.
3. Peneliti melakukan perbandingan hasil visualisasi graf pada Gephi untuk melihat apakah ada pengaruh terhadap
pengubahan variabel, dengan melakukan penetapan nilai waktu maksimal (t-max) menjadi 60 detik pada
kelompok eksperimen.
4. Peneliti menggunakan pre-eksperimental design dengan jenis intact-group comparison, dikarenakan peneliti ingin
mengetahui apakah terjadi perubahan terhadap hasil penelitian, apabila dilakukan pengubahan terhadap variabel-
variabel yang mempengaruhi kelompok eksperimen.
71 UIN SYARIF HIDAYATULLAH JAKARTA
72
3.2 Metode Eksperimen
Metode penelitian yang peneliti gunakan untuk melakukan social network
analysis pada data Twitter yaitu menggunakan metode eksperimen. Peneliti
menggunakan metode eksperimen dikarenakan, sesuai dengan pengertian metode
eksperimen yang telah peneliti jelaskan pada BAB II, dikarenakan dalam rangka
untuk mencari pengaruh, hubungan, maupun perbedaan terhadap kelompok yang
dikenakan perlakuan. Kegunaan utama dari metode eksperimen adalah untuk
mencari tahu apakah dengan diadakannya pengubahan variabel bebas terhadap
kelompok yang akan diuji, memberikan hasil terhadap kelompok tersebut. Peneliti
menggunakan metode Pre-Experimental Design Intact-Group Comparison.
Berikut ini adalah tabel perbandingan dari metode eksperimen:
Tabel 3.4 Perbandingan Metode Eksperimen
No Metode Pengertian Kegunaan
1 Pre-Experimental Design Desain ini belum Untuk mendapatkan merupakan eksperimen informasi awal terhadap sungguh-sungguh karena pertanyaan yangada masih terdapat variabel dalam penelitian. luar yang ikut berpengaruh terhadap terbentuknya varuabel dependen.
2 True Experimental Design Pada desain ini, peneliti Validitas internal
dapat mengontrol semua (kualitas pelaksanaan variabel luar yang rancangan penelitian) mempengaruhi jalannya dapat menjadi tinggi. eksperimen.
3 Quasi Experimental Design Merupakan Untuk mengontrol pengembangan dari True variabel-variabel luar Experimental Design yang yang berpengaruh sulit dilaksanakan. terhadap penelitian.
4 Factorial Design Melibatkan dua atau lebih Menghasilkan ketelitian variabel bebas yang dan memperbolehkan dimanipulasi. penyelidikan terhadap dua atau lebih variabel.
UIN SYARIF HIDAYATULLAH JAKARTA
73
3.2.1 Pemilihan Desain
Pada tahap pertama, yang harus dilakukan dalam melakukan penelitian
dengan metode eksperimen adalah pemilihan desain eksperimen. Pemilihan
desain eksperimen harus sesuai dengan kebutuhan penelitian. Jenis-jenis
penelitian eksperimen telah peneliti uraikan pada BAB sebelumnya.
Berdasarkan keterangan pada Tabel 3.4, peneliti menggunakan metode
eksperimen dengan desain Pre-Experimental dikarenakan peneliti akan
melakukan pengubahan terhadap variabel-variabel untuk mengetahui apakah
ada perubahan yang terjadi setelah dilakukan hal tersebut. Dan untuk
mengetahui informasi awal terhadap pertanyaan yang ada dalam penelitian
Pada tahapan pemilihan desain, peneliti melakukan tahapan, yaitu:
1. Pemilihan Bentuk Desain
Pada tahap ini peneliti melakukan pemilihan desain eksperimen sesuai
dengan kebutuhan penelitian. Seperti dalam penelitian, peneliti akan
membagi seluruh data menjadi dua kelompok, kemudian kelompok
tersebut akan dilakukan perbandingan hasil.
2. Mendefinisikan Kelompok Kontrol dan Eksperimen
Pada tahap ini peneliti menentukan mana data yang akan dikelompokkan
menjadi kelompok kontrol dan kelompok eksperimen.
3.2.2 Penentuan Sampel Representatif
Setelah desain eksperimen ditentukan, kemudian peneliti menentukan
teknik pengumpulan sampel yang sesuai dengan penelitian. Kemudian
peneliti menentukan variabel-variabel dalam penelitian. Penentuan Variabel
dalam penelitian ini adalah:
1. Variabel Bebas (Independen)
Variabel yang mempengaruhi atau yang menyebabkan terjadinya
perubahan. Peneliti melakukan penambahan terhadap variabel iterasi
pengecekan perhitungan dari nilai standar sebesar 100 kali pengecekan
perhitungan menjadi 200 kali pengecekan perhitungan. Dan peneliti juga
UIN SYARIF HIDAYATULLAH JAKARTA
74
melakukan penetapan waktu maksimal (t-max) sebesar 60 detik, untuk
melihat apakah ada pengaruh pembatasan waktu terhadap hasil visualisasi
graf pada Gephi.
2. Variabel Terikat (Dependen)
Variabel terikat merupakan faktor-faktor yang diamati pada saat proses
eksperimen dan diukur dalam sebuah penelitian. Sebagai penentu ada
tidaknya pengaruh variabel bebas.
3. Variabel Kontrol
Variabel inilah yang menyebabkan hubungan di antara variabel bebas dan
juga variabel terikat bisa tetap konstan.
3.2.3 Instrumentasi
Untuk melakukan proses eksperimen diperlukan adanya sekumpulan
perangkat pendukung dalam metode eksperimen yang peneliti teliti.
Instrumen penelitian ini diantaranya:
1. Pemilihan Hardware
Pada tahap ini peneliti menentukan mana perangkat keras yang
dibutuhkan oleh penelitian sesuai dengan batasan penelitian yang telah
ditentukan. Peneliti menggunakan 2 buah laptop dengan klasifikasi yang
sesuai dengan rekomendasi penggunaan Hadoop, yaitu RAM sebesar
4GB, Penyimpanan Hard Disk 250GB dan Jumlah Core Processor
sebanyak 4 core.
2. Pemilihan Software
Pada tahap ini peneliti menentukan dan melakukan install perangkat
lunak yang mendukung penelitian. Software yang peneliti gunakan adalah
Apache Ambari, Apache Solr, Apache NiFi, Dashboard Banana, dan
Gephi.
3. Penerapan Metode Single Cluster Multi Node
Pada tahap ini peneliti melakukan proses penerapan metode single cluster
multi node pada framework Hadoop. Peneliti memilih metode high
UIN SYARIF HIDAYATULLAH JAKARTA
75
performance clustering karena metode ini mempermudah proses
penarikan data dan mempermudah kinerja masing-masing node pada
cluster. Sesuai dengan penelitian Timothy S. dan Song-Lak Kang (2017)
bahwa penggunaan komputasi terdistribusi sangat membantu dalam
melakukan analisis data yang berjumlah besar (dalam penelitian Timothy
S. dan Song-Lak Kang jumlah data mencapai terabyte). Dengan alasan
tersebut peneliti ingin menerapkan metode clustering pada penelitian ini.
Proses pembuatan cluster dilakukan pada tahap instrumentasi dengan
menggabungkan kedua laptop kedalam satu cluster. Tahapan pembuatan
cluster adalah sebagai berikut:
A. Persiapan Pembuatan Cluster
B. Persyaratan Environment Hadoop
C. Penggunaan Repository Lokal
D. Proses Install Ambari dan Komponen Hadoop
E. Proses Install Ambari-Server
F. Pangaturan SSH Login
G. Proses Install dan Setup Ambari-Server
H. Proses Menjalankan Ambari-Server
I. Proses Install Hadoop Pada Cluster
J. Proses Install Komponen Hadoop
K. Summary Install Ambari-Server
3.2.4 Pelaksanaan Eksperimen
Setelah tahap instrumentasi selesai, peneliti melakukan tahap pelaksanaan
eksperimen. Pada tahap ini peneliti melakukan 5 tahapan, yaitu:
1. Tahapan Pengumpulan Data
Pada tahap ini peneliti melakukan pengumpulan data yang digunakan
pada penelitian ini. Tahapan pengumpulan data adalah sebagai berikut:
A. Tahapan Penarikan Data
B. Tahapan Penentuan Konten Data
UIN SYARIF HIDAYATULLAH JAKARTA
76
C. Tahapan Pembatasan Data
D. Tahapan Segmentasi Data
E. Tahapan Penggabungan Data
2. Tahapan Indexing dan Visualisasi Data Realtime
Pada tahap ini peneliti melakukan proses penomoran terhadap seluruh
data yang berhasil dikumpulkan, dan visualisasi realtime yaitu melakukan
proses penggambaran secara cepat terhadap keadaan data yang berhasil
dilakukan pada tahap penomoran. Tahapan Indexing dan Visualisasi data
adalah sebagai berikut:
A. Tahapan Input Data
Pada tahapan ini seluruh data akn dilakukan penomoran menggunakan
solr.
B. Tahapan Visualisasi Data Realtime
Data yang berhasil dilakukan penomoran akan muncul secara otomatis
dalam bentuk visualisasi data realtime.
3. Tahapan Klasifikasi Data
Pada tahapan ini dilakukan klasifikasi data terhadap seluruh data yang
telah melalui proses sebelumnya, kemudian akan dikategorikan menjadi
dua kelompok sesuai dengan desain eksperimen yang dipilih.
4. Tahapan Eksperimen Intact-Group Comparison
Pada tahapan ini peneliti melakukan pembagian data ke dalam kelompok-
kelompok yang telah ditentukan. Pada penelitian ini peneliti mengubah
jumlah iterasi pengecekan perhitungan dan menetapkan waktu maksimal
pada visualisasi graf. Peneliti melakukan pengubahan variabel iterasi
pengecekan perhitungan dan penetapan waktu maksimal (t-max)
dikarenakan, pada penelitian sebelumnya tidak dikakukan pengubahan
terhadap variabel, sehingga peneliti ingin melihat apakah terjadi
perubahan terhadap hasil pada penelitian setelah dilakukan pengubahan
variabel iterasi dan waktu maksimal.
UIN SYARIF HIDAYATULLAH JAKARTA
77
5. Tahapan Penerapan Social Network Analysis
Pada tahapan ini peneliti menerapkan perhitungan parameter yang
tersedia pada social network analysis. Perhitungan parameter social
network analysis diterapkan kepada seluruh kelompok yang ada.
Penerapan social network analysis berisikan 2 tahap, yaitu:
A. Input Data dan Visualisasi Gephi
Pada tahap ini peneliti melakukan input data ke aplikasi Gephi untuk
melakukan visualisasi graf, sesuai dengan masing-masing kelompok.
B. Perhitungan Parameter Social Network Analysis
Pada tahap ini peneliti melakukan perhitungan sesuai dengan
parameter yang tersedia pada social network analysis.
3.2.5 Pengumpulan dan Penganalisisan Data
Pada tahap ini peneliti melakukan pengumpulan data setelah dilakukan
pengukuran parameter social network analysis. Kemudian dilakukan analisis
data dari kedua kelompok yaitu kelompok eksperimen dan kelompok
kontrol,
Tahapan yang akan dilakukan adalah sebagai berikut:
1. Hasil Pengumpulan Data
2. Hasil Visualisasi Data Realtime
3. Hasil Klasifikasi Data
4. Hasil Eksperimen Intact-Group Comparison
5. Hasil Penerapan Social Network Analysis
A. Hasil Visualisasi Graf Kelompok Kontrol
B. Hasil Perhitungan Parameter SNA Kelompok Kontrol
C. Hasil Visualisasi Graf Kelompok Eksperimen
D. Hasil Perhitungan Parameter SNA Kelompok Eksperimen
6. Hasil Analisis Kelompok Kontrol
A. Cluster Nomor 1
B. Cluster Nomor 2
UIN SYARIF HIDAYATULLAH JAKARTA
78
C. Cluster Nomor 3
D. Kompilasi Hasil Kelompok Kontrol
E. Analisis User Berpengaruh Kelompok Kontrol
7. Hasil Analisis Kelompok Eksperimen
A. Cluster A
B. Cluster B
C. Cluster C
D. Cluster D
E. Kompilasi Hasil Kelompok Eksperimen
F. Analisis User Berpengaruh Kelompok Eksperimen
3.2.6 Analisis dan Interpretasi Data
Pada tahap ini peneliti melakukan tahapan analisis dan interpretasi data
dari tahap pengumpulan dan penganalisisan data. Peneliti melakukan
perbandingan data antara kedua kelompok yang telah didapatkan pada tahap
sebelumnya. Tahapan yang akan dilakukan adalah sebagai berikut:
1. Perbandingan Kelompok Kontrol dan Kelompok Eksperimen
2. Hasil Analisis Konten Tweet Node Berpengaruh
3.2.7 Kesimpulan Eksperimen
Pada tahapan ini peneliti melakukan tahapan penarikan kesimpulan, dari
seluruh proses yang dilakukan pada metode eksperimen ini. Tahapan yang
akan dilakukan adalah sebagai berikut:
1. Hasil Pengaruh Pengubahan Nilai Iterasi Pengecekan Perhitungan
2. Hasil Pengaruh Penetapan Variabel Waktu
3. Hasil Nilai Perhitungan Parameter SNA
UIN SYARIF HIDAYATULLAH JAKARTA
79
3.3 Kerangka Pemikiran
Peneliti menuangkan hasil dari metode yang peneliti pilih untuk digunakan
dalam penelitian ini kedalam sebuah kerangka pemikiran seperti berikut:
Rumusan Masalah
Keterangan *Hasil Pengumpulan Data
*Hasil Visualisasi Data Realtime *Hasil Klasifikasi Data
*Hasil Eksperimen Intact-Group Comparison
*Hasil Penerapan Social Network Analysis *Hasil Analisis Kelompok Kontrol
*Hasil Analisis Kelompok Eksperimen
Keterangan
*Hasil Pengaruh Perubahan Nilai Iterasi Pengecekan Perhitungan
*Hasil Pengaruh Penetapan Variabel Waktu *Hasil Nilai Perhitungan Parameter SNA *Hasil Penerapan Desain Intact-Group
Comparison
Gambar 3.1 Alur Kerangka Pemikiran
UIN SYARIF HIDAYATULLAH JAKARTA
80
BAB IV
IMPLEMENTASI DAN EKSPERIMEN
4.1 Pemilihan Desain
4.1.1 Pemilihan Bentuk Desain
Peneliti memilih desain pre-eksperimen menggunakan rancangan Intact-
Group Comparison. Pada desain ini, terdapat satu kelompok yang digunakan
untuk penelitian, kemudian seluruh data akan dibagi dua yaitu: setengah
kelompok untuk eksperimen (yang diberi perlakuan) dan setengah untuk
kelompok kontrol (yang tidak diberi perlakuan). Peneliti menggunakan desain
eksperimen Intact-Group Comparison dikarenakan jenis ekperimen yang
peneliti gunakan sesuai dengan kaidah ekperimen rancangan Intact-Group
Comparison. Dimana peneliti akan membagi sampel menjadi dua kelompok,
yaitu kelompok dengan tweet original dan kelompok dengan tweet hasil re-
tweet user lain. Peneliti juga akan melakukan pengubahan terhadap variabel
bebas terhadap kelompok eksperimen untuk mengetahui apakan ada pengaruh
terhadap pengubahan tersebut.
4.1.2 Mendefinisikan Kelompok Kontrol dan Eksperimen
Berdasarkan desain Intact-Group Comparison, seluruh data akan dibagi
menjadi dua kelompok yaitu kelompok kontrol dan kelompok eksperimen,
pembagian data menjadi masing-masing kelompok ditentukan dengan kaidah
sebagai berikut:
1. Kelompok Kontrol
Kelompok kontrol adalah seluruh data yang merupakan tweet yang
termasuk ke dalam golongan post original. Post original adalah tweet
yang merupakan hasil tulisan pribadi dari pengguna sosial media Twitter.
2. Kelompok Eksperimen
Kelompok eksperimen adalah seluruh data yang merupakan tweet yang
termasuk ke dalam golongan post re-tweet. Post re-tweet adalah tweet yang
80 UIN SYARIF HIDAYATULLAH JAKARTA
81
merupakan tulisan orang lain, pengguna sosial media Twitter hanya
melakukan penulisan kembali atau share tulisan orang lain.
4.2 Penentuan Sampel Representatif
Data twitter bersifat realtime, sehingga setiap data yang tidak terambil dan
sudah lewat masa kadar waktunya tidak dapat digunakan. Hanya data yang
terambil dan bersifat realtime yang dapat digunakan. Berdasarkan hal tersebut
peneliti menggunakan metode nonprobability sampling yaitu teknik sampling
aksidental. Sesuai dengan penjabaran mengenai sampling aksidental pada BAB II,
dimana peneliti menggunakan data yang dijumpai pada saat tahapan penarikan
data saja, setiap data yang tertarik akan masuk menjadi sampel data, dan data yang
tidak tertarik atau tidak ditemukan, tidak masuk menjadi sampel data.
Peneliti menggunakan seluruh data yang sesuai dengan karakteristik penelitian
yang bersumber dari Twitter, maka setiap data tweet yang cocok dengan
karakteristik variabel kontrol yaitu keyword hoax, akan dimasukan ke dalam
database sebagai sampel representative. Dan setiap tweet menggunakan Bahasa
Indonesia dimaksudkan untuk melakukan filtering terhadap data. Variabel-variabel
dalam penelitian ini adalah:
1. Variabel Bebas (Independen)
Pada penelitian ini Variable Bebas adalah penetapan waktu maksimal dan
iterasi pengecekan perhitungan.
2. Variabel Terikat (Dependen)
Pada penelitian ini Variable Terikat adalah jumlah cluster pembentuk graf dan
hasil perhitungan parameter social network analysis.
3. Variabel Kontrol
Pada penelitian ini Variabel Kontrol adalah Keyword Hoax.
4.3 Instrumentasi
Pada tahap instrumentasi peneliti menggunakan metode multi node pada
rancangan komputer terdistribusi. Alasan peneliti memilih metode multi node
dikarenakan salah satu syarat utama agar Apache NiFi dapat berjalan pada
UIN SYARIF HIDAYATULLAH JAKARTA
82
environtment Hadoop adalah pada rancangan komputer terdistribusi minimal 2
node dan satu cluster yang berjalan.
Penggunaan metode multi node juga untuk mempermudah kinerja dari Hadoop
itu sendiri, dikarenakan proses pengerjaan dapat diatur dan dibagi secara rata
kepada node yang terlibat.
4.3.1 Pemilihan Hardware
Spesifikasi hardware yang peneliti gunakan pada proses eksperimen ini
adalah:
1. Nama Perangkat : Router Huawei
Pengaturan IP : Statis
Manufacture Info : 2150082766EGFA016288.C402
2. Nama Perangkat : Laptop 1
Hostname : master
Domain : skripsi.com
FQDN : master.skripsi.com
CPU : Intel Core i5 Quad-Core
RAM : 8 GB
Connection : WLAN Internet
HDD : 500 GB
IP Static : 192.168.100.51
3. Nama Perangkat : Laptop 2
Hostname : slave
Domain : skripsi.com
FQDN : slave.skripsi.com
CPU : Intel Celeron Dual-Core
RAM : 2 GB
Connection : WLAN Internet
HDD : 500 GB
IP Static : 192.168.100.52
UIN SYARIF HIDAYATULLAH JAKARTA
83
Tipe IP : IPv4
4.3.2 Pemilihan Software
Spesifikasi software yang peneliti gunakan pada proses eksperimen ini
adalah:
1. Sistem Operasi : CentOS
Arsitektur : 64 Bit
GUI : Classic Gnome
2. Web-Browser : Mozilla Firefox
3. Web-Hosting : Apache HTTPD (Local Repo)
4. Editor : Nano, Gedit
5. Hadoop : Hortonworks
6. Visualisasi : Banana dan Gephi
7. Pencarian Data : Apache NiFi
8. Real-time Searching: Apache Solr dan Banana Dashboard
4.3.3 Penerapan Metode Single Cluster Multi Node
4.3.3.1 Persiapan Pembuatan Cluster
Peneliti mempersiapkan kedua laptop yang akan digunakan sebagai
node pada cluster dalam penelitian. Pengaturan IP dan Hostname dengan
aturan sebagai berikut:
A. Node Master. Pengaturan IP Static pada master dengan mengganti IP
DHCP menjadi IP Manual. Pada kolom IPv4 masukan pengaturan IP
Static pada kolom addresses menjadi:
Address : 192.168.100.51
Netmask : 255.255.255.0
Gateway : 192.168.100.1
DNS Server : 192.168.100.1
UIN SYARIF HIDAYATULLAH JAKARTA
84
Kemudian matikan fitur IPv6 dikarenakan router belum mempunyai IP
Public versi IPv6.
B. Node Slave. Pengaturan Ip Static pada slave dengan mengganti IP
DHCP menjadi IP Manual. Pada kolom IPv4 masukan pengaturan IP
Static pada kolom addresses menjadi:
Address : 192.168.100.52
Netmask : 255.255.255.0
Gateway : 192.168.100.1
DNS Server : 192.168.100.1
C. Atur hostname pada master dan slave dengan aturan hostname dan
domain sesuai aturan FQDN. Input perintah Kode #nano
/etc/hosts pada master dan slave.
192.168.100.51 master.skripsi.com master
192.168.100.52 slave.skripsi.com slave
Line nomor 1 dan 2 bermaksud agar master dan slave dapat
melakukan koneksi secara langsung dengan memanggil instance
hostname dari node yg akan dihubungkan.
D. Kemudian cek apakah masing-masing node (master dan slave) dapat
melakukan pengecekan latency antar node.
Gambar 4.1 Komponen Pembentuk Cluster
UIN SYARIF HIDAYATULLAH JAKARTA
85
Gambar 4.1 merupakan gambar rancangan cluster pada penelitian.
Peneliti menggunakan single cluster, dengan jumlah node 2 laptop.
Software pengendali cluster adalah Apache Hadoop yang dilakukan
proses install menggunakan metode High Performance Clustering.
4.3.3.2 Persyaratan Environtment Hadoop
Ubah pengaturan pada file SELinux pada directory
/etc/sysconfig/SELinux, ubah konfigurasi SELinux menjadi disabled.
SELinux adalah Security Enhanced Linux, Hadoop merekomendasikan
untuk mematikan selinux dikarenakan fitur http dan ftp pada Hadoop
harus dibuka tanpa pengaturan security tambahan. Kemudian ubah
pengaturan SELINUX=enforcing menjadi SELINUX=disabled.
4.3.3.3 Penggunaan Repository Lokal
Peneliti melakukan install Apache http server pada node master saja.
Apache http merupakan web hosting untuk melakukan hosting file baik
pada mode local ataupun online. Peneliti menggunakan mode local
sebagai tempat untuk melakukan hosting repository data Hadoop untuk
digunakan saat proses install. Kode untuk install adalah: Kode #yum –y install httpd.
Gambar 4.2 Apache HTTP Server berhasil Pada Proses
Install 4.3.3.4 Proses Install Ambari dan Komponen Hadoop
Salin semua berkas Ambari, Hadoop, HDP dan HDF ke directory
APACHE HTTP Server. Buat folder dengan nama repo pada direktori
/var/www/html/repo. Kemudian salin semua berkas ke dalam direktori
repo. Untuk pengaturan dan kode repository terlampir pada lampiran 4.1.
UIN SYARIF HIDAYATULLAH JAKARTA
86
4.3.3.5 Proses Install Ambari-Server
Kemudian install Ambari Server hanya pada node master. By default
ambari menggunakan database postgresql versi 9.2 sebagai default
database.
4.3.3.6 Pengaturan SSH Login
Pengaturan SSH antara master dan server untuk melakukan remote login
pada proses install komponen Hadoop antara master dan slave. Pada master
dan slave lakukan perintah yang sama tanpa perbedaan sama sekali.
Kode #ssh-keygen –t rsa –P “”
Ssh-keygen adalah perintah untuk melakukan regenerate kunci login
dengan atribut passwordless agar memudahkan koneksi antara master dan
slave. Kode key SSH terlampir pada lampiran 4.2.
Salin id_rsa ke node master dan node slave sehingga master dan slave
mampu melakukan remote login secara otomatis.
Kode #ssh-copy-id -i ~/.ssh/id_rsa.pub root@master
Kode #ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave
Kemudian ubah ownership dan tambahkan path ssh
Kode #chmod 0600 ~/.ssh/id_rsa
Kode #ssh-add
Identity added: /root/.ssh/id_rsa
(/root/.ssh/id_rsa).
4.3.3.7 Proses Install dan Setup Ambari-Server
Untuk melakukan proses install maka masukan kode sebagai berikut:
Kode #ambari-server setup. Secara default ambari juga
melakukan install oracle jdk versi 1.8.0 sebagai environtment
complimentary pendukung berjalannya Hadoop. Proses pengaturan
database pada ambari terlampir pada lampiran 4.3.
UIN SYARIF HIDAYATULLAH JAKARTA
87
Gambar 4.3 Proses Pemilihan JDK
4.3.3.8 Proses Menjalankan Ambari-Server
Menjalankan ambari-server pada node master. Saat ambari-server
berjalan, ambari-agent pada setiap node di master dan slave otomatis juga
akan berjalan. Proses menjalankan server terlampir pada lampiran 4.4.
Kemudian kunjungi web browser dan arahkan ke
http://master.skripsi.com:8080/ untuk kemudian melakukan proses install
cluster.
4.3.3.9 Proses Install Hadoop Pada Cluster
Gambar 4.4 Antarmuka Install Wizard Cluster Hadoop
Kemudian kunjungi web server ambari kemudian klik launch install
wizard untuk melakukan proses pembuatan cluster Hadoop. Berikan
nama pada cluster. Pada penelitian ini peneliti memberika nama cluster
FAIZ_Skripsi_UIN.
UIN SYARIF HIDAYATULLAH JAKARTA
88
Gambar 4.5 Target Host Master dan Slave
Tuliskan secara lengkap FQDN dari master dan slave sebagai penentu
node yang akan dilakukan proses. Print key SSH untuk melakukan
otentifikasi ssh root@master dan root@slave. Kode key SSH yang telah
berhasil dicetak terlampir pada lampiran 4.5.
4.3.3.10 Proses Install Komponen Hadoop
Proses selanjutnya adalah pembagian komponen Hadoop pada node-
node master dan slave sesuai dengan spesifikasi pada setiap node.
Gambar 4.6 Pembagian Skema Install Komponen Hadoop
NameNode berada pada node master dan secondary NameNode pada
node slave. Dikarenakan NameNode utama berada pada pusat server
yaitu pada node master. Setiap client dari service Hadoop, peneliti
posisikan pada node master dikarenakan node master mempunyai
resource 2 kali lipat dari node slave.
DataNode diposisikan pada kedua node master dan slave, digunakan
sebagai tempat penyimpanan data dengan mengkombinasikan resource
dari masing-masing node menjadi satu penyimpanan tunggal yang besar.
UIN SYARIF HIDAYATULLAH JAKARTA
89
Lokasi Directory NameNode /Hadoop/hdfs/namenode. Lokasi Directory
DataNode /Hadoop/hdfs/data.
4.3.3.11 Summary Install Ambari-Server
Tahapan pemasangan ambari telah berhasil dilakukan dengan node
dua buah laptop yaitu master dan slave, dimana master sebagai pusat
kendali pada cluster, dan slave sebagai client pada cluster sebagai node
monitoring. Berikut ini adalah keterangan hasil proses install pada
tahapan pembuatan cluster dan install Ambari-Server:
Peneliti melakukan tahap pengumpulan data selama 15 hari dari tanggal
16 November 2017 sampai 30 November 2017. Seluruh data yang peneliti
gunakan pada penelitian ini adalah data yang bersumber dari sosial media
Twitter, dangan user yang berada pada ruang lingkup negara Indonesia dan
user menggunakan Bahasa Indonesia. Pada twitter, Bahasa Indonesia dapat
dikategorikan sebagai parameter dengan nilai ID atau IN. Dalam melakukan
penarikan data, peneliti menggunakan pembatasan pada keyword hoax, jadi
setiap user yang melakukan penulisan tweet yang melibatkan penulisan kata
hoax akan terambil sebagai data penelitian.
4.4.1.1 Tahapan Penarikan Data
Peneliti menggunakan Apache NiFi untuk melakukan penarikan
data melalui Twitter dengan menggunakan bantuan Processor
GetTwitter dengan nama TarikDataTwitter.
Gambar 4.8 Gambar Processor GetTwitter
Kemudian peneliti melakukan pengaturan terhadap processor untuk
melakukan proses penghubungan antara Apache NiFi dengan API
Twitter. Peneliti menggunakan kode akses pribadi untuk melakukan
UIN SYARIF HIDAYATULLAH JAKARTA
92
hubungan antara Apache NiFi dan API Twitter. Dengan melakukan
klasifikasi data Twitter menggunakan kata kunci hoax pada pengaturan
processor GetTwitter.
Gambar 4.9 Gambar Pengaturan Processor GetTwitter
Berdasarkan Gambar 4.9 peneliti menggunakan fitur yang
disediakan oleh Twitter untuk melakukan penarikan data secara gratis,
namun hanya data yang bersifat realtime, yang dapat diambil.
Batasan yang digunakan adalah batasan Bahasa yaitu Bahasa
Indonesia dengan parameter ln dan input batasan keyword yaitu hoax.
Hal tersebut dimaksudkan supaya hanya tweet yang menggunakan
Bahasa Indonesia dan mengandung keyword hoax saja yang dapat
terambil sebagai data pada penelitian.
4.4.1.2 Tahapan Penentuan Konten Data
Setelah berhasil terhubung dengan API Twitter, peneliti melakukan
penambahan parameter data dengan melakukan penentuan konten data
dengan bantuan Processor EvaluateJsonPath dengan nama
ParameterPenarikanData. Dengan penentuan bahwa seluruh data harus
UIN SYARIF HIDAYATULLAH JAKARTA
93
memenuhi persyaratan klasifikasi yang telah ditentukan Twitter secara
default.
Gambar 4.10 Gambar Processor
EvaluateJsonPath 4.4.1.3 Tahapan Pembatasan Data
Pada tahap selanjutnya peneliti melakukan pembatasan pada data
Twitter yang akan ditarik melalui API Twitter dengan bantuan
Processor RouteOnAttribute dengan nama ParameterBatasanData.
Dengan pengaturan hanya data tweet yang mempunyai pesan pada
tweet body yang dapat ditarik ke dalam database data.
Gambar 4.11 Gambar Processor RouteOnAttribute
Berikut ini adalah contoh data tweet yang berhasil diambil dengan
menggunakan Apache NiFi:
UIN SYARIF HIDAYATULLAH JAKARTA
94
Gambar 4.12 Gambar Contoh Data Tweet Yang Berhasil
Diambil 4.4.1.4 Tahapan Segmentasi Data
Setelah data twitter dengan batasan kata kunci hoax berhasil
diambil, peneliti melakukan tahap melakukan pengambilan segmentasi
penting dari tweet. Segmentasi yang peneliti ambil hanya berisikan 6
konten yaitu:
A. ${twitter.original} = Segmentasi ini merupakan nama user original
yang merupakan user yang menuliskan tweet yang berasal dari
pemikiran pribadi.
B. ${twitter.overified} = Segmentasi ini merupakan status user,
apakah user original merupakan akun yang telah berhasil
diverifikasi oleh twitter atau belum diverifikasi.
C. ${twitter.handle} = Segmentasi ini merupakan nama user yang
melakukan re-tweet atau melakukan kegiatan posting ulang tweet
user original.
D. ${twitter.uverified} = Segmentasi ini merupakan status user,
apakah user re-tweet merupakan akun yang telah berhasil
diverifikasi oleh twitter atau belum diverifikasi.
E. ${twitter.ofollower} = Segmentasi ini merupakan jumlah pengikut
dari user original.
UIN SYARIF HIDAYATULLAH JAKARTA
95
F. ${twitter.ufollower} = Segmentasi ini merupakan jumlah pengikut
dari user re-tweet.
Peneliti menggunakan Processor ReplaceText dengan nama
SegmentasiData untuk melakukan penarikan segmentasi data yang
akan peneliti gunakan pada tahapan SNA.
Gambar 4.13 Gambar Processor ReplaceText
Gambar 4.14 Contoh Hasil
ReplaceText 4.4.1.5 Tahapan Penggabungan Data
Pada tahap ini seluruh data akan dilakukan proses penggabungan
data menjadi satu data utuh dengan format file extention .csv. Tahapan
penggabungan data menggunakan Processor MergeContent dengan
nama GabungData.
Gambar 4.15 Gambar Processor MergeContent
UIN SYARIF HIDAYATULLAH JAKARTA
96
Gambar 4.16 Proses Pengumpulan Data
Gambar 4.16 adalah proses alur pada tahap pengumpulan data,
dimana input merupakan key otentifikasi Twitter yang digunakan untuk
melakukan komunikasi langsung dengan Twitter Streaming Interface,
sehingga Processor pada Apache NiFi dapat melakukan penarikan data
dari Twitter database. Setiap simbol proses, melambangkan satu
Processor pada Apache NiFi yang digunakan pada penelitian.
4.4.2 Tahapan Indexing dan Visualisasi Data Realtime
Pada tahapan indexing dan visualisasi data, peneliti melakukan tahapan
untuk melakukan proses input dari seluruh data yang berhasil terambil pada
tahapan pengambilan data. Proses input menggunakan Apache NiFi dengan
UIN SYARIF HIDAYATULLAH JAKARTA
97
menggunakan Processor PutSolrContentStream dengan nama
IndexSolrVisualisasiBanana.
4.4.2.1 Tahapan Input Data
Pada tahapan pemindahan data menggunakan Processor
PutSolrContentStream, dengan konfigurasi tipe Solr yaitu berbasis
cloud dengan lokasi master.skripsi.com:2181/solr dan container
penyimpanan data dengan nama tweets. Berikut ini adalah gambar
Processor PutSolrContentStream:
Gambar 4.17 Gambar Processor PutSolrContentStream
Dengan bantuan Processor PutSolrContentStream proses indexing
secara otomatis dilakukan antara Apache NiFi dan Solr yang akan
melakukan penomoran pada setiap data tweet yang masuk kedalam
container tweets. Setiap data yang telah berhasil diberikan nomor oleh
solr kemudian dapat dilakukan visualisasi menggunakan banana.
4.4.2.2 Tahapan Visualisasi Data Realtime
Pada tahapan ini peneliti melakukan input data dari seluruh data
tweet yang berhasil dikumpulkan dan dilakukan penomoran pada tahap
indexing. Alur tahapan indexing dan visualisasi data adalah sebagai
berikut:
UIN SYARIF HIDAYATULLAH JAKARTA
98
Gambar 4.18 Proses Indexing dan Visualisasi Data
Solr digunakan hanya sebagai alat untuk melakukan penomoran
sehingga seluruh data yang telah terkumpul, dapat langsung dilakukan
proses visualisasi secara cepat. Berdasarkan Gambar 4.18 seluruh data
yang berhasil terambil akan disimpan sementara pada penyimpanan
database, kemudian seluruh data akan dilakukan proses indexing
dengan menggunakan Solr. Kemudian setelah berhasil dilakukan
penomoran, hasil visualisasi secara realtime akan muncul secara
otomatis.
4.4.3 Tahapan Klasifikasi Data
Peneliti melakukan pembagian seluruh data yang berhasil terambil pada
tahapan pengambilan data. Peneliti akan membagai menjadi dua kelompok,
yaitu kelompok kontrol dan kelompok eksperimen sesuai dengan desain
eksperimen yang peneliti pilih yaitu rancangan Intact-Group Comparison.
UIN SYARIF HIDAYATULLAH JAKARTA
99
Peneliti menggunakan Apache NiFi dengan bantuan Processor
UpdateAttribute dengan nama KlasifikasiData untuk melakukan pembagian
data, dimana seluruh data yang bersumber dari user original akan masuk ke
dalam kelompok kontrol, sedangkan data yang bersumber dari user re-tweet
akan masuk kedalam kelompok eksperimen.
Gambar 4.19 Gambar Processor UpdateAttribute
Gambar 4.20 Proses Klasifikasi Data
Gambar 4.20 merupakan alur perpindahan data yang berasal dari
proses pengumpulan data. Kemudian seluruh data tweet yang berhasil
terkumpul pada tahapan sebelumnya, akan melalui proses klasifikasi
UIN SYARIF HIDAYATULLAH JAKARTA
100
data, dan dilakukan pembagian sesuai dengan kelompok dari data yang
telah didefinisikan pada tahap penentuan desain penelitian.
4.4.4 Tahapan Eksperimen Intact-Group Comparison
Pada tahap ini peneliti menggunakan Apache NiFi dengan bantuan
Processor MergeContent dengan nama GabungData. Processor ini
digunakan untuk menggabungkan seluruh data menjadi satu file dengan
ekstensi .csv, ekstensi .csv digunakan sebagai medium untuk penyimpanan
data sebelum dilakukan penerapan SNA.
Gambar 4.21 Gambar Processor MergeContent
Gambar 4.22 Proses Eksperimen Intact-Group Comparison
UIN SYARIF HIDAYATULLAH JAKARTA
87
Gambar 4.22 merupakan alur penggabungan data menjadi satu data utuh dengan format file .csv, proses penggabungan
dilakukan pada kedua kelompok. Penggabungan data dimaksudkan agar pada tahap selanjutnya penerapan social network
analysis pada gephi dapat dilakukan. Berikut ini adalah gambaran seluruh Processor yang digunakan pada proses
penarikan data sampai proses pembentukan dua kelompok eksperimen.
Gambar 4.23 Gambar Seluruh Alur Processor Pada Apache NiFi
101
UIN SYARIF HIDAYATULLAH JAKARTA
102
4.4.5 Tahapan Penerapan Social Network Analysis
4.4.5.1 Input Data dan Visualisasi Gephi
Peneliti melakukan input data ke dalam gephi untuk melakukan
proses perhitungan parameter social network analysis. Setiap
kelompok dilakukan proses visualisasi untuk mengetahui bentuk graf
dari tiap-tiap kelompok. Penetapan variabel waktu maksimal (t-max)
ditetapkan pada tahapan ini.
1. Kelompok Kontrol
Gambar 4.24 Proses Input Data Gephi Kelompok
Kontrol 2. Kelompok Eksperimen
Gambar 4.25 Proses Input Data Gephi Kelompok
Eksperimen Berdasarkan Gambar 4.24 dan Gambar
4.25, tiap data pada masing-masing kelompok akan di
input kedalam Gephi dalam bentuk format .csv.
untuk kemudian dilakukan visualisasi graf secara
UIN SYARIF HIDAYATULLAH JAKARTA
103
otomatis, pada kelompok kontrol peneliti tidak melakukan
pembatasan waktu terhadap proses visualisasi graf, sedangkan pada
kelompok eksperimen peneliti menerapkan penetapan variabel waktu
maksimal terhadap proses visualisasi graf sebesar 60 detik.
4.4.5.2 Perhitungan Parameter Social Network Analysis
Proses selanjutnya adalah melakukan perhitungan parameter social
network analysis pada masing-masing kelompok dengan menggunakan
bantuan perhitungan pada Gephi. Secara default, gephi hanya
menampilkan 20 node dengan nilai perhitungan paling besar.
Parameter perhitungan adalah sebagai berikut:
1. Perhitungan Degree Centrality
Gambar 4.26 Proses Perhitungan Degree Centrality
2. Perhitungan Betweenness Centrality
Gambar 4.27 Proses Perhitungan Betweenness Centrality
3. Perhitungan Closeness Centrality
Gambar 4.28 Proses Perhitungan Closeness Centrality
4. Perhitungan Eigenvector Centrality
Gambar 4.29 Proses Perhitungan Eigenvector Centrality
5. Perhitungan PageRank
Gambar 4.30 Proses Perhitungan PageRank
UIN SYARIF HIDAYATULLAH JAKARTA
104
BAB V
HASIL ANALISIS DAN PEMBAHASAN
5.1 Pengumpulan dan Penganalisisan Data
Pengumpulan dan penganalisisan data dilakukan dengan mengumpulkan data
dari masing-masing kelompok, untuk kemudian dilakukan analisis sesuai dengan
hasil yang didapat pada tahap pelaksanaan eksperimen.
5.1.1 Hasil Pengumpulan Data
Pada tahap pengumpulan data, peneliti berhasil menarik data tweet dari
Twitter, dengan jumlah data sebanyak 16,400 data. Data tersebut berisikan
seluruh post dari user yang menggunakan Bahasa Indonesia dan mengandung
keyword hoax.
Berikut ini adalah salah satu contoh data yang berhasil diambil pada tahap
pengumpulan data:
Gambar 5.1 Contoh Data Tweet yang Berhasil Terambil
Berikut ini adalah salah satu contoh data yang behasil melalui proses
penarikan data, penentuan konten data, pembatasan data, dan segmentasi data.
Gambar 5.2 Contoh Tweet Pasca Pengambilan
Data 5.1.2 Hasil Visualisasi Data Realtime
Pada tahapan ini peneliti berhasil mekakukan proses indexing sebanyak 8,240
jumlah data dari total 16,400 data. Pada tahap visualisasi dapat dilakukan
104 UIN SYARIF HIDAYATULLAH JAKARTA
105
penggambaran umum secara singkat terhadap kondisi data yang terambil.
Berikut ini adalah hasil visualisasi data realtime pada 8,240 data tweet.
1. Jumlah Data Tweet Original
Tabel 5.1 Jumlah Data Terambil Pada Setiap Loop Pengambilan
UIN SYARIF HIDAYATULLAH JAKARTA
106
Gambar 5.3 Grafik Histogram Data Tweet
Gambar 5.3 menjelaskan grafik histogram tahapan pengambilan data
pada interval 4 jam dengan jeda 30 menit pada setiap bar. Berdasarkan
Tabel 5.1 dan Gambar 5.3 data terbanyak yang dapat diambil pada tahapan
pengambilan data adalah pada loop nomor 38 yaitu sebanyak 215 data.
Data paling sedikit adalah data pada loop 1 yaitu sebanyak 11 data dengan
rata-rata 126 data.
2. Source Data
Tabel 5.2 Jumlah Sumber Data Pengguna Twitter No Source Jumlah 1 Android 6095 2 iPhone 1142 3 Lite 507 4 Web 274 5 Mobile Web 46 6 Deck 35 7 iPad 34 8 Caster 21 9 Plume 11
10 Echofon 10 11 Lain-lain 65 Total 8240
UIN SYARIF HIDAYATULLAH JAKARTA
107
Gambar 5.4 Grafik Source Data Tweet
Berdasarkan Tabel 5.2 dan Gambar 5.4 sebanyak 6,095 data berasal dari
Twitter versi Android, 1,142 data dari Twitter versi iPhone, 507 data dari
Twitter versi Lite, 274 data dari Twitter versi Web, 46 data dari Twitter
versi Mobile Web, 35 data dari Twitter versi Deck, 34 data dari Twitter
versi iPad, 21 data dari Twitter Caster, 11 data dari Twitter Plume, 10 data
dari Twitter Echofon, dan 65 data dari sumber lain yang merupakan
kompilasi berbagai sumber.
3. Jumlah Post User Terbanyak
Tabel 5.3 Tabel 10 Besar User Dengan Post Terbanyak Peringkat Nama User Jumlah Post
Gambar 5.51 Grafik Jumlah Node Di Dalam Cluster Eksperimen
UIN SYARIF HIDAYATULLAH JAKARTA
166
Berdasarkan Tabel 5.29 dan Gambar 5.51, dan hasil visualisasi graf
kelompok eksperimen gambar 5.17 bahwa node shitlicious dan node
lawan_teroris mengalami pembenturan yang sangat besar, jika dilihat
dari nilai Degree Centrality masing-masing node yaitu node shitlicious
dengan nilai 2317 dan node lawan_teroris dengan nilai 1678. Dengan
Total Nilai sebesar 5070. Maka perbadaan yang sangat terlihat jelas
sesuai dengan hasil visualisasi graf kelompok eksperimen pada Gambar
5.17 terlihat bahwa node lawan_teroris mempunyai relasi dan hubungan
yang lebih dekat dengan node bangsa_patriot dan node Juno_5760. Node
bangsa_patriot juga mempunyai hubungan dengan node GusYaqut
ditandai dengan ketertarikan node GusYaqut ke node bangsa_patriot.
Sedangkat node shitlicious tidak memiliki kedekatan secara langsung
dengan 3 node besar lainnya.
UIN SYARIF HIDAYATULLAH JAKARTA
153
5.2 Analisis dan Interpretasi Data
Gambar 5.52 Komparasi Hasil Visualisasi Graf Kelompok Kontrol dan Eksperimen
167
UIN SYARIF HIDAYATULLAH JAKARTA
168
Gambar 5.52 adalah gambar komparasi hasil visualisasi graf pada tahap
visualisasi kelompok kontrol dan kelompok eksperimen. Kelompok kontrol adalah
kelompok yang berisikan user Twitter yang merupakan user dengan post original.
Kelompok eksperimen adalah kelompok yang berisikan user Twitter yang
merupakan user dengan post hasil re-tweet dari user original.
Berdasarkan Gambar 5.52 terlihat bahwa kelompok kontrol mempunyai 3
cluster utama, setelah diterapkan penerapan waktu maksimal menjadi 60 detik,
cluster pembentuk graf pada kelompok eksperimen menjadi 4 cluster utama.
5.2.1 Perbandingan Kelompok Kontrol dan Kelompok Eksperimen
Tabel 5.30 Komparasi Rank User Berpengaruh Kelompok Kontrol dan
Eksperimen Rank Rank
Id User Follower Post Status
Kontrol Eksperimen
2 >20 58 Gusmus 1540000 13800 Verified
9 1 4 shitlicious 739000 116000 Verified
3 >20 62 maspiyuuu 164000 394000 Non-Verified
1 >20 122 rockygerung 77800 24300 Non-Verified
>20 4 230 GusYaqut 24700 9518 Non-Verified
8 3 340 bangsa_patriot 8298 24100 Non-Verified
>20 2 2 lawan_teroris 4989 20600 Non-Verified
UIN SYARIF HIDAYATULLAH JAKARTA
169
Gambar 5.53 Grafik Komparasi Rank User Berpengaruh Kelompok Kontrol
dan Eksperimen
Berdasarkan Tabel 5.30 dan Gambar 5.53 hanya ada 2 node besar yang
mampu bertahan pada posisi 20 besar node pengaruh setelah dilakukan proses
eksperimen dengan melakukan penambahan iterasi i = 200 dan t max = 60
detik. Node tersebut adalah node shitlicious dan node bangsa_patriot. Dan ada
dua node yang pada kelompok kontrol tidak berada pada 20 besar node
pengaruh, mengalami peningkatan menjadi node berpengaruh setelah
eksperimen. Node tersebut adalah node GusYaqut dan node lawan_teroris.
Catatan pada Gambar 5.53, rank 21 merupakan simbol pengganti bahwa
node tersebut tidak masuk kedalam peringkat 20 besar node berpengaruh.
UIN SYARIF HIDAYATULLAH JAKARTA
170
Tabel 5.31 Komparasi Nilai Degree Centrality Pasca Eksperimen
Id User DC Kelompok DC Eksperimen
122 rockygerung 775 4
58 Gusmus 653 4
62 maspiyuuu 557 33
416 OomNanang 291 35
432 wahhabicc_jabar 244 16
319 GunRomli 228 11
321 wartapolitik 220 4
10 bangsa_patriot 214 286
1 shitlicious 131 2317
57 Husen_jafar 113 2
11 RustamIbrahim 102 21
54 muannas_alaidid 97 73
310 SiPinokio_ 89 5
401 _adityaiskandar 85 5
376 roninpribumi 78 2
282 KompasTV 73 2
407 GKRHayu 71 4
281 kompascom 65 1
240 Muhamma37029013 62 1
162 digembok 61 1
UIN SYARIF HIDAYATULLAH JAKARTA
171
Gambar 5.54 Komparasi Nilai Degree Centrality Pasca Eksperimen
Berdasarkan Tabel 5.31 dan Gambar 5.54 hanya ada 2 node yang mengalami
peningkatan nilai Degree Centrality yaitu node shitlicious dengan peningkatan
dari nilai 131 menjadi nilai 2317, dan node bangsa_partiot dari nilai 214 menjadi
nilai 286. Node shitlicious mengalami peningkatan 17.6 kali lebih signifikan, jika
dilihat dari segi jumlah pengikut node shitlicious sebanyak 739,000 hal ini
menandakan bahwa pengikut node shitlicious secara stabil melakukan re-tweet
terhadap setiap post yang ditulis oleh node shitlicious. Artinya node shitlicious
memiliki sokongan pengikut yang paling besar.
UIN SYARIF HIDAYATULLAH JAKARTA
172
Node bangsa_patriot mempunyai peningkatan nilai 1.3 kali lebih banyak
setelah pasca eksperimen. Walaupun jumlah pengikut node bangsa_patriot
hanya sebesar 8298 namun, jika dilihat dari hasil visualisasi graf pada Gambar
4.26, node bangsa_patriot memiliki relasi dengan seluruh node besar pada
graf. Jumlah relasi dengan node besar menjadi penyebab node bangsa_patriot
tetap menempati 20 besar posisi node berpengaruh pada pasca eksperimen.
Tabel 5.32 Tabel Jumlah Nilai Degree Centrality Pada Seluruh Cluster Id User Node Total Nilai Degree Centrality Kelompok 122 rockygerung 3 1280 Kontrol 58 Gusmus 5 1300 Kontrol 62 maspiyuuu 4 1021 Kontrol 4 shitlicious 3 2322 Eksperimen 2 lawan_teroris 3 1678 Eksperimen