Top Banner
8

Berkenalan dengan Bootstrap

Jan 23, 2023

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Berkenalan dengan Bootstrap

Page 1 of 8

Berkenalan dengan Bootstrap Wahyu Widhiarso

Fakultas Psikologi UGM [email protected] | Tahun 2012

Bootstrapping adalah suatu metode untuk menderivasikan estimasi yang kuat

dari eror standar dan interval kepercayaan untuk mengestimasi proporsi, rerata, median, odds ratio, koefisien korelasi atau koefisien regresi. Bootstrapping juga dapat digunakan untuk mengembangkan uji hipotesis. Bootstrapping sangat berguna sebagai alternatif untuk estimasi parameter ketika peneliti merasa ragu dapat memenuhi asumsi pada data mereka. Misalnya kasus heteroskedastisitas muncul pada analisis regresi karena ukuran sampel yang kita miliki kecil. Bootstrapping juga berguna ketika inferensi parametrik tidak mungkin dilakukan atau memerlukan rumus yang sangat rumit untuk menghitung eror standaruntuk median, kuartil, persentil dan lainnya.

A. Contoh Kasus yang Membutuhkan Bootstrapping Kasus 1. Misalnya kita meneliti tentang ratarata harga gula di pasaran. Dari sampel F kita dapatkan harga beras X=(X1, X2, … Xn). Dari harga tersebut kita dapatkan rerata harga gula adalah u. Pertanyaan yang kita ajukan adalah : Seberapa jauh konsistensi rerata harga itu? Berapa eror standar rerata harga gula? Berapa interval konfidensinya? Pertanyaan ini kita jawab dengan bootstrapping Kasus 2. Contoh lain, Sebuah perusahaan telekomunikasi kehilangan sekitar 27% dari pelanggan setiap bulan. Untuk menurunkan nilai kehilangan tersebut, manajemen ingin tahu apakah persentase ini bervariasi di seluruh segmen pelanggan mereka. Dengan menggunakan bootstrap kita akan dapat menentukan apakah kasus kehilangan pelanggan tersebut terjadi pada empat besar kelompok segmen pelanggan. Kasus 3. Dalam mereviu catatan karyawan, manajemen tertarik pada pengalaman kerja karyawan sebelumnya. Mereka mendapat data pengalaman kerja distribusinya miring (skew). Distribusi yang miring ini membuat nilai rerata kurang bisa diterapkan. Statistik yang paling tepat adalah median. Masalahnya, interval kepercayaan parametrik tidak dapat diterapkan pada median. Oleh karena itu kita membutuhkan bootstrapping karena dapat menghasilkan nilai interval konfidensi. Kasus 4.

B. Interval Konfidensi Tidak ada yang pasti dalam dunia ini, manusia hanya bisa memprediksi,

memperkirakan atau menebak. Demikian juga dalam ilmu statistika, statistika banyak diisi dengan kegiatan berupa perkiraanperkiraan. Salah satunya adalah memperkirakan data pada populasi. Kita ingat, data pada populasi dinamakan dengan parameter sedangkan data pada sampel kita dinamakan dengan statistik. Proses memperkirakan data di dalam populasi berdasarkan data di

Page 2: Berkenalan dengan Bootstrap

Page 2 of 8

dalam sampel dinamakan dengan estimasi. Kita tidak tahu pasti besarnya nilai parameter, tapi kita bisa mengestimasinya. Misalnya kita hendak memperkirakan rerata harga gula di semua pasar. Kita lalu mensurvei beberapa toko sampel dari beberapa pasar. Rerata harga gula yang kita dapatkan misalnya adalah Rp 10.000,00. Belum tentu rerata harga gula tersebut pada semua toko di semua pasar harganya segitu. Bisa jadi lebih murah atau lebih mahal, namun perkiraan kita harganya ya tidak jauh dari 10 ribu.

Dari hasil survei pada sampel, kita tahu bahwa harga beras di populasi tidak jauh dari harga 10 ribu rupiah. Nilainya pasti bersembunyi di dekat angka itu. Kemudian ada yang bertanya, “Bisakah anda sebutkan rentangnya Mas? Berapa rupiah sampai berapa rupiah gitu”. Pertanyaan ini dijawab dengan cara menghitung interval konfidensi. Rumus konfidensi interval adalah berikut:

(1 ) (1 )X z SE X z SE

Keterangan : μ adalah nilai rerata pada populasi, X(bar) adalah rerata pada sampel, z adalah fungsi kumulatif distribusi dan SE adalah eror standar. Nilai rentang rerata populasi didapatkan dari plusminus rerata sampel yang telah dikurangi atau ditambah dengan perkalian SE dan z. Eror Standar

SE adalah eror standar yang menunjukkan besarnya faktor ‘kebetulan’ dalam pengambilan data. Rumusnya adalah sebagai berikut:

SEn

σ adalah deviasi standar sedangkan n adalah banyaknya subjek. Bagaimana peran n terhadap SE? Kita buat nilai σ adalah konstan, misalnya sebesar 10. Jika n kita adalah 81, maka SE kita adalah 10÷9=1,11. Jika n kita lebih besar, misalnya 100, maka SE kita adalah 10÷10=1. Kesimpulannya adalah, semakin besar n, semakin kecil nilai eror yang kita dapatkan. Oleh karena itu dalam melakukan penelitian gunakan ukuran sampel yang besar agar SE kita rendah.

Lalu bagaimana dengan deviasi standar (σ), apa sarannya? Kalau dilihat dari rumus, semakin kecil nilai deviasi standar akan mendukung menurunnya eror standar ketika ukuran sampelnya konstan. Namun demikian secara metodologis tidak ada yang bisa disarankan dari sini, karena deviasi standar tergantung pada karakteristik variabel dan sampel kita. Kalau variabel yang anda teliti adalah memiliki rentang skor yang besar, maka imbangilah dengan ukuran sampel yang besar pula. Variabel uang saku siswa SMP, variasinya tidak sebesar pengeluaran perusahaan. Jadi kebutuhan sampel untuk meneliti variabel penelitian berupa pengeluaran perusahaan lebih besar dibandingkan dengan ketika meneliti dengan variabel uang saku siswa SMP.

Selain karakteristik variabel, heterogenitas sampel yang kita libatkan juga mempengaruhi besar kecilnya deviasi standar. Data variabel uang saku siswa sekolah (SD, SMP dan SMA) tentunya lebih bervariasi dibandingkan dengan variabel uang saku khusus siswa SMP saja. Kita tidak bisa bersikap pragmatis, “Ah, biar eror standarnya kecil, sampel penelitian saya batasi saja”. Membatasi sampel berarti kita hasil penelitian kita hanya dapat digeneralisasikan pada populasi dengan karakteristik yang terbatas tersebut. Bagaimanapun juga itu tergantung pada tujuan penelitian.

Page 3: Berkenalan dengan Bootstrap

Page 3 of 8

Kasus Tingginya Eror Standar Saya mendapati beberapa penelitian mahasiswa yang menggunakan variabel

penjualan saham oleh perusahaan. Perusahaan yang dilibatkan dalam penelitian bervariasi, dari perusahaan kecil hingga besar. Akibatnya data jumlah saham sangat bervariasi yang ditunjukkan dengan nilai deviasi standar yang besar. Sayangnya tingginya variasi ini tidak didukung dengan ukuran sampel yang besar pula. Akibatnya eror standar yang dihasilkan sangat besar. Konsekuensinya adalah hipotesis (Ha) tidak terbukti, karena hasil uji statistik yang dilakukan menghasilkan parameter yang tidak signifikan. Interval konfidensi juga bisa dihitung tanpa proses bootstrapping, namun dengan menggunakan bootstrapping interval konfidensi yang dihasilkan lebih stabil.

C. Tujuan dan Proses Bootstrapping Untuk menjawab apakah rerata harga gula yang kita dapatkan dari sampel

cukup reliabel atau tidak, kita bisa kembali ke lapangan dan mengambil sampel lagi. Namun demikian, upaya ini membutuhkan biaya yang besar. Salah satu upaya yang bisa dilakukan adalah melakuan bootstrapping.

Gambar 1. Gambaran Proses Bootstrapping

Proses bootstrap bekerja dengan cara berikut. Misalnya kita memiliki data ukuran sampel sebanyak 10 orang (Gambar 1). Ini sekedar contoh, pada kenyataannya sampel sebesar 10 belum cukup untuk dipakai dalam proses bootstrap karena terlalu kecil. Proses bootstrap memilih satu angka dari data asli. Setelah angka tersebut diambil kemudian dikembalikan lagi pada data. Proses ini dinamakan dengan sampling with replacement. Karena angka dikembalikan lagi, maka dia memiliki kemungkinan untuk terpilih lagi.

Tiap satu periode pengambilan selesai, statistik yang dihasilkan dicatat. Misalnya dalam periode pertama didapatkan nilai rerata sebesar 4,11 sedangkan pada periode kedua didapatkan 5,55. Periode ini diulangi lagi sejumlah yang diinginkan oleh peneliti, misalnya hingga 2000 kali. Setiap periode menghasilkan rerata, oleh karena jika pengambilan data dilakukan sebanyak dua kali, maka

X=(1, 2, 3, 4, 5, 6, 7, 8, 9)Rerata = 5

X=(1, 2, 3, 3, 5, 6, 4, 5, 8)Rerata = 4.11

X=(2, 3, 4, 5, 6, 7, 7, 8, 8)Rerata = 5,55

X=(1, 1, 1, 2, 3, 4, 4, 5, 6)Rerata = 3

X=(2, 2, 2, 4, 4, 5, 9, 9, 9)Rerata = 5,11

….Rerata = ….

Page 4: Berkenalan dengan Bootstrap

Page 4 of 8

kita akan mendapatkan 2000 rerata. 2000 rerata ini kemudian direratakan lagi, yang merupakan estimasi terhadap rerata dari populasi. Misalnya rerata yang dihasilkan adalah 5,1. Dari nilai kita mendapatkan nilai bias sebesar 5,15=0,1.

Gambar 2 menunjukkan contoh hasil proses bootstrap pada sebuah variabel melalui program SPSS. Dapat kita lihat di sini bahwa statistik (rerata dan deviasi standar) yang dihasilkan oleh data asli kita merupakan statistik yang cukup reliabel. Hal ini dikarenakan statistik (rerata dan deviasi standar) yang dihasilkan oleh proses bootstrapping tidak jauh beda dengan statistik asli, selisihnya hanya 0,02 untuk rerata dan 0,015 untuk deviasi standar.

Gambar 2. Hasil Bootstrapping pada Deskripsi Statistik SPSS

Gambar 3. Hasil Bootstrapping pada Korelasi di SPSS

D. Beberapa Catatan Mengenai Bootstrapping 1. Membutuhkan tidak banyak asumsi. Asumsi yang paling penting adalah

bahwa sampel adalah merepresentasikan populasi dengan baik. Hal ini terlihat dari prosedur pemilihan sampel yang sesuai dengan kaidah metodologi penelitian.

2. Menuntut proses komputasi yang berat, namun dengan bantuan program komputer hal ini menjadi mudah dipraktekkan hari.

3. Proses bootstrapping tidak menggantikan atau menambah data baru. 4. Kita menggunakan distribusi bootstrap sebagai cara untuk memperkirakan

variasi dalam statistik berdasarkan data asli. 5. Distribusi bootstrap biasanya memperkirakan bentuk, penyebaran, dan bias

dari distribusi sampling yang sebenarnya.

Page 5: Berkenalan dengan Bootstrap

Page 5 of 8

6. Distribusi bootstrap yang berpusat pada nilai statistik dari data asli ditambah bias yang dihasilkan, sementara distribusi sampling berpusat pada nilai parameter dalam populasi dan ditambah dengan bias estimasi.

7. Boostrapping tidak dapat dilakukan ketika: (a) data yang dimiliki sangat kecil sehingga kurang mendekati nilai di dalam populasi, (b) data yang kotor karena berisi banyak outlier yang akan meningkatkan variasi hasil estimasi, (c) data yang memiliki struktur saling tergantung satu sama lain (misalnya, kasus time series, masalah spasial). Hal ini dikarenakan bootstrap mendasarkan pada asumsi independensi data.

8. Metode bootstrap bukan cara untuk mengurangi eror, tetapi hanya mencoba untuk memperkirakan eror.

E. Praktek Bootstrapping pada SPSS Bootstrap di SPSS tidak bekerja pada set data yang multiply imputed alias data yang hilang. Jika ada variabel yang berisi data yang hilang, maka menu dialog pad Bootstrap akan dinonaktifkan. Bootstrapping akan menerapkan penghapusan kasus dengan cara listwise. Kasus yang berisi nilai yang hilang pada salah satu variabel yang dianalisis akan dihapus dari keseluruhan analisis. Kasus 1 Sekarang kita menjawab kasus 2 yang telah dijelaskan di atas. Kasusnya seperti ini:

Sebuah perusahaan telekomunikasi kehilangan sekitar 27% dari pelanggan setiap bulan. Untuk menurunkan nilai kehilangan tersebut, manajemen ingin tahu apakah persentase ini bervariasi di seluruh segmen pelanggan mereka. Dengan menggunakan bootstrap kita akan dapat menentukan apakah kasus kehilangan pelanggan tersebut terjadi pada empat besar kelompok segmen pelanggan.

Prosedur Analisis pada SPSS adalah sebagai berikut: 1. Buka file “telco.sav” yang telah tersedia di folder instalasi SPSS. Lokasi file ini

biasanya di sini C:\Program Files\SPSS\Tutorial\sample_files\telco.sav.

2. Karena kita ingin mendapatkan nilai statistik yang terpisah untuk setiap

kelompok, maka kita split keluaran analisis berdasarkan kelompok tersebut.

Page 6: Berkenalan dengan Bootstrap

Page 6 of 8

Nama kelompok yang dipakai adalah Customer Category. Caranya adalah sebagai berikut: Klik Data > Split File … Ikuti apa yang ada di dalam gambar di atas lalu klik OK.

3. Untuk mendapatkan nilai bootstrap confidence intervals ikuti perintah ini. Klik Analyze > Descriptive Statistics > Frequencies. Masukkan variabel churn atau nama lengkapnya adalah churn within last month.

Lalu klik Frequencies > Centang Mean > Continue

Page 7: Berkenalan dengan Bootstrap

Page 7 of 8

4. Pada menu Bootstrap, Klik Perform Bootstrap, isi ukuran sampel kita lalu klik juga kotak Mersenne Twister, lalu isi nilai seed dengan angka apa saja. Untuk menyamakan hasil dengan contoh di sini, tulis saja angka seed 9191972.

5. Hasil analisis dapat dilihat pada gambar di bawah ini.

Tabel statistik menunjukkan nilai ratarata untuk pelanggan yang hilang

(churn) dalam waktu satu bulan terakhir, untuk setiap kategori pelanggan. Karena data churn hanya berisi angka 0 (tetap) dan 1 (hilang) maka nilai rerata yang dihasilkan menunjukkan proporsi pelanggan yang hilang.

Bias menunjukkan perbedaan antara nilai rerata statistik seluruh sampel bootstrap dan rerata statistik dari sampel sesungguhnya. Eror Standar menunjukkan eror nilai rerata pelanggan yang hilang pada proses bootstrap. Nilai Lower dan Upper menunjukkan rentang rerata yang dihasilkan oleh bootstrapping dengan tingkat kepercayaan 95%. Di bagian atas telah dijelaskan bahwa bootstrap akan menghasilkan nilai rerata sebanyak sampel yang telah kita tetapkan. Pada kasus ini kita mendapatkan 1000 nilai rerata. Jika nilai rerata tersebut diurutkan dari rerata terkecil hingga terbesar, maka nilai lower merupakan rerata di urutan ke 25 dan 26. Di sisi lain, nilai upper adalah nilai rerata di urutan ke 975 dan 976. Jika kita menggunakan tingkat kepercayaan 90% maka nilai lower berada pada urutan ke 20 dan 21 sedangkan nilai upper nya berada pada urutan ke 980 dan 981.

Hasil dalam tabel menunjukkan bahwa proporsi pelanggan yang hilang antar kategori pelanggan berbedabeda. Secara khusus, nilai interval kepercayaan bagi pelanggan Plus Service (12 hingga 20) tidak tumpang tindih dengan kategori lain. Hal ini menunjukkan bahwa pelanggan pada kategori ini memiliki kecenderungan yang rendah untuk hilang. Penggunaan interval kepercayaan menganalisis variabel kategorikal dengan hanya dua nilai (misalnya 0 dan 1) merupakan prosedur alternatif dari teknik yang sudah ada yaitu Ujit satu sampel. Kasus 2 Kali ini kita saya akan mendemonstrasikan bootstrapping dalam konteks estimasi parameter. Pada menu perintah bootstrap di SPSS, caranya sama dengan yang dilakukan di muka. Uji yang saya pakai adalah regresi dengan melibatkan variabel dummy. Setelah dilakukan analisis, perbandingan hasil antara estimasi

Page 8: Berkenalan dengan Bootstrap

Page 8 of 8

parameter dengan dan tanpa bootstrapping saya paparkan pada gambar di bawah ini.

Hasil analisis menunjukkan bahwa ada sedikit perbedaan antara hasil analisis tanpa dan dengan bootstrapping. Tanpa bootstrapping ditemukan bahwa variabel minority tidak mendukung salary karyawan (B=1332,363; p>0,05), namun dengan menggunakan proses bootrsapping minority tidak mendukung salary (B=1332,363; p<0,05). Manakah hasil yang kita pakai, tentunya hasil yang menggunakan bootstrapping karena hasil yang didapatkan lebih stabil atau reliabel. Variabel minority yang tidak memprediksi salary karyawan secara signifikan yang dihasilkan oleh proses analisis tanpa bootstrapping, dapat dikatakan hanya sebuah kebetulan saja.

Referensi SPSS Inc. (2010). IBM SPSS Bootstrapping 19. New York: SPSS Inc.