Analisis Variabel Dummy (Variabel terikat) Untuk Memenuhi Tugas Mata Kuliah: EKONOMETRIKA (ABKC1508) DOSEN PENGAMPU: Drs. H. Karim, M.Si Rizki Amalia, M.Pd Disusun Oleh: 1. Iskandar (A1C113014) 2. H. M. Fazri Arif Billah (A1C113063) PROGRAM STUDI PENDIDIKAN MATEMATIKA JURUSAN PENDIDIKAN MATEMATIKA DAN IPA FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Analisis Variabel Dummy (Variabel terikat)
Untuk Memenuhi Tugas Mata Kuliah:
EKONOMETRIKA
(ABKC1508)
DOSEN PENGAMPU:
Drs. H. Karim, M.Si
Rizki Amalia, M.Pd
Disusun Oleh:
1. Iskandar (A1C113014)
2. H. M. Fazri Arif Billah (A1C113063)
PROGRAM STUDI PENDIDIKAN MATEMATIKA
JURUSAN PENDIDIKAN MATEMATIKA DAN IPA
FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS LAMBUNG MANGKURAT
BANJARMASIN
2016
KATA PENGANTAR
Puji syukur kami panjatkan kepada Allah SWT yang telah melimpahkan karunia kepada
hambaNya, sehingga makalah yang berjudul “Analisis Variabel Dummy (Variabel terikat)” ini
dapat diselesaikan.
Dengan terselesaikannya makalah ini diharapkan makalah ini dapat memberi manfaat
kepada pembaca. Selain itu, tak lupa pula kami mengucapkan terima kasih kepada semua pihak
yang telah membantu dalam penyelesaian makalah ini.
Terima kasih sebesar-besarnya penulis ucapkan kepada Bapak Drs. H. Karim, M.Si. dan
Ibu Rizky Amalia, M.Pd. selaku dosen pengajar yang telah memberikan bimbingan dan arahan
dalam pengerjaan dan penyusunan bahan hingga dapat disajikan dalam karya tulis ini. Tidak lupa
ucapan terima kasih kepada pihak-pihak yang tidak bisa disebutkan satu per satu yang juga turut
membantu dalam proses penyusunan makalah ini.
Kami menyadari bahwa dalam pembuatan makalah ini masih banyak memiliki
kekurangan baik dari segi penulisan, isi dan lain sebagainya. Kami mengharapkan saran dan
kritik yang membangun demi kesempurnaan makalah ini. Atas perhatian semua pihak, kami
mengucapkan terima kasih.
Banjarmasin, 28 Desember 2015
Penulis
i
Daftar Isi
KATA PENGANTAR......................................................................................................................i
Daftar Isi..........................................................................................................................................ii
BAB I...............................................................................................................................................1
B. Contoh Kasus...........................................................................................................................8
1. Langkah Langkah Analisis regresi Variabel dummy ( variable terikat)...............................9
a. Input data ke dalam SPSS.................................................................................................9
b. Pada variable view masukan variable Y, X1,X2, dan X3.............................................9
c. Klik Analyze pilih regression kemudian klik binary logistic.........................................11
d. Masukkan Y sebagai variabel dependen dengan cara klik Y di kotak kiri, kemudian klik tanda panah di samping kotak Dependent. Masukkan X1, X2 dan X3 ke dalam kotak Covariates, dengan cara klik masing-masing variabel, kemudian klik tanda panah di samping kotak Covariates. Dan klik Ok................................................................................11
e. Kemudian klik Classification plots, Hosmer-Lemeshow goodness-of-fit, Correlation of estimates, dan Iteration of History. Selanjutnya klik Continue.............................................12
f. Selanjutnya klik OK........................................................................................................12
Daftar Pustaka................................................................................................................................36
iii
BAB I
PENDAHULUAN
A. Latar Belakang
Variabel dependent pada dasarnya tidak hanya dapat dipengaruhi oleh variabel
independent kuantitatif, tetapi juga dimungkinkan oleh variabel kualitatif. (Catatan:
sebenarnya variabel dependent juga dapat berbentuk variabel kualitatif, tetapi hal tersebut
akan kita bahas pada tulisan yang lain). Lalu bagaimana cara kita memasukkan variabel
independent kualitatif tersebut (yang tidak berbentuk angka) ke dalam model regresi kita?
Variabel kualitatif tersebut harus dikuantitatifkan atributnya (cirinya). Untuk
mengkuantitatifkan atribut variabel kualitatif, dibentuk variabel dummy dgn nilai 1 dan 0.
Jadi, inilah yang dimaksud dengan variabel dummy tersebut. Nilai 1 menunjukkan adanya,
sedangkan nilai 0 menunjukkan tidak adanya ciri kualitas tsb. Misalnya variabel jenis
kelamin. Jika nilai 1 digunakan untuk laki-laki maka nilai 0 menunjukkan bukan laki-laki
(perempuan), atau sebaliknya.
Dalam makalah ini kita akan memprediksikan pengaruh Uang saku, jenis kelamin, dan penghasilan orang tua terhadap kemungkinan seorang anak menabung dengan model regresi binary logistic variabel terikat dummy.
B. Rumusan Masalah
1. Apa itu model regresi variabel dummy terikat?
2. Bagaimana menganalisis kasus model regresi variabel dummy terikat dengan SPSS?
C. Tujuan
1. Mengetahui apa itu model regresi variabel dummy terikat.
2. Dapat menganalisis kasus model regresi variabel dummy terikat dengan SPSS.
1
BAB II
PEMBAHASAN
A. Kajian Teori
Persamaan regresi baik sederhana maupun berganda yang telah dipelajari pada bab-
bab lalu, hanya menunjukan hubungan antara variabel numerik baik variabel terikat maupun
variabel bebasnya. Padahal untuk mengungkapkan suseatu fenomena, tidak jarang
dibutuhkan variabel bukan numerik, yang salah satunya adalah variabel kategorik.
Dalam model regresi, variabel kategorik yang berharga nol atau satu bias disebut
dengan variabel dummy. Dalam aplikasinya, variabel dummy ini sangat bermanfaat untuk
mengkuantifikasi data kualitatif, seperti : jenis kelamin, status perkawinan, kualitas produk,
kepuasan pelayanan, dan sebagainya. Disamping itu, variabel dummy juga bermanfaat untuk
malihat model regresi yang berubah arah maupun terjasinya ‘loncatan’ trend pada kurun
waktu yang berbeda, serta dapat juga dipergunakan untuk membuat model regresi yang
linier sebagian-sebagian.
Variabel dummy disebut juga variabel indicator, biner, kategorik, kualitatif, boneka,
atau variabel dikotomi. Suatu persamaan regresi dahat hanya menggunakan variabel
kategorik sebagai variabel bebas tetapi daoat pula disertai oleh variabel bebas lain yang
numeric. Regresi dengan variabel bebasnya hanya vriabel dummy atau yang sifatnya
kualitatif disebut model Analysis of Variance (ANOVA).
Misalkan : sebuah perusahaan parfum ingin melakukan marketing research, untuk
mengetahui segmen pasar pada berbagai macam jenis produknya. Segmen pasar yang
dimaksud diukur berdasarkan daerah tempat tinggal responden, yaitu kota atau desa,dan
harga berbagai macam produk. Atau dengan kata lain, akan dilihat hubungan antara daerah
tempat tinggal responden dengan harga yang dipilih. Untuk kepentingan tersebu, perusahaan
mengadakan observasi di beberapa daerah untuk mengumpulkan data. Setelah data
terkumpul, maka digunakan model regresi untuk menghasilkan hasil penilitian.
Sebagai ilustrasi analisis regresi variabel dummy terikat, model ini muncul pada
kasus-kasus seperti berikut : Misalkan ingin mempelajari partisipasi wanita dewasa apda
2
angkatan kerja sebagai fungsi rata-rata upah, pendapatan suami, umur, banyaknya anak usia
sekolah, dan lain-lain. Variabel terikatnya partisipasi angkatan kerja wanita.
Model ini juga dipakai untuk menganalisis apakah buruh/pekerja menjadi anggota
dari serikat pekerja atau tidak. Variabel terikatnya berupa keikutsertaan seseorang dalam
suatu serikat.
Selain itu juga dapat mengamati hubungan antara pernah tidaknya melakukan
perjalanan luar negeri dan faktor ynag mempengaruhinya seperti pendapatan, jenis
pekerjaan, dll. Variabel terikatnya pernah tidaknya melakukan perjalanan keluar negeri.
Biasanya suatu variabel terikat diasumsikan dengan 1 dan 0 untuk tidak. Dari
contoh-contoh diatas ada satu hal yang menarik yaitu variabel terikatnya merupakan suatu
jawaban YA atau TIDAK atau berupa Variabel Dikotomi.
1. Pemodelan Matematis
Perhatikan kembali model regresi sederhana yang telah kita analsis:
Y i=β1+β2 X i+u i
X = pendapatan
Y = 1 ; bila seseorang pernah melakukan perjalanan ke luar negeri
0 ; bila seseorang tidak pernah melakukan perjalanan ke luar negeri.
Ekspekstasi kondisional dari Yi jika diberikan Xi yang lazim dinotasikan dengan E
( Yi | Xi ) dapat dicari sebagai berikut :
E ( Yi | Xi ) = E ( Yi = 1 ). P( Yi = 1 | Xi ) + E ( Yi = 0 ). P( Yi = 0 | Xi ) = P ( Yi = 1| Xi )
Ekspektasi kondisional tersebut dapat juga diinterprestasikan sebagai probabilitas
kondisional bahwa suatu peristiwa akan terjadi bila X (pendapatan) diketahui. Secara notasi
dituliskan Pr ( Yi = 1| Xi ) yang menyatakan probabilitas bahwa seseorang pernah melakukan
perjalanan keluar negeri bila pendapatannya diketahui. Dengan kata lain E ( Y i | Xi ) dapat
diartikan sebagai Pr (Yi = 1| Xi) yaitu probabilitas bahwa seseorang pernah melakukan
3
perjalanan keluar negeri. Dengan dasar inilah model tersebut disebut Model Probabilitas
Linier.
Linear Probability Model (LPM) merupakan metode regresi yang umum digunakan
sebelum logit dan probit model dikembangkan. LPM bekerja dengan dasar bahwa variabel
respon Y, yang merupakan probabilita terjadinya sesuatu, mengikuti Bernoulli probability
distribution dimana:
Sumber: wcr.sonoma.edu
Gambar diatas menunjukkan bahwa garis dari Linear Probability Model (LPM) sangat
minim menjelaskan atau mempresentasikan dari variabel dependent yang diskrit. Oleh
karena itu, karena LPM bekerja berdasarkan metode OLS biasa maka timbul permasalahan
yang telah diungkapkan sebelumnya: non-normality of the disturbance, heteroscedastis,
tidak terpenuhinya ekspektasi nilai Y antara satu sampai dengan nol, dan tidak dapat
digunakannya R² sebagai pengukur Goodness of Fit. Kebutuhan akan model probabilita
yang menghasilkan Y yang terletak antara interval satu sampai dengan nol dengan
hubungan antara Pt dengan Xt yang tidak linear menyebabkan logit model dikembangkan.
4
2. Model Logit
Model Linear Probability Model memiliki masalah, tidak dapatnya memberikan hasil
nilai Y yang terletak pada interval 1 dan 0, padahal niai probabilitas mengharuskan kisaran
nilainya diantara 1 dan 0. dikarenakan mereka menggunakan OLS atau regresi linear dalam
melakukan estimasinya, atau dengan persamaan sebagai berikut:
Dikarenakan persamaan regresi linear tidak dapat memenuhi persyaratan nilai
probabilitas tersebut, di buatlah model logit yang menggunakan persamaan eksponensial
untuk mendapatkan nilai probabilitas pada interval 1 dan 0, Dimana persamaan model
Logit menjadi seperti berikut:
Dimana Zi = β1 + β2Xi.
Persamaan diatas lebih dikenal sebagai logistic distribution function. Persyaratan yang
diminta sebelumnya, yaitu model probabilita yang menghasilkan Y antara interval satu
sampai dengan nol dengan hubungan antara Pt dengan Xt yang tidak linear, dapat
terpenuhi. Hal ini disebabkan, saat Z berkisar antara -∞ sampai dengan ∞, Pi berkisar
antara 0 dan 1 sehingga Pi tidak berhubungan linear dengan Z. Meskipun begitu masih
terdapat masalah estimasi karena P tidak hanya tidak linier pada X tetapi juga ke β.
Namun, seperti dapat ditunjukkan pada persamaan berikut, masalah estimasi tersebut dapat
diatasi. Setelah itu kita perlu menentukan persamaan kejadian gagal, dengan merujuk
kepada Bernoulli probability distribution. Maka kita akan mendapatkan persamaan seperti
dibawah ini:
5
Setelah kita memiliki persamaan kejadian sukses dan persamaan kejadian gagal, maka
kita dapat pula membuat Odds Ratio yang merupakan peluang sukses dibagi dengan
peluang gagal, dengan rumus matematika seperti dibawah.
Untuk mendapatkan nilai z yang sudah linier maka kita perlu melakukan treatment
tambahan setelah melakukan odd ratio dimana dengan mengalikan persamaan diatas
dengan Logaritma Natural dengan tujuan membuat persamaan menjadi linear, sehingga
bentuk persamaan akan menjadi seperti dibawah ini:
Logaritma Natural atau ln dari odds ratio tidak hanya bersifat linear pada X tetapi juga
bersifat linear terhadap parameter. Persamaan tersebut yang kemudian dikenal sebagai
model logit. Kelebihan dari model logit tersebut adalah:
Saat P berpindah dari 0 ke 1, logit L akan berpindah dari -∞ ke ∞.Oleh karena itu,
meskipun probabilita terletak antara 0 hingga 1, logit sendiri tidak terbatasi. Dan
meski L linear terhadap X, probabilitanya sendiri tidak.
L (logit) yang bernilai positif menandakan bahwa meningkatnya nilai regresor akan
menyebabkan meningkatnya odds dari regresan yang setara dengan 1. Sebaliknya, L
(logit) yang bernilai negative menandakan bahwa menurunnya odds dari regresan yang
setara dengan 1akan menyebabkan meningkatnya nilai dari X.
Model logit yang diberikan pada persamaan lima dapat diinterpretasikan sebagai
berikut: slope β2 merupakan pengukur perubahan nilai L karena perubahan nilai X,
sementara Intercept β1 merupakan nilai dari log-odds apabila nilai suatu slope nol.
Logit model juga mengasumsikan bahwa log sebuah odds ratio berhubungan linier
terhadap Xi atau nilai sebuah slope.
6
3. Pengolahan Logit
Untuk menguji signifikansi suatu koefisien secara statistik, kita menggunakan Z
statistik (distribusi normal).
Dalam binary regressand model, kita menggunakan pseudo R2, yang mirip dengan
R2, untuk mengukur goodness of fit. Program Stata secara otomatis menyediakan
pengukuran tersebut, yaitu McFadden R2, yang ditulis dengan Pseudo R2.
Mirip dengan F test pada model regresi linear adalah likelihood ratio (LR) statistik.
LR statistik mengikuti ditribusi χ2 dengan derajat kebebasan (degree of freedom)
sama dengan jumlah variabel bebas
Mencari Odds Ratio dari setiap variabel independent
Margina Effek dari setiap variabel independent
Mencari probabilitas setiap variabel independent terhadap variabel dependentnya .
Tujuan menggunakan regresi berganda dummy adalah
memprediksi besarnya nilai variabel tergantung/dependent atas dasar
satu atau lebih variabel bebas/independent, di mana satu atau lebih
variabel bebas yang digunakan bersifat dummy. Variabel dummy
adalah variabel yang digunakan untuk membuat kategori data yang
bersifat kualitatif (data kualitatif tidak memiliki satuan ukur), agar data
kualitatif dapat digunakan dalam analisa regresi maka harus lebih
dahulu di transformasikan ke dalam bentuk Kuantitatif. contoh data
kualitatif misal jenis kelamin adalah laki-laki dan perempuan, harus di
transform ke dalam bentuk Laki-laki = 1 ; Perempuan = 0. atau tingkat
pendidikan misal SMA dan Sarjana, maka diubah menjadi SMA = 0 ;
Sarjana = 1, skala yang terdiri dari dua yakni 0 dan 1 disebut kode
Binary, sedangkan persamaan model yang terdiri dari Variabel
Dependentnya Kuantitatif dan variabel Independentnya skala
campuran : kualitatif dan kuantitatif, maka persamaan tersebut
disebut persamaan regresi berganda Dummy. Dalam kegiatan
penelitian, kadang variabel yang akan diukur bersifatKualitatif,
7
sehingga muncul kendala dalam pengukuran, dengan adanya variabel
dummy tersebut, maka besaran atau nilai variabel yang
bersifat Kualitatif tersebut dapat di ukur dan diubah
menjadi kuantitatif.
B. Contoh Kasus
Berikut akan diberikan contoh kasus beserta penjelasannya:
Misalkan kita ingin memprediksikan pengaruh Uang saku, jenis kelamin, dan penghasilan orang tua terhadap kemungkinan seorang anak menabung
No Y X1 X2 X31 0 15000 1 1
2 0 16000 1 1
3 0 10000 1 1
4 1 14000 1 1
5 0 5000 1 1
6 0 5000 1 0
7 1 20000 1 1
8 0 10000 1 0
9 0 6000 1 0
10 1 7000 1 0
11 1 10000 0 1
12 1 10000 0 0
13 0 6000 0 1
14 1 10000 0 0
15 1 6000 0 0
16 1 7000 0 0
17 1 19000 0 1
18 1 5000 0 0
19 0 5000 0 1
8
20 0 8000 0 1
Keterangan :
y={0 tidak suka menabung1 sukamenabung
X1=uang saku anak
X2={0 perempuan1laki−laki
X3={0 penghasilanorangtua kurang dari30000001 penghasilanorangtualebih dari 3000000
1. Langkah Langkah Analisis regresi Variabel dummy ( variable terikat)a. Input data ke dalam SPSS
b. Pada variable view masukan variable Y, X1,X2, dan X31. Pada Baris Y kolom Values. Berikan “0” pada velue untuk label “tidak suka
menabung”. Dan berikan “1” pada value untuk label “suka menabung”
9
2. Pada Baris X2 kolom Values. Berikan “0” pada velue untuk label “perempuan”. Dan berikan “1” pada value untuk label “laki-laki”
3. Pada Baris X3 kolom Values. Berikan “0” pada velue untuk label “penghasilan orang tua kurang dari 3.000.000”. Dan berikan “1” pada value untuk label “Penghasilan orang tua lebih dari atau sama dengan 3.000.000”
10
c. Klik Analyze pilih regression kemudian klik binary logistic
d. Masukkan Y sebagai variabel dependen dengan cara klik Y di kotak kiri, kemudian klik tanda panah di samping kotak Dependent. Masukkan X1, X2
dan X3 ke dalam kotak Covariates, dengan cara klik masing-masing variabel, kemudian klik tanda panah di samping kotak Covariates. Dan klik Ok.
11
e. Kemudian klik Classification plots, Hosmer-Lemeshow goodness-of-fit, Correlation of estimates, dan Iteration of History. Selanjutnya klik Continue.
f. Selanjutnya klik OK. Sehingga menghasilkan output sebagai berikut :
2. Interpretasi output SPSSa. Identifikasi Data yang hilang
Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 20 100.0
Missing Cases 0 .0
Total 20 100.0
Unselected Cases 0 .0
Total 20 100.0
a. If weight is in effect, see classification table for the total number of
cases.
Tabel diatas menunjukkan jumlah responden yang menjadi sampel dalam pembuatan model, dimana berjumlah 20. Dari jumlah tersebut, pengaruh prilaku menabung siswa terhadap jumlah uang saku, jenis kelamin, dan pendapatan orang tua, semuanya digunakan dalam analisis atau pembuatan model. Selanjutnya, dapat dilihat tidak ada data yang hilang (missing cases) yang diindikasikan N (jumlah) adalah 0.
b. Pemberian kode variable respon oleh SPSS
Dependent Variable Encoding
Original Value Internal Value
tidak suka menabung 0
suka menabung 1
12
Tabel diatas menunjukkan kode variabel terikat, yang dalam hal ini adalah 0 untuk siswa tidak suka menabung dan 1 untuk siswa suka menabung.
c. Uji signifikansi omnibus terhadap model
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 14.106 3 .003
Block 14.106 3 .003
Model 14.106 3 .003
Tabel diatas merupakan nilai Chi Square(χ2) dari model regresi. Sebagaimana halnya model regresi linear dengan metode Ordinary Least Square (OLS), kita juga dapat melakukan pengujian arti penting model secara keseluruhan. Jika metode OLS menggunakan uji F, maka pada model logit menggunakan uji G. Statistik G ini menyebar menurut sebaran Chi Square (χ2). Karenanya dalam pengujiannya, nilai G dapat dibandingkan dengan nilai χ2 tabel pada α tertentu dan derajat bebas (df) = k-1 (kriteria pengujian dan cara pengujian persis sama dengan uji F pada metode regresi OLS). Tetapi, kita juga bisa melihat nilai p-value dari nilai G ini yang biasanya ditampilkan oleh sofware-software statistik, termasuk SPSS. Dari Tabel 3, didapatkan nilai χ2 sebesar 14,106 dengan p-value sebesar 0,003. Karena nilai tersebut signifikan atau jauh di bawah α = 10%, maka dapat disimpulkan bahwa model regresi logistik secara keseluruhan dapat menjelaskan kemungkinan siswa memiliki prilaku suka menabung.
d. Menilai keseluruhan model (overall model fit) dan menilai kelayakan model regresi
Model Summary
Step -2 Log likelihood
Cox & Snell R
Square
Nagelkerke R
Square
1 13.620a .506 .675
a. Estimation terminated at iteration number 6 because
parameter estimates changed by less than .001.
Cox & Snell R Square merupakan ukuran yang mencoba meniru ukuran R2 pada multiple regression yang didasarkan pada teknik estimasi likelihood dengan nilai maksimum kurang dari 1 sehingga sulit diinterpretasikan. Dilihat dari Tabel tersebut, nilai Cox & Snell R Square adalah 0,506.
Nagelkerke R Square merupakan modifikasi dari koefisien Cox & Snell R Square untuk memastikan bahwa nilainya bervariasi dari 0 sampai 1. Kisaran
13
nilai Nagelkerke R Square adalah 0 hingga 1. Semakin nilai Nagelkerke R Square mendekati angka 1, maka semakin kuat variabel bebas memprediksi variabel terikat. Hal ini dilakukan dengan cara membagi nilai Cox & Snell R Square dengan nilai maksimumnya. Oleh karena itu, nilai Nagelkerke R Square dapat diinterpretasikan seperti nilai R2 pada multiple regression. Dilihat dari output SPSS, nilai Nagelkerke R Square adalah 0,675. Ini berarti variabilitas variabel dependen yang dapat dijelaskan oleh variabilitas variabel independen sebesar 67,5 %.
Hipotesis untuk menilai model fit adalah:
H0 = Model yang dihipotesakan fit dengan data.
HA = Model yang dihipotesakan tidak fit dengan data.
Dari hipotesis ini jelas bahwa kita tidak akan menolak H0 agar supaya model fit dengan data.
Dalam data ini digunakan hipotesisnya sebagai berikut:
H0 = tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed).
H1= ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed )
Hosmer and Lemeshow Test
Step Chi-square df Sig.
1 9.878 8 .274
Hosmer and Lemeshow Test menguji hipotesis nol bahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga model dapat dikatakan fit).
Dasar pengambilan keputusannya adalah dengan memperhatikan nilai signifikansi dari Chi Square terhadap kriteria pengujian α = 0.1 pada Hosmer and Lemeshow Test yaitu:
• Jika probabilitas > 0,1 maka H0 diterima
• Jika probabilitas < 0,1 maka H1 diterima
Tabel 6 menunjukkan bahwa besarnya nilai Hosmer and Lemeshow Test sebesar 9,878 dengan probabilitas signifikansi 0,274 > α = 0,1 maka H0 diterima. Hal ini berarti model regresi binary logistic layak digunakan untuk analisis selanjutnya, karena tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi dengan klasifikasi yang diamati.
14
e. Menguji Koefisien Regresi
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a X1 .001 .000 4.186 1 .041 1.001
X2 -4.548 2.283 3.969 1 .046 .011
X3 -4.747 2.399 3.914 1 .048 .009
Constant -.815 1.775 .211 1 .646 .443
a. Variable(s) entered on step 1: X1, X2, X3.
Tabel tersebut memberikan estimasi koefisien model dan pengujian hipotesis parsial dari koefisien model. Regresi logistik menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit. Odds ratio pada SPSS dilambangkan dengan Exp(B).
Dari tabel tersebut diperoleh nilai Exp (B) sebagai faktor pengali (p). Adapun nilai Exp(B) dari variabel independen uang saku sebesar 1,001, variabel independen jenis kelamin sebesar 0,011, variabel independen pendapatan oorang tua sebesar 0,009, Penafsirannya adalah:
Angka negatif dianggap probabilitas = 0.
Angka > 1 dianggap probabilitas = 1.
Angka di antara 0 sampai 1, probabilitasnya sesuai angka yang tertera.
Nilai Exp(B) dari variabel independen uang saku sebesar 1,001, maka peluang uang saku sebesar 1 (karena Exp(B) > 1 maka dibulatkan menjadi 1) dapat diartikan bahwa siswa yang punya uang saku lebih banyak, peluang dia suka menabung adalah 1,001 kali . jika pendapatan orang tua dan jenis kelamin mereka sama. Artinya siswa yang lebih banyak uang sakunya memiliki peluang lebih tinggi memiliki prilaku suka menabung. Dalam konteks uang saku ini (yang merupakan variabel dengan skala rasio), hati-hati menginterpretasikan nilai perbedaan peluangnya.
Nilai Exp(B) variabel independen jenis kelamin (jenis kelamin dimana 0 = perempuan dan 1 = laki-laki) sebesar 0,132, maka peluang jenis kelamin sebesar 0,011. Dapat diartikan bahwa peluang laki-laki memiliki prilaku suka menabung adalah 0,011 kali dibandingkan perempuan, jika uang saku dan
15
pendapatan orang tua mereka sama. Artinya laki-laki memiliki peluang lebih tinggi memiliki prilaku suka menabung daripada perempuan.
Nilai Exp(B) variabel independen pendapatan orang tua sebesar 0,009, maka peluang siswa yang memiliki pendapatan orang tua lebih dari atau sama dengan 3 juta memiliki prilaku suka menabung sebesar 0,009. Dapat diartikan bahwa peluang siswa yang memiliki pendapatan orang tua lebih dari atau sama dengan 3 juta memiliki prilaku suka menabung adalah 0,009 kali jika dibandingkan siswa yang pendapatan orang tuanya kurang dari 3 juta, jika uang saku dan jenis kelamin sama.
Untuk menguji faktor mana yang berpengaruh nyata siswa yang memiliki prilaku suka menabung tersebut, dapat menggunakan uji signifikansi dari parameter koefisien secara parsial dengan statistik uji Wald, yang serupa dengan statistik uji t atau uji Z dalam regresi linear biasa, yaitu dengan membagi koefisien terhadap standar error masing-masing koefisien. Dengan uji t (Uji Wald) dan pvalue-nya (dengan menggunakan kriteria pengujian α = 10%) terlihat bahwa X3 berpengarh nyata (karena memiliki p-value dibawah 10%) siswa yang memiliki prilaku suka menabung. Variabel independen uang saku dan jenis kelamin juga signifikan pada α = 10%, sehingga model regresi ini layak digunakan untuk memprediksi variabel siswa yang memiliki prilaku suka menabung.
f. Penafsiran dan prediksiPersamaan model regresi binary logistic tersebut adalah:
ln ( p1−p )=−0,815+0,001 X 1−4,548 X 2−4,747 X 3
Y= siswa memiliki prilaku suka menabungX1 = Uang sakuX2 = Jenis kelaminX3 = Pendapatan orang tuaP = peluang siswa memiliki prilaku suka menabung1-p = peluang siswa memiliki prilaku tidak suka menabung
1. Nilai konstan sebesar 0,093 bearti pada saat jenis kelamin berkode 0 ( perempuan), dan pendapatan berkode 0 ( pendapatan orang tua kurang dari 3 juta), misalkan siswa memunyai uang saku 10.000 maka peluang siswa suka menabung sebesar :
Karena menghasilkan probabilitas 99,98 %maka dapat disimpulkan bahwa siswa yang ber jenis kelamin perempuan, pendapatan orang tua kurang dari 3 juta dan uang saku siswa 10.000 maka siswa meliliki peluang sebesar 99,98 % untuk memiliki prilaku suka menabung.
2. Apabila jenis kelamin berkode 0 ( perempuan), dan pendapatan orang tua berkode 1 ( pendapatan orang tua lebih dari atau sama dengan 3 juta),missal uang saku siswa 10.000, maka peluang siswa suka menabung sebesar :
Karena menghasilkan probabilitas 98,83 %, maka dapat disimpulkan, siswa yang berjenis kelamin perempuan, dan pendapatan orang tua lebih dari atau sama dengan 3 juta dan uang saku siswa 10.000 maka siswa memiliki peluang sebesar 98,83 %untuk memiliki prilaku suka menabung.
3. Apabila jenis kelamin berkode 1 ( laki-laki), dan pendapatan orang tua berkode 0 ( pendapatan orang tua kurang 3 juta),missal uang saku siswa 5.000, maka peluang siswa suka menabung sebesar :
Karena menghasilkan probabilitas41,02 %, maka dapat disimpulkan bahwa siswa yang berjenis kelamin laki-laki, dan pendapatan orang tua lebih dari atau sama dengan 3 juta dan uang saku siswa 5.000 maka siswa memiliki peluang sebesar 41,02 %untuk memiliki prilaku suka menabung.
4. Apabila jenis kelamin berkode 1 ( laki-laki), dan pendapatan orang tua berkode 1 ( pendapatan orang tua lenih dari atau sama dengan 3 juta),missal uang saku siswa 15.000, maka peluang siswa suka menabung sebesar :
p=0,99253472=99,25 %Karena menghasilkan probabilitas99,25%, maka dapat disimpulkan bahwa siswa yang berjenis kelamin laki-laki, dan pendapatan orang tua lebih dari atau sama dengan 3 juta dan uang saku siswa 15.000 maka siswa memiliki peluang sebesar 99,25 %untuk memiliki prilaku suka menabung
Latihan Soal
Dalam sebuah survei, ingin diprediksi pengaruh umur, jenis
kelamindan kegemukan terhadap kemungkinan seseorang mengidap penyakit
diabetes. Berdasarkan hasil survei terhadap 50 responden, didapatkan datanya
dalam tabel sebagai berikut:
No.Diabetes
(Y)
Umur
(X1)
Jenis Kelamin
(X2)
Kegemukan
(X3)
18
1. 0 38 0 0
2. 0 39 1 0
3. 1 48 1 1
4. 1 52 1 1
5. 1 46 1 1
6. 0 40 0 0
7. 1 50 1 1
8. 0 37 1 0
9. 1 42 0 1
10. 1 44 1 1
11. 1 42 1 1
12. 0 36 0 0
13. 0 41 1 0
14. 1 44 0 0
15. 1 47 1 1
16. 0 43 0 0
17. 1 53 1 1
19
18. 1 82 1 1
19. 1 61 0 1
20. 1 66 1 1
21. 1 55 0 1
22. 1 63 1 1
23. 1 60 1 1
24. 1 58 1 1
25. 1 56 1 1
26. 1 49 0 1
27. 1 47 1 1
28. 1 47 0 1
29. 0 43 1 0
30. 0 42 0 0
31. 1 57 1 1
32. 1 56 1 1
33. 1 52 0 1
34. 1 69 1 1
20
35. 1 70 1 1
36. 1 46 0 0
37. 1 50 1 1
38. 0 44 0 0
39. 1 48 1 1
40. 1 50 1 1
41. 1 49 1 1
42. 1 47 1 0
43. 1 51 0 1
44. 1 55 1 1
45. 1 50 0 1
46. 1 49 1 0
47. 1 52 1 1
48. 1 63 1 1
49. 1 60 0 1
50. 1 49 1 1
Berdasarkan data pada tabel 1 diatas, didapatkan:
21
Varibel Terikat/Bebas Dummy Definisi Operasional
Y Terikat0 tidak terkena diabetes
1 Terkena diabetes
X1
Bebas
- Umur dalam tahun
X20 Laki-Laki
1 Perempuan
X30 Tidak mengalami kegemukan
1 Mengalami Kegemukan
Tabel 2
1. Analisis Data
a. Langkah-LangkahAnalisis Data Menggunakan Spss
1. Input data diatas ke SPSS
22
2. Ubah value masing-masing variabel berdasarkan keterangan yang didapat pada
tabel 2, kecuali untuk variabel X1 (Umur).
3. Klik Analyze→ Regression → Binary Logistic
23
4. Masukkan Y sebagai variabel dependen dengan cara klik Y di kotak kiri,
kemudian klik tanda panah di samping kotak Dependent. Masukkan X1, X2 dan
X3 ke dalam kotak Covariates, dengan cara klik masing-masing variabel,
kemudian klik tanda panah di samping kotak Covariates.
24
5. Klik Options, kemudian beri tanda () pada Classification plots, Hosmer-
Lemeshow goodness-of-fit, Correlation of estimates, dan Iteration of History.
Selanjutnya klik Continue.
6. Klik Ok, akan keluar hasil output SPSS untuk Model Regresi Binary Logistic.
25
b. Analis Data Hasil Output SPSS
1. Identifikasi Data yang Hilang
Hasil output diatas menunjukkan jumlah responden yang menjadi sampel dalam pembuatan model, dimana berjumlah 50. Dari jumlah tersebut, data penderita diabetes, umur, jenis kelamin dan kegendutan semuanya digunakan dalam analisis atau pembuatan model. Selanjutnya, dapat dilihat tidak ada data yang hilang (missing cases) yang diindikasikan N (jumlah) adalah 0.
2. Pemberian kode variabel respon oleh SPSS
Tabel selanjutnya menunjukkan kode variabel terikat, yang dalam hal ini adalah 0 untuk bukan penderita diabetes dan 1 untuk penderita diabetes.
3. Uji Signifikansi Omnibus terhadap Model
Tabel ini menunjukkan nilai Chi Square (χ2) dari model regresi. Sebagaimana halnya model regresi linear dengan metode Ordinary Least Square (OLS), kita juga dapat melakukan pengujian arti penting model secara
26
keseluruhan. Jika metode OLS menggunakan uji F, maka pada model logit menggunakan uji G. Statistik G ini menyebar menurut sebaran Chi Square (χ2). Karenanya dalam pengujiannya, nilai G dapat dibandingkan dengan nilai χ2 tabel pada α tertentu dan derajat bebas (df) = k-1 (kriteria pengujian dan cara pengujian persis sama dengan uji F pada metode regresi OLS). Tetapi, kita juga bisa melihat nilai p-value dari nilai G ini yang biasanya ditampilkan oleh sofware-software statistik, termasuk SPSS. Dari tabel diatas, didapatkan nilai χ2 sebesar 47,268 dengan p-value sebesar 0,000. Karena nilai tersebut signifikan atau jauh di bawah α = 10%, maka dapat disimpulkan bahwa model regresi logistik secara keseluruhan dapat menjelaskan kemungkinan seseorang dapat menderita diabetes.
4. Menilai Keseluruhan Model (Overall Model Fit) dan Menilai Kelayakan Model Regresi
Pada tabel Model Summary, Cox & Snell R Square merupakan ukuran yang mencoba meniru ukuran R2 pada multiple regression yang didasarkan pada teknik estimasi likelihood dengan nilai maksimum kurang dari 1 sehingga sulit diinterpretasikan. Dilihat dari Tabel 5, nilai Cox & Snell R Square adalah 0,611.
Nagelkerke R Square merupakan modifikasi dari koefisien Cox & Snell R Square untuk memastikan bahwa nilainya bervariasi dari 0 sampai 1. Kisaran nilai Nagelkerke R Square adalah 0 hingga 1. Semakin nilai Nagelkerke R Square mendekati angka 1, maka semakin kuat variabel bebas memprediksi variabel terikat. Hal ini dilakukan dengan cara membagi nilai Cox & Snell R Square dengan nilai maksimumnya. Oleh karena itu, nilai Nagelkerke R Square dapat diinterpretasikan seperti nilai R2 pada multiple regression. Dilihat dari output SPSS, nilai Nagelkerke R Square adalah 0,967. Ini berarti variabilitas variabel dependen yang dapat dijelaskan oleh variabilitas variabel independen sebesar 0,967 %.
27
Hipotesis untuk menilai model fit adalah:
H0 = Model yang dihipotesakan fit dengan data.
HA = Model yang dihipotesakan tidak fit dengan data.
Dari hipotesis ini jelas bahwa kita tidak akan menolak H0 agar supaya model fit dengan data.
Dalam data ini digunakan hipotesisnya sebagai berikut:
H0= tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed).
H1= ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed).
Tabel Hosmer and Lemeshow Test menguji hipotesis nol bahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga model dapat dikatakan fit.
Dasar pengambilan keputusannya adalah dengan memperhatikan nilai signifikansi dari Chi Square terhadap kriteria pengujian α = 0.1 padaHosmer and Lemeshow Test yaitu:
• Jika probabilitas > 0,1 maka H0 diterima
• Jika probabilitas < 0,1 maka H1 diterima
Tabel ini menunjukkan bahwa besarnya nilai Hosmer and Lemeshow Test sebesar 7,211 dengan probabilitas signifikansi 1,000 > α = 0,1 maka H0
diterima. Hal ini berarti model regresi binary logistic layak digunakan untuk analisis selanjutnya, karena tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi dengan klasifikasi yang diamati.
5. Menguji Koefisien Regresi
Tabel Varaibles in the Equation memberikan estimasi koefisien model
dan pengujian hipotesis parsial dari koefisien model. Regresi logistik
28
menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor.
Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang
muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara
umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang
dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai
jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun
(rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.
Odds ratio pada SPSS dilambangkan dengan Exp(B).Dari tabel diatas diperoleh nilai Exp (B) sebagai faktor pengali (p).
Adapun nilai Exp(B) dari variabel independen umur sebesar 823672,293,
variabel independen jenis kelamin sebesar 0,018, variabel independen
mengalami kegendutan sebesar 5,166E+20, Penafsirannya adalah:
• Angka negatif dianggap probabilitas = 0.
• Angka > 1 dianggap probabilitas = 1.
• Angka di antara 0 sampai 1, probabilitasnya sesuai angka yang tertera.
Nilai Exp(B) dari variabel independen umur sebesar 823672,293, maka
peluang umur sebesar 1 (karena Exp(B) > 1 maka dibulatkan menjadi 1) dapat
diartikan bahwa seseorang yang berumur lebih tua satu tahun, peluang
menderita diabetes adalah 1,031 kali dibandingkan seseorang yang berumur
lebih muda (satu tahun), jika dalam keluarga merupakan keturunan diabetes
dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki
peluang yang lebih tinggi menjadi penderita diabetes. Dalam konteks umur ini
(yang merupakan variabel dengan skala rasio), hati-hati menginterpretasikan
nilai perbedaan peluangnya. Jika perbedaan umur lebih dari 1 tahun, misalnya
10 tahun, maka oddsratio-nya akan menjadi 0,31, yang diperoleh dari
perhitungan exp (10 x 0,031). Artinya peluang seseorang menjadi penderita
diabetes berumur lebih tua 10 tahun adalah 0,31 kali dibandingkan yang lebih
muda (10 tahun) darinya.
Nilai Exp(B) variabel independen jenis kelamin (jenis kelamin dimana
1 = wanita dan 0 = pria) sebesar 2,702, maka peluang jenis kelamin sebesar
29
2,702. Dapat diartikan bahwa peluang wanita menderita diabetes adalah 2,702
kali dibandingkan pria, jika umur dan gen keturunan mereka sama. Artinya
wanita memiliki peluang lebih tinggi menjadi penderita diabetes
dibandingkan pria.
Nilai Exp(B) variabel independen kegemukan sebesar 11,115, maka
peluang orang yang kegemukan sebesar sebesar 11,115. dapat diartikan bahwa
peluang seseorang yang kegemukanadalah sebesar 11,115 kali dibandingkan
seseorang yang tidak kegemukan, jika umur dan jenis kelaminnya sama.
Untuk menguji faktor mana yang berpengaruh nyata seseorang yang
menderita diabetes tersebut, dapat menggunakan uji signifikansi dari
parameter koefisien secara parsial dengan statistik uji Wald, yang serupa
dengan statistik uji t atau uji Z dalam regresi linear biasa, yaitu dengan
membagi koefisien terhadap standar error masing-masing koefisien. Dengan
uji t (Uji Wald) dan pvalue-nya (dengan menggunakan kriteria pengujian α =
10%) terlihat bahwa X3 berpengaruh nyata (karena memiliki p-value dibawah
10%) seseorang yang menderita diabetes. Variabel independen umur dan jenis
kelamin tidak signifikan pada α = 10%, namun model regresi ini layak
digunakan untuk memprediksi variabel seseorang menderita diabetes, karena
secara faktual variabel independen berupa umur dan jenis kelamin bisa saja
mempengaruhi seseorang menjadi penderita diabetes. Ketidaksignifikan data
ini mungkin disebabkan karena pengumpulan data yang kurang akurat atau
terbatasnya sampel yang diambil.
6. Penafsiran dan Prediksi
Persamaan model regresi binary logistic tersebut adalah:
ln ( p1−p )=−2,264+0,031 X1+0,994 X2+2,408 X3
Dimana:
Y = Penderita Diabetes
X1 = Umur
30
X2 = Jenis Kelamin
X1 = Kegemukan
p = Peluang menderita diabetes
1-p= Peluang tidak menderita diabetes
a. Nilai konstanta sebesar -2,264 berarti pada saat umur berkode 0, jenis
kelamin berkode 0, kegemukan berkode 0, maka peluang seseorang
menderita diabetes sebesar:
ln ( p1−p )=−2,264
p1−p
=e−2,264
p= e−2,264
1+e−2,264 =0,0941487=9,4141 %
Karena menghasilkan probabilitas 9,4141% , maka dapat disimpulkan
bahwa tanpa adanya variabel independen umur, jenis kelamin, dan
kegemukan maka seseorang masih meliliki peluang sebesar 9,414% untuk
menderita diabetes.
b. Apabila jenis kelamin berkode 0 (pria), kegemukan berkode 0 maka
probabilitas seseorang menderita diabetes adalah sebagai berikut:
ln ( p1−p )=−2,264+0,031 X1
Misalkan kita ambil seorang laki-laki berumur 35 tahun
ln ( p1−p )=−2,264+0,031 (35 )
ln ( p1−p )=−1,179
p1−p
=e−1,179
p= e−1,179
1+e−1,179 =0,2352320465=23,52%
31
Karena menghasilkan probabilitas 23,52% maka pada umur 35
tahun bisa diprediksi bahwa peluang seseorang menderita diabetes
adalah 23,52%.
Misalkan kita ambil laki-laki berumur 51 tahun
ln ( p1−p )=−2,264+0,031 (51 )
ln ( p1−p )=−0,683
p1−p
=e−0,683
p= e−0,683
1+e−0,683 =0,3355=33,55 %
Karena menghasilkan probabilitas 33,55% maka pada umur 51
tahun bisa diprediksi bahwa peluang seseorang menderita diabetes
sebesar 33,55%.
c. Apabila jenis kelamin berkode 1 (wanita), kegemukan berkode 0 maka
probabilitas seseorang menderita diabetes adalah sebagai berikut:
ln ( p1−p )=−2,264+0,031 X1+0,994
Misalkan kita ambil wanita berumur 30 tahun
ln ( p1−p )=−2,264+0,031 (30 )+0,994
ln ( p1−p )=−0,34
p1−p
=e−0,34
p= e−034 p1+e−0,34 =0,4158=41,58 %
32
Karena menghasilkan probabilitas 41,58% maka pada umur 30
tahun bisa diprediksi bahwa peluang seseorang wanita menderita diabetes
adalah sebesar 41,58%
d. Apabila jenis kelamin berkode 1 (wanita), kegemukan berkode (1) maka
probabilitas seseorang menderita diabetes adalah sebagai berikut: