ANALISIS REGRESI TOBIT SPASIAL: Studi Kasus Penggunaan ... · spasial lebih disarankan untuk analisis wilayah yang melibatkan data tersensor. ... Kaliba [8] mengembangkan model Tobit

1

ANALISIS REGRESI TOBIT SPASIAL:

Studi Kasus Penggunaan Internet di Pulau Jawa

Andhie Surya Mustari1, Ismaini Zain

2

1Mahasiswa Program Magister Jurusan Statistika, Institut Teknologi Sepuluh Nopember

1E-mail: [email protected]

2Dosen Jurusan Statistika, Institut Teknologi Sepuluh Nopember

[email protected]

1,2Kampus ITS Sukolilo, Surabaya 60111

Abstract

In the year of 2011, Indonesia is a country with second largest Facebook access in the

world. A total of more than 39 million Facebook accounts were made by Indonesian

residents, equivalent to 16 percent of the population. There are 34 of 118

regencies/municipalities in Java with percentage of internet users higher than 16 percent,

then categorized as a high level of internet usage. The high level of Internet usage is

mainly found in large cities as centers of education and entertainment services, such as

Jakarta, Yogyakarta, Bandung, and Surabaya, than followed by other urban areas and

surrounding districts. This spatial dependence phenomenon is interesting to be studied,

where the regencies/municipalities with high internet usage categories can be viewed as

censored data. Spatial Tobit regression model is used for modeling the data of internet

usage in Java.

Using seven predictor variables, the model was producing five statistically significant

variables. Backward elimination procedure was used for variables election, whereas

MCMC Gibbs sampler method with Bayesian inference approach was used for parameter

estimation. Human resources variables that influence internet usage are the percentage of

urban population, the percentage of population with high school and more educational

grade, and the mean years of schooling. While device and network variables that

influential are the percentage of households owning cell phone, and the percentage of

villages having cellular networks.

Keywords: censored data, spatial dependence, spatial Tobit, MCMC Gibbs sampler,

internet usage

Abstrak

Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook terbesar

kedua di dunia. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh penduduk

Indonesia, atau setara dengan 16 persen populasi. Sebanyak 34 dari 118 kabupaten/kota

di Pulau Jawa memiliki peersentase pengguna internet yang lebih tinggi daripada 16

persen, kemudian dikategorikan sebagai tingkat penggunaan internet yang tinggi.

Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota besar

sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta, Bandung,

dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah kabupaten di

sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana

kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data

tersensor. Model regresi Tobit spasial digunakan untuk pemodelan data penggunaan

internet di Pulau Jawa.

Menggunakan tujuh variabel prediktor, lima variabel diantaranya dinyatakan signifikan

secara statistik untuk dimasukkan ke dalam model. Pemilihan variabel dilakukan secara

backward elimination, sedangkan estimasi parameter dilakukan menggunakan metode

2

MCMC Gibbs sampler dengan pendekatan inferensia Bayesian. Variabel sumber daya

manusia yang mempengaruhi penggunaan internet adalah persentase penduduk

perkotaan, persentase penduduk dengan pendidikan SMA ke atas, dan rata-rata lama

sekolah. Sedangkan variabel perangkat dan jaringan yang berpengaruh adalah persentase

rumah tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang

mendapatkan jaringan telepon seluler.

Kata kunci: data tersensor, korelasi spasial, Tobit spasial, MCMC Gibbs sampler,

penggunaan internet

1. Pendahuluan

Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook

terbesar kedua di dunia [1]. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh

penduduk Indonesia, atau setara dengan 16 persen populasi [2]. Sebanyak 34 dari 118

kabupaten/kota di Pulau Jawa memiliki persentase pengguna internet yang lebih tinggi

daripada 16 persen [3], kemudian dikategorikan sebagai tingkat penggunaan internet yang

tinggi. Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota

besar sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta,

Bandung, dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah

kabupaten di sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana

kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data

tersensor.

Dibutuhkan metode khusus untuk melakukan analisis penggunaan internet,

dengan fakta bahwa data penggunaan internet merupakan data tersensor yang memiliki

korelasi spasial. Fischer dan Getis [4] mengatakan bahwa pemodelan data tersensor yang

melibatkan wilayah sebaiknya menggunakan analisis spasial, metode yang paling sesuai

adalah regresi Tobit spasial. Selain itu, Lee [5] juga menyatakan bahwa pendekatan Tobit

spasial lebih disarankan untuk analisis wilayah yang melibatkan data tersensor. Analisis

regresi Tobit spasial digunakan apabila variabel respon pada model spasial melibatkan

data yang diyakini memiliki nilai tersensor [6].

Penelitian yang menggunakan model regresi Tobit spasial diantaranya dilakukan

oleh Langyintuo dan Mekuria [7] yang menggunakan metode maksimum likelihood

untuk membentuk model Tobit SARMA pada data petani di Mozambique. Pada tahun

2002, Kaliba [8] mengembangkan model Tobit SARMA menggunakan modul aplikasi

Maximum Likelihood 4 dari paket program GAUSS (dikembangkan oleh Aptech

Systems, 1995) pada data pedesaan di Tanzania. Sementara LeSage dan Pace [6]

menggunakan data simulasi yang dibangkitkan oleh Koop untuk membentuk model Tobit

spasial menggunakan pendekatan Bayesian MCMC (Markov Chain Monte Carlo) dengan

algoritma Gibbs Sampling.

Penelitian ini bermaksud untuk membentuk model Tobit spasial dan mencari

metode estimasi parameter dari model regresi Tobit spasial. Data yang digunakan sebagai

variabel respon adalah persentase penduduk yang mengakses internet selama tiga bulan

terakhir di pulau Jawa pada tahun 2010. Sensor diberikan kepada wilayah kabupaten/kota

dengan persentase penduduk pengguna internet lebih besar dari 16 persen. Angka tersebut

setara dengan persentase penduduk Indonesia yang mengakses facebook pada tahun 2011,

atau dapat dianggap sebagai batas minimal persentase pengguna internet yang ingin

dicapai oleh suatu kabupaten/kota.

3

2. Tinjauan Pustaka

Model Regresi Tobit

Misalkan adalah suatu variabel respon dengan informasi yang lengkap dan

adalah data sampel dari , maka variabel respon yang tersensor dapat didefinisikan

sebagai berikut [9] [10] [5] [11] [12]:

* *

*

jika

jika

i i

i

i

y yy

y

(1)

dimana merupakan suatu konstanta batasan, dan adalah banyaknya

observasi.

Jika nilai tidak diketahui ketika

, maka mengandung suatu variabel

latent yang tidak dapat diamati pada seluruh range-nya. Panel A pada Gambar 2.1

memperlihatkan distribusi dari ( ), dengan nilai variabel latent digambarkan

sebagai wilayah gelap pada kurva. Jika nilai yang tidak diketahui tersebut dipotong, maka

sebagian informasi yang dapat menjelaskan populasi akan hilang dimana kurva distribusi

menjadi lebih runcing (panel B). Panel C menggambarkan data tersensor yang

mengelompok pada nilai sehingga tidak merubah informasi berkaitan distribusi

populasi.

Gambar 1. Ilustrasi Variabel Latent, Terpotong, dan Tersensor [11]

Long [11] menjelaskan bahwa jika menggunakan keseluruhan data untuk model

regresi linier pada data tersensor, akan menghasilkan nilai parameter yang overestimates

pada slope dan underestimates pada intercept. Sedangkan jika menghilangkan observasi

yang nilainya tidak diketahui, akan menghasilkan koefisien parameter yang

underestimates pada slope dan overestimates pada intercept. Data terpotong

menyebabkan terjadinya korelasi antara variabel prediktor dengan residual, sehingga

menghasilkan estimasi yang tidak konsisten.

Model Tobit dibentuk dengan terlebih dahulu mengasumsikan adanya hubungan

linier antara dengan variabel prediktor yang dinyatakan dengan:

* T

1, 2,...i i i

y i n x β (2)

dimana ( ),

[ ] adalah vektor variabel prediktor,

[ ] adalah vektor parameter, merupakan banyaknya variabel,

dengan mengandung variabel latent yang mewakili nilai tersensor [10] [11]. Nilai

tersensor tersebut bisa lebih kecil dari suatu batas bawah ( ̅ ), lebih besar dari

batas atas ( ̅ ), atau keduanya.

Ketika tersensor pada batas atas , maka model regresi Tobit dinyatakan

dengan persamaan sebagai berikut [11]:

4

* T *

*

jika

jika

i i i i

i

i

y yy

y

x β (3)

Model Regresi Spasial

Efek korelasi spasial dapat muncul pada pembentukan model regresi linier yang

menggunakan data kewilayahan (cross section data). Hal tersebut mengakibatkan tidak

terpenuhinya asumsi error yang independen dan identik berdistribusi normal, sehingga

menghasilkan estimasi parameter yang tidak valid dan mengaburkan interpretasi model

[13].

Pada tahun 1988, Anselin [14] mengembangkan bentuk umum dari model regresi

spasial (general spatial model) menggunakan data cross section sebagai berikut:

1 1 1

y I W Xβ I W I W ε (4)

dimana ( ), merupakan vektor variabel respon yang memiliki korelasi

spasial, adalah matriks variabel prediktor, dan adalah vektor parameter regresi.

Adapun adalah koefisien korelasi spasial lag dari variabel respon, merupakan

koefisien korelasi spasial error, dan merupakan matriks penimbang spasial dengan

elemen diagonalnya bernilai nol.

T

1 2 ny y yy ,

T

0 1 2 p β ,

T

1 2 n ε ,

11 12 1

21 22 2

1 2

1

1

1

p

p

n n np

x x x

x x x

x x x

X , dan

12 1

21 2

1 2

0

0

0

n

n

n n

w w

w w

w w

W

.

Persamaan (4) di atas menjadi bentuk model regresi spasial lag ketika ,

yang menjelaskan terjadinya efek korelasi spasial antar lag variabel respon. Ketika ,

persamaan (4) menjadi bentuk model regresi spasial error, yang menjelaskan terjadinya

efek korelasi spasial antar lag variabel respon dan antar lag variabel prediktor. Statistik

uji Lagrange digunakan untuk menentukan bentuk dari model regresi spasial [15].

Untuk melihat ada atau tidaknya efek korelasi spasial lag, digunakan hipotesis

lawan dengan statistik uji LM-lag Test sebagai berikut:

2

T 2

LAG

ˆLM

D

e Wy (5)

Untuk melihat adanya atau tidaknya efek spasial error, digunakan hipotesis

lawan dengan statistik uji LM-err Test sebagai berikut:

2

T 2

ERR

ˆLM

T

e We (6)

dimana ̂ ⁄ , ̂, *( ̂) ( ( )

) ( ̂)+ ⁄

, dan {( ) }. Statistik uji ini mengikuti distribusi asimtotik ( ),

sehingga ditolak apabila ( ) atau p-value lebih kecil dari nilai .

5

Uji Heteroskedastisitas

Untuk melihat adanya keragaman dalam varians error, dilakukan pengujian

heteroskedastisitas menggunakan statistik uji Breusch-Pagan [16] dengan hipotesis

sebagai berikut:

(homoskedastisitas)

minimal ada satu (heteroskedastisitas)

Nilai dari BP-Test adalah sebagai berikut:

1T T T

1

2BP

f fX X X X (7)

dengan elemen vektor adalah:

2

21

ˆ

i

i

ef

dimana adalah residual observasi ke- hasil regresi linier, , ̂ ⁄ ,

adalah matriks ( ) dari observasi dengan elemen kolom pertama merupakan

vektor satu, dan adalah jumlah variabel prediktor. ditolak apabila ( ).

Markov Chain Monte Carlo (MCMC)

MCMC merupakan suatu teknik metode simulasi yang membangkitkan sejumlah

sampel dari distribusi data yang telah diketahui [17]. Ide dasar dari teknik MCMC adalah

daripada menghitung suatu fungsi kepadatan peluang ( | ), lebih baik mengambil

sampel random dalam jumlah besar dari ( | ) untuk mengetahui bentuk probabilitas

tersebut secara tepat. Dengan ukuran sampel random yang cukup besar, nilai rata-rata dan

standar deviasinya dapat dihitung secara akurat [18]. LeSage [19] menjelaskan bahwa

algoritma MCMC Gibbs sampler akan memberi kemudahan estimasi parameter untuk

model regresi Tobit spasial daripada harus memecahkan sejumlah persamaan integral

pada metode maksimum likelihood.

Metode MCMC Gibbs sampler bertujuan untuk mencari nilai estimasi dari menggunakan suatu distribusi posterior bersyarat, dimana nilai lainnya diasumsikan

telah diketahui. Distribusi posterior dari parameter ditentukan melalui prinsip dari

teorema Bayes yang dinyatakan oleh

L pp

m

yy

y

L p y (8)

dimana ( | ) merupakan fungsi likelihood dari , ( ) merupakan distribusi marginal

dari yang tidak melibatkan parameter, dan ( ) merupakan distribusi prior dari yang

diperoleh dari penelitian sebelumnya maupun berdasarkan kajian teoritis atas masalah

yang sedang diteliti [20].

Secara umum, algoritma Gibbs sampler [18] dapat dinyatakan dengan:

i. Tentukan nilai inisiasi awal ( ) ( ( )

( ) ( ))

ii. Lakukan langkah di bawah sejumlah , dimana = jumlah iterasi.

Bangkitkan nilai ( ) ( |

( ) ( )

( ))

6


( ) ( )

( ))

…


( ) ( )

( ))

iii. Tentukan hasil estimasi ̂ dengan cara

1

ˆ 1 m t

tm

θ θ (9)

Hastings [21] mengembangkan metode Metropolis untuk mencari estimasi

parameter ( ) melalui suatu nilai inisiasi awal ( ), yang didasari oleh distribusi

kandidat ( ( )| ( )) dimana nilai ( ) diketahui. Nilai dari ( ) dibangkitkan dari

distribusi kandidat, kemudian jalankan algoritma Metropolis Hastings di bawah ini.

i. Hitung peluang penerimaan ( ) sebagai ( ).

* 1 *

* 1

1 * 1, min 1 ,

t

t

t t

p fp

p f

θ y θ θθ θ

θ y θ θ (10)

ii. Bangkitkan angka random ( ).

iii. Terima ( ) sebagai nilai baru dari ( ) apabila ( ( ) ( )) .

Jika tidak, nilai ( ) tidak berubah atau ( ) ( ).

Faktor-faktor yang Mempengaruhi Penggunaan Internet

Pembangunan teknologi informasi dan komunikasi (TIK) suatu negara memiliki

hubungan yang positif dengan pertumbuhan ekonomi. Artinya, pembangunan TIK akan

memberikan efek berantai kepada meningkatnya pertumbuhan ekonomi [22]. Rao dan

Pattnaik [23] menyatakan bahwa pertumbuhan TIK telah membuka kesempatan bagi

masyarakat untuk lebih memanfaatkan fasilitas pembangunan sosial ekonomi dan budaya

secara lebih modern. Pembangunan TIK memberikan pengaruh ekonomi yang luas, baik

secara langsung maupun tidak langsung, meningkatkan kesejahteraan dan pembangunan

fasilitas sosial ekonomi [24].

Menggunakan data dari 154 negara, Howard dan Mazaheri [25] menemukan

bahwa kesenjangan penggunaan TIK (telepon seluler, komputer, dan bandwidth internet)

dipengaruhi oleh; investasi asing, perdagangan, jumlah penduduk, populasi perkotaan,

literacy rate, konsumsi, telepon kabel, serta sembilan variabel lain yang menjelaskan

regulasi pemerintah. Andonova dan Serrano [26] menjelaskan bahwa perkembangan TIK

dan pertumbuhan pemanfaatan internet lebih banyak dipengaruhi oleh faktor perhatian

pemerintah dan regulasi yang berlaku di wilayah tersebut. Michailidis dkk. [27]

mengungkapkan bahwa pengguna internet di pedesaan Yunani dipengaruhi oleh tingkat

pendapatan, harga dari akses internet, kepemilikan PC, tempat tinggal, serta variabel

sosial demografi seperti; jenis kelamin, jumlah penduduk muda yang tinggal satu rumah,

umur, tingkat pendidikan, dan status pekerjaan.

3. Metodologi

Sumber Data dan Variabel Penelitian

Sumber data yang digunakan dalam penelitian ini adalah data olahan hasil

Susenas 2010, dan Podes 2008 yang dikumpulkan oleh Badan Pusat Statistik (BPS).

7

Adapun matriks penimbang spasial disusun berdasarkan metode queen contiguity,

menggunakan peta digital hasil kegiatan updating peta sensus penduduk 2010.

Objek penelitian yang akan dijadikan sebagai variabel respon adalah tingkat

penggunaan internet di 118 kabupaten/kota di Pulau Jawa, merupakan persentase dari

penduduk usia 5 tahun ke atas yang pernah menggunakan internet selama tiga bulan yang

lalu terhadap seluruh penduduk usia 5 tahun ke atas dalam suatu kabupaten/kota. Sensor

diberikan kepada wilayah kabupaten/kota dengan persentase penduduk pengguna internet

di atas 16 persen dengan menganggap nilai pada nilai . Adapun variabel

prediktor yang digunakan adalah sebagai berikut.

: Persentase penduduk yang tinggal di daerah perkotaan.

: Persentase penduduk usia muda.

: Persentase penduduk lulusan SMA ke atas.

: Rata-rata lama sekolah.

: Persentase rumah tangga yang memiliki komputer.

: Persentase rumah tangga dengan telepon genggam.

: Persentase desa/kelurahan yang mendapatkan sinyal telepon seluler.

Model Regresi Tobit Spasial

Model regresi Tobit spasial merupakan penerapan model regresi spasial pada data

yang tersensor. Sehingga dengan menggabungkan persamaan (4) ke dalam (1), akan

diperoleh suatu model umum regresi Tobit spasial sebagaimana berikut.

* * *

*

, , , , , jika

jika

i i i i i

i

i

y g y yy

y

x w β (11)

dimana merupakan suatu nilai konstanta batasan yang diberikan kepada jika

tersensor, . Persamaan ( | ) dapat dituliskan dalam bentuk

matriks ( ) ( ) ( ) , yang merupakan model

SARMA. Menjadi model spasial lag jika , dan menjadi model spasial error jika

, dimana ( ) dengan ( ) merupakan pengali yang menyatakan

heterogenitas dari varians error. Pada kondisi homoskedastisitas [28], matriks .

Apabila nilai dan , persamaan (11) menjadi model regresi Tobit

spasial lag sebagai berikut:

T T jika

jika

i i i i

i

i

yy

y

w y x β (12)

Apabila nilai dan , menjadi model regresi Tobit spasial error sesuai

persamaan berikut ini:

T T T jika

jika

i i i i i

i

i

yy

y

w y x β w X β (13)

Melengkapi Data Tersensor

Estimasi parameter model regresi Tobit spasial dilakukan dengan asumsi awal

bahwa variabel respon merupakan data dengan informasi yang lengkap, tidak tersensor,

dan memiliki korelasi spasial. Padahal sesuai persamaan (1), data yang memiliki

informasi lengkap adalah variabel respon yang mengikuti distribusi normal

( ). Nilai dari

ketika merupakan observasi yang tidak diketahui

8

atau dianggap sebagai variabel latent. Sehingga nilainya harus dilengkapi menggunakan

suatu nilai . Variabel respon yang lengkap kemudian didefinisikan sebagai

berikut:

* *

*

jika

jika

i i

i

i i

y yy

z y

(14)

Pemilihan observasi tersensor dari distribusi normal terpotong dilakukan dengan

cara membangkitkan variabel random yang berdistribusi ( ). Nilai merupakan elemen ke- dari vektor [ ] . Menurut LeSage [6] [19]

[28], nilai rata-rata dari adalah:

1

I W Xβμ (15)

Adapun nilai varians dari adalah

1T

1T

21 1

Σ V I W I WI W I W (16)

Estimasi Parameter

Sesuai dengan asumsi awal bahwa variabel respon merupakan data dengan

informasi yang lengkap, tidak tersensor, dan memiliki korelasi spasial, maka

hubungannya dengan variabel prediktor diwakili oleh model regresi spasial sesuai

dengan persamaan (4) di atas. Fungsi likelihood yang diperoleh adalah:

1/

/ 22 2 T 1

2

2

1

1, , , , 2 exp

2

n

i

i

n

ivL

V β y I W I W ε V ε (17)

dimana ε I W I W y Xβ.

LeSage [28] dan Lacombe [29] merumuskan diffuse (uninformative) prior dari

masing-masing parameter model regresi Spasial pada data tersensor sebagai berikut.

2

2

1p

12

2

11

exp2

1n nr

ii

ii ii

rp

v

V

konstantap β

konstantap p

Sehingga diperoleh distribusi posterior bersyarat dari masing-masing parameter adalah

sebagai berikut.

T 1 2

42

1 ~

n

ε V ε (18)

2

2

12 ~

1i

r

ii

r

(19)

T2 1

2

1 , , , exp

2p

β V B Ay Xβ V B Ay Xβ (20)

9

2 T 1

2

1, , , exp

2p

V β I W I W ε V ε (21)

dimana ( ), ( ), dan ( ).

Estimasi parameter metode MCMC Gibbs sampler dilakukan dengan cara

membangkitkan angka random yang mengikuti distribusi posterior bersyarat dari masing-

masing parameter, sebanyak jumlah iterasi yang diinginkan. Adapun algoritma

Metropolis within Gibbs digunakan pada bentuk distribusi posterior yang tidak standar,

seperti untuk parameter atau parameter [28]. Hasil uji Lagrange digunakan untuk

menentukan bentuk dari model spasial, apakah spasial lag ( ) atau spasial error

( ). Sementara hasil uji Breusch Pagan digunakan untuk menentukan nilai ,

menjadi ketika terjadi kondisi homoskedastisitas.

4. Hasil dan Pembahasan

Deskriptif Data Penggunaan Internet

Tingkat penggunaan internet dilihat dari nilai persentase pengguna internet dalam

suatu wilayah kabupaten/kota. Penggunaan internet terbesar di Indonesia dapat ditemukan

di kota pelajar Yogyakarta, yaitu sebanyak 36,20 persen. Disusul oleh Jakarta Selatan,

Kabupaten Sleman, dan kota industri Tangerang Selatan, masing-masing sebanyak 33,20

persen, 29,52 persen, dan 29,29 persen. Rata-rata penggunaan internet per kabupaten/kota

di Pulau Jawa sebesar 12,02 persen. Wilayah dengan nilai penggunaan internet di sekitar

rata-rata adalah Kabupaten Mojokerto, Bandung, Madiun, dan Kota Pasuruan. Sementara

wilayah dengan persentase pengguna internet terkecil ada di Kabupaten Sampang dan

Bangkalan, masing-masing sebesar 2,23 persen dan 2,54 persen.

Gambar 2. Peta Tematik Penggunaan Internet Menurut Kabupaten/Kota di Pulau Jawa Tahun

2010 (3)

Peta tematik penggunaan internet pada Gambar 2 memperlihatkan bahwa

penggunaan internet kategori tinggi banyak terdapat pada wilayah perkotaan seperti DKI

Jakarta dan sekitarnya, deretan Yogyakarta ke arah Surakarta, serta wilayah Bandung,

Surabaya dan sekitarnya. Tingginya penggunaan internet di kota-kota pusat pelajar,

industri, dan bisnis tersebut kemudian diikuti oleh wilayah lain di sekitarnya. Wilayah

yang bersinggungan langsung dengan kota-kota tersebut memiliki persentase pengguna

internet yang sedikit lebih rendah, sementara wilayah berikutnya yang bersinggungan

secara tidak langsung memiliki nilai yang lebih rendah lagi.

10

Tabel 1. Deskriptif Variabel Penelitian

Variabel Penelitan

Deskripsi Minimum Maksimum Rata-rata Standar Deviasi

(1) (2) (3) (4) (5) (6)

Persentase pengguna internet 2,23 16,00 9,968 4,626

Persentase penduduk perkotaan 9,27 100,00 57,991 30,837

Persentase penduduk usia muda 12,44 25,00 17,395 2,567

Persentase penduduk lulusan SMA ke atas 5,30 50,26 21,349 11,105

Rata-rata lama sekolah 4,21 11,55 8,052 1,518

Persentase rumah tangga dengan komputer 2,20 40,22 11,433 9,127

Persentase rumah tangga dengan telepon genggam 44,87 94,89 71,923 12,050

Persentase desa/kelurahan dengan sinyal telepon 50,00 100,00 88,892 10,026

Deskriptif data tingkat penggunaan internet sebagai variabel respon yang

tersensor dapat dilihat pada Tabel 1 di atas. Nilai maksimum dari persentase pengguna

internet per kabupaten/kota sama dengan 16 persen, dengan rata-rata dan standar deviasi

masing-masing sebesar 9,97 persen dan 4,63. Variabel yang memiliki variasi nilai

terbesar adalah persentase penduduk perkotaan dengan standar deviasi sebesar 30,84 dan

panjang range data dari 9,27 persen hingga 100 persen. Variabel rata-rata lama sekolah

memiliki variasi terkecil dengan standar deviasi sebesar 1,52. Hal itu karena satuan dari

variabel tersebut dalam ukuran tahun, sementara variabel lainnya dalam satuan

persentase.

Pemodelan Data Penggunaan Internet Menggunakan Regresi Tobit Spasial

Menggunakan keseluruhan tujuh variabel prediktor, hasil uji efek korelasi spasial

dan heteroskedastisitas memperlihatkan bahwa bentuk model yang akan dibentuk adalah

regresi Tobit spasial lag dalam kondisi homoskedastisitas (Tabel 2). Menggunakan

hipotesis lawan , nilai statistik uji LM-lag memperlihatkan

kesimpulan untuk menolak pada derajat kepercayaan 95 persen. Sementara nilai

statistik uji LM-err memperlihatkan bahwa gagal ditolak pada nilai .

Dengan menggunakan hipotesis : homoskedastisitas lawan : heteroskedastisitas,

Statistik uji Breusch Pagan memperlihatkan kesimpulan untuk tidak menolak pada

derajat kepercayaan 95 persen.

Tabel 2. Hasil Uji Efek Korelasi Spasial dan Heteroskedastisitas dari Pemodelan Tahap Pertama

hingga Tahap Ketiga

Statistik Uji Tahap I (7 Variabel) Tahap II (6 Variabel) Tahap III (5 Variabel)

Nilai p-Value Nilai p-Value Nilai p-Value

(1) (2) (3) (4) (5) (6) (7)

.

LM-lag 12,1942 0,0000 12,2410 0,0000 11,8122 0,0000

LM-err 1,5595 0,2117 1,5765 0,2093 1,4396 0,2302

Breusch Pagan 9,7859 0,2010 9,4602 0,1493 7,9076 0,1614

.

Metode backward elimination [30] digunakan dengan cara menggugurkan satu

persatu variabel yang tidak signifikan, dimulai dari variabel dengan nilai p-value yang

paling besar. Pada tahap-tahap berikutnya, hasil uji efek korelasi spasial dan

heteroskedastisitas juga mengindikasikan bentuk model regresi Tobit spasial lag dengan

11

kondisi homoskedastisitas. Menggunakan backward elimination, variabel-variabel yang

tersisihkan satu persatu dari model secara berturut-turut adalah , kemudian . Pada

tahap akhir, digunakan lima variabel prediktor yang signifikan pada tahap sebelumnya

untuk pemodelan data penggunaan internet menggunakan regresi Tobit spasial.

Simulasi Gibbs sampler dilakukan sebanyak 500 iterasi, 1000 iterasi dan 5000

iterasi. Perbedaan jumlah iterasi tersebut bertujuan untuk membandingkan konsistensi

hasil simulasi sebagai akibat dari perbedaan banyaknya iterasi. Selain itu, banyaknya

jumlah iterasi akan menentukan tingkat konvergensi dari parameter yang dibangkitkan.

Dibutuhkan waktu kurang dari empat menit untuk melakukan 5000 iterasi, sedangkan 500

iterasi membutuhkan waktu tidak lebih dari empat detik saja. Simulasi Gibbs sampler

dilakukan pada perangkat komputer notebook MSI dengan prosesor Intel® Core2™ Duo

CPU T6600 @2,20GHz dan memori sebesar RAM 2,00GB.

Tabel 3 Hasil Estimasi MCMC Parameter Model Regresi Tobit Spasial Lag

Parameter

Jumlah Iterasi = 500 Jumlah Iterasi = 1000 Jumlah Iterasi = 5000

Waktu Iterasi = 3,6910 Waktu Iterasi = 8,2010 Waktu Iterasi = 203,9420

Koefisien Statistik Uji Wald

p-Value Koefisien Statistik Uji Wald

p-Value Koefisien Statistik Uji Wald

p-Value

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

.

-0.1707 -5.4208 0,0000 -0.1690 -3.7961 0,0000 -0.1700 -3.1408 0,0000

-13,9591 -19,6343 0,0000 -13,8956 -17,5323 0,0000 -13,7268 -14,7152 0,0000

0,0113 7,6119 0,0000 0,0115 6,4355 0,0000 0,0117 6,1385 0,0000

0,1422 11,5386 0,0000 0,1430 11,6398 0,0000 0,1435 11,1433 0,0000

0,7642 13,7179 0,0000 0,7614 13,4552 0,0000 0,7548 12,3613 0,0000

0,0959 12,7110 0,0000 0,0951 10,6940 0,0000 0,0931 9,0076 0,0000

0,0830 33,5310 0,0000 0,0829 36,2902 0,0000 0,0827 32,8898 0,0000

1.9644 – – 1.9612 – – 1.9580 – –

0.8397 – – 0.8400 – – 0.8394 – –

.

Setelah dilakukan proses Gibbs sampler sebanyak tiga kali dengan jumlah iterasi

yang berbeda, nilai koefisien determinasi berada pada kisaran 84 persen. Koefisien

determinasi menjelaskan besarnya variasi dari variabel renspon yang dapat dijelaskan

oleh variabel prediktor. Menggunakan hasil iterasi MCMC terbanyak, dapat disimpulkan

bahwa sebesar 83,94 persen variasi penggunaan internet di Pulau Jawa dijelaskan oleh

sebelas variabel prediktor dan sisanya oleh variabel lain.

Analisis Penggunaan Internet di Pulau Jawa

Berdasarkan hasil estimasi parameter pada Tabel 3 di atas, maka model regresi

Tobit spasial lag untuk data penggunaan internet di Pulau Jawa adalah sebagai berikut:

Untuk kabupaten/kota dengan kategori penggunaan internet yang rendah:

1 3 4 6 71,ˆ 13, 727 0,17 0, 012 0,144 0, 755 0, 093 0, 083

n

i ij j i i i i ij j iy w y x x x x x

(22)

Untuk kabupaten/kota dengan kategori penggunaan internet yang tinggi:

ˆ 16i

y

12

Variabel persentase penduduk yang tinggal di perkotaan mengindikasikan tingkat

kemajuan dan kelengkapan fasilitas umum di daerah tersebut. Sementara variabel

presentase penduduk lulusan SMA ke atas dan rata-rata lama sekolah mencerminkan

kualitas sumber daya manusia di daerah tersebut. Dengan demikian untuk meningkatkan

persentase pengguna internet di daerah kabupaten/kota berkategori penggunaan internet

yang rendah, perlu dilakukan upaya peningkatan kualitas sumber daya manusia dari aspek

pendidikan. Selain itu, upaya pembangunan daerah pedesaan dengan cara melengkapi

fasilitas umum yang tersedia juga perlu dilakukan.

Variabel-variabel yang mencerminkan karakteristik perangkat dan jaringan di

daerah, mengindikasikan pentingnya perkembangan teknologi telepon seluler bagi

pertumbuhan internet. Berbagai kemudahan akses internet yang disediakan melalui

perangkat telepon genggam dan keluasan jaringan telepon seluler, telah secara signifikan

mendorong tingkat penggunaan internet menjadi lebih tinggi. Sementara variabel-variabel

yang dikeluarkan dari model mengindikasikan bahwa penggunaan internet tidak secara

signifikan didominasi oleh penduduk usia muda, tidak pula diakses melalui komputer.

5. Kesimpulan

Model regresi Tobit spasial merupakan suatu model regresi spasial yang

diterapkan pada data tersensor, dengan bentuk model umum dari regresi Tobit spasial

adalah:

T

T T T T T jika

jika

i i i i i ii

i

i

yy

y

w y w y W W y x β w X β (23)

Metode estimasi parameter yang digunakan adalah teknik Markov Chain Monte Carlo

(MCMC) dengan algoritma Gibbs Sampler pendekatan inferensia Bayesian, atau

disingkat MCMC Gibbs sampler. Variabel-variabel yang mempengaruhi penggunaan

internet di Pulau jawa adalah persentase penduduk yang tinggal di daerah perkotaan,

persentase penduduk lulusan SMA ke atas, rata-rata lama sekolah, persentase rumah

tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang

mendapatkan sinyal telepon seluler.

Berdasarkan hasil penelitian yang telah diperoleh, pengembangan lebih lanjut

dapat dilakukan dengan menggunakan highest posterior density (HPD) dan Bayes Faktor

sebagai metode pengujian parameter dan model. Penelitian ini masih menggunakan

matriks penimbang queen contiguity, sehingga pada penelitian selanjutnya dapat

dikembangkan menggunakan matriks penimbang lain, misalnya penimbang jarak. Lebih

lanjut, metode MCMC Gibbs sampler untuk pemodelan regresi Tobit spasial ini dapat

digunakan untuk data dan kasus lain yang lebih aplikatif.

Daftar Pustaka

[1] Socialbaker. Facebook Statistics by Country. www.socialbaker.com. [Online] Agustus 17,

2011. [Cited: Agustus 17, 2011.] http://www.socialbakers.com/facebook-

statistics/?interval=last-3-months#chart-intervals.

[2] BPS. Sensus Penduduk 2010. Sensus Penduduk 2010. [Online] 2011. [Cited: November 4,

2011.] http://sp2010.bps.go.id/index.php/site/index.

[3] —. Statistik Komunikasi dan Teknologi Informasi Tahun 2010. Jakarta : Badan Pusat

Statistik, 2011.

13

[4] Fischer, Manfred M. and Getis, Arthur. Handbook of Applied Spatial Analysis: Software

Tools, Methods, and Application. New York : Springer, 2010.

[5] Lee, Myoung Jae. Micro-Econometrics: Methods of Moments and Limited Dependent

Variables, Second Edition. New York : Springer, 2010.

[6] LeSage, James and Pace, R. Kelley. Introduction to Spatial Econometrics. New York :

CRC Press, 2009.

[7] Assessing the Influence of Neighborhood Effects on the Adoption of Improved Agricultural

Technologies in Developing Agriculture. Langyintuo, Augustine S. and Mekuria,

Mulugetta. 2008, AfJARE, Vol. 2, No. 2, pp. 151-169.

[8] Kaliba, Aloyce R. M. Dissertation: Participatory Evaluation of Community Based Water

and Sanitation Programes: The Case of Central Tanzania. Mahattan : Kansas State

University, 2002.

[9] DeMaris, Alfred. Regression with Social Data: Modelling Continuous and Limited Response

Variable. New Jersey : John Wiley and Sons, Inc., 2004.

[10] Greene, William H. Econometric Analysis, Sixth Edition. New York : Pearson - Prentice

Hall, 2008.

[11] Long, J. Scott. Regression Models for Categorical and Limited Dependent Variables.

California : Sage Publications, Inc., 1997.

[12] Estimation of Relationships for Limited Dependent Variables. Tobin, James. 1958,

Econometrica, Vol. 26, No. 1, pp. 24-36.

[13] Probit with Spatial Correlation by Field Plot: Potato Leafroll Virus Net Necrosis in

Potatoes. Marsh, Thomas L., Mittelhammer, Ron C. and Huffaker, Ray G. 2000, Journal

of Agricultural, Biological, and Environmental Statistics, pp. Volume 5, Number 1, Pages 22-

36.

[14] Anselin, Luc. Spatial Econometrics: Methods and Models. Dordrecht : Kluwer Academic

Publishers, 1988.

[15] —. Spatial Econometrics. Dallas : University of Texas, 1999.

[16] A Simple Test for Heteroscedasticity and Random Coefficient Variation. Breusch, T. S. and

Pagan, A. R. 1979, Econometrica, Vol. 47, No. 5, pp. 1287-1294.

[17] Markov Chain Monte Carlo Simulation Methods in Econometrics. Chib, Siddhartha and

Greenberg, Edward. 1996, Econometrics Theory, Vol. 12, pp. 409-431.

[18] Explaining the Gibbs Sampler. Casella, George and George, Edward I. 1992, The

American Statistician, Vol. 46, No. 3, pp. 167-335.

[19] LeSage, James P. The Theory and Practice of Spatial Econometrics. Ohio : University of

Toledo, 1999.

[20] Casella, George and Berger, Roger L. Statistical Inference. s.l. : Duxbury, Thomson

Learning, 2002.

[21] Monte Carlo Sampling Methods using Markov Chains and Their Applications. Hastings, W.

K. 1970, Biometrika, Vol. 57, No. 1, pp. 97-109.

[22] Kominfo. Buku Putih Komunikasi dan Informatika Indonesia. Jakarta : Pusat Data

Kementerian Komunikasi dan Informatika, 2010.

[23] Technology for Rural Development Role of Telecommunication Media in India. Rao, J.S.

Giri and Pattnaik, S.N. 2006, Indian Media Studies Journal, Vol. 1, No. 1, pp. 85-92.

[24] ITU. Measuring the Information Society. Geneva : International Telecommunications Union,

2010.

[25] Telecommunications Reform, Internet Use, and Mobile Phone Adoption in Developing

World. Howard, Philip N. and Mazaheri, Nimah. 2009, World Development, Vol. 37, No.

7, pp. 1159-1169.

14

[26] Andonova, Veneta and Serrano, Luis Diaz. Political Institutions and the Development of

Telecommunications. Bonn : IZA Discussion Paper, 2007.

[27] Who Goes Online? Evidence of Internet Use Patterns from Rural Greece. Michailidis,

Anastasios, et al., et al. 2011, Telecommunications Policy, Vol. 35, pp. 333-343.

[28] Bayesian Estimation of Limited Dependent Variable Spatial Autoregressive Models. LeSage,

James P. 2000, Geographical Analysis, Vol. 32, No. 1, pp. 19-35.

[29] Lacombe, Donald J. An Introduction to Bayesian Inference in Spatial Econometrics.

http://ssrn.com/abstract=1244261. [Online] July 24, 2008. [Cited: November 13, 2011.]

[30] Draper, Norman R. and Smith, Harry. Applied Regression Analysis. New York : John

Willey and Sons, Inc, 1998.

ANALISIS REGRESI TOBIT SPASIAL: Studi Kasus Penggunaan ... · spasial lebih disarankan untuk analisis wilayah yang melibatkan data tersensor. ... Kaliba [8] mengembangkan model Tobit

Documents