Ekonometrika Dasar - IBEC FEB UI · 2020. 10. 26. · 1. Time Series Econometrics 2. Cross Section Econometrics 3. Panel Data Econometrics 4. Limited variable and Qualitative Variable

Ekonometrika Dasar

Ekonometrika

● Ekonometrika berusaha menerjemahkan suatu masalah dari aspek ekonomi,

matematika ekonomi dan statistika ekonomi secara komprehensif. Ketiga bidang ilmu

itu merupakan pondasi dalam penerapan ekonometrika.

● Dalam ekonometrika, permasalahan dipetakan berdasarkan teori (ekonomi) yang ada,

dinyatakan dengan persamaan matematika dan digunakan kriteria statistika untuk

menganalisis permasalahan yang ada.

● Peran matematika ekonomi adalah menyatakan teori ekonomi dalam bentuk

matematika atau persamaan matematika. Tujuannya adalah untuk penyederhanaan

masalah.

● Ekonometrika berusaha melakukan verifikasi empiris atas teori ekonomi yang berlaku.

Dan hal ini akan lebih mudah apabila permasalahan ekonomi dinyatakan dalam bentuk

matematika.

● Fokus dari statistika ekonomi berkaitan dengan pengumpulan data, pengolahan data,

dan analisis data. Dari aspek statistik, data merupakan “bahan mentah” yang harus

diolah lebih lanjut dalam ekonometrika.

● Data yang berasal dari berbagai publikasi baik swasta atau pemerintah bersifat given.

Artinya, data mentah itu diluar kontrol econometrician apabila data mengandung

kesalahan pengukuran, dan berbagai kesalahan lainnya. Oleh karena itu,

econometrician mengembangkan metode untuk mengatasi berbagai masalah berkaitan

dengan kesalahan pengukuran.

Jenis-jenis Ekonometrika

Berdasarkan Bentuk Data:

1. Time Series Econometrics 2. Cross Section Econometrics 3. Panel Data Econometrics 4. Limited variable and Qualitative Variable

Berdasarkan Pemodelan:

1. Single Equation Methods 2. Simultaneous Equation

Berdasarkan Pendekatan:

1. Classic Approach 2. Bayesian Approach

Regresi dengan OLS

Asumsi-asumsi Metode OLS

1) Model regresi linear dalam parameternya

2) Rata-rata kesalahan sama dengan nol

Secara implisit asumsi ini mengharapkan model yang terbentuk dapat secara tepat menggambarkan rata-rata variabel terikat dalam setiap observasi.

3) Homoskedastis atau varians error pada setiap observasi sama/konstan

Varians yang seragam akan menghasilkan nilai koefisien yang seragam. Karenanya setiap observasi akan mempunyai reliabilitas yang sama.

4) No-otokorelasi antara error satu observasi dengan error observasi lainnya

5) Error terdistribusi normal

ui~N(0,s2)

6) Nilai variabel bebas untuk masing-masing observasi berbeda.

Jika semua nilai X sama , maka Xi = sehingga tidak memungkinkan mengestimasi slope persamaan regresi.

7) Tidak terdapat korelasi antara error dengan variabel bebas; atau kovarians antara error dan X sama dengan nol.

cov(ui, Xi) = 0.

Jika Xi dan ui berkorelasi, maka jika nilai Xi berubah maka nilai ui ikut berubah. Hal ini menyebabkan kita akan sulit melihat pengaruh masing-masing Xi atau ui terhadap Y, karena keduanya berkorelasi.

8) Setiap variabel bebas bersifat independen/ tidak ada hubungan linear antara satu dengan lainnya(no perfect multicollinearity).

9) Model terspesifikasi secara tepat (à persamaannya tepat)

10) Jumlah observasi harus lebih besar dibanding jumlah parameter yang akan diestimasi à masalah degree of freedom

Gauss-Markov Theorem

BLUE (Best Linear Unbiased Estimator) menurut teori Gauss Markov adalah dengan given, asumsi regresi linear klasik yang telah dipenuhi, maka estimator least square yang memiliki varians minimum dikatakan estimator yang tidak bias.

Sebuah estimator (misalkan), dikategorikan BLUE (best linear unbiased estimator), jika dapat memenuhi beberapa asumsi berikut.

1) Berbentuk linier

Bentuk persamaan regresi yang dibentuk adalah linier.

2) Tidak bias. Jika rata-rata nilai ekspektasi, , sama dengan nilai sebenarnya

(aktualnya), .

Jika persamaan atas tidak dipenuhi, maka estimator dikatakan bias,

3) Varians error minimum

Merupakan parameter dari sebuah persamaan regresi yang memiliki nilai varians residual terkecil. Parameter seperti ini dikenal sebagai parameter yang efisien.

Derivasi Estimator OLS untuk Dua Peubah

Misalkan terdapat persamaan regresi sampel:

Residual adalah selisih antara nilai Y aktual (populasi sebenarnya) dengan nilai estimasi Y (sampel).

Metode OLS adalah sebuah metode yang meminimumkan jumlah nilai kuadrat residual, maka:

Dengan melakukan diferensiasi, maka didapatkan:

Numerical Properties

1) Estimator OLS diekspresikan seluruhnya dalam nilai yang dapat diobservasi ( misal : X dan Y) dan dapat dihitung.

2) Terdapat point estimator , dimana setiap estimator hanya menyediakan satu nilai untuk parameter populasi yang relevan.

3) Estimasi OLS dari data sampel dapat dihasilkan garis regresi sampel yang mempunyai properties:

● Melalui rata-rata sampel Y dan X

● Nilai rata-rata estimasi sama dengan nilai rata-rata Y aktual

● Nilai rata-rata residual adalah nol.

● Residual tidak berkorelasi dengan

● Residual tidak berkorelasi dengan Xi ,

Mengukur Standar Error

Dimana var = varian; Se = standar error dan adalah varian ui yang konstan

(homoskedastis). diperoleh melalui estimasi dengan rumus:

dapat dihitung dengan

Dari dapat dihasilkan standar error of estimate yang mengukur “goodness of fit”/kebaikan dari estimasi garis regresi.

adalah

Regresi Sederhana

Dengan data xi dan yi yang kita miliki, maka tentukan persamaan regresinya.

Regresi Berganda

Bentuk persamaan regresinya adalah:

Maka persamaan regresinya adalah:

Pelanggaran Asumsi OLS dan Penyelesaiannya

Multikolinearitas

Multikolinearitas menunjukan situasi dimana terdapat hubungan yang linear sempurna atau hampir sempurna diantara beberapa atau semua variabel bebas dalam model.

Multikolinearitas terjadi hanya pada hubungan linear diantara variabel X dan tidak berlaku pada hubungan non linear.

Asumsikan terdapat k variabel independen, X1, X2, X3,…, Xk 1. Hubungan linear sempurna antara variabel independen dikatakan jika kondisi di bawah

ini terpenuhi dimana adalah konstanta yang tidak semuanya sama dengan nol.

Persamaan tersebut dapat diubah menjadi

Di mana X2 tepat secara linear berhubungan dengan variabel lain atau koefisien korelasi antara X2 dengan variabel lain merupakan suatu satuan.

2. Hubungan linear hampir/ kurang sempurna antara variabel independen jika kondisi di

bawah ini terpenuhi

Di mana vi adalah stokastik error

Kemudian persamaan kedua ini. Dapat diubah ke bentuk:

Di mana X2 tidak secara tepat linear berhubungan dengan variabel lain karena juga ditentukan oleh error yang stokastik .

Multikolinearitas dapat disebabkan karena:

● Metode pengumpulan data yang dilakukan ● Memasukan variabel yang dihitung berdasarkan variabel lain dalam persamaan.

(contoh: income keluarga = income suami+ income istri dan dalam regresi memasukan ke 3 jenis income tersebut)

● Memasukan variabel yang sama atau hampir sama dalam regresi. (contoh ketinggian dalam satuan kaki atau meter secara konsep adalah identik)

● Jika jumlah variabel penjelas lebih banyak dibanding jumlah observasi (overdetermined model).

Dalam estimasi OLS yang memiliki multikolinearitas sempurna, maka koefisien regresi akan tidak dapat ditentukan dan standar error akan tidak terbatas.

Misal;

Misalkan X3 berkorelasi linear sempurna dengan X2 dengan hubungan X3i = X2i dimana

adalah konstanta yang tidak nol.

Konsekuensi Multikolinearitas

1. Meskipun BLUE, estimator OLS akan memiliki varians dan kovarians yang tinggi, sehingga untuk melakukan estimasi secara tepat cenderung sulit.

r23 adalah koefisien korelasi antara X2 dan X3. Jika r23 cenderung mendekati 1, maka varian dan kovarian dari kedua estimator menjadi meningkat dan pada nilai 1 nilai varians dan kovarian menjadi tak terbatas, begitupun dengan kovarians.

2. Standar error semakin membesar

3. Interval keyakinan akan cenderung menjadi besar dengan meningkatnya multikolinearitas.

4. Nilai t statistik akan cenderung tidak signifikan dan mendorong penolokan signifikansi koefisien variabel. Jika se meningkat, maka t ratio akan kecil , sehingga akan mendorong penolakan hipotesa Ho

5. Meskipun satu atau lebih nilai t statistik tidk signifikan, R2 dapat memiliki nilai yang tinggi.

6. Estimator OLS dan standar errornya akan menjadi sensitif terhadap perubahan data walaupun kecil.

Treatment Multikolinearitas

1. Mengeluarkan variabel yang berkorelasi.

Namun dengan mengeluarkan variabel yang berkorelasi biasanya akan menimbulkan

masalah bias dalam spesifikasi karena spesifikasi yang tidak tepat dalam model.

2. Mentransformasikan variabel.

3. Menambah jumlah data /observasi.

Karena multikolinearitas terjadi pada data sampel, maka jumlah observasi sampel dapat

ditambahkan, atau dengan menambah beberapa variabel baru. Dapat juga dilakukan

kombinasi data cross-section dan time series (pooled data).

4. Melakukan teknik factor analysis dan principal components seperti dalam statistika

multivariate.

Heteroskedastisitas

Salah satu asumsi dalam model regresi linear klasik adalah varians gangguan, i, konstan untuk setiap observasi atau homoskedastisitas. Secara simbol

dimana i= 1, 2,3,…,n.

Jika varian gangguan tidak konstan untuk setiap observasi maka dikatakan heteroskedastisitas.

Dalam heteroskedastisitas, varian gangguan dapat mempunyai nilai yang berbeda untuk tiap observasi.

Penyebab munculnya heteroskedastisitas

1. Berkurangnya gangguan dengan bertambahnya waktu.

Contoh, kesalahan seseorang dalam latihan mengetik akan semakin berkurang dengan makin bertambahnya waktu latihan mengetik.

2. Gangguan dapat bertambah jika nilai variabel independen meningkat.

Contoh konsumsi adalah variabel terikat dan income adalah variabel bebas. Jika suatu kelompok income rendah, maka konsumsi akan rendah dan variasi pengeluaran diantara anggota kelompok akan rendah pula. Sedangkan jika ditambah adanya kelompok income tinggi, maka akan terjadi perbedaan income yang mungkin tinggi. Rata–rata pengeluaran akan meningkat dan variabilitas perbedaan pengeluaran antara anggota kelompok akan meningkat pula.

3. Dengan membaiknya metode pengumpulan data, maka gangguan dan varian gangguan akan semakin kecil.

4. Munculnya outlier.

Outlier adalah suatu data yang nilainya sangat berbeda dengan sejumlah besar data lain dalam suatu sampel.

5. Misspesifikasi model.

Contoh dalam suatu model kita menggunakan Y, padahal mungkin yang lebih baik adalah log Y, Y2 atau lainnya.

Konsekuensi adanya Heteroskedastisitas

1. Heteroskedastisitas menghasilkan estimasi parameter yang tidak bias namun tidak lagi BLUE.

jika tidak heteroskedastis, maka

2. Varian estimasi

,

Akan menjadi bias terhadap varian sebenarnya;

Treatment Heteroskedastisitas

1. Saat diketahui Menggunakan Weighted least squares (WLS) atau generalized least squares untuk mengoreksi heteroskedastisitas.

2. Saat tidak diketahui Transformasikan data dengan menggunakan informasi dari plot grafis tentang pola heteroskedastisitas di model kita.

Autokorelasi

● Didefinisikan sebagai adanya korelasi gangguan suatu observasi dengan gangguan observasi lainnya.

● Secara simbol: E(ui,uj) dimana ● Biasanya autokorelasi muncul pada data time series, karena pada tipe data ini data

diurutkan berdasarkan waktu dan biasanya terjadi spillover effects/inertia dari satu periode ke periode lainnya

● Beberapa penyebab munculnya autokorelasi: 1) Inertia, yaitu variabel pada periode t biasanya dipengaruhi oleh variable pada

saat t-1. 2) Bias Spesifikasi: Tidak memasukan suatu variabel yang seharusnya muncul

dalam persamaan regresi. 3) Lag

Dalam model autoregressive terdapat variable bebas yang nilainya merupakan lag dari variabel terikat.

4) Manipulasi data.Misalkan seseorang dapat memperoleh data kuartalan dari data bulanan dengan merata-ratakan data secara 3 bulanan. Sedang data untuk kuartal kedua diperoleh dengan merata-ratakan data secara 3 bulanan selanjutnya. Jika kita melakukan ini, maka kita akan mendapatkan smoothness /kehalusan dalam data yang tidak ada sebelumnya. Selanjutnya ini akan mempengaruhi error term.

5) Fenomena CobWeb

Jika pada akhir t , harga pertanian saat t lebih kecil dibanding t-1, maka supply pertanian saat t+1 lebih kecil dibanding saat t. Sehingga , error pada saat t (ut) , tidak akan random, karena jika petani memproduksi hasil pertanian berlebih (overproduce) pada saat t, maka mereka akan mengurangi produksi saat t+1, sehingga membentuk pola Cobweb.

Konsekuensi adanya Autokorelasi

1. Estimasi OLS tetap linear dan tidak bias namun tidak lagi efisien/ BLUE( variannya tidak minimum).

2. Interval keyakinan akan semakin lebar, menyebabkan kita menerima hipotesa H0 (koefisien tidak signifikan).

3. R2 juga akan over estimate. 4. t-stat dan F-ratio akan tidak valid; yang jika digunakan akan menyebabkan kesimpulan

yang salah. Treatment Autokorelasi

Kasus A: Saat Struktur Autokorelasi Diketahui

Misalkan kita ketahui hubungan antara gangguan memiliki pola first-order autoregressive:

dan kita mengetahui nilai .

Misalkan kita memiliki model pada saat t:

dan model juga dianggap berlaku hingga periode t-1. (inertia effect)

Dengan mengalikan model dengan , maka model untuk periode t-1 adalah:

Dengan melakukan first differences:

Persamaan diatas dapat ditulis ulang menjadi

di mana dan

Ketika kita telah mentransformasikan model seperti diatas, maka kita dapat melakukan regresi OLS dan estimator yang kita dapatkan akan BLUE.

Kasus B: tidak diketahui

1. Gunakan perhitungan DW stat untuk mengestimasi

Ingat bahwa

Dengan mengubah menjadi:

maka dapat diestimasi.

Sehingga model ideal dapat diubah;

● Langkah 1: Lakukan regresi OLS dan dapatkan perhitungan DW stat.

● Langkah 2: Gunakan perhitungan DW stat untuk menghitung ● Langkah 3: Gunakan untuk mentransformasikan model ideal kita:

2. Gunakan Cochrane Orcutt iterative (2 step) procedure untuk mengestimasi

Misalkan kita memiliki model berikut beserta Struktur AR(1) :

dimana

Langkah 1: Regresikan model dengan OLS. Dapatkan nilai residual

Langkah 2: Gunakan residual yang kita peroleh untuk membuat lag residual,

Lalu estimasikan

Regresi dengan Variabel Dummy

Variabel Dummy

● Dalam analisis regresi seringkali terjadi bahwa variabel terikat tidak hanya dipengaruhi oleh variabel kuantitatif tetapi juga oleh variabel kualitatif (jenis kelamin, ras, warna kulit, agama, kebangsaan, dsb).

● Misalnya dengan semua faktor lain dianggap kosntan ternyata dosen wanita pada perguruan tinggi ternyata menerima penghasilan lebih rendah dari dosen pria. Ini mugkin diakibatkan oleh diskriminasi jenis kelamin atau yang lainnya.

● Karena variabel yang menjelaskan seperti itu biasanya menunjukkan ada atau tidaknya “kualitas” atau ciri-ciri seperti laki-laki atau perempuan, lulus perguruan tinggi atau tidak, putra daerah atau tidak dan lain-lain.

● Karena variabel yang menjelaskan seperti itu biasanya menunjukkan ada atau tidaknya “kualitas” atau ciri-ciri seperti laki-laki atau perempuan, lulus perguruan tinggi atau tidak, putra daerah atau tidak dan lain-lain.

● Suatu metode untuk membuatnya “kuantitatif” dari atribut seperti itu ialah dengan membentuk variabel buatan yang bernilai 1 dan 0.

● ─0 untuk menunjukkan ketidakhadiran ciri tadi; dan ● ─1 menunjukkan adanya ciri-ciri tersebut.

Model Anova

Regresi dengan variabel bebasnya hanya variabel dummy atau yang sifatnya kualitatif disebut model Analysis of Variance (ANOVA).

Contohnya adalah sebagai berikut :

Y = α + β D + u

dengan

Y = gaji tahunan pengajar perguruan tinggi

D = 1 jika pengajar laki-laki

D = 0 jika pengajar perempuan

Model memungkinkan kita mengetahui apakah jenis kelamin menyebabkan perbedaan dalam gaji pengajar di perguruan tinggi; dengan mengasumsikan bahwa variabel-variabel yang lain seperti umur, gelar yang diperoleh dan tahun pengalaman dijaga konstan.

Dengan mengasumsikan bahwa unsur gangguan memenuhi asumsi yang biasa dari model regresi linier klasik diperoleh :

Rata-rata gaji pengajar perguruan tinggi wanita E(Yi | Di = 0) = α

Rata-rata gaji pengajar perguruan tinggi priaE(Yi | Di = 1) = α + β

Dari persamaan diatas dapat diketahui jika β ≠ 0;

maka diketahui bahwa ada perbedaan gaji rata-rata antara pengajar pria dan wanita di perguruan tinggi.

Anlysis of Covariance

Model regresi yang berisi campuran antara varaibel kuantitaif dan kualitatif disebut model Analysis of Covariance (ANCOVA).

Contoh dari model ANCOVA

Y = α0 + α1 D + β X + u

dengan

Y = gaji tahunan pengajar perguruan tinggi

X = tahun pengalaman mengajar

D = 1 laki-laki

D = 0 untuk lainnya

Model diatas berisi satu variabel kuantitatif (tahun pengalaman mengajar) dan satu variabel kualitatif (jenis kelamin) yang mempunyai dua kategori yaitu laki-laki dan wanita.

Dengan mengasumsikan seperti biasa E(u) = 0 maka :

Rata-rata gaji pengajar perguruan tinggi wanita

E(Yi | Xi, Di = 0) = α0 + β X

Rata-rata gaji pengajar perguruan tinggi pria

E(Yi | Xi, Di = 1) = (α0 + α1) + βX

Model diatas menggambarkan bahwa fungsi gaji pengajar perguruan tinggi pria dan wanita dalam hubungannya dengan tahun pengalaman mengajar mempunyai kemiringan yang sama (β) tetapi mempunyai intersep yang berbeda.

Diasumsikan bahwa tingkat rata-rata gaji pengajar laki-laki berbeda dari gaji pengajar wanita (dengan α1) tetapi tingkat perubahan dalam rata-rata gaji tahunan yang diakibatkan oleh tahun pengalaman mengajar adalah sama.

Ciri Model Regresi Variabel Dummy

1. Satu variabel dummy cukup untuk membedakan dua kategori seperti 1 untuk pria dan 0 untuk yang lainnya (wanita).

2. Penetapan nilai 1 dan 0 untuk dua kategori seperti pria dan wanita adalah bersifat arbitrary dalam arti bahwa kita dapat menetapkan D = 1 untuk wanita dan D = 0 untuk pria.

3. Kelompok, kategori atau klasifikasi yang diberi nol seringkali disebut sebagai kategori dasar, kontrol dan atau perbandingan. Jadi dalam model tadi pengajar wanita merupakan kategori dasar. Unsur intersep bersama α0 adalah unsur intersep untuk kategori dasar.

4. Koefisien α1 yang diberikan untuk variabel dummy disebut koefisien intersep diferensial karena menunjukkan perbedaan antara kategori yang mendapat nilai 1 dengan kategori dasar.

Efek Dari Penggunaan Variabel Dummy

Bagaimana kalau didefinisikan variabel dummy yang akan digunakan membentuk model regresi sebagai berikut :

D1 = 1; dosen laki-laki

0; jika lainnya

D2 = 1; dosen perempuan

0; jika lainnya

Maka modelnya menjadi :

Y = α0 + α1 D1 + α2 D2 + β X + u

Sehingga model ini tidak dapat ditaksir karena adanya kolinearitas sempurna antara D1 dan D2 yaitu D2 = 1 – D1 dan D1 = 1 – D2.

Misalkan ada suatu sampel terdiri dari tiga pengajar pria dan dua pengajar wanita. Matriks data akan nampak seperti dibawah. Dalam kasus multikolinier sempurna penaksiran dengan menggunakan OLS adalah tidak mungkin. Cara untuk memecahkan ini adalah dengan menetapkan variabel dummy dengan contoh sebelumnya yaitu 1 variabel dummy untuk ada dua kategorik atau kualitatif. Bertujuan untuk menghindarkan masalah multikolinieritas sempurna. Aturan umumnya adalah jika suatu variabel kualitatif mempunyai m kategori maka varaibel dummy-nya hanya m-1 saja.

Penggunaan Variabel Dummy dalam Analisis Seasonal

Dalam analisis data runtun waktu (time series) seringkali kita berhadapan dengan pergerakan data yang memiliki unsur musiman (seasonal).

Dengan menggunakan Variabel Dummy kita dapat mengakomodasi unsur musiman ini.

Misal: Dummy Triwulan

Teknik Penggunaan Variabel Dummy

1. Regresi Atas Satu Variabel Kuantitatif Dan Satu Variabel Kualitatif Dengan Lebih Dari Dua Kategori

Misalkan kita ingin mengetahui pengeluaran tahunan untuk kesehatan hubungannya dengan tingkat pendapatan dan pendidikan. Dengan mengasumsikan bahwa tiga kelompok pendidikan mempunyai kemiringan yang sama tetapi berbeda dalam intersep pada regresi pengeluaran tahunan untuk pemeliharaan kesehatan atas pendapatan tahunan maka persamaan modelnya menjadi :

Y = α0 + α1 D1 + α2 D2 + β X + u

dengan

Y = pengeluaran tahunan untuk pemeliharaan kesehatan

X = pendapatan tahunan

D1 = 1 ; jika sekolah lanjutan atas

= 0 ; untuk yang lain

D2 = 1 ; jika pendidikan perguruan tinggi


Dengan mengasumsikan E(u) = 0 maka kita mendapatkan :

E(Yi | D1 = 0, D2 = 0, Xi) = α0 + β Xi

E(Yi | D1 = 1, D2 = 0, Xi) = (α0 + α1) + β Xi

E(Yi | D1 = 0, D2 = 1, Xi) = (α0 + α2) + β Xi

Suatu pengujian hipotesis bahwa α1 = α2 = 0 secara simultan dapat juga dilakukan dengan metode ANOVA dan uji F yang mengikutinya.

2. Regresi Atas Satu Variabel Kuantitatif dan Dua Variabel Kualitatif

Dengan melihat kembali persamaan dari gaji pengajar di perguruan tinggi terhadap pengalaman mengajar, jenis kelamin, dan warna kulit. Untuk menyederhanakan maka warna kulit diasumsikan hitam dan putih saja.

Maka persamaan modelnya menjadi :

Y = α0 + α1 D1 + α2 D2 + β X + u

di mana

Y = gaji tahunan

X = pengalaman mengajar

D1 = 1 ; jika laki-laki


D2 = 1 ; jika putih


Dengan mengasumsikan E(u) = 0 maka hasil regresi yang didapatkan sebagai berikut:

Rata-rata gaji pengajar perguruan tinggi wanita berkulit hitam

E(Yi | D1 = 0, D2 = 0, Xi) = α0 + β Xi

Rata-rata gaji pengajar perguruan tinggi pria berkulit hitam

E(Yi | D1 = 1, D2 = 0, Xi) = (α0 + α1) + β Xi

Rata-rata gaji pengajar perguruan tinggi wanita berkulit putih

E(Yi | D1 = 0, D2 = 1, Xi) = (α0 + α2) + β Xi

Rata-rata gaji pengajar perguruan tinggi pria berkulit putih

E(Yi | D1 = 1, D2 = 1, Xi) = (α0 + α1 + α2) + β Xi

Suatu penaksiran OLS akan memungkinkan berbagai hipotesis. Jadi jika α2 signifikan secara statistik maka memang warna kulit mempunyai pengaruh terhadap gaji pengajar. Jika α1 signifikan secara statistik ini berarti jenis kelamin mempunyai pengaruh terhadap gaji pengajar. Jika kedua intersep diferensial ini penting secara statistik yang berarti bahwa warna kulit dan jenis kelamin mempunyai pengaruh terhadap gaji pengajar.

3. Membandingkan 2 Regresi dengan Variabel Dummy

Untuk mengantisipasi adanya pergeseran model regresi, perhatikan model berikut :

Y = α0 + α1 Di + β1 Xi + β2 Di Xi + u

Di = 1; pengamatan pada periode 1

Di = 0; pengamatan pada periode 2

Sehingga rata-rata tabungan pada periode :

I : Y = (α0 + α1) + (β1 + β2) Xi

II : Y = α0 + β1 Xi

Dengan mengamati parameter-parameter diatas maka :

● Kasus 1 : Bila α1 = 0 dan β2 = 0

model I = model II

● Kasus 2 : Bila α1 ≠ 0 dan β2 = 0

slope sama, intersep beda

● Kasus 3 : Bila α1 = 0 dan β2 ≠ 0

intersep sama, slope beda

● Kasus 4 : Bila α1 ≠ 0 dan β2 ≠ 0

intersep dan slope berbeda

Maximum Likelihood Estimation (MLE) Fungsi “likelihood”

- Yang mana variable acak (random) karna bergantung pada hasil dari sample

yang juga acak

- Peng-estimasi “likelihood” maksimum dari θ, dapat disebut W, nilai dari θ

memaksimalkan fungsi “likelihood”. Jelas bahwa nilainya bergantung pada

random sample.

- prinsip kemungkinan maksimum mengatakan bahwa, dari semua nilai yang

mungkin untuk θ, nilai yang membuat kemungkinan terbesar data yang

diamati harus dipilih. secara intuitif, ini adalah pendekatan yang masuk akal

untuk memperkirakan θ.

- biasanya, akan lebih mudah untuk bekerja dengan fungsi log-likelihood, yang

diperoleh dengan menyebutkan log natural dari fungsi kemungkinan:

MLE biasanya konsisten dan tidak bias

Metode Maximum Likelihood

Maximum likelihood estimation

- meskipun dimungkinkan untuk menggunakan metode kuadrat terkecil

(weighted non-linear), model logit biasanya di-estimasikan dengan metode

kemungkinan maksimum.

- Prinsip general estimation:

1. Least Squares (meminimalkan penyimpangan kuadrat antara pengamatan

dan prediksi)

2. Maximum Likelihood (memaksimalkan likelihood dari data yang diamati

diberi perkiraan)

MLE dan Statistical Inference

Teori MLE menyatakan bahwa:

- distribusi sampling dari estimasi parameter ML adalah normal asimtotik

Oleh karena itu, uji statistik dan interval kepercayaan dapat didasarkan pada

perkiraan varians dari distribusi sampling

- matriks varians-kovarians dari penduga ML untuk vektor parameter x diberikan

sebagai negatif dari inversi nilai yang diharapkan dari matriks turunan kedua

dari fungsi kemungkinan log. (Matriks turunan kedua lnL (x) disebut hessian.

Negatif ekspektasi hessian disebut matriks informasi.)

penjelasan intuitif: turunan kedua menunjukkan kelengkungan fungsi

kemungkinan log. jika fungsinya datar, maka ada banyak ketidakpastian

dalam estimasi. Varians mencerminkan ketidakpastian.

- catatan peringatan: hasil hanya asimtotik, dibutuhkan N besar (N> 100).

Logit Model

Logit Model

Nonlinear Effect on P(Y = 1)

Efek linier yang diasumsikan dalam PM seringkali tidak masuk akal dan model

probabilitas yang lebih masuk akal seharusnya

Biasanya juga masuk akal untuk mengasumsikan simetri

The Logit Model

Fungsi yang cocok untuk memodelkan hubungan antara Pr (Yi = 1) dan variabel

bebas adalah fungsi logistik.

Parameterisasi Z sebagai fungsi linier dari prediktor menghasilkan model logit.

Model logistik secara intrinsik linier dan dapat dinyatakan kembali sebagai:

Artinya, log peluang Y = 1 dinyatakan dalam model logit sebagai fungsi linier dari

prediktor. (Pr (x) / [1-Pr (x)] disebut odds of event (x)

Fungsi f(x)= ln (x/(1-x)) terkadang disebut the logit function; L= ln(x/(1-x)) disebut

logit of x (Berkson 1944,1951).

Logit Model Interpretation

Non-Linearity

- Hubungan antara Pr(Y=1) dan the predictors in a logit model adalah non-linear

(S-shaped)

- Untuk itu: efek dari a predictor on Pr(Y=1) tergantung dari level Pr(Y=1) yaitu

efeknya tidak konstan.

- Ini membuat interpretasi lebih sulit dibanding untuk linear regression.

The Constant

Perhatikan model logit sederhana berikut:

Slope Parameters: Sign and Size

- Ukuran efek dapat di bandingkan untuk variable yang ukurannya sama (e.g.

membandingkan efek variabel yang sama dalam 2 variabel).

Effect on Log of the Odds

Odds Ratio (Effect Coefficient, Factor Change)

Standardized Factor Change

- Untuk membuat efek perbandingan, terkadang masuk akal untuk menimbangnya

dengan standar deviasi x

- Interpretasi: efek dari standard deviation naik pada X on the odds P / (1-P)

- Hasil tidak masuk akal untuk binary predictors, karena dalam hal ini deviasi

standar tidak banyak artinya.

Marginal/Partial Effect

- Odds mungkin lebih intuitif daripada log-odds, tapi yang benar-benar kami

minati adalah efeknya pada probabilitas P (Y = 1).

- Sayangnya P (Y = 1) merupakan fungsi non-linier dari X sehingga

pengaruhnya terhadap P (Y = 1) tidak hanya bergantung pada besarnya

perubahan X, tetapi juga pada level X dimana perubahan tersebut terjadi.

- Langkah pertama dalam arah menafsirkan efek pada skala probabilitas adalah

menghitung turunan pertama fungsi pada posisi yang berbeda.

- Average marginal effect: nilai efek marginal berbeda-beda bergantung pada

nilai prediktornya. Ada dua metode utama untuk menghitung efek marginal

"rata-rata" berdasarkan sampel yang diamati.

Marginal/Partial Effect: Problems

- Efek marjinal pada rata-rata prediktor seringkali tidak masuk akal. untuk

variabel biner, seperti pada contoh di atas, mean tidak sesuai dengan nilai yang

dapat diamati. secara umum mungkin bukan deskripsi yang baik untuk

observasi "tipikal" atau "rata-rata".

- Efek marginal seringkali hanya perkiraan kasar dari efek "nyata" pada

probabilitas (terutama untuk prediktor biner).

Logit Model Specification

Spesification Error

- Dengan asumsi model logit pada dasarnya benar, yaitu model tersebut

memiliki general dari logit [Pr (Y = 1)] = , kita masih bisa menentukan

sisi kanan (RHS) dari persamaan tersebut.

- Beberapa kesalahan spesifikasi adalah:

- Omitted variables: sulit dideteksi dengan pendekatan statistik karena ini lebih

merupakan masalah teoritis. Jika variabel penting Z yang mempengaruhi Y

dan X tidak ada dalam model, maka estimasi pengaruh X pada Y akan bias

(karena juga mengandung pengaruh "tidak langsung" Z pada Y melalui X).

- Nonlinierity: efek X pada logit [Pr (Y = 1] mungkin nonlinier. Ini juga

merupakan masalah teoretis sampai tingkat tertentu, tetapi penyimpangan dari

linieritas dapat dideteksi secara statistik. Prosedur umum: buat model efek

nonlinier dan bandingkan hasilnya.

- Non-additivity: asumsikan moel berisi X1 dan X2. pengaruh X1 diasumsikan

tidak tergantung pada nilai X2. Ini mungkin tidak benar. Model non-aditif

dapat dibangun dengan menggunakan istilah interaksi.

Goodness of Fit Measures

- Mungkin diinginkan untuk meringkas keseluruhan kesesuaian model dengan

menggunakan satu nomor.

- Dalam regresi linier hal ini dilakukan dengan R-squared.

- Sejumlah ukuran kesesuaian yang meniru R-squared telah dikembangkan

untuk regresi logistik (dan model lainnya).

- Kritik: ukuran kecocokan skalar harus selalu ditafsirkan dalam konteks.

Seberapa tinggi nilai ukuran tersebut agar model menjadi model yang "baik"

sangat bergantung pada topik penelitian dan sifat datanya.

- Berbagai interpretasi dimungkinkan untuk R-squared, tetapi dibandingkan

dengan regresi linier, interpretasi ini mengarah pada ukuran yang berbeda

dalam regresi logistik. Dua di antaranya adalah:

- Dalam kasus di mana J, jumlah pola kovariat distrik, lebih kecil dari N,

statistik harus dihitung sebagai (lihat hosmer dan lemeshow 2001: 165)

Information Measures

- Interpretasi umum: semakin kecil AIC atau BIC, semakin baik modelnya.

- AIC dan BIC dapat digunakan untuk membandingkan model (juga model yang

tidak bersarang). model dengan AIC atau BIC kecil lebih disukai.

- Interpretasi perbedaan BIC (kekuatan bukti yang mendukung model dengan

BIC yang lebih kecil); 0-2 lemah, 2-6 positif, 6-10 kuat,> 10 sangat kuat.

Probit Model

The Probit Model

- Satu alternative Prodit Model menggunakan the cumulative normal

distribution.

- Interpretasi koefisien mirip dengan Logit Model.

- Marginal Effect:

Latent Variable Model

- Model probit dan model logit dapat dinyatakan sebagai model variabel laten.

- Ide konseptualnya adalah bahwa ada variabel Y * yang tidak teramati yang

mencerminkan kecenderungan Y untuk mengambil nilai 1 dan terkait dengan

kovariat secara linier.

- The model is

- Model pilihan diskrit: Y * dapat diartikan sebagai perbedaan antara utilitas

dari dua alternatif (plus error).

Example: Logit versus Probit

The Probit Model for Ungrouped or Individual Data

Ke model logit dan probit di GPA dan PSI tersebut secara statistik signifikan tetapi TUCE

tidak. Selain itu, secara bersama-sama variabel penjelas memiliki pengaruh yang signifikan

terhadap kelas, karena nilai F 6,6456 signifikan secara statistik karena nilai p-nya hanya

0,0015.

The Marginal Effect of a Unit Change in the Value of a Regressor in the

Various Regression Models

Dalam model regresi linier, koefisien kemiringan mengukur perubahan nilai rata-

rata regresi dan untuk satu unit perubahan nilai regressor, dengan semua variabel

lain dianggap konstan.

Dalam LPM, koefisien kemiringan mengukur secara langsung perubahan

probabilitas suatu peristiwa yang terjadi sebagai hasil dari perubahan satuan dalam

nilai regressor, dengan pengaruh semua variabel lain dianggap konstan.

Interpreting the Logit and Probit Estimates

Mengingat komputer modern, dari perspektif praktis aspek yang paling sulit dari

model logit atau probit adalah menyajikan dan menafsirkan hasilnya. perkiraan

koefisien, kesalahan standarnya, dan nilai fungsi log-likehood dilaporkan oleh

semua paket perangkat lunak yang melakukan logit dan probit, dan ini harus

dilaporkan dalam aplikasi apa pun.

Ekonometrika Dasar - IBEC FEB UI · 2020. 10. 26. · 1. Time Series Econometrics 2. Cross Section Econometrics 3. Panel Data Econometrics 4. Limited variable and Qualitative Variable

Documents

Ekonometrika Dasar - IBEC FEB UI · 2020. 10. 26. · 1. Time Series Econometrics 2. Cross Section Econometrics 3. Panel Data Econometrics 4. Limited variable and Qualitative Variable