Ekonometrika Dasar
Ekonometrika
● Ekonometrika berusaha menerjemahkan suatu masalah dari aspek ekonomi,
matematika ekonomi dan statistika ekonomi secara komprehensif. Ketiga bidang ilmu
itu merupakan pondasi dalam penerapan ekonometrika.
● Dalam ekonometrika, permasalahan dipetakan berdasarkan teori (ekonomi) yang ada,
dinyatakan dengan persamaan matematika dan digunakan kriteria statistika untuk
menganalisis permasalahan yang ada.
● Peran matematika ekonomi adalah menyatakan teori ekonomi dalam bentuk
matematika atau persamaan matematika. Tujuannya adalah untuk penyederhanaan
masalah.
● Ekonometrika berusaha melakukan verifikasi empiris atas teori ekonomi yang berlaku.
Dan hal ini akan lebih mudah apabila permasalahan ekonomi dinyatakan dalam bentuk
matematika.
● Fokus dari statistika ekonomi berkaitan dengan pengumpulan data, pengolahan data,
dan analisis data. Dari aspek statistik, data merupakan “bahan mentah” yang harus
diolah lebih lanjut dalam ekonometrika.
● Data yang berasal dari berbagai publikasi baik swasta atau pemerintah bersifat given.
Artinya, data mentah itu diluar kontrol econometrician apabila data mengandung
kesalahan pengukuran, dan berbagai kesalahan lainnya. Oleh karena itu,
econometrician mengembangkan metode untuk mengatasi berbagai masalah berkaitan
dengan kesalahan pengukuran.
Jenis-jenis Ekonometrika
Berdasarkan Bentuk Data:
1. Time Series Econometrics 2. Cross Section Econometrics 3. Panel Data Econometrics 4. Limited variable and Qualitative Variable
Berdasarkan Pemodelan:
1. Single Equation Methods 2. Simultaneous Equation
Berdasarkan Pendekatan:
1. Classic Approach 2. Bayesian Approach
Regresi dengan OLS
Asumsi-asumsi Metode OLS
1) Model regresi linear dalam parameternya
2) Rata-rata kesalahan sama dengan nol
Secara implisit asumsi ini mengharapkan model yang terbentuk dapat secara tepat menggambarkan rata-rata variabel terikat dalam setiap observasi.
3) Homoskedastis atau varians error pada setiap observasi sama/konstan
Varians yang seragam akan menghasilkan nilai koefisien yang seragam. Karenanya setiap observasi akan mempunyai reliabilitas yang sama.
4) No-otokorelasi antara error satu observasi dengan error observasi lainnya
5) Error terdistribusi normal
ui~N(0,s2)
6) Nilai variabel bebas untuk masing-masing observasi berbeda.
Jika semua nilai X sama , maka Xi = sehingga tidak memungkinkan mengestimasi slope persamaan regresi.
7) Tidak terdapat korelasi antara error dengan variabel bebas; atau kovarians antara error dan X sama dengan nol.
cov(ui, Xi) = 0.
Jika Xi dan ui berkorelasi, maka jika nilai Xi berubah maka nilai ui ikut berubah. Hal ini menyebabkan kita akan sulit melihat pengaruh masing-masing Xi atau ui terhadap Y, karena keduanya berkorelasi.
8) Setiap variabel bebas bersifat independen/ tidak ada hubungan linear antara satu dengan lainnya(no perfect multicollinearity).
9) Model terspesifikasi secara tepat (à persamaannya tepat)
10) Jumlah observasi harus lebih besar dibanding jumlah parameter yang akan diestimasi à masalah degree of freedom
Gauss-Markov Theorem
BLUE (Best Linear Unbiased Estimator) menurut teori Gauss Markov adalah dengan given, asumsi regresi linear klasik yang telah dipenuhi, maka estimator least square yang memiliki varians minimum dikatakan estimator yang tidak bias.
Sebuah estimator (misalkan), dikategorikan BLUE (best linear unbiased estimator), jika dapat memenuhi beberapa asumsi berikut.
1) Berbentuk linier
Bentuk persamaan regresi yang dibentuk adalah linier.
2) Tidak bias. Jika rata-rata nilai ekspektasi, , sama dengan nilai sebenarnya
(aktualnya), .
Jika persamaan atas tidak dipenuhi, maka estimator dikatakan bias,
3) Varians error minimum
Merupakan parameter dari sebuah persamaan regresi yang memiliki nilai varians residual terkecil. Parameter seperti ini dikenal sebagai parameter yang efisien.
Derivasi Estimator OLS untuk Dua Peubah
Misalkan terdapat persamaan regresi sampel:
Residual adalah selisih antara nilai Y aktual (populasi sebenarnya) dengan nilai estimasi Y (sampel).
Metode OLS adalah sebuah metode yang meminimumkan jumlah nilai kuadrat residual, maka:
Dengan melakukan diferensiasi, maka didapatkan:
Numerical Properties
1) Estimator OLS diekspresikan seluruhnya dalam nilai yang dapat diobservasi ( misal : X dan Y) dan dapat dihitung.
2) Terdapat point estimator , dimana setiap estimator hanya menyediakan satu nilai untuk parameter populasi yang relevan.
3) Estimasi OLS dari data sampel dapat dihasilkan garis regresi sampel yang mempunyai properties:
● Melalui rata-rata sampel Y dan X
● Nilai rata-rata estimasi sama dengan nilai rata-rata Y aktual
● Nilai rata-rata residual adalah nol.
● Residual tidak berkorelasi dengan
● Residual tidak berkorelasi dengan Xi ,
Mengukur Standar Error
Dimana var = varian; Se = standar error dan adalah varian ui yang konstan
(homoskedastis). diperoleh melalui estimasi dengan rumus:
dapat dihitung dengan
Dari dapat dihasilkan standar error of estimate yang mengukur “goodness of fit”/kebaikan dari estimasi garis regresi.
adalah
Regresi Sederhana
Dengan data xi dan yi yang kita miliki, maka tentukan persamaan regresinya.
Regresi Berganda
Bentuk persamaan regresinya adalah:
Maka persamaan regresinya adalah:
Pelanggaran Asumsi OLS dan Penyelesaiannya
Multikolinearitas
Multikolinearitas menunjukan situasi dimana terdapat hubungan yang linear sempurna atau hampir sempurna diantara beberapa atau semua variabel bebas dalam model.
Multikolinearitas terjadi hanya pada hubungan linear diantara variabel X dan tidak berlaku pada hubungan non linear.
Asumsikan terdapat k variabel independen, X1, X2, X3,…, Xk 1. Hubungan linear sempurna antara variabel independen dikatakan jika kondisi di bawah
ini terpenuhi dimana adalah konstanta yang tidak semuanya sama dengan nol.
Persamaan tersebut dapat diubah menjadi
Di mana X2 tepat secara linear berhubungan dengan variabel lain atau koefisien korelasi antara X2 dengan variabel lain merupakan suatu satuan.
2. Hubungan linear hampir/ kurang sempurna antara variabel independen jika kondisi di
bawah ini terpenuhi
Di mana vi adalah stokastik error
Kemudian persamaan kedua ini. Dapat diubah ke bentuk:
Di mana X2 tidak secara tepat linear berhubungan dengan variabel lain karena juga ditentukan oleh error yang stokastik .
Multikolinearitas dapat disebabkan karena:
● Metode pengumpulan data yang dilakukan ● Memasukan variabel yang dihitung berdasarkan variabel lain dalam persamaan.
(contoh: income keluarga = income suami+ income istri dan dalam regresi memasukan ke 3 jenis income tersebut)
● Memasukan variabel yang sama atau hampir sama dalam regresi. (contoh ketinggian dalam satuan kaki atau meter secara konsep adalah identik)
● Jika jumlah variabel penjelas lebih banyak dibanding jumlah observasi (overdetermined model).
Dalam estimasi OLS yang memiliki multikolinearitas sempurna, maka koefisien regresi akan tidak dapat ditentukan dan standar error akan tidak terbatas.
Misal;
Misalkan X3 berkorelasi linear sempurna dengan X2 dengan hubungan X3i = X2i dimana
adalah konstanta yang tidak nol.
Konsekuensi Multikolinearitas
1. Meskipun BLUE, estimator OLS akan memiliki varians dan kovarians yang tinggi, sehingga untuk melakukan estimasi secara tepat cenderung sulit.
r23 adalah koefisien korelasi antara X2 dan X3. Jika r23 cenderung mendekati 1, maka varian dan kovarian dari kedua estimator menjadi meningkat dan pada nilai 1 nilai varians dan kovarian menjadi tak terbatas, begitupun dengan kovarians.
2. Standar error semakin membesar
3. Interval keyakinan akan cenderung menjadi besar dengan meningkatnya multikolinearitas.
4. Nilai t statistik akan cenderung tidak signifikan dan mendorong penolokan signifikansi koefisien variabel. Jika se meningkat, maka t ratio akan kecil , sehingga akan mendorong penolakan hipotesa Ho
5. Meskipun satu atau lebih nilai t statistik tidk signifikan, R2 dapat memiliki nilai yang tinggi.
6. Estimator OLS dan standar errornya akan menjadi sensitif terhadap perubahan data walaupun kecil.
Treatment Multikolinearitas
1. Mengeluarkan variabel yang berkorelasi.
Namun dengan mengeluarkan variabel yang berkorelasi biasanya akan menimbulkan
masalah bias dalam spesifikasi karena spesifikasi yang tidak tepat dalam model.
2. Mentransformasikan variabel.
3. Menambah jumlah data /observasi.
Karena multikolinearitas terjadi pada data sampel, maka jumlah observasi sampel dapat
ditambahkan, atau dengan menambah beberapa variabel baru. Dapat juga dilakukan
kombinasi data cross-section dan time series (pooled data).
4. Melakukan teknik factor analysis dan principal components seperti dalam statistika
multivariate.
Heteroskedastisitas
Salah satu asumsi dalam model regresi linear klasik adalah varians gangguan, i, konstan untuk setiap observasi atau homoskedastisitas. Secara simbol
dimana i= 1, 2,3,…,n.
Jika varian gangguan tidak konstan untuk setiap observasi maka dikatakan heteroskedastisitas.
Dalam heteroskedastisitas, varian gangguan dapat mempunyai nilai yang berbeda untuk tiap observasi.
Penyebab munculnya heteroskedastisitas
1. Berkurangnya gangguan dengan bertambahnya waktu.
Contoh, kesalahan seseorang dalam latihan mengetik akan semakin berkurang dengan makin bertambahnya waktu latihan mengetik.
2. Gangguan dapat bertambah jika nilai variabel independen meningkat.
Contoh konsumsi adalah variabel terikat dan income adalah variabel bebas. Jika suatu kelompok income rendah, maka konsumsi akan rendah dan variasi pengeluaran diantara anggota kelompok akan rendah pula. Sedangkan jika ditambah adanya kelompok income tinggi, maka akan terjadi perbedaan income yang mungkin tinggi. Rata–rata pengeluaran akan meningkat dan variabilitas perbedaan pengeluaran antara anggota kelompok akan meningkat pula.
3. Dengan membaiknya metode pengumpulan data, maka gangguan dan varian gangguan akan semakin kecil.
4. Munculnya outlier.
Outlier adalah suatu data yang nilainya sangat berbeda dengan sejumlah besar data lain dalam suatu sampel.
5. Misspesifikasi model.
Contoh dalam suatu model kita menggunakan Y, padahal mungkin yang lebih baik adalah log Y, Y2 atau lainnya.
Konsekuensi adanya Heteroskedastisitas
1. Heteroskedastisitas menghasilkan estimasi parameter yang tidak bias namun tidak lagi BLUE.
jika tidak heteroskedastis, maka
2. Varian estimasi
,
Akan menjadi bias terhadap varian sebenarnya;
Treatment Heteroskedastisitas
1. Saat diketahui Menggunakan Weighted least squares (WLS) atau generalized least squares untuk mengoreksi heteroskedastisitas.
2. Saat tidak diketahui Transformasikan data dengan menggunakan informasi dari plot grafis tentang pola heteroskedastisitas di model kita.
Autokorelasi
● Didefinisikan sebagai adanya korelasi gangguan suatu observasi dengan gangguan observasi lainnya.
● Secara simbol: E(ui,uj) dimana ● Biasanya autokorelasi muncul pada data time series, karena pada tipe data ini data
diurutkan berdasarkan waktu dan biasanya terjadi spillover effects/inertia dari satu periode ke periode lainnya
● Beberapa penyebab munculnya autokorelasi: 1) Inertia, yaitu variabel pada periode t biasanya dipengaruhi oleh variable pada
saat t-1. 2) Bias Spesifikasi: Tidak memasukan suatu variabel yang seharusnya muncul
dalam persamaan regresi. 3) Lag
Dalam model autoregressive terdapat variable bebas yang nilainya merupakan lag dari variabel terikat.
4) Manipulasi data.Misalkan seseorang dapat memperoleh data kuartalan dari data bulanan dengan merata-ratakan data secara 3 bulanan. Sedang data untuk kuartal kedua diperoleh dengan merata-ratakan data secara 3 bulanan selanjutnya. Jika kita melakukan ini, maka kita akan mendapatkan smoothness /kehalusan dalam data yang tidak ada sebelumnya. Selanjutnya ini akan mempengaruhi error term.
5) Fenomena CobWeb
Jika pada akhir t , harga pertanian saat t lebih kecil dibanding t-1, maka supply pertanian saat t+1 lebih kecil dibanding saat t. Sehingga , error pada saat t (ut) , tidak akan random, karena jika petani memproduksi hasil pertanian berlebih (overproduce) pada saat t, maka mereka akan mengurangi produksi saat t+1, sehingga membentuk pola Cobweb.
Konsekuensi adanya Autokorelasi
1. Estimasi OLS tetap linear dan tidak bias namun tidak lagi efisien/ BLUE( variannya tidak minimum).
2. Interval keyakinan akan semakin lebar, menyebabkan kita menerima hipotesa H0 (koefisien tidak signifikan).
3. R2 juga akan over estimate. 4. t-stat dan F-ratio akan tidak valid; yang jika digunakan akan menyebabkan kesimpulan
yang salah. Treatment Autokorelasi
Kasus A: Saat Struktur Autokorelasi Diketahui
Misalkan kita ketahui hubungan antara gangguan memiliki pola first-order autoregressive:
dan kita mengetahui nilai .
Misalkan kita memiliki model pada saat t:
dan model juga dianggap berlaku hingga periode t-1. (inertia effect)
Dengan mengalikan model dengan , maka model untuk periode t-1 adalah:
Dengan melakukan first differences:
Persamaan diatas dapat ditulis ulang menjadi
di mana dan
Ketika kita telah mentransformasikan model seperti diatas, maka kita dapat melakukan regresi OLS dan estimator yang kita dapatkan akan BLUE.
Kasus B: tidak diketahui
1. Gunakan perhitungan DW stat untuk mengestimasi
Ingat bahwa
Dengan mengubah menjadi:
maka dapat diestimasi.
Sehingga model ideal dapat diubah;
● Langkah 1: Lakukan regresi OLS dan dapatkan perhitungan DW stat.
● Langkah 2: Gunakan perhitungan DW stat untuk menghitung ● Langkah 3: Gunakan untuk mentransformasikan model ideal kita:
2. Gunakan Cochrane Orcutt iterative (2 step) procedure untuk mengestimasi
Misalkan kita memiliki model berikut beserta Struktur AR(1) :
dimana
Langkah 1: Regresikan model dengan OLS. Dapatkan nilai residual
Langkah 2: Gunakan residual yang kita peroleh untuk membuat lag residual,
Lalu estimasikan
Regresi dengan Variabel Dummy
Variabel Dummy
● Dalam analisis regresi seringkali terjadi bahwa variabel terikat tidak hanya dipengaruhi oleh variabel kuantitatif tetapi juga oleh variabel kualitatif (jenis kelamin, ras, warna kulit, agama, kebangsaan, dsb).
● Misalnya dengan semua faktor lain dianggap kosntan ternyata dosen wanita pada perguruan tinggi ternyata menerima penghasilan lebih rendah dari dosen pria. Ini mugkin diakibatkan oleh diskriminasi jenis kelamin atau yang lainnya.
● Karena variabel yang menjelaskan seperti itu biasanya menunjukkan ada atau tidaknya “kualitas” atau ciri-ciri seperti laki-laki atau perempuan, lulus perguruan tinggi atau tidak, putra daerah atau tidak dan lain-lain.
● Karena variabel yang menjelaskan seperti itu biasanya menunjukkan ada atau tidaknya “kualitas” atau ciri-ciri seperti laki-laki atau perempuan, lulus perguruan tinggi atau tidak, putra daerah atau tidak dan lain-lain.
● Suatu metode untuk membuatnya “kuantitatif” dari atribut seperti itu ialah dengan membentuk variabel buatan yang bernilai 1 dan 0.
● ─0 untuk menunjukkan ketidakhadiran ciri tadi; dan ● ─1 menunjukkan adanya ciri-ciri tersebut.
Model Anova
Regresi dengan variabel bebasnya hanya variabel dummy atau yang sifatnya kualitatif disebut model Analysis of Variance (ANOVA).
Contohnya adalah sebagai berikut :
Y = α + β D + u
dengan
Y = gaji tahunan pengajar perguruan tinggi
D = 1 jika pengajar laki-laki
D = 0 jika pengajar perempuan
Model memungkinkan kita mengetahui apakah jenis kelamin menyebabkan perbedaan dalam gaji pengajar di perguruan tinggi; dengan mengasumsikan bahwa variabel-variabel yang lain seperti umur, gelar yang diperoleh dan tahun pengalaman dijaga konstan.
Dengan mengasumsikan bahwa unsur gangguan memenuhi asumsi yang biasa dari model regresi linier klasik diperoleh :
Rata-rata gaji pengajar perguruan tinggi wanita E(Yi | Di = 0) = α
Rata-rata gaji pengajar perguruan tinggi priaE(Yi | Di = 1) = α + β
Dari persamaan diatas dapat diketahui jika β ≠ 0;
maka diketahui bahwa ada perbedaan gaji rata-rata antara pengajar pria dan wanita di perguruan tinggi.
Anlysis of Covariance
Model regresi yang berisi campuran antara varaibel kuantitaif dan kualitatif disebut model Analysis of Covariance (ANCOVA).
Contoh dari model ANCOVA
Y = α0 + α1 D + β X + u
dengan
Y = gaji tahunan pengajar perguruan tinggi
X = tahun pengalaman mengajar
D = 1 laki-laki
D = 0 untuk lainnya
Model diatas berisi satu variabel kuantitatif (tahun pengalaman mengajar) dan satu variabel kualitatif (jenis kelamin) yang mempunyai dua kategori yaitu laki-laki dan wanita.
Dengan mengasumsikan seperti biasa E(u) = 0 maka :
Rata-rata gaji pengajar perguruan tinggi wanita
E(Yi | Xi, Di = 0) = α0 + β X
Rata-rata gaji pengajar perguruan tinggi pria
E(Yi | Xi, Di = 1) = (α0 + α1) + βX
Model diatas menggambarkan bahwa fungsi gaji pengajar perguruan tinggi pria dan wanita dalam hubungannya dengan tahun pengalaman mengajar mempunyai kemiringan yang sama (β) tetapi mempunyai intersep yang berbeda.
Diasumsikan bahwa tingkat rata-rata gaji pengajar laki-laki berbeda dari gaji pengajar wanita (dengan α1) tetapi tingkat perubahan dalam rata-rata gaji tahunan yang diakibatkan oleh tahun pengalaman mengajar adalah sama.
Ciri Model Regresi Variabel Dummy
1. Satu variabel dummy cukup untuk membedakan dua kategori seperti 1 untuk pria dan 0 untuk yang lainnya (wanita).
2. Penetapan nilai 1 dan 0 untuk dua kategori seperti pria dan wanita adalah bersifat arbitrary dalam arti bahwa kita dapat menetapkan D = 1 untuk wanita dan D = 0 untuk pria.
3. Kelompok, kategori atau klasifikasi yang diberi nol seringkali disebut sebagai kategori dasar, kontrol dan atau perbandingan. Jadi dalam model tadi pengajar wanita merupakan kategori dasar. Unsur intersep bersama α0 adalah unsur intersep untuk kategori dasar.
4. Koefisien α1 yang diberikan untuk variabel dummy disebut koefisien intersep diferensial karena menunjukkan perbedaan antara kategori yang mendapat nilai 1 dengan kategori dasar.
Efek Dari Penggunaan Variabel Dummy
Bagaimana kalau didefinisikan variabel dummy yang akan digunakan membentuk model regresi sebagai berikut :
D1 = 1; dosen laki-laki
0; jika lainnya
D2 = 1; dosen perempuan
0; jika lainnya
Maka modelnya menjadi :
Y = α0 + α1 D1 + α2 D2 + β X + u
Sehingga model ini tidak dapat ditaksir karena adanya kolinearitas sempurna antara D1 dan D2 yaitu D2 = 1 – D1 dan D1 = 1 – D2.
Misalkan ada suatu sampel terdiri dari tiga pengajar pria dan dua pengajar wanita. Matriks data akan nampak seperti dibawah. Dalam kasus multikolinier sempurna penaksiran dengan menggunakan OLS adalah tidak mungkin. Cara untuk memecahkan ini adalah dengan menetapkan variabel dummy dengan contoh sebelumnya yaitu 1 variabel dummy untuk ada dua kategorik atau kualitatif. Bertujuan untuk menghindarkan masalah multikolinieritas sempurna. Aturan umumnya adalah jika suatu variabel kualitatif mempunyai m kategori maka varaibel dummy-nya hanya m-1 saja.
Penggunaan Variabel Dummy dalam Analisis Seasonal
Dalam analisis data runtun waktu (time series) seringkali kita berhadapan dengan pergerakan data yang memiliki unsur musiman (seasonal).
Dengan menggunakan Variabel Dummy kita dapat mengakomodasi unsur musiman ini.
Misal: Dummy Triwulan
Teknik Penggunaan Variabel Dummy
1. Regresi Atas Satu Variabel Kuantitatif Dan Satu Variabel Kualitatif Dengan Lebih Dari Dua Kategori
Misalkan kita ingin mengetahui pengeluaran tahunan untuk kesehatan hubungannya dengan tingkat pendapatan dan pendidikan. Dengan mengasumsikan bahwa tiga kelompok pendidikan mempunyai kemiringan yang sama tetapi berbeda dalam intersep pada regresi pengeluaran tahunan untuk pemeliharaan kesehatan atas pendapatan tahunan maka persamaan modelnya menjadi :
Y = α0 + α1 D1 + α2 D2 + β X + u
dengan
Y = pengeluaran tahunan untuk pemeliharaan kesehatan
X = pendapatan tahunan
D1 = 1 ; jika sekolah lanjutan atas
= 0 ; untuk yang lain
D2 = 1 ; jika pendidikan perguruan tinggi
= 0 ; untuk yang lain
Dengan mengasumsikan E(u) = 0 maka kita mendapatkan :
E(Yi | D1 = 0, D2 = 0, Xi) = α0 + β Xi
E(Yi | D1 = 1, D2 = 0, Xi) = (α0 + α1) + β Xi
E(Yi | D1 = 0, D2 = 1, Xi) = (α0 + α2) + β Xi
Suatu pengujian hipotesis bahwa α1 = α2 = 0 secara simultan dapat juga dilakukan dengan metode ANOVA dan uji F yang mengikutinya.
2. Regresi Atas Satu Variabel Kuantitatif dan Dua Variabel Kualitatif
Dengan melihat kembali persamaan dari gaji pengajar di perguruan tinggi terhadap pengalaman mengajar, jenis kelamin, dan warna kulit. Untuk menyederhanakan maka warna kulit diasumsikan hitam dan putih saja.
Maka persamaan modelnya menjadi :
Y = α0 + α1 D1 + α2 D2 + β X + u
di mana
Y = gaji tahunan
X = pengalaman mengajar
D1 = 1 ; jika laki-laki
= 0 ; untuk yang lain
D2 = 1 ; jika putih
= 0 ; untuk yang lain
Dengan mengasumsikan E(u) = 0 maka hasil regresi yang didapatkan sebagai berikut:
Rata-rata gaji pengajar perguruan tinggi wanita berkulit hitam
E(Yi | D1 = 0, D2 = 0, Xi) = α0 + β Xi
Rata-rata gaji pengajar perguruan tinggi pria berkulit hitam
E(Yi | D1 = 1, D2 = 0, Xi) = (α0 + α1) + β Xi
Rata-rata gaji pengajar perguruan tinggi wanita berkulit putih
E(Yi | D1 = 0, D2 = 1, Xi) = (α0 + α2) + β Xi
Rata-rata gaji pengajar perguruan tinggi pria berkulit putih
E(Yi | D1 = 1, D2 = 1, Xi) = (α0 + α1 + α2) + β Xi
Suatu penaksiran OLS akan memungkinkan berbagai hipotesis. Jadi jika α2 signifikan secara statistik maka memang warna kulit mempunyai pengaruh terhadap gaji pengajar. Jika α1 signifikan secara statistik ini berarti jenis kelamin mempunyai pengaruh terhadap gaji pengajar. Jika kedua intersep diferensial ini penting secara statistik yang berarti bahwa warna kulit dan jenis kelamin mempunyai pengaruh terhadap gaji pengajar.
3. Membandingkan 2 Regresi dengan Variabel Dummy
Untuk mengantisipasi adanya pergeseran model regresi, perhatikan model berikut :
Y = α0 + α1 Di + β1 Xi + β2 Di Xi + u
Di = 1; pengamatan pada periode 1
Di = 0; pengamatan pada periode 2
Sehingga rata-rata tabungan pada periode :
I : Y = (α0 + α1) + (β1 + β2) Xi
II : Y = α0 + β1 Xi
Dengan mengamati parameter-parameter diatas maka :
● Kasus 1 : Bila α1 = 0 dan β2 = 0
model I = model II
● Kasus 2 : Bila α1 ≠ 0 dan β2 = 0
slope sama, intersep beda
● Kasus 3 : Bila α1 = 0 dan β2 ≠ 0
intersep sama, slope beda
● Kasus 4 : Bila α1 ≠ 0 dan β2 ≠ 0
intersep dan slope berbeda
Maximum Likelihood Estimation (MLE) Fungsi “likelihood”
- Yang mana variable acak (random) karna bergantung pada hasil dari sample
yang juga acak
- Peng-estimasi “likelihood” maksimum dari θ, dapat disebut W, nilai dari θ
memaksimalkan fungsi “likelihood”. Jelas bahwa nilainya bergantung pada
random sample.
- prinsip kemungkinan maksimum mengatakan bahwa, dari semua nilai yang
mungkin untuk θ, nilai yang membuat kemungkinan terbesar data yang
diamati harus dipilih. secara intuitif, ini adalah pendekatan yang masuk akal
untuk memperkirakan θ.
- biasanya, akan lebih mudah untuk bekerja dengan fungsi log-likelihood, yang
diperoleh dengan menyebutkan log natural dari fungsi kemungkinan:
MLE biasanya konsisten dan tidak bias
Metode Maximum Likelihood
Maximum likelihood estimation
- meskipun dimungkinkan untuk menggunakan metode kuadrat terkecil
(weighted non-linear), model logit biasanya di-estimasikan dengan metode
kemungkinan maksimum.
- Prinsip general estimation:
1. Least Squares (meminimalkan penyimpangan kuadrat antara pengamatan
dan prediksi)
2. Maximum Likelihood (memaksimalkan likelihood dari data yang diamati
diberi perkiraan)
MLE dan Statistical Inference
Teori MLE menyatakan bahwa:
- distribusi sampling dari estimasi parameter ML adalah normal asimtotik
Oleh karena itu, uji statistik dan interval kepercayaan dapat didasarkan pada
perkiraan varians dari distribusi sampling
- matriks varians-kovarians dari penduga ML untuk vektor parameter x diberikan
sebagai negatif dari inversi nilai yang diharapkan dari matriks turunan kedua
dari fungsi kemungkinan log. (Matriks turunan kedua lnL (x) disebut hessian.
Negatif ekspektasi hessian disebut matriks informasi.)
penjelasan intuitif: turunan kedua menunjukkan kelengkungan fungsi
kemungkinan log. jika fungsinya datar, maka ada banyak ketidakpastian
dalam estimasi. Varians mencerminkan ketidakpastian.
- catatan peringatan: hasil hanya asimtotik, dibutuhkan N besar (N> 100).
Logit Model
Logit Model
Nonlinear Effect on P(Y = 1)
Efek linier yang diasumsikan dalam PM seringkali tidak masuk akal dan model
probabilitas yang lebih masuk akal seharusnya
Biasanya juga masuk akal untuk mengasumsikan simetri
The Logit Model
Fungsi yang cocok untuk memodelkan hubungan antara Pr (Yi = 1) dan variabel
bebas adalah fungsi logistik.
Parameterisasi Z sebagai fungsi linier dari prediktor menghasilkan model logit.
Model logistik secara intrinsik linier dan dapat dinyatakan kembali sebagai:
Artinya, log peluang Y = 1 dinyatakan dalam model logit sebagai fungsi linier dari
prediktor. (Pr (x) / [1-Pr (x)] disebut odds of event (x)
Fungsi f(x)= ln (x/(1-x)) terkadang disebut the logit function; L= ln(x/(1-x)) disebut
logit of x (Berkson 1944,1951).
Logit Model Interpretation
Non-Linearity
- Hubungan antara Pr(Y=1) dan the predictors in a logit model adalah non-linear
(S-shaped)
- Untuk itu: efek dari a predictor on Pr(Y=1) tergantung dari level Pr(Y=1) yaitu
efeknya tidak konstan.
- Ini membuat interpretasi lebih sulit dibanding untuk linear regression.
The Constant
Perhatikan model logit sederhana berikut:
Slope Parameters: Sign and Size
- Ukuran efek dapat di bandingkan untuk variable yang ukurannya sama (e.g.
membandingkan efek variabel yang sama dalam 2 variabel).
Effect on Log of the Odds
Odds Ratio (Effect Coefficient, Factor Change)
Standardized Factor Change
- Untuk membuat efek perbandingan, terkadang masuk akal untuk menimbangnya
dengan standar deviasi x
- Interpretasi: efek dari standard deviation naik pada X on the odds P / (1-P)
- Hasil tidak masuk akal untuk binary predictors, karena dalam hal ini deviasi
standar tidak banyak artinya.
Marginal/Partial Effect
- Odds mungkin lebih intuitif daripada log-odds, tapi yang benar-benar kami
minati adalah efeknya pada probabilitas P (Y = 1).
- Sayangnya P (Y = 1) merupakan fungsi non-linier dari X sehingga
pengaruhnya terhadap P (Y = 1) tidak hanya bergantung pada besarnya
perubahan X, tetapi juga pada level X dimana perubahan tersebut terjadi.
- Langkah pertama dalam arah menafsirkan efek pada skala probabilitas adalah
menghitung turunan pertama fungsi pada posisi yang berbeda.
- Average marginal effect: nilai efek marginal berbeda-beda bergantung pada
nilai prediktornya. Ada dua metode utama untuk menghitung efek marginal
"rata-rata" berdasarkan sampel yang diamati.
Marginal/Partial Effect: Problems
- Efek marjinal pada rata-rata prediktor seringkali tidak masuk akal. untuk
variabel biner, seperti pada contoh di atas, mean tidak sesuai dengan nilai yang
dapat diamati. secara umum mungkin bukan deskripsi yang baik untuk
observasi "tipikal" atau "rata-rata".
- Efek marginal seringkali hanya perkiraan kasar dari efek "nyata" pada
probabilitas (terutama untuk prediktor biner).
Logit Model Specification
Spesification Error
- Dengan asumsi model logit pada dasarnya benar, yaitu model tersebut
memiliki general dari logit [Pr (Y = 1)] = , kita masih bisa menentukan
sisi kanan (RHS) dari persamaan tersebut.
- Beberapa kesalahan spesifikasi adalah:
- Omitted variables: sulit dideteksi dengan pendekatan statistik karena ini lebih
merupakan masalah teoritis. Jika variabel penting Z yang mempengaruhi Y
dan X tidak ada dalam model, maka estimasi pengaruh X pada Y akan bias
(karena juga mengandung pengaruh "tidak langsung" Z pada Y melalui X).
- Nonlinierity: efek X pada logit [Pr (Y = 1] mungkin nonlinier. Ini juga
merupakan masalah teoretis sampai tingkat tertentu, tetapi penyimpangan dari
linieritas dapat dideteksi secara statistik. Prosedur umum: buat model efek
nonlinier dan bandingkan hasilnya.
- Non-additivity: asumsikan moel berisi X1 dan X2. pengaruh X1 diasumsikan
tidak tergantung pada nilai X2. Ini mungkin tidak benar. Model non-aditif
dapat dibangun dengan menggunakan istilah interaksi.
Goodness of Fit Measures
- Mungkin diinginkan untuk meringkas keseluruhan kesesuaian model dengan
menggunakan satu nomor.
- Dalam regresi linier hal ini dilakukan dengan R-squared.
- Sejumlah ukuran kesesuaian yang meniru R-squared telah dikembangkan
untuk regresi logistik (dan model lainnya).
- Kritik: ukuran kecocokan skalar harus selalu ditafsirkan dalam konteks.
Seberapa tinggi nilai ukuran tersebut agar model menjadi model yang "baik"
sangat bergantung pada topik penelitian dan sifat datanya.
- Berbagai interpretasi dimungkinkan untuk R-squared, tetapi dibandingkan
dengan regresi linier, interpretasi ini mengarah pada ukuran yang berbeda
dalam regresi logistik. Dua di antaranya adalah:
- Dalam kasus di mana J, jumlah pola kovariat distrik, lebih kecil dari N,
statistik harus dihitung sebagai (lihat hosmer dan lemeshow 2001: 165)
Information Measures
- Interpretasi umum: semakin kecil AIC atau BIC, semakin baik modelnya.
- AIC dan BIC dapat digunakan untuk membandingkan model (juga model yang
tidak bersarang). model dengan AIC atau BIC kecil lebih disukai.
- Interpretasi perbedaan BIC (kekuatan bukti yang mendukung model dengan
BIC yang lebih kecil); 0-2 lemah, 2-6 positif, 6-10 kuat,> 10 sangat kuat.
Probit Model
The Probit Model
- Satu alternative Prodit Model menggunakan the cumulative normal
distribution.
- Interpretasi koefisien mirip dengan Logit Model.
- Marginal Effect:
Latent Variable Model
- Model probit dan model logit dapat dinyatakan sebagai model variabel laten.
- Ide konseptualnya adalah bahwa ada variabel Y * yang tidak teramati yang
mencerminkan kecenderungan Y untuk mengambil nilai 1 dan terkait dengan
kovariat secara linier.
- The model is
- Model pilihan diskrit: Y * dapat diartikan sebagai perbedaan antara utilitas
dari dua alternatif (plus error).
Example: Logit versus Probit
The Probit Model for Ungrouped or Individual Data
Ke model logit dan probit di GPA dan PSI tersebut secara statistik signifikan tetapi TUCE
tidak. Selain itu, secara bersama-sama variabel penjelas memiliki pengaruh yang signifikan
terhadap kelas, karena nilai F 6,6456 signifikan secara statistik karena nilai p-nya hanya
0,0015.
The Marginal Effect of a Unit Change in the Value of a Regressor in the
Various Regression Models
Dalam model regresi linier, koefisien kemiringan mengukur perubahan nilai rata-
rata regresi dan untuk satu unit perubahan nilai regressor, dengan semua variabel
lain dianggap konstan.
Dalam LPM, koefisien kemiringan mengukur secara langsung perubahan
probabilitas suatu peristiwa yang terjadi sebagai hasil dari perubahan satuan dalam
nilai regressor, dengan pengaruh semua variabel lain dianggap konstan.
Interpreting the Logit and Probit Estimates
Mengingat komputer modern, dari perspektif praktis aspek yang paling sulit dari
model logit atau probit adalah menyajikan dan menafsirkan hasilnya. perkiraan
koefisien, kesalahan standarnya, dan nilai fungsi log-likehood dilaporkan oleh
semua paket perangkat lunak yang melakukan logit dan probit, dan ini harus
dilaporkan dalam aplikasi apa pun.