2A. Regresi Linear Sederhana Model regresi linear sederhana terdiri atas fungsi rata rata dan fungsi varians (| ) (| ) Parameter pada fungsi rata-rata adalah intersep , yaitu nilai (| ) ketika x sama dengan nol dan kemiringan adalah besarnya perubahan (| ) setiap perubahan satu satuan x. Kita dapat menemukan banyak kemungkinan garis lurus dengan parameter yang bermacam-macam. Nilai dari parameter sering kali tidak diketahui sehingga harus diestimasi menggunakan data yang ada. Pada regresi linear sederhana, fungsi varians diasumsikan konstan, dengan nilai positive yang juga sering kali tidak diketahui. Karena varians sehingga menyebabkan tidak sama dengan nilai harapannya (| ) . Untuk menghitung perbedaan antara nilai observasi dan nilai harapannya, maka ada suatu nilai yang disebut nilai eror, yang dapat didefinisikan pada persamaan (| ) . Besarnya nilai eror ini bergantung pada parameter lain yang tidak diketahui pada fungsi rata-rata dan juga menjadi nilai yang tidak dapat diobservasi. Eror juga merupakan variabel acak dan dapat diukur dengan menghitung jarak antara titik dengan garis fungsi rata-rata (| ). Ada dua asumsi penting yang berkaitan dengan eror. Yang pertama, kita mengasumsikan ( | ) , sehingga jika kita menggambarkan diagram pencar dari dan , maka didapatkan diagram pencar yang tidak memiliki pola. Asumsi yang kedua adalah jika eror –erornya adalah independen, maka nilai suatu eror tidak bisa memberikan informasi tentang nilai eror pada kasus yang berbeda.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
2A. Regresi Linear Sederhana
Model regresi linear sederhana terdiri atas fungsi rata rata dan
fungsi varians
( | )
( | )
Parameter pada fungsi rata-rata adalah intersep , yaitu nilai
( | ) ketika x sama dengan nol dan kemiringan adalah
besarnya perubahan ( | ) setiap perubahan satu satuan x. Kita
dapat menemukan banyak kemungkinan garis lurus dengan parameter
yang bermacam-macam. Nilai dari parameter sering kali tidak
diketahui sehingga harus diestimasi menggunakan data yang ada. Pada
regresi linear sederhana, fungsi varians diasumsikan konstan, dengan
nilai positive yang juga sering kali tidak diketahui.
Karena varians sehingga menyebabkan tidak sama
dengan nilai harapannya ( | ) . Untuk menghitung perbedaan
antara nilai observasi dan nilai harapannya, maka ada suatu nilai yang
disebut nilai eror, yang dapat didefinisikan pada persamaan
( | ) . Besarnya nilai eror ini bergantung pada
parameter lain yang tidak diketahui pada fungsi rata-rata dan juga
menjadi nilai yang tidak dapat diobservasi. Eror juga merupakan
variabel acak dan dapat diukur dengan menghitung jarak antara titik
dengan garis fungsi rata-rata ( | ).
Ada dua asumsi penting yang berkaitan dengan eror. Yang
pertama, kita mengasumsikan ( | ) , sehingga jika kita
menggambarkan diagram pencar dari dan , maka didapatkan
diagram pencar yang tidak memiliki pola. Asumsi yang kedua adalah
jika eror –erornya adalah independen, maka nilai suatu eror tidak bisa
memberikan informasi tentang nilai eror pada kasus yang berbeda.
Gambar 2.1 garis lurus ( | ) adalah nilai
( | ) ketika x sama dengan nol dan adalah besarnya
perubahan ( | ) setiap perubahan satu satuan x.
Contoh soal
Dalam suatu penelitian mengenai banyaknya curah hujan dan
banyaknya debu yang hilang terbawa hujan, diperoleh data sebagai
berikut :
Curah Hujan
(0,01 cm)
Debu yang Terbawa
(mikrogram per meter kubik)
4,3 126
4,5 121
5,9 116
5,6 118
6,1 114
5,2 118
3,8 132
2,1 141
7,5 108
a. Tentukan persamaan garis regresinya untuk meramalkan debu
yang terbawa berdasarkan curah hujan dengan
menggambarkan diagram pencarnya terlebih dahulu
b. Dugalah banyaknya debu yang terbawa hujan bila curah
hujannya x = 4,8 satuan
Jawab :
a.
x y xy x2
4,3 126 541,8 18,5
4,5 121 544,5 20,3
5,9 116 684,4 34,8
5,6 118 660,8 31,4
6,1 114 695,4 37,2
5,2 118 613,6 27,0
3,8 132 501,6 14,4
2,1 141 296,1 4,4
7,5 108 810,0 56,3
∑ 45 ∑ 1094 ∑ 5348,2 ∑ 244,3
= 5 = 121,5556
Rumus persamaan garis regresi linear sederhana adalah sebagai
berikut
Langkah pertama adalah menemukan nilai menggunakan rumus
∑
(∑ ) (∑ )
∑
(∑ )
( )( )
( )
Setelah itu, gunakan rumus untuk menemukan nilai
( )( )
Sehinnga persamaan garis regresinya
Ini berarti, setiap bertambahnya curah hujan sebanyak 1 satuan, maka
jumlah debu yang terbawa berkurang sebanyak 6,3437 satuan.
Kemudian jika curah hujan sama dengan nol, maka jumlah debu yang
terbawa adalah 153,2741 satuan. Jika dikerjakan menggunakan poram
Rstudio, maka diperoleh hasil :
b. Untuk mengetahui banyaknya debu yang terbawa jika curah hujan
= 4,8 kita gunakan persamaan garis regresi linear sederhana yaitu
:
Kemudian subtitusikan nilai x ke persamaan
( )
Jika curah hujan sebesar 4,8 satuan, maka diperkirakan jumlah debu
yang terbawa adalah 122,8243 satuan.
2B. Asumsi Model Regresi Linier Sederhana
Asumsi-asumsi klasik model regresi linier sederhana ialah
beberapa pesyaratan yang harus ditaati saat kita menggunakan
prosedur regresi linear, diantaranya sebagai berikut:
1. Model regresi harus linier dalam parameter.
2. Variable bebas tidak berkorelasi dengan disturbance term
(error)
3. Nilai disturbance term sebesar 0 atau dengan symbol
sebagai berikut : E(U/X)=0
4. Varian untuk masing-masing error term (kesalahan)
konstan
5. Tidak terjadi autokorelasi
6. Model regresi dispesifikasi secara benar. Tidak terdapat
bias spesifikasi dalam model yang digunakan dalam
analisis empiris
7. Jika variable bebas lebih dari satu, maka antara variable
bebas (explanatory) tidak ada hubungan linier yang nyata.
(Sarwono, 2013)
Dengan demikian dalam melakukan analisis regresi berlaku
asumsi homoskedastisitas yaitu residu yang ada memiliki variansi yang
konstan atau dengan kata lain, variansi residu tidak meningkat atau
menurun dengan pola tertentu.
Dalam analisis model regresi linear jika asumsi homoskedastisitas
tidak terpenuhi sementara asumsi model regresi lainnya terpenuhi
maka penduga akan tetap memenuhi syarat unbias namun menjadi
tidak efisien karena penduga tidak memiliki varian terkecil diantara
penduga unbias lainnya. Untuk menguji homoskedastisitas, salah
satunya dengan menggunakan pengujian Levene untuk data variable
berskala non-metrik.
Jadi, homoskedastisitas merupakan asumsi dimana variable tergantung
menunjukkan tingkatan varian yang sama untuk semua variable
bebasnya. Jika penyebaran nilai varian pada semua variabel bebas
tidak sama maka hubungan tersebut dikatakan sebagai
heteroskedastisitas.
Asumsi lainnya yaitu tidak ada korelasi serial (autokorelasi)
antara pengganggu Ԑi , yang berarti kovarian (Ԑi,Ԑj) i≠j Hal ini
berarti data yang berbasis waktu (time-series), seharusnya tidak ada
korelasi antara data dari waktu ke waktu.
Autokorelasi ialah terjadi korelasi dalam variabel bebas yang
mengganggu hubungan variabel bebas tersebut dengan variabel
tergantung. Untuk pengujian autokorelasi kita menggunakan nilai dari
Durbin – Watson (DW). Kisaran nilai DW mulai dari 0 – 4. tidak terjadi
autokorelasi jika: - ≤ DW ≤ (Sarwono )
Dalam asumsi ini juga tidak terdapat multikolinearitas antar
variable bebas X. Model regresi yang baik memiliki variabel-variabel
independen yang tidak berkorelasi satu dengan yang lainnya, hal ini
dapat diuji melalui nilai korelasi antar variabel independen.
multikolinearitas ialah terjadinya korelasi antar variabel bebas dalam
regresi linier berganda dengan nilai yang sangat tinggi atau sangat
rendah. Nilai-nilai yang digunakan untuk menguji otokorelasi
diantaranya: nilai variance inflation factor (VIF) dengan ketentuan jika
nilai VIF > 5, maka terjadi multikolinieritas; nilai condition index
dengan ketentuan jika nilai condition index > 5, maka terjadi
multikolinieritas; nilai korelasi antar variable bebas dengan ketentuan
jika nilai koefesien korelasi antara variable bebas > 0,7 atau < - 7
maka terjadi multikolinieritas. (Sarwono, 2013)
Selain itu juga terdapat asumsi kenormalan. Normalitas data
berkaitan dengan distribusi suatu data. Data yang mempunyai
distribusi normal artinya data yang distribusinya simetris sempurna.
Menurut Johnston (2004) ciri-ciri data yang mempunyai distribusi
normal ialah sebagai berikut:
a) Kurva frekuensi normal menunjukkan frekuensi tertinggi
berada di tengah-tengah, yaitu berada pada rata-rata
(mean) nilai distribusi dengan kurva sejajar dan tepat
sama pada bagian sisi kiri dan kanannya. Kesimpulannya,
nilai yang paling sering muncul dalam distribusi normal
ialah rata-rata (average), dengan setengahnya berada
dibawah rata-rata dan setengahnya yang lain berada di
atas rata-rata;
b) Kurva normal, sering juga disebut sebagai kurva bel,
berbentuk simetris sempurna;
c) Karena dua bagian sisi dari tengah-tengah benar-benar
simetris, maka frekuensi nilai-nilai diatas rata-rata
(mean) akan benar-benar cocok dengan frekuensi nilai-
nilai di bawah rata-rata;
d) Frekuensi total semua nilai dalam populasi akan berada
dalam area dibawah kurva. Perlu diketahui bahwa area
total dibawah kurva mewakili kemungkinan munculnya
karakteristik tersebut;
e) Kurva normal dapat mempunyai bentuk yang berbeda-
beda. Yang menentukan bentuk-bentuk tersebut adalah
nilai rata-rata dan simpangan baku (standard deviation)
populasi.
2C. Ordinary Least Square
Ordinary Least Square (OLS) dapat di katakan sebagai penduga
model regresi yang paling banyak digunakan sampai sekarang.
OLS secara umum memiliki bentuk
(3.1)
Dimana merupakan hasil variabel pada kejadian , merupakan
konstanta regresi, adalah nilai ke pada kejadian pengamatan
variabel ke dan ℇ sebagai error Namun dengan menggunakan notasi
matriks, notasi (3.1) dapat direpresentasikan sebagai berikut
(3.2)
Tetapi seperti halnya penduga yang lain, OLS memerlukan
beberapa asumsi yang harus dipenuhi agar dapat dikatan sebagai
penduga yang baik. Asumsi yang harus dipenuhi tersebut adalah :
1. harus berasal dari persamaan (3.1)
2. harus bersifat tetap, bukan random
3. Error harus tidak saling berkorelasi satu sama lain dengan
rata-rata 0 (minimal)
4. Varians yang konstan (homoskedastisitas)
(Hayes & Cai, A New Test of Linear Hypotheses in OLS Regession Under
Heteroscedasticity of Unknown Error, 2008)
Setelah semua asumsi di atas telah dipenuhi, maka dapat
menggunakan metode Least Square untuk menduga parameter.
Untuk mendapat estimator yang baik bagi parameter dan
kita bisa mendapatkannya dari expected value persamaan (3.2).
Namun metode Least Square juga mengharuskan kita memerhatikan
jumlah kuadrat dari deviasi n. Kriteria ini di notasikan sebagai .
Dimana merupakan ∑
∑ ∑ ( ) (3.3)
∑ ( )
(3.4)
Dimana dan yang memenuhi sebagai penduga adalah dan yang
jika disubtitusikan ke dan pada persamaan 3.4, dapat
meminimalkan nilai pada sampel yang tersedia.
Estimator dan yang dapat memenuhi kriteria diatas
tersebut bisa didapatkan dengan dua pendekatan yaitu,
1. Metode matematis. Metode ini mengharuskan kita
melakukan tes matematis ( subtitusi angka kedalam
persamaan (3.4) ) sampai di dapatkan dan yang dapat
meminimalkan Q
2. Metode analisis. Metode ini dilakukan dengan menurunkan
persamaan (3.4) . Metode ini lebih baik dilakukan ketika
persamaan regresi yang dihadapi tidak terlalu kompleks
secara matematis.
Metode Analisis
∑ ( ( ))
(3.5)
Untuk memenuhi asumsi dimana harus minimal maka,
∑ ( ( ))
(3.6a)
∑ ( ) ( )
(3.6b)
∑ ( ) ∑ ( ) ∑ ( )
(3.6c)
∑ ( ) ∑ ∑ ( )
(3.6d)
∑ ( ) ∑ ∑ ∑ ( )
(3.6e)
∑ ( ) ∑ ∑ ∑ ∑ ∑ ( )
(3.6f)
∑ ( ) ∑ ∑ ∑ ∑ ( )
(3.6g)
Dari persamaan (3.6g) tersebut, untuk mendapatkan nilai , maka
turunkan persamaan tersebut terhadap
∑ (
) ∑ ∑ ∑ ∑ ( )
(3.7a)
∑ ( ) ∑ ( ) (3.7b)
∑ ( ) ∑ (3.7c)
(3.7d)
Sedangkan untuk mendapatkan nilai , persamaan (3.6g) dapat
diturunkan terhadap
∑ (
) ∑ ∑ ∑ ∑ ( )
∑ ∑ ∑ ( ) (3.8b)
∑ ( )∑ ∑ ( ) (3.8c)
∑ ∑ ∑ ∑ ( ) (3.8d)
∑ ∑ ( ) ∑ ∑ (3.8e)
(∑ ∑ ) ∑ ∑ (3.8f)
∑ ∑
(∑ ∑ )
(3.8g)
∑ ∑
∑ ∑
(3.8h)
Jika penduga dan yang didapat dari perhitungan tersebut
mampu memenuhi keempat asumsi yang disebutkan di awal bahasan,
maka penduga tersebut biasa disebut dengan penduga yang bersifat
BLUE (Best Linear Unbiased Estimator). Yang artinya merupakan
estimator yang unbiased dan memiliki varian minimum dari seluruh
penduga linear yang lain.
-Fun Fact about OLS-
Dari keempat asumsi yang harus mampu dipenuhi oleh
estimator sehingga dapat disebut estimator yang baik, ada satu syarat
krusial yang harus dapat dipenuhi. Yaitu homoskedastisitas (varian
yang konstan dan minimal).
Tetapi, dalam sebuah jurnal yang ditulis oleh Andrew F. Hayes
(Ohio University) dan Li Cai (University of North Carollina) dan dikutip
dalam tulisan ini, telah dibuktikan kalau dengan pendekatan statistik
modern, bisa didapatkan penduga yang baik dengan menggunakan
data yang yang bersifat heteroskedastik dan tidak diketahui
bentuknya.
Jurnal tersebut berjudul A New Test of Linear Hypotheses in
OLS Regession Under Heteroscedasticity of Unknown Error
(www.afhayes.com/public/hetreg.pdf). Dan implementasinya pada
program dalam artikel jurnal berjudul Using heteroskedasticity-
consistent standard error estimators in OLS regression: An