TEORI Analisis Regresi (semester 5,pertemuan 2)

2A. Regresi Linear Sederhana

Model regresi linear sederhana terdiri atas fungsi rata rata dan

fungsi varians

( | )

( | )

Parameter pada fungsi rata-rata adalah intersep , yaitu nilai

( | ) ketika x sama dengan nol dan kemiringan adalah

besarnya perubahan ( | ) setiap perubahan satu satuan x. Kita

dapat menemukan banyak kemungkinan garis lurus dengan parameter

yang bermacam-macam. Nilai dari parameter sering kali tidak

diketahui sehingga harus diestimasi menggunakan data yang ada. Pada

regresi linear sederhana, fungsi varians diasumsikan konstan, dengan

nilai positive yang juga sering kali tidak diketahui.

Karena varians sehingga menyebabkan tidak sama

dengan nilai harapannya ( | ) . Untuk menghitung perbedaan

antara nilai observasi dan nilai harapannya, maka ada suatu nilai yang

disebut nilai eror, yang dapat didefinisikan pada persamaan

( | ) . Besarnya nilai eror ini bergantung pada

parameter lain yang tidak diketahui pada fungsi rata-rata dan juga

menjadi nilai yang tidak dapat diobservasi. Eror juga merupakan

variabel acak dan dapat diukur dengan menghitung jarak antara titik

dengan garis fungsi rata-rata ( | ).

Ada dua asumsi penting yang berkaitan dengan eror. Yang

pertama, kita mengasumsikan ( | ) , sehingga jika kita

menggambarkan diagram pencar dari dan , maka didapatkan

diagram pencar yang tidak memiliki pola. Asumsi yang kedua adalah

jika eror –erornya adalah independen, maka nilai suatu eror tidak bisa

memberikan informasi tentang nilai eror pada kasus yang berbeda.

Gambar 2.1 garis lurus ( | ) adalah nilai

( | ) ketika x sama dengan nol dan adalah besarnya

perubahan ( | ) setiap perubahan satu satuan x.

Contoh soal

Dalam suatu penelitian mengenai banyaknya curah hujan dan

banyaknya debu yang hilang terbawa hujan, diperoleh data sebagai

berikut :

Curah Hujan

(0,01 cm)

Debu yang Terbawa

(mikrogram per meter kubik)

4,3 126

4,5 121

5,9 116

5,6 118

6,1 114

5,2 118

3,8 132

2,1 141

7,5 108

a. Tentukan persamaan garis regresinya untuk meramalkan debu

yang terbawa berdasarkan curah hujan dengan

menggambarkan diagram pencarnya terlebih dahulu

b. Dugalah banyaknya debu yang terbawa hujan bila curah

hujannya x = 4,8 satuan

Jawab :

a.

x y xy x2

4,3 126 541,8 18,5

4,5 121 544,5 20,3

5,9 116 684,4 34,8

5,6 118 660,8 31,4

6,1 114 695,4 37,2

5,2 118 613,6 27,0

3,8 132 501,6 14,4

2,1 141 296,1 4,4

7,5 108 810,0 56,3

∑ 45 ∑ 1094 ∑ 5348,2 ∑ 244,3

= 5 = 121,5556

Rumus persamaan garis regresi linear sederhana adalah sebagai

berikut

Langkah pertama adalah menemukan nilai menggunakan rumus

∑

(∑ ) (∑ )

∑

(∑ )

( )( )

( )

Setelah itu, gunakan rumus untuk menemukan nilai

( )( )

Sehinnga persamaan garis regresinya

Ini berarti, setiap bertambahnya curah hujan sebanyak 1 satuan, maka

jumlah debu yang terbawa berkurang sebanyak 6,3437 satuan.

Kemudian jika curah hujan sama dengan nol, maka jumlah debu yang

terbawa adalah 153,2741 satuan. Jika dikerjakan menggunakan poram

Rstudio, maka diperoleh hasil :

b. Untuk mengetahui banyaknya debu yang terbawa jika curah hujan

= 4,8 kita gunakan persamaan garis regresi linear sederhana yaitu

:

Kemudian subtitusikan nilai x ke persamaan

( )

Jika curah hujan sebesar 4,8 satuan, maka diperkirakan jumlah debu

yang terbawa adalah 122,8243 satuan.

2B. Asumsi Model Regresi Linier Sederhana

Asumsi-asumsi klasik model regresi linier sederhana ialah

beberapa pesyaratan yang harus ditaati saat kita menggunakan

prosedur regresi linear, diantaranya sebagai berikut:

1. Model regresi harus linier dalam parameter.

2. Variable bebas tidak berkorelasi dengan disturbance term

(error)

3. Nilai disturbance term sebesar 0 atau dengan symbol

sebagai berikut : E(U/X)=0

4. Varian untuk masing-masing error term (kesalahan)

konstan

5. Tidak terjadi autokorelasi

6. Model regresi dispesifikasi secara benar. Tidak terdapat

bias spesifikasi dalam model yang digunakan dalam

analisis empiris

7. Jika variable bebas lebih dari satu, maka antara variable

bebas (explanatory) tidak ada hubungan linier yang nyata.

(Sarwono, 2013)

Dengan demikian dalam melakukan analisis regresi berlaku

asumsi homoskedastisitas yaitu residu yang ada memiliki variansi yang

konstan atau dengan kata lain, variansi residu tidak meningkat atau

menurun dengan pola tertentu.

Dalam analisis model regresi linear jika asumsi homoskedastisitas

tidak terpenuhi sementara asumsi model regresi lainnya terpenuhi

maka penduga akan tetap memenuhi syarat unbias namun menjadi

tidak efisien karena penduga tidak memiliki varian terkecil diantara

penduga unbias lainnya. Untuk menguji homoskedastisitas, salah

satunya dengan menggunakan pengujian Levene untuk data variable

berskala non-metrik.

Jadi, homoskedastisitas merupakan asumsi dimana variable tergantung

menunjukkan tingkatan varian yang sama untuk semua variable

bebasnya. Jika penyebaran nilai varian pada semua variabel bebas

tidak sama maka hubungan tersebut dikatakan sebagai

heteroskedastisitas.

Asumsi lainnya yaitu tidak ada korelasi serial (autokorelasi)

antara pengganggu Ԑi , yang berarti kovarian (Ԑi,Ԑj) i≠j Hal ini

berarti data yang berbasis waktu (time-series), seharusnya tidak ada

korelasi antara data dari waktu ke waktu.

Autokorelasi ialah terjadi korelasi dalam variabel bebas yang

mengganggu hubungan variabel bebas tersebut dengan variabel

tergantung. Untuk pengujian autokorelasi kita menggunakan nilai dari

Durbin – Watson (DW). Kisaran nilai DW mulai dari 0 – 4. tidak terjadi

autokorelasi jika: - ≤ DW ≤ (Sarwono )

Dalam asumsi ini juga tidak terdapat multikolinearitas antar

variable bebas X. Model regresi yang baik memiliki variabel-variabel

independen yang tidak berkorelasi satu dengan yang lainnya, hal ini

dapat diuji melalui nilai korelasi antar variabel independen.

multikolinearitas ialah terjadinya korelasi antar variabel bebas dalam

regresi linier berganda dengan nilai yang sangat tinggi atau sangat

rendah. Nilai-nilai yang digunakan untuk menguji otokorelasi

diantaranya: nilai variance inflation factor (VIF) dengan ketentuan jika

nilai VIF > 5, maka terjadi multikolinieritas; nilai condition index

dengan ketentuan jika nilai condition index > 5, maka terjadi

multikolinieritas; nilai korelasi antar variable bebas dengan ketentuan

jika nilai koefesien korelasi antara variable bebas > 0,7 atau < - 7

maka terjadi multikolinieritas. (Sarwono, 2013)

Selain itu juga terdapat asumsi kenormalan. Normalitas data

berkaitan dengan distribusi suatu data. Data yang mempunyai

distribusi normal artinya data yang distribusinya simetris sempurna.

Menurut Johnston (2004) ciri-ciri data yang mempunyai distribusi

normal ialah sebagai berikut:

a) Kurva frekuensi normal menunjukkan frekuensi tertinggi

berada di tengah-tengah, yaitu berada pada rata-rata

(mean) nilai distribusi dengan kurva sejajar dan tepat

sama pada bagian sisi kiri dan kanannya. Kesimpulannya,

nilai yang paling sering muncul dalam distribusi normal

ialah rata-rata (average), dengan setengahnya berada

dibawah rata-rata dan setengahnya yang lain berada di

atas rata-rata;

b) Kurva normal, sering juga disebut sebagai kurva bel,

berbentuk simetris sempurna;

c) Karena dua bagian sisi dari tengah-tengah benar-benar

simetris, maka frekuensi nilai-nilai diatas rata-rata

(mean) akan benar-benar cocok dengan frekuensi nilai-

nilai di bawah rata-rata;

d) Frekuensi total semua nilai dalam populasi akan berada

dalam area dibawah kurva. Perlu diketahui bahwa area

total dibawah kurva mewakili kemungkinan munculnya

karakteristik tersebut;

e) Kurva normal dapat mempunyai bentuk yang berbeda-

beda. Yang menentukan bentuk-bentuk tersebut adalah

nilai rata-rata dan simpangan baku (standard deviation)

populasi.

2C. Ordinary Least Square

Ordinary Least Square (OLS) dapat di katakan sebagai penduga

model regresi yang paling banyak digunakan sampai sekarang.

OLS secara umum memiliki bentuk

(3.1)

Dimana merupakan hasil variabel pada kejadian , merupakan

konstanta regresi, adalah nilai ke pada kejadian pengamatan

variabel ke dan ℇ sebagai error Namun dengan menggunakan notasi

matriks, notasi (3.1) dapat direpresentasikan sebagai berikut

(3.2)

Tetapi seperti halnya penduga yang lain, OLS memerlukan

beberapa asumsi yang harus dipenuhi agar dapat dikatan sebagai

penduga yang baik. Asumsi yang harus dipenuhi tersebut adalah :

1. harus berasal dari persamaan (3.1)

2. harus bersifat tetap, bukan random

3. Error harus tidak saling berkorelasi satu sama lain dengan

rata-rata 0 (minimal)

4. Varians yang konstan (homoskedastisitas)

(Hayes & Cai, A New Test of Linear Hypotheses in OLS Regession Under

Heteroscedasticity of Unknown Error, 2008)

Setelah semua asumsi di atas telah dipenuhi, maka dapat

menggunakan metode Least Square untuk menduga parameter.

Untuk mendapat estimator yang baik bagi parameter dan

kita bisa mendapatkannya dari expected value persamaan (3.2).

Namun metode Least Square juga mengharuskan kita memerhatikan

jumlah kuadrat dari deviasi n. Kriteria ini di notasikan sebagai .

Dimana merupakan ∑

∑ ∑ ( ) (3.3)

∑ ( )

(3.4)

Dimana dan yang memenuhi sebagai penduga adalah dan yang

jika disubtitusikan ke dan pada persamaan 3.4, dapat

meminimalkan nilai pada sampel yang tersedia.

Estimator dan yang dapat memenuhi kriteria diatas

tersebut bisa didapatkan dengan dua pendekatan yaitu,

1. Metode matematis. Metode ini mengharuskan kita

melakukan tes matematis ( subtitusi angka kedalam

persamaan (3.4) ) sampai di dapatkan dan yang dapat

meminimalkan Q

2. Metode analisis. Metode ini dilakukan dengan menurunkan

persamaan (3.4) . Metode ini lebih baik dilakukan ketika

persamaan regresi yang dihadapi tidak terlalu kompleks

secara matematis.

Metode Analisis

∑ ( ( ))

(3.5)

Untuk memenuhi asumsi dimana harus minimal maka,

∑ ( ( ))

(3.6a)

∑ ( ) ( )

(3.6b)

∑ ( ) ∑ ( ) ∑ ( )

(3.6c)

∑ ( ) ∑ ∑ ( )

(3.6d)

∑ ( ) ∑ ∑ ∑ ( )

(3.6e)

∑ ( ) ∑ ∑ ∑ ∑ ∑ ( )

(3.6f)

∑ ( ) ∑ ∑ ∑ ∑ ( )

(3.6g)

Dari persamaan (3.6g) tersebut, untuk mendapatkan nilai , maka

turunkan persamaan tersebut terhadap

∑ (

) ∑ ∑ ∑ ∑ ( )

(3.7a)

∑ ( ) ∑ ( ) (3.7b)

∑ ( ) ∑ (3.7c)

(3.7d)

Sedangkan untuk mendapatkan nilai , persamaan (3.6g) dapat

diturunkan terhadap

∑ (

) ∑ ∑ ∑ ∑ ( )

∑ ∑ ∑ ( ) (3.8b)

∑ ( )∑ ∑ ( ) (3.8c)

∑ ∑ ∑ ∑ ( ) (3.8d)

∑ ∑ ( ) ∑ ∑ (3.8e)

(∑ ∑ ) ∑ ∑ (3.8f)

∑ ∑

(∑ ∑ )

(3.8g)

∑ ∑

∑ ∑

(3.8h)

Jika penduga dan yang didapat dari perhitungan tersebut

mampu memenuhi keempat asumsi yang disebutkan di awal bahasan,

maka penduga tersebut biasa disebut dengan penduga yang bersifat

BLUE (Best Linear Unbiased Estimator). Yang artinya merupakan

estimator yang unbiased dan memiliki varian minimum dari seluruh

penduga linear yang lain.

-Fun Fact about OLS-

Dari keempat asumsi yang harus mampu dipenuhi oleh

estimator sehingga dapat disebut estimator yang baik, ada satu syarat

krusial yang harus dapat dipenuhi. Yaitu homoskedastisitas (varian

yang konstan dan minimal).

Tetapi, dalam sebuah jurnal yang ditulis oleh Andrew F. Hayes

(Ohio University) dan Li Cai (University of North Carollina) dan dikutip

dalam tulisan ini, telah dibuktikan kalau dengan pendekatan statistik

modern, bisa didapatkan penduga yang baik dengan menggunakan

data yang yang bersifat heteroskedastik dan tidak diketahui

bentuknya.

Jurnal tersebut berjudul A New Test of Linear Hypotheses in

OLS Regession Under Heteroscedasticity of Unknown Error

(www.afhayes.com/public/hetreg.pdf). Dan implementasinya pada

program dalam artikel jurnal berjudul Using heteroskedasticity-

consistent standard error estimators in OLS regression: An

introduction and software implementation

(link.springer.com/article/10.3758/BF03192961).

http://www.afhayes.com/public/hetreg.pdf

2D. Maximum Likelihood Estimation (MLE)

Statistik inferensi digunakan untuk memprediksi keadaan dari suatu

populasi berdasarkan sampel yang diambil. Dalam statistika inferensia

ini, seringkali diasumsikan bahwa distribusi populasi diketahui. Salah

satu teknik yang sering digunakan untuk menaksir parameter bila

distribusi populasi diketahui adalah dengan Maximum Likelihood

Estimation.

Pada MLE, teknik penaksiran parameternya lebih mudah, akan tetapi

teknik ini hanya dapat digunakan bilamana distribusi populasi

diketahui. Selain itu, MLE juga sangat sensitif terhadap data ektrim.

Data ekstrim ini sangat berpengaruh terhadap nilai-nilai mean maupun

variansi.

Estimasi Parameter dengan Maximum Likelihood

Ketika bentuk fungsional dari distribusi probabilitas dimana kesalahan

(error) ditentukan, estimator dari parameter β0 β1 dan 2 dapat

diperoleh dengan metode maximum likelihood. Pada dasarnya, metode

ini memperkirakan nilai-nilai parameter yang paling konsisten dengan

data sampel. Sebagai contoh penjelasan, kita gunakan kasus sederhana

ketika ada sebuah populasi tunggal dengan satu parameter sampel.

Misalnya sebuah populasi berdistribusi normal dimana standar

deviasinya diketahui yaitu = 10 dan rata-ratanya tidak diketahui.

Kemudian diambil sampel acak sebanyak n=3 dari populasi dan

menghasilkan Y1 = 250, Y2 = 265, dan Y3 = 259. Selanjutnya kita akan

memastikan nilai 𝜇 yang paling konsisten dengan data sampel.

Misalnya kita tetapkan 𝜇 = 230. Pada Gambar 1.13.a menunjukan

distribusi normal dengan 𝜇 = 230 dan = 10 serta lokasi dari ketiga

sampel pengamatan. Perhatikan bahwa sampel observasi berada

dibagian right-tail dari distribusi. Karena dengan nilai tersebut tidak

menghasilkan gambaran distribusi yang tepat, maka 𝜇 = 230 tidak

konsisten dengan data sampel.

Gambar1.13

Pada Gambar 1.13.b menunjukan distribusi dan lokasi ketiga sampel

jika 𝜇 = 259. Sekarang hasil pengamatan akan berada di tengah

distribusi. Oleh karena itu, 𝜇 = 259 lebih konsisten dibandingkan

dengan data sampel dari 𝜇 = 230. Metode Maximum Likelihood

menggunakan densitas distribusi probabilita di Yi , yaitu ketinggian

kurva di Yi sebagai ukuran konsistensi pengamatan. Jika Yi berada di

bagian ekor seperti Gambar 1.13.a, ketinggian kurva akan menjadi

sangat kecil, tetapi jika Yi lebih ke pusat distribusi seperti Gambar

1.13.b maka tingginya akan lebih besar.

Dengan menggunakan fungsi kepadatan untuk probabilitas normal,

kita akan menemukan kepadatan untuk Y1 yang dilambakan dengan f1

untuk dua kasus 𝜇.

Fungsi kepadatan untuk ketiga sampel:

Metode Maximum Likelihood menggunakan produk dari densities atau

kepadatan (dalam hal ini produk dari tiga ketinggian) sebagai ukuran

konsistensi nilai parameter dengan data sampel. Produk ini disebut

Likelihood Value dari parameter 𝜇 dan dilambangkan dengan L(𝜇). Jika

𝜇 konsisten dengan data sampel kepadatan akan relatif besar, dan

sebaliknya akan relatif kecil jika 𝜇 tidak konsisten.

Untuk contoh tersebut:

Dari hasil perhitungan di atas, kita dapat melihat bahwa Likelihood

Value untuk = 230 sangat kecil, jika dibadingkan dengan Likelihood

Value untuk 𝜇 = 259. Oleh karena itu 𝜇 = 259 jauh lebih konsisten

dengan data sampel dibandingkan dengan 𝜇 = 230.

Model Regresi

Dalam konsep model regresi, setiap observasi Yi memiliki distribusi

normal dengan Mean β0 β1Xi dan standar deviasi . Untuk

menggambarkan metode ini, kita ambil contoh misalanya kita tetapkan

= 2.5. Kemudian kita akan menentukan Likelihood Value untuk

parameter β0 dan β1 = 0.5.

Gambar1.15

Untuk subjek pertama, X1 = 20, maka rata-rata dari distribusi

probabilitas akan β0 β1X1 = 0 + 0.5(20) = 10. Gambar 1.15.a

memperlihatkan sebuah distribusi normal dengan rata-rata 10 dan

standar deviasi 2.5. Perhatikan bahwa Y1 berada pada left tail dari

distribusi, yang berarti bahwa nilai kepadatan relatif cukup kecil.

Untuk subjek kedua, X2 = 55, maka rata-rata dari distribusi

probabilitas akan β0 β1X1 = 0 + 0.5(55) = 27.5. Gambar 1.15.b

memperlihatkan sebuah distribusi normal dengan rata-rata 27.5.

Perhatikan bahwa nilai Y2 adalah tidak mungkin dan hal ini berarti

bahwa nilai kepadatanya sangat kecil.

Kemudian untuk subjek ketiga, kita dapat nilai Y3 = 10 dan tetap

berada pada left tail dari distribusi. Dari gambar 1.15.c terlihat bahwa

saat Y3 = 10 juga masih memiliki nilai kepadatan yang relatif kecil.

Gambar1.15

Pada Gambar 1.15.d menggabungkan semua informasi, dan

menunjukan fungsi regresi E(Y) = 0 + 0.5X. Perhatikan bagaimana

garis regresi kurang cocok dengan ketiga kasus sampel. Oleh karena

itu dapat diketahui bahwa β0 = 0 dan β1 = 0.5 tidak konsisten dengan

data.

Jika kita hitung densities atau kepadatan (contoh: tinggi kurva) untuk

Y1 = 5, X1 = 20, maka hasilnya ialah:

Untuk hasil yang lainnya, yaitu f2 = 0.7175 x 10-9 dan f3 = 0.021596.

Kemudian didapat Likelihood Value dari β0 = 0 dan β1 = 0.5, dimana:

L(β0 = 0, β1 = 0.5) = (0.021596)x(0.7175 x 10-9) x (0.021596) = 0.3346x10-12

Secara umum, density atau kepadatan pengamatan Yi untuk error

regresi normal adalah sebagai berikut:

........... 1.25

Fungsi Likelihood untuk n pengamatan Y1, Y2, ..., Yn adalah produk dari

kepadatan di fungsi 1.25. Karena varians 2 biasanya tidak diketahui,

fungsi Likelohood adalah sebuah fungsi dengan tiga parameter yaitu β0,

β1, dan 2, dimana fungsi tersebut:

........ 1.26

Dengan demikian penduga Maximum Likelihood dari β0 dan β1 adalah

estimator yang sama dengan yang ada di metode Least Square.

Sedangkan estimator untuk 2 merupakan estimator yang bias.

Perhatikan bahwa estimator unbiased MSE atau s2 berbeda sedikit dari

estimator 2, terutama jika nilai n besar:

References Berry, W. D. (1993). Understanding Regression Asumptions. Newbury

Park: Sage Publication

Hayes, A. F., & Cai, L. (2007). Using heteroskedasticity-consistent

standard error estimators in OLS regression: An introduction

and software implementation. Behavior Research Methods, 39(4), 709-722

Hayes, A. F., & Cai, L. (2008). A New Test of Linear Hypotheses in OLS

Regession Under Heteroscedasticity of Unknown Error. Journal of Educational and Behavioral Statistics, 21-40

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Model 5th Ed. New York: McGraw-Hill Irwin

Michael H. Kutner, dkk. Applied Linear Statistical Models Fifth Edition

Michael Kutner, C. N. (2004). Applied Linear Regression Models [Only Chapters 1, 2, 13] [4 ed.]. McGraw-Hill/Irwin.

Sarwono, Jonathan. (2013). 12 Jurus Ampuh SPSS untuk Riset Skripsi. Jakarta : Elexmedia Komputindo Kompas Gramedia

Weisberg, S. (2013). Applied Linear Regression, Third Edition (Wiley Series in Probability and Statistics) [4ed.]. Minnesota: Wiley.

TEORI Analisis Regresi (semester 5,pertemuan 2)

Documents