1 ANALISIS REGRESI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X,)+
61
Embed
MODUL PRAKTIKUM REGRESI - · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
ANALISIS REGRESI
Analisis regresi adalah analisis statistika yang bertujuan untuk
memodelkan hubungan antara variabel independent dengan variabel
dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886)
melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary
Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan
anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi
adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya.
Model yang menggambarkan hubungan antara variabel independent (X)
dengan variabel dependent (Y) adalah :
Y= f(X,) +
2
Hubungan antara variabel independent dengan variabel dependent
dikatakan linear jika dapat dinyatakan dalam model :
Y = X1 + X2 + …+ pXp +
Dalam catatan matriks, model regresi linear dapat ditulis dalam :
Y =X
atau
npnpn
p
p
n XX
XXXX
Y
YY
......1
............1...1
...2
1
1
0
1
221
111
2
1
Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil
dengan cara :
)'()'(ˆ 1 YXXX
p
ˆ...
ˆˆ
ˆ 2
0
21[
1211
1
.........
)'(
ppp
p
p
xxxx
xxxxxxn
XX
yx
yxy
YX
p
...)'( 1
Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian
secara serentak dan pengujian secara individu.
Pengujian secera serentak
Hipotesis :
H0 :
H1 :
3
Statistik Uji
Sumber
Variasi
df Sum of
Squares
MS F
Regresi p 2)ˆ( YY pYY /)ˆ( 2 sidualMSgresiMS
Re.Re.
Residual n-p-1 2)( YY )1/()( 2 pnYY
Total n-1 2)( YY
Tolak Ho jika F>F,p,n-p-1
Pengujian secara individu
Hipotesis
H0 : I = 0
H1 : I 0
Statistik uji
is
t i
ˆ
ˆ
Tolak H0 jika |t|>tn-p-1
Kegiatan Praktikum
Tentukan model yang menggambarkan hubungan antara harapan hidup
perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang
dinyatakan dalam :
Y = ln(gdp_cap) + ln(density) +
Penyelesaian :
a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik
transform+ compute]
4
5
b. Melakukan analisis regresi ;[klik+analyze+regression+linear]
dan hasilnya adalah :
Model Summary
.840a .706 .700 5.788Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), ln_gdp, ln_densa.
ANOVAb
8519.080 2 4259.540 127.141 .000a
3551.268 106 33.50312070.349 108
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), ln_gdp, ln_densa.
Dependent Variable: Average female life expectancyb.
6
Coefficientsa
17.981 3.501 5.136 .000.904 .388 .123 2.332 .022
6.150 .390 .831 15.766 .000
(Constant)ln_densln_gdp
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Average female life expectancya.
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y)
oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam
model :
Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)
7
PEMILIHAN MODEL TERBAIK
Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan
model terbaik yang menjelaskan hubungan antara variabel independent
dengan variabel dependent, model terbaik adalah model yang seluruh
koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik
optimum. Beberapa kriteria model terbaik adalah :
Nomor Kriteria Formula Optimum
1 SSE 2)( YY Minimum
2 MSE )1/()( 2 pnYY Minimum
3 R2
%100)(
)ˆ(2
2
YY
YY Maksimum
4 Adjusted
R2 )()1(
]1[1 2
pnn
R
Maksimum
5 Cp Mallow)2( pn
MSESSE
Minimum
6 AIC ln(SSE/n) +2p/n Minimum
7 SBC ln(SSE/n)+p/n ln(n) Minimum
8
Untuk memperoleh model terbaik, ada beberapa metode yang biasa
digunakan yaitu :
Metode Penjelasan
Backward Mulai dengan model lengkap, kemudian variabel independent
yang ada dievaluasi, jika ada yang tidak significant dikeluarkan
yang paling tidak significant, dilakukan terus menerus sampai
tidak ada lagi variabel independent yang tidak significant
Forward Variabel independent yang pertama kali masuk ke dalam model
adalah variabel yang mempunyai korelasi tertinggi dan
significant dengan variabel dependent, variabel yang masuk
kedua adalah variabel yang korelasinya dengan variabel
dependent adalah tertinggi kedua dan masih significant,
dilakukan terus menerus sampai tidak ada lagi variabel
independent yang significant
StepSwise Gabungan antara metode forward dan backward, variabel yang
pertama kali masuk adalah variabel yang korelasinya tertinggi
dan significant dengan variabel dependent, variabel yang masuk
kedua adalah variabel yang korelasi parsialnya tertinggi dan
masih significant, setelah variabel tertentu masuk ke dalam
model maka variabel lain yang ada di dalam model dievaluasi,
jika ada variabel yang tidak significant maka variabel tersebut
dikeluarkan
Best subset
regression
Metode ini tersedia di dalam program paket MINITAB. Metode
ini menyajikan k buah model terbaik untuk model dengan
1,2,…,p variabel independent.
9
Kegiatan Praktikum
Tentukan model terbaik yang menggambarkan hubungan antara harapan
hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap),
persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang
dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt).
rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories)
dengan menggunakan metode stepwise dan best subset regression.
Penyelesaian :
Dengan bantuan SPSS permasalahan di atas dapat diselesaikan
(Constant)People who read (%)(Constant)People who read (%)Death rate per 1000people(Constant)People who read (%)Death rate per 1000peopleGross domesticproduct / capita(Constant)People who read (%)Death rate per 1000peopleGross domesticproduct / capitaDaily calorie intake
Model1
2
3
4
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Average female life expectancya.
Dengan menggunakan best subset regression :[klik stat+regression+best
subset]
12
diperoleh hasil :
Response is LIFEEXPF
L C DI G A ET D L A
U E P O TR R _ R HB A C I _A C A E R
Vars R-Sq R-Sq(adj) C-p S N Y P S T
1 75.6 75.2 225.8 5.6979 X1 60.2 59.6 412.2 7.2752 X1 59.8 59.3 416.2 7.3055 X2 86.9 86.6 90.3 4.1981 X X2 85.8 85.4 103.5 4.3686 X X2 83.7 83.3 128.9 4.6816 X X3 93.1 92.8 17.5 3.0711 X X X3 92.1 91.7 30.1 3.2935 X X X3 89.6 89.2 59.8 3.7688 X X X4 94.3 93.9 5.5 2.8207 X X X X4 93.5 93.1 15.1 3.0095 X X X X4 92.5 92.1 26.2 3.2150 X X X X5 94.4 94.0 6.0 2.8112 X X X X X
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh
model terbaik yang mengandung variabel literacy, gdp_cap, calories dan
death_rt, hasil ini sama dengan metode stepwise
13
DUMMY VARIABLE
Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan
adanya variabel independent yang berskala nominal ataupun ordinal. Untuk
mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan
dummy variable adalah penentuan model terbaik yang menggambarkan
hubungan antara harapan hidup perempuan dengan pendapan perkapita dan
region (Asia dan Afrika).
Model yang menggambarkan hubungan antar variabel tersebut dapat
dinyatakan dalam persamaan regresi :
lifeexpf = ln(gdp_cap) + untuk region Asia
lifeexpf = ln(gdp_cap) + untuk region Afrika
Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi
dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk
region Asia dan 1 untuk region Afrika :
lifeexpf = ln(gdp_cap) + D + D*ln(gdp_cap) +
Nilai menggambarkan perbedaaan intercept antara region Asia dan
Afrika, sedangkan nilai menggambarkan perbedaan slope antara region Asia
dan Afrika.
Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika
dan Amerika Latin maka persamaan regresinya menjadi :
Dependent Variable: Average female life expectancya.
Model Summaryb
.860a .739 .722 5.744Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), ln_gdpa.
Dependent Variable: Average female life expectancyb.
22
Negara yang merupakan influential observation adalah Negara yang nilai
np
DFFIT 2 atau 69.0DFFIT , Negara tersebut adalah Negara
Afganistan, Cina, Kamboja dan Vietnam
23
ASUMSI DALAM ANALISIS REGRESI
Model linear yang menggambarkan hubungan antara variabel
independent dan variabel dependent adalah :
Y = X1 + X2 + …+ pXp +
Asumsi yang diperlukan untuk model ini adalah :
a. ~N(0. 2 )
b. var(i)= 2 untuk semua i
c. cov(I,j) = 0 untuk ij
d. antar X saling independent
Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi
dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan :
No. Masalah Deteksi Solusi
1 Residual tak
berdistribusi
normal
normal probability plot
Uji kenormalan : KS,…
Tranformasi variabel
Regresi bootstrap
2 Hetroscedastivity
var(i) 2
Plot e dengan y
Uji Glesjer, White
Uji Golfeld-Quandt
Transformasi variabel
Weighted Least Squares
3 Autocorrelation
cov(I,j) 0
untuk ij
Plot e dengan y
Uji Durbin Watson
ACF plot
Regresi beda, Regresi ratio
memasukkan trend
Cochrane Orcutt, Hildreth-
Lu,Durbin, Prais-Winsten
4 Multicollinearity r(Xi,Xj) tinggi, VIF>10
0' XX
R2 tinggi tetapi tidak
ada yang significant
stepwise
Principal component reg.
Ridge regression
24
REGRESI BOOTSTRAPP
Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan
residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t.
Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil
pengujian dengan statistik uji F dan t menjadi tidak valid Untuk menguji
asumsi kenormalan ini dapat dipergunakan uji Kolmogorov-Smirnov,
Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit jika hasil pengujian
kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi
adalah dengan menerapkan metode regresi bootstrap.
Algoritma dari metode regresi bootstrap adalah :
1. mulai2. Tentukan nilai taksiran dari model Y=Xdengan metode kuadrat
terkecil, hasil taksirannya adalah olsj , dan nilai taksirannya adalah
olsiY ,
3. Tentukan nilai e1, e2, …, en, YYe iiˆ
4. B=10005. i=06. i=i+17. Melakukan resampling with resampling sebanyak n dari ei hasil
resamplingnya adalah e(i)
8. Menentukan nilai )(, iolsii eYY
9. Menduga besarnya j pada resampling ke-i yaitu ij , dari dan data Yi
dengan Xji dengan metode kuadrat terkecil10.Jika i<B pergi ke 611. Tentukan nilai taksiran koefisien regresi dari metode bootstrapp
sebagai rata-rata nilai koefisien regresi hasil resampling sebanyak Bkali
12. Tentukan confidence interval koefisien regresi melalui nilai persentil13. Selesai
25
Kegiatan Praktikum :
Tentukan model yang menggambarkan hubungan antara harapan hidup
perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan
residual dengan uji Kolmogorov-Smirnov.
Penyelesaian :
Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan
cara
Tranformasi variabel
MTB > let c27=loge(lifeexpf)
MTB > name c27=’ln_gdp’
Regresi [klk stat+regression+regression]
klik storage
26
dan hasilnya adalah :
The regression equation isLIFEEXPF = 21.7 + 6.15 ln_gdpPredictor Coef SE Coef T PConstant 21.670 3.187 6.80 0.000ln_gdp 6.1538 0.3981 15.46 0.000S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8%Analysis of VarianceSource DF SS MS F PRegression 1 8336.9 8336.9 238.93 0.000Residual Error 107 3733.4 34.9Total 108 12070.3Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]
27
Dengan menggunakan metode kuadrat terkecil diperoleh hasil
kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan
metode regresi bootstrapp yang dinyatakan dalam macro MINITAB :
macroregb y xmconstant n i b low_b0 up_b0 low_b1 up_b1mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_bootlet n=count(y)let b=1000regr y 1 x;resid e;fits yhat.do i=1:b
sample n e ee;replacement.let yy=yhat+eeregr yy 1 x;coef beta.let b0(i)=beta(1)let b1(i)=beta(2)
NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara
harga mutlak residual dengan income atau varians residual cenderung sudah
homogen.
Sedangkan asumsi kenormalan residual dapat diuji dengan cara :
MTB > %NormPlot C21;SUBC> Kstest.
Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov
adalah :
34
Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5%
sehingga dapat diputuskan residual sudah berdistribusi normal
Model yang menggambarkan hubungan antara saving dengan income
setelah dilakukan transfromasi adalah :
y* = 0.0881 - 723 x* atau :
saving/income= 0.0881 -723 (1/income)
setelah ruas kiri dan kanan digandakan dengan income maka diperoleh :
saving=-723 +0.0881 income
35
MULTICOLLINEARITY
Multicollinearity
Adanya hubungan linear antar variabel independent
Multicollinearity dapat dideteksi dengan :
a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10
b. korelasi antar variabel independent yang tinggi
c. 0' XX
d. R2 tinggi tetapi tidak ada variabel independent yang significant
e. Koefisien korelasi dan koefisien regresi berbeda tanda
Multicollinearity dapat diatasi dengan :
a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi
dengan variabel independent yang lain. Pengeluaran variabel ini dapat
dilakukan secara manual ataupun otomatis melalui metode stepwise.
b. Ridge Regression. YXkIXX ')'(ˆ 1 , 0<k<1
c. Principal Component Regression, tahapan dari metode ini adalah :
- Melakukan pembakuan data :s
xxz
- Membangkitkan variabel baru yang saling independent
w1 = a11z1 + a12z2+ … + a1pzp
w2 = a21z1 + a22z2+ … + a2pzp
…
wp = ap1z1 + ap2z2+ … + appzp
atau
wi =a’ix, nilai a’I adalah eigen-vector dari eigen-value ke-i dari
matriks korelasi antar variabel independent
- Melakukan regresi y dengan w dan menyatakan model regresi y
dengan w ke dalam model y dengan x
36
Kegiatan Praktikum1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup
perempuan dengan pendapatan perkapita, persentase penduduk yangtinggal di kota, persentase perempuan yang dapat membaca, persentaselaki-laki yang dapat membaca di region Amerika Latin (region=6).
2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untukmengatasi multicollinearity.
Penyelesaiana. Memilih data dari region Amerika Latin klik data+select cases+if
b. Memeriksa adanya kasus multicollinearity dengan menentukan matrikskorelasi antar variabel independent :klik analyze+correlate+bivariate
37
Correlations
1 .550** .500* .833** .756**
.550** 1 .285 .617** .581**
.500* .285 1 .578** .542*
.833** .617** .578** 1 .956**
.756** .581** .542* .956** 1
Average female lifeexpectancy
Gross domestic product /capitaPeople living in cities (%)Females who read (%)Males who read (%)
Averagefemale lifeexpectancy
Grossdomesticproduct /
capita
Peopleliving incities(%)
Femaleswho read
(%)
Maleswhoread(%)
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
Korelasi antar variabel independent cukup tinggi dan significantsegingga ada kecenderungan terjadi kasus multicollinearity.
c. Memeriksa adanya kasus multicollinearity dengan VIF:klikanalyze+regression+linear
(Constant)Gross domestic product/ capitaPeople living in cities(%)Males who read (%)Females who read (%)
B Std. Error
UnstandardizedCoefficients
t Sig. VIF
CollinearityStatistics
Dependent Variable: Average female life expectancya.
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresiuntuk males who read negatif sedangkan koefisien korelasinya positifsehingga memang ada kasus multicollinearity.
d. Mengatasi multicollinearity dengan metode stepwise : klik analyze +regression + linear + method stepwise
Coefficientsa
39.013 5.077 7.684 .000.406 .062 6.557 .000 1.000
(Constant)Females who read (%)
Model1
B Std. Error
UnstandardizedCoefficients
t Sig. VIF
CollinearityStatistics
Dependent Variable: Average female life expectancya.
39
e. Mengatasi multicollinearity dengan ridge regression : klik file + new +syntax
klik Run +All
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE
Dengan menggunakan MINITAB diperoleh hasil sebagai berikut :
MTB >%lad.txt c2 c1
The regression equation isY = 4.01 + 0.345 XPredictor Coef SE Coef T PConstant 4.00533 0.03445 116.26 0.000X 0.345467 0.003783 91.31 0.000S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9%Analysis of VarianceSource DF SS MS F PRegression 1 10.533 10.533 8338.16 0.000Residual Error 9 0.011 0.001Total 10 10.545Unusual ObservationsObs X Y Fit SE Fit Residual St Resid3 13.0 12.7400 8.4964 0.0207 4.2436 2.99R
51
Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut :
MTB > let c2(3)=’*’
MTB > regr c2 1 c1
MTB > regr y 1 x
The regression equation isY = 4.01 + 0.345 X10 cases used 1 cases contain missing valuesPredictor Coef SE Coef T PConstant 4.00565 0.00292 1369.81 0.000X 0.345390 0.000321 1077.35 0.000S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0%
Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan
LAD adalah hampir sama
52
NONLINEAR REGRESSION
Berdasarkan kelinearan antar parameter di dalam model regresi, maka
model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan non-
linear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :
kk xxxxy ...3322110
JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka
model yang diperoleh adalah model regresi non-linear, secara umum model
regresi non-linear dapat dinyatakan dalam persamaan :
),( xfy
NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat
residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap
sama dengan nol atau :
0),(
),(
),(
1
2
1
in
iii
n
iii
xfxfy
SSE
xfySSE
Hasil turunan pertama terhadap sama dengan nol membentuk suatu
sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung
tetapi dapat didekati secara iteratif dengan menggunakan metode numerik,
salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode
Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan
pendekatan deret Taylor dari fungsiSSE
sampai suku kedua. Nilai dugaan
pada iterasi ke i+1 adalah :
iiiiii e')(ˆˆ 1'1
53
dan
k
nnn
k
k
xfxfxf
xfxfxf
xfxfxf
),(...
),(),(...
),(...
),(),(
),(...
),(),(
10
2
1
2
0
2
1
1
1
0
1
Iterasi ini dihentikan jika nilai
ii ˆˆ1 atau 0000.0ˆ
1 ii
Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan
memasukkan konstanta (nilai awal yang besarnya berubah-ubah
mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan iterasi
diteruskan jika SSE turun serta nilai akan meningkat sepuluh kali dan
kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt
Source DF Sum of Squares Mean SquareRegression 4 542255.95702 135563.98926Residual 104 368.04298 3.53887Uncorrected Total 108 542624.00000(Corrected Total) 107 12023.07407R squared = 1 - Residual SS / Corrected SS = .96939