Top Banner
REGRESI POHON Nama : Budi Haryanto NRP/Mayor : G151090121/STK DEPARTEMAN STATISTIKA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR 2009
17

Pohon Regresi

Jun 26, 2015

Download

Documents

Budi Haryanto
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Pohon Regresi

REGRESI POHON

Nama : Budi Haryanto

NRP/Mayor : G151090121/STK

DEPARTEMAN STATISTIKA

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

2009

Page 2: Pohon Regresi

1

POHON REGRESI

LATAR BELAKANG

Analisis regresi digunakan untuk melihat hubungan antara peubah respon dengan peubah-peubah

penjelasnya. Hubungan ini dinyatakan dalam suatu model, baik linear maupun non linear. Metode

kuadrat terkecil merupakan metode yang paling sering digunakan dalam penyusunan model

regresi. Metode kuadrat terkecil ini memberikan kemudahan perhitungan, tetapi tidak semua

permasalahan regresi dapat diselesaikan oleh metode kuadrat terkecil. Banyak asumsi yang harus

terpenuhi untuk memberikan landasan keyakinan atas kesimpulan-kesimpulan yang ditarik

berdasarkan metode tersebut.

Masalah pelanggaran asumsi pada metode regresi linear yang bertumpu pada asumsi-asumsi

melahirkan metode lain yang bertujuan sama seperti regresi yaitu untuk menjelaskan hubungan

antara peubah respon dengan peubah-peubah penjelasnya. Salah satu di antaranya adalah metode

pohon regresi (regression trees method).

Guna memenuhi asumsi-asumsi yang menjadi dasar bagi analisis regresi kemudian menimulkan

masalah berikutnya pada metode regresi linear yaitu masalah penginterpretasian. Sebuah model

regresi linear dengan penelusuran yang ekstensif terhadap asumsi-asumsinya melahirkan model

yang terlalu rumit untuk diinterpretasikan. Sebagai contoh, hasil analisis regresi dengan metode

kuadrat terkecil menghasilkan model sebagai berikut.

2

1 2 3 4 5 6 7

2

8 9 10 11 12 13

14

log log log

63 logb

MV a a RM a AGE a DIS a RAD a TAX a P T

a B a LSTAT a TAX a ZN a INDUS a CHAS

a NOX

(Harrison dan Rubinfield dalam Breiman et. al., 1993)

Model di atas sulit untuk diinterpretasikan, bahkan untuk memperoleh nilai dugaan apabila

diberikan nilai-nilai tertentu pada peubah penjelas juga tidak mudah.

TUJUAN

Pada dasarnya metode regresi berusaha untuk menjelaskan keragaman yang ada pada peubah

respon berdasarkan keragaman pada peubah penjelas. Berangkat dari hal tersebut, model dengan

pendekatan regresi pohon akan membagi dua peubah penjelas berdasarkan peubah bebas yang

akan memaksimalkan penjelasan keragaman peubah bebas berdasarkan peubah penjelas. Regresi

Page 3: Pohon Regresi

2

pohon dimulai dengan mengelompokkan peubah respon berdasarkan peubah penjelasnya ke

dalam dua kelompok yang paling terpisah secara rekursif sehingga peubah respon menjadi mudah

untuk diinterpretasikan. Jadi tujuan dari regresi pohon adalah sebagai alat untuk membagi peubah

respon ke dalam kelompok-kelompok yang terbentuk oleh nilai-nilai pada peubah bebas sehingga

dapat memberikan penjelasan secara lebih mudah untuk diinterpretasikan.

METODE BERSTRUKTUR POHON

Metode berstruktur pohon telah digunakan di berbagai riset dalam beberapa tahun terakhir

terutama dibidang terapan. Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J.

Stone sekitar tahun 1980-an dalam buku Breiman et al.(1993) mengusulkan suatu algoritma baru

untuk penyusunan pohon yaitu Classification and Regression Tree (CART).

CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik

pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk

topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. Dalam

penggunaannya, CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan

menghasilkan pohon regresi jika peubah responnya kontinu.

Tujuan utama CART adalah untuk melihat hubungan antara peubah respon dengan peubah

penjelas melalui pengelompokkan berdasar peubah penjelas. Struktur pohon pada metode ini

diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X. Metode

penyekatan tersebut dimulai dengan menyekat peubah penjelas menjadi dua anak gugus yang

disebut simpul (node). Selanjutnya anak gugus ini disekat lagi menjadi dua anak gugus yang baru.

Penyekatan ini diulang sampai diperoleh sekatan-sekatan yang berdasarkan aturan tertentu tidak

dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node),

sedangkan sekatan yang masih mungkin disekat lebih lanjut dinamakan simpul dalam (non terminal

node). Hasil dari proses penyekatan ini dipresentasikan dalam suatu struktur pohon seperti pada

Gambar 1 berikut.

Page 4: Pohon Regresi

3

Gambar 1. Diagram Pohon (Breiman et.al, 1993)

Pada Gambar 1 di atas memperlihatkan hasil proses penyekatan yang direpresentasikan dalam

struktur pohon. Struktur pohon ini memiliki simpul akar 1t yang mengandung semua gugus data.

Beberapa simpul dalam yang dilambangkan dengan lingkaran ( 1t dan 2t ) dan simpul akhir yang

dilambangkan dengan persegi ( 3 4 5, , dan t t t ). Pada simpul dalam, diberikan pertanyaan untuk

melakukan pemisahan. ”Apakah anggota 1t tidak lebih dari ?” kemudian masing-masing

dikelompokkan ke dalam 2 3 dan t t . Begitu selanjutnya hingga mencapai simpul akhir. Pada simpul

akhir diberikan ringkasan statistik bagi peubah respon.

METODE POHON REGRESI

Sebagaimana pada regresi parametrik, yang berusaha mencari hubungan peubah respon dengan

peubah-peubah penjelasnya, begitu pula dengan pohon regresi. Peubah penjelas yang

merupakanpeubah yang berpengaruh dalam metode regresi biasa juga akan merupakan peubah

penjelas yang berpengaruh dalam pohon regresi. Pada pohon regresi, peubah yang menentukan

pemilahan (splitting) merupakan peubah yang berpengaruh. Pemilahan tersebut akan

memperlihatkan perbedaan dugaan terhadap peubah respon. Karakteristik dari pohon regresi

dijabarkan sebagai berikut:

Ada sebanyak p peubah penjelas 1 , , pX X dan ada satu peubah respon

Peubah penjelas bersifat kategorik atau kontinu

1t

3t

2t

Ya

Ya

Tidak

Tidak

Node/Simpul

Simpul-cabang

Simpul Akhir

?1 x

?2 x

4t 5t

4y t 5y t

Simpul Akhir

6y t

Page 5: Pohon Regresi

4

Peubah respon bersifat kontinu

Membutuhkan jumlah sampel yang relatif besar

Analisis exploratory dan confirmatory

Pada proses pembentukan pohon regresi, komponen yang diperlukan adalah (Breiman et.al,

1993):

1. Aturan penyekatan yang akan menyekat amatan masuk ke dalam sub ruang tertentu.

2. Memilih penyekatan terbaik dengan mengevaluasi hasil sekatan yang terbentuk dengan

,s t sebagai alat evaluasi bagi penyekatan s pada simpul t

3. Kriteria Pemangkasan Pohon (Prunning) yaitu ukuran yang digunakan untuk menentukan

ukuran pohon yang layak (right sized tree).

4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir sebagai pendugaan

terhadap peubah respon

Berikut ini adalah ilustrasi dari sebuah pohon regresi.

Gambar 2. Pohon regresi mengenai hubungan antara harga mobil dengan kekuatan (horsepower)

dan panjang mobil (wheelbase) tahun 1993, dengan harga mobil yang sudah

distandardisasi sehingga nilai rata-rata keseluruhannya adalah nol. (Shalizi: 2006)

Gambar 2 mengilustrasikan penggunaan metode pohon regresi dalam menjelaskan hubungan

antara harga mobil (yang terstandardisasi) dengan kekuatan dan panjang mobil. Gambar sebelah

kiri adalah pohon regresi yang terbentuk. Gambar sebelah kanan adalah representasi geometris

atas pemilahan yang terjadi. Pohon regresi tersebut memperlihatkan bahwa harga mobil terbagi ke

Page 6: Pohon Regresi

5

dalam 6 sekatan. Nilai-nilai dugaan atas harga (price) ada pada tiap-tiap sekatan. Pohon regresi

juga memperlihatkan adanya faktor interaksi dari kedua peubah penjelas yaitu pada kekuatan di

bawah 0.6 sedangkan pada kekuatan di atas 0.6 jarak roda sudah tidak memberikan pengaruh

(dugaan terhadap harga hanya dipengaruhi oleh kekuatan saja).

ATURAN PENYEKATAN

Pohon regresi dibentuk dari penyekatan data pada tiap simpul ke dalam dua simpul anak.

Aturannya adalah sebagai berikut:

1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari satu peubah penjelas.

2. Apabila jX peubah kontinu, penyekatan yang diperbolehkan berasal dari pertanyaan

”apakah jX c ?” untuk c dan c adalah nilai tengah antara dua nilai amatan peubah

jX yang berurutan yang berbeda. Jadi jika jX mempunyai n nilai yang berbeda maka akan

terdapat sebanyak-banyaknya n-1 macam penyekatan.

3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua

kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas

(disjoint). Jika peubah jX merupakan peubah kategorik nominal dengan L kategori, maka

akan ada 2L-1-1 penyekatan yang mungkin, sedangakan jika berupa peubah kategorik

ordinal, maka akan ada L-1 penyekatan yang mungkin.

Proses Penyekatan (growing tree) dan Pemilihan Penyekatan Terbaik

Pohon regresi dibentuk dengan penyekatan yang rekursif berdasarkan kriteria tertentu

sebagaimana tertera dalam aturan penyekatan. Penyekatan dilakukan pada seluruh penyekatan

yang mungkin dilakukan. “Penyekatan terbaik” adalah penyekatan yang memaksimumkan ukuran

kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang

memaksimumkan ukuran penyekatan (separation) antara dua simpul anak tersebut.

Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing

simpul. Misalkan simpul t berisi anak contoh nn YX , , dengan n t adalah banyaknya amatan

dalam simpul t dan rataan respon dalam simpul t adalah

tx

n

n

Ytn

tY1

(1)

maka jumlah kuadrat sisaan di dalam simpul t adalah:

Page 7: Pohon Regresi

6

2)(

tx

ti

n

tYYtJKS (2)

Dimana i tY = nilai individu peubah respon pada simpul ke-t

)(ty = nilai tengah peubah respon pada simpul ke-t

Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri Lt dan simpul anak kanan Rt

. Ukuran kehomogenan ditentukan dengan fungsi:.

RL tJKStJKStJKSts , (3)

dan penyekat terbaik s adalah:

tsts

s,max,*

(4)

Dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan.

Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi

di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah

“tertentu” atau pada saat nilai lebih kecil dari suatu nilai ambang (treshold). Pemilihan aturan

penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman

et.al (1993) menetapkan banyaknya amatan pada simpul akhir kurang atau sama dengan 5

sedangkan menurut Schmoor et al. (1993), menetapkan banyaknya amatan kurang dari 25 amatan

(dalam Kudus: 1999).

Penyekatan terbaik pada sebuah simpul adalah penyekat pada peubah X yang paling mampu

memisahkan nilai reson yang besar dan kecil pada dua simpul yang berbeda. Pada setiap simpul

dalam t, salah satu dari

PENENTUAN UKURAN POHON

Prinsip dasar metode pohon regresi adalah:

1. Tumbuhkan pohon hingga semaksimal mungkin. Buat pohon hingga berhenti pada setiap

terminal akhir

a. Memiliki jumlah anggota ( )n t n tertentu yang disyaratkan (Breiman memberikan

batasan 5).

Page 8: Pohon Regresi

7

b. Setiap amatan yang merupakan anggota dari terminal akhir sebisa mungkin

”sama”, sehomogen mungkin.

2. Setelah pohon yang maksimal terbentuk, susun pohon bersarang, pangkas bagian-bagian

tertentu guna mengurangi kompleksitas pohon regresi yang terbentuk.

Prinsip dasar tersebut analog dengan pencarian model terbaik pada analisis regresi biasa. Makin

banyak peubah penjelas yang masuk akan semakin meningkatkan koefisien determinasi, tetapi

menjumlahkan peubah secara terus-menerus sebanyak-banyaknya bukanlah hal yang dimau dalam

penyusunan model regresi.

Pohon yang besar dengan tingkat kedalaman yang panjang akan memberikan kesulitan bagi

penginterpretasian model. Pohon yang besar bisa menimbulkan dugaan adanya overfitting.

Sebaliknya kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat adanya

tetapan ambang ts ,* , padahal sebenarnya penyekatan yang terjadi adalah layak. Cara

mengatasi masalah ini adalah mencari ukuran pohon yang layak dengan dilakukan pemangkasan

(prunning).

Proses pemangkasan terhadap pohon yang terbentuk dilakukan berdasarkan ukuran biaya

kompleksitas (Breiman et al. 1993). Dimisalkan suatu pohon yang berukuran besar yaitu maxG akan

dipangkas menjadi pohon yang lebih kecil. Untuk sembarang G yang merupakan subpohon dari

maxG , didefinisikan ukuran biaya kompleksitas

R G R G G (5)

Dengan G adalah gugus simpul akhir pada subpohon G dan G adalah banyaknya anggota dari G

dan merupakan ukuran kompleksitas subpohon G. Parameter kompleksitas 0 dapat dipandang

sebagai biaya yang harus dikeluarkan bagi suatu simpul akhir pada subpohon G. R G

didefinisikan sebagai

g G

R G R g

(6)

dimana R g adalah jumlah kuadrat sisaan pada suatu simpul akhir g . Dalam prosesnya

pemangkasan dilakukan terhadap suatu 1G , yaitu pohon terkecil yang memenuhi kondisi:

max 1R G R G (7)

Page 9: Pohon Regresi

8

Guna menemukan 1G dari maxG dilakukan evaluasi terhadap semua Lg dan Rg yang merupakan

simpul anak kiri dan anak kanan dari simpul g yang diperoleh dari penyekatan simpul maxg G .

Jumlah kuadrat sisaan dari suatu simpul induk g akan selalu lebih besar atau sama dengan total

jumlah kuadrat sisaan dari kedua simpul anak yang dihasilkannya L RR g R g R g . Bila

diperoleh nilai L RR g R g R g , maka pemangkasan dilakukan pada kedua simpul anak.

Pemangkasan pohon ini akan memotong jalur terlemah (weakest-link). Untuk sembarang gG yang

merupakan anak cabang dari 1G , didefinsikan

g

gg G

R G R g

(8)

dengan gG adalah gugus simpul akhir dari gG

Untuk sembarang simpul dalam g dari pohon 1G berlaku sifat gR g R G dan ukuran biaya

kompleksitas dari g didenisikan sebagai

R g R g (9)

Ukuran biaya kompleksitas dari subpohon gG adalah

g g gR G R G G .

(10)

Ukuran biaya kompleksitas suatu simpul g akan bernilai sama dengan ukuran kompleksitas pada

subpohon gG bila

1

g

g

R g R G

G

(11)

Untuk setiap 1g G , didefinisikan suatu fungsi 1h g sebagai berikut

Page 10: Pohon Regresi

9

1

;1

;

g

g

R g R Gg G

h g G

g G

(12)

Jalur terlemah dalam 1G dinotasikan dengan 1g adalah simpul yang memenuhi kriteria:

1

1 1 1ming G

h g h g

(13)

Sedangkan nilai parameter kompleksitas 2 dihitung sebagai berikut

2 1 1h g

(14)

Selanjutnya dibentuk pohon baru dengan cara memangkas cabang baru dari simpul 1g dan pohon

baru ini dinamakan 2G . Jadi pohon 2G diperoleh dengan cara:

12 1 gG G G dimana 1gG adalah cabang atau sub-pohon yang simpul utamanya adalah 1g ,

dengan demikian 2G adalah pohon yang memenuhi kriteria biaya kompleksitas minimum dengan

parameter kompleksitas 2 .

Selanjutnya dilakukan lagi pemangkasan pada sub pohon berikutnya, 2G dengan prosedur yang

sama sehingga akhirnya diperoleh deretan pohon yang tersarang dan makin kecil, yaitu

1 2 1, , ,G G g di mana 1 2 1G G g dan deretan dalam urutan yang meningkat;

1 2 10; dan seterusnya.

Langkah terakhir adalah pemilihan pohon terbaik dari deret pohon yang terbentuk. Dalam

pemilihan pohon terbaik ini, digunakan sebagai suatu penduga yang dinamakan penduga jujur bagi

R G . Ada dua penduga jujur bagi R G , yaitu penduga uji contoh uji tsR G dan penduga

validasi silang CVR G . Penduga contoh uji diperoleh dengan membagi secara acak amatan

Page 11: Pohon Regresi

10

menjadi dua bagian, yaitu learning sample 1L dan test sample 2L . Melalui proses pemangkasan

dibentuk deretan pohon dari 1L sedangkan 2L digunakan untuk membentuk tsR G yang

didefinisikan sebagai

2

2

,2

i i

tsi i

x y L

R G y y xn

(15)

Dengan 2n adalah ukuran dari test sampel 2L dan ˆk iy x adalah dugaan respon dari amatan ke-i

pada simpul ke-k.

Pohon terbaik adalah 0kG yang memenuhi

0 mints tsk k

kR G R G

(16)

Untuk membentuk cross validation estimate RCV(T) dengan V-fold amatan induk L yang

berukuran n dibagi secara acak menjadi V kelompok, yakni L1, L2,...,LV yang berukuran sama.

Learning sample ke-v adalah L-v=L-LV, v=1,2,...,V yang digunakan untuk membentuk sekuen pohon

Tk dan sekuen parameter complexity k . Jika terdapat v sekuen Tk dan v sekuen k .

Kemudian gunakan amatan induk L untuk membentuk sekuen Tk dan k . Definisikan

1

'

kkk . Jika n

v

k xy ˆ adalah dugaan respon dari amatan ke–n pada pohon yang

bersesuaian dengan '

k yang dibentuk oleh Leaning sample ke-v, maka

V

v Lyx

n

v

knk

CV

vnn

xyyn

TR1 ,

1

(17)

Pohon terbaik adalah Gk0, yang memenuhi kriteria:

Page 12: Pohon Regresi

11

0 minCV CVk k

kR G R G

(18)

cross validation estimate dengan 10-fold, menghasilkan resubstitution estimate yang paling kecil

(Breiman et al., 1993).

PENENTUAN NILAI DUGAAN RESPON PADA SETIAP SIMPUL AKHIR.

Nilai dugaan respon pada masing-masing kelompok pengamatan yang dihasilkan adalah rataan

responnya.

Beberapa informasi yang dapat kita peroleh dari pohon regresi antara lain:

Mengetahui peubah penjelas(predictor) mana yang berpengaruh terhadap peubah respon

Mengetahui apakah data memiliki interaksi atau tidak

Dalam analisis ragam (ANOVA) interaksi terjadi jika respon suatu faktor(peubah) berubah pola

(tidak paralel) dari kondisi tertentu ke kondisi yang lain untuk faktor yang lain. Namun dalam

pohon regresi interaksi ditemui dengan beberapa indikasi, antara lain:

Cabang dari node yang sama memiliki peubah penyekat yang berbeda

Respon yang dihasilkan tidak memiliki kesimpulan yang sama

Gambar berikut mengilustrasikan bentuk pohon yang menunjukkan adanya interaksi dan

pohon tanpa interaksi. Pada pohon A terlihat peubah-peubah penyekat disebelah kiri maupun

kanan node adalah sama. Sedangkan pada pohon B, peubah-peubah yang menjadi penyekat

disebelah kiri dan sebelah kanan berbeda.

KESTABILAN POHON REGRESI

Kestabilan pohon yang terbentuk memiliki arti yang sangat penting (Breiman, et al. 1993). Pohon

klasifikasi yang stabil memberikan infornasi yang konsisten tentang hasil pengelompokkan amatan,

Page 13: Pohon Regresi

12

meskipun jumlah amatannya direduksi. Untuk menyelidiki kestabilan dari sebuah pohon, dilakukan

tahapan sebagai berikut:

1. Membagi seluruh amatan menjadi dua kelompok amatan dengan jumlah yang sama.

Kelompok amatan pertama disebut building set sedangkan kelompok kedua disebut

validating set.

2. Kedua pohon regresi yang terbentuk berdasarkan building set dan validating set

diperbandingkan pada seluruh amatan.

CONTOH PENGGUNAAN

Sebagai ilustrasi penggunaan pohon regresi, diberikan data mengenai nilai kriminalitas (crimerate)

di beberapa kota (contoh data dari file bostonhousing.sta). Contoh penggunaan pohon regresi ini

menggunakan bantuan paket Statistica 7 yang dikeluarkan oleh Statsoft.

Peubah respon dalam model ini adalah tingkat kriminalitas yang dihitung dalam indeks per

penduduk, sedangkan unit pengamatan adalah kota. Model akan disusun untuk mencari penjelasan

mengenai tingkat kriminalitas berdasarkan peubah penjelas berupa: proporsi luas lahan tempat

tinggal, proporsi luas lahan tempat bisnis non-retail, apakah kota dibatasi oleh sungai atau tidak,

tingkat pencemaran udara (dihitung dengan tingkat nitric oxide dalam ppm), rata-rata jumlah

ruang di dalam rumah, proporsi dari kepemilikan rumah, bobot jarak dari pusat pekerjaan di

Boston, indeks aksessibilitas ke jalan tol, tingkat pajak, rasio antara siswa dan guru, persentase

tingkat warga miskin, nilai tengah dari nilai rumah tempat tinggal.

Gambar 3. Pemilihan peubah dalam menu Interactive Tree guna penyusunan model pohon regresi.

Model pohon pertama disusun dengan aturan penyekatan anggota simpul akhir tidak kurang dari 5

dan simpul induk tidak kurang dari 10.

Page 14: Pohon Regresi

13

Gambar 4. Penentuan aturan penghentian penyekatan.

Hasil yang diperoleh, dengan menggunakan aturan tersebut adalah

Tree graph for Crim e Rate

Num . of non-term inal nodes : 80, Num . of term inal nodes : 81

M odel : C&RT

I D=1N=506

M u=3. 613524

Var : 73. 840360

I D=2N=374

M u=0. 385606

Var : 0. 389714

I D=4N=358

M u=0. 298327

Var : 0. 200417

I D=6N=244

M u=0. 126177

Var : 0. 014894

I D=8N=220

M u=0. 099424

Var : 0. 006385

I D=10N=122

M u=0. 054578

Var : 0. 001050

I D=12N=35

M u=0. 079256

Var : 0. 001103

I D=15N=34

M u=0. 075400

Var : 0. 000615

I D=16N=19

M u=0. 062845

Var : 0. 000228

I D=18N=16

M u=0. 057491

Var : 0. 000081

I D=17N=15

M u=0. 091303

Var : 0. 000651

I D=22N=13

M u=0. 085797

Var : 0. 000502

I D=13N=87

M u=0. 044650

Var : 0. 000686

I D=26N=78

M u=0. 040155

Var : 0. 000456

I D=28N=64

M u=0. 044503

Var : 0. 000437

I D=30N=23

M u=0. 033610

Var : 0. 000260

I D=31N=41

M u=0. 050614

Var : 0. 000433

I D=29N=14

M u=0. 020279

Var : 0. 000059

I D=11N=98

M u=0. 155254

Var : 0. 007406

I D=39N=94

M u=0. 147446

Var : 0. 006011

I D=40N=81

M u=0. 160927

Var : 0. 005549

I D=42N=66

M u=0. 174383

Var : 0. 005516

I D=45N=64

M u=0. 178980

Var : 0. 004992

I D=43N=15

M u=0. 101718

Var : 0. 001388

I D=49N=11

M u=0. 090156

Var : 0. 000640

I D=41N=13

M u=0. 063451

Var : 0. 000704

I D=9N=24

M u=0. 371410

Var : 0. 026188

I D=54N=18

M u=0. 449906

Var : 0. 010070

I D=56N=13

M u=0. 422357

Var : 0. 010699

I D=7N=114

M u=0. 666789

Var : 0. 398309

I D=60N=26

M u=1. 287372

Var : 0. 519523

I D=62N=12

M u=0. 630630

Var : 0. 010689

I D=63N=14

M u=1. 850294

Var : 0. 269091

I D=67N=10

M u=2. 060087

Var : 0. 219441

I D=61N=88

M u=0. 483435

Var : 0. 215090

I D=70N=34

M u=0. 142956

Var : 0. 006723

I D=72N=10

M u=0. 067265

Var : 0. 001102

I D=73N=24

M u=0. 174494

Var : 0. 005684

I D=76N=23

M u=0. 165239

Var : 0. 003876

I D=79N=15

M u=0. 131288

Var : 0. 001554

I D=81N=11

M u=0. 116652

Var : 0. 000964

I D=71N=54

M u=0. 697811

Var : 0. 227337

I D=85N=52

M u=0. 642647

Var : 0. 144172

I D=86N=22

M u=0. 964475

Var : 0. 073784

I D=88N=10

M u=1. 190706

Var : 0. 047331

I D=89N=12

M u=0. 775950

Var : 0. 017637

I D=92N=10

M u=0. 725502

Var : 0. 005761

I D=87N=30

M u=0. 406640

Var : 0. 064136

I D=96N=25

M u=0. 457618

Var : 0. 061057

I D=98N=15

M u=0. 533550

Var : 0. 082383

I D=99N=10

M u=0. 343719

Var : 0. 007445

I D=5N=16

M u=2. 338462

Var : 0. 641132

I D=105N=12

M u=2. 642573

Var : 0. 472595

I D=3N=132

M u=12. 759291

Var : 168. 783676

I D=108N=32

M u=25. 036893

Var : 372. 211782

I D=110N=31

M u=22. 974334

Var : 248. 085917

I D=113N=29

M u=20. 894199

Var : 183. 052767

I D=114N=28

M u=20. 006631

Var : 166. 744838

I D=116N=20

M u=22. 385879

Var : 210. 035482

I D=118N=16

M u=18. 518642

Var : 65. 805132

I D=109N=100

M u=8. 830458

Var : 40. 014317

I D=122N=22

M u=15. 020277

Var : 99. 197391

I D=124N=11

M u=19. 605672

Var : 138. 619295

I D=127N=10

M u=16. 452659

Var : 43. 124836

I D=125N=11

M u=10. 434882

Var : 17. 723793

I D=123N=78

M u=7. 084612

Var : 9. 467204

I D=132N=28

M u=5. 162176

Var : 6. 534886

I D=135N=22

M u=4. 645888

Var : 1. 787808

I D=137N=18

M u=5. 009739

Var : 1. 406994

I D=138N=11

M u=5. 519633

Var : 1. 310675

I D=133N=50

M u=8. 161177

Var : 7. 880685

I D=143N=41

M u=7. 552985

Var : 5. 421277

I D=144N=24

M u=8. 707669

Var : 4. 214150

I D=147N=20

M u=9. 161244

Var : 3. 721113

I D=149N=16

M u=8. 728404

Var : 2. 767609

I D=150N=11

M u=8. 097880

Var : 2. 445890

I D=145N=17

M u=5. 922844

Var : 2. 585797

I D=154N=14

M u=5. 443493

Var : 1. 557809

I D=157N=11

M u=4. 960395

Var : 0. 568061

I D=159N=10

M u=4. 776317

Var : 0. 252137

I D=14N=1

M u=0. 210380

Var =0. 000000

I D=20N=4

M u=0. 048945

Var =0. 000043

I D=21N=12

M u=0. 060340

Var =0. 000061

I D=19N=3

M u=0. 091397

Var =0. 000048

I D=24N=3

M u=0. 109497

Var =0. 000386

I D=25N=10

M u=0. 078687

Var =0. 000318

I D=23N=2

M u=0. 127090

Var =0. 000145

I D=32N=22

M u=0. 031999

Var =0. 000212

I D=33N=1

M u=0. 069050

Var =0. 000000

I D=34N=33

M u=0. 045393

Var =0. 000356

I D=35N=8

M u=0. 072153

Var =0. 000174

I D=36N=5

M u=0. 013718

Var =0. 000007

I D=37N=9

M u=0. 023924

Var =0. 000051

I D=27N=9

M u=0. 083602

Var =0. 000985

I D=38N=4

M u=0. 338728

Var =0. 005099

I D=44N=2

M u=0. 027300

Var =0. 000000

I D=46N=63

M u=0. 175965

Var =0. 004489

I D=47N=1

M u=0. 368940

Var =0. 000000

I D=48N=4

M u=0. 133513

Var =0. 002067

I D=50N=1

M u=0. 141030

Var =0. 000000

I D=51N=10

M u=0. 085069

Var =0. 000419

I D=52N=6

M u=0. 038997

Var =0. 000048

I D=53N=7

M u=0. 084411

Var =0. 000314

I D=58N=5

M u=0. 353782

Var =0. 002723

I D=59N=8

M u=0. 465216

Var =0. 010908

I D=57N=5

M u=0. 521532

Var =0. 001331

I D=55N=6

M u=0. 135922

Var =0. 000603

I D=64N=9

M u=0. 577220

Var =0. 002613

I D=65N=3

M u=0. 790860

Var =0. 000688

I D=66N=4

M u=1. 325810

Var =0. 008100

I D=68N=9

M u=2. 154828

Var =0. 154065

I D=69N=1

M u=1. 207420

Var =0. 000000

I D=74N=5

M u=0. 041446

Var =0. 000350

I D=75N=5

M u=0. 093084

Var =0. 000520

I D=78N=8

M u=0. 228898

Var =0. 002016

I D=80N=4

M u=0. 171538

Var =0. 000965

I D=82N=1

M u=0. 169020

Var =0. 000000

I D=83N=10

M u=0. 111415

Var =0. 000759

I D=77N=1

M u=0. 387350

Var =0. 000000

I D=84N=2

M u=2. 132060

Var =0. 253432

I D=90N=8

M u=1. 263844

Var =0. 031588

I D=91N=2

M u=0. 898155

Var =0. 003319

I D=94N=6

M u=0. 781333

Var =0. 001597

I D=95N=4

M u=0. 641755

Var =0. 000318

I D=93N=2

M u=1. 028190

Var =0. 000663

I D=100N=7

M u=0. 334967

Var =0. 008486

I D=101N=8

M u=0. 707310

Var =0. 082345

I D=102N=4

M u=0. 269685

Var =0. 000821

I D=103N=6

M u=0. 393075

Var =0. 005771

I D=97N=5

M u=0. 151750

Var =0. 001571

I D=104N=4

M u=1. 426130

Var =0. 036944

I D=106N=3

M u=3. 399397

Var =0. 292440

I D=107N=9

M u=2. 390299

Var =0. 278077

I D=112N=2

M u=53. 136300

Var =218. 581440

I D=120N=9

M u=22. 452300

Var =67. 443387

I D=121N=7

M u=13. 461081

Var =18. 225172

I D=119N=4

M u=37. 854825

Var =487. 846499

I D=117N=8

M u=14. 058511

Var =8. 986055

I D=115N=1

M u=45. 746100

Var =0. 000000

I D=111N=1

M u=88. 976200

Var =0. 000000

I D=126N=1

M u=51. 135800

Var =0. 000000

I D=128N=2

M u=24. 686000

Var =15. 759312

I D=129N=8

M u=14. 394324

Var =28. 782497

I D=130N=7

M u=7. 708786

Var =4. 878306

I D=131N=4

M u=15. 205550

Var =4. 438822

I D=134N=6

M u=7. 055232

Var =19. 379818

I D=136N=4

M u=3. 008555

Var =0. 224866

I D=140N=4

M u=6. 443490

Var =1. 144532

I D=141N=7

M u=4. 991714

Var =0. 639195

I D=139N=7

M u=4. 208479

Var =0. 507776

I D=142N=9

M u=10. 931826

Var =9. 723071

I D=146N=4

M u=6. 439795

Var =0. 507429

I D=148N=4

M u=10. 892602

Var =3. 788126

I D=152N=4

M u=7. 004840

Var =1. 035061

I D=153N=7

M u=8. 722474

Var =2. 179254

I D=151N=5

M u=10. 115558

Var =0. 676561

I D=156N=3

M u=7. 214853

Var =1. 193425

I D=158N=1

M u=6. 801170

Var =0. 000000

I D=160N=7

M u=5. 031017

Var =0. 108067

I D=161N=3

M u=4. 182017

Var =0. 083740

I D=155N=3

M u=8. 159813

Var =1. 306749

Accessibilit y t o Highways

= 1, 2, 3, 6, 7, 8, . . . = 24

Nit r ic O xide

<= 0. 759000 > 0. 759000

Nit r ic O xide

<= 0. 531000 > 0. 531000

Accessibilit y t o Highways

= 1, 2, 6, 3, 4, 5, . . . = 8

Non- r et ail Business acr es

<= 5. 750000 > 5. 750000

Dist ance t o Em ploym ent Cent er s

<= 4. 630700 > 4. 630700

Pupil- Teacher Rat io

<= 15. 050000 > 15. 050000

Pr oper t y Tax Rat e

<= 273. 000000 > 273. 000000

O wner O ccupied Unit s

<= 88. 050000> 88. 050000

Accessibilit y t o Highways

= 2 = 7, 3

% of Lower St at us

<= 10. 725000> 10. 725000

% of Lower St at us

<= 4. 945000> 4. 945000

Accessibilit y t o Highways

= 1, 3, 2, 5, 4 = 6

Resident ial Land Zone

<= 81. 250000 > 81. 250000

Accessibilit y t o Highways

= 1, 3, 2 = 5, 4

Value of O ccupied Hom es

<= 35. 550000> 35. 550000

Pr oper t y Tax Rat e

<= 384. 000000> 384. 000000

Accessibilit y t o Highways

= 1, 5 = 3, 4, 2

Aver age Room s

<= 5. 502500 > 5. 502500

Resident ial Land Zone

<= 25. 000000 > 25. 000000

Non- r et ail Business acr es

<= 10. 700000 > 10. 700000

Accessibilit y t o Highways

= 2 = 4, 3, 5, 7

Value of O ccupied Hom es

<= 39. 000000> 39. 000000

Nit r ic O xide

<= 0. 425000> 0. 425000

Aver age Room s

<= 5. 832000> 5. 832000

Value of O ccupied Hom es

<= 25. 700000> 25. 700000

Dist ance t o Em ploym ent Cent er s

<= 5. 483250 > 5. 483250

Dist ance t o Em ploym ent Cent er s

<= 3. 661700> 3. 661700

% of Lower St at us

<= 4. 385000> 4. 385000

Pupil- Teacher Rat io

<= 15. 000000 > 15. 000000

Non- r et ail Business acr es

<= 11. 775000 > 11. 775000

% of Lower St at us

<= 10. 020000> 10. 020000

Dist ance t o Em ploym ent Cent er s

<= 2. 005800> 2. 005800

% of Lower St at us

<= 13. 285000> 13. 285000

Accessibilit y t o Highways

= 1, 5, 2, 6 = 4

Accessibilit y t o Highways

= 1, 5 = 2, 6

O wner O ccupied Unit s

<= 82. 950000> 82. 950000

% of Lower St at us

<= 26. 335000 > 26. 335000

Non- r et ail Business acr es

<= 9. 850000 > 9. 850000

Value of O ccupied Hom es

<= 18. 750000> 18. 750000

Dist ance t o Em ploym ent Cent er s

<= 1. 999600> 1. 999600

Aver age Room s

<= 5. 056000 > 5. 056000

Non- r et ail Business acr es

<= 9. 020000 > 9. 020000

Value of O ccupied Hom es

<= 15. 400000 > 15. 400000

Dist ance t o Em ploym ent Cent er s

<= 4. 343200> 4. 343200

Value of O ccupied Hom es

<= 20. 700000> 20. 700000

Dist ance t o Em ploym ent Cent er s

<= 4. 458300> 4. 458300

Non- r et ail Business acr es

<= 24. 815000 > 24. 815000

Dist ance t o Em ploym ent Cent er s

<= 2. 737150 > 2. 737150

Dist ance t o Em ploym ent Cent er s

<= 1. 973400> 1. 973400

Value of O ccupied Hom es

<= 20. 050000> 20. 050000

% of Lower St at us

<= 14. 560000> 14. 560000

Dist ance t o Em ploym ent Cent er s

<= 1. 415450> 1. 415450

Value of O ccupied Hom es

<= 10. 950000 > 10. 950000

Aver age Room s

<= 6. 896000 > 6. 896000

Value of O ccupied Hom es

<= 5. 300000 > 5. 300000

% of Lower St at us

<= 35. 500000 > 35. 500000

Aver age Room s

<= 6. 212500 > 6. 212500

Aver age Room s

<= 5. 946000> 5. 946000

Aver age Room s

<= 5. 639000> 5. 639000

Dist ance t o Em ploym ent Cent er s

<= 1. 601300 > 1. 601300

Value of O ccupied Hom es

<= 16. 750000 > 16. 750000

% of Lower St at us

<= 11. 775000> 11. 775000

Nit r ic O xide

<= 0. 663500> 0. 663500

Dist ance t o Em ploym ent Cent er s

<= 1. 460100> 1. 460100

% of Lower St at us

<= 14. 675000 > 14. 675000

Dist ance t o Em ploym ent Cent er s

<= 2. 027400 > 2. 027400

O wner O ccupied Unit s

<= 52. 550000 > 52. 550000

O wner O ccupied Unit s

<= 85. 700000> 85. 700000

Value of O ccupied Hom es

<= 22. 000000> 22. 000000

Aver age Room s

<= 5. 931000 > 5. 931000

Dist ance t o Em ploym ent Cent er s

<= 2. 283450 > 2. 283450

Aver age Room s

<= 6. 173500 > 6. 173500

% of Lower St at us

<= 16. 515000 > 16. 515000

Aver age Room s

<= 6. 438000> 6. 438000

O wner O ccupied Unit s

<= 96. 550000> 96. 550000

Aver age Room s

<= 6. 714500 > 6. 714500

O wner O ccupied Unit s

<= 83. 850000 > 83. 850000

% of Lower St at us

<= 15. 460000> 15. 460000

Value of O ccupied Hom es

<= 17. 850000> 17. 850000

Gambar 5. Pohon regresi tingkat kriminalitas di suatu kota berdasarkan peubah-peubah penjelasnya.

Gambar pohon di atas memperlihatkan bahwa peubah penjelas utama yang berpengaruh terhadap

tingkat kriminalitas adalah akses terhadap jalan tol. Model pohon tersebut adalah model pohon

yang tidak efisien, terlalu rumit untuk dijelaskan. Agar pohon tersebut dapat diinterpretasikan

dengan lebih mudah, diperlukan usaha pemangkasan (prunning). Pemangkasan dilakukan dengan

memperhatikan keragaman data pada peubah respon yang dapat dijelaskan oleh peubah penjelas.

Sebagaimana dijelaskan di awal, penentuan penyekatan dilakukan dengan memperhitungan

penurunan yang maksimal pada jumlah kuadrat simpul. Dengan memperhitungan penurunan

keragaman yang maksimum untuk simpul yang sesedikit mungkin, diperoleh pohon yang optimum.

Page 15: Pohon Regresi

14

Gambar 6. Biaya kompleksitas dalam struktur pohon bersarang yang dihasilkan

Dari gambar 6 terlihat biaya yang kompleksitas yang minimum diperoleh pada pohon bersarang ke-

140. Pohon regresi nomor 140 yang diperoleh adalah:

Tree 140 graph for Crime Rate

Num. of non-terminal nodes: 3, Num. of terminal nodes: 4

ID=1 N=506

Mu=3.613524

Var=73.840360

ID=2 N=132

Mu=12.759291

Var=168.783676

ID=4 N=32

Mu=25.036893

Var=372.211782

ID=6 N=31

Mu=22.974334

Var=248.085917

ID=7 N=1

Mu=88.976200

Var=0.000000

ID=5 N=100

Mu=8.830458

Var=40.014317

ID=3 N=374

Mu=0.385606

Var=0.389714

Accessibility to Highways

= 24 = Other(s)

Value of Occupied Homes

<= 10.950000 > 10.950000

Average Rooms

<= 6.896000 > 6.896000

Page 16: Pohon Regresi

15

Gambar 7. Pohon regresi dari tingkat kriminalitas hasil pemangkasan

INTERPRETASI ATAS POHON REGRESI

Pohon regresi hasil pemangkasan dapat diinterpretasikan sebagai berikut.

1. Nilai aksesibilitas ke jalan tol merupakan peubah penjelas yang paling berpengaruh

terhadap tingkat kriminalitas. Peubah nilai aksesibilitas ini adalah peubah bertipe ordinal.

Dari pohon regresi diketahui bahwa pertama-tama tingkat kriminalitas dibagi menjadi dua

berdasarkan peubah nilai aksesibilitas ke jalan tol. Nilai aksesibilitas sama dengan 24

dipisahkan dengan nilai aksesibilitas yang lain.

2. Amatan dengan nilai aksesibilitas selain 24 akan dikelompokkan kembali menjadi dua

kelompok berdasarkan nilai rumah tempat tinggal, dengan pemisahaan (splitting) pada

nilai 10.95. Nilai rumah yang lebih tinggi dari 10.95 memiliki tingkat kriminalitas yang lebih

rendah, dari pada kelompok sampel dengan nilai rumah tempat tinggal yang kurang dari

atau sama dengan 10.95. Sampel dengan nilai rumah yang lebih tinggi dari 10.95

menempati simpul akhir, tidak dibagi lagi menjadi simpul-simpul anakan.

3. Sampel kota dengan nilai rumah tempat tinggal yang tidak lebih dari 10.95 dibagi menjadi

dua simpul akhir, yang dipisahkan berdasarkan pertanyaan apakah “rata-rata jumlah

ruangan dalam rumah lebih dari 6.896?”. Sampel dengan rata-rata jumlah ruangan dalam

rumah lebih besar dari 6.896 memiliki tingkat kriminalitas yang lebih tinggi daripada rumah

dengan rata-rata jumlah

4. Pendugaan tingkat kriminalitas suatu kota berdasarkan peubah penjelas dapat disajikan ke

dalam tabel berikut (diurutkan berdasarkan tingkat kriminalitas yang terendah).

No Simpul N Rata-rata Tingkat

kriminalitas Peubah Penciri

1 3 374 0.385 Nilai akses ke Jalan Tol (Highway) sebesar 1,

2, dst (selain 24)

2 5 100 8.830 Nilai akses ke jalan tol adalah 24 dan nilai

rumah tempat tinggal > 10.95

3 6 31 22.974

Nilai akses ke jalan tol adalah 24, nilai rumah

tempat tinggal ≤ 10.95 dan rata-rata jumlah

ruangan dalam rumah ≤ 6.896

4 7 1 88.976

Nilai akses ke jalan tol adalah 24, nilai rumah

tempat tinggal ≤ 10.95 dan rata-rata jumlah

ruangan dalam rumah > 6.896

KESIMPULAN

Peubah penjelas yang memiliki pengaruh terhadap tingkat kriminalitas adalah nilai aksesibilitas ke

jalan tol, nilai dari rumah tempat tinggal, dan rata-rata jumlah ruangan dalam rumah.

Page 17: Pohon Regresi

16

Tingkat kriminalitas yang tertinggi ada pada kelompok amatan dengan nilai aksesibilitas ke jalan tol

sebesar 24 dan nilai harga rumah yang rendah, hal ini memperlihatkan wilayah yang mudah

terjangkau oleh jalur jalan tol (highway) yang memungkinkan pertukaran orang asing yang lebih

tinggi dan dengan tingkat ekonomi penduduk yang rendah (ditandai dengan harga rumah tempat

tinggal yang rendah) memiliki nilai kriminalitas yang paling tinggi dibandingkan dengan kelompok

amatan yang lain. Sedangkan kota dengan tingkat kriminalitas yang paling rendah adalah kota

dengan tingkat aksesibilitas ke jalan tol selain 24. Berdasarkan pohon regresi tersebut, apabila

diinginkan untuk mencari tempat tinggal dengan tingkat kriminalitas paling kecil, hindarilah

tempat dengan tingkat akses ke jalan tol yang sangat tinggi.

Pohon regresi memberikan cara interpretasi yang lebih mudah daripada model regresi linear,

terutama apabila dibandingkan dengan model regresi linear yang melibatkan banyak peubah dan

banyak transformasi atas peubah-peubahnya. Hal ini menjelaskan bahwa metode pohon regresi ini

cocok untuk dipergunakan sebagai alat eksplorasi data. Semakin dalam suatu pohon, interpretasi

semakin sulit untuk dilakukan, hal ini analog dengan model regresi linear biasa yang akan semakin

sulit diinterpretasikan apabila model semakin banyak dan banyak transformasi pada peubah-

peubahnya.

DAFTAR PUSTAKA

Denis White, Jean C. Sifneos, Regression Tree Cartography. Journal of Computational and Graphical Statistics 11(3):600-614, 2002.

Leland Wilkinson, Tree Structured Data Analysis: AID, CHAID and CART. Illinois: SPSS Inc., Department of Statistics, Northwestern University.

Breiman L., Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Tree, New York: Chapman & Hall, 1993.

Kudus, A. 1999. Penerapan Metode Regresi Berstruktur Pohon pada Pendugaan Masa Rawat Kelahiran Bayi (Studi Kasus di Rumah Sakin Hasan Sadikin Bandung). [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor

Hutabarat, I.M. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Timofeev R., Classification and Regression Tree (CART) Theory and Application, Berlin: Center of Statistics and Economics, Hamboldt University, 2004.