PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC REGRESSION LAPORAN TUGAS AKHIR SEMESTER MATA KULIAH GENERALIZED LINEAR MODEL MA 3283 Oleh: Indah Nurina Fitri Hapsari 10110094 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI BANDUNG 2014
Laporan akhir mata kuliah GLM (generalized Linear Model)- Regresi Logistik pada data car
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC
REGRESSION
LAPORAN TUGAS AKHIR SEMESTER
MATA KULIAH GENERALIZED LINEAR MODEL
MA 3283
Oleh:
Indah Nurina Fitri Hapsari
10110094
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI BANDUNG
2014
DAFTAR ISI
BAB I PENDAHULUAN……………………………………….……………………..................................................... 1
1.1 Latar Belakang………………….........……………………………………………………………….……..... 1
Dari data yang penulis peroleh, penulis tertarik dengan fakta bahwa dengan mengetahui
karakteristik calon pemegang polis saja, kita dapat mengetahui apakah calon pemegang polis
tersebut nantinya akan mengajukan claim atau tidak. Data karakteristik yang diperlukan juga
tergolong mudah untuk didapatkan.
1.2 Tujuan
Menentukan model regresi terbaik untuk mengestimasi probabilitas seseorang
dengan karakteristik tertentu untuk mengajukan claim.
1.3 Sumber Data
Data yang digunakan adalah data dari buku Generalized linear model for Insurance
Data, Piet de Jong and Gllian Z. Heller. Data yang diolah merupakan data asuransi
kendaraan bermotor dengan jangka waktu satu tahun yang direkap pada tahun 2004
hingga 2005. Data asuransi terdiri dari 67856 polis, 4624 (6,8%) diantaranya memiliki
setidaknya 1 claim.
1.4 Sistematika Penulisan
Laporan ini terdiri dari empat bab. Bab pertama adalah bab pendahuluan yang
terdiri dari latar belakang, tujuan penelitian, sumber data, dan sistematika penulisan.
Bab kedua adalah bab landasan teori yang berisi teori-teori dasar yang dibutuhkan
dalam proses pemodelan. Bab ketiga adalah bab analisis dan hasil penelitian yang
berisi analisis dari proses pemodelan serta pemilihan model terbaik. Bab keempat
berisi kesimpulan dan saran.
2
BAB II
LANDASAN TEORI
2.1 Jenis Variabel
2.1.1 Variabel Kategorikal
Variabel kategorikal merupakan variabel hitung yang tidak memenuhi
sifat operasi aritmatik. Variabel kategorikal sering disebut sebagai variabel
kualitatif.
1. Nominal
Variabel nominal ialah variabel kategorikal yang nilainya tidak
merepresentasikan urutan. Contoh dari variabel nominal ialah variabel
yang memiliki 2 nilai, yaitu 0 dan 1, dimana 0 merepresentasikan laki-laki
dan 1 merepresentasikan perempuan.
2. Ordinal
Variabel ordinal ialan variabel kategorikal yang nilainya
merepresentasikan urutan. Urutan pada variabel ordinal terjadi secara
alamiah. Contoh dari variabel ordinal ialah tingkat luka yang dialami
dalam kecelakaan (1: ringan, 2: sedang, dan 3: Berat).
2.1.2 Variabel Kontinu
Variabel Kontinu merupakan variabel yang memiliki nilai-nilai yang
terdapat dalam suatu selang/interval bilangan real. Contoh variabel kontinu
adalah harga kendaran.
2.2 Generalized Linear Model (GLM)
Generalized linear model(GLM) merupakan sebuah metode untuk
menguantifikasi hubungan antara variabel respon (bebas) dengan variabel prediktor
(terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan
nilai dari variabel respon apabila terdapat perubahan dari variabel-variabel
prediktornya. Dua hal yang harus diperhatikan dalam penggunaan GLM ialah:
1. Distribusi dari variabel respon merupakan anggota dari distribusi keluarga
eksponensial.
2. Transformasi terhadap nilai mean dari variabel respon memiliki hubungan
linear dengan variabel-variabel prediktornya.
𝑔 𝜇 = 𝑥′𝛽
3
2.2.1 Variabel
Dalam melakukan regresi, terdapat 2 tipe variabel yang harus kita
ketahui, yaitu:
1. Variabel Respon/Bebas
Variabel respon ialah variabel yang kita pilih sebagai variabel yang
akan diamati pergerakannya sebagai akibat dari pergerakan variabel-
variabel lain.
2. Variabel Prediktor/Terikat
Variabel prediktor ialah variabel-variabel yang perubahannya dapat
memengaruhi nilai dari variabel respon. Variabel-variabel yang termasuk
variabel prediktor umumnya diasumsikan menurut logika dari fakta yang
terjadi (disebut juga variabel potensial), kemudian keberpengaruhan
variabel-variabel tersebut terhadap variabel respon akan di cek pada
proses seleksi variabel untuk mendapatkan model terbaik.
2.2.2 Eksplorasi Data
Eksplorasi data merupakan sebuah metode untuk melihat hubungan
antar variabel. Dengan menggunakan eksplorasi data, kita dapat melihat:
1. Hubungan antara variabel respon dengan variabel-variabel prediktor yang
kita anggap potensial (perubahannya kemungkinan memiliki pengaruh
terhadap nilai variabel respon).
2. Hubungan antara variabel-variabel prediktor yang kita anggap potensial.
Eksplorasi data yang ditampilkan dapat berupa tabulasi maupun
gambar grafik. Bentuk tampilan dari eksplorasi data bergantung pada jenis
variabel (kontinu/kategorikal).
1. Kontinu dengan kontinu
Hubungan antara 2 variabel kontinu dapat dilihat melalui gambar
scatterplot kedua variabel. Sumbu Y umumnya memuat nilai-nilai dari
variabel yang dipengaruhi, sedangkan sumbu X memuat nilai-nilai dari
variabel yang memengaruhi. Scatterplot dapat juga memuat variabel
ketiga yang berjenis kategorikal dengan cara memberikan warna-warna
pada tiap tiap titik yang ada pada hasil scatterplot antara X dan Y.
Scatterplot smoother seringkali digunakan untuk melihat hubungan
antara variabel X dengan Y dimana hubungan tersebut mungkin tidak
linier.
4
2. Kategorikal dengan kategorikal
Untuk mengetahui hubungan antara variabel kategorikal dengan
kategorikal, kedua variabel tersebut dimuat di dalam sebuah tabel
frekuensi. Tabel frekuensi tersebut dapat diolah untuk mendapatkan
peluang bersyarat serta mengetahui kebergantungan kedua variabel.
Kebergantungan kedua variabel dapat diuji menggunakan uji Chi-squared
dengan membandingkan nilai frekuensi serta expected frekuensi yang
diperoleh dibawah asumsi independen.
3. Kontinu dengan kategorikal
Untuk melihat hubungan antara variabel kontinu dengan variabel
kategorikal, dapat digunakan boxplot. Selain itu, ketika variabel
kategorikal bersifat binary, maka gambar scatterplot antara variabel
kategorikal tersebut dengan suatu variabel kontinu dapat dilengkapi
dengan scatterplot smoother untuk membantu memperlihatkan
hubungan antar keduanya.
2.2.3 Distribusi Keluarga Eksponensial
Distribusi yang termasuk ke dalam distribusi keluarga exponensial
ialah distribusi yang memiliki fungsi peluang yang dapat dituliskan ke dalam
bentuk
𝑓 𝑦 = 𝑐 𝑦,𝜙 exp 𝑦𝜃 − 𝑎(𝜃)
𝜙
dimana 𝜃 disebut parameter kanonik, dan 𝜙 disebut parameter dispersi. Pemilihan 𝜃 dan fungsi 𝑎(𝜃) menentukan bentuk distribusi. Nilai mean dan variansi dari anggota distribusi eksponensial dapat dituliskan sebagai: 𝐸 𝑌 = 𝑎 (𝜃) 𝑉𝑎𝑟 𝑌 = 𝜙𝑎 (𝜃)
dimana 𝑎 (𝜃) ialah turunan pertama dari 𝑎(𝜃) terhadap 𝜃, dan 𝑎 (𝜃) adalah
turunan kedua dari 𝑎(𝜃) terhadap 𝜃. Untuk variabel respon berdistribusi
keluarga eksponen,
𝑎 𝜃 =𝛿𝑎 (𝜃)
𝛿𝜃=
𝛿𝜇
𝛿𝜃= 𝑉 𝜇 ,
sehingga 𝑉𝑎𝑟 𝑦 = 𝜙𝑉(𝜇), dimana 𝑉(𝜇) disebut fungsi variansi yang
memperlihatkan hubungan mean dengan variansi. Pada generalized linear
model, nilai 𝜇 behubungan erat dengan variabel prediktor, sehingga nilai 𝜇
bervariasi sesuai dengan nilai variabel prediktor. Karena nilai 𝜇 bervariasi,
maka variansi juga bervariasi melalui fungsi 𝑉(𝜇).
5
2.2.3.1 Distribusi Bernoulli Sebagai Anggota Distribusi Keluarga
Eksponesial
Misalkan Y berdistribusi B(1,π). Fungsi peluang dari Y ialah:
𝑃 𝑌 = 𝑦 = 𝜋𝑦(1 − 𝜋)1−𝑦 𝑦 = 0,1
𝜋𝑦 1 − 𝜋 1−𝑦 = 𝜋
(1 − 𝜋) 𝑦
(1 − 𝜋)
= 𝑒𝑦 log
𝜋(1−𝜋)
+log (1−𝜋)
sehingga,
𝑐 𝑦,𝜙 = 1 𝜙 = 1 𝜃 = log𝜋
1 − 𝜋
log1
1 − 𝜋 = log
1 − 𝜋 + 𝜋
1 − 𝜋
= log 1 +𝜋
1 − 𝜋
= log 1 +𝜋
1 − 𝜋
= log 1 + 𝑒𝜃
= 𝑎 𝜃
𝐸 𝑌 = 𝑎 𝜃 = 𝜋 𝑉 𝜇 =𝑉𝑎𝑟(𝑌)
𝜙= 𝜋(1 − 𝜋)
2.2.3.2 Penaksiran parameter distribusi keluarga eksponensial
Misalkan 𝑌 merupakan variabel berdistribusi anggota keluarga
eksponensial. Penaksiran parameter 𝜃 dan 𝜙 dari distribusi keluarga
eksponensial didasarkan pada data. Penaksiran parameter dapat
dilakukan melalui metode momen maupun metode maximum
likelihood estimation.
1. Metode momen
Ide dari metode momen ialah menaksir 𝜃 dan 𝜙
sedemikian sehingga nilai dari rata-rata dan variansi populasi
sama dengan nilai rata-rata dan variansi sampel. 𝑎 𝜃 = 𝑦
dan 𝜙𝑎 𝜃 = 𝜎 2, dimana 𝑦 dan 𝜎 2 adalah rata-rata dan
variansi sampel.
6
2. Metode maximum likelihood estimation(MLE)
Misalkan 𝑓(𝑦𝑖 ;𝜃,𝜙) merupakan fungsi peluang dari
sebuah distribusi keluarga eksponensial, maka
ℓ 𝜙,𝜃 = ln 𝑐 𝑦𝑖 ,𝜙 +𝑦𝑖𝜃 − 𝑎 𝜃
𝜙
𝑛
𝑖=1
=𝑛 𝑦 𝜃 − 𝑎(𝜃)
𝜙+ ln 𝑐 𝑦𝑖 ,𝜙
𝑛
𝑖=1
Untuk mencari MLE dari 𝜃, maka dicari nilai 𝜃 yang dapat
memaksimumkan fungsi log likelihood.
𝛿ℓ 𝜙,𝜃
𝛿𝜃=
𝑛 𝑦 − 𝑎 (𝜃)
𝜙= 0
Sehingga diperoleh 𝑎 𝜃 = 𝑦 . Maka MLE dari 𝜃 didapatkan
dengan cara mencari nilai 𝜃, sedemikian sehingga 𝑎 𝜃 ≡ 𝜇
sama dengan 𝑦 . Dapat dilihat bahwa dengan MLE, 𝜇 = 𝑦 .
Dapat disimpulkan bahwa taksiran 𝜇 menggunakan metode
MLE sama dengan taksiran pada metode momen.
2.2.4 Base level Variabel Kategorikal
Jika variabel prediktor yang digunakan merupakan variabel kategorikal,
maka perlu dipilih suatu base level sebelum melakukan regresi. Base level
merupakan dasar pengukuran yang digunakan untuk membandingkan level
(kategori) lain yang termuat pada variabel kategorikal yang sama. Base level
yang dipilih merupakan level(kategori) yang memiliki jumlah frekuensi
terbanyak sehingga algoritma yang digunakan untuk menaksir parameter 𝛽
konvergen.
2.2.5 Link dan Canonical Link
Telah dijelaskan sebelumnya, bahwa transformasi terhadap nilai mean dari
variabel respon memiliki hubungan linear dengan variabel-variabel
prediktornya.
𝑔 𝜇 = 𝑥′𝛽
Fungsi transformasi 𝑔 disebut dengan fungsi link. Fungsi ini menentukan
bagaimana nilai mean berhubungan dengan variabel-variabel prediktor.
Fungsi 𝑔 bersifat monoton dan differentiable. Apabila 𝑔 𝜇 = 𝜃, maka 𝑔
disebut canonical link. Pada kasus ini 𝜃 = 𝑥′𝛽. Pemilihan fungsi link
bergantung kepada distribusi variabel respon. Berikut disajikan tabel yang
memuat fungsi-fungsi link yang umum digunakan.
7
2.2.6 Pemodelan Menggunakan Logistic Regression
Logistic Regression merupakan pemodelan regresi dimana variabel respon
memiliki 2 kemungkinan kejadian (binary outcome). Fungsi link yang
digunakan ialah fungsi logit 𝜇
1−𝜇, sehingga:
𝑔 𝜇 =𝜇
1 − 𝜇= 𝑥′𝛽
𝜇 =𝑒𝑥 ′ 𝛽
1 + 𝑥′𝛽
2.2.6.1 Membangun Model Menggunakan Stepwise regression
Dua proses paling penting yang dilakukan pada Stepwise
regression ialah pemilihan variabel prediktor yang dimasukkan ke
dalam model dan pemilihan variabel prediktor untuk dikeluarkan
dari model. Untuk melakukan kedua proses tersebut, dibutuhkan uji
signifikansi variabel prediktor. Untuk menguji signifikansi suatu
variabel prediktor (kategorikal maupun kontinu), maka dilakukan uji
hipotesis:
𝐻0:𝐶𝛽 = 0
𝐻1:𝐶𝛽 ≠ 0
Matriks 𝐶 merupakan matriks berukuran 𝑞 × 𝑝, dimana p
merupakan jumlah parameter pada model apabila variabel yang
ingin diuji telah dimasukkan ke dalam model dan q adalah jumlah
parameter yang akan diuji. Matriks 𝛽 ialah matriks berukuran px1.
Wald test merupakan salah satu uji yang dapat digunakan untuk
menguji hipotesis diatas. Dibawah asumsi 𝐻0 ,
𝛽 ~𝑁(𝛽,𝜙(𝑋′𝑊𝑋)−1
8
dengan W ialah matriks diagonal dengan diagonal-diagonalnya berisi
nilai [ 𝑔 𝜇𝑖 2𝑉 𝜇𝑖 ]−1.
Sehingga,
𝐶𝛽 − 𝑟~𝑁(0,𝜙𝐶 𝑋′𝑊𝑋 −1𝐶′
Statistik wald yang digunakan untuk menguji 𝐶𝛽 = 0 ialah:
(𝐶𝛽 − 𝑟)′ 𝜙𝐶(𝑋′𝑊𝑋)−1𝐶′ 𝐶𝛽 − 𝑟 ~𝜒𝑞2
𝑞 merupakan jumlah parameter yang akan diuji signifikansinya.
𝐻0:𝐶𝛽 = 0 akan ditolak apabilai nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.
2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor Exposure
Exposure(t) merupakan proporsi yang menunjukkan perbandingan
jangka waktu polis yang terekspos terhadap jangka waktu polis yang
seharusnya. Misalkan claim adalah variabel yang menunjukkan
apakah seseorang mengajukan claim atau tidak. Misalkan seseorang
memiliki peluang untuk mengajukan claim sebesar 𝜋. Apabila nilai
eksposure kurang dari 1, peluang orang tersebut untuk mengajukan
claim akan menjadi lebih kecil. Dengan mempertimbangkan nilai
exposure, maka claim yang semula berdistribusi 𝐵(1,𝜋) akan
berdistribusi 𝐵(1, 𝑡𝜋), dengan 0 < 𝑡 ≤ 1.
Kita definisikan 𝜋∗ = 𝑡𝜋, karena 𝜇 = 𝜋 maka model regres logistik
menjadi:
𝑙𝑛𝜋∗/𝑡
1 − 𝜋∗/𝑡= 𝑥′𝛽 𝜋∗ = 𝑡
𝑒𝑥 ′ 𝛽
1 + 𝑥′𝛽
2.2.7 Tabel Klasifikasi dan ROC (Receiver Operating Characteristic)
Tabel klasifikasi ialah salah satu metode untuk melihat performa suatu
model dari regresi logistik. Nilai taksiran probabilitas 𝜋 𝑖 untuk setiap kasus i
diklasifikasikan dalam “event” dan “non-event” berdasarkan nilai threshold
yang kita pilih. Hasil dari tabel klasifikasi yang berukuran 2x2 mampu
membandingkan antara kejadian yang memang terjadi dengan hasil prediksi.
Kemampuan suatu model untuk memprediksi dapat diklasifikasikan ke dalam
2 ukuran:
1. Sensitivity, yaitu nilai yang merupakan frekuensi relatif dari
memprediksi suatu kejadian yang terjadi ketika kejadian tersebut
memang terjadi.
9
2. Specifycity, yaitu nilai yang merupakan frekuensi relatif dari
memprediksi suatu kejadian yang tidak terjadi ketika kejadian
tersebut memang tidak terjadi.
Jika nilai threshold yang dipilih ialah 0, maka nilai sensitivity=0 dan nilai
specificity=1. Kedua ukuran tersebut dapat digambarkan dalam suatu grafik
(ROC curve), dimana sumbu x merupakan (1-specificity) dan sumbu y
merupakan ukuran sensitivity. Karena merupakan frekuensi relatif, nilai
maksimum dari Sensitivity dan Specifycity ialah 1. Grafik ROC selalu bermula
dari titik (0,0) dan berakhir pada titik (1,1). Semakin cepat grafik menuju 1
maka semakin baik kemampuan model dalam memprediksi. Kemampuan
suatu model dalam memprediksi juga dapat kita lihat melalui luas dibawah
kurva ROC(Area Under Curve). Semakin luas kurva, semakin baik kemampuan
model dalam memprediksi.
2.2.8 Pemilihan Model
Pemilihan model untuk regresi logistik dapat dilakukan dengan melihat
nilai AIC yang didefinisikan sebagai:
𝐴𝐼𝐶 = −2ℓ + 2𝑝
Suatu taksiran yang baik tentunya akan memiliki nilai log likelihood yang
besar, sehingga nilai −2ℓ kecil. Model yang baik ialah model yang tidak
mengandung terlalu banyak parameter. Sehingga dapat disimpulkan bahwa
semakin baik model, nilai AIC akan semakin kecil. Jika nilai pengurangan AIC
tidak begitu besar, kemungkinan terdapat parameter yang tidak signifikan,
sehingga dibutuhkan uji untuk tiap-tiap parameter yang ada.
Selain melihat dari nilai AIC, kita juga melihat dari nilai AUC(Area Under
Curve) dari grafik ROC. Semakin besar area, semakin baik kemampuan model
dalam memprediksi.
10
BAB III
ANALISIS DAN HASIL PENELITIAN
3.1 Pemilihan Variabel Respon dan Prediktor Potensial
Sesuai dengan tujuan yang telah penulis paparkan, yaitu untuk menentukan
model regresi terbaik yang dapat mengestimasi probabilitas seseorang dengan
karakteristik tertentu untuk mengajukan claim, maka variabel respon yang dipilih
ialah variabel clm yang menyatakan apakah seseorang mengajukan claim atau tidak
(Data asuransi yang diperoleh bukan merupakan data asuransi yang bersifat group
pada masing-masing polisnya). Variabel clm termasuk ke dalam variabel kategorikal.
Variabel claim memiliki binary outcome dengan
0: tidak mengajukan claim
1: mengajukan claim
Variabel prediktor yang penulis anggap memiliki pengaruh terhadap variabel
respon yang telah dipilih ialah:
1. Veh_value : Vehicle value (harga kendaraan)
Merupakan variabel kontinu yang menyatakan harga
kendaraan dalam satuan 10,000 dolar.
2. Veh_body : Vehicle body (tipe badan kendaraan)
Merupakan variabel kategorikal dengan 13 kategori, yaitu
BUS
CONVT = convertible
COUPE
HBACK = hatchback
HDTOP = hardtop
MCARA = motorized caravan
MIBUS = minibus
PANVN = panel van
RDSTR = roadster
SEDAN
STNWG = station wagon
TRUCK
UTE - utility
11
3. Area : Area tempat tinggal pengemudi
Merupakan variabel kategorikal yang terdiri dari 6 kategori
area yaitu A, B, C, D, E, dan F.
4. Agecat : Kategori usia pengemudi
Merupakan variabel kategorikal yang terdiri dari 6 kategori
usia yaitu 1, 2, 3, 4, 5, dan 6
3.2 Eksplorasi Data
1. Veh_value (vehicle value/harga kendaraan)
Dapat dilihat bahwa nilai mean lebih besar dibanding nilai median. Nilai mean
bersifat tidak robust sehingga mudah mengalami pergeseran apabila terdapat
nilai yang besar. Dapat disimpulkan bahwa terdapat beberapa kendaraan dalam
data suransi yang memiliki harga tinggi. Hal ini juga dapat dilihat dari histogram
harga kendaraan yang memiliki ekor di bagian kanan.
Boxplot dari occurence of claim dengan vehicle value (harga kendaraan)
memperlihatkan bahwa pemegang polis yang tidak mengajukan claim memiliki
harga kendaraan yang variansinya lebih besar. Pemegang polis dengan harga
kendaraannya tergolong mahal terletak pada boxplot claim kategori 0, yang
mengindikasikan bahwa mobil yang mahal kemungkinan lebih jarang rusak.
12
Dari gambar scatterplot yang dilengkapi dengan hasil scatterplot smoother
diatas, dapat dilihat bahwa harga kendaraan tidak berhubungan secara linear
dengan variabel clm. Hubungan keduanya kemungkinan bersifat kuadratik atau
kibik. Namun, setelah dilakukan regresi polinomial derajat 2 dan derajat 3 dengan
variabel respon clm dan variabel prediktor veh_value, keduanya kurang cocok.
Regresi polinomial derajat 2 menunjukkan bahwa regresi tidak cocok untuk data
nilai kendaraan yang besar, sehingga perlu dilakukan banding. Banding ialah
mengategorikan variabel kontinu. Kita definisikan variabel baru yaitu valuecat,
dimana valuecat merupakan hasil banding dari variabel veh_value. Selang yang
dipilih dapat dilihat pada tabel berikut.
Hasil dari banding pada grafik scatterplot diatas menunjukkan bahwa variabel
valuecat lebih cocok dibanding dengan hasil regresi polinomial yang telah
dipaparkan sebelumnya, sehingga variabel valuecat akan digunakan sebagai
variabel prediktor menggantikan variabel veh_value.
Terlihat bahwa nilai AUC(Area Under Curve) naik untuk setiap step dalam
regresi, hal ini mengindikasikan bahwa kemampuan model pada setiap step
untuk memprediksi terus membaik. Artinya nilai specificity dan sensitivity
terus meningkat. Berikut tabel klasifikasi dengan nilai threshold 0.08.
Nilai sensitivity dan specificity diperoleh dari:
𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡
𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡
𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡
𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡
3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure
Didefiniskan fungsi link dan fungsi inverse link
𝑙𝑛𝜋∗/𝑡
1 − 𝜋∗/𝑡 𝑡
𝑒𝑥 ′ 𝛽
1 + 𝑥′𝛽
dengan t menotasikan nilai eksposure. Berikut hasil regresi yang diperoleh dari program SAS. Penjelasan dari proses regresi yang serupa tidak dibahas kembali.
26
LR statistik for type 3 analysis merupakan alat untuk menguji signifikansi
masing-masing variabel pada model regresi yang telah didapatkan. Model
regresi yang didapatkan ialah:
𝑙𝑛𝜋
1 − 𝜋= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2
+⋯− 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
3.5 Pemilihan Model
Pemilihan model didasarkan pada nilai AIC terkecil serta nilai AUC terbesar. Nilai
AIC untuk hasil stepwise regression tanpa mempertimbangkan nilai exposure ialah
33680, 356. Sedangkan dengan mempertimbangkan nilai exposure, model yang
didapatkan memiliki nilai AIC 32549,5279. Artinya model dengan
mempertimbangkan faktor exposure dapat dibilang lebih baik.
27
Dapat dilihat dari kurva ROC diatas, kurva ROC dari model yang memuat faktor
exposure lebih condong ke bagian kiri atas dari grafik. Hal ini mengindikasikan bahwa
model lebih baik.
Dapat dilihat pada tabel klasifikasi bahwa nilai specificity dari model yang memuat
faktor exposure lebih kecil. Namun perbedaan ini tidak begitu signifikan dibanding
dengan perbedaan nilai dari sensitivity, dimana nilai sensitivity untuk model yang
memuat faktor exposure lebih tinggi.
Sensitivity didefinisikan sebagai frekuensi relatif dari memprediksi sebuah
kejadian (claim) ketika kejadian tersebut terjadi. Sedangkan specificity didefinisikan
sebagai frekuensi relatif dari memprediksi tidak terjadinya sebuah kejadian ketika
kejadian (claim)tersebut memang tidak terjadi. Pihak asuransi tentunya lebih
menginginkan nilai sensitivity yang tinggi dibanding nilai dari specificity. Oleh karena
itu model yang dipilih ialah model yang memuat faktor exposure, yaitu:
𝑙𝑛𝜋
1 − 𝜋= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2
+⋯− 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
Tanpa Exposure Dengan Exposure
28
BAB IV
KESIMPULAN DAN SARAN
4.1 Kesimpulan
Regresi terbaik yang diperoleh ialah regresi yang mempertimbangkan faktor
eksposure dengan prediktor valuecat (kategoriharga kendaraan), agecat(kategori
usia), area(area tempat tinggal pengemudi), dan veh_body (Tipe badan mobil).