8 BAB II TINJAUAN PUSTAKA 2.1 Regresi Logistik Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data kategori menggunakan regresi logistik adalah mendapatkan model terbaik dan sederhana untuk menjelaskan hubungan antara keluaran dari variabel respons () dengan variabel-variabel prediktornya (). Variabel respons dalam regresi logistik dapat berupa kategori atau kualitatif, sedangkan variabel prediktornya dapat berupa kualitatif dan kuantitatif. Jika variabel merupakan variabel biner atau dikotomi dalam artian variabel respons terdiri dari dua kategori yaitu “sukses” ( = 1) atau “gagal” ( = 0), maka variabel mengikuti sebaran Bernoulli yang memiliki fungsi densitas peluang: ( ) = ( ) (1 − ( )) 1− , ; = 0,1 (2.1) sehingga diperoleh: Untuk =0, maka (0) = ( ) 0 (1 − ( )) 1−0 = 1 − ( ), untuk =1, maka (1) = ( ) 1 (1 − ( )) 1−1 = ( ). Misalkan probabilitas dari variabel respons untuk nilai yang diberikan, dinotasikan sebagai (). Model umum () dinotasikan sebagai berikut: () = exp( 0 + 1 1 + 2 2 +⋯+ ) 1 + exp( 0 + 1 1 + 2 2 +⋯+ ) , Persamaan (2.2) disebut fungsi regresi logistik yang menunjukkan hubungan antara variabel prediktor dan probabilitas yang tidak linear, sehingga untuk mendapatkan (2.2)
18
Embed
BAB II TINJAUAN PUSTAKA 2.1 Regresi Logistik II.pdf · 8 BAB II TINJAUAN PUSTAKA 2.1 Regresi Logistik Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data kategori menggunakan
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
8
BAB II
TINJAUAN PUSTAKA
2.1 Regresi Logistik
Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data
kategori menggunakan regresi logistik adalah mendapatkan model terbaik dan
sederhana untuk menjelaskan hubungan antara keluaran dari variabel respons (𝑌)
dengan variabel-variabel prediktornya (𝑋). Variabel respons dalam regresi logistik
dapat berupa kategori atau kualitatif, sedangkan variabel prediktornya dapat berupa
kualitatif dan kuantitatif. Jika variabel 𝑌 merupakan variabel biner atau dikotomi
dalam artian variabel respons terdiri dari dua kategori yaitu “sukses” (𝑌 = 1) atau
“gagal” (𝑌 = 0), maka variabel 𝑌 mengikuti sebaran Bernoulli yang memiliki
fungsi densitas peluang:
𝑓(𝑦𝑖) = 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖 , ; 𝑦𝑖 = 0,1 (2.1)
sehingga diperoleh:
Untuk 𝑦𝑖 = 0, maka 𝑓(0) = 𝜋(𝑥𝑖)0(1 − 𝜋(𝑥𝑖))1−0 = 1 − 𝜋(𝑥𝑖),
untuk 𝑦𝑖 = 1, maka 𝑓(1) = 𝜋(𝑥𝑖)1(1 − 𝜋(𝑥𝑖))1−1 = 𝜋(𝑥𝑖).
Misalkan probabilitas dari variabel respons 𝑌 untuk nilai 𝑥 yang diberikan,
dinotasikan sebagai 𝜋(𝑥). Model umum 𝜋(𝑥) dinotasikan sebagai berikut:
𝜋(𝑥) =exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝)
1 + exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝),
Persamaan (2.2) disebut fungsi regresi logistik yang menunjukkan hubungan antara
variabel prediktor dan probabilitas yang tidak linear, sehingga untuk mendapatkan
(2.2)
9
hubungan yang linear dilakukan transformasi yang sering disebut dengan
transformasi logit. Bentuk logit dari 𝜋(𝑥) dinyatakan sebagai 𝑔(𝑥), yaitu:
logit [𝜋(𝑥)] = 𝑔(𝑥) = ln (𝜋(𝑥)
1−𝜋(𝑥)) = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝. (2.3)
Persamaan (2.3) merupakan bentuk fungsi hubungan model regresi logistik
yang disebut model regresi logistik berganda (Hosmer dan Lemeshow, 2000).
2.2 Regresi Logistik Ordinal
Regresi logistik adalah model regresi yang digunakan apabila variabel
respons bersifat kualitatif. Model ini terdiri dari regresi logistik sederhana yang
bersifat dikotomus yang mensyaratkan variabel respons terdiri dari dua kategori,
dan regresi logistik polytomous dengan variabel respons lebih dari dua kategori.
Regresi logistik polytomous dengan variabel respons bertingkat dikenal dengan
regresi logistik ordinal. Variabel prediktor yang dapat disertakan dalam model
berupa data kategori dan kontinu yang terdiri atas dua variabel atau lebih
(Hosmer dan Lemeshow, 2000).
2.2.1 Model Odd Proporsional
Suatu variabel respons 𝑌 berskala ordinal dapat terdiri dari 𝐾 + 1 dan
dinyatakan dengan 0,1,2, . . . , 𝐾. Ekspresi umum peluang bersyarat 𝑌 = 𝑘 pada
vektor 𝑥 dari 𝑝 variabel prediktor adalah Pr[𝑌 = 𝑘|𝑥] = 𝜙𝑘(𝑥). Misalkan
𝜙𝑘(𝑥) = 𝜋𝑘(𝑥), maka untuk 𝐾 = 0,1,2, model yang terbentuk dijelaskan oleh
persamaan berikut:
10
𝑃(𝑌 = 0|𝑥) =1
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙0(𝑥)
𝑃(𝑌 = 1|𝑥) =𝑒𝑔1(𝑥)
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙1(𝑥)
𝑃(𝑌 = 2|𝑥) =𝑒𝑔2(𝑥)
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙2(𝑥) ,
sehingga bentuk persamaan tersebut adalah sebagai berikut:
𝑃(𝑌 = 𝑘|𝑥) = 𝑒g𝑘(𝑥)
∑ 𝑒g𝑖(𝑥)𝐾𝑖=1
, (2.4)
dengan g0(𝑥) = 0, dan 𝑘 = 0,1, … , 𝐾.
Model logit garis dasar mempunyai 𝐾(𝑝 + 1) koefisien, bentuk ini muncul dari
fakta bahwa model biasanya diparameterisasi, sehingga koefisien-koefisien log
odds membandingkan kategori 𝑦 = 𝑘 dengan kategori dasar 𝑦 = 0.
g𝑘(𝑥) = ln [𝜙𝑘(𝑥)
𝜙0(𝑥)]
= ln [𝑃(𝑌 = 𝑘|𝑥)
𝑃(𝑌 = 0|𝑥)]
= 𝛽𝑘0 + 𝑥′𝛽𝑘 , 𝑘 = 0,1,2, … , 𝐾, (2.5)
persamaan (2.5) disebut model logit dasar (baseline logit model), dengan 𝛽𝑘0
sebagai intersep.
Pada regresi logistik ordinal, model dapat diperoleh dengan model odds
proporsional (proportional odds model). Model logit ini merupakan model yang
didapatkan dengan membandingkan peluang kumulatif yaitu peluang kurang dari
atau sama dengan kategori respons ke-𝑘 pada 𝑝 variabel prediktor yang dinyatakan
dalam vektor 𝑥, 𝑃(𝑌 ≤ 𝑘|𝑥), dengan peluang yang lebih besar dari kategori
respons ke-𝑘, 𝑃(𝑌 > 𝑘|𝑥) yang didefinisikan sebagai berikut:
11
logit 𝑃(𝑌 ≤ 𝑘|𝑥) = 𝑐𝑘(𝑥) = ln [𝑃(𝑌 ≤ 𝑘|𝑥)
𝑃(𝑌 > 𝑘|𝑥)]
= ln [𝜙0(𝑥) + 𝜙1(𝑥) + ⋯ + 𝜙𝑘(𝑥)
𝜙𝑘+1(𝑥) + 𝜙𝑘+2(𝑥) + ⋯ + 𝜙𝐾(𝑥)]
= 𝜏𝑘 − 𝑥′𝛽, (2.6)
untuk 𝑘 = 0,1,2, . . . 𝐾 − 1 (Hosmer dan Lemeshow, 2000).
2.3 Pendugaan Parameter
Metode yang paling umum digunakan untuk menduga parameter pada
model regresi logistik adalah metode maksimum likelihood (method of maximum
likelihood). Langkah awal untuk menerapkan metode maksimum likelihood adalah
dengan membentuk sebuah fungsi yang disebut fungsi likelihood. Fungsi ini
menggambarkan fungsi peluang dari data-data yang diamati sebagai fungsi dari
penduga parameter (Hosmer dan Lemeshow, 2000). Secara umum fungsi likelihood
didefinisikan sebagai fungsi peluang bersama dari variabel acak yang dibentuk oleh
sampel. Khusus untuk sampel berukuran 𝑛 dengan amatannya (𝑦1, 𝑦2, … , 𝑦𝑛)
berkoresponden dengan variabel acak (𝑌1, 𝑌2, … , 𝑌𝑛). Selama 𝑌𝑖 dianggap
independen, maka fungsi densitas peluang bersamanya adalah sebagai berikut:
g(𝑌1, 𝑌2, … , 𝑌𝑛) = ∏ 𝑓(𝑌𝑖)𝑛𝑖=1 . (2.7)
Metode yang digunakan untuk mencocokkan setiap model didasarkan
penyesuaian pada multinomial likelihood. Bentuk umum dari likelihood untuk
sampel dari 𝑛 amatan yang saling bebas (𝑧𝑖 , 𝑥𝑖), 𝑖 = 1,2, … , 𝑛; adalah sebagai