Top Banner
1 BAB I PENDAHULUAN 1.1 Latar Belakang Bahaya dari merokok sudah sering didokumentasikan, data dari studi terkini mengatakan bahwa terdapat hubungan kuantitatif antara merokok dengan berbagai penyakit seperti jantung koroner, kanker paru-paru, kanker usus, emfisema paru, penyakit vascular perifer serta kematian neonates.Hal ini karena dalam rokok terkandung bahan kimia berbahaya.Secara rata-rata, setiap batang rokok mengandung lebih dari 3000 bahan kimia berbahaya. Bahan berbahaya tersebut ialah kumarin, timbale, hydrogen sianida, naftalena, kromium, nitrogen oksida, cadmium, ammonia, karbon monoksida, aseton, formaldehida, tar, arsenic, benzene, nikotin (Boldsky., 2013). Bahan bahan tersebut sebagian besar merupakan bahan karsinogen, bahan karsinogen adalah zat yang bisa menyebabkan kanker dengan mengubah asam deoksiribonukleat (DNA) dalam sel-sel tubuh, dan hal ini mengganggu proses-proses biologis. Dari bahan-bahan yang telah disebutkan diatas yang termasuk bahan kasinogenik adalah timbal, peningkatan kadar timbale dalam darah dapat menyebabkan keracunan. Kemudian tar, tar yang bersifat karsinogenik ini muncul saat rokok dibakar.Yang terakhir adalah benzene, benzene adalah petrokimia yang digunakan untuk men-dry clean pakaian, kandungan itu juga merupakan karsinogen yang bisa menyababkan kanker darah. Pada modul ini, data yang digunakan dikategorikan menjadi data asli kelompok control dan data asli kelompok case, dengan variable lama merokok, umur, berat badan, dan tinggi badan.Untuk mendapatkan suatu fungsi yang dapat mengklasifikasikan beberapa variable prediktor ke dalam observasi pada kelompok khusus yang sudah ada,maka menggunakan salah satu metode pengujian pada Analisis Multivariat yaitu analisis diskriminan.
38

Analisis Multivariat

Sep 27, 2015

Download

Documents

Analisis Deskriminan
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • 1

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Bahaya dari merokok sudah sering didokumentasikan, data dari studi terkini

    mengatakan bahwa terdapat hubungan kuantitatif antara merokok dengan berbagai

    penyakit seperti jantung koroner, kanker paru-paru, kanker usus, emfisema paru,

    penyakit vascular perifer serta kematian neonates.Hal ini karena dalam rokok

    terkandung bahan kimia berbahaya.Secara rata-rata, setiap batang rokok mengandung

    lebih dari 3000 bahan kimia berbahaya. Bahan berbahaya tersebut ialah kumarin,

    timbale, hydrogen sianida, naftalena, kromium, nitrogen oksida, cadmium, ammonia,

    karbon monoksida, aseton, formaldehida, tar, arsenic, benzene, nikotin (Boldsky.,

    2013).

    Bahan bahan tersebut sebagian besar merupakan bahan karsinogen, bahan

    karsinogen adalah zat yang bisa menyebabkan kanker dengan mengubah asam

    deoksiribonukleat (DNA) dalam sel-sel tubuh, dan hal ini mengganggu proses-proses

    biologis. Dari bahan-bahan yang telah disebutkan diatas yang termasuk bahan

    kasinogenik adalah timbal, peningkatan kadar timbale dalam darah dapat

    menyebabkan keracunan. Kemudian tar, tar yang bersifat karsinogenik ini muncul

    saat rokok dibakar.Yang terakhir adalah benzene, benzene adalah petrokimia yang

    digunakan untuk men-dry clean pakaian, kandungan itu juga merupakan karsinogen

    yang bisa menyababkan kanker darah.

    Pada modul ini, data yang digunakan dikategorikan menjadi data asli

    kelompok control dan data asli kelompok case, dengan variable lama merokok, umur,

    berat badan, dan tinggi badan.Untuk mendapatkan suatu fungsi yang dapat

    mengklasifikasikan beberapa variable prediktor ke dalam observasi pada kelompok

    khusus yang sudah ada,maka menggunakan salah satu metode pengujian pada

    Analisis Multivariat yaitu analisis diskriminan.

  • 2

    1.2 Rumusan Masalah

    Berdasarkan uraian latar belakang diatas, maka rumusan masalah yang akan

    dibahas dalam pratikum ini adalah sebagai berikut.

    1. Bagaimana hasil uji normal multivariate pada data studi kasus pasien kanker

    paru RSUD Dokter Soetomo?

    2. Bagaimana hasil uji homogenitas varian kovarian pada data studi kasus

    pasien kanker paru RSUD Dokter Soetomo?

    3. Bagaimanafungsi diskriminan untuk komposisi 50:50, 70:30, 90:10 pada data

    studi kasus pasien kanker paru RSUD Dokter Soetomo?

    4. Bagaimana perbandingan fungsi diskriminan untuk data testing 50%, 30%

    dan 10% pada data studi kasus pasien kanker paru RSUD Dokter Soetomo?

    1.3 Tujuan

    Tujuan yang ingin dicapai setelah melaksanakan pratikum pengendalia

    kualitas statistik tentang diagram control adalah sebagai berikut.

    1. Mengetahui apakah data studi kasus pasien kanker paru RSUD Dokter

    Soetomo mengikuti distribusi normal multivariate dengan menggunakan uji

    normal multivariate.

    2. Mengetahui kehomogenan varian kovarian data studi kasus pasien kanker

    paru RSUD Dokter Soetomodengan menggunakan uji homogenitas varian

    kovarian.

    3. Mengetahui hasil pengklasifikasian variable predictor ke dalam observasi

    pada kelompok khusus pada data studi kasus pasien kanker paru RSUD

    Dokter Soetomo dengan menggunakan analisis diskriminan.

    4. Mengetahui perbandingan hasil fungsi diskriminan untuk komposisi 50:50,

    70:30, 90:10 pada data studi kasus pasien kanker paru RSUD Dokter

    Soetomo

    1.4 Manfaat

    Topik dalam pratikum ini daharapkan dapat memberikan manfaat dalam

    bentuk aplikasi penggunaan diagram kontrol adalah sebagai berikut.

  • 3

    1. Mampu memahami konsep dan aplikasi analisis multivariat.

    2. Mampu melakukan uji asumsi distribusi normal multivariat dan uji asumsi

    homogenitas.

    3. Mampu menganalisis dengan analisis diskriminan.

  • 4

    BAB II

    TINJAUAN PUSTAKA

    2.1 Tinjauan Statistik

    Analisis multivariat adalah analisis statistika, dimana statistikamerupakan

    ilmu yang mempelajari suatu perencanaan, pengumpulan, menganalisis,

    menginterpretasi, dan mempresentasikan data.Dalam hal ini, analisis statistika

    multivariat adalah analisis statistika terhadap data pengamatan melalui obyek-obyek

    atau individu-individu jika hasil pengamatan tersebut merupakan kumpulan beberapa

    variabel random khususnya yang saling berkorelasi.Jadi, analisis multivariat dapat

    didefinisikan secara sederhana sebagai metode pengolahan variabel dalam jumlah

    banyak untuk mencari pengaruhnya terhadap suatu obyek secara simultan.(Santoso,

    2010).

    2.1.1 Uji Normal Multivariat

    Uji asumsi distribusi normal multivariat merupakan salah satu syarat untuk

    melakukan analisis mulivariat. Pengujian ini dapat dengan dua cara, yaitu

    1. Menghitung proporsi nilai jarak mahalanobis ( ) yang nilainya kurang

    dari

    dimana :

    ( ) ( ) (2.1)

    (

    )

    (2.2)

    2. Menghitung nilai koefisien korelasi kemudian menyesuaikan nilai koefisien

    korelasi dengan tabel sehingga dapat diputuskan apakah data yang digunakan

    telah memenuhi asumsi distribusi multivariat normal atau tidak.

    Hipotesis:

    H0: Data berdistribusi normal multivariat

    H1: Data tidak berdistribusi normal multivariat

    Statistik Uji :

  • 5

    ( )

    (2.3)

    Daerah Kritis :

    Tolak H0 jika

    2.1.2 Uji Homogenitas

    Uji homogenitas secara multivariat dapat dilakukan dengan uji Boxs M. Uji

    Boxs M merupakan uji yang digunakan untuk mengetahui kehomogenan matriks

    varians-kovarians secara multivariat.

    Prosedur uji Boxs-M sebagai berikut.

    Hipotesis

    H0 :

    H1 : Minimal ada satu i ; i = 1, 2, 3

    Statistik uji

    (2.4)

    Dimana,

    (2.5)

    (2.6)

    (2.7)

    (2.8)

    Daerah kritis

    g ...21

    k

    ii

    k

    ipooliihitung vSSvc

    111

    2

    2

    1ln

    2

    112

    gg

    l

    l

    pooled SnSnSnn

    )1()1()1()1(

    12211

    S

    l

    llpooled

    l

    l SnSnM ln)1(ln)1(

    )1)(1(6

    132

    )1(

    1

    )1(

    1 2

    1

    1

    gp

    pp

    nn

    uk

    ik

    i

    ll

    1 ii nv

    l

    llpooled

    l

    l SnSnuMuC ln)1(ln)1()1()1(

  • 6

    Tolak H0 jika

    2.1.3 Analisis Diskriminan

    Analisis diskriminan merupakan metode statistik multivariat untuk

    mengelompokkan atau mengklasifikasikan sejumlah obyek ke dalam beberapa

    kelompok, berdasarkan beberapa variabel sedemikian hingga setiap obyek menjadi

    anggota dari salah satu kelompok, Tidak ada obyek yang menjadi anggota lebih dari

    pada 1 kelompok.Analisis diskriminan akan menghasilkan variabel independen yang

    benar-benar membedakan antar kelompok. Dalam analisis diskriminan terdapat 2

    metode berdasarkan jumlah kategori dari variabel dependennya. Apabila terdapat 2

    kategori yang terlibat da- lam pengklasifikasian, maka disebut dengan two-group

    discriminant analysis. Sedangkan apabila terdapat 3 atau lebih kategori yang terlibat

    dalam pengklasifikasian, maka disebut dengan multiple discriminant analysis.

    Fungsi diskriminan pertama kali diperkenalkan oleh Ronald A. Fisher (1936)

    dengan menggunakan beberapa kombinasi linier dari pengamtan yang cukup

    mewakili populasi. Menurut Fisher, untuk mencari kombinasi linier dari p variabel

    bebas tersebut dapat dilakukan dengan pemilihan koefisien-koefisiennya yang

    menghasilkan hasil bagi maksimum antara matrik peragam antar kelompok (between-

    group) dan matrik peragam dalam kelompok (within-group).

    2 Berikut ini adalah aturan klasifikasi dalam analisis diskriminan untuk data yang

    memenuhi kedua asumsi :

    Jika didefinisikan skor diskriminan linier adalah :

    (2.9)

    maka untuk mengetahui digunakan rumus :

    (2.10)

    dengan

    2

    )1()1(2

    1

    2

    ppkhitung

  • 7

    ( )

    (2.11)

    Untuk mengevaluasi ketepatan klasifikasi, maka dapat dilakukan dengan

    menggunakan Apperent Error Rates (APER).

    =

    sampel alJumlah tot

    iklasifikassalah yangobjek alJumlah tot (2.12)

    Aturan klasifikasi dengan estimasi minimumTPM (Total Probability of

    Misclasification) untuk data dengan matrik varians-kovarians yang sama dan berasal

    dari distribusi normal multivariat adalah alokasikan ke jika skor diskriminan

    linier sama dengan nilai terbesar dari dengan

    diberikan pada persamaan (2.9), .Fungsi diskriminan katonik dengan

    menggunakan aturan Fisher adalah sebagai berikut.

    Dimana:

    = observasi baru

    = observasi ke-1

    (2.14)

    (2.15)

    Alokasikan nilai ke jika dan alokasikan nilai ke jika

    .(Johnson dan Wichern, 2002).

    2.2 Tinjauan Non Statistika

    Kanker paru-paru adalah salah satu jenis kanker yang paling bisa

    dicegah.Paling tidak terdapat 80-90 persen kasus kanker paru-paru yang berhubungan

    dengan kebiasaan merokok.Pada tahap awal, tidak ada tanda atau gejala kanker paru-

    paru yang jelas. Tapi kemudian gejala seperti batuk secara berkelanjutan hingga

    mengalami batuk darah, selalu merasa kehabisan napas, kelelahan tanpa alasan,dan

  • 8

    penurunan berat badan akan muncul. Merokok bisa dikatakan sebagai penyebab

    utama kanker paru-paru.Orang yang paling berisiko terkena kanker paru-paru adalah

    perokok aktif.Sekitar 80-90 persen kanker paru-paru dikaitkan dengan kebiasaan

    merokok. Meski begitu,bukan berarti setiap perokokakan terkena kanker paru-paru.

    Selain itu, orang yang tidak merokok juga berkemungkinan terserang kanker paru-

    paru, meski lebih rendah jumlahnya.

    Pada tahun 2012, kanker paru-paru merupakan jenis kanker yang paling

    sering terdiagnosis dan penyebab kematian akibat kanker tertinggi di dunia.Kanker

    paru-paru adalah jenis kanker yang paling sering menyerang laki-laki Indonesia.

    Berdasarkan data Globocan atau International Agency for Research on

    Cancer (IARC) pada tahun 2012, di Indonesia terdapat 25.322 kasus kanker paru-

    paru yang menimpa pria dan 9.374 kasus yang menimpa wanita. (kanker paru-paru :

    alodokter)

  • 9

    BAB III

    METODOLOGI PENELITIAN

    3.1 Sumber Data

    Data yang digunakan dalam praktikum iniadalah data sekunder yang

    diperoleh dari data tugas akhir mahasiswa statistika ITS yang bernama Ni'matus

    Solikha(1305109501) dengan judul Analisis Statistika terhadap penyakit kanker

    paru oleh bahan karsinogenik(studi kasus pasien kanker paru RSUD Dokter

    Soetomo).Data di ambil dari ruang baca statistika pada tanggal 20April 2015.

    3.2 Variabel Penelitian

    Variabel penelitiaan yang digunakan pada praktikum ini adalah tekanan darah

    sebagai berikut:

    Tabel 3.1 Variabel data studi kasus pasien kanker paru RSUD Dokter Soetomo

    VARIABEL KETERANGAN

    Y

    Analisis terhadap penyakit

    kanker paru-paru oeh

    bahan karsinogenik

    Kelompok 1

    Data Asli Kelompok

    Control

    2 Data Asli Kelompok Case

    X1 Lama Merokok

    X2 Umur

    X3 Berat

    X4 Tinggi

    3.3 Langkah Analisis

    Dalam pembuatan modul ini langkah-langkah yang digunakan ialah sebagai

    berikut.

    1. Mencari data sekunder di Ruang Baca Statistika.

    Data yang digunakan dalam modul ini harus memiliki minimal dua kelas.

    2. Mendeteksi normalitas

  • 10

    Menguji apakah data mengikuti distribusi mulltinormal.

    3. Mendeteksi Homogenitas

    Menguji apakah data merupakan data yang homogen.

    4. Menganalisis Deskriminan

    Mengetahui fungsi deskriminan yang tepat untuk data dengan memiliki

    minimal dua kelas.

    5. Menarik Kesimpulan dan memberikan saran.

    3.4 Diagram Alir

    Dari langkah-langkah analisis tersebut dapat dibuat diagram alir dari awal

    penulisan sampai penarikan kesimpulan.

    Gambar 3.1 Diagram Alir Pratikum

    Menguji normalitas data dengan menggunakanuji asumsi distribusi multinormal

    Menguji homogenitas data dengan menggunakan uji homogenitas

    Menganilisis deskriminan dengan mendapatkan fungsi deskriminan yang tepat

    Membandingkan hasil fungsi dekriminan tiap proporsi

    Mencari data.

    Menarik Kesimpulan dan memberikan saran

  • 11

    BAB IV

    ANALISIS DAN PEMBAHASAN

    4.1 Uji Normal Multivariat

    Sebelum menganalisis diskriminan, data harus diasumsikan mengikuti

    distribusi normal multivariate.Berikut adalah uji normal multivariat pada data studi

    kasus pasien kanker paru RSUD Dokter Soetomo.

    4.1.1 Uji Normal Multivariat pada Kelompok Control

    Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5

    variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.

    Hipotesis :

    H0 : Data berdistribusi normal multivariat

    H1 : Data tidak berdistribusi normal multivariat

    Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter

    Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD

    Dokter Soetomo kelompok control.

    Gambar 4.1 ScatterplotData pada data studi kasus pasien kanker paru RSUD Dokter

    Soetomo kelompok Control

    Berdasarkan gambar 4.1 plot merah menunjukan sebaran dan mengikuti garis

    normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi

    sebesar -0,1513 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ

    dengan derajat bebas 0,05 yang bernilai 0.9508 maka dapat disimpulkan tolak H0.

    14121086420

    14

    12

    10

    8

    6

    4

    2

    0

    dd

    q

    Scatterplot of q vs dd

  • 12

    Sehingga data sebaran diatas tidak berdistribusi normal multivariate, namun agar

    dapat dilakukan pengujian lebih lanjut data ini diasumsikan normal

    multivariate.Selain itu dari hasil output makro minitab diperoleh t sebesar 0.65 atau

    65%. Hal ini menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter

    Soetomomengikuti distribusi normal multivariat karena nilai T2Hotteling mendekati

    50% yang merupakan proporsi dari distribusi normal multivariat.

    4.1.2 Uji Normal Multivariat pada Kelompok Case

    Pada uji normal multivariat, variabel yang diujikan adalah sebanyal 5

    variabel.Berikut ini merupakan hipotesis dan hasil pengujian multivariat normal.

    Hipotesis :

    H0 : Data berdistribusi normal multivariat

    H1 : Data tidak berdistribusi normal multivariat

    Data dianalisis adalahdata studi kasus pasien kanker paru RSUD Dokter

    Soetomo.Berikut adalah scatterplotdari data studi kasus pasien kanker paru RSUD

    Dokter Soetomo kelompok case.

    Gambar 4.2 Scatterplotdata studi kasus pasien kanker paru RSUD Dokter Soetomo Kelompok Case

    Berdasarkan gambar 4.2 plot merah menunjukan sebaran dan mengikuti garis

    normal. Lalu berdasarkan perhitungan korelasi dengan excel, diperoleh nilai korelasi

    sebesar 0,543693 dimana hasil ini bila dibandingkan dengan nilai pada tabel QQ

    dengan derajat bebas 0,05 yang bernilai 0.9508maka dapat disimpulkan tolak H0.

    Sehingga data sebaran diatas tidak berdistribusi normal multivariate, Namun dari

    hasil output makro minitab diperoleh T2Hotteling sebesar 0.5 atau 50%. Hal ini

    menunjukan bahwa data studi kasus pasien kanker paru RSUD Dokter Soetomo

    mengikuti distribusi normal multivariat karena nilai T2

    Hotteling sebesar 50% yang

    1086420

    14

    12

    10

    8

    6

    4

    2

    0

    dd

    q

    Scatterplot of q vs dd

  • 13

    merupakan proporsi dari distribusi normal multivariat. Agar dapat dilakukan

    pengujian lebih lanjut sehingga data ini diasumsikan normal multivariat.

    4.2 Uji Homogenitas, Matriks Varian Kovarian

    Uji homogenitas menggunakan statistic uji Boxs M Test dengan hipotesis

    sebagai berikut:

    H0: Data bersifat Homogenitas

    H1: Data tidak bersifat Homogenitas

    Tabel 4.1 Boxs Test of Equality of Covariance Matrices

    Box's M 33,871

    F 1,935

    DF1 15

    DF2 5814

    Sig 0,016

    Berdasarkan tabel 4.1 diiketahui bahwa data studi kasus pasien kanker paru

    RSUD Dokter Soetomo memiliki p-value 0,016, hal ini menyebabkantolak H0 karena

    p-value

  • 14

    Tabel 4.2 Group StatisticsData Training 50%

    Ynew Mean Std.

    Deviation

    Valid N (listwise)

    Unweighted Weighted

    1

    Pertama merokok 7,4 80,993,827 10 10

    Lama merokok 13,5 14,938,764 10 10

    Umur 40,1 78,521,052 10 10

    Berat 62,5 14,308,117 10 10

    Tinggi 166,3 8,111,035 10 10

    2

    Pertama merokok 9,9 93,624,546 10 10

    Lama merokok 20,7 23,017,143 10 10

    Umur 50,5 1,933,477 10 10

    Berat 51 96,032,402 10 10

    Tinggi 160,3 10,328,493 10 10

    Total

    Pertama merokok 8,65 86,162,331 20 20

    Lama merokok 17,1 19,243,317 20 20

    Umur 45,3 15,321,468 20 20

    Berat 56,75 13,246,151 20 20

    Tinggi 163,3 95,482,156 20 20

    Berdasarkan tabel 4.2 diketahui bahwa nilai meanuntuk variabel pertama

    merokok pada kelompok controlsebesar 7,4 sedangkan untuk kelompok case sebesar

    9,9. Sehingga nilai meanuntuk variabel umur pertama merokok pada kelompok

    controllebih kecil daripada umur pertama merokok pada kelompok case. Selisih

    meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai

    penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

    controlsebesar 13,5 sedangkan untuk kelompok case sebesar 20,7. Sehingga nilai

    meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada lama

    merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang

    berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

    variabel umur pada kelompok controlsebesar 40,1 sedangkan untuk kelompok case

    sebesar 50,5. Sehingga nilai meanuntuk variabel umur pada kelompok controllebih

    kecil daripada umur pada kelompok case. Selisih meankedua variabel ini cukup besar

    yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai mean untuk

    variabel berat pada kelompok controlsebesar 62,5 sedangkan untuk kelompok case

  • 15

    sebesar 51. Sehingga nilai meanuntuk variabel berat pada kelompok controllebih

    besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar

    yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

    variabel tinggi pada kelompok controlsebesar 166,3 sedangkan untuk kelompok case

    sebesar 160,3. Sehingga nilai meanuntuk variabel tinggi pada kelompok controllebih

    besar daripada berat pada kelompok case. Selisih meankedua variabel ini cukup besar

    yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.

    Tabel 4.3 Tests of Equality of Group MeansData Training 50%

    Wilks' Lambda F df1 df2 p-value

    Pertama merokok 0,977845521 0,407815559 1 18 0,531

    Lama merokok 0,96315984 0,688486852 1 18 0,418

    Umur 0,878749832 2,483645456 1 18 0,132

    Berat 0,801649794 4,453695042 1 18 0,049

    Tinggi 0,896085902 2,087359876 1 18 0,166

    Berdasarkan tabel 4.3 diketahui bahwa nilai p-valueuntuk variabel umur

    pertama merokok adalah 0,531. Hal ini berarti gagal tolak H0karena nilai p-

    value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok

    untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok

    diketahui sebesar 0,418.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.

    Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok

    controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar

    0,312.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak

    terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai

    p-valuepada variabel berat diketahui sebesar 0,049.Hal ini berarti tolak H0karena nilai

    p-value=0,05. Sehingga tidak

    terdapat perbedaan rata rata lama merokok untuk kelompok controldan kelompok

    case.

  • 16

    Tabel 4.4 Pooled Within-Groups MatricesData Training 50%

    Pertama merokok Lama merokok Umur Berat Tinggi

    Correlation

    Pertama merokok 1 0.815332436 0.206917 0.338031 0.3246997

    Lama merokok 0.815332436 1 0.4963463 0.2781016 0.1114316

    Umur 0.20691701 0.496346336 1 0.3366345 -0.3384533

    Berat 0.338030955 0.278101595 0.3366345 1 0.4288745

    Tinggi 0.324699652 0.111431604 -0.3384533 0.4288745 1

    Berdasarkan tabel 4.4 diketahui bahwa nilai korelasi antara variabel pertama

    merokok dan lama merokok sebesar 0,815. Hal ini berarti kedua variabel ini terjadi

    multikolinearitas karena nilai korelasi lebih dari 0,5.Agar dapat diuji, maka

    diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama

    merokok dan umur sebesar 0,207. Hal ini berarti kedua variabel tidak terjadi

    multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    pertama merokok dan berat sebesar 0,338. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    pertama merokok dan tinggi sebesar 0,325. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan umur sebesar 0,496. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    lama merokok dan berat sebesar 0,278. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan tinggi sebesar 0,111. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan berat sebesar 0,337. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan tinggi sebesar -0,338. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    berat dan tinggi sebesar 0,429. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.

  • 17

    Tabel 4.5 Log DeterminantsData Training 50%

    Ynew Rank Log Determinant

    1 5 18,02009684

    2 5 23,58698745

    Pooled within-groups 5 22,59462857

    Berdasarkan tabel 4.5 diketahui nilai log determinant untuk kelompok

    controladalah 18,020 dan log determinant untuk kelompok casesebesar 23,587.

    Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar

    5,567. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.

    Tabel 4.6 Test Result Data Training 50%

    Box's M 32,23955572

    F

    Approx. 1,487759373

    df1 15

    df2 1304,526316

    P-value 0,101722574

    Berdasarkan tabel 4.6 diketahui nilai p-value sebesar 0,101. Hal ini berarti

    gagal tolak H0karena nilai p-value>=0,05. Sehingga matriks kovarian untuk data

    studi kasus pasien kanker paru RSUD Dokter Soetomo identik.

    Tabel 4.7 Eigenvalues Data Training 50%

    Function Eigenvalue % of Variance Cumulative % Canonical

    Correlation

    1 0,74134922 100 100 0,6524819

    Berdasarkan tabel 4.6 diketahui nilai canonical correlationsebesar 0,652.

    Nilai kuadrat dari canonical correlationadalah 0,4257. Hal ini berarti model mampu

    menjelaskan 0,4257 atau 42,57% keragaman dari variabel jumlah penderita kanker

    paru dan bukan penderita kanker paru.

    Tabel 4.8 Wilks Lambda Data Training 50%

    Test of Function(s) Wilks' Lambda Chi-square Df p-value

    1 0,574267349 8,597233515 5 0,1262484

    Berdasarkan tabel 4.8 diketahui nilai p-value untuk wilks lambda pada data

    trainging studi kasus pasien kanker paru RSUD Dokter Soetomo 50% sebesar 0,126.

    Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga kelima variabel

    pada data ini mampu membedakan group secara tidak signifikan. Berdasarkan nilai

    wilks lambdasebesar 0,5742, maka dapat diketahui bahwa ada 57,42% keragaman

    yang tidak dapat dijelaskan.

  • 18

    Tabel 4.9 Standardized Canonical Discriminant Function Coefficients Data Training 50%

    Function

    1

    Pertama_merokok 0,789

    Lama_merokok -0,663

    Umur 1,073

    Berat -1,139

    Tinggi 0,274

    Berdasarkan tabel 4.9 dapat diketahui nilai function untuk variabel pertama

    merokok sebesar 0,789.Hal ini berarti variabel pertama merokok mempunyai

    hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

    merokok sebesar -0,663.Hal ini berarti variabel lama merokok mempunyai hubungan

    berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar

    1,073. Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi

    deskriminan.Nilai functionuntuk variabel berat sebesar -1,139.Hal ini berarti berat

    merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai

    function untuk variabel tinggi sebesar 0,274. Hal ini berarti variabel tinggi

    mempunyai hubungan searah dengan fungsi deskriminan.

    Tabel 4.10 Structure Matrix Data Training 50%

    Function

    1

    Berat -0,578

    Umur 0,431

    Tinggi -0,396

    Lama_merokok 0,227

    Pertama_merokok 0,175

    Berdasarkan hasil tabel 4.10 diketahui bahwa variabel umur adalah variabel

    prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis

    deskriminan karena memiliki nilai functionyang paling besar yakni 0,431.

  • 19

    Tabel 4.11 Canonical Discriminant Function Coefficients Data Training 50%

    Function

    1

    Pertama_merokok 0,09

    Lama_merokok -0,034

    Umur 0,073

    Berat -0,093

    Tinggi 0,029

    (Constant) -2,998

    Berdasarkan tabel 4.11 dapat diketahui persamaan fungsi deskriminan untuk

    data training 50% sebagai berikut.

    Y=-2,998+0,09pertama_merokok-0,034lama_merokok+0,073umur-

    0,093berat+0,029tinggi.

    Tabel 4.12 Function of Group Centroids Data Training 50%

    ynew Function

    1

    1 -0,817

    2 0,817

    Berdasarkan tabel 4.12 dapat dikrtahui nilai functionuntuk setiap kelompok

    pada data training 50%.Nilaifunction ini dapat digunakan untuk mencari nilai m.

    Nilai m berguna untuk mengelompokan data berdasarkan hasil fisher dimana

    pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data

    testing.Sehingga diperoleh nilai m sebagai berikut.

    m =

    (-0,817 +0,817 ) = 0

    Tabel 4.13 Classification Function Coefficients Data Training 50%

    ynew

    1 2

    Pertama_merokok -0.5171903 -0.3699052

    Lama_merokok -0.3689335 -0.4247306

    Umur 1.5828253 1.701618

    Berat -1.1319114 -1.284587

    Tinggi 3.6609437 3.709082

    (Constant) -297.06013 -301.95796

    Berdasarkan tabel 4.13 diperoleh persamaan fisher untuk kelompok

    controldan casesebagai berikut.

  • 20

    y1= -297,060 - 0,517pertama_merokok - 0,369lama_merokok + 1,583umur -

    1,132berat + 3,661tinggi

    y2 = -301,958 - 0,369pertama_merokok - 0,425lama_merokok + 1,702umur -

    1,285berat +3,709tinggi

    Tabel 4.14 Classification Results Data Training 50%

    Ynew Predicted Group

    Membership

    1 2 Total

    Original Count 1 10 0 10

    2 3 7 10

    % 1 100 0 100

    2 30 70 100

    Cross-validateda Count 1 7 3 10

    2 6 4 10

    % 1 70 30 100

    2 60 40 100

    Berdasarkan tabel 4.14 dapat diketahui bahwa untuk kelompok control pada

    data training 50%ada sebanyak 10 prediksi yang benar sedangkan untuk kelompok

    caseada sebanyak 7 prediksi yang benar dan 3 prediksi yang salah.

    Tabel 4.15 Classification Results Data Testing 50%

    Ynew Predicted Group Membership

    1 2 Total

    Data

    Testing

    count 7 3 10

    3 7 10

    % 70 30 100

    30 70 100

    Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel 4.15.

    Diperoleh ada sebanyak 7 prediksi benar dan 3 prediksi salah untuk kelompok

    controldan kelompok case. Berdasarkan nilai ini dapat diketahui nilai aper dan

    akurasinyamasing masing sebesar 30% dan 70%.`

    4.3.2 Anaisis Diskriminan untuk Data Training 70%

    Berikut adalah hasil dari analisis diskriminan untuk data studi kasus pasien

    kanker paru RSUD Dokter Soetomo untuk data training 70%.

  • 21

    Tabel 4.16 Group Statistics Data Training 70%

    Ynew Mean Std.

    Deviation

    Valid N (listwise)

    Unweighted Weighted

    1

    PertamaMerokok 4,9286 7,0325 14 14

    LamaMerokok 8,7857 12,75315 14 14

    Umur 39,3571 9,77915 14 14

    Berat 56,8571 12,04388 14 14

    Tinggi 165,29 8,63293 14 14

    2

    PertamaMerokok 8,2143 9,15825 14 14

    LamaMerokok 17,1429 21,17276 14 14

    Umur 47,9286 15,29939 14 14

    Berat 50,6429 8,2145 14 14

    Tinggi 158,43 10,12016 14 14

    Total

    PertamaMerokok 6,5714 8,18503 28 28

    LamaMerokok 12,9643 17,67082 28 28

    Umur 43,6429 13,33393 28 28

    Berat 53,75 10,59918 28 28

    Tinggi 161,86 9,86845 28 28

    Berdasarkan tabel 4.16 diketahui bahwa nilai mean untuk variabel pertama

    merokok pada kelompok controlsebesar 4,9286 sedangkan untuk kelompok case

    sebesar 8,2143. Sehingga nilai meanuntuk variabel umur pertama merokok pada

    kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.

    Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik

    sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

    controlsebesar 8,7857 sedangkan untuk kelompok case sebesar 17,1429. Sehingga

    nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada

    lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang

    berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

    variabel umur pada kelompok controlsebesar 39,3571 sedangkan untuk kelompok

    case sebesar 47,9286. Sehingga nilai meanuntuk variabel umur pada kelompok

    controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini

    cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai

    mean untuk variabel berat pada kelompok controlsebesar 56,8571 sedangkan untuk

    kelompok case sebesar 50,6429. Sehingga nilai meanuntuk variabel berat pada

    kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua

  • 22

    variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu

    klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 165,29

    sedangkan untuk kelompok case sebesar 158,43. Sehingga nilai meanuntuk variabel

    tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih

    meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai

    penentu klasifikasi.

    Tabel 4.17 Tests of Equality of Group Means Data Training 70%

    Wilks' Lambda F df1 df2 p-value

    Pertama merokok 0,958 1,134 1 26 0,297

    Lama merokok 0,942 1,6 1 26 0,217

    Umur 0,893 3,12 1 26 0,089

    Berat 0,911 2,544 1 26 0,123

    Tinggi 0,875 3,72 1 26 0,065

    Berdasarkan tabel 4.17 diketahui bahwa nilai p-valueuntuk variabel umur

    pertama merokok adalah 0,297. Hal ini berarti gagal tolak H0karena nilai p-

    value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok

    untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok

    diketahui sebesar 0,217.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.

    Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok

    controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar

    0,089.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05. Sehingga tidak

    terdapat perbedaan rata rata umur untuk kelompok controldan kelompok case.Nilai

    p-valuepada variabel berat diketahui sebesar 0,123.Hal ini berarti gagal tolak

    H0karena nilai p-value>=0,05. Sehingga tidak terdapat perbedaan rata rata berat

    untuk kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi

    diketahui sebesar 0,065.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.

    Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok

    controldan kelompok case.

  • 23

    Tabel 4.18 Pooled Within-Groups MatricesData Training 70%

    Pertama merokok Lama merokok Umur Berat Tinggi

    Correlation

    Pertama merokok 1 0,86 0,205 0,218 0,397

    Lama merokok 0,86 1 0,439 0,296 0,379

    Umur 0,205 0,439 1 0,195 -0,056

    Berat 0,218 0,296 0,195 1 0,499

    Tinggi 0,397 0,379 -0,056 0,499 1

    Berdasarkan tabel 4.18 diketahui bahwa nilai korelasi antara variabel pertama

    merokok dan lama merokok sebesar 0,86. Hal ini berarti kedua variabel ini terjadi

    multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka

    diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama

    merokok dan umur sebesar 0,205. Hal ini berarti kedua variabel tidak terjadi

    multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    pertama merokok dan berat sebesar 0,218. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    pertama merokok dan tinggi sebesar 0,397. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan umur sebesar 0,439. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    lama merokok dan berat sebesar 0,296. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan tinggi sebesar 0,379. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan berat sebesar 0,195. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan tinggi sebesar -0,056. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    berat dan tinggi sebesar 0,499. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.

  • 24

    Tabel 4.19 Log Determinants Data Training 70%

    Ynew Rank Log Determinant

    1 5 18,186

    2 5 22,338

    Pooled within-groups 5 21,869

    Berdasarkan tabel 4.19 diketahui nilai log determinant untuk kelompok

    controladalah 18,186 dan log determinant untuk kelompok casesebesar 22,338.

    Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar

    4,152. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.

    Tabel 4.20 Test Result Data Training 70%

    Box's M 41,777

    F

    Approx. 2,198

    df1 15

    df2 2722

    P-value 0,005

    Berdasarkan tabel 4.20 diketahui nilai p-value sebesar 0,005. Hal ini berarti

    gagal tolak H0karena nilai p-value

  • 25

    Tabel 4.23 Standardized Canonical Discriminant Function Coefficients Data Training 70%

    Function

    1

    Pertama_merokok -0,343

    Lama_merokok -0,269

    Umur -0,404

    Berat 0,427

    Tinggi 0,596

    Berdasarkan tabel 4.23 dapat diketahui nilai function untuk variabel pertama

    merokok sebesar -0,343.Hal ini berarti variabel pertama merokok mempunyai

    hubungan berbalik arah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

    merokok sebesar -0,269.Hal ini berarti variabel lama merokok mempunyai hubungan

    berbalik arah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar

    -0,404. Hal ini berarti variabel umur mempunyai hubungan berbalik arah dengan

    fungsi deskriminan.Nilai functionuntuk variabel berat sebesar 0,427.Hal ini berarti

    berat merokok mempunyai hubungan searah dengan fungsi deskriminan. Nilai

    function untuk variabel tinggi sebesar 0,596. Hal ini berarti variabel tinggi

    mempunyai hubungan searah dengan fungsi deskriminan.

    Tabel 4.24 Structure Matrix Data Training 70%

    Function

    1

    Tinggi 0,594

    Umur -0,543

    Berat 0,491

    Lama_merokok -0,389

    Pertama_merokok -0,328

    Berdasarkan hasil tabel 4.24 diketahui bahwa variabel tinggi adalah variabel

    prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis

    deskriminan karena memiliki nilai functionyang paling besar yakni 0,594.

  • 26

    Tabel 4.25 Canonical Discriminant Function Coefficients Data Training 70%

    Function

    1

    Pertama_merokok -0,042

    Lama_merokok -0,015

    Umur -0,031

    Berat 0,041

    Tinggi 0,063

    (Constant) -10,629

    Berdasarkan tabel 4.25 dapat diketahui persamaan fungsi deskriminan untuk

    data training 70% sebagai berikut.

    Y=-10,629-0,042pertama_merokok-0,015lama_merokok-0,031umur

    +0,041berat+0,063tinggi.

    Tabel 4.26 Function of Group Centroids Data Training 70%

    ynew Function

    1

    1 0,614

    2 -0,614

    Berdasarkan tabel 4.26 dapat diketahui nilai functionsetiap kelompok pada

    data training 70%.Nilai function ini dapat digunakan untuk mencari nilai m.Nilai m

    berguna untuk mengelompokan data berdasarkan hasil fisher dimana

    pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data

    testing.Sehingga diperoleh nilai m sebagai berikut.

    m =

    ( 0,614 +(- 0,614) ) = 0

    Tabel 4.27 Classification Function Coefficients Data Training 70%

    ynew

    1 2

    Pertama_merokok 0,032 0,083

    Lama_merokok -0,726 -0.707

    Umur 0,87 0,909

    Berat -0,567 -0,618

    Tinggi 2,746 2,668

    (Constant) -225,534 -212,478

    Berdasarkan tabel 4.27 diperoleh persamaan fisher untuk kelompok

    controldan casesebagai berikut.

  • 27

    y1= -225,534 + 0,032pertama_merokok - 0,726lama_merokok + 0,87umur

    0,567berat + 2,746tinggi

    y2 = -212,478 + 0,083pertama_merokok - 0,707lama_merokok + 0,909umur

    0,618berat +2,668tinggi

    Tabel 4.28 Classification Results Data Training 70%

    Ynew

    Predicted Group

    Membership

    1 2 Total

    Original Count 1 12 2 14

    2 3 11 14

    % 1 85,7 14,3 100

    2 21,4 78,6 100

    Cross-validateda Count 1 9 5 14

    2 6 8 14

    % 1 64,3 35,7 100

    2 42,9 57,1 100

    Berdasarkan tabel 4.28 dapat diketahui bahwa untuk kelompok controlada

    sebanyak 12 prediksi yang benar dan 2 prediksi yang salah sedangkan untuk

    kelompok caseada sebanyak 11 prediksi yang benar dan 3 prediksi yang salah.

    Tabel 4.29 Classification Results Data Testing 70%

    Ynew Predicted Group Membership

    1 2 Total

    Data

    Testing

    count 5 1 6

    1 5 6

    % 83,33333 16,66667 100

    16,66667 83,33333 100

    Hasil klasifikasi dari data testing70% diperoleh seperti pada tabel

    4.29.Diperoleh ada sebanyak 5 prediksi benar dan 1 prediksi salah untuk kelompok

    controldan kelompok case.Berdasarkan nilai ini dapat diketahui nilai aper dan

    akurasinya masing masing sebesar 16,67% dan 83,33%.

    4.3.3 Anaisis Diskriminan untuk Data Training 90%

    Berikut adalah hasil dari analisis deskriminan untuk data penyakit kanker paru

    oleh bahan karsinogenik di RSUD Dokter Soetomo untuk data training 90%.

  • 28

    Tabel 4.30 Group Statistics Data Training 90%

    Ynew Mean Std.

    Deviation

    Valid N (listwise)

    Unweighted Weighted

    1

    PertamaMerokok 5,3333 7,02935 18 18

    LamaMerokok 10,9444 14,96849 18 18

    Umur 41,0000 9,97644 18 18

    Berat 57,6111 11,61712 18 18

    Tinggi 164,78 8,90839 18 18

    2

    PertamaMerokok 8,6667 8,67722 18 18

    LamaMerokok 22,3333 22,43160 18 18

    Umur 52,1667 13,2143 18 18

    Berat 51,1111 9,41769 18 18

    Tinggi 158,44 9,03732 18 18

    Total

    PertamaMerokok 7,0 7,96421 36 36

    LamaMerokok 16,6389 19,66164 36 36

    Umur 46,5833 12,85385 36 36

    Berat 54,3611 10,93135 36 36

    Tinggi 161,61 9,40905 36 36

    Berdasarkan tabel 4.30 diketahui bahwa nilai mean untuk variabel pertama

    merokok pada kelompok controlsebesar 5,3333 sedangkan untuk kelompok case

    sebesar 8,6667. Sehingga nilai meanuntuk variabel umur pertama merokok pada

    kelompok controllebih kecil daripada umur pertama merokok pada kelompok case.

    Selisih meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik

    sebagai penentu klasifikasi. Nilai mean untuk variabel lama merokok pada kelompok

    controlsebesar 10,9444 sedangkan untuk kelompok case sebesar 22,3333. Sehingga

    nilai meanuntuk variabel lama merokok pada kelompok controllebih kecil daripada

    lama merokok pada kelompok case. Selisih meankedua variabel ini cukup besar yang

    berarti bahwa kedua variabel baik sebagai penentu klasifikasi. Nilai mean untuk

    variabel umur pada kelompok controlsebesar 41,000 sedangkan untuk kelompok case

    sebesar 52,1667. Sehingga nilai meanuntuk variabel umur pada kelompok

    controllebih kecil daripada umur pada kelompok case. Selisih meankedua variabel ini

    cukup besar yang berarti bahwa kedua variabel baik sebagai penentu klasifikasi.Nilai

    mean untuk variabel berat pada kelompok controlsebesar 57,6111 sedangkan untuk

    kelompok case sebesar 51,1111. Sehingga nilai meanuntuk variabel berat pada

    kelompok controllebih besar daripada berat pada kelompok case. Selisih meankedua

  • 29

    variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai penentu

    klasifikasi. Nilai mean untuk variabel tinggi pada kelompok controlsebesar 164,78

    sedangkan untuk kelompok case sebesar 158,44. Sehingga nilai meanuntuk variabel

    tinggi pada kelompok controllebih besar daripada berat pada kelompok case. Selisih

    meankedua variabel ini cukup besar yang berarti bahwa kedua variabel baik sebagai

    penentu klasifikasi.

    Tabel 4.31 Tests of Equality of Group Means Data Training 90%

    Wilks' Lambda F df1 df2 p-value

    Pertama merokok 0,955 1,604 1 34 0,214

    Lama merokok 0,914 3,21 1 34 0,082

    Umur 0,806 8,187 1 34 0,007

    Berat 0,909 3,4 1 34 0,074

    Tinggi 0,883 4,484 1 34 0,042

    Berdasarkan tabel 4.31 diketahui bahwa nilai p-valueuntuk variabel umur

    pertama merokok adalah 0,214. Hal ini berarti gagal tolak H0karena nilai p-

    value>=0,05. Sehingga tidak terdapat perbedaan rata rata umur pertama merokok

    untuk kelompok controldan kelompok case.Nilai p-valuepada variabel lama merokok

    diketahui sebesar 0,082.Hal ini berarti gagal tolak H0karena nilai p-value>=0,05.

    Sehingga tidak terdapat perbedaan rata rata lama merokok untuk kelompok

    controldan kelompok case.Nilai p-valuepada variabel umur diketahui sebesar

    0,007.Hal ini berarti tolak H0karena nilai p-value=0,05. Sehingga tidak terdapat perbedaan rata rata berat untuk

    kelompok controldan kelompok case.Nilai p-valuepada variabel tinggi diketahui

    sebesar 0,042.Hal ini berarti tolak H0karena nilai p-value

  • 30

    Berdasarkan tabel 4.32 diketahui bahwa nilai korelasi antara variabel pertama

    merokok dan lama merokok sebesar 0,862. Hal ini berarti kedua variabel ini terjadi

    multikolinearitas karena nilai korelasi lebih dari 0,5. Agar dapat diuji, maka

    diasumsikan tidak terjadi multikolinearitas.Nilai korelasi antara variabel pertama

    merokok dan umur sebesar 0,273. Hal ini berarti kedua variabel tidak terjadi

    multikolineritas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    pertama merokok dan berat sebesar 0,124. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    pertama merokok dan tinggi sebesar 0,289. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan umur sebesar 0,448. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    lama merokok dan berat sebesar 0,186. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    lama merokok dan tinggi sebesar 0,240. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan berat sebesar 0,284. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5. Nilai korelasi antara variabel

    umur dan tinggi sebesar -0,074. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.Nilai korelasi antara variabel

    berat dan tinggi sebesar 0,411. Hal ini berarti kedua variabel tidak terjadi

    multikolinearitas karena nilai korelasi kurang dari 0,5.

    Tabel 4.33 Log Determinants Data Training 90%

    Ynew Rank Log Determinant

    1 5 19,285

    2 5 22,483

    Pooled within-groups 5 21,964

    Berdasarkan tabel 4.33 diketahui nilai log determinant untuk kelompok

    controladalah 19,285 dan log determinant untuk kelompok casesebesar 22,483.

    Terlihat bahwa selisih antara kedua log determinant ini cukup besar yaitu sebesar

    3,198. Hal ini berarti matriks kovarians dari kelompok controldan caseidentik.

  • 31

    Tabel 4.34 Test Result Data Training 90%

    Box's M 36,724

    F

    Approx. 2,056

    df1 15

    df2 4654

    P-value 0,009

    Berdasarkan tabel 4.34 diketahui nilai p-value sebesar 0,009. Hal ini berarti

    gagal tolak H0karena nilai p-value

  • 32

    hubungan searah dengan fungsi deskriminan.Nilai functionuntuk variabel lama

    merokok sebesar 0,237.Hal ini berarti variabel lama merokok mempunyai hubungan

    searah dengan fungsi deskriminan. Nilai function untuk variabel umur sebesar 0,700.

    Hal ini berarti variabel umur mempunyai hubungan searah dengan fungsi

    deskriminan.Nilai functionuntuk variabel berat sebesar -0,570.Hal ini berarti berat

    merokok mempunyai hubungan berbalik arah dengan fungsi deskriminan. Nilai

    function untuk variabel tinggi sebesar -0,295. Hal ini berarti variabel tinggi

    mempunyai hubungan searah dengan fungsi deskriminan.

    Tabel 4.38 Structure Matrix Data Training 90%

    Function

    1

    Umur 0,684

    Tinggi -0,506

    Berat -0,441

    Lama_merokok 0,428

    Pertama_merokok 0,303

    Berdasarkan hasil tabel 4.38 diketahui bahwa variabel umur adalah variabel

    prediktor yang paling berpengaruh dalam penentuan kelas suatu objek dalam analisis

    deskriminan karena memiliki nilai functionyang paling besar yakni 0,684.

    Tabel 4.39 Canonical Discriminant Function Coefficients Data Training 90%

    Function

    1

    Pertama_merokok 0,008

    Lama_merokok 0,012

    Umur 0,060

    Berat -0,054

    Tinggi -0,033

    (Constant) 5,193

    Berdasarkan tabel 4.39 dapat diketahui persamaan fungsi deskriminan untuk

    data training 90% sebagai berikut.

    Y=5,193+0,008pertama_merokok+0,012lama_merokok+0,06umur-

    0,054berat-0,033tinggi.

  • 33

    Tabel 4.40 Function of Group Centroids Data Training 90%

    Ynew Function

    1

    1 -0,697

    2 0,697

    Berdasarkan tabel 4.40 dapat dikrtahui nilai functionsetiap kelompok pada

    data training 90%.Nilai function ini dapat digunakan untuk mencari nilai m. Nilai m

    berguna untuk mengelompokan data berdasarkan hasil fisher dimana

    pengelompokannya dilakukan dengan membandingkan nilai m dan y dari data

    testing.Sehingga diperoleh nilai m sebagai berikut.

    m =

    ( -0,697 + 0,697) = 0

    Tabel 4.41 Classification Function Coefficients Data Training 90%

    Ynew

    1 2

    Pertama_merokok -0,407 -0,396

    Lama_merokok -0,726 -0.297

    Umur 0,896 0,980

    Berat -0,551 -0,627

    Tinggi 2,664 2,618

    (Constant) -219,85 -212,606

    Berdasarkan tabel 4.41 diperoleh persamaan fisher untuk kelompok

    controldan casesebagai berikut.

    y1= -219,85 - 0,407pertama_merokok - 0,314lama_merokok + 0,896umur

    0,551berat + 2,664tinggi

    y2 = -212,606 - 0,396pertama_merokok - 0,297lama_merokok + 0,980umur

    0,627berat +2,618tinggi.

  • 34

    Tabel 4.42 Classification Results Data Training 90%

    Ynew

    Predicted Group

    Membership

    1 2 Total

    Original Count 1 17 1 18

    2 5 13 18

    % 1 94,4 5,6 100

    2 27,8 72,2 100

    Cross-validateda Count 1 13 5 18

    2 5 13 18

    % 1 72,2 27,8 100

    2 27,8 72,2 100

    Berdasarkan tabel 4.42 dapat diketahui bahwa untuk kelompok controlada

    sebanyak 17 prediksi yang benar dan 1 prediksi yang salah sedangkan untuk

    kelompok caseada sebanyak 13 prediksi yang benar dan 5 prediksi yang salah.

    Tabel 4.43 Classification Results Data Testing 90%

    Ynew Predicted Group Membership

    1 2 Total

    Data

    Testing

    count 2 0 2

    1 1 2

    % 100 0 100

    50 50 100

    Hasil klasifikasi dari data testing50% diperoleh seperti pada tabel

    4.43.Diperoleh ada sebanyak 2 prediksi benar untuk kelompok controldanada 1

    prediksi benar serta 1 prediksi salah untuk kelompok case.Berdasarkan nilai ini dapat

    diketahui nilai aper dan akurasinya masing masing sebesar 25% dan 75%.

    4.4 Perbandingan Analisis Diskriminan untuk Data Testing 50%,70%, dan

    90%.

    Berikut adalah hasil perbandingan analisis deskriminan untuk data

    testing50%,70% dan 90%.

  • 35

    Tabel 4.44 Perbandingan Analisis Deskriminan untuk Data Testing 50%, 70%, dan 90%

    Komposisi

    data Kelompok

    Prediksi Total Aper Akurasi

    1 2

    50% : 50% 1 7 3 10

    30% 70% 2 3 7 10

    70% : 30% 1 5 1 6

    16,67% 83,33% 2 1 5 6

    90% : 10% 1 2 0 2

    25% 75% 2 1 1 2

    Berdasarkan tabel 4.43 diketahui nilai aper dan akurasi untuk masing

    masing komposisi. Komposisi data 50% : 50% memiliki nilai aper dan akurasi

    masing masing 30% dan 70%. Komposisi data 70% : 30% memiliki nilai aper dan

    akurasi masing masing 16,67% dan 83,33%. Komposisi data 90% : 10% memiliki

    nilai aper dan akurasi masing masing 25% dan 75%. Maka diketahui nilai akurasi

    yang tertinggi terletak pada komposisi data 70% : 30%. Sedangkan akurasi teendah

    terletak pada komposisi data 50% : 50%.

  • 36

    BAB V

    KESIMPULAN DAN SARAN

    5.1 Kesimpulan

    Berdasarkan analisis dan pembahasan diatas, didapatkan kesimpulan sebagai

    berikut :

    1. Berdasakan uji normal multivariate, data studi kasus pasien kanker paru RSUD

    Dokter Soetomo kelompok control tidak mengikuti distribusi normal multivariate

    dengan nilai T2Hotteling 65% dan nilai korelasi -0,01513. Data studi kasus pasien

    kanker paru RSUD Dokter Soetomo kelompok case tidak mengikuti distribusi

    normal multivariate dengan nilai T2Hotteling 50% dan nilai korelasi sebesar

    0,543693.

    2. Uji homogenitas menggunakan metode Boxs M menjelaskan bahwa data studi

    kasus pasien kanker paru RSUD Dokter Soetomo tidak bersifat homogeny dengan

    P-Value 0,016.

    3. Berdasarkan analisis diskriminan, diperoleh fungsi diskriminan untuk training

    data 50% Y=-2,998 + 0,09pertama_merokok - 0,034lama_merokok + 0,073umur

    - 0,093berat + 0,029tinggi dengan tingakt akurasi sebesar 70% dan nilai aper

    30%. Kemudian untuk data training 70% diperoleh fungsi deskriminan Y=-

    10,629 - 0,042pertama_merokok -0,015lama_merokok - 0,031umur + 0,041berat

    + 0,063tinggi dengan tingkat akurasi sebesar 83,33% dan nilai aper sebesar

    16,67%. Untuk data training 90% diperoleh fungsi diskriminan Y=5,193 +

    0,008pertama_merokok + 0,012lama_merokok + 0,06umur - 0,054berat -

    0,033tinggi dengan tingkat akurasi sebesar 75% dan nilai aper 25%.

    4. Berdasarkan perbandingan tingkat akurasi antara data testing 50%, 70%, dan 90%

    diperoleh kesimpulan bahwa data yang memiliki tingkat akurasi paling tinggi

    adalah data testing 70% dengan tingkat akurasi sebesar 83,33%.

  • 37

    5.2 Saran

    Berdasarkan hasil penelitian pada praktikum ini saran yang dapat diberikan

    adalah perlu ketelitian,kecermatan dan penggunaan metode yang tepat dalam analisis

    deskriminan agar tidak terjadi kesalahan dalam melakukan analisa dan data sebaiknya

    sudah memenuhi asumsi asumsi yang ditentukan agar dapat dianalisis diskriminan.

  • 38

    DAFTAR PUSTAKA

    Johnson, R. A. and Wichern, D. W. (1992), Applied Multivariate Analysis, Third

    Edition, Prentice Hall Inc, New Jersey

    kanker paru-paru : alodokter. (n.d.). Retrieved April 22, 2015, from alodokter:

    http://www.alodokter.com/kanker-paru-paru/

    Morisson, D. F. 2005. Multivariate Statistical Methods Fourth Edition.The Wharton

    School University of Pennsylvania.

    Santoso, S. 2010.Statistik Multivariat Konsep dan Aplikasi dengan SPSS. Jakarta: PT

    Elex Media Komputindo.

    Solikha, Nimatus, 2012. Analisis Statistik terhadap penyakit kanker paru oleh bahan

    karsinogenik (studi kasus pasien kanker paru RSUD Dokter

    Soetomo)[Skripsi]. Surabaya: Fakultas Matematika dan Ilmu Pengetahuan

    alam, Institut Teknologi Sepuluh Nopember.