ANALISIS DISKRIMINAN

ANALISIS DISKRIMINAN

Dosen Pengajar :

Winih Budiarti, S.S.T., M.Stat.

Oleh :

Ridho Fadillah (11.6864)

4 SE 5

SEKOLAH TINGGI ILMU STATISTIK

JAKARTA

2015

ANALISIS DISKRIMINAN

KONSEP ANALISIS DISKRIMINAN

Discriminant Function Analysis atau yang lebih dikenal dengan istilah

analisis diskriminan adalah bagian dari analisis statistik peubah ganda

(multivariate statistical analysis) yang bertujuan untuk mengklasifikasikan

kasus-kasus pada variabel independen ke dalam grup atau kategori pada variabel

dependen. Analisis diskriminan adalah salah satu teknik statistik yang dapat

digunakan pada hubungan dependensi (hubungan antar variabel dimana sudah

bisa dibedakan mana variabel respon dan mana variabel penjelas).

Pengklasifikasian kasus-kasus dapat berupa dua atau lebih grup. Analisis

diskriminan digunakan pada kasus dimana variabel respon berupa data kualitatif

dan variabel penjelas berupa data kuantitatif.

Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis diskriminan

adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam

populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk

fungsi diskriminan. Dengan kata lain, analisis diskriminan digunakan untuk

mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih.

Tujuan diskriminan secara umum adalah:

1. Mengetahui apakah ada perbedaan yang jelas antara kelompok pada

variabel dependen. Bisa juga dikatakan untuk melihat perbedaan antara

anggota grup 1 dengan grup 2.

2. Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat

perbedaan tersebut.

3. Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan

persamaan regresi.

4. Melakukan klasifikasi terhadap objek dan untuk mengetahui apakah suatu

objek termasuk pada grup 1 atau grup 2 atau lainnya.

ASUMSI DAN SAMPEL

Asumsi yang harus dipenuhi dalam analisis diskriminan adalah:

1. Multivariate normality, atau variabel independen seharusnya berdistribusi

normal. Jika data tidak berdistribusi normal, hal ini akan menyebabkan

masalah pada ketepatan fungsi (model) diskriminan. Regresi logistic

(logistic regression) bisa dijadikan alternatif metode jika memang data

tidak berdistribusi normal.

2. Matriks kovarians dari semua variabel independen relatif sama.

3. Tidak ada korelasi antar variabel independen. Jika dua variabel

independen mempunyai korelasi yang kuat, maka dikatakan terjadi

multikolinearitas.

4. Tidak adanya data yang sangat ekstrim (outlier) pada variabel independen.

Jika ada data outlier yang tetap diproses, hal ini bisa berakibat

berkurangnya ketepatan klasifikasi dari fungsi diskriminan.

Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif

dengan pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan

Johnson and Wichern (1988: 472) mengatakan hal yang sama bahwa asumsi ini

(kesamaan ragam-peragam) di dalam praktiknya sering dilanggar.

Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan.

Pedoman yang bersifat umum menyatakan untuk setiap variabel independen

terdapat 5-20 sampel. Dengan demikian, jika terdapat 6 variabel independen maka

seharusnya terdapat minimal 6x5=30 sampel. Secara terminology spss, jika ada

enam kolom variabel independen, sebaiknya ada 30 baris data.

Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis

sampel, yakni analisis sampel yang digunakan untuk membuat fungsi diskriminan,

serta holdout sampel (split sampel) yang digunakan untuk menguji hasil

diskriminan.

PROSEDUR ANALISIS

Tahapan dari analisis diskriminan adalah sebagai berikut:

1. Memisah variabel-variabel menjadi variabel dependen dan variabel

independen.

2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya

terdapat dua metode dasar untuk membuat fungsi diskriminan, yakni:

- Simultaneus estimation, semua variabel independen dimasukkan secara

bersama-sama kemudian dilakukan proses diskriminan.

- Stepwise estimation, variabel independen dimasukkan satu per satu

kedalam model diskriminan.

Pada proses ini akan ada variabel yang tetap ada dalam model dan ada

variabel yang dibuang dari model.

3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk,

menggunakan Wilks lamda, Pilai, F test dan lainnya.

4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui

ketepatan klasifikasi secara individual dengan casewise diagnostics.

5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.

6. Melakukan uji validasi terhadap fungsi diskriminan.

Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan

nilai rataan di antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi

diskriminan dibentuk perlu dilakukan pengujian terhadap perbedaan vektor nilai

rataan dari 2 kelompok tersebut. Dalam pengujian vektor nilai rataan antar

kelompok, asumsi yang harus dipenuhi adalah peubah-peubah yang diamati

berdistribusi multivariate normality dan semua kelompok populasi mempunyai

matrik ragam-peragam yang sama.

CONTOH KASUS

Berikut ini adalah data untuk contoh Analisis Diskriminan:

Peubah tak bebas : kategori program general (1), education (2), dan vocation(3).

Peubah bebas : skor 200 siswa berdasarkan ,

1. Reading Score

2. Writing Score

3. Math Score

4. Science Score

5. Social Score

Pr

Reading

Writing

Math

Science

Social

Pro

Reading

Writing

Math Scien

Social

ce

og. Score Score Score Score Score g. Score Score Score Score Score

1 34 33 41 36 36 2 63 57 55 58 41

1 42 36 42 31 39 2 63 59 57 55 56

1 44 44 39 34 46 2 55 59 62 58 51

1 28 46 43 44 51 2 63 62 56 55 61

1 42 39 42 42 41 2 57 65 51 63 61

1 44 49 44 35 51 2 57 62 63 55 41

1 44 44 46 39 51 2 65 54 61 58 56

1 47 44 42 42 36 2 60 62 67 50 56

1 42 41 43 50 41 2 63 65 48 63 56

1 42 31 57 47 51 2 47 62 61 69 66

1 39 54 39 47 36 2 63 60 65 54 66

1 44 44 46 47 51 2 60 59 62 61 51

1 42 49 43 50 56 2 68 59 61 55 71

1 36 57 42 50 41 2 55 62 64 63 66

1 44 33 54 58 31 2 63 65 65 53 61

1 42 57 45 50 43 2 73 61 57 55 66

1 39 53 54 50 41 2 57 65 72 54 56

1 57 52 41 47 57 2 68 65 62 55 61

1 47 54 46 50 56 2 68 65 58 59 56

1 50 52 46 50 56 2 65 67 63 55 71

1 44 44 61 50 46 2 65 65 64 58 71

1 52 44 49 55 41 2 57 62 72 61 61

1 47 54 49 53 61 2 76 52 64 64 61

1 55 39 57 53 46 2 63 63 69 61 61

1 50 59 42 53 61 2 65 59 70 63 51

1 43 54 55 55 46 2 65 65 66 61 66

1 55 59 52 42 56 2 73 67 62 58 66

1 57 41 57 55 52 2 66 67 67 61 66

1 63 49 35 66 41 2 68 60 64 69 66

1 60 54 50 50 51 2 65 67 63 66 71

1 52 54 55 53 51 2 65 62 68 66 66

1 63 49 49 66 46 2 68 54 75 66 66

1 47 59 56 66 61 2 71 65 69 58 71

1 57 57 60 58 56 2 68 62 65 69 61

1 63 57 54 58 51 2 68 59 71 66 56

1 55 62 58 58 61 2 73 60 71 61 71

1 57 62 56 58 66 2 76 63 60 67 66

1 52 65 60 56 51 2 63 65 71 69 71

1 50 62 61 63 51 2 73 67 71 63 66

1 52 67 57 63 61 2 71 65 72 66 56

1 65 65 48 63 66 2 73 62 73 69 66

1 60 65 58 61 66 3 34 35 41 29 26

1 68 59 56 63 66 3 39 39 44 26 42

1 55 59 63 69 46 3 37 37 42 33 32

1 68 59 58 74 66 3 39 31 40 39 51

2 39 33 38 47 41 3 31 36 46 39 46

2 34 46 45 39 36 3 50 31 40 34 31

2 47 37 43 42 46 3 39 41 33 42 41

2 44 38 49 39 46 3 34 37 46 39 31

2 47 41 46 40 41 3 34 44 40 39 41

2 44 50 41 39 51 3 47 31 44 36 36

2 47 40 43 45 31 3 36 44 37 42 41

2 47 46 49 33 41 3 35 35 40 51 33

2 41 59 42 34 51 3 42 46 38 36 46

2 47 47 41 42 51 3 34 49 39 42 56

2 50 42 50 36 61 3 37 44 45 39 46

2 45 55 44 34 41 3 41 47 40 39 51

2 39 44 52 44 48 3 44 44 40 40 31

2 44 49 48 39 51 3 47 39 47 42 26

2 50 41 45 44 56 3 44 41 40 50 26

2 45 57 50 31 56 3 42 39 39 56 46

2 44 52 43 44 51 3 50 33 49 44 36

2 47 41 54 42 56 3 50 40 39 49 47

2 50 40 45 55 56 3 42 54 41 42 41

2 47 52 43 48 61 3 47 46 39 47 61

2 52 49 49 44 61 3 47 42 52 39 51

2 50 52 53 39 56 3 55 41 40 44 41

2 42 54 50 50 52 3 47 62 45 34 46

2 47 57 48 44 41 3 42 54 47 47 46

2 52 41 51 53 56 3 43 57 40 50 51

2 50 46 45 58 61 3 48 49 52 44 51

2 39 54 54 53 41 3 47 46 52 48 46

2 47 52 51 50 56 3 42 57 51 47 61

2 50 46 53 53 66 3 46 52 55 44 56

2 57 50 50 51 58 3 36 49 54 61 36

2 47 52 57 53 61 3 50 49 56 47 46

2 44 52 51 63 61 3 55 45 46 58 51

2 61 59 49 44 66 3 50 52 45 58 36

2 52 59 48 55 61 3 63 44 47 53 56

2 57 55 52 50 51 3 50 62 41 55 31

2 47 62 53 53 61 3 50 52 53 55 56

2 57 54 59 47 51 3 60 46 51 53 61

2 55 54 66 42 56 3 57 52 40 61 56

2 52 54 57 55 51 3 52 55 50 54 61

2 47 59 54 58 46 3 42 41 57 72 31

2 55 61 54 49 61 3 47 57 57 58 46

2 63 52 54 50 51 3 57 60 51 53 37

2 57 59 54 50 56 3 68 62 56 50 51

2 60 62 49 50 51 3 68 59 53 63 61

2 52 59 58 53 66 3 50 67 66 66 56

2 47 65 60 50 56 3 63 63 75 72 66

DISCRIMINANT ANALYSIS

Pengujian Asumsi

1. Uji Kenormalan

V1= Skor Reading V3= Skor math V5= Skor Social Study

V2= Skor Writing V4= Skor Science

Uji Kenormalan Untuk Kelompok Program General

Uji Kenormalan untukKelompok Program Academic

Uji Kenormalan untukKelompok Program Vocation

Dari ketiga uji kenormalan di atas, pola sebaran titik-titik data yang telah

membentuk garis lurus dan mengikuti garis diagonal pada Normal Probability

Plot. Maka, asumsi peubah-peubah yang diamati menyebar secara normal ganda

telah terpenuhi.

2. Uji Kesamaan Matrik Varians-Kovarians

Box's Test of Equality of Covariance Matrices

Log Determinants

type of program Rank

Log Determinant

general 2 8.321

academic 2 8.529

vocation 2 8.727

Pooled within-groups 2 8.554

The ranks and natural logarithms of determinants printed are

those of the group covariance matrices.

Test Results

Box's M 4.274

F Approx. .700

df1 6

Dari hasil pengujian dengan Boxs M Test dengan tingkat signifikansi 5 persen

dapat disimpulkan bahwa matriks varian-kovarian dari ketiga kelompok tersebut

sama.

Output SPSS

Group Statistics

Valid N (listwise)

type of program Mean Std. Deviation Unweighted Weighted

general reading score 49.76 9.235 45 45.000

writing score 51.33 9.398 45 45.000

math score 50.02 7.442 45 45.000

science score 52.44 9.680 45 45.000

social studies score 50.60 9.309 45 45.000

academic reading score 56.16 9.589 105 105.000

writing score 56.26 7.943 105 105.000

math score 56.73 8.730 105 105.000

science score 53.80 9.128 105 105.000


vocation reading score 46.20 8.908 50 50.000

writing score 46.76 9.319 50 50.000

math score 46.42 7.954 50 50.000

science score 47.22 10.334 50 50.000


Total reading score 52.23 10.253 200 200.000

writing score 52.78 9.479 200 200.000

math score 52.64 9.368 200 200.000

science score 51.85 9.901 200 200.000


Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

reading score .822 21.282 2 197 .000

writing score .822 21.275 2 197 .000

math score .771 29.279 2 197

.000

science score .924 8.128 2 197 .000

social studies score .790 26.112 2 197 .000

Nilai Wilks Lambda berkisar 0 sampai 1. Jika mendekati 0 data tiap grup

cenderung berbeda. Jika mendekati 1 data tiap grup cenderung sama. Nilai F test

merupakan hasil uji ANOVA jika signifikan berarti ada perbedaan antar grup.

Kelima variabel tersebut signifikan pada alpha 5% artinya kelima variabel

mempengaruhi banyak sedikitnya responden dalam memiih tipe program

pendidikan.

Stepwise Statistics

Variables Entered/Removeda,b,c,d

Wilks' Lambda

Exact F

Step Entered Statistic df1 df2 df3 Statistic df1 df2 Sig.

1 math score .771 1 2 197 29.279 2 197.000 .000

2 social studies .714 2 2 197 17.968

4

392.000 .000

score

At each step, the variable that minimizes the overall Wilks' Lambda is entered. a. Maximum number of steps is 10.

b. Minimum partial F to enter is 3.84.

c. Maximum partial F to remove is 2.71.

d. F level, tolerance, or VIN insufficient for further computation.

Tabel di atas menunjukkan variabel yang bisa masuk dalam persamaan

diskriminan. Karena proses yang dilakukan adalah Stepwise, pemasukkan

variabel dimulai dari variabel yang punya nilai F terbesar (Math Score). Dengan

demikian dari 5 variabel hanya 2 variabel yaitu Math Score dan Social Studies

Score yang signifikan mempengaruhi responden dalam memilih tipe program

pendidikan.

Variables in the Analysis

Step

Tolerance

F to

Remove

Wilks'

Lambda

1 math score 1.000 29.279

2 math score .825 10.475 .790

social studies

score .825 7.786 .771

Variables Not in the Analysis

Step Tolerance Min. Tolerance F to

Enter Wilks' Lambda

0 reading score 1.000 1.000 21.282 .822

writing score 1.000 1.000 21.275 .822

math score 1.000 1.000 29.279 .771

science score 1.000 1.000 8.128 .924

social studies

score 1.000 1.000 26.112 .790

1 reading score .665 .665 2.538 .751

writing score .725 .725 3.658 .743

science score .633 .633 2.897 .749

social studies

score .825 .825 7.786 .714

2 reading score .563 .563 .374 .711

writing score .622 .622 .829 .708

science score .606 .597 3.742 .688

Wilks' Lambda

Number of Exact F

Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.

1 1 .771 1 2 197 29.279 2 197.000 .000

2 2 .714 2 2 197 17.968 4 392.000 .000

Berdasarkan hasil dari proses stepwise method dengan iterasi sebanyak dua

kali didapatkan dua peubah yang signifikan membedakan kelompok program general,

academic, dan vocation karena nilai signifikansinya yang lebih kecil dari 0,05.

Dengan tingkat residual error yang semakin kecil yang dinyatakan oleh Wilks

Lambda mulai dari level 0,771 dan terus berkurang hingga mencapai 0.714 setelah

kedua peubah tersebut terpilih untuk dimasukkan ke dalam fungsi diskriminan.

Summary of Canonical Discriminant Functions

Eigenvalues

Function Eigenvalue % of Variance Cumulative % Canonical Correlation

1 .395a 99.1 99.1 .532

2 .004a .9 100.0 .060

a. First 2 canonical discriminant functions were used in the analysis.

Nilai akar ciri (eigen value) menunjukkan ada atau tidaknya multikolinearitas

antar peubah bebas. Multikolinearitas akan terjadi bila nilai akar ciri (eigen value)

mendekati 0 (nol). Berdasarkan hasil pengolahan data didapatkan nilai akar ciri

sebesar 0,395 dan 0.004. Keadaan ini dapat diartikan bahwa fungsi canonic

diskriminan yang kedua diketahui terjadinya multikolinearitas di antara sesama

peubah bebasnya.

Pada tabel Eigen Value terdapat nilai canonical correlation. Canonical

correlation digunakan untuk mengukur derajat hubunggan antara besarnya

variabilitas yang mampu diterangkan oleh variabel independen terhadap variabel

dependen. Dari tabel di atas, diperoleh nilai canonical correlation sebesar 0,532 bila

dikuadratkan menjadi 0,283 dan sebesar 0,06 dikuadratkan menjadi 0,0036; artinya

28,3% varians dari variabel dependen dapat dijelaskan dari model diskriminan yang

terbentuk pada fungsi pertama dan 0,36% dari model diskriminan yang terbentuk

pada fungsi kedua. Nilai kanonikal korelasi juga menunjukkan korelasi skor

diskriminan dengan grupnya, jika >0,5 cukup erat/bagus. Output diatas menghasilkan

nilai korelasi erat (>0,5).

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.

1 through 2 .714 66.161 4 .000

2 .996 .699 1 .403

0 1 5 %

Dari hasil di atas, dengan tingkat signifikansi 5 persen dapat disimpulkan bahwa fungsi diskriminan linier sehingga dapat membedakan antar kelompok.

Standardized Canonical Discriminant Function Coefficients

Function

1 2

math score .635 -.900

social studies score .551 .953

Persamaan diskriminan yang terbentuk adalah: 1 = 0,635 + 0,551 2 = 0,900 + 0,953

Persamaan di atas bukan merupakan sebuah model yang memperlihatkan

pengaruh variabel bebas terhadap variabel tidak bebas, melainkan sebuah

persamaan untuk membentuk nilai diskriminan/nilai pembeda.

Structure Matrix

Function

1 2

math score

.866*

-.500

social studies score .817* .577

reading scorea .661

* -.012

writing scorea .614

* .016

science scorea .607

* -.160

Output diatas digunakan untuk melihat variabel yang berpengaruh dalam fungsi

diskriminan dari korelasi antara variabel bebas dengan fungsi diskriminan yang

terbentuk. Dari output nilai korelasi yang diatas 0,5 ditunjukkan math score dan

social studies score dimana kedua variabel masuk dalam persamaan diskriminan akan

mempunyai nilai korelasi yang cukup kuat dengan persamaan diskriminan yang

termbentuk.

Canonical Discriminant Function Coefficients

Function

1 2

math score .077 -.109

social studies score .057 .099

(Constant) -7.054 .521

Unstandardized coefficients

Tabel canonical discriminant function coefficients menerangkan model diskriminan

yang terbentuk yang tidak distandarisasi,

Functions at Group Centroids

type of Function

program 1 2

general -.305 .106

academic .560 -.019

vocation -.902 -.056

Unstandardized canonical discriminant functions evaluated at group means

Group Centroid merupakan rata-rata nilai diskriminan dari tiap-tiap

observasi di dalam masing-masing kelompok. Pada fungsi pertama, Group Centroid

untuk tipe program general adalah sebesar -0.305, untuk tipe program academic

adalah sebesar 0.560, dan tipe program vocation adalah -0.902. Ini berarti bahwa

secara rata - rata skor diskriminankedua kelompok berbeda cukup besar sehingga

fungsi diskriminan yang diperoleh dapat membedakan secara baik kelompok yang

ada. Sedangkan pada fungsi kedua, Group Centroid untuk tipe program general

adalah sebesar 0,106, untuk tipe program academic adalah sebesar -0.019, dan tipe

program vocation adalah -0.056.

Classification Statistics

Prior Probabilities for Groups

type of

Cases Used in Analysis

program Prior Unweighted Weighted

general .333 45 45.000

academic .333 105 105.000

vocation .333 50 50.000

Total 1.000 200 200.000

Dari nilai prior probabilities, dapat disimpulkan bahwa: Peluang seorang calon mahasiswa untuk masuk ke jurusan general sebesar

33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan academic

sebesar 33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan

vocation sebesar 33,33%

Classification Resultsa

type of Predicted Group Membership

program general academic vocation Total

Original Countgeneral 14 17 14 45

academic 20 70 15 105

vocation 9 10 31 50

% general 31.1 37.8 31.1 100.0

academic 19.0 66.7 14.3 100.0

vocation 18.0 20.0 62.0 100.0

a. 57,5% of original grouped cases correctly classified.

Nilai 57,5% merupakan HIT RATIO yaitu tingkat ketepatan klasifikasi (minimal

85%). Sebesar 57,5 % calon mahasiswa masuk ke jurusan yang sesuai. Namun,

nilainya kurang dari 85% sehingga model diskriminan yang diperoleh tidak bagus.

ANALISIS DISKRIMINAN

Documents

ANALISIS DISKRIMINAN