ANALISIS DISKRIMINAN
Dosen Pengajar :
Winih Budiarti, S.S.T., M.Stat.
Oleh :
Ridho Fadillah (11.6864)
4 SE 5
SEKOLAH TINGGI ILMU STATISTIK
JAKARTA
2015
ANALISIS DISKRIMINAN
KONSEP ANALISIS DISKRIMINAN
Discriminant Function Analysis atau yang lebih dikenal dengan istilah
analisis diskriminan adalah bagian dari analisis statistik peubah ganda
(multivariate statistical analysis) yang bertujuan untuk mengklasifikasikan
kasus-kasus pada variabel independen ke dalam grup atau kategori pada variabel
dependen. Analisis diskriminan adalah salah satu teknik statistik yang dapat
digunakan pada hubungan dependensi (hubungan antar variabel dimana sudah
bisa dibedakan mana variabel respon dan mana variabel penjelas).
Pengklasifikasian kasus-kasus dapat berupa dua atau lebih grup. Analisis
diskriminan digunakan pada kasus dimana variabel respon berupa data kualitatif
dan variabel penjelas berupa data kuantitatif.
Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis diskriminan
adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam
populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk
fungsi diskriminan. Dengan kata lain, analisis diskriminan digunakan untuk
mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih.
Tujuan diskriminan secara umum adalah:
1. Mengetahui apakah ada perbedaan yang jelas antara kelompok pada
variabel dependen. Bisa juga dikatakan untuk melihat perbedaan antara
anggota grup 1 dengan grup 2.
2. Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat
perbedaan tersebut.
3. Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan
persamaan regresi.
4. Melakukan klasifikasi terhadap objek dan untuk mengetahui apakah suatu
objek termasuk pada grup 1 atau grup 2 atau lainnya.
ASUMSI DAN SAMPEL
Asumsi yang harus dipenuhi dalam analisis diskriminan adalah:
1. Multivariate normality, atau variabel independen seharusnya berdistribusi
normal. Jika data tidak berdistribusi normal, hal ini akan menyebabkan
masalah pada ketepatan fungsi (model) diskriminan. Regresi logistic
(logistic regression) bisa dijadikan alternatif metode jika memang data
tidak berdistribusi normal.
2. Matriks kovarians dari semua variabel independen relatif sama.
3. Tidak ada korelasi antar variabel independen. Jika dua variabel
independen mempunyai korelasi yang kuat, maka dikatakan terjadi
multikolinearitas.
4. Tidak adanya data yang sangat ekstrim (outlier) pada variabel independen.
Jika ada data outlier yang tetap diproses, hal ini bisa berakibat
berkurangnya ketepatan klasifikasi dari fungsi diskriminan.
Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif
dengan pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan
Johnson and Wichern (1988: 472) mengatakan hal yang sama bahwa asumsi ini
(kesamaan ragam-peragam) di dalam praktiknya sering dilanggar.
Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan.
Pedoman yang bersifat umum menyatakan untuk setiap variabel independen
terdapat 5-20 sampel. Dengan demikian, jika terdapat 6 variabel independen maka
seharusnya terdapat minimal 6x5=30 sampel. Secara terminology spss, jika ada
enam kolom variabel independen, sebaiknya ada 30 baris data.
Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis
sampel, yakni analisis sampel yang digunakan untuk membuat fungsi diskriminan,
serta holdout sampel (split sampel) yang digunakan untuk menguji hasil
diskriminan.
PROSEDUR ANALISIS
Tahapan dari analisis diskriminan adalah sebagai berikut:
1. Memisah variabel-variabel menjadi variabel dependen dan variabel
independen.
2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya
terdapat dua metode dasar untuk membuat fungsi diskriminan, yakni:
- Simultaneus estimation, semua variabel independen dimasukkan secara
bersama-sama kemudian dilakukan proses diskriminan.
- Stepwise estimation, variabel independen dimasukkan satu per satu
kedalam model diskriminan.
Pada proses ini akan ada variabel yang tetap ada dalam model dan ada
variabel yang dibuang dari model.
3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk,
menggunakan Wilks lamda, Pilai, F test dan lainnya.
4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui
ketepatan klasifikasi secara individual dengan casewise diagnostics.
5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.
6. Melakukan uji validasi terhadap fungsi diskriminan.
Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan
nilai rataan di antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi
diskriminan dibentuk perlu dilakukan pengujian terhadap perbedaan vektor nilai
rataan dari 2 kelompok tersebut. Dalam pengujian vektor nilai rataan antar
kelompok, asumsi yang harus dipenuhi adalah peubah-peubah yang diamati
berdistribusi multivariate normality dan semua kelompok populasi mempunyai
matrik ragam-peragam yang sama.
CONTOH KASUS
Berikut ini adalah data untuk contoh Analisis Diskriminan:
Peubah tak bebas : kategori program general (1), education (2), dan vocation(3).
Peubah bebas : skor 200 siswa berdasarkan ,
1. Reading Score
2. Writing Score
3. Math Score
4. Science Score
5. Social Score
Pr
Reading
Writing
Math
Science
Social
Pro
Reading
Writing
Math Scien
Social
ce
og. Score Score Score Score Score g. Score Score Score Score Score
1 34 33 41 36 36 2 63 57 55 58 41
1 42 36 42 31 39 2 63 59 57 55 56
1 44 44 39 34 46 2 55 59 62 58 51
1 28 46 43 44 51 2 63 62 56 55 61
1 42 39 42 42 41 2 57 65 51 63 61
1 44 49 44 35 51 2 57 62 63 55 41
1 44 44 46 39 51 2 65 54 61 58 56
1 47 44 42 42 36 2 60 62 67 50 56
1 42 41 43 50 41 2 63 65 48 63 56
1 42 31 57 47 51 2 47 62 61 69 66
1 39 54 39 47 36 2 63 60 65 54 66
1 44 44 46 47 51 2 60 59 62 61 51
1 42 49 43 50 56 2 68 59 61 55 71
1 36 57 42 50 41 2 55 62 64 63 66
1 44 33 54 58 31 2 63 65 65 53 61
1 42 57 45 50 43 2 73 61 57 55 66
1 39 53 54 50 41 2 57 65 72 54 56
1 57 52 41 47 57 2 68 65 62 55 61
1 47 54 46 50 56 2 68 65 58 59 56
1 50 52 46 50 56 2 65 67 63 55 71
1 44 44 61 50 46 2 65 65 64 58 71
1 52 44 49 55 41 2 57 62 72 61 61
1 47 54 49 53 61 2 76 52 64 64 61
1 55 39 57 53 46 2 63 63 69 61 61
1 50 59 42 53 61 2 65 59 70 63 51
1 43 54 55 55 46 2 65 65 66 61 66
1 55 59 52 42 56 2 73 67 62 58 66
1 57 41 57 55 52 2 66 67 67 61 66
1 63 49 35 66 41 2 68 60 64 69 66
1 60 54 50 50 51 2 65 67 63 66 71
1 52 54 55 53 51 2 65 62 68 66 66
1 63 49 49 66 46 2 68 54 75 66 66
1 47 59 56 66 61 2 71 65 69 58 71
1 57 57 60 58 56 2 68 62 65 69 61
1 63 57 54 58 51 2 68 59 71 66 56
1 55 62 58 58 61 2 73 60 71 61 71
1 57 62 56 58 66 2 76 63 60 67 66
1 52 65 60 56 51 2 63 65 71 69 71
1 50 62 61 63 51 2 73 67 71 63 66
1 52 67 57 63 61 2 71 65 72 66 56
1 65 65 48 63 66 2 73 62 73 69 66
1 60 65 58 61 66 3 34 35 41 29 26
1 68 59 56 63 66 3 39 39 44 26 42
1 55 59 63 69 46 3 37 37 42 33 32
1 68 59 58 74 66 3 39 31 40 39 51
2 39 33 38 47 41 3 31 36 46 39 46
2 34 46 45 39 36 3 50 31 40 34 31
2 47 37 43 42 46 3 39 41 33 42 41
2 44 38 49 39 46 3 34 37 46 39 31
2 47 41 46 40 41 3 34 44 40 39 41
2 44 50 41 39 51 3 47 31 44 36 36
2 47 40 43 45 31 3 36 44 37 42 41
2 47 46 49 33 41 3 35 35 40 51 33
2 41 59 42 34 51 3 42 46 38 36 46
2 47 47 41 42 51 3 34 49 39 42 56
2 50 42 50 36 61 3 37 44 45 39 46
2 45 55 44 34 41 3 41 47 40 39 51
2 39 44 52 44 48 3 44 44 40 40 31
2 44 49 48 39 51 3 47 39 47 42 26
2 50 41 45 44 56 3 44 41 40 50 26
2 45 57 50 31 56 3 42 39 39 56 46
2 44 52 43 44 51 3 50 33 49 44 36
2 47 41 54 42 56 3 50 40 39 49 47
2 50 40 45 55 56 3 42 54 41 42 41
2 47 52 43 48 61 3 47 46 39 47 61
2 52 49 49 44 61 3 47 42 52 39 51
2 50 52 53 39 56 3 55 41 40 44 41
2 42 54 50 50 52 3 47 62 45 34 46
2 47 57 48 44 41 3 42 54 47 47 46
2 52 41 51 53 56 3 43 57 40 50 51
2 50 46 45 58 61 3 48 49 52 44 51
2 39 54 54 53 41 3 47 46 52 48 46
2 47 52 51 50 56 3 42 57 51 47 61
2 50 46 53 53 66 3 46 52 55 44 56
2 57 50 50 51 58 3 36 49 54 61 36
2 47 52 57 53 61 3 50 49 56 47 46
2 44 52 51 63 61 3 55 45 46 58 51
2 61 59 49 44 66 3 50 52 45 58 36
2 52 59 48 55 61 3 63 44 47 53 56
2 57 55 52 50 51 3 50 62 41 55 31
2 47 62 53 53 61 3 50 52 53 55 56
2 57 54 59 47 51 3 60 46 51 53 61
2 55 54 66 42 56 3 57 52 40 61 56
2 52 54 57 55 51 3 52 55 50 54 61
2 47 59 54 58 46 3 42 41 57 72 31
2 55 61 54 49 61 3 47 57 57 58 46
2 63 52 54 50 51 3 57 60 51 53 37
2 57 59 54 50 56 3 68 62 56 50 51
2 60 62 49 50 51 3 68 59 53 63 61
2 52 59 58 53 66 3 50 67 66 66 56
2 47 65 60 50 56 3 63 63 75 72 66
DISCRIMINANT ANALYSIS
Pengujian Asumsi
1. Uji Kenormalan
V1= Skor Reading V3= Skor math V5= Skor Social Study
V2= Skor Writing V4= Skor Science
Uji Kenormalan Untuk Kelompok Program General
Uji Kenormalan untukKelompok Program Academic
Uji Kenormalan untukKelompok Program Vocation
Dari ketiga uji kenormalan di atas, pola sebaran titik-titik data yang telah
membentuk garis lurus dan mengikuti garis diagonal pada Normal Probability
Plot. Maka, asumsi peubah-peubah yang diamati menyebar secara normal ganda
telah terpenuhi.
2. Uji Kesamaan Matrik Varians-Kovarians
Box's Test of Equality of Covariance Matrices
Log Determinants
type of program Rank
Log Determinant
general 2 8.321
academic 2 8.529
vocation 2 8.727
Pooled within-groups 2 8.554
The ranks and natural logarithms of determinants printed are
those of the group covariance matrices.
Test Results
Box's M 4.274
F Approx. .700
df1 6
Dari hasil pengujian dengan Boxs M Test dengan tingkat signifikansi 5 persen
dapat disimpulkan bahwa matriks varian-kovarian dari ketiga kelompok tersebut
sama.
Output SPSS
Group Statistics
Valid N (listwise)
type of program Mean Std. Deviation Unweighted Weighted
general reading score 49.76 9.235 45 45.000
writing score 51.33 9.398 45 45.000
math score 50.02 7.442 45 45.000
science score 52.44 9.680 45 45.000
social studies score 50.60 9.309 45 45.000
academic reading score 56.16 9.589 105 105.000
writing score 56.26 7.943 105 105.000
math score 56.73 8.730 105 105.000
science score 53.80 9.128 105 105.000
social studies score 56.70 9.174 105 105.000
vocation reading score 46.20 8.908 50 50.000
writing score 46.76 9.319 50 50.000
math score 46.42 7.954 50 50.000
science score 47.22 10.334 50 50.000
social studies score 45.02 10.657 50 50.000
Total reading score 52.23 10.253 200 200.000
writing score 52.78 9.479 200 200.000
math score 52.64 9.368 200 200.000
science score 51.85 9.901 200 200.000
social studies score 52.40 10.736 200 200.000
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
reading score .822 21.282 2 197 .000
writing score .822 21.275 2 197 .000
math score .771 29.279 2 197
.000
science score .924 8.128 2 197 .000
social studies score .790 26.112 2 197 .000
Nilai Wilks Lambda berkisar 0 sampai 1. Jika mendekati 0 data tiap grup
cenderung berbeda. Jika mendekati 1 data tiap grup cenderung sama. Nilai F test
merupakan hasil uji ANOVA jika signifikan berarti ada perbedaan antar grup.
Kelima variabel tersebut signifikan pada alpha 5% artinya kelima variabel
mempengaruhi banyak sedikitnya responden dalam memiih tipe program
pendidikan.
Stepwise Statistics
Variables Entered/Removeda,b,c,d
Wilks' Lambda
Exact F
Step Entered Statistic df1 df2 df3 Statistic df1 df2 Sig.
1 math score .771 1 2 197 29.279 2 197.000 .000
2 social studies .714 2 2 197 17.968
4
392.000 .000
score
At each step, the variable that minimizes the overall Wilks' Lambda is entered. a. Maximum number of steps is 10.
b. Minimum partial F to enter is 3.84.
c. Maximum partial F to remove is 2.71.
d. F level, tolerance, or VIN insufficient for further computation.
Tabel di atas menunjukkan variabel yang bisa masuk dalam persamaan
diskriminan. Karena proses yang dilakukan adalah Stepwise, pemasukkan
variabel dimulai dari variabel yang punya nilai F terbesar (Math Score). Dengan
demikian dari 5 variabel hanya 2 variabel yaitu Math Score dan Social Studies
Score yang signifikan mempengaruhi responden dalam memilih tipe program
pendidikan.
Variables in the Analysis
Step
Tolerance
F to
Remove
Wilks'
Lambda
1 math score 1.000 29.279
2 math score .825 10.475 .790
social studies
score .825 7.786 .771
Variables Not in the Analysis
Step Tolerance Min. Tolerance F to
Enter Wilks' Lambda
0 reading score 1.000 1.000 21.282 .822
writing score 1.000 1.000 21.275 .822
math score 1.000 1.000 29.279 .771
science score 1.000 1.000 8.128 .924
social studies
score 1.000 1.000 26.112 .790
1 reading score .665 .665 2.538 .751
writing score .725 .725 3.658 .743
science score .633 .633 2.897 .749
social studies
score .825 .825 7.786 .714
2 reading score .563 .563 .374 .711
writing score .622 .622 .829 .708
science score .606 .597 3.742 .688
Wilks' Lambda
Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 .771 1 2 197 29.279 2 197.000 .000
2 2 .714 2 2 197 17.968 4 392.000 .000
Berdasarkan hasil dari proses stepwise method dengan iterasi sebanyak dua
kali didapatkan dua peubah yang signifikan membedakan kelompok program general,
academic, dan vocation karena nilai signifikansinya yang lebih kecil dari 0,05.
Dengan tingkat residual error yang semakin kecil yang dinyatakan oleh Wilks
Lambda mulai dari level 0,771 dan terus berkurang hingga mencapai 0.714 setelah
kedua peubah tersebut terpilih untuk dimasukkan ke dalam fungsi diskriminan.
Summary of Canonical Discriminant Functions
Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1 .395a 99.1 99.1 .532
2 .004a .9 100.0 .060
a. First 2 canonical discriminant functions were used in the analysis.
Nilai akar ciri (eigen value) menunjukkan ada atau tidaknya multikolinearitas
antar peubah bebas. Multikolinearitas akan terjadi bila nilai akar ciri (eigen value)
mendekati 0 (nol). Berdasarkan hasil pengolahan data didapatkan nilai akar ciri
sebesar 0,395 dan 0.004. Keadaan ini dapat diartikan bahwa fungsi canonic
diskriminan yang kedua diketahui terjadinya multikolinearitas di antara sesama
peubah bebasnya.
Pada tabel Eigen Value terdapat nilai canonical correlation. Canonical
correlation digunakan untuk mengukur derajat hubunggan antara besarnya
variabilitas yang mampu diterangkan oleh variabel independen terhadap variabel
dependen. Dari tabel di atas, diperoleh nilai canonical correlation sebesar 0,532 bila
dikuadratkan menjadi 0,283 dan sebesar 0,06 dikuadratkan menjadi 0,0036; artinya
28,3% varians dari variabel dependen dapat dijelaskan dari model diskriminan yang
terbentuk pada fungsi pertama dan 0,36% dari model diskriminan yang terbentuk
pada fungsi kedua. Nilai kanonikal korelasi juga menunjukkan korelasi skor
diskriminan dengan grupnya, jika >0,5 cukup erat/bagus. Output diatas menghasilkan
nilai korelasi erat (>0,5).
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 through 2 .714 66.161 4 .000
2 .996 .699 1 .403
0 1 5 %
Dari hasil di atas, dengan tingkat signifikansi 5 persen dapat disimpulkan bahwa fungsi diskriminan linier sehingga dapat membedakan antar kelompok.
Standardized Canonical Discriminant Function Coefficients
Function
1 2
math score .635 -.900
social studies score .551 .953
Persamaan diskriminan yang terbentuk adalah: 1 = 0,635 + 0,551 2 = 0,900 + 0,953
Persamaan di atas bukan merupakan sebuah model yang memperlihatkan
pengaruh variabel bebas terhadap variabel tidak bebas, melainkan sebuah
persamaan untuk membentuk nilai diskriminan/nilai pembeda.
Structure Matrix
Function
1 2
math score
.866*
-.500
social studies score .817* .577
reading scorea .661
* -.012
writing scorea .614
* .016
science scorea .607
* -.160
Output diatas digunakan untuk melihat variabel yang berpengaruh dalam fungsi
diskriminan dari korelasi antara variabel bebas dengan fungsi diskriminan yang
terbentuk. Dari output nilai korelasi yang diatas 0,5 ditunjukkan math score dan
social studies score dimana kedua variabel masuk dalam persamaan diskriminan akan
mempunyai nilai korelasi yang cukup kuat dengan persamaan diskriminan yang
termbentuk.
Canonical Discriminant Function Coefficients
Function
1 2
math score .077 -.109
social studies score .057 .099
(Constant) -7.054 .521
Unstandardized coefficients
Tabel canonical discriminant function coefficients menerangkan model diskriminan
yang terbentuk yang tidak distandarisasi,
Functions at Group Centroids
type of Function
program 1 2
general -.305 .106
academic .560 -.019
vocation -.902 -.056
Unstandardized canonical discriminant functions evaluated at group means
Group Centroid merupakan rata-rata nilai diskriminan dari tiap-tiap
observasi di dalam masing-masing kelompok. Pada fungsi pertama, Group Centroid
untuk tipe program general adalah sebesar -0.305, untuk tipe program academic
adalah sebesar 0.560, dan tipe program vocation adalah -0.902. Ini berarti bahwa
secara rata - rata skor diskriminankedua kelompok berbeda cukup besar sehingga
fungsi diskriminan yang diperoleh dapat membedakan secara baik kelompok yang
ada. Sedangkan pada fungsi kedua, Group Centroid untuk tipe program general
adalah sebesar 0,106, untuk tipe program academic adalah sebesar -0.019, dan tipe
program vocation adalah -0.056.
Classification Statistics
Prior Probabilities for Groups
type of
Cases Used in Analysis
program Prior Unweighted Weighted
general .333 45 45.000
academic .333 105 105.000
vocation .333 50 50.000
Total 1.000 200 200.000
Dari nilai prior probabilities, dapat disimpulkan bahwa: Peluang seorang calon mahasiswa untuk masuk ke jurusan general sebesar
33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan academic
sebesar 33,33% Peluang seorang calon mahasiswa untuk masuk ke jurusan
vocation sebesar 33,33%
Classification Resultsa
type of Predicted Group Membership
program general academic vocation Total
Original Countgeneral 14 17 14 45
academic 20 70 15 105
vocation 9 10 31 50
% general 31.1 37.8 31.1 100.0
academic 19.0 66.7 14.3 100.0
vocation 18.0 20.0 62.0 100.0
a. 57,5% of original grouped cases correctly classified.
Nilai 57,5% merupakan HIT RATIO yaitu tingkat ketepatan klasifikasi (minimal
85%). Sebesar 57,5 % calon mahasiswa masuk ke jurusan yang sesuai. Namun,
nilainya kurang dari 85% sehingga model diskriminan yang diperoleh tidak bagus.