-
1
BAHAN KULIAH METODOLOGI PENELITIAN KUANTITATIF SEKOLAH TINGGI
AGAMA ISLAM NEGERI (STAIN) PONTIANAK
SEMESTER GANJIL TAHUN AKADEMIK 2013-2014
PERTEMUAN XII
ANALISIS BUTIR SECARA KLASIK: Tingkat Kesulitan, Daya Pembeda,
dan Pengecoh
Dirangkum oleh: Ali Hasmy
1. Indeks/Tingkat Kesulitan (Difficulty Index/Level)
Menurut Assessment Systems Corporation (2006: 3.13), Borich
& Kubiszyn
(2010: 229), Crocker & Algina (1986: 311), Ebel &
Frisbie (1986: 231), Gulliksen (1950:
366,) Henrysson (dalam Thorndike, 1971: 139), Miller (2008:
130), Miller, Linn, &
Gronlund (2009: 356), Reynolds, Livingston, & Willson (2010:
148-149), Shultz &
Whitney (2005: 192), dan Thorndike (2005: 469) kesulitan butir
didefinisikan sebagai
proporsi dari jawaban-jawaban yang benar.Dengan demikian,
menurut Ebel & Frisbie
(1986: 231), semakin tinggi indeks kesulitan semakin udah
butir/tes yang bersangkutan.
Sayangnya jawaban benar itu dapat mencakup jawaban yang
dihasilkan dari tebakan,
dengan demikian proporsi jawaban benar kadang tidak
menggambarkan keadaan yang
sesungguhnya. Salah satu cara untuk meminimalisir hal ini adalah
dengan cara
memberikan distraktor yang homogen dan menarik, sehingga peserta
tes yang tidak
benar-benar tahu/mampu akan terjebak untuk memilihnya, bukan
memilih kunci
jawaban.
Berdasarkan definisi kesulitan butir di atas, makapersamaan
untuk kesulitan
butir dengan skor politomus dapat dituliskan sebagai
berikut:
=
=1
=
=1 /
=
(1)
dengan : proporsi jawaban benar atau indeks kesulitan butir
ke-j.
n : ukuran sampel
: skor maksimal untuk butir ke-j
=1 : jumlah skor butir ke-j dari peserta tes ke-i, dengan i
mulai
dari 1 sampai ke n.
Untuk butir dengan skor dikotomus dimana skor maksimalnya = 1,
maka
persamaan (1) dapat direduksi menjadi:
-
2
=
=1
=
=1
.1=
=1
= . (2)
Persamaan (2) ini dicantumkan oleh Gulliksen (1950: 366) dalam
bukunya Theory of
mental test. Dengan demikian dapat dinyatakan bahwa formula
indeks kesulitan untuk
skor dikotomus yang tercantum pada persamaan (2) sebenarnya
adalah bentuk khusus
dari formula yang dicantumkan sebelumnya pada persamaan (1).
Persamaan (1)dan (2) di atas, jelas memperlihatkan bahwa indeks
kesulitan butir
tidak lain adalah nilai rerata pada butir tertentu (item mean).
Dalam konteks populasi
indeks kesulitan ini dapat disebut sebagai peluang peserta tes
untuk sukses pada butir
tertentu yang dapat menggunakan lambang dan khusus untuk data
dikotomus ditulis
dengan lambang . Dalam hal ini indeks kesulian butir dapat
disebut sebagai
parameter kesulitan butir (item difficulty parameter).
Untuk kesulitan tes (p) yang didefinisikan sebagai rerata dari
kesulitan butir
(), persamaannya dapat dituliskan sebagai berikut:
=
=1
. (3)
Karena menurut Crocker & Algina (1986: 312),
= =1 . (4)
maka persamaan (3) dapat dituliskan menjadi,
=
= . (5)
Untuk tes dengan seluruh butir memiliki skor maksimal yang sama,
persamaan (5) dapat
ditulis menjadi:
= = .
Hasil analisis kesulitan kemudian dapat dibandingan dengan
kriteria dari Mc
Donald (1999: 34) dan Miller (2008: 131) yang tercantum pada
tabel berikut ini.
Tabel 1. Keriteria Kesulitan
Indeks Kesulitan Evaluasi Butir
-
3
1.00 Seluruh peserta tes menjawab dengan benar (terlalu
mudah)
> 0.70 - < 1.00 Kesulitan rendah (mudah)
0.30 - 0.70 Rentang kesulitan yang umumnya dapat diterima
(sedang/moderat)
> 0.00 - < 0.30 Kesulitan tinggi
0.00 Seluruh peserta tes menjawab dengan tidak benar (terlalu
sulit)
Dengan menggunakan kriteria pada Tabel 1, maka menurut Miller
(2008: 131) titik
tengah kesulitan adalah 0.50 guna merujuk pada distribusi
normal. Hal ini sejalan
dengan pendapat Shultz & Whitney (2005: 194) yang menyatakan
bahwa trait yang
diukur diasumsian berdistribusi normal.Menurut Reynolds,
Livingston, & Willson (2010:
149), Shultz & Whitney (2005: 192) secara umum 0.50
merupakan Tingkat Kesulitan
Optimal/Ideal, yang mengindikasikan 50% dari peserta tes
menjawab dengan benar dan
50% peserta tes menjawab dengan tidak benar. Selain itu tingkat
kesulitan optimal
memaksimalkan variabilitas, dan tentu saja daya pembeda dan
reliabilitas. Menurut
Reynolds, Livingston, & Willson (2010: 149) Aiken pada tahun
2000 menyarankan
rentang sebesar 0.20 sekitar tingkat kesulitan optimal yaitu
antara 0,40 0,60.
Menurut Ebel & Frisbie (1986: 121) kesulitan optimal/ideal
adalah titik tengah
antara skor ideal/sempurna (misalnya 1.00) dan the chance-level
difficulty (0.50 untuk
pilihan Benar-Salah, 0.25 untuk Pilihan Ganda dengan 4 pilihan).
Dengan demikian
kesulitan optimal/ideal untuk soal B-S adalah 0.75 dan untuk
soal Pilihan Ganda dengan
4 pilihan adalah 0.625. Hal ini sejalan dengan pendapat mereka
(1986: 225) yang
menyatakan bahwa tujuan yang terkait dengan kesulitan adalah
mendapatkan skor
yang berada di tengah antara skor ideal/sempurna (perfect score)
dan skor peluang
yang diharapkan (expected chance score).
Meski demikian, pemilihan butir dengan kesulitan tertentu untuk
digunakan
atau tidak digunakan tergantung dari tujuan diberikannya tes.
Untuk kepentingan
seleksi digunakan butir-butir dengan kesulitan tinggi. Sedangkan
pada tes hasil belajar
diharapkan pelajar menguasai kompetensi yang diajarkan dan jika
demikian tentunya
dapat menjawab butir-butir yang diberikan. Menurut Shultz &
Whitney (2005: 192)
rentang nilai p untuk tes pengetahuan kependidikan dan
ketenagakerjaan adalah sekitar
0.50 sampai dengan 0.90. Hal ini mengakibatkan indeks kesulitan
butir bila dianalisis
-
4
berkisar dari moderat hingga tinggi (mudah). Sedangkan untuk
kepentingan yang lebih
umum diperlukan butir yang sulit, sedang, dan juga mudah dengan
proporsi tertentu.
Butir-butir yang sulit akan memberikan tantangan bagi yang
memiliki kemampuan
tinggi, sedangkan butir-butir yang mudah memberikan kesempatan
bagi yang memiliki
kemampuan rendah untuk menampilkan kemampuannya.
Menurut Henrysson (dalam Thorndike, 1971: 139-140), jika
diperlukan indeks
kesulitan yang memiliki derajat pengukuran interval, maka nilai
p dapat diubah menjadi
nilai z. Caranya adalah dengan mencari skor yang menjadi batas
antara nilai p dan 1-p
pada tabel kurve normal. Skor inilah kemudian yang digunakan
sebagai indeks kesulitan
yang disebut dengan indeks z. Argumentasinya adalah bahwa setiap
butir/tes
dijawab oleh peserta tes yang memiliki kemampuan dari rendah
sampai tinggi. Dalam
hal ini diasumsikan bahwa para peserta tes terdistribusi pada
kontinum butir yang
mengikuti distribusi normal. Namun nilai yang didapat dari tabel
kurve normal dengan
p = 0 sampai dengan p = 1, hasilnya tidaklah membentuk kurve
normal, selain itu nilai z
tidak seluruhnya positif, tetapi juga negatif. Agar didapat
nilai yang positif, kemudian
diusulkan penggunaan indeks atau, menurut Gulliksen (1950: 368),
disebut Brolyers
Indexdengan melakukan transformasi linier misalnya:
= 13 + 4, atau
= 50 + 10,
yang secara umum dapat dituliskan sebagai berikut:
= + .
2. Indeks Daya Pembeda (Discriminating Power Index)
Menurut McDonald (1999: 78),Miller (2008: 132), Miller, Linn,
& Gronlund
(2009: 357), Reynolds, Livingston, & Willson (2010: 150)
diskriminasi butir memberikan
suatu indeks atau merujuk pada derajat mengenai bagaimana suatu
butir membedakan
antara peserta tes yang mendapatkan skor tinggi dan skor rendah
pada butir tes
tertentu.Menurut Ebel & Frisbie (1986: 230) jika tujuan
utama seleksi butir adalah
untuk memaksimalkan reliabilitas tes, maka butir yang memiliki
diskriminasi tinggi
adalah butir yang harus dipilih. Berdasarkan pendapat ini dapat
dinyatakan bahwa
-
5
terdapat korelasi positif antara daya pembeda butir-butir pada
suatu tes dengan
reliabilitas tes dimaksud. Sedangkan menurut Shultz &
Whitney (2005: 192),
sebagaimana reliabilitas merupakan syarat perlu (necessary) tapi
bukan syarat cukup
(sufficient) bagi validitas, maka variabilitas juga merupakan
syarat perlu bagi daya
pembeda butir/tes tetapi bukan syarat cukup.
Selanjutnya Miller (2008: 135) menyatakan bahwa banyaknya
peserta tes pada
kelompok atas (yang mendapatkan skor tinggi pada suatu tes) atau
kelompok bawah
(yang mendapatkan skor rendah pada suatu tes) adalah:
a. 50% jika n 29.
b. 33% jika 30 n 39.
c. 25% jika n 40.
Namun menurut Assessment System Corporation (2006: 3.13),
Reynolds, Livingston, &
Willson (2010: 151), Kelley pada tahun 1939 menyarankan untuk
menggunakan 27%
kelompok atas dan 27% kelompok bawah. Hal yang sama juga
dinyatakan oleh
Henrysson (Thordike, 1971: 144-145) maupun Shultz & Whitney
(2005: 193).
Indeks daya pembeda butir yang dapat digunakan, menurut Borich
& Kubiszyn
(2010: 230), Miller (2008: 135) dan Thorndike (2005: 471), dapat
dituliskan dengan
persamaan berikut:
=
. (6)
dengan : indeks diskriminasi butir.
H : banyaknya peserta tes pada kelompok atas yang menjawab
dengan benar.
L : banyaknya peserta tes pada kelompok bawah yang menjawab
dengan benar.
K : banyak peserta tes pada kelompok atas/kelompok bawah.
Persamaan (6) di atas dapat dituliskan sebagai berikut:
=
=
. (7)
Hal ini sejalan dengan pernyataan Crocker & Algina (1986:
314) bahwa indeks
diskriminasi adalah proporsi kelompok atas yang menjawab dengan
benar dikurangi
dengan proporsi kelompok bawah yang menjawab dengan benar.
-
6
Berdasakan pendapat Crocker & Algina di atas, jelas terlihat
hubungan antara
indeks diskriminasi dan indeks kesulitan. Dengan memperhatikan
indeks kesulitan butir
atau proporsi jawaban benar pada butir tertentu sebagaimana yang
tercantum pada
persamaan (2) yang disubstitusikan ke persamaan (7), maka daya
pembeda butir
dengan skor dikotomus dapat dituliskan sebagai berikut:
=
=1
=1
=
=1
=1
. (8)
Sedangkan dengan memperhatikan persamaan (1) yang
disubstitusikan ke persamaan
(7), maka daya pembeda butir untuk skor politomus dapat
dituliskan sebagai berikut:
=
=1
.
=1
.=
=1
=1
.. (9)
Persamaan (9) ini juga dapat dituliskan sebagai berikut:
=
=
. (10)
Persamaan (10) mirip dengan formula dari Nitko pada tahun 2001
yang menurut
Reynolds, Livingston, & Willson (2010: 154) adalah:
=
1.
Jika dihubungankan dengan persamaan (1) dan (2), maka persamaan
(8), (9), dan
(10) secara umum dapat dituliskan sebagai berikut:
= . (11)
Hal ini sejalan dengan pendapat Assessment System Corporation
(2006: 3.13) dan
Johnson pada tahun 1951 yang dinyatakan oleh Reynolds,
Livingston, & Willson (2010:
152).
Ada tiga kemungkinan yang dapat terjadi pada hasil perhitungan
dengan
menggunakan persamaan (6) sampai dengan (11). Tiga kemungkinan
dimaksud disebut
dengan tipe indeks daya pembeda, yang menurut Borich &
Kubiszyn (2010: 229) adalah:
-
7
a. Indeks daya pembeda positif, dimana rerata kelompok atas
memberikan jawaban
benar lebih tinggi dari kelompok bawah.
b. Indeks daya pembeda negatif, dimana rerata kelompok atas
memberikan jawaban
benar lebih rendah dari kelompok bawah.
c. Indeks daya pembeda nol (zero), dimana rerata kelompok atas
memberikan
jawaban benar sama dengan kelompok bawah.
Menurut Miller, Linn, & Gronlund (2009: 358-362), ada
beberapa hal utama
yang perlu diperhatikan terkait dengan indeks daya pembeda
butir, yaitu:
a. Daya pembeda butir tidak mengindikasian validitas butir.
b. Daya pembeda butir yang rendah tidak mesti mengindikasikan
butir yang
jelek/rusak.
c. Secara umum, analisis butir yang didasarkan pada sampel kecil
hanyalah bersifat
sangat sementara.
Untuk daya pembeda tes (D) yang didefinisikan sebagai rerata
dari daya
pembeda butir (), dengan memperhatikan persamaan (3), (4), dan
(5),
persamaannya dapat dituliskan sebagai berikut:
= =
=1
.
Hasil analisis daya pembeda kemudian dapat dibandingan dengan
kriteria dari
Crocker & Algina (1986: 315), Ebel & Frisbie (1986: 234)
yang tercantum pada tabel
berikut ini.
Tabel 2. Kriteria Daya Pembeda
Indeks Diskriminasi Evaluasi Butir
0.40 Butir yang sangat bagus/memuaskan
0.30 - < 0.40 Cukup bagus, tidak perlu perbaikanatau perlu
sedikit perbaikan
saja
0.20 - < 0.30 Kurang bagus dan biasanya perlu diperbaiki
< 0.20 Butir yang jelek dan seharusnya diperbaiki total atau
malah
ditolak
-
8
Sedangkan dengan mengacu pada pendapat Hopkins pada tahun 1998
(Reynolds,
Livingston, & Willson, 2010: 152) dan point b pada pendapat
Miller, Linn, & Gronlund
(2009: 358-362) yang dicantumkan sebelum ini, dapat disusun
kriteria yang lebih rinci
sebagaimana tercantum pada Tabel 3.
Tabel 3. Kriteria Daya Pembeda Menurut Hopkins
Indeks Diskriminasi Evaluasi Butir
0.40 Sangat tinggi
0.30 - < 0.40 Tinggi
0.10 - < 0.30 Sedang
0.00 - < 0.10 Rendah
< 0.00 Salah kunci atau kekurangan besar lainnya
Jika dihubungkan dengan tingkat kesulitan, untuk kepentingan
secara umum,
maka kriteria kombinasinya menurut Haladyna (2004: 228) dapat
dilihat pada Tabel 4.
Tabel 4. Kriteria Kombinasi Tingkat Kesulitan dan Daya
Pembeda
Indeks Kesulitan Indeks Daya Pembeda Evaluasi Butir
Sedang Tinggi/Sangat Tinggi Butir yang ideal. Bank butir
seharusnya
mengandung butir-butir seperti ini.
Sedang Rendah/Negatif Butir tidak membedakan peserta tes
kelompok atas dan bawah dan tidak
berkonstribusi terhadap reliabilitas secara
signifikan. Butir seperti ini seharusnya
direvisi atau dikeluarkan
Tinggi Rendah/Sedang/Tinggi Butir mudah. Butir seperti ini
dapat
dipertahankan jika ahli materi yakin
bahwa butir mengukur materi yang
esensial.
-
9
Rendah Tinggi/Sangat Tinggi Meski butir sulit, tetapi dapat
membedakan peserta tes kelompok atas
dan kelompok bawah. Butir seperti ini
dapat dipertahankan tetapi sebaiknya
diperiksa ulang pada penggunaan tes
berikutnya.
Rendah Rendah Performansi butir seperti ini buruk dan
seharusnya direvisi atau dikeluarkan
Menurut Reynolds, Livingston, & Willson (2010: 153),
maksimum nilai D yang
bisa dicapai pada tingkat kesulitan tertentu adalah sebagaimana
tercantum pada Tabel
5.
Tabel 5. Maksimum Nilai D untuk Tingkat Kesulitan Tertentu
Tingkat Kesulitan Maksimum Nilai D
1.00 0.00
0.90 0.20
0.80 0.40
0.70 0.60
0.60 0.70
0.50 1.00
0.40 0.70
0.30 0.60
0.20 0.40
0.10 0.20
0.00 0.00
Untuk Ujian Ketuntasan (Mastery Test) atau Sensitivitas
Pembelajaran
(Instructional Sensitivity), ada beberapa formula sebagaimana
yang tercantum pada
persamaan (10) yang menurut Crocker & Algina (1986: 330),
Haladyna (2004: 215),
Reynolds, Livingston, & Willson (2010: 155-156) dapat
digunakan yaitu:
-
10
a. Formula dari Aiken (2000) dan Popham (2000), yaitu:
= . (12)
b. Formula lainnya yang juga cukup populer yaituPre-to-Post
Difference Index (PPDI)
dari Cox & Vargas (1966):
= . (13)
c. Formula dari Aiken (2000), yaitu:
= .
d. Formula Skor Batas Ketuntasan (Mastery Cutoff Score) dari
Brennan (1972), yaitu:
=
(14)
Persamaan (14) sebenarnya sama dengan persamaan (7), hanya saja
dengan
pemaknaan yang berbeda, dimana U adalah banyaknya peserta tes
dengan skor di atas
cutoff yang menjawab dengan benar, sedangkan L adalah banyaknya
peserta tes
dengan skor di bawah cutoff yang menjawab dengan benar. Selain
itu, adalah
banyaknya peserta tes dengan skor di atas cutoff, sedangan
adalah banyaknya
peserta tes dengan skor di atas cutoff.
Menurut Assessment Systems Corporation (2006: 3.15 & 3.17),
McDonald (1999:
231-235), selain formula di atas, dapat digunakan korelasi
butir-total dan yang paling
umum digunakan adalah korelasi product moment. Keluarga korelasi
product moment
ini menurut Hinkle, Wiersma, & Jurs (1979: 96-104), Shultz
& Whitney (2005: 194)
adalah korelasi Pearson r, Point-Biserial, Phi, Spearman.
Untuk butir dengan skor dikotomus (binary), menurut Assessment
Systems
Corporation (1986: 3.3) dan (2006: 3.5 & 3.13), Ebel &
Frisbie (1986: 230), McDonald
(1999: 235), Reynolds, Livingston, &Willson (2010: 154),
Shultz & Whitney (2005: 193),
keluarga korelasi product moment yang dapat digunakan
adalahkorelasiPoint-Biserial
untuk item dengan skor true dichotomy dan alternatifnya yaitu
korelasi Biserial untuk
item dengan skor artificial dichotomy. Hanya saja, menurut
Shultz & Whitney (2005:
194) korelasi point-biserial selalu memberikan hasil yang lebih
tinggi dibandingkan
-
11
dengan korelasi biserial. Hal ini dikarenakan skor untuk jawaban
benar dan tidak
benar sesungguhnya bukanlah bersifat true dichotomy, tetapi
artificial. Dengan
menggunakan korelasi biserial maka terjadi koreksi terhadap
sifat artificial tersebut.
Selain itu, Crocker & Algina (1986: 318) Lord & Novick
(1968) menyatakan bahwa
hubungan antara korelasi biserial dan point-biserial adalah:
=
.
Dikarenakan Y ordinat pada kurve normal selalu lebih
rendah/kecil dari maka nilai
korelasi biserial selalu lebih besar sekitar 1/5 dari nilai
korelasi point-biserial.
Penggunaan koefisien D, korelasi Point-Biserial, dan korelasi
Biserial berdasarkan
penelitian Beuchert & Mendoza (1979), Englehart (1965),
Findley (1956), dan Oosterhof
(1976) menurut Crocker & Algina (1986: 319) dapat dirangkum
sebagai berikut:
a. Jika butir memiliki kesulitan moderat, ketiga indeks
memberikan hasil yang
relatifsama. Jika mementingkan kemudahan, gunakan indeks D,
namun jika
memerlukan signifikansi statistik, gunakan Biserial atau
Point-Biserial.
b. Jika butir memiliki kesulitan yang ekstrim, lebih baik
digunakan koefisien Biserial
jika asumsi normalitas pada trait yang dikaji berdistribusi
normal.
c. Jika peneliti menduga bahwa sampel lain nantinya (prospective
group) akan
berbeda kemampuannya dengan sampel yang digunakan sekarang
(analysis group),
maka direkomendasikan untuk menggunakan koefisien Biserial.
d. Jika peneliti yakin bahwa sampel lain nantinya akan relatif
sama kemampuannya
dengan sampel yang digunakan sekarang, maka direkomendasikan
untuk
menggunakan koefisien Point-Biserial.
Tetapi, menurut Henrysson (dalam Thorndike, 1971: 142-143), jika
menggunakan
variabel kriteria berupa data dikotomus maka dapat digunakan
koefisien korelasi
tetrakorik dan koefisien phi, , sedangkan jika menggunakan
variabel kriteria berupa
ranking maka dapat digunakan koefisien korelasi rank
biserial.
Berdasarkan beberapa pendapat di atas, untuk data politomus,
dapat
digunakan koefisien korelasi Poliserial sebagai pengganti
koefisien korelasi Biserial, dan
koefisien korelasi Polikorik sebagai pengganti koefisien
korelasi Tetrakorik. Hanya saja
-
12
menurut McDonald (1999: 232) penggunaan korelasi butir-total
memiliki dua masalah,
yaitu:
a. Jika digunakan skor total seluruh butir termasuk butir yang
dikaji (item total score),
maka hasil analisisnya bersifat semu (spurious) karena pada skor
total terkandung
skor dari butir yang dianalisis, sehingga mengandung korelasi
butir dengan dirinya
sendiri. Namun penggunaan skor total seperti ini memberikan
kriteria yang sama
bagi setiap butir yang dikaji.
b. Jika digunakan skor total yang sudah dikurangi dengan skor
butir yang dikaji (item
reminder score) efek semunya tereliminasi, namun setiap butir
memiliki kriteria
yang berbeda.
Dampak penggunaan item total score maupun item reminder score
dapat diperkecil jika
menggunaan butir yang semakin banyak. Menurut Shultz &
Whitney (2005: 194),
penggunaan korelasi butir-total memerlukan butir yang sebaiknya
20 dan peserta tes
sebanyak 5-10 kali banyaknya butir. Sedangkan Crocker &
Algina (1986: 317)
menyarankan banyaknya butir 25. Untuk tes dengan butir yang
sedikit, Crocker &
Algina (1986: 317) menyarankan penggunaan korelasi
point-biserial yang dikoreksi.
Dalam kaitan daya pembeda dengan sensitivitas pembelajaran untuk
kasus
sebagaimana tercantum pada persamaan (13), menurut Crocker &
Algina (1986: 330-
331), juga dapat digunakan keluarga korelasi product moment
sebagaimana yang
disarankan oleh Berk (1980) yang diderivasi dari Saupe (1966).
Untuk melakukan hal ini
perlu diberikan pretest dan posttest pada individu yang sama.
Selanjutnya skor posttest
dikurangi dengan skor pretest pada setiap peserta tes pada
setiap butirnya untuk
mendapatkan skor perubahan (change score). Hasil pengurangan
dimaksud
menghasilkan nilai 1 (gain score), 0 (no gain), atau -1 (loss of
gain). Langkah selanjutnya
adalah menghitung total skor perubahan (change score total)
dengan formula sebagai
berikut:
=
dengan Y adalah skor total pada posttest X adalah skor total
pada pretest.
-
13
Untuk menentukan daya pembeda butir dilakukan perhitungan
korelasi antara skor
perubahan pada masing-masing butir dan skor total perubahan.
Hanya saja penerapan
korelasi dengan cara seperti ini lebih mengacu pada rujukan
norma (norm reference)
dibandingkan dengan rujukan kriteria (criterion reference).
Untuk kasus sebagaimana tercantum pada persamaan (12), menurut
Crocker &
Algina (1986: 331) Milman (1974) menyarankan penggunaan korelasi
parsial atau
regresi setapak (stepwise regression).
3. Analisis Pengecoh (Distractor/Foil Analysis)
Menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69 &
273), McDonald
(1999: 19) pengecoh adalah pilihan jawaban yang keliru namun
kelihatannya masuk
akal.Sedangkan menurut Ebel & Frisbie (1986: 176), Haladyna
(2004: 69), Miller (2008:
55) pengecoh menarik bagi peserta tes yang tidak tuntas tetapi
tidak membuat bingung
bagi peserta tes yang tuntas. McDonald (1999: 19), Mehrens &
Lehmann (1973: 277),
dan Thorndike (2005: 448) selain menyebut pengecoh dengan
istilah distractor juga
menyebutnya dengan istilah foil. Tujuan dari dibuatnya suatu
pengecoh (distractor atau
foil), menurut Ebel & Frisbie (1986: 176), adalah untuk
membedakan antara peserta tes
yang tidak tuntas pada materi yang diujikan dan peserta tes yang
tuntas.
Menurut Haladyna (2004: 273) ada tiga alasan perlunya dilakukan
analisis
terhadap pengecoh. Pertama, pengecoh adalah bagian dari butir
dan ia harus berguna,
jika tidak ia sebaiknya direvisi aatu dibuang. Pengecoh yang
tidak berguna akan
berdampak buruk terhadap daya pembeda butir. Kedua, dengan
penyekoran
politomus, pengecoh yang berguna akan memberikan kontribusi
terhadap penyekoran
yang efektif, yang berdampak positif terhadap reliabilitas skor.
Ketiga, dalam konteks
psikologi kognitif, pengecoh berguna sebagai pintu masuk untuk
menemukan kesalahan
konsep pada peserta tes.
Menurut Borich & Kubiszyn (2010: 231-234) ada beberapa hal
yang perlu
diperhatikan ketika menganalisis pengecoh, yaitu: efektivitas,
salah kunci, ambiguitas,
dan penebakan.
a. Efektivitas (Effectivity)
Pengecoh yang efektif menurut Borich & Kubiszyn (2010:
231-232) tidak hanya
dipilih oleh peserta tes, tetapi harus lebih banyak dipilih oleh
kelompok bawah. Hal
-
14
ini dikarenakan peserta tes dari kelompok atas (memiliki
kemampuan yang lebih
tinggi) semestinya hanya sedikit yang terkecoh oleh pengecoh
tertentu
dibandingkan dengan peserta tes dari kelompok bawah (memiliki
kemampuan yang
lebih rendah). Hal ini sejalan dengan pendapat Miller, Linn,
& Gronlund (2009: 357)
yang menyatakan bahwa pengecoh yang baik menarik lebih banyak
peserta test
dari kelompok bawah dibandingkan dengan kelompok atas.
Berdasarkan dua pendapat di atas dapat dinyatakan bahwa pengecoh
tidak
berfungsi dengan baik (tidak efektif) jika tidak dipilih oleh
peserta tes. Selain itu,
meski pengecoh dipilih oleh peserta tes, ia juga dikatakan tidak
efektif jikalebih
banyak dipilih oleh peserta test dari kelompok atas dibandingkan
dengan kelompok
bawah.
b. Salah Kunci (Miskeying)
Menurut Borich & Kubiszyn (2010: 232-233) indikasi salah
kunci terjadi jika peserta
tes dari kelompok atas lebih banyak memilih suatu distraktor
dibandingkan dengan
pilihan yang ditetapkan sebagai kunci jawaban.
c. Ambiguitas (Ambiguity)
Menurut Borich & Kubiszyn (2010: 233) indikasi ambiguitas
terjadi jika peserta tes
dari kelompok atas memilih suatu distraktor kurang lebih sama
frekuensinya
dengan pilihan yang ditetapkan sebagai kunci jawaban.
d. Penebakan (Guessing)
Menurut Borich & Kubiszyn (2010: 233) terjadinya penebakan
terindikasi dari
peserta tes dari kelompok atas yang memilih seluruh pilihan
jawaban (distraktor
maupun pilihan yang ditetapkan sebagai kunci jawaban) dengan
frekuensi yang
relatif seimbang.
Menurut Haladyna (2004: 218-228) metode-metode yang dapat
digunakan
untuk mengkaji performansi pengecoh pada dasarnya dapat
dikelompokkan menjadi
tiga, yaitu: menggunakan Metode Tabular, Metode Grafikal, dan
Metode Statistikal.
Metode Statistikal yang dapat digunakan adalah Statistika
deskriptif dan Statistia
Inferensial baik Parametrik maupun Nonparametrik. Adapun
manfaatnya adalah: a)
merampingkan butir yang gemuk/kelebihan pilihan jawaban, b)
memperbaiki butir-butir
tes, c) mendeteksi penyebab munculnya masalah-masalah
performansi, d) kajian
-
15
tambahan untuk proses kognitif, e) keberbedaan fungsi pengecoh
(differential
distractor functioning).
Referensi
Assessment System Corporation. (2006). Usersmanual for the
ITEMAN: Conventional item analysis program.
______________. (1986). Usersmanual for ITEMAN, RASCAL, and
ASCAL. Borich, G., & Kubiszyn, T. (2010). Educational testing
& measurement: Classroom application
and practice. Danvers, MA: John Wiley & Sons, Inc. Crocker,
L. & Algina, J. (1986). Introduction to classical and modern
test theory. New York,
NY: CBS College Publishing. Ebel, R. L., & Frisbie, D. A.
(1986). Essentials of educational measurement. Englewood
Cliffs,
NJ: Prentice Hall, Inc. Gulliksen, H. (1950). Theory of mental
tests. New York, NY: John Wiley & Sons. Inc. Haladyna, T. M.
(2004). Developing and validating multiple-choice test items.
(3rded.).
Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Henrysson, S.
(1971). Gathering, analyzing, and using data on test items. In R.
L. Thorndike
(Ed.). Educational measurement (pp. 130-159). (2nded.).
Washington, DC: American Council on Education.
Hinkle, D. E., Wiersma, W., & Jurs, S. G. (1979). Applied
statistics for the behavioral sciences.
Boston, MA: Houghton & Mifflin Company. McDonald, R. P.
(1999), Test theory: A unified treatment. Mahwah, NJ: Lawrence
Erlbaum
Associates, Publishers. Mehrens, W. A., & Lehmann, I. J.
(1973). Measurement and evaluation in education and
psychology. New York, NY: Holt, Rinehart & Winston, Inc.
Miller, M. D., Linn, R. L., & Gronlund, N. E. (2009).
Measurement and assessment in
teaching. (10thed.). Upper Saddle River, NJ: Pearson Education,
Inc. Miller, P. W. (2008). Measurement and teaching. Munster, IN:
Patrick W. Miller &
Associates. Reynolds, C. R., Livingston, R. B., &Willson, V.
(2010). Measurement and assessment in
education. (2nded.). Boston, MA: Pearson Education, Inc.
-
16
Shultz, K. S. & Whitney, D. J. (2005). Measurement theory in
action: Case studies and exercises. Thousand Oaks, CA: Sage
Publications, Inc.
Thorndike, R. M. (2005). Measurement and evaluation in
psychology and education. (7thed.).
Upper Saddle River, NJ: Pearson Education, Inc.