Indeks Kesulitan & Daya Pembeda

1

BAHAN KULIAH METODOLOGI PENELITIAN KUANTITATIF SEKOLAH TINGGI AGAMA ISLAM NEGERI (STAIN) PONTIANAK

SEMESTER GANJIL TAHUN AKADEMIK 2013-2014

PERTEMUAN XII

ANALISIS BUTIR SECARA KLASIK: Tingkat Kesulitan, Daya Pembeda, dan Pengecoh

Dirangkum oleh: Ali Hasmy

1. Indeks/Tingkat Kesulitan (Difficulty Index/Level)

Menurut Assessment Systems Corporation (2006: 3.13), Borich & Kubiszyn

(2010: 229), Crocker & Algina (1986: 311), Ebel & Frisbie (1986: 231), Gulliksen (1950:

366,) Henrysson (dalam Thorndike, 1971: 139), Miller (2008: 130), Miller, Linn, &

Gronlund (2009: 356), Reynolds, Livingston, & Willson (2010: 148-149), Shultz &

Whitney (2005: 192), dan Thorndike (2005: 469) kesulitan butir didefinisikan sebagai

proporsi dari jawaban-jawaban yang benar.Dengan demikian, menurut Ebel & Frisbie

(1986: 231), semakin tinggi indeks kesulitan semakin udah butir/tes yang bersangkutan.

Sayangnya jawaban benar itu dapat mencakup jawaban yang dihasilkan dari tebakan,

dengan demikian proporsi jawaban benar kadang tidak menggambarkan keadaan yang

sesungguhnya. Salah satu cara untuk meminimalisir hal ini adalah dengan cara

memberikan distraktor yang homogen dan menarik, sehingga peserta tes yang tidak

benar-benar tahu/mampu akan terjebak untuk memilihnya, bukan memilih kunci

jawaban.

Berdasarkan definisi kesulitan butir di atas, makapersamaan untuk kesulitan

butir dengan skor politomus dapat dituliskan sebagai berikut:

=

=1

=

=1 /

=

(1)

dengan : proporsi jawaban benar atau indeks kesulitan butir ke-j.

n : ukuran sampel

: skor maksimal untuk butir ke-j

=1 : jumlah skor butir ke-j dari peserta tes ke-i, dengan i mulai

dari 1 sampai ke n.

Untuk butir dengan skor dikotomus dimana skor maksimalnya = 1, maka

persamaan (1) dapat direduksi menjadi:

2

=

=1

=

=1

.1=

=1

= . (2)

Persamaan (2) ini dicantumkan oleh Gulliksen (1950: 366) dalam bukunya Theory of

mental test. Dengan demikian dapat dinyatakan bahwa formula indeks kesulitan untuk

skor dikotomus yang tercantum pada persamaan (2) sebenarnya adalah bentuk khusus

dari formula yang dicantumkan sebelumnya pada persamaan (1).

Persamaan (1)dan (2) di atas, jelas memperlihatkan bahwa indeks kesulitan butir

tidak lain adalah nilai rerata pada butir tertentu (item mean). Dalam konteks populasi

indeks kesulitan ini dapat disebut sebagai peluang peserta tes untuk sukses pada butir

tertentu yang dapat menggunakan lambang dan khusus untuk data dikotomus ditulis

dengan lambang . Dalam hal ini indeks kesulian butir dapat disebut sebagai

parameter kesulitan butir (item difficulty parameter).

Untuk kesulitan tes (p) yang didefinisikan sebagai rerata dari kesulitan butir

(), persamaannya dapat dituliskan sebagai berikut:

=

=1

. (3)

Karena menurut Crocker & Algina (1986: 312),

= =1 . (4)

maka persamaan (3) dapat dituliskan menjadi,

=

= . (5)

Untuk tes dengan seluruh butir memiliki skor maksimal yang sama, persamaan (5) dapat

ditulis menjadi:

= = .

Hasil analisis kesulitan kemudian dapat dibandingan dengan kriteria dari Mc

Donald (1999: 34) dan Miller (2008: 131) yang tercantum pada tabel berikut ini.

Tabel 1. Keriteria Kesulitan

Indeks Kesulitan Evaluasi Butir

3

1.00 Seluruh peserta tes menjawab dengan benar (terlalu mudah)

> 0.70 - < 1.00 Kesulitan rendah (mudah)

0.30 - 0.70 Rentang kesulitan yang umumnya dapat diterima (sedang/moderat)

> 0.00 - < 0.30 Kesulitan tinggi

0.00 Seluruh peserta tes menjawab dengan tidak benar (terlalu sulit)

Dengan menggunakan kriteria pada Tabel 1, maka menurut Miller (2008: 131) titik

tengah kesulitan adalah 0.50 guna merujuk pada distribusi normal. Hal ini sejalan

dengan pendapat Shultz & Whitney (2005: 194) yang menyatakan bahwa trait yang

diukur diasumsian berdistribusi normal.Menurut Reynolds, Livingston, & Willson (2010:

149), Shultz & Whitney (2005: 192) secara umum 0.50 merupakan Tingkat Kesulitan

Optimal/Ideal, yang mengindikasikan 50% dari peserta tes menjawab dengan benar dan

50% peserta tes menjawab dengan tidak benar. Selain itu tingkat kesulitan optimal

memaksimalkan variabilitas, dan tentu saja daya pembeda dan reliabilitas. Menurut

Reynolds, Livingston, & Willson (2010: 149) Aiken pada tahun 2000 menyarankan

rentang sebesar 0.20 sekitar tingkat kesulitan optimal yaitu antara 0,40 0,60.

Menurut Ebel & Frisbie (1986: 121) kesulitan optimal/ideal adalah titik tengah

antara skor ideal/sempurna (misalnya 1.00) dan the chance-level difficulty (0.50 untuk

pilihan Benar-Salah, 0.25 untuk Pilihan Ganda dengan 4 pilihan). Dengan demikian

kesulitan optimal/ideal untuk soal B-S adalah 0.75 dan untuk soal Pilihan Ganda dengan

4 pilihan adalah 0.625. Hal ini sejalan dengan pendapat mereka (1986: 225) yang

menyatakan bahwa tujuan yang terkait dengan kesulitan adalah mendapatkan skor

yang berada di tengah antara skor ideal/sempurna (perfect score) dan skor peluang

yang diharapkan (expected chance score).

Meski demikian, pemilihan butir dengan kesulitan tertentu untuk digunakan

atau tidak digunakan tergantung dari tujuan diberikannya tes. Untuk kepentingan

seleksi digunakan butir-butir dengan kesulitan tinggi. Sedangkan pada tes hasil belajar

diharapkan pelajar menguasai kompetensi yang diajarkan dan jika demikian tentunya

dapat menjawab butir-butir yang diberikan. Menurut Shultz & Whitney (2005: 192)

rentang nilai p untuk tes pengetahuan kependidikan dan ketenagakerjaan adalah sekitar

0.50 sampai dengan 0.90. Hal ini mengakibatkan indeks kesulitan butir bila dianalisis

4

berkisar dari moderat hingga tinggi (mudah). Sedangkan untuk kepentingan yang lebih

umum diperlukan butir yang sulit, sedang, dan juga mudah dengan proporsi tertentu.

Butir-butir yang sulit akan memberikan tantangan bagi yang memiliki kemampuan

tinggi, sedangkan butir-butir yang mudah memberikan kesempatan bagi yang memiliki

kemampuan rendah untuk menampilkan kemampuannya.

Menurut Henrysson (dalam Thorndike, 1971: 139-140), jika diperlukan indeks

kesulitan yang memiliki derajat pengukuran interval, maka nilai p dapat diubah menjadi

nilai z. Caranya adalah dengan mencari skor yang menjadi batas antara nilai p dan 1-p

pada tabel kurve normal. Skor inilah kemudian yang digunakan sebagai indeks kesulitan

yang disebut dengan indeks z. Argumentasinya adalah bahwa setiap butir/tes

dijawab oleh peserta tes yang memiliki kemampuan dari rendah sampai tinggi. Dalam

hal ini diasumsikan bahwa para peserta tes terdistribusi pada kontinum butir yang

mengikuti distribusi normal. Namun nilai yang didapat dari tabel kurve normal dengan

p = 0 sampai dengan p = 1, hasilnya tidaklah membentuk kurve normal, selain itu nilai z

tidak seluruhnya positif, tetapi juga negatif. Agar didapat nilai yang positif, kemudian

diusulkan penggunaan indeks atau, menurut Gulliksen (1950: 368), disebut Brolyers

Indexdengan melakukan transformasi linier misalnya:

= 13 + 4, atau

= 50 + 10,

yang secara umum dapat dituliskan sebagai berikut:

= + .

2. Indeks Daya Pembeda (Discriminating Power Index)

Menurut McDonald (1999: 78),Miller (2008: 132), Miller, Linn, & Gronlund

(2009: 357), Reynolds, Livingston, & Willson (2010: 150) diskriminasi butir memberikan

suatu indeks atau merujuk pada derajat mengenai bagaimana suatu butir membedakan

antara peserta tes yang mendapatkan skor tinggi dan skor rendah pada butir tes

tertentu.Menurut Ebel & Frisbie (1986: 230) jika tujuan utama seleksi butir adalah

untuk memaksimalkan reliabilitas tes, maka butir yang memiliki diskriminasi tinggi

adalah butir yang harus dipilih. Berdasarkan pendapat ini dapat dinyatakan bahwa

5

terdapat korelasi positif antara daya pembeda butir-butir pada suatu tes dengan

reliabilitas tes dimaksud. Sedangkan menurut Shultz & Whitney (2005: 192),

sebagaimana reliabilitas merupakan syarat perlu (necessary) tapi bukan syarat cukup

(sufficient) bagi validitas, maka variabilitas juga merupakan syarat perlu bagi daya

pembeda butir/tes tetapi bukan syarat cukup.

Selanjutnya Miller (2008: 135) menyatakan bahwa banyaknya peserta tes pada

kelompok atas (yang mendapatkan skor tinggi pada suatu tes) atau kelompok bawah

(yang mendapatkan skor rendah pada suatu tes) adalah:

a. 50% jika n 29.

b. 33% jika 30 n 39.

c. 25% jika n 40.

Namun menurut Assessment System Corporation (2006: 3.13), Reynolds, Livingston, &

Willson (2010: 151), Kelley pada tahun 1939 menyarankan untuk menggunakan 27%

kelompok atas dan 27% kelompok bawah. Hal yang sama juga dinyatakan oleh

Henrysson (Thordike, 1971: 144-145) maupun Shultz & Whitney (2005: 193).

Indeks daya pembeda butir yang dapat digunakan, menurut Borich & Kubiszyn

(2010: 230), Miller (2008: 135) dan Thorndike (2005: 471), dapat dituliskan dengan

persamaan berikut:

=

. (6)

dengan : indeks diskriminasi butir.

H : banyaknya peserta tes pada kelompok atas yang menjawab dengan benar.

L : banyaknya peserta tes pada kelompok bawah yang menjawab dengan benar.

K : banyak peserta tes pada kelompok atas/kelompok bawah.

Persamaan (6) di atas dapat dituliskan sebagai berikut:

=

=

. (7)

Hal ini sejalan dengan pernyataan Crocker & Algina (1986: 314) bahwa indeks

diskriminasi adalah proporsi kelompok atas yang menjawab dengan benar dikurangi

dengan proporsi kelompok bawah yang menjawab dengan benar.

6

Berdasakan pendapat Crocker & Algina di atas, jelas terlihat hubungan antara

indeks diskriminasi dan indeks kesulitan. Dengan memperhatikan indeks kesulitan butir

atau proporsi jawaban benar pada butir tertentu sebagaimana yang tercantum pada

persamaan (2) yang disubstitusikan ke persamaan (7), maka daya pembeda butir

dengan skor dikotomus dapat dituliskan sebagai berikut:

=

=1

=1

=

=1

=1

. (8)

Sedangkan dengan memperhatikan persamaan (1) yang disubstitusikan ke persamaan

(7), maka daya pembeda butir untuk skor politomus dapat dituliskan sebagai berikut:

=

=1

.

=1

.=

=1

=1

.. (9)

Persamaan (9) ini juga dapat dituliskan sebagai berikut:

=

=

. (10)

Persamaan (10) mirip dengan formula dari Nitko pada tahun 2001 yang menurut

Reynolds, Livingston, & Willson (2010: 154) adalah:

=

1.

Jika dihubungankan dengan persamaan (1) dan (2), maka persamaan (8), (9), dan

(10) secara umum dapat dituliskan sebagai berikut:

= . (11)

Hal ini sejalan dengan pendapat Assessment System Corporation (2006: 3.13) dan

Johnson pada tahun 1951 yang dinyatakan oleh Reynolds, Livingston, & Willson (2010:

152).

Ada tiga kemungkinan yang dapat terjadi pada hasil perhitungan dengan

menggunakan persamaan (6) sampai dengan (11). Tiga kemungkinan dimaksud disebut

dengan tipe indeks daya pembeda, yang menurut Borich & Kubiszyn (2010: 229) adalah:

7

a. Indeks daya pembeda positif, dimana rerata kelompok atas memberikan jawaban

benar lebih tinggi dari kelompok bawah.

b. Indeks daya pembeda negatif, dimana rerata kelompok atas memberikan jawaban

benar lebih rendah dari kelompok bawah.

c. Indeks daya pembeda nol (zero), dimana rerata kelompok atas memberikan

jawaban benar sama dengan kelompok bawah.

Menurut Miller, Linn, & Gronlund (2009: 358-362), ada beberapa hal utama

yang perlu diperhatikan terkait dengan indeks daya pembeda butir, yaitu:

a. Daya pembeda butir tidak mengindikasian validitas butir.

b. Daya pembeda butir yang rendah tidak mesti mengindikasikan butir yang

jelek/rusak.

c. Secara umum, analisis butir yang didasarkan pada sampel kecil hanyalah bersifat

sangat sementara.

Untuk daya pembeda tes (D) yang didefinisikan sebagai rerata dari daya

pembeda butir (), dengan memperhatikan persamaan (3), (4), dan (5),

persamaannya dapat dituliskan sebagai berikut:

= =

=1

.

Hasil analisis daya pembeda kemudian dapat dibandingan dengan kriteria dari

Crocker & Algina (1986: 315), Ebel & Frisbie (1986: 234) yang tercantum pada tabel

berikut ini.

Tabel 2. Kriteria Daya Pembeda

Indeks Diskriminasi Evaluasi Butir

0.40 Butir yang sangat bagus/memuaskan

0.30 - < 0.40 Cukup bagus, tidak perlu perbaikanatau perlu sedikit perbaikan

saja

0.20 - < 0.30 Kurang bagus dan biasanya perlu diperbaiki

< 0.20 Butir yang jelek dan seharusnya diperbaiki total atau malah

ditolak

8

Sedangkan dengan mengacu pada pendapat Hopkins pada tahun 1998 (Reynolds,

Livingston, & Willson, 2010: 152) dan point b pada pendapat Miller, Linn, & Gronlund

(2009: 358-362) yang dicantumkan sebelum ini, dapat disusun kriteria yang lebih rinci

sebagaimana tercantum pada Tabel 3.

Tabel 3. Kriteria Daya Pembeda Menurut Hopkins

Indeks Diskriminasi Evaluasi Butir

0.40 Sangat tinggi

0.30 - < 0.40 Tinggi

0.10 - < 0.30 Sedang

0.00 - < 0.10 Rendah

< 0.00 Salah kunci atau kekurangan besar lainnya

Jika dihubungkan dengan tingkat kesulitan, untuk kepentingan secara umum,

maka kriteria kombinasinya menurut Haladyna (2004: 228) dapat dilihat pada Tabel 4.

Tabel 4. Kriteria Kombinasi Tingkat Kesulitan dan Daya Pembeda

Indeks Kesulitan Indeks Daya Pembeda Evaluasi Butir

Sedang Tinggi/Sangat Tinggi Butir yang ideal. Bank butir seharusnya

mengandung butir-butir seperti ini.

Sedang Rendah/Negatif Butir tidak membedakan peserta tes

kelompok atas dan bawah dan tidak

berkonstribusi terhadap reliabilitas secara

signifikan. Butir seperti ini seharusnya

direvisi atau dikeluarkan

Tinggi Rendah/Sedang/Tinggi Butir mudah. Butir seperti ini dapat

dipertahankan jika ahli materi yakin

bahwa butir mengukur materi yang

esensial.

9

Rendah Tinggi/Sangat Tinggi Meski butir sulit, tetapi dapat

membedakan peserta tes kelompok atas

dan kelompok bawah. Butir seperti ini

dapat dipertahankan tetapi sebaiknya

diperiksa ulang pada penggunaan tes

berikutnya.

Rendah Rendah Performansi butir seperti ini buruk dan

seharusnya direvisi atau dikeluarkan

Menurut Reynolds, Livingston, & Willson (2010: 153), maksimum nilai D yang

bisa dicapai pada tingkat kesulitan tertentu adalah sebagaimana tercantum pada Tabel

5.

Tabel 5. Maksimum Nilai D untuk Tingkat Kesulitan Tertentu

Tingkat Kesulitan Maksimum Nilai D

1.00 0.00

0.90 0.20

0.80 0.40

0.70 0.60

0.60 0.70

0.50 1.00

0.40 0.70

0.30 0.60

0.20 0.40

0.10 0.20

0.00 0.00

Untuk Ujian Ketuntasan (Mastery Test) atau Sensitivitas Pembelajaran

(Instructional Sensitivity), ada beberapa formula sebagaimana yang tercantum pada

persamaan (10) yang menurut Crocker & Algina (1986: 330), Haladyna (2004: 215),

Reynolds, Livingston, & Willson (2010: 155-156) dapat digunakan yaitu:

10

a. Formula dari Aiken (2000) dan Popham (2000), yaitu:

= . (12)

b. Formula lainnya yang juga cukup populer yaituPre-to-Post Difference Index (PPDI)

dari Cox & Vargas (1966):

= . (13)

c. Formula dari Aiken (2000), yaitu:

= .

d. Formula Skor Batas Ketuntasan (Mastery Cutoff Score) dari Brennan (1972), yaitu:

=

(14)

Persamaan (14) sebenarnya sama dengan persamaan (7), hanya saja dengan

pemaknaan yang berbeda, dimana U adalah banyaknya peserta tes dengan skor di atas

cutoff yang menjawab dengan benar, sedangkan L adalah banyaknya peserta tes

dengan skor di bawah cutoff yang menjawab dengan benar. Selain itu, adalah

banyaknya peserta tes dengan skor di atas cutoff, sedangan adalah banyaknya

peserta tes dengan skor di atas cutoff.

Menurut Assessment Systems Corporation (2006: 3.15 & 3.17), McDonald (1999:

231-235), selain formula di atas, dapat digunakan korelasi butir-total dan yang paling

umum digunakan adalah korelasi product moment. Keluarga korelasi product moment

ini menurut Hinkle, Wiersma, & Jurs (1979: 96-104), Shultz & Whitney (2005: 194)

adalah korelasi Pearson r, Point-Biserial, Phi, Spearman.

Untuk butir dengan skor dikotomus (binary), menurut Assessment Systems

Corporation (1986: 3.3) dan (2006: 3.5 & 3.13), Ebel & Frisbie (1986: 230), McDonald

(1999: 235), Reynolds, Livingston, &Willson (2010: 154), Shultz & Whitney (2005: 193),

keluarga korelasi product moment yang dapat digunakan adalahkorelasiPoint-Biserial

untuk item dengan skor true dichotomy dan alternatifnya yaitu korelasi Biserial untuk

item dengan skor artificial dichotomy. Hanya saja, menurut Shultz & Whitney (2005:

194) korelasi point-biserial selalu memberikan hasil yang lebih tinggi dibandingkan

11

dengan korelasi biserial. Hal ini dikarenakan skor untuk jawaban benar dan tidak

benar sesungguhnya bukanlah bersifat true dichotomy, tetapi artificial. Dengan

menggunakan korelasi biserial maka terjadi koreksi terhadap sifat artificial tersebut.

Selain itu, Crocker & Algina (1986: 318) Lord & Novick (1968) menyatakan bahwa

hubungan antara korelasi biserial dan point-biserial adalah:

=

.

Dikarenakan Y ordinat pada kurve normal selalu lebih rendah/kecil dari maka nilai

korelasi biserial selalu lebih besar sekitar 1/5 dari nilai korelasi point-biserial.

Penggunaan koefisien D, korelasi Point-Biserial, dan korelasi Biserial berdasarkan

penelitian Beuchert & Mendoza (1979), Englehart (1965), Findley (1956), dan Oosterhof

(1976) menurut Crocker & Algina (1986: 319) dapat dirangkum sebagai berikut:

a. Jika butir memiliki kesulitan moderat, ketiga indeks memberikan hasil yang

relatifsama. Jika mementingkan kemudahan, gunakan indeks D, namun jika

memerlukan signifikansi statistik, gunakan Biserial atau Point-Biserial.

b. Jika butir memiliki kesulitan yang ekstrim, lebih baik digunakan koefisien Biserial

jika asumsi normalitas pada trait yang dikaji berdistribusi normal.

c. Jika peneliti menduga bahwa sampel lain nantinya (prospective group) akan

berbeda kemampuannya dengan sampel yang digunakan sekarang (analysis group),

maka direkomendasikan untuk menggunakan koefisien Biserial.

d. Jika peneliti yakin bahwa sampel lain nantinya akan relatif sama kemampuannya

dengan sampel yang digunakan sekarang, maka direkomendasikan untuk

menggunakan koefisien Point-Biserial.

Tetapi, menurut Henrysson (dalam Thorndike, 1971: 142-143), jika menggunakan

variabel kriteria berupa data dikotomus maka dapat digunakan koefisien korelasi

tetrakorik dan koefisien phi, , sedangkan jika menggunakan variabel kriteria berupa

ranking maka dapat digunakan koefisien korelasi rank biserial.

Berdasarkan beberapa pendapat di atas, untuk data politomus, dapat

digunakan koefisien korelasi Poliserial sebagai pengganti koefisien korelasi Biserial, dan

koefisien korelasi Polikorik sebagai pengganti koefisien korelasi Tetrakorik. Hanya saja

12

menurut McDonald (1999: 232) penggunaan korelasi butir-total memiliki dua masalah,

yaitu:

a. Jika digunakan skor total seluruh butir termasuk butir yang dikaji (item total score),

maka hasil analisisnya bersifat semu (spurious) karena pada skor total terkandung

skor dari butir yang dianalisis, sehingga mengandung korelasi butir dengan dirinya

sendiri. Namun penggunaan skor total seperti ini memberikan kriteria yang sama

bagi setiap butir yang dikaji.

b. Jika digunakan skor total yang sudah dikurangi dengan skor butir yang dikaji (item

reminder score) efek semunya tereliminasi, namun setiap butir memiliki kriteria

yang berbeda.

Dampak penggunaan item total score maupun item reminder score dapat diperkecil jika

menggunaan butir yang semakin banyak. Menurut Shultz & Whitney (2005: 194),

penggunaan korelasi butir-total memerlukan butir yang sebaiknya 20 dan peserta tes

sebanyak 5-10 kali banyaknya butir. Sedangkan Crocker & Algina (1986: 317)

menyarankan banyaknya butir 25. Untuk tes dengan butir yang sedikit, Crocker &

Algina (1986: 317) menyarankan penggunaan korelasi point-biserial yang dikoreksi.

Dalam kaitan daya pembeda dengan sensitivitas pembelajaran untuk kasus

sebagaimana tercantum pada persamaan (13), menurut Crocker & Algina (1986: 330-

331), juga dapat digunakan keluarga korelasi product moment sebagaimana yang

disarankan oleh Berk (1980) yang diderivasi dari Saupe (1966). Untuk melakukan hal ini

perlu diberikan pretest dan posttest pada individu yang sama. Selanjutnya skor posttest

dikurangi dengan skor pretest pada setiap peserta tes pada setiap butirnya untuk

mendapatkan skor perubahan (change score). Hasil pengurangan dimaksud

menghasilkan nilai 1 (gain score), 0 (no gain), atau -1 (loss of gain). Langkah selanjutnya

adalah menghitung total skor perubahan (change score total) dengan formula sebagai

berikut:

=

dengan Y adalah skor total pada posttest X adalah skor total pada pretest.

13

Untuk menentukan daya pembeda butir dilakukan perhitungan korelasi antara skor

perubahan pada masing-masing butir dan skor total perubahan. Hanya saja penerapan

korelasi dengan cara seperti ini lebih mengacu pada rujukan norma (norm reference)

dibandingkan dengan rujukan kriteria (criterion reference).

Untuk kasus sebagaimana tercantum pada persamaan (12), menurut Crocker &

Algina (1986: 331) Milman (1974) menyarankan penggunaan korelasi parsial atau

regresi setapak (stepwise regression).

3. Analisis Pengecoh (Distractor/Foil Analysis)

Menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69 & 273), McDonald

(1999: 19) pengecoh adalah pilihan jawaban yang keliru namun kelihatannya masuk

akal.Sedangkan menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69), Miller (2008:

55) pengecoh menarik bagi peserta tes yang tidak tuntas tetapi tidak membuat bingung

bagi peserta tes yang tuntas. McDonald (1999: 19), Mehrens & Lehmann (1973: 277),

dan Thorndike (2005: 448) selain menyebut pengecoh dengan istilah distractor juga

menyebutnya dengan istilah foil. Tujuan dari dibuatnya suatu pengecoh (distractor atau

foil), menurut Ebel & Frisbie (1986: 176), adalah untuk membedakan antara peserta tes

yang tidak tuntas pada materi yang diujikan dan peserta tes yang tuntas.

Menurut Haladyna (2004: 273) ada tiga alasan perlunya dilakukan analisis

terhadap pengecoh. Pertama, pengecoh adalah bagian dari butir dan ia harus berguna,

jika tidak ia sebaiknya direvisi aatu dibuang. Pengecoh yang tidak berguna akan

berdampak buruk terhadap daya pembeda butir. Kedua, dengan penyekoran

politomus, pengecoh yang berguna akan memberikan kontribusi terhadap penyekoran

yang efektif, yang berdampak positif terhadap reliabilitas skor. Ketiga, dalam konteks

psikologi kognitif, pengecoh berguna sebagai pintu masuk untuk menemukan kesalahan

konsep pada peserta tes.

Menurut Borich & Kubiszyn (2010: 231-234) ada beberapa hal yang perlu

diperhatikan ketika menganalisis pengecoh, yaitu: efektivitas, salah kunci, ambiguitas,

dan penebakan.

a. Efektivitas (Effectivity)

Pengecoh yang efektif menurut Borich & Kubiszyn (2010: 231-232) tidak hanya

dipilih oleh peserta tes, tetapi harus lebih banyak dipilih oleh kelompok bawah. Hal

14

ini dikarenakan peserta tes dari kelompok atas (memiliki kemampuan yang lebih

tinggi) semestinya hanya sedikit yang terkecoh oleh pengecoh tertentu

dibandingkan dengan peserta tes dari kelompok bawah (memiliki kemampuan yang

lebih rendah). Hal ini sejalan dengan pendapat Miller, Linn, & Gronlund (2009: 357)

yang menyatakan bahwa pengecoh yang baik menarik lebih banyak peserta test

dari kelompok bawah dibandingkan dengan kelompok atas.

Berdasarkan dua pendapat di atas dapat dinyatakan bahwa pengecoh tidak

berfungsi dengan baik (tidak efektif) jika tidak dipilih oleh peserta tes. Selain itu,

meski pengecoh dipilih oleh peserta tes, ia juga dikatakan tidak efektif jikalebih

banyak dipilih oleh peserta test dari kelompok atas dibandingkan dengan kelompok

bawah.

b. Salah Kunci (Miskeying)

Menurut Borich & Kubiszyn (2010: 232-233) indikasi salah kunci terjadi jika peserta

tes dari kelompok atas lebih banyak memilih suatu distraktor dibandingkan dengan

pilihan yang ditetapkan sebagai kunci jawaban.

c. Ambiguitas (Ambiguity)

Menurut Borich & Kubiszyn (2010: 233) indikasi ambiguitas terjadi jika peserta tes

dari kelompok atas memilih suatu distraktor kurang lebih sama frekuensinya

dengan pilihan yang ditetapkan sebagai kunci jawaban.

d. Penebakan (Guessing)

Menurut Borich & Kubiszyn (2010: 233) terjadinya penebakan terindikasi dari

peserta tes dari kelompok atas yang memilih seluruh pilihan jawaban (distraktor

maupun pilihan yang ditetapkan sebagai kunci jawaban) dengan frekuensi yang

relatif seimbang.

Menurut Haladyna (2004: 218-228) metode-metode yang dapat digunakan

untuk mengkaji performansi pengecoh pada dasarnya dapat dikelompokkan menjadi

tiga, yaitu: menggunakan Metode Tabular, Metode Grafikal, dan Metode Statistikal.

Metode Statistikal yang dapat digunakan adalah Statistika deskriptif dan Statistia

Inferensial baik Parametrik maupun Nonparametrik. Adapun manfaatnya adalah: a)

merampingkan butir yang gemuk/kelebihan pilihan jawaban, b) memperbaiki butir-butir

tes, c) mendeteksi penyebab munculnya masalah-masalah performansi, d) kajian

15

tambahan untuk proses kognitif, e) keberbedaan fungsi pengecoh (differential

distractor functioning).

Referensi

Assessment System Corporation. (2006). Usersmanual for the ITEMAN: Conventional item analysis program.

______________. (1986). Usersmanual for ITEMAN, RASCAL, and ASCAL. Borich, G., & Kubiszyn, T. (2010). Educational testing & measurement: Classroom application

and practice. Danvers, MA: John Wiley & Sons, Inc. Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York,

NY: CBS College Publishing. Ebel, R. L., & Frisbie, D. A. (1986). Essentials of educational measurement. Englewood Cliffs,

NJ: Prentice Hall, Inc. Gulliksen, H. (1950). Theory of mental tests. New York, NY: John Wiley & Sons. Inc. Haladyna, T. M. (2004). Developing and validating multiple-choice test items. (3rded.).

Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Henrysson, S. (1971). Gathering, analyzing, and using data on test items. In R. L. Thorndike

(Ed.). Educational measurement (pp. 130-159). (2nded.). Washington, DC: American Council on Education.

Hinkle, D. E., Wiersma, W., & Jurs, S. G. (1979). Applied statistics for the behavioral sciences.

Boston, MA: Houghton & Mifflin Company. McDonald, R. P. (1999), Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum

Associates, Publishers. Mehrens, W. A., & Lehmann, I. J. (1973). Measurement and evaluation in education and

psychology. New York, NY: Holt, Rinehart & Winston, Inc. Miller, M. D., Linn, R. L., & Gronlund, N. E. (2009). Measurement and assessment in

teaching. (10thed.). Upper Saddle River, NJ: Pearson Education, Inc. Miller, P. W. (2008). Measurement and teaching. Munster, IN: Patrick W. Miller &

Associates. Reynolds, C. R., Livingston, R. B., &Willson, V. (2010). Measurement and assessment in

education. (2nded.). Boston, MA: Pearson Education, Inc.

16

Shultz, K. S. & Whitney, D. J. (2005). Measurement theory in action: Case studies and exercises. Thousand Oaks, CA: Sage Publications, Inc.

Thorndike, R. M. (2005). Measurement and evaluation in psychology and education. (7thed.).

Upper Saddle River, NJ: Pearson Education, Inc.

Indeks Kesulitan & Daya Pembeda

Documents