Page 1
| Validitas, Reliabilitas, Analisis Butir | 1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kelemahan pokok butir soal buatan guru ialah konstruksinya kurang
tersusun secara baik. Kelemahan ini terutama disebabkan oleh sempitnya
waktu yang tersedia pada guru untuk menyusun butir dan perangkat soal
yang mutunya dapat dipertanggungjawabkan. Di samping itu masih banyak
juga guru yang memang kurang terlatih untuk menyusun butir dan perangkat
soal. Sebagai akibat kelemahan ini ialah banyak butir soal yang digunakan
tidak dapat mengukur aspek hasil belajar yang diharapkan untuk dapat
diukur. Untuk mengurangi kelemahan ini, maka setiap guru diharapkan
memiliki pengetahuan dan kemampuan untuk menilai butir dan perangkat
soal yang digunakan.
Kemampuan ini menjadi lebih penting bagi guru-guru sekolah di
Indonesia, karena kita belum terbiasa untuk menggunakan butir tes baku.
Bahkan di Indonesia belum ada tes baku yang dapat diperoleh dengan
mudah oleh para pekerja professional, karena memang belum ada badan-
badan pengembang tes baku yang menyediakan tes hasil belajar secara
komersial. Di beberapa Negara maju hal ini tidak terlalu menjadi masalah,
karena telah tumbuh berbagai badan dan lembaga yang mengembangkan tes
baku secara komersil. Yang ditumbuhkan ialah setiap guru haruslah
memenuhi persyaratan untuk dapat membeli dan menggunakan tes baku
tersebut. Persyaratan tersebut adalah latar belakang pendidikan yang
dipunyai oleh guru, dan pengakuan organisasi professional akan kemampuan
guru itu untuk dapat menggunakan tes baku untuk level tertentu.
Kenyataan ini memperkuat alasan akan keharusan bagi setiap guru
untuk dapat mengembangkan butir dan perangkat tesnya sendiri yang secara
akademik dapat dipertanggungjawabkan sebagai alat ukur keberhasilan
belajar. Kemampuan itu harus pula disertai dengan kemampuan
Page 2
| Validitas, Reliabilitas, Analisis Butir | 2
menganalisis butir dan perangkat soal, sehingga setiap butir dan perangkat
soal yang digunakan benar-benar merupakan perangkat alat ukur yang baik
dan terpercaya.
Dalam makalah ini akan dibahas berbagai aspek yang secara
langsung dapat mengetahui kualitas butir dan perangkat soal. Aspek-aspek
tersebut mencakup (1) alasan yang menyebabkan perlu dilakukan analisis
butir soal, (2) karakteristik dan spesifikasi butir soal, (3) analisis butir soal,
(4) validitas soal, dan (5) reliabilitas soal.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, adapun masalah yang akan dibahas di
makalah ini yaitu:
1.2.1 Apakah yang dimaksud dengan Validitas?
1.2.2 Apakah yang dimaksud dengan Reliabilitas?
1.2.3 Apakah yang dimaksud dengan Analisis Butir?
1.3 Tujuan Penulisan
Adapun tujuan dari penulisan makalah ini yaitu untuk mengetahui:
1.3.1 Untuk mengetahui pengertian Validitas.
1.3.2 Untuk mengetahui pengertian Reliabilitas.
1.3.3 Untuk mengetahui pengertian Analisis Butir.
Page 3
| Validitas, Reliabilitas, Analisis Butir | 3
BAB II
PEMBAHASAN
2.1 Validitas
A. Pengertian Validitas
Validitas berasal dari bahasa Inggris dari kata validity yang berarti
keabsahan atau kebenaran. Dalam konteks alat ukur atau instrumen asesmen,
validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam
melakukan fungsi ukurnya. Sebuah instrumen yang valid akan menghasilkan data
yang tepat seperti yang diinginkan. Sebagai contoh, jika kita ingin mengetahui
berat maka alat ukur yang tepat adalah timbangan atau neraca bukan meteran,
termometer, atau alat yang lain. Dengan kata lain, sifat valid memberikan
pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang
sesungguhnya dari apa yang diinginkan.
Validitas sangat berkaitan dengan tujuan pengukuran. Validitas tidak
berlaku secara umum bagi semua pengukuran. Suatu tes mempunyai hasil ukuran
yang baik (valid) untuk suatu tujuan tertentu yang sepesifik tetapi tidak valid
untuk tujuan yang lain atau bahkan untuk tujuan yang sama pada kelompok yang
lain.
Linn & Gronlund (2000) mengemukakan hakikat validitas tes dan
asesmen sebagai berikut.
1. Validitas menyatakan ketepatan interpretasi hasil bukan pada prosedurnya.
2. Validitas merupakan persoalan yang berkaitan dengan derajat (tingkatan),
sebagai konsekuensinya kita harus menghindari pemikiran hasil asesmen
sebagai valid atau tidak valid. Oleh karena validitas adalah persoalan derajat
maka sebuah instrumen dapat dikategorikan mempunyai derajat validitas
tinggi, sedang, dan rendah.
3. Validitas selalu bersifat khusus untuk penggunaan atau interpretasi tertentu.
Tidak ada asesmen yang valid untuk semua tujuan. Sebagai contoh, hasil tes
aritmatika mungkin mempunyai tingkat validitas yang tinggi untuk
Page 4
| Validitas, Reliabilitas, Analisis Butir | 4
kemampuan hitung, validitas yang rendah untuk alasan-alasan aritmatika,
dan mempunyai derajat validitas sedang untuk memprediksi kesuksesan
prestasi matematika yang akan datang.
4. Validitas merupakan kesatuan konsep. Hakikat konsep validitas dipandang
sebagai sebuah kesatuan konsep berdasarkan berbagai macam bagian dari
fakta.
5. Validitas melibatkan sebuah keputusan evaluatif yang menyeluruh.
B. Macam-macam Validitas
Macam-macam Validitas, antara lain :
1) Validitas Isi (Content Validity)
Validitas isi disebut juga validitas kurikuler. Oleh karena itu, validitas ini
erat kaitannya dengan materi yang akan diukur dalam tes. Tentu saja materi
yang dimaksud adalah materi yang terdapat dalam kurikulum. Validitas isi
mencerminkan sejauh mana butir-butir dalam tes mencerminkan materi yang
disajikan dalam kurikulum. Sebuah tes dikatakan memiliki validitas isi jika
butir-butir tes bersifat representatif terhadap isi materi dalam kurikulum
tersebut. Pengujian validitas isi tidak melalui prosedur pengujian secara
statistik, melainkan melalui analisis secara rasional. Pengetahuan terhadap
kurikulum menjadi dasar berpijak yang penting untuk dapat melakukan
analisis validitas isi. Cara yang praktis untuk melakukan analisis validitas isi
adalah dengan melihat apakah butir-butir tes telah disusun sesuai dengan
blue-print (kisi-kisi) yang sudah dirancang sebelumnya. Blue print menjadi
acuan dalam menuangkan domain atau ranah dan indikator yang akan diukur
dalam tes.
2) Validitas Konstruk (Construct Validity)
Validitas konstruk adalah validitas yang menyangkut bangunan teoretik
variabel yang akan diukur. Sebuah tes dikatakan mempunyai validitas
konstruk apabila butir-butir soal yang disusun dalam tes mengukur setiap
aspek berpikir dari sebuah variabel yang akan diukur melalui tes tersebut.
Page 5
| Validitas, Reliabilitas, Analisis Butir | 5
Seperti halnya validitas isi, untuk mempertinggi validitas konstruk dapat
dilakukan dengan cara memerinci dan memasangkan setiap butir soal
dengan setiap aspek. Pengujian validitas konstruk diperlukan analisis
statistik yang kompleks seperti prosedur analisis faktor. Salah satu prosedur
pengujian validitas konstruk yang tidak terlalu kompleks dapat dilakukan
dengan pendekatan multi-trait multi-method. Dua atau lebih trait yang
diukur melalui dua atau lebih metode dapat diuji secara serentak dengan
pendekatan ini, sehingga akan diperoleh bukti adanya validitas diskriminan
dan validitas konvergen. Validitas diskriminan ditunjukkan oleh rendahnya
korelasi antara faktor skala atau tes yang mengukur trait yang berbeda
terutama bila digunakan metode yang sama. Validitas konvergen
ditunjukkan oleh tingginya korelasi skor tes-tes yang mengukur trait yang
sama dengan menggunakan metode yang berbeda.
3) Validitas Berdasarkan Kriteria
Sesuai dengan namanya, validitas ini didasarkan pada kriteria tertentu.
Dengan demikian bukti adanya validitas ditunjukkan adanya hubungan
korelasional skor pada tes yang bersangkutan dengan skor suatu kriteria.
Pengujian validitas ini bersifat empirik, artinya pengujian hanya dapat
dilakukan setelah mendapatkan data di lapangan. Apabila berdasarkan hasil
analisis yang dilakukan terhadap data hasil pengamatan di lapangan terbukti
bahwa tes hasil belajar dapat mengukur hasil belajar yang seharusnya
diungkap secara tepat maka berarti alat tes tersebut mempunyai validitas
empirik. Untuk keperluan pengujian jenis validitas ini dapat dilakukan
dengan dua cara yaitu dari segi kemampuannya dalam melakukan ramalan
(predictive validity) serta daya ketepatan bandingannya (concurent validity).
Perbedaan utama antara validitas ramalan dengan validitas bandingan adalah
ketersediaan pembanding (kriterium). Pada validitas ramalan, kriterium
diperoleh pada waktu yang akan datang setelah dilakukan tes yang akan
diukur validitasnya tersebut. Sedangkan pada validitas bandingan, kriterium
sudah ada atau dapat diperoleh pada saat yang sama dengan waktu untuk
Page 6
| Validitas, Reliabilitas, Analisis Butir | 6
memperoleh data tentang tes yang akan diukur validitasnya tersebut tanpa
harus menunggu masa yang akan datang.
a) Validitas ramalan (predictive validity)
Sebagai ilustrasi adalah adanya tes masuk Perguruan Tinggi Negeri.
Setelah melalui serangkaian tes maka hanya calon mahasiswa yang
mempunyai skor tinggi yang diterima oleh panitia seleksi mahasiswa
baru. Sesungguhnya keputusan panitia seleksi yang hanya menerima
mahasiswa yang mempunyai skor tinggi saja berarti sudah
memprediksikan bahwa calon mahasiswa dengan skor tinggi tersebut
kelak yang akan lebih berhasil dalam studinya. Sedangkan para calon
mahasiswa yang mempunyai skor sedang apalagi rendah diprediksikan
akan banyak menemui kendala dalam studinya. Oleh karena itu tes yang
digunakan dalam seleksi calon mahasiwa baru tersebut akan mempunyai
tingkat validitas prediktif yang tinggi apabila secara empirik terbukti
bahwa prestasi belajar mereka juga baik. Dengan demikian antara skor
tes masuk dengan prestasi belajar harus mempunyai korelasi yang
positif.
Pada kasus di atas, yang dipermasalahkan validitasnya adalah tes masuk.
Oleh karena itu hasil belajar pada masa perkuliahan digunakan sebagai
tolok ukur (kriterium). Adanya kesejajaran, kesesuaian, kesamaan arah
antara tes seleksi masuk dengan hasil belajar mempunyai korelasi yang
positif.
b) Validitas bandingan (Concurent Validity)
Validitas ini sering pula disebut sebagai validitas ada sekarang, validitas
sama saat, validitas pengalaman, dan validitas empiris. Disebut sebagai
validitas ada sekarang karena pengujiannya berdasarkan pengalaman
yang saat ini sudah ada di tangan. Disebut sebagai validitas sama saat
karena validitas ini segera dapat kita peroleh informasinya pada saat
yang sama dengan waktu diperolehnya data hasil tes yang diukur
validitasnya tersebut. Disebut validitas pengalaman (empiris) karena
Page 7
| Validitas, Reliabilitas, Analisis Butir | 7
validitas ini dikaitkan dengan pengalaman yang sudah ada. Dalam hal ini
pengalaman digunakan sebagai kriterium.
Guna menentukan validitas bandingan ini tidak perlu menunggu waktu
untuk membuktikannya. Seperti disebutkan pada alenia di atas bahwa
yang berfungsi sebagai kriterium adalah data hasil pengalaman. Apabila
data dari tes yang ada sekarang mempunyai hubungan yang searah
dengan data hasil pengalaman maka dikatakan telah mempunyai
validitas bandingan.
C. Faktor-faktor yang Mempengaruhi Validitas
Faktor-faktor yang mempengaruhi validitas, antara lain :
1. Faktor dari dalam tes itu sendiri
a. Petunjuk yang tidak jelas.
Petunjuk yang tidak jelas menyebabkan siswa kehilangan waktu untuk
sekedar memahami petunjuk pengerjaan atau bahkan tidak dapat
melakukan apa yang seharusnya dilakukan.
b. Penggunaan kosa kata dan struktur kalimat yang sulit.
Penggunaan kosa kata atau struktur kalimat yang sulit dapat
menyebabkan siswa terjebak untuk pemahaman terhadap pemahaman
maksud dari sebuah pertanyaan bukan untuk menyelesaikan pertanyaan
itu sendiri.
c. Ambiguitas.
Ambiguitas yaitu adanya kemungkinan multi tafsir juga menyebabkan
menurunnya validitas sebuah tes.
d. Alokasi waktu yang tidak cukup.
Seharusnya sebuah tes disediakan waktu yang cukup untuk mengerjakan
seluruh butir tes yang ada. Kekurangan waktu dalam menyelesaikan
sebuah tes bisa jadi bukan karena siswa tidak mampu untuk
menyelesaikan tesnya tetapi karena keterbatasan kesempatan untuk
mengerjakannya.
Page 8
| Validitas, Reliabilitas, Analisis Butir | 8
e. Penekanan yang berlebihan terhadap aspek tertentu, sehingga terlalu
mudah ditebak kecenderungan dari jawaban soal akan menyebabkan
menurunnya tingkat validitas soal.
f. Kualitas butir tes yang tidak memadai untuk mengukur hasil belajar.
Kualitas yang tidak memadai misalnya tes dimaksudkan untuk megukur
kemampuan berpikir tingkat tinggi (higher order thinking) jelas tidak
cukup hanya digunakan tes yang bersifat untuk mengungkap
pengetahuan faktual saja.
g. Susunan tes yang jelek.
h. Tes terlalu pendek.
i. Penyusunan butir tes yang tidak runtut .
j. Pola jawaban yang mudah ditebak, misalnya pada soal pilihan ganda
jawabannya adalah A semua, atau B semua atau menunjukkan pola
tertentu misalnya D, C, B, A, D, C, B, A, dan sebagainya.
2. Faktor berfungsinya tes dan prosedur mengajar.
Pemberian skor terhadap jawaban siswa (testee) harus dilakukan secara
hati-hati jangan sampai salah tulis atau meremehkan selisih angka walaupun
hanya sedikit. Hal ini akan menyebabkan hasil pengujian terhadap validitas
akan memberikan makna yang berbeda.
3. Faktor administrasi dan penskoran.
Tanggapan siswa yang tidak serius biasanya dijumpai pada saat siswa
diminta untuk mengisi sebuah angket. Hal ini akan menyebabkan siswa
mengisi angket secara sembarangan karena merasa tidak penting maupun
alasan-alasan yang lain. Oleh karena itu berikan angket pada waktu dan
kondisi yang tepat .
4. Faktor tanggapan siswa.
5. Hakekat kelompok dan criteria
Seperti sudah dijelaskan di atas bahwa validitas bersifat spesifik. Sebuah
asesmen atau instrumen alat ukur mungkin hanya valid untuk kelompok
tertentu saja dan tidak valid untuk kelompok yang lain. Sebagai contoh
Page 9
| Validitas, Reliabilitas, Analisis Butir | 9
misalnya sebuah tes diujicobakan pada sekelompok siswa pada sebuah
sekolah dengan kualitas biasa-biasa saja tentu akan berbeda hasilnya jika tes
yang sama diberikan pada sekelompok siswa pada sekolah yang favorit.
2.2 Reliabilitas
A. Pengertian Reliabilitas
Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat
dipercaya (tahan uji). Sebuah tes dikatakan mempunyai reliabilitas yang tinggi
jika tes terebut memberikan data hasil yang ajeg (tetap) walaupun diberikan pada
waktu yang berbeda kepada responden yang sama. Hasil tes yang tetap atau
seandainya berubah maka perubahan itu tidak signifikan maka tes tersebut
dikatakan reliabel. Oleh karena itu reliabilitas sering disebut dengan
keterpercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya.
Sebuah alat ukur yang baik harus valid dan reliabel. Namun demikian
validitas lebih penting dibandingkan dengan reliabilitas. Reliabilitas merupakan
penyokong validitas. Sebuah alat ukur yang valid selalu reliabel. Akan tetapi alat
ukur yang reliabel belum tentu valid, seperti digambarkan pada ilustrasi gambar.
B. Metode Mencari Koefisien Reliabilitas
Seperti halnya validitas, reliabilitas juga merupakan tingkatan. Tingkat atau
kadar reliabilitas dinyatakan dengan koefisien reliabilitas.
Berikut ini akan dibahas macam-macam metode mencari besarnya koefisien
reliabilitas.
Page 10
| Validitas, Reliabilitas, Analisis Butir | 10
1) Metode Tes Ulang (Test Retest Method)
Metode ini diterapkan untuk menghindari adanya penyusunan dua seri tes.
Teknisnya adalah sebuah tes yang sama diberikan dua kali kepada responden
yang sama dengan jarak waktu tertentu. Jika hasil tes pertama mempunyai
kesejajaran dengan hasil tes yang kedua maka tes tersbut dikatakan reliable.
Oleh karena pengujian ini dilakukan terhadap sebuah tes yang diujicobakan
dua kali maka sering disebut pula sebagai single-test-double-trial-method.
Kelemahan metode ini adalah jika jeda waktu tes terlalu singkat sedangkan
soal tes banyak mengungkapkan aspek pengetahuan maka responden
cenderung masih mengingat materi yang diteskan, sehingga ada
kemungkinan hasil tes yang kedua lebih baik daripada hasil tes pertama.
Sebaliknya jika jeda waktu tes pertama dengan kedua terlalu lama
dikhawatirkan banyak faktor serta situasi dan kondisi sudah banyak berubah
dan mempengaruhi hasil tes yang kedua.
2) Metode Tes Sejajar (Equivalent)
Metode ini mengharuskan adanya dua buah seri soal yang mempunyai
kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetapi butir-
butir soalnya berbeda. Dengan kata lain, dua buah tes yang digunakan harus
sejajar (paralel, equivalen). Koefisien reliabilitas diperoleh dengan
mengkorelasikan hasil tes pertama dengan hasil tes kedua. Oleh karena
metode ini menggunakan dua buah tes yang berbeda dan diteskan pada siswa
yang sama maka disebut juga doublé test – double – trial – method. Sudah
tentu metode ini akan menambah kerepotan.
Kelebihan dari metode ini adalah dapat memperbaiki kelemahan pada metode
pertama yaitu terhindarnya dari kondisi “siswa masih mengingat materi tes
pertama”. Aspek ingatan dan hafalan pada pengerjaan tes pertama
tidakterbawa pada saat mengerjakan tes yang kedua.
3) Metode Tes Tunggal (Single Test – Single Trial)
Metode tes tunggal dilihat dari kepraktisannya lebih praktis dari pada dua
metode sebelumnya. Metode ini hanya melakukan sekali tes kepada
Page 11
| Validitas, Reliabilitas, Analisis Butir | 11
sekelompok subjek. Dengan demikian tidak perlu menunggu waktu maupun
harus mempunyai data dari tes sejenis untuk dapat menentukan
reliabilitasnya.
C. Menentukan Koefisien Reliabilitas dengan Metode Tes Tunggal
a) Formula Kuder Richardson (KR20)
Formula KR20 dapat diterapkan pada instrumen yang mempunyai data skor
dikotomi dari tes yang seolah-olah dibagi-bagi menjadi belahan sebanyak
butir yang dimiliki. Hasil perhitungan dengan rumus KR20 lebih teliti, tetapi
perhitungan lebih rumit.
Rumus:
Keterangan:
= koefisien reliabilitas
n = banyaknya butir soal
= varians skor total
p = proporsi subjek yang menjawab soal secara benar
q = proporsi subjek yang menjawab soal secara salah (q = 1 – p)
b) Formula Kuder Richardson (KR21)
Formula KR21 lebih sederhana dalam perhitungannya. Kelemahannya adalah
kurang teliti dibandingkan dengan KR20.
Rumusnya :
Keterangan:
= koefisien reliabilitas
n = banyaknya butir soal
1 = bilangan konstan
= mean total (rata-rata hitung dari skor total)
= varian total
(
) (
∑
)
(
)(
)
Page 12
| Validitas, Reliabilitas, Analisis Butir | 12
c) Formula Spearman-Brown
Formula Spearman-Brown hanya dapat diterapkan pada soal yang mempunyai
jumlah butir genap. Formula ini menggunakan teknik belah dua ( split half
method), yaitu soal dibelah menjadi 2 bagian (belahan ganjil dan belahan
genap atau belahan kiri dengan belahan kanan ). Kedua belahan tersebut
sejajar.
Rumus :
Keterangan:
= koefisien reliabilitas
= koefisien korelasi product moment antara skor belahan satu dengan skor
belahan yang lain
1 & 2 = bilangan konstan
c) Formula Rulon
Formula Rulon ini juga dapat diterapkan dengan belah dua (split half method)
seperti halnya pada formula Spearman-Brown. Hanya saja cara pandangnya
terhadap reliabilitas berbeda dengan Spearman-Brown. Menurut Rulon
reliabilitas dapat dipandang dari adanya selisih skor yang diperoleh oleh
responden pada belahan pertama dengan belahan kedua. Selisih tersebut yang
menjadi sumber variasi error sehingga bila dibandingkan dengan variasi skor
akan dapat menjadi dasar untuk melakukan estimasi reliabilitas tes.
Rumus :
Keterangan :
= koefisien reliabilitas
= varians perbedaan skor belahan
= varians skor total
1 = bilangan konstan
Page 13
| Validitas, Reliabilitas, Analisis Butir | 13
d) Formula Alpha
Formula-formula di atas (Spearman-Brown, KR, Rulon) hanya berlaku untuk
soal objektif yang mempunyai kemungkinan jawaban benar dan salah.
Sedangkan untuk soal yang mempunyai gradualitas skor jawaban misalnya
pada soal uraian ataupun pada angket (tes sikap) formula yang paling pas
adalah dengan menggunakan Formula Alpha. Hal ini dimungkinkan karena
Formula Alpha mengakomodasi adanya variasi skor dalam setiap butir soal.
Rumus :
Keterangan :
= koefisien reliabilitas
= varians skor tiap-tiap butir soal
= varians skor total
1 = bilangan konstan
e) Formula C. Hoyt
Berbeda dengan formula-formula yang lain, C. Hoyt memandang bahwa
sebuah tes dapat dipandang sebagai sebuah interaksi faktorial di mana skor-
skor tes dianggap sebagai hasil eksperimen. Dalam hal ini, berlaku sebagai
faktor I adalah subjek (responden) sedangkan faktor II adalah butir soal.
Dengan demikian masing-masing sel terdiri atas satu subjek, untuk
selanjutnya dapat dicari interaksi antara subjek dengan butir soal.
Kelebihan formula ini adalah dapat diterapkan baik pada soal yang
mempunyai skor dikotomi 1 dan 0 maupun pada soal yang mempunyai variasi
skor pada butirnya (tes sikap maupun tes uraian).
Rumus :
(
)(
∑
∑ )
Page 14
| Validitas, Reliabilitas, Analisis Butir | 14
Keterangan :
= koefisien reliabilitas
= mean kuadrat interaksi antara subjek dengan butir soal
= mean kuadrat antarsubjek
1 = bilangan konstan
f) Formula Flanagan
Reliabilitas pada formula Flanagan tidak didasarkan pada ada tidaknya
korelasi antara belahan I dengan belahan II. Dasar dari formula Flanagan
adalah jumlah kuadrat deviasi (varians) pada tes belahan I, jumlah kuadrat
(varians) deviasi pada tes belahan II, dan jumlah kuadrat deviasi (varians) skor
total.
Rumus :
Keterangan:
= koefisien reliabilitas
= varians skor belahan 1
= varians skor belahan 2
= varians skor total
2 & 1 = bilangan konstan
D. Faktor-faktor yang Mempengaruhi Reliabilitas
1. Jumlah butir tes
Umumnya semakin besar jumlah butir soal tes samakin tinggi pula
reliabilitasnya. Hal ini terjadi karena semakin panjang tes (semakin banyak
butir soal) sehingga semakin banyak perilaku yang terukur dengan lebih
tepat. Skorskor yang diperoleh tepat dan kemungkinan sedikit mengalami
penyimpangan (distorsi) oleh adanya faktor -faktor yang sudah biasa dikenal
dengan sebuah tes yang diberikan atau kurangnya pemahaman terhadap apa
yang diharapkan pada sebuah tes yang diberikan.
(
)
Page 15
| Validitas, Reliabilitas, Analisis Butir | 15
2. Penyebaran skor
Sebagai catatan awal, koefisien reliabilitas secara langsung dipengaruhi oleh
penyebaran skor dalam kelompok yang diukur. Hal-hal lain menjadi sama,
semakin besar penyebaran skor maka semakin besar pula indeks reliabilitas
yang diperoleh. Karena semakin besar indeks reliabilitas yang dihasilkan
ketika individu-individu berada pada posisi yang relatif sama dalam sebuah
kelompok sebuah asesmen dengan asesmen yang lain, hal ini secara alami
mengikuti bahwa segala sesuatu yang mengurangi kemungkinan bergeser
nya posisi dalam kelompok juga turut andil dalam memperbesar koefisien
reliabilitas. Dalam kasus ini, semakin besar perbedaan skor individu
mengurangi kemungkinan pergeseran pososi. Dengan kata lain kesalahan
dalam pengukuran kurang berpengaruh terhadap posisi relatif individu
ketika perbedaan -perbedaan di antara anggota - anggota kelompok yang
besar. Hal ini terjadi ketika skornya tersebar luas.
3. Objektivitas
Objektivitas sebuah alat ukur menyatakan derajad untuk pemberi skor
kompeten yang sama mendapatkan ha sil yang sama. Sebagian besar tes
bakat dan tes prestasi standar mempunyai objektivitas yang tinggi. Butir-
butir skor tes objektif seperti pilihan ganda dan skor yang dihasilkan tidak
dipengaruhi oleh keputusan dan pendapat pemberi skor. Semakin tinggi
tingkat objektivitas tes semakin tinggi pula tingkat reliabilitasnya.
4. Metode estimasi reliabilitas
Saat menguji koefisien reliabilitas tes standar, memutuskan metode yang
digunakan untuk menentukan besarnya koefisien reliabilitas merupakan hal
yang penting. Secara umum, besarnya koefisien reliabilitas berkaitan erat
dengan metode yang digunakan untuk estimasi reliabilitas.
Page 16
| Validitas, Reliabilitas, Analisis Butir | 16
2.3 Analisis Butir
A. Pengertian Analisis Butir
Analisis butir adalah proses menguji respom-respon siswa untuk masing-
masing butir tes dalam upaya menjustifikasi kualitas item. Kualitas item,
khususnya direpresentasi oleh daya beda item, tingkat kesukaran item, dan
khusus untuk tes pilihan ganda tidak kalah pentingnya adalah keefektifan
pengecoh.
Ada beberapa alasan mengapa diperlukan analisis butir soal. Alasan tersebut
antara lain :
a. Untuk dapat mengetahui kekuatan dan kelemahan butir tes, sehingga dapat
dilakukan seleksi dan revisi butir soal.
b. Untuk tersedianya informasi tentang spesifikasi butir soal secara lengkap,
sehingga akan lebih memudahkan bagi guru menyusun perangkat soal yang
akan memenuhi kebutuhan ujian dalam bidang dan tingkat tertentu.
c. Untuk segera dapat diketahui masalah yang terkandung dalam butir soal,
seperti : kemenduaan butir soal, kesalahan meletakkan kunci jawaban, soal
yang terlalu sukar atau terlalu mudah, atau soal yang tidak dapat
membedakan antara siswa yang mempersiapkan diri secara baik atau tidak
dalam menghadapi tes. Masalah ini bila dapat diketahui dengan segera,
maka memungkinkan guru untuk mengambil keputusan apakah butir soal
yang bermasalah itu akan digugurkan atau tidak dalam menentukan nilai
siswa.
d. Untuk dijadikan alat guna menilai butir soal yang akan disimpan dalam
kumpulan soal atau bank soal. Kegiatan mengumpulan butir soal yang baik
menjadi kumpulan soal atau bank soal merupakan hal yang dianjurkan
kepada guru. Bila seorang guru telah memiliki sejumlah besar butir soal
yang baik, maka ia dengan mudah dapat menyusun suatu perangkat soal
yang baik untuk digunakan dalam suatu tes. Dengan demikian guru tersebut
tidak perlu khawatir akan mutu butir soal yang digunakannya, karena semua
Page 17
| Validitas, Reliabilitas, Analisis Butir | 17
butir soal yang dipakai dalam ujian tersebut telah diketahui karakteristik dan
spesifikasinya sebelum ujian dilakukan.
e. Untuk memperoleh informasi tentang butir soal sehingga memungkinkan
untuk menyusun beberapa perangkat soal yang parallel. Penyusunan
perangkat seperti ini sangat bermanfaat bila akan melakukan ujian ulang
atau mengukur kemampuan beberapa kelompok peserta tes dalam waktu
yang berbeda.
B. Karakteristik Butir Soal
Karakteristik butir soal ialah parameter kuantitatif butir soal. Dalam
bidang tes dan pengukuran, dikenal beberapa parameter butir soal. Untuk tes
hasil belajar umumnya dipertimbangkan 3 karakteristik butir soal, yaitu :
1. Tingkat Kesukaran
Yang dimaksud tingkat kesukaran butir soal ialah proporsi peserta tes
menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal
biasanya dilambangkan dengan p. makin besar nilai p (yang berarti butir soal
itu makin mudah. Tingkat kesukaran butir soal berkisar makin besar proporsi
yang menjawab benar terhadap butir soal tersebut.), maka makin rendah
tingkat kesukaran butir soal tersebut. Yang berarti antara 0.0 sampai dengan
1.0. butir soal yang mempunyai tingkat kesukaran 0.0 berarti tidak seorang
pun peserta tes dapat menjawab butir soal tersebut secara benar. Tingkat
kesukaran 1.0 berarti bahwa semua peserta tes dapat menjawab butir soal
tersebut secara benar. Rumus untuk menghitung tingkat kesukaran ialah :
2. Daya Beda
Daya beda butir soal ialah indeks yang menunjukkan tingkat kemampuan
butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas)
dari kelompok yang berprestasi rendah (kelompok bawah) di antara para
peserta tes. Secara lebih singkat daya beda dapat didefinisikan sebagai
Page 18
| Validitas, Reliabilitas, Analisis Butir | 18
kemampuan butir soal untuk membedakan kemampuan antar individu
peserta tes. Karena daya beda dihitung dari hasil tes kelompok peserta ujian
tertentu, maka dalam penafsiran daya beda pun haruslah selalu dikaitkan
dengan kelompok peserta tes (kelompok sampel) tertentu itu. Daya beda
suatu butir soal yang didasarkan pada hasil tes suatu kelompok belum tentu
akan berlaku pada kelompok peserta tes itu sangat berbeda.
3. Tingkat Penerkaan
Setiap jawaban butir soal tipe objektif mengandung kemungkinan sebagai
hasil terkaan atau tebakan. Tingkat penerkaan adalah indeks yang
menunjukkan probabilitas jawaban merupakan.hasil terkaan atau tebakan.
Tingkat penerkaan itu adalah satu per jumlah option dalam butir soal itu.
Bila butir soal itu mempunyai dua option (B – S), maka tingkat
penerkaannya adalah 0.50. Bila butir soal itu mempunyai tiga option, maka
tingkat penerkaannya adalah 0.33, Untuk butir soal dengan empat option
tingkat penerkaannya adalah 0.25. Dan butir soal yang mempunyai 5 option,
tingkat penerkaannya adalah 0.20. Prinsipnya ialah makin kecil tingkat
penebakan, makin baik butir soal tersebut. Tetapi butir soal yang terlalu
banyak optionnya juga bukan merupakan butir soal yang baik konstruksinya.
Karena itu ada semacam kesepakatan di antara para penulis buku tes dan
pengukuran bahwa jumlah option yang baik adalah berkisar antara empat
atau lima saja.
C. Interpretasi Data Analisis Butir
Beberapa interpretasi yang dapat ditampilkan terkait dengan data analisis
butir, adalah sebagai berikut.
1. Data analisis butir tidak analog dengan validitas butir.
Tes-tes psikologi seyogyanya memperhitungkan validitas butir, seperti
construct validity. Namun, untuk tes hasil belajar, meneliti konsistensi
internal butir tampak lebih penting dibandingkan menganalisis validitasnya.
Hal ini karena tes hasil belajar lebih menyandarkan diri pada validitas isi.
Page 19
| Validitas, Reliabilitas, Analisis Butir | 19
Jadi kriteria internal menjadi lebih penting untuk diperhitungkan. Kriteria
internal mendasarkan diri pada skor total tes.
2. Indesk Dayabeda Butir tidak selalu suatu ukuran kualitas butir.
Artinya, rendahnya IDB bukan ukuran rendahnya kualitas butir tersebut. Ada
beberapa alasan mengapa IDB suatu butir bisa bernilai rendah. (1) Semakin
sukar atau semakin mudah suatu butir, semakin rendah IDB-nya, tetapi Guru
sering membutuhkan item-item yang sukar atau mudah agar representasif
terhadap karakteristik materi dantujuan belajar siswa. Jadi butir yang
kualitasnya relati rendah tetap dipertimbangkan sebagai butir tes ketiak butir
tersebut memang diperlukan. (2) Tujuan item hubungannya dengan tes
keseluruhan akan mempengaruhi besarnya IDB. Hal ini karena skor total
merupakan kriteria internal yang digunakan. Skor total merupakan gabungan
skor keseluruhanbutir, baik yang sukar maupun yang mudah, dari berbagai
pokok bahasan dengan segala keragaman karakteristiknya, dan dari
keragaman jenjang tes. Misalkan butirpada jenjang evaluasi (C6) hanya 5%
dari keseluruhan tes, kemungkinan besar butir-butir yang merepresentasikan
jenjang kemampuan tersebut akan memiliki IDB yang relatif rendah, tetapi
tetap dibutuhkan sebagai butir tes.
3. Data analisis butir versifat tentatif.
Sering dipersepsi oleh para Guru bahwa IKB dan IDB bersifat tetap. Hal ini
tidak benar. Data analisis butir dipengaruhi oleh karakteristik responden,
jumlah responden, pembelajaran yang diterapkan oleh Guru, dan peluang
kesalahan. Pertimbangan Guru terhadap kualitas butir hendaknya lebih
ditekankan pada mampu atau tidaknya suatu butir mencerminkan pengukuran
terhadap tujuan belajar dibandingkan dengan besarnya IKB dan IDB. Jadi,
ketika analisis IKB dan IDB yang tidak bisa dilakukan, maka proses
pengembangan butir yang lebih baik yang mampu mencerminkan validitas isi
yang lebih komprehensif akan menjadi lebih penting dibandingkan dengan
hanya memperhitungkan besarnya IKB dan IDB.
Page 20
| Validitas, Reliabilitas, Analisis Butir | 20
4. Hindari seleksi butir-butir tes secara murni pada basis sifat-sifat statistik
butir tersebut.
Satu dari cara-cara terbaik untuk menseleksi butir-butir tes adalah dengan
memilih butir-butir yang memiliki IKB dan IDB yang tepat. Ini bukan berarti
bahwa analisis statistik menjadi faktor utama, khususnya tes hasil belajar
buatan Guru untuk sekolah dasar, di mana sampel mungkin hanya 30 orang,
yang boleh jadi tidak reliabel. Alasan lain, bahwa IKB bolah jadi dipengaruhi
oleh cara siswa menjawab dengan tebak-tebakan, cara menempatkan jawaban
benar, dan cara menempatkan urutan item pada tes tersebut. Alasan lain,
bahwa seleksi secara statistik sering memberikan pertimbangan yang bias,
bahwa item boleh jadi tidak mengukur tujuan 10 pembelajaran, yang berarti
membuat validitas isi menjadi rendah. Menseleksi butirbutir tes akan lebih
baik berdasarkan kategori taksonomi yang secara jelas telah tergambar dalam
kisi-kisi tes.
Page 21
| Validitas, Reliabilitas, Analisis Butir | 21
BAB III
PENUTUP
3.1 Simpulan
a. Validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam
melakukan fungsi ukurnya.
b. Macam-macam validitas, antara lain validitas isi, validitas konstruk, dan
validitas berdasarkan kriteria.
c. Reliabilitas sering disebut dengan keterpercayaan, keterandalan, keajegan,
konsistensi, kestabilan, dan sebagainya.
d. Menentukan koefisien reliabilitas dengan metode tes tunggal, antara lain
dengan formula kuder Richardson (KR20), formula kuder Richardson
(KR21), formula Spearman-Brown, formula Rulon, formula Alpha, formula
C. Hoyt, dan formula Flanagan.
e. Faktor-faktor yang mempengaruhi reliabilitas, antara lain jumlah butir tes,
penyebaran skor, objektivitas, dan metode estimasi reliabilitas.
f. Analisis butir adalah proses menguji respon-respon siswa untuk masing-
masing butir tes dalam upaya menjustifikasi kualitas item.
g. Karakteristik butir soal, antara lain tingkat kesukaran, daya beda, dan tingkat
penerkaan.
3.2 Saran
Sebagai calon pendidik, dalam melakukan penilaian dan evaluasi hasil
belajar peserta didik membutuhkan instrumen penilaian yang valid dan reliabel
agar dapat mengukur dengan baik tingkat pencapaian peserta didik. Untuk
memperoleh instrumen penilaian yang valid dan reliabel maka guru harus
melakukan analisis butir soal.
Page 22
| Validitas, Reliabilitas, Analisis Butir | 22
DAFTAR PUSTAKA
Hamalik,Oemar.2008.Kurikulum dan Pembelajaran.Jakarta:PT Bumi Aksara
Sudijono,Anas.2005.Pengantar Evaluasi Pendidikan.Jakarta:PT Raja Grafindo
Persada
Hamid Hasan, Asmawi Zainul.1991.Evaluasi Hasil Belajar.Departemen Pendidikan
dan Kebudayaan
Slameto.2001.Evaluasi Pendidikan.Jakarta:Grafika Offset