Assasemen Dan Hasil Penilaian_validitas, Reliabilitas,Analisis Butir

| Validitas, Reliabilitas, Analisis Butir | 1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Kelemahan pokok butir soal buatan guru ialah konstruksinya kurang

tersusun secara baik. Kelemahan ini terutama disebabkan oleh sempitnya

waktu yang tersedia pada guru untuk menyusun butir dan perangkat soal

yang mutunya dapat dipertanggungjawabkan. Di samping itu masih banyak

juga guru yang memang kurang terlatih untuk menyusun butir dan perangkat

soal. Sebagai akibat kelemahan ini ialah banyak butir soal yang digunakan

tidak dapat mengukur aspek hasil belajar yang diharapkan untuk dapat

diukur. Untuk mengurangi kelemahan ini, maka setiap guru diharapkan

memiliki pengetahuan dan kemampuan untuk menilai butir dan perangkat

soal yang digunakan.

Kemampuan ini menjadi lebih penting bagi guru-guru sekolah di

Indonesia, karena kita belum terbiasa untuk menggunakan butir tes baku.

Bahkan di Indonesia belum ada tes baku yang dapat diperoleh dengan

mudah oleh para pekerja professional, karena memang belum ada badan-

badan pengembang tes baku yang menyediakan tes hasil belajar secara

komersial. Di beberapa Negara maju hal ini tidak terlalu menjadi masalah,

karena telah tumbuh berbagai badan dan lembaga yang mengembangkan tes

baku secara komersil. Yang ditumbuhkan ialah setiap guru haruslah

memenuhi persyaratan untuk dapat membeli dan menggunakan tes baku

tersebut. Persyaratan tersebut adalah latar belakang pendidikan yang

dipunyai oleh guru, dan pengakuan organisasi professional akan kemampuan

guru itu untuk dapat menggunakan tes baku untuk level tertentu.

Kenyataan ini memperkuat alasan akan keharusan bagi setiap guru

untuk dapat mengembangkan butir dan perangkat tesnya sendiri yang secara

akademik dapat dipertanggungjawabkan sebagai alat ukur keberhasilan

belajar. Kemampuan itu harus pula disertai dengan kemampuan


menganalisis butir dan perangkat soal, sehingga setiap butir dan perangkat

soal yang digunakan benar-benar merupakan perangkat alat ukur yang baik

dan terpercaya.

Dalam makalah ini akan dibahas berbagai aspek yang secara

langsung dapat mengetahui kualitas butir dan perangkat soal. Aspek-aspek

tersebut mencakup (1) alasan yang menyebabkan perlu dilakukan analisis

butir soal, (2) karakteristik dan spesifikasi butir soal, (3) analisis butir soal,

(4) validitas soal, dan (5) reliabilitas soal.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas, adapun masalah yang akan dibahas di

makalah ini yaitu:

1.2.1 Apakah yang dimaksud dengan Validitas?

1.2.2 Apakah yang dimaksud dengan Reliabilitas?

1.2.3 Apakah yang dimaksud dengan Analisis Butir?

1.3 Tujuan Penulisan

Adapun tujuan dari penulisan makalah ini yaitu untuk mengetahui:

1.3.1 Untuk mengetahui pengertian Validitas.

1.3.2 Untuk mengetahui pengertian Reliabilitas.

1.3.3 Untuk mengetahui pengertian Analisis Butir.


BAB II

PEMBAHASAN

2.1 Validitas

A. Pengertian Validitas

Validitas berasal dari bahasa Inggris dari kata validity yang berarti

keabsahan atau kebenaran. Dalam konteks alat ukur atau instrumen asesmen,

validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam

melakukan fungsi ukurnya. Sebuah instrumen yang valid akan menghasilkan data

yang tepat seperti yang diinginkan. Sebagai contoh, jika kita ingin mengetahui

berat maka alat ukur yang tepat adalah timbangan atau neraca bukan meteran,

termometer, atau alat yang lain. Dengan kata lain, sifat valid memberikan

pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang

sesungguhnya dari apa yang diinginkan.

Validitas sangat berkaitan dengan tujuan pengukuran. Validitas tidak

berlaku secara umum bagi semua pengukuran. Suatu tes mempunyai hasil ukuran

yang baik (valid) untuk suatu tujuan tertentu yang sepesifik tetapi tidak valid

untuk tujuan yang lain atau bahkan untuk tujuan yang sama pada kelompok yang

lain.

Linn & Gronlund (2000) mengemukakan hakikat validitas tes dan

asesmen sebagai berikut.

1. Validitas menyatakan ketepatan interpretasi hasil bukan pada prosedurnya.

2. Validitas merupakan persoalan yang berkaitan dengan derajat (tingkatan),

sebagai konsekuensinya kita harus menghindari pemikiran hasil asesmen

sebagai valid atau tidak valid. Oleh karena validitas adalah persoalan derajat

maka sebuah instrumen dapat dikategorikan mempunyai derajat validitas

tinggi, sedang, dan rendah.

3. Validitas selalu bersifat khusus untuk penggunaan atau interpretasi tertentu.

Tidak ada asesmen yang valid untuk semua tujuan. Sebagai contoh, hasil tes

aritmatika mungkin mempunyai tingkat validitas yang tinggi untuk


kemampuan hitung, validitas yang rendah untuk alasan-alasan aritmatika,

dan mempunyai derajat validitas sedang untuk memprediksi kesuksesan

prestasi matematika yang akan datang.

4. Validitas merupakan kesatuan konsep. Hakikat konsep validitas dipandang

sebagai sebuah kesatuan konsep berdasarkan berbagai macam bagian dari

fakta.

5. Validitas melibatkan sebuah keputusan evaluatif yang menyeluruh.

B. Macam-macam Validitas

Macam-macam Validitas, antara lain :

1) Validitas Isi (Content Validity)

Validitas isi disebut juga validitas kurikuler. Oleh karena itu, validitas ini

erat kaitannya dengan materi yang akan diukur dalam tes. Tentu saja materi

yang dimaksud adalah materi yang terdapat dalam kurikulum. Validitas isi

mencerminkan sejauh mana butir-butir dalam tes mencerminkan materi yang

disajikan dalam kurikulum. Sebuah tes dikatakan memiliki validitas isi jika

butir-butir tes bersifat representatif terhadap isi materi dalam kurikulum

tersebut. Pengujian validitas isi tidak melalui prosedur pengujian secara

statistik, melainkan melalui analisis secara rasional. Pengetahuan terhadap

kurikulum menjadi dasar berpijak yang penting untuk dapat melakukan

analisis validitas isi. Cara yang praktis untuk melakukan analisis validitas isi

adalah dengan melihat apakah butir-butir tes telah disusun sesuai dengan

blue-print (kisi-kisi) yang sudah dirancang sebelumnya. Blue print menjadi

acuan dalam menuangkan domain atau ranah dan indikator yang akan diukur

dalam tes.

2) Validitas Konstruk (Construct Validity)

Validitas konstruk adalah validitas yang menyangkut bangunan teoretik

variabel yang akan diukur. Sebuah tes dikatakan mempunyai validitas

konstruk apabila butir-butir soal yang disusun dalam tes mengukur setiap

aspek berpikir dari sebuah variabel yang akan diukur melalui tes tersebut.


Seperti halnya validitas isi, untuk mempertinggi validitas konstruk dapat

dilakukan dengan cara memerinci dan memasangkan setiap butir soal

dengan setiap aspek. Pengujian validitas konstruk diperlukan analisis

statistik yang kompleks seperti prosedur analisis faktor. Salah satu prosedur

pengujian validitas konstruk yang tidak terlalu kompleks dapat dilakukan

dengan pendekatan multi-trait multi-method. Dua atau lebih trait yang

diukur melalui dua atau lebih metode dapat diuji secara serentak dengan

pendekatan ini, sehingga akan diperoleh bukti adanya validitas diskriminan

dan validitas konvergen. Validitas diskriminan ditunjukkan oleh rendahnya

korelasi antara faktor skala atau tes yang mengukur trait yang berbeda

terutama bila digunakan metode yang sama. Validitas konvergen

ditunjukkan oleh tingginya korelasi skor tes-tes yang mengukur trait yang

sama dengan menggunakan metode yang berbeda.

3) Validitas Berdasarkan Kriteria

Sesuai dengan namanya, validitas ini didasarkan pada kriteria tertentu.

Dengan demikian bukti adanya validitas ditunjukkan adanya hubungan

korelasional skor pada tes yang bersangkutan dengan skor suatu kriteria.

Pengujian validitas ini bersifat empirik, artinya pengujian hanya dapat

dilakukan setelah mendapatkan data di lapangan. Apabila berdasarkan hasil

analisis yang dilakukan terhadap data hasil pengamatan di lapangan terbukti

bahwa tes hasil belajar dapat mengukur hasil belajar yang seharusnya

diungkap secara tepat maka berarti alat tes tersebut mempunyai validitas

empirik. Untuk keperluan pengujian jenis validitas ini dapat dilakukan

dengan dua cara yaitu dari segi kemampuannya dalam melakukan ramalan

(predictive validity) serta daya ketepatan bandingannya (concurent validity).

Perbedaan utama antara validitas ramalan dengan validitas bandingan adalah

ketersediaan pembanding (kriterium). Pada validitas ramalan, kriterium

diperoleh pada waktu yang akan datang setelah dilakukan tes yang akan

diukur validitasnya tersebut. Sedangkan pada validitas bandingan, kriterium

sudah ada atau dapat diperoleh pada saat yang sama dengan waktu untuk


memperoleh data tentang tes yang akan diukur validitasnya tersebut tanpa

harus menunggu masa yang akan datang.

a) Validitas ramalan (predictive validity)

Sebagai ilustrasi adalah adanya tes masuk Perguruan Tinggi Negeri.

Setelah melalui serangkaian tes maka hanya calon mahasiswa yang

mempunyai skor tinggi yang diterima oleh panitia seleksi mahasiswa

baru. Sesungguhnya keputusan panitia seleksi yang hanya menerima

mahasiswa yang mempunyai skor tinggi saja berarti sudah

memprediksikan bahwa calon mahasiswa dengan skor tinggi tersebut

kelak yang akan lebih berhasil dalam studinya. Sedangkan para calon

mahasiswa yang mempunyai skor sedang apalagi rendah diprediksikan

akan banyak menemui kendala dalam studinya. Oleh karena itu tes yang

digunakan dalam seleksi calon mahasiwa baru tersebut akan mempunyai

tingkat validitas prediktif yang tinggi apabila secara empirik terbukti

bahwa prestasi belajar mereka juga baik. Dengan demikian antara skor

tes masuk dengan prestasi belajar harus mempunyai korelasi yang

positif.

Pada kasus di atas, yang dipermasalahkan validitasnya adalah tes masuk.

Oleh karena itu hasil belajar pada masa perkuliahan digunakan sebagai

tolok ukur (kriterium). Adanya kesejajaran, kesesuaian, kesamaan arah

antara tes seleksi masuk dengan hasil belajar mempunyai korelasi yang

positif.

b) Validitas bandingan (Concurent Validity)

Validitas ini sering pula disebut sebagai validitas ada sekarang, validitas

sama saat, validitas pengalaman, dan validitas empiris. Disebut sebagai

validitas ada sekarang karena pengujiannya berdasarkan pengalaman

yang saat ini sudah ada di tangan. Disebut sebagai validitas sama saat

karena validitas ini segera dapat kita peroleh informasinya pada saat

yang sama dengan waktu diperolehnya data hasil tes yang diukur

validitasnya tersebut. Disebut validitas pengalaman (empiris) karena


validitas ini dikaitkan dengan pengalaman yang sudah ada. Dalam hal ini

pengalaman digunakan sebagai kriterium.

Guna menentukan validitas bandingan ini tidak perlu menunggu waktu

untuk membuktikannya. Seperti disebutkan pada alenia di atas bahwa

yang berfungsi sebagai kriterium adalah data hasil pengalaman. Apabila

data dari tes yang ada sekarang mempunyai hubungan yang searah

dengan data hasil pengalaman maka dikatakan telah mempunyai

validitas bandingan.

C. Faktor-faktor yang Mempengaruhi Validitas

Faktor-faktor yang mempengaruhi validitas, antara lain :

1. Faktor dari dalam tes itu sendiri

a. Petunjuk yang tidak jelas.

Petunjuk yang tidak jelas menyebabkan siswa kehilangan waktu untuk

sekedar memahami petunjuk pengerjaan atau bahkan tidak dapat

melakukan apa yang seharusnya dilakukan.

b. Penggunaan kosa kata dan struktur kalimat yang sulit.

Penggunaan kosa kata atau struktur kalimat yang sulit dapat

menyebabkan siswa terjebak untuk pemahaman terhadap pemahaman

maksud dari sebuah pertanyaan bukan untuk menyelesaikan pertanyaan

itu sendiri.

c. Ambiguitas.

Ambiguitas yaitu adanya kemungkinan multi tafsir juga menyebabkan

menurunnya validitas sebuah tes.

d. Alokasi waktu yang tidak cukup.

Seharusnya sebuah tes disediakan waktu yang cukup untuk mengerjakan

seluruh butir tes yang ada. Kekurangan waktu dalam menyelesaikan

sebuah tes bisa jadi bukan karena siswa tidak mampu untuk

menyelesaikan tesnya tetapi karena keterbatasan kesempatan untuk

mengerjakannya.


e. Penekanan yang berlebihan terhadap aspek tertentu, sehingga terlalu

mudah ditebak kecenderungan dari jawaban soal akan menyebabkan

menurunnya tingkat validitas soal.

f. Kualitas butir tes yang tidak memadai untuk mengukur hasil belajar.

Kualitas yang tidak memadai misalnya tes dimaksudkan untuk megukur

kemampuan berpikir tingkat tinggi (higher order thinking) jelas tidak

cukup hanya digunakan tes yang bersifat untuk mengungkap

pengetahuan faktual saja.

g. Susunan tes yang jelek.

h. Tes terlalu pendek.

i. Penyusunan butir tes yang tidak runtut .

j. Pola jawaban yang mudah ditebak, misalnya pada soal pilihan ganda

jawabannya adalah A semua, atau B semua atau menunjukkan pola

tertentu misalnya D, C, B, A, D, C, B, A, dan sebagainya.

2. Faktor berfungsinya tes dan prosedur mengajar.

Pemberian skor terhadap jawaban siswa (testee) harus dilakukan secara

hati-hati jangan sampai salah tulis atau meremehkan selisih angka walaupun

hanya sedikit. Hal ini akan menyebabkan hasil pengujian terhadap validitas

akan memberikan makna yang berbeda.

3. Faktor administrasi dan penskoran.

Tanggapan siswa yang tidak serius biasanya dijumpai pada saat siswa

diminta untuk mengisi sebuah angket. Hal ini akan menyebabkan siswa

mengisi angket secara sembarangan karena merasa tidak penting maupun

alasan-alasan yang lain. Oleh karena itu berikan angket pada waktu dan

kondisi yang tepat .

4. Faktor tanggapan siswa.

5. Hakekat kelompok dan criteria

Seperti sudah dijelaskan di atas bahwa validitas bersifat spesifik. Sebuah

asesmen atau instrumen alat ukur mungkin hanya valid untuk kelompok

tertentu saja dan tidak valid untuk kelompok yang lain. Sebagai contoh


misalnya sebuah tes diujicobakan pada sekelompok siswa pada sebuah

sekolah dengan kualitas biasa-biasa saja tentu akan berbeda hasilnya jika tes

yang sama diberikan pada sekelompok siswa pada sekolah yang favorit.

2.2 Reliabilitas

A. Pengertian Reliabilitas

Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat

dipercaya (tahan uji). Sebuah tes dikatakan mempunyai reliabilitas yang tinggi

jika tes terebut memberikan data hasil yang ajeg (tetap) walaupun diberikan pada

waktu yang berbeda kepada responden yang sama. Hasil tes yang tetap atau

seandainya berubah maka perubahan itu tidak signifikan maka tes tersebut

dikatakan reliabel. Oleh karena itu reliabilitas sering disebut dengan

keterpercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya.

Sebuah alat ukur yang baik harus valid dan reliabel. Namun demikian

validitas lebih penting dibandingkan dengan reliabilitas. Reliabilitas merupakan

penyokong validitas. Sebuah alat ukur yang valid selalu reliabel. Akan tetapi alat

ukur yang reliabel belum tentu valid, seperti digambarkan pada ilustrasi gambar.

B. Metode Mencari Koefisien Reliabilitas

Seperti halnya validitas, reliabilitas juga merupakan tingkatan. Tingkat atau

kadar reliabilitas dinyatakan dengan koefisien reliabilitas.

Berikut ini akan dibahas macam-macam metode mencari besarnya koefisien

reliabilitas.


1) Metode Tes Ulang (Test Retest Method)

Metode ini diterapkan untuk menghindari adanya penyusunan dua seri tes.

Teknisnya adalah sebuah tes yang sama diberikan dua kali kepada responden

yang sama dengan jarak waktu tertentu. Jika hasil tes pertama mempunyai

kesejajaran dengan hasil tes yang kedua maka tes tersbut dikatakan reliable.

Oleh karena pengujian ini dilakukan terhadap sebuah tes yang diujicobakan

dua kali maka sering disebut pula sebagai single-test-double-trial-method.

Kelemahan metode ini adalah jika jeda waktu tes terlalu singkat sedangkan

soal tes banyak mengungkapkan aspek pengetahuan maka responden

cenderung masih mengingat materi yang diteskan, sehingga ada

kemungkinan hasil tes yang kedua lebih baik daripada hasil tes pertama.

Sebaliknya jika jeda waktu tes pertama dengan kedua terlalu lama

dikhawatirkan banyak faktor serta situasi dan kondisi sudah banyak berubah

dan mempengaruhi hasil tes yang kedua.

2) Metode Tes Sejajar (Equivalent)

Metode ini mengharuskan adanya dua buah seri soal yang mempunyai

kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetapi butir-

butir soalnya berbeda. Dengan kata lain, dua buah tes yang digunakan harus

sejajar (paralel, equivalen). Koefisien reliabilitas diperoleh dengan

mengkorelasikan hasil tes pertama dengan hasil tes kedua. Oleh karena

metode ini menggunakan dua buah tes yang berbeda dan diteskan pada siswa

yang sama maka disebut juga doublé test – double – trial – method. Sudah

tentu metode ini akan menambah kerepotan.

Kelebihan dari metode ini adalah dapat memperbaiki kelemahan pada metode

pertama yaitu terhindarnya dari kondisi “siswa masih mengingat materi tes

pertama”. Aspek ingatan dan hafalan pada pengerjaan tes pertama

tidakterbawa pada saat mengerjakan tes yang kedua.

3) Metode Tes Tunggal (Single Test – Single Trial)

Metode tes tunggal dilihat dari kepraktisannya lebih praktis dari pada dua

metode sebelumnya. Metode ini hanya melakukan sekali tes kepada


sekelompok subjek. Dengan demikian tidak perlu menunggu waktu maupun

harus mempunyai data dari tes sejenis untuk dapat menentukan

reliabilitasnya.

C. Menentukan Koefisien Reliabilitas dengan Metode Tes Tunggal

a) Formula Kuder Richardson (KR20)

Formula KR20 dapat diterapkan pada instrumen yang mempunyai data skor

dikotomi dari tes yang seolah-olah dibagi-bagi menjadi belahan sebanyak

butir yang dimiliki. Hasil perhitungan dengan rumus KR20 lebih teliti, tetapi

perhitungan lebih rumit.

Rumus:

Keterangan:

= koefisien reliabilitas

n = banyaknya butir soal

= varians skor total

p = proporsi subjek yang menjawab soal secara benar

q = proporsi subjek yang menjawab soal secara salah (q = 1 – p)

b) Formula Kuder Richardson (KR21)

Formula KR21 lebih sederhana dalam perhitungannya. Kelemahannya adalah

kurang teliti dibandingkan dengan KR20.

Rumusnya :

Keterangan:


n = banyaknya butir soal

1 = bilangan konstan

= mean total (rata-rata hitung dari skor total)

= varian total

(

) (

∑

)

(

)(

)


c) Formula Spearman-Brown

Formula Spearman-Brown hanya dapat diterapkan pada soal yang mempunyai

jumlah butir genap. Formula ini menggunakan teknik belah dua ( split half

method), yaitu soal dibelah menjadi 2 bagian (belahan ganjil dan belahan

genap atau belahan kiri dengan belahan kanan ). Kedua belahan tersebut

sejajar.

Rumus :

Keterangan:


= koefisien korelasi product moment antara skor belahan satu dengan skor

belahan yang lain

1 & 2 = bilangan konstan

c) Formula Rulon

Formula Rulon ini juga dapat diterapkan dengan belah dua (split half method)

seperti halnya pada formula Spearman-Brown. Hanya saja cara pandangnya

terhadap reliabilitas berbeda dengan Spearman-Brown. Menurut Rulon

reliabilitas dapat dipandang dari adanya selisih skor yang diperoleh oleh

responden pada belahan pertama dengan belahan kedua. Selisih tersebut yang

menjadi sumber variasi error sehingga bila dibandingkan dengan variasi skor

akan dapat menjadi dasar untuk melakukan estimasi reliabilitas tes.

Rumus :

Keterangan :


= varians perbedaan skor belahan




d) Formula Alpha

Formula-formula di atas (Spearman-Brown, KR, Rulon) hanya berlaku untuk

soal objektif yang mempunyai kemungkinan jawaban benar dan salah.

Sedangkan untuk soal yang mempunyai gradualitas skor jawaban misalnya

pada soal uraian ataupun pada angket (tes sikap) formula yang paling pas

adalah dengan menggunakan Formula Alpha. Hal ini dimungkinkan karena

Formula Alpha mengakomodasi adanya variasi skor dalam setiap butir soal.

Rumus :

Keterangan :


= varians skor tiap-tiap butir soal



e) Formula C. Hoyt

Berbeda dengan formula-formula yang lain, C. Hoyt memandang bahwa

sebuah tes dapat dipandang sebagai sebuah interaksi faktorial di mana skor-

skor tes dianggap sebagai hasil eksperimen. Dalam hal ini, berlaku sebagai

faktor I adalah subjek (responden) sedangkan faktor II adalah butir soal.

Dengan demikian masing-masing sel terdiri atas satu subjek, untuk

selanjutnya dapat dicari interaksi antara subjek dengan butir soal.

Kelebihan formula ini adalah dapat diterapkan baik pada soal yang

mempunyai skor dikotomi 1 dan 0 maupun pada soal yang mempunyai variasi

skor pada butirnya (tes sikap maupun tes uraian).

Rumus :

(

)(

∑

∑ )


Keterangan :


= mean kuadrat interaksi antara subjek dengan butir soal

= mean kuadrat antarsubjek


f) Formula Flanagan

Reliabilitas pada formula Flanagan tidak didasarkan pada ada tidaknya

korelasi antara belahan I dengan belahan II. Dasar dari formula Flanagan

adalah jumlah kuadrat deviasi (varians) pada tes belahan I, jumlah kuadrat

(varians) deviasi pada tes belahan II, dan jumlah kuadrat deviasi (varians) skor

total.

Rumus :

Keterangan:


= varians skor belahan 1

= varians skor belahan 2


2 & 1 = bilangan konstan

D. Faktor-faktor yang Mempengaruhi Reliabilitas

1. Jumlah butir tes

Umumnya semakin besar jumlah butir soal tes samakin tinggi pula

reliabilitasnya. Hal ini terjadi karena semakin panjang tes (semakin banyak

butir soal) sehingga semakin banyak perilaku yang terukur dengan lebih

tepat. Skorskor yang diperoleh tepat dan kemungkinan sedikit mengalami

penyimpangan (distorsi) oleh adanya faktor -faktor yang sudah biasa dikenal

dengan sebuah tes yang diberikan atau kurangnya pemahaman terhadap apa

yang diharapkan pada sebuah tes yang diberikan.

(

)


2. Penyebaran skor

Sebagai catatan awal, koefisien reliabilitas secara langsung dipengaruhi oleh

penyebaran skor dalam kelompok yang diukur. Hal-hal lain menjadi sama,

semakin besar penyebaran skor maka semakin besar pula indeks reliabilitas

yang diperoleh. Karena semakin besar indeks reliabilitas yang dihasilkan

ketika individu-individu berada pada posisi yang relatif sama dalam sebuah

kelompok sebuah asesmen dengan asesmen yang lain, hal ini secara alami

mengikuti bahwa segala sesuatu yang mengurangi kemungkinan bergeser

nya posisi dalam kelompok juga turut andil dalam memperbesar koefisien

reliabilitas. Dalam kasus ini, semakin besar perbedaan skor individu

mengurangi kemungkinan pergeseran pososi. Dengan kata lain kesalahan

dalam pengukuran kurang berpengaruh terhadap posisi relatif individu

ketika perbedaan -perbedaan di antara anggota - anggota kelompok yang

besar. Hal ini terjadi ketika skornya tersebar luas.

3. Objektivitas

Objektivitas sebuah alat ukur menyatakan derajad untuk pemberi skor

kompeten yang sama mendapatkan ha sil yang sama. Sebagian besar tes

bakat dan tes prestasi standar mempunyai objektivitas yang tinggi. Butir-

butir skor tes objektif seperti pilihan ganda dan skor yang dihasilkan tidak

dipengaruhi oleh keputusan dan pendapat pemberi skor. Semakin tinggi

tingkat objektivitas tes semakin tinggi pula tingkat reliabilitasnya.

4. Metode estimasi reliabilitas

Saat menguji koefisien reliabilitas tes standar, memutuskan metode yang

digunakan untuk menentukan besarnya koefisien reliabilitas merupakan hal

yang penting. Secara umum, besarnya koefisien reliabilitas berkaitan erat

dengan metode yang digunakan untuk estimasi reliabilitas.


2.3 Analisis Butir

A. Pengertian Analisis Butir

Analisis butir adalah proses menguji respom-respon siswa untuk masing-

masing butir tes dalam upaya menjustifikasi kualitas item. Kualitas item,

khususnya direpresentasi oleh daya beda item, tingkat kesukaran item, dan

khusus untuk tes pilihan ganda tidak kalah pentingnya adalah keefektifan

pengecoh.

Ada beberapa alasan mengapa diperlukan analisis butir soal. Alasan tersebut

antara lain :

a. Untuk dapat mengetahui kekuatan dan kelemahan butir tes, sehingga dapat

dilakukan seleksi dan revisi butir soal.

b. Untuk tersedianya informasi tentang spesifikasi butir soal secara lengkap,

sehingga akan lebih memudahkan bagi guru menyusun perangkat soal yang

akan memenuhi kebutuhan ujian dalam bidang dan tingkat tertentu.

c. Untuk segera dapat diketahui masalah yang terkandung dalam butir soal,

seperti : kemenduaan butir soal, kesalahan meletakkan kunci jawaban, soal

yang terlalu sukar atau terlalu mudah, atau soal yang tidak dapat

membedakan antara siswa yang mempersiapkan diri secara baik atau tidak

dalam menghadapi tes. Masalah ini bila dapat diketahui dengan segera,

maka memungkinkan guru untuk mengambil keputusan apakah butir soal

yang bermasalah itu akan digugurkan atau tidak dalam menentukan nilai

siswa.

d. Untuk dijadikan alat guna menilai butir soal yang akan disimpan dalam

kumpulan soal atau bank soal. Kegiatan mengumpulan butir soal yang baik

menjadi kumpulan soal atau bank soal merupakan hal yang dianjurkan

kepada guru. Bila seorang guru telah memiliki sejumlah besar butir soal

yang baik, maka ia dengan mudah dapat menyusun suatu perangkat soal

yang baik untuk digunakan dalam suatu tes. Dengan demikian guru tersebut

tidak perlu khawatir akan mutu butir soal yang digunakannya, karena semua


butir soal yang dipakai dalam ujian tersebut telah diketahui karakteristik dan

spesifikasinya sebelum ujian dilakukan.

e. Untuk memperoleh informasi tentang butir soal sehingga memungkinkan

untuk menyusun beberapa perangkat soal yang parallel. Penyusunan

perangkat seperti ini sangat bermanfaat bila akan melakukan ujian ulang

atau mengukur kemampuan beberapa kelompok peserta tes dalam waktu

yang berbeda.

B. Karakteristik Butir Soal

Karakteristik butir soal ialah parameter kuantitatif butir soal. Dalam

bidang tes dan pengukuran, dikenal beberapa parameter butir soal. Untuk tes

hasil belajar umumnya dipertimbangkan 3 karakteristik butir soal, yaitu :

1. Tingkat Kesukaran

Yang dimaksud tingkat kesukaran butir soal ialah proporsi peserta tes

menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal

biasanya dilambangkan dengan p. makin besar nilai p (yang berarti butir soal

itu makin mudah. Tingkat kesukaran butir soal berkisar makin besar proporsi

yang menjawab benar terhadap butir soal tersebut.), maka makin rendah

tingkat kesukaran butir soal tersebut. Yang berarti antara 0.0 sampai dengan

1.0. butir soal yang mempunyai tingkat kesukaran 0.0 berarti tidak seorang

pun peserta tes dapat menjawab butir soal tersebut secara benar. Tingkat

kesukaran 1.0 berarti bahwa semua peserta tes dapat menjawab butir soal

tersebut secara benar. Rumus untuk menghitung tingkat kesukaran ialah :

2. Daya Beda

Daya beda butir soal ialah indeks yang menunjukkan tingkat kemampuan

butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas)

dari kelompok yang berprestasi rendah (kelompok bawah) di antara para

peserta tes. Secara lebih singkat daya beda dapat didefinisikan sebagai


kemampuan butir soal untuk membedakan kemampuan antar individu

peserta tes. Karena daya beda dihitung dari hasil tes kelompok peserta ujian

tertentu, maka dalam penafsiran daya beda pun haruslah selalu dikaitkan

dengan kelompok peserta tes (kelompok sampel) tertentu itu. Daya beda

suatu butir soal yang didasarkan pada hasil tes suatu kelompok belum tentu

akan berlaku pada kelompok peserta tes itu sangat berbeda.

3. Tingkat Penerkaan

Setiap jawaban butir soal tipe objektif mengandung kemungkinan sebagai

hasil terkaan atau tebakan. Tingkat penerkaan adalah indeks yang

menunjukkan probabilitas jawaban merupakan.hasil terkaan atau tebakan.

Tingkat penerkaan itu adalah satu per jumlah option dalam butir soal itu.

Bila butir soal itu mempunyai dua option (B – S), maka tingkat

penerkaannya adalah 0.50. Bila butir soal itu mempunyai tiga option, maka

tingkat penerkaannya adalah 0.33, Untuk butir soal dengan empat option

tingkat penerkaannya adalah 0.25. Dan butir soal yang mempunyai 5 option,

tingkat penerkaannya adalah 0.20. Prinsipnya ialah makin kecil tingkat

penebakan, makin baik butir soal tersebut. Tetapi butir soal yang terlalu

banyak optionnya juga bukan merupakan butir soal yang baik konstruksinya.

Karena itu ada semacam kesepakatan di antara para penulis buku tes dan

pengukuran bahwa jumlah option yang baik adalah berkisar antara empat

atau lima saja.

C. Interpretasi Data Analisis Butir

Beberapa interpretasi yang dapat ditampilkan terkait dengan data analisis

butir, adalah sebagai berikut.

1. Data analisis butir tidak analog dengan validitas butir.

Tes-tes psikologi seyogyanya memperhitungkan validitas butir, seperti

construct validity. Namun, untuk tes hasil belajar, meneliti konsistensi

internal butir tampak lebih penting dibandingkan menganalisis validitasnya.

Hal ini karena tes hasil belajar lebih menyandarkan diri pada validitas isi.


Jadi kriteria internal menjadi lebih penting untuk diperhitungkan. Kriteria

internal mendasarkan diri pada skor total tes.

2. Indesk Dayabeda Butir tidak selalu suatu ukuran kualitas butir.

Artinya, rendahnya IDB bukan ukuran rendahnya kualitas butir tersebut. Ada

beberapa alasan mengapa IDB suatu butir bisa bernilai rendah. (1) Semakin

sukar atau semakin mudah suatu butir, semakin rendah IDB-nya, tetapi Guru

sering membutuhkan item-item yang sukar atau mudah agar representasif

terhadap karakteristik materi dantujuan belajar siswa. Jadi butir yang

kualitasnya relati rendah tetap dipertimbangkan sebagai butir tes ketiak butir

tersebut memang diperlukan. (2) Tujuan item hubungannya dengan tes

keseluruhan akan mempengaruhi besarnya IDB. Hal ini karena skor total

merupakan kriteria internal yang digunakan. Skor total merupakan gabungan

skor keseluruhanbutir, baik yang sukar maupun yang mudah, dari berbagai

pokok bahasan dengan segala keragaman karakteristiknya, dan dari

keragaman jenjang tes. Misalkan butirpada jenjang evaluasi (C6) hanya 5%

dari keseluruhan tes, kemungkinan besar butir-butir yang merepresentasikan

jenjang kemampuan tersebut akan memiliki IDB yang relatif rendah, tetapi

tetap dibutuhkan sebagai butir tes.

3. Data analisis butir versifat tentatif.

Sering dipersepsi oleh para Guru bahwa IKB dan IDB bersifat tetap. Hal ini

tidak benar. Data analisis butir dipengaruhi oleh karakteristik responden,

jumlah responden, pembelajaran yang diterapkan oleh Guru, dan peluang

kesalahan. Pertimbangan Guru terhadap kualitas butir hendaknya lebih

ditekankan pada mampu atau tidaknya suatu butir mencerminkan pengukuran

terhadap tujuan belajar dibandingkan dengan besarnya IKB dan IDB. Jadi,

ketika analisis IKB dan IDB yang tidak bisa dilakukan, maka proses

pengembangan butir yang lebih baik yang mampu mencerminkan validitas isi

yang lebih komprehensif akan menjadi lebih penting dibandingkan dengan

hanya memperhitungkan besarnya IKB dan IDB.


4. Hindari seleksi butir-butir tes secara murni pada basis sifat-sifat statistik

butir tersebut.

Satu dari cara-cara terbaik untuk menseleksi butir-butir tes adalah dengan

memilih butir-butir yang memiliki IKB dan IDB yang tepat. Ini bukan berarti

bahwa analisis statistik menjadi faktor utama, khususnya tes hasil belajar

buatan Guru untuk sekolah dasar, di mana sampel mungkin hanya 30 orang,

yang boleh jadi tidak reliabel. Alasan lain, bahwa IKB bolah jadi dipengaruhi

oleh cara siswa menjawab dengan tebak-tebakan, cara menempatkan jawaban

benar, dan cara menempatkan urutan item pada tes tersebut. Alasan lain,

bahwa seleksi secara statistik sering memberikan pertimbangan yang bias,

bahwa item boleh jadi tidak mengukur tujuan 10 pembelajaran, yang berarti

membuat validitas isi menjadi rendah. Menseleksi butirbutir tes akan lebih

baik berdasarkan kategori taksonomi yang secara jelas telah tergambar dalam

kisi-kisi tes.


BAB III

PENUTUP

3.1 Simpulan

a. Validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam

melakukan fungsi ukurnya.

b. Macam-macam validitas, antara lain validitas isi, validitas konstruk, dan

validitas berdasarkan kriteria.

c. Reliabilitas sering disebut dengan keterpercayaan, keterandalan, keajegan,

konsistensi, kestabilan, dan sebagainya.

d. Menentukan koefisien reliabilitas dengan metode tes tunggal, antara lain

dengan formula kuder Richardson (KR20), formula kuder Richardson

(KR21), formula Spearman-Brown, formula Rulon, formula Alpha, formula

C. Hoyt, dan formula Flanagan.

e. Faktor-faktor yang mempengaruhi reliabilitas, antara lain jumlah butir tes,

penyebaran skor, objektivitas, dan metode estimasi reliabilitas.

f. Analisis butir adalah proses menguji respon-respon siswa untuk masing-

masing butir tes dalam upaya menjustifikasi kualitas item.

g. Karakteristik butir soal, antara lain tingkat kesukaran, daya beda, dan tingkat

penerkaan.

3.2 Saran

Sebagai calon pendidik, dalam melakukan penilaian dan evaluasi hasil

belajar peserta didik membutuhkan instrumen penilaian yang valid dan reliabel

agar dapat mengukur dengan baik tingkat pencapaian peserta didik. Untuk

memperoleh instrumen penilaian yang valid dan reliabel maka guru harus

melakukan analisis butir soal.


DAFTAR PUSTAKA

Hamalik,Oemar.2008.Kurikulum dan Pembelajaran.Jakarta:PT Bumi Aksara

Sudijono,Anas.2005.Pengantar Evaluasi Pendidikan.Jakarta:PT Raja Grafindo

Persada

Hamid Hasan, Asmawi Zainul.1991.Evaluasi Hasil Belajar.Departemen Pendidikan

dan Kebudayaan

Slameto.2001.Evaluasi Pendidikan.Jakarta:Grafika Offset

Assasemen Dan Hasil Penilaian_validitas, Reliabilitas,Analisis Butir

Documents