-
TEORI UJIAN KLASIKAL (CTT) VS TEORI RESPON ITEM (IRT) NAMA AHLI
KUMPULAN:-
WAN AZHAN BIN WAN YAACOBP66540 WAN RAZANA BINTI WAN MUSAP66544
ERNIE NOOR FAIZAH BINTI NAIMP67594 NORHIDAYAH BINTI ADDENANP69065
JAZAN BIN MOHD NORP59407GGGB6333TEORI DALAM
PENGUKURAN&PENILAIANFAKULTI PENDIDIKANUNIVERSITI KEBANGSAAN
MALAYSIA
-
SOALAN 1 a) Bincang dan bandingkan Teori Ujian Klasikal (CTT) vs
Teori Respon Item (IRT).b) Limitasi CTT c) Kelebihan IRT berbanding
CTT
-
RANGKA PEMBENTANGAN
BILTOPIKSUBTOPIK1Pengenalan Teori CTTTeori IRT2Perbandingan
Teori CTTTeori IRT3LimitasiTeori CTTTeori IRT4Kelebihan Teori
CTTTeori IRT
-
PENGENALAN
-
TEORI UJIAN KLASIK / CLASSICAL TEST THEORY (CTT)Teori pengujian
awal diperkenalkan oleh Frederick Lord berdasarkan Teori Guilford
pd 1903:Kebolehan seseorang stabil sekurang-kurangnya dalam satu
tempoh tertentuBoleh diukur dengan ujian
Kebolehan diukur berdasarkan jumlah skor yang diperoleh daripada
satu ujian atau bilangan item yang dijawab betul daripada satu set
item ujian
-
skor yang kita beri kepada calon dipanggil skor dicerap
(observed score) dan bukan skor sebenar (true score) yang
menggambarkan kebolehan atau pencapaian sebenar calonSkor yang
dicerap daripada sesuatu ujian mengandungi ralat (Error) Ralat di
dalam sesuatu skor ujian tidak bergantung (independent) kepada skor
sebenarSpearman (1903) dalam Teori Ralat Pengukuran:
-
CTT mengguna dua statistik item: kesukaran dan diskriminasi item
- (Sample Dependent)
Kebolehpercayaan (reliability) didefinisikan dalam bentuk atau
ujian selari yang dikatakan mempunyai kadaran pengukuran yang
skoran sebenar yang sama dan mempunyai ralat varians yang
sama.TEORI UJIAN KLASIK / CLASSICAL TEST THEORY (CTT)
-
TEORI RESPON ITEM / ITEM RESPONSE THEORY (IRT)Kebolehan diukur
berdasarkan kebarangkalian menjawab betul satu item dalam ujian
IRT ialah satu model matematik yang menetapkan hubungan antara
prestasi ujian yang boleh dilihat dan trait atau kebolehan yang
tidak nampak
Hubungan antara kuantiti yang nampak dan tak nampak itu
digambarkan oleh suatu fungsi matematik
Bentuk perhubungan menentukan Perbezaan model IRT Contoh: model
ogif normal, model logistik (1,2,3 PL), model norma-ogive, model
graded-response. model nominal response, model continuous
response(Nabeel & Chin, 2013)
-
Model IRT menentukan hubungan antara pemboleh ubah tak ketara
(selalunya dikonsepsikan sebagai kebolehan calon] dan
kebarangkalian calon menjawab betul sesuatu item ujian
Model-model IRT kesemuanya menganggap satu kebolehan tunggal
bagi calon-calon (ditanda sebagai ) tetapi berubah ciri-ciri
(parameters) mereka bagi item berlainan
Model IRT berlainan menentukan perbezaan perhubungan parameter
Contoh: Model Logistik 1-, 2- atau 3-parameter TEORI RESPON ITEM /
ITEM RESPONSE THEORY (IRT)
-
Test items 1234...........L1 1101000000001000 2 1110000001000000
3 1111010010000000 . 1111110000001000 . 1110111111000000 .
1111111101100000 . 1101111111111000 . 1111101111111110 N
1110111111111101OBSERVED TEST DATA
Plot data setiap item
Cari keluk cocokan terbaik setiap item
Kaedah mudah: plotkan keluk yang kelihatan
Cari persamaan keluk
Keluk di sebelah secocok dgn persamaan ogif; boleh dilukis dgn
tangan tetapi komputer boleh lakukannya
Kaedah ini dikenali IRT
-
MODEL RASCH (1-PARAMETER LOGISTIC)Dalam semua model IRT, Model
Rasch paling sedikit ramuannya untuk menentukan apa terjadi apabila
seorang calon mencuba suatu item ujian
Hanya satu parameter kebolehan (), untuk setiap calon dan satu
parameter , kesukaran item (b) untuk setiap item (Model Satu
Parameter) (Bhasah, 2003)
Apabila ditadbirkan, hasil ujian ialah interaksi antara
parameter calon dengan parameter item ujian
-
MODEL RESPONSE ITEMModel IRT termudah melibatkan hanya satu
parameter: kesukaran item
Response x berlaku apabila calon mencuba untuk menjawab item
Oleh itu x dilihat sebagai keputusan interaksi antara kebolehan
calon & kesukaran item
Kebarangkalian respons ialah perbezaan antara ukuran kebolehan
calon () dan ukuran kesukaran item ()
-
Banyak model matematik berbeza diguna untuk menggambarkan IRC
(Bhasah, 2003)
Model logistic diwakili oleh:Jelas, L boleh dinyatakan sebagai
fungsi perbezaan kebolehan calon dan kesukaran item: ( - ) Model
Ogif Normal diwakili olehx( - )
-
Model IRT 1-PL Model IRT memberikan kebarangkalian menjawab
betul suatu item atau soalan dalam sebutan interaksi antara
kebolehan calon dengan parameter item Model IRT paling mudah
menggabungkan hanya 2 element: kebolehan calon (ditanda oleh ) dan
satu parameter iaitu kesukaran item (ditanda oleh b)pemalar, 1.7
ialah faktor skala Dikenali sebagai Model Satu Parameter Logistik
(1-PL) Model ini pertama diperkenal oleh Georg RaschP() ialah
kebarangkalian seseorang calon dengan proficiency atau kebolehan
merespons betul suatu item beraras kesukaran b
-
Model IRT 2-PL & 3-PLModel yang membenarkan parameter a dan
b berubah untuk memerihalkan item dinamakan model logistik 2
parameter. Model ini digunakan untuk mewakili skala sikap (attitude
scales) dan sesetengah ujian pencapaian di mana tekaan (guessing)
dianggap tiada.Parameter c digunakan untuk menggambarkan tekaan
dalam item aneka pilihan. Model 3 parameter biasa digunakan untuk
mewakili ujian kognitif.
-
PERBANDINGAN CTT & IRT
-
PERBANDINGAN CTT DAN IRTPERBANDINGAN CTT & IRT
CTTIRTModelLinearTak LinearX = T + E
Lemah (mudah untuk memenuhi keperluan data)Mempunyai kekuatan
(lebih sukar untuk memenuhi keperluan data ujian-
kompleks)Unidimensi (satu ciri terpendam shj diukur)Local
independence (apabila ciri terpendam yang diukur tetap (constant),
maka respons pelajar terhadap mana-mana pasangan item adalah bebas
statistik)Peringkat ujianPeringkat Item
-
PERBANDINGAN CTT & IRT
CTTIRTRalat pengukuran Ralat= X-TRalat= Respon Pemerhatian
Respon yang diramalkanHubungan keupayaan itemTidak dinyatakanItem
Characteristic Curve (ICCStatistik itemp, rp = indeks kesukaranr =
indeks diskriminasi (korelasi skor item dengan skor ujian)a,b,c
(bagi model 3 parameter)a = parameter diskriminasib = parameter
kesukaranc = parameter tekaanKeupayaan Skor ujian (atau anggaran
skor sebenar dilaporkan pada skala skor ujian)Keupayaan skor
dilaporkan pada skala - ke + Invarian bagi item dan individuTiada
parameter item dan individu bergantung pd sampelAda- parameter item
dan individu adalah bebas @ tidak bergantung pd sampelSaiz
sampelSecara umum di antara 200 ke 500Bergantung pada model IRT
yang digunakan tetapi umumnya memerlukan sampel yang besar
(>500)
-
Copyright Educational Testing Service, 2004. All rights
reserved.*PERBANDINGAN CTT & IRT
IRTCTTBerasaskan ModelXKetidakbergantungan parameter
itemXKetidakbergantungan parameter kebolehanXRalat piawai
bersyaratXAnggaran kebolehan sebenarX
(
(
(
(
(
-
*ITEM CHARACTERISTIC CURVEbca
-
LIMITASI CTT
-
1. STATISTIK CTT: BERGANTUNG-KUMPULANPurata aras kesukaran &
julat skor kebolehan calon mempengaruhi kedua-dua statistik itu.
Contoh:
Nilai p lebih tinggi jika sampel calon mempunyai kebolehan
tinggi berbanding purata aras kebolehan calon dalam populasi
Indeks diskriminasi item cenderung lebih tinggi apabila mengguna
sampel calon yang heterogeneous berbanding sampel calon yang
homogeneous
-
Heterogeneity memberi kesan yang besar kepada koefisien
korelasi
Oleh itu dua statistik item tadi hanya berguna dalam memilih
item dalam pembinaan ujian menggunakan sampel yang menyamai
populasi
Juga, kebolehpercayaan skor ujian berkadar langsung dengan
kepelbagaian skor ujian1. STATISTIK CTT: BERGANTUNG-KUMPULAN
-
2. BERGANTUNG-UJIANDalam CTT, perbandingan calon-calon pada satu
pengukuran yang sama hanya boleh dibuat dengan keadaan calon-calon
itu diuji mengguna ujian yang sama atau mengguna ujian selari
Kesahan ujian meningkat apabila kesukaran ujian bersesuaian dengan
aras kebolehan calon
Kebanyakan ujian dibina sesuai dengan calon-calon berkebolehan
sederhana; oleh itu ujian-ujian itu tidak menyediakan anggaran yang
tepat kebolehan calon tinggi dan rendah
-
Apabila beberapa ujian pelbagai bentuk yang mempunyai aras
kesukaran berbeza diguna, tugas untuk membandingkan calon menjadi
semakin sukar. Skor ujian tidak lagi mencukupi.
Dua calon yang memperoleh 50% dalam dua ujian yang berlainan
kesukaran tidak boleh dianggap sama kebolehan
Adakah calon yang mendapat skor 60% dalam satu ujian yang mudah,
lebih tinggi kebolehannya daripada calon yang mendapat skor 40%
dalam ujian yang sukar? - CTT tidak boleh menangani masalah ini
dengan mudah 2. BERGANTUNG-UJIAN
-
3. KEBOLEHPERCAYAAN UJIANDalam CTT, kebolehpercayaan ujian
diperoleh melalui ujian bentuk selari Secara praktis, Ukuran selari
sukar diperoleh
Skor calon tidak pernah sama dalam ujian yang ditadbir kali
kedua (e.g., mereka lupa, mendapat kemahiran baru, motivasi dan
anxiety berubah, etc.)
-
4. MERAMAL PRESTASI CALON CTT tidak dapat menentukan prestasi
calon menggunakan satu item ujian
Anggaran kebarangkalian seorang calon dapat menjawab betul suatu
item boleh diguna untuk memadankannya dengan kebolehan calon
itu
Maklumat ini berguna kepada pembina ujian yang ingin meramalkan
ciri-ciri skor ujian dalam satu atau lebih populasi calon atau
untuk mereka bentuk ujian-ujian yang mempunyai ciri-ciri tertentu
untuk satu populasi calon (Hambleton et al., 1991)
-
CTT & VARIANCE RALATCTT menganggap variance ralat pengukuran
sama bagi semua calon (ralat tidak bergantung kepada calon)
(sesetengah calon menunjukkan prestasi yang lebih konsisten pada
sesuatu tugasan berbanding calon yang lain; kekonsistenan berubah
mengikut kebolehan)
Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa
bentuk ujian selari boleh jadi lebih konsisten daripada calon
berkebolehan sederhana
Apa yang diperlukan ialah model yang boleh menyediakan informasi
tentang kejituan skor ujian (anggaran kebolehan), informasi
spesifik skor ujian (anggaran kebolehan) dan yang bebas berubah
daripada satu skor ujian (anggaran kebolehan) kepada skor ujian
yang lain
-
KELEBIHAN IRT BERBANDING CTT
-
KELEBIHAN IRT BERBANDING CTTParameter item yang bebas daripada
sampel di mana data diperoleh (kesukaran dan diskriminasi
)Parameter kebolehan tidak bergantung kepada item tertentu dalam
ujianIRT boleh menilai keberkesanan ujian bagi tahap kebolehan yang
berlainanIRT boleh mengukur kebolehan kumpulan orang yang berbeza
kebolehan berdasarkan satu skala yang sama
-
Set ujian yang baru boleh dibina dan dikaji tanpa perlu ditadbir
dahuluIRT menyediakan kerangka penyelesaian bagi masalah
pengujianIRT digunakan untuk mengenal pasti ujian yang mengandungi
item-item yang berat sebelah (DIF)
KELEBIHAN IRT BERBANDING CTT
-
RUJUKANHambleton, R.K. & Jones, R. W. 1993. Comparison of
classical test theory and item response theory and their
applications to test development. educational measurement issu and
practice 8: 253-262Crocker, L. & Algina, J. 1997. Introduction
to classical andmodern test theory. Harcourt: Barace College
Publishers.Xitao. 1998. Item Response Theory and Classical Test
Theory: An empirical comparison of thei item/person statistics.
Journal Educational and Psychological Measurement. June 1998 V58 p
357 (25). Gale Group. Siti Rahayah Ariffin. 2008. Inovasi dalam
pengukuran dan penilaian pendidikan. Fakulti Pendidikan UKM.Nabeel
Abedalaziz & Chin Hai Leng. 2013. The Relationship between CTT
and IRT Approaches in Analyzing Item Characteristics The Malaysian
Online Journal of Educational Science Volume 1, Issue 1 m/s
64-70
**Nama CTT tidak wujud sehingga IRT diperkenalkan oleh Frederick
Lord dalam tahun 1960. Sebenarnya Lord jugalah yang memperkenalkan
CTT hasil daripada teori Guilford sekitar 1903 yang mengatakan
kebolehan mental manusia wujud dalam keadaan stabil pada diri
setiap orang untuk suatu tempoh tertentu dalam kehidupan manusia
sejak sebelum dilahirkan lagi. Oleh itu kebolehan mental, walaupun
abstrak, boleh diukur dengan ujian.
* True Score = Observed Score + Error (@ noise)
Apabila kita menjalankan ujian, skor yang kita beri kepada calon
dipanggil skor dicerap (observed score) dan bukan skor sebenar
(true score) yang menggambarkan kebolehan atau pencapaian sebenar
calonSkor yang dicerap daripada sesuatu ujian mengandungi ralat
(Error) Ralat di dalam sesuatu skor ujian tidak bergantung
(independent) kepada skor sebenar
*Kebanyakan ujian dibina menggunakan CTT tetapi CTT dibina
berdasarkan andaian dan model matematik yang lemah. 1 INDEKS
KESUKARAN2 INDEKS DISKRIMINASI3 MEAN CRITERION SCORE4 VARIANS RALAT
DAN VARIANS PENCERAPANKESEMUANYA BERGANTUNG KEPADA SUBJEK YANG
DIUKURskor ujian bergantung kepada itemmenganggap setiap item sama
kebolehpercayaantidak menerangkan interaksi antara kebolehan murid
dengan kesukaran item tidak mungkin ukuran yang diberi oleh alat
pengukuran yang sama berbeza bagi kumpulan subjek yang berlainan
sedangkan kebolehan orang itu sama
CTT mengambil nilai p (peratusan calon menjawab betul sesuatu
item) sebagai indeks kesukaran item dan korelasi (r-point biserial
atau lain-lain korelasi) antara skor item dengan jumlah skor bagi
indeks diskriminasi item. Malangnya dua indeks itu bergantung
kepada kumpulan calon yang menduduki ujian (bergantung kepada
sampel calon). Jika sampel yang menduduki ujian mempunyai purata
kebolehan yang lebih tinggi daripada populasi calon, nilai p bagi
item lebih rendah daripada yang sepatutnya. Nilai indeks
diskriminasi juga lebih tinggi jika sampel diambil daripada
kumpulan calon berkebolehan sederhana sahaja. Ini menyebabkan
item-item yang dipilih berdasarkan CTT hanya sesuai untuk mengukur
kebolehan calon pada aras sederhana.
Item dianggap mempunyai aras kesukaran tinggi jika peratusan
calon yang menjawab betul item itu kecil. Calon yang boleh menjawab
betul item pada aras kesukaran tinggi dianggap boleh menjawab betul
item pada aras kesukaran sederhana dan rendah. Calon itu juga
diharap mendapat jumlah skor ujian yang tinggi dan dianggap
berkebolehan tinggi. Item yang tidak mematuhi hukum ini dianggap
gagal mendiskriminasikan (membezakan) calon pandai daripada
sebaliknya dan tidak boleh dipilih untuk dijadikan instrumen ujian
kerana tujuan ujian, menurut teori itu, ialah untuk membezakan
calon pandai daripada sebaliknya. Tujuan ujian tidak hanya itu.
ARAS KESUKARAN ITEM: PERKADARAN (PERATUSAN) BILANGAN CALON
MENJAWAB BETUL SESUATU ITEM INDEKS DISKRIMINASI ITEM: KORELASI
ANTARA SKOR ITEM DENGAN JUMLAH SKOR UJIAN (CTT)
Kebolehpercayaan (reliability) didefinisikan dalam bentuk atau
ujian selari yang dikatakan mempunyai kadaran pengukuran yang
skoran sebenar yang sama dan mempunyai ralat varians yang sama.
*
IRT menggunakan ciri-ciri item (iaitu bagaimana calon memberi
respons kepada setiap item) di dalam ujian itu untuk mengukur
kebolehan mental calon tanpa bergantung kepada jumlah skor
ujian.
Ekoran daripada itu, pakar mencadangkan suatu teori pengujian
berasaskan model matematik yang boleh menerangkan perhubungan
antara murid dengan item dengan cara menghubungkan kebarangkalian
murid menjawab betul dengan tahap kebolehannya. Setelah kita
mendapatkan model matematik itu, kita tadbirkan ujian yang
mengandungi satu set item-item kepada sekumpulan murid yang besar
bilangannya. Kita cuba cocokkan (fit) model kepada data. Kemudian
kita inferkan suatu cirri matematik yang khusus bagi item seperti
kesukaran dan diskriminasi. Perkara ini mula diperkenalkan oleh
Lord dalam tahun 1952 diikuti oleh Birnbaum dalam tahun 1958.
Mereka mendapati bahawa apabila kebarangkalian menjawab betul item
diplotkan dengan tahap kebolehan murid, didapati graf berbentuk
ogif (bentuk S) yang mematuhi persamaan matematik bagi fungsi
taburan normal yang dikemukakan oleh Gauss yang terkenal dengan
Gaussian Theory of Normal Curve (belum dapat tarikh). Penemuan ini
sangat besar ertinya bagi dunia psikometrik kerana daripada situlah
IRT terbina. Peraturan di atas mula diperkenalkan oleh Lord (1952).
Sebelum Lord, Gauss telah menemui persamaan keluk ogif. Lord
memperkenalkan persamaan model logistic bagi keluk di atas sebagai
L boleh dinyatakan sebagai satu fungsi bagi perbezaan di antara
kebolehan murid dengan kesukaran item yang daripadanya wujud
parameter. Persamaan ini sesuai dengan persamaan keluk normal ogif
oleh Gauss seperti berikutBertolak daripada persamaan di ataslah
IRT berkembang pesat sehingga sekarang dengan model-model tertentu
sehingga muncul mazhab-mazhab yang bertentangan lebih hebat
tentangannya berbanding terhadap CTT sendiri. *Secara kontra, skor
IRT adalah berdasarkan item. Respon bagi item adalah berdasarkan
tahap ciri individu yag diukur dan ciri item yang selesai. Skor IRT
bukan diperolehi secara merumus semua item pada skala, tetapi
berdasarkan model kebarangkalian bagi setiap item. Model
keberangkalian ini akan mewakilil respon tertentu terhadap tahap
ciri individu yang diukur dan dilaraskan pada skala-sela yang sama,
atau the logit scale. Model IRT berubah mengikut nombor kategori
yang direspon (dikotomus, "ya/tidak" atau politomus,
"selalu/kadang-kadang/kerap") dan beberapa parameter item anggaran.
Kombinasi, anggaran ciri tahap ciri (atau theta) dan anggaran
parameter item (kesukaran, diskriminasi, peluang) menentukan
kebarangkalian respon tertentu seperti yang ditunjukkan pada ceruk
lekuk item (item characteristic curve (ICC).
*A visual way to check model fit is simply to compare the item
characteristic curve to the data themselves. The appropriateness of
the model should always be checked.
****Model logistik satu parameter yang lebih kenali Model Rasch
sering menjadi sebutan. Ia dihasilkan oleh Georg Rasch pada tahun
1966. Model Rasch mengutamakan prinsip pengukuran objektif. Beliau
merasakan pengukuran aras kecekapan pelajar harus bebas dari item
yang digunakan dalam ujian. Sehubungan itu, dua item harus boleh
dibandingkan tanpa merujuk kepada kumpulan pelajar yang menduduki
ujian tersebut. Model ini dilihat sebagai sebahagian dari model
latent trait melalui item characteristic curve yang merupakan
fungsi logistik satu parameter. Ia sebenarnya merupakan kes khusus
bagi model logistik dua parameter yang dihasilkan oleh Birnbaun, di
mana semua item diandaikan mempunyai kuasa diskriminasi yang sama
dan hanya berbeza dari segi kesukaran. Andaian ini sangat terhad
kerana sekiranya item ujian yang dipilih tidak mempunyai ciri-ciri
di atas maka andaian ini akan terbatal dengan sendirinya. Model
Rasch mempunyai beberapa sifat yang khas yang membuatkannya
menarik. Pertama, oleh kerana hanya sedikit parameter yang terlibat
maka ia senang digunakan. Kedua, masalah menganggarkan parameter
telah diselesaikan.
**CTT - Lemah -Teori Ujian Klasik (CTT) berdasarkan kepada
indeks kesukaran dan indeks diskriminasi item. Kedua-dua statistik
ini adalah bergantung-kumpulan. Seandainya ujian-ujian tadi
diprauji kepada kumpulan yang lemah, maka nilai p dan r nya menjadi
rendah dan begitu pula terjadi jika sebaliknya diuji kepada
kumpulan yang baik. Untuk memastikan kualiti ujian yang dibina itu
berkualiti tinggi, pembina ujian hendaklah memilih sampel yang
hampir sama kebolehannya dengan sampel yang bakal digunakan ujian
itu nanti.
Kekuatan IRT - Prosedur skoran ujian CTT mempunyai kelebihan
yakni terlalu mudah dikendalikan (dan diterangkan) sementara skoran
IRT biasanya agak memerlukan prosedur anggaran yang kompleks (dalam
model Rasch , jumlah skor individu adalah statistik kecukupan bagi
parameter individu).
Kebebasan setempat (local independence) jika kita mengasingkan
bahagian-bahagian faktor sepunya ujian daripada mana-mana dua item
dalam ujian terlibat, kita akan mendapati baki kovarian adalah
sifar.Kemerdekaan setempat membawa maksud apabila ciri terpendam
yang diukur itu tetap (constant), maka respons pelajar terhadap
mana-mana pasangan item adalah bebas statistik. Ini membawa maksud
bahawa hanya ciri terpendam yang ukur itulah yang mempengaruhi
respons pelajar terhadap item-item berkenaan. Secara matematik
adalah dirumuskan bahawa bagi seseorang pelajar, kebarangkalian ia
menjawab ke atas satu set item bersamaan dengan hasil darab
kebarangkalian respons pelajar kepada set item berkenaan. Menurut
Lord (1980) dan Lord & Norvick (1968), apabila andaian
ekadimensi ini adalah benar, maka kemerdekaan setempat wujud dengan
sendirinya.Andaian kedua ialah local independence yang menyatakan
bahawa kebarangkalian pelajar menjawab betul sesuatu item ujian
tidak dipengaruhi oleh pencapaiannya pada item-item lain dalam
ujian itu. Menurut andaian ini respond item adalah tidak bersandar
secara statistik untuk pelajar yang mempunyai tahap kebolehan yang
tetap. Maka hanya satu kebolehan sudah cukup untuk memberikan
hubungan antara dua set item ujian. Adalah penting untuk disedari
bahawa local indepedance tidak bermaksud bahawa item ujian tidak
mempunyai kolerasi ke atas jumlah kumpulan pelajar yang menduduki
ujian itu. Item ujian yang memenuhi andaian ini juga boleh
dianalisis dengan menggunakan teknik analisis faktor.*IRT: Ralat=
Respon Pemerhatian Respon yang diramalkan(Ralat= respon diperolehi
respon ramalan)CTT: p - peratusan calon menjawab betul sesuatu
item) sebagai indeks kesukaran item , r - korelasi (r-point
biserial atau lain-lain korelasi) antara skor item dengan jumlah
skor bagi indeks diskriminasi item
Invarian (tak wujud (tiada) kelainan, kepelbagaian)- ***The
relationship between probability of a correct response and ability
can be described mathematically by three characteristics of the
curve. These three characteristics are referred to as item
parameters. The parameters are shown here in the box. The first
parameter is the b parameter, which is the inflection point of the
curve. It represents the difficulty of the item. If there is no
guessing, then this point represents the ability level at which 50%
of the people answer correctly. (If there is guessing, then this
point is the ability level where the probability of a correct
answer is halfway between the level of guessing and 1.)The second
parameter is the a parameter. It is the value of the slope at the
inflection point of the curve. This slope represents the ability of
the item to discriminate between people of high and low ability.
The slope of the curve reaches its maximum value at the inflection
point.The final parameter is the c parameter. It represents the
minimal probability that an examinee will respond correctly to an
item. That is, an examinee with absolutely no knowledge would still
have probability c of responding correctly to the item. This
probability can be described as the probability of guessing
correctly, and so this parameter is known as the guessing
parameter.There are four main limitations in the CTT approach that
will be demonstrated in thepresent study. First is that estimates
of item difficulty are group dependent. A test item functions tobe
easy or difficult given a sample of examinees and these indices
change when a different sampletakes the test. Another problem is
that the p and r values are also dependent on the examineesample
from which they are taken. This problem is similar with item
difficulty estimates. The third is that ability scores of examinees
are entirely test dependent. (4)The examinees ability
changedepending on different occasions they take the test which
results to poor consistency of the test.
*****Ujian bentuk selari? Cth: Proses Penyamataraanjika CTT
digunakan, perlu dipastikan bahawa ujian yang dibina dari satu
tahun ke tahun yang lain mestilah selari antara satu sama lain.
Ujian selari bermakna ciri-ciri ujian mesti sama bukan sahaja
format dan isi kandungan malahan konstruk yang diukur dan statistic
item serta statistic ujian mestilah juga sama. Proses menyamakan
ujian dinamakan proses penyamataraan (equating). Proses
penyamataraan ujian lebih tepat dilakukan menggunakan IRT
berbanding CTT. Bagaimana penyamataraan dapat dilakukan jika ukuran
yang diberi oleh item atau ujian bersifat stochastic melainkan
berdasarkan expert judgment semata. Beberapa kaedah penyamataraan
tanpa mengguna IRT telah lama diperkenalkan.
Statistik stochastic ?
Statistik StokastikStatistik item atau statistik ujian
bergantung kepada kebolehan kumpulan calon yang menduduki ujian
itu. Ini menyebabkan ukuran yang diberi oleh item atau ujian berada
dalam keadaan stochastic atau terapung-apung tanpa ada titik
rujukan yang boleh mengikat ukuran itu kepada suatu ukuran rujukan
seperti ukuran sifar. Ukuran itu juga gagal memberi unit tertentu
seperti sentimeter bagi ukuran panjang dan saat bagi ukuran masa.
Ukuran yang berbentuk stochastic boleh menyebabkan anggapan seperti
menyamakan 20 cm dengan 20 m atau 20 cm + 20 m = 40 cm = 40 m.
Apabila suatu ujian dikemukakan dalam beberapa bentuk yang
berlainan kesukaran, tugas membandingkan calon-calon ujian menjadi
sukar. Jumlah skor ujian tidak mencukupi untuk dijadikan
perbandingan. Bagaimana calon memberi respons kepada setiap item di
dalam ujian itu mustahak diketahui.
****Disebabkan IRT membuat andaian yang kuat tentang tingkahlaku
orang (person) dan item, ia membolehkan kita menyelesaikan masalah
yang tidak dapat diselesaikan ole CTT. Misalnya, kita boleh
mendapatkan parameter item yang bebas daripada sampel di mana data
diperoleh. Oleh itu, statistic tentang kesukaran dan diskriminasi
item tetap sama dan sesuai untuk semua kumpulan murid yang berbeza
kebolehan. Jika kepada murid pandai ukuran kesukaran sesuatu item
ialah 2.4 maka kepada murid kurang pandai ukuran kesukaran item
yang sama adalah juga 2.4. Jika ini dapat dilakukan barulah kita
boleh mengukur kebolehan kumpulan orang yang berbeza kebolehan
berdasarkan satu skala yang sama.
Kelemahan CTT- Skor ujian (ukuran kebolehan) bergantung kepada
item. Ini bermakna anggaran kebolehan yang kita peroleh bagi
seseorang individu tidak bergantung kepada set ujian di mana
individu itu ambil. Ini sangat penting bagi mana-mana instrument
pengukuran seperti ujian kerana jika andaian ini tidak dipatuhi
seolah-olah kita mengukur panjang sebuah meja menggunakan pita ukur
yang berlainan menghasilkan ukuran yang berlainan. Ukuran panjang
meja tidak sama sekali bergantung kepada pita ukur yang digunakan
untuk mengukurnya. Aspek ini sangat penting terutama dalam adaptive
testing atau bank item kerana setiap individu menduduki ujian yang
berbeza tetapi mengukur kebolehan yang sama.
Dengan IRT kita boleh menilai keberkesanan ujian bagi tahap
kebolehan yang berlainan. Ini menunjukkan kita dapat menentukan
kebolehpercayaan skor sesuatu ujian. Ini juga bermakna kita boleh
merekabentuk ujian untuk mendiskriminasikan calon pada tahap
kebolehan tertentu.
IRT allows items and examinees to be placed on the same scale.
This is especially helpful in test design and score reporting.
*We can develop new tests and investigate their properties
without ever adminstering them. In fact, the use of IRT also allows
us to answer any reasonable question about a test before we ever
administer it. (konsep penggunaan Fungsi Maklumat Item (Item
Information Function - IIF) membina ujian untuk menepati satu set
jadual spesifikasi ujian. )
IRT provides a nice framework within which to solve many testing
problems.- proses penyamataraan, Prosedur ujian padanan (adaptive
testing) ialah satu cubaan untuk memadankan kesukaran item dengan
aras kebolehan pelajar.
Di sini dapat disimpulkan bahawa IRT dapat digunakan untuk
menentukan sama ada sesuatu soalan itu berat-sebelah antara lelaki
dengan perempuan, bandar dengan luar bandar, taraf ekonomi keluarga
dan sebagainya. Dalam penyelidikan item berat-sebelah, kaedah
menentukan antara bukti empirikal dari rumusan, bahawa sesuatu item
itu berat sebelah, istilah differential item functions (DIF)
digunakan.
*