Konsep Dasar dan Cara Analisis Butir Soal dalam Mengevaluasi Peserta Didik
Jika kita analisis lebih dalam, salah satu yang menjadi unsur penting dari evaluasi peserta didik adalah kualitas butir soal yang dibuat oleh guru bersangkutan.
Hal tersebut semakin berasa ketika kita mengingat pengalaman masa kecil sewaktu sekolah menengah maupun sekolah menengah atas. Saat itu kita sering diberikan soal tanpa kita tahu kualitas soal tersebut.
Kadang-kadang ditemukan pula soal yang semuanya mudah, dan tidak jarang banyak yang sulit.
Akhirnya, dalam satu kelas pun mendapat nilai rendah dan remidial semua. Ini sebenarnya kasus yang jika dikerucutkan akan bermuara pada masalah kualitas butir soal.
Analisis Butir Soal. Ilustrasi: tjevans dari Pixabay |
Dimulai dari bagaimana tingkat kesukaran soal, daya pembeda soal, hingga beda distraktor soal sebenarnya menggunakan perhitungan.
Kemudian, sebenarnya dalam konsep evaluasi setelah peserta didik diberikan soal, hasilnya perlu dianalisis untuk selanjutnya dilakukan perbaikan pembuatan soal, jika terlalu sukar, tidak ada daya pembeda, atau tidak berfungsinya pengecoh di soal.
Nah, guru kiranya perlu mengetahui perhitungan tentang bagaimana cara menentukan nilai akhir. Baik itu nilai akhir dalam rangka kenaikan kelas, maupun ujian akhir sekolah yang sifatnya kumulatif.
Konsep Dasar Analisis Butir Soal
Kalau kita mengukur panjang sebuah meja kayu dengan menggunakan sebuah meteran berulang-ulang, baik dalam tenggang waktu yang singkat maupun tenggang waktu yang lama, apabila hasil pengukurannya sama atau tetap, maka dapat dikatakan bahwa meteran itu dapat dipercaya (reliable) untuk mengukur panjang meja.
Kita katakan bahwa meteran tersebut reliabel, ajek, tetap, stabil, andal, atau konsisten. Alat ukur yang hasil pengukurannya bersifat tetap dapat dikatakan alat ukur tersebut mempunyai reabilitas yang baik.
Reliabilitas berhubungan dengan masalah kepercayaan.
Nah, sejatinya validitas lebih penting dan realibitas ini perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya tes yang valid biasanya reliabel.
A reliable measure in one that provides consistent and stable indication of the charateristic being investigated.Demi memperoleh gambaran yang ajeg memang sulit karena unsur kejiwaan manusia itu sendiri tidak ajeg. Misalnya kemampuan, kecakapan, sikap, dan sebagainya berubah dari waktu ke waktu.
Sekali kita telah memberikan tes kepada peserta tes, kita akan memperoleh banyak informasi tentang soa tes, maupun peserta tes.
Informasi tersebut antara lain diperoleh melalu analisis statistik yang salah satunya dapat digunakan sebagai landasan untuk melihat lebih berfungsinya sebuah soal.
Untuk memperoleh informasi tersebut perlu dilakukan analisis kuantitatif.
Hasil analisis dimaksudkan untuk mengetahui sejauh mana soal dapat membedakan antara peserta tes yang kemampuannya tinggi dalam hal yang didefinisikan oleh kriteria dengan peserta tes yang kemampuannya rendah.
Dalam hal memilih kriteria yang akan digunakan orang menginginkan adanya ukuran yang baik untuk kemampuan atau keterampilan yang diukur oleh soal.
Informasi lainnya adalah bagaimana soal dapat membedakan antara individu maupun antar kelompok.
Analisis soal secara kuantitatif menekankan pada analisis karateristik internal tes melalui data yang diperoleh secara empiris. Karateristik internal secara kuantitatif dimaksudkan meliputi karakter tingkat kesukaran, daya pembeda, dan reliabilitas.
Khusus soal-soal pilihan ganda, dua tambahan parameter yang dilihat dari peluang untuk menebak atau menjawab soal benar dan berfungsi tidaknya pilihan jawaban, yaitu penyebaran semua alternatif jawaban dari subjek-subjek yang di tes.
Menurut Thorndike dan Hagen, analisis terhadap soal-soal (items) tes yang dijawab oleh murid-murid mempunyai dua tujuan penting, yaitu:
- Jawaban-jawaban soal itu merupakan informasi diagnostik untuk meneliti pelajaran dari kelas itu dan kegagalan-kegagalan belajarnya, serta selanjutnya untuk membimbing kearah cara belajar yang baik.
- Jawaban-jawaban terhadap soal-soal yang terpisah dan perbaikan (review) soal-soal yang didasarkan atas jawaban-jawaban itu merupakan basis bagi penyiapan tes-tes yang lebih baik untuk tahun berikutnya.
Bersandar dari teori tersebut, barangkali rencana Asesmen Nasional yang digaungkan oleh Kemendikbud memiliki tujuan yang seirama dengan Thorndike dan Hagen.
Bukan semata untuk dipetik nilainya melainkan untuk menggapai sekaligus menemukan cara belajar yang baik. Alhasil, itulah sejatinya konsep dasar dari kegiatan analisis butir soal secara luas.
Cara Analisis Butir Soal dalam Mengevaluasi Peserta Didik
Untuk dapat mengetahui apakah masing-masing item soal baik, perlu dilakukan analisis terhadap empat hal, yaitu:- Seberapa besar peran yang disumbangkan oleh butir item tersebut terhadap skor totalnya?
- Seberapa tingkat kesukaran (TK) pada butir item itu?
- Apakah butir item itu mampu membedakan kemampuan antara siswa yang pandai dengan siswa yang kurang pandai?
- Apakah butir item tersebut menggunakan distraktor yang baik atau belum.
Namun, pada tulisan ini kita bakal berfokus kepada 3 aspek butir soal yaitu tingkat kesukaran, daya pembeda, dan distraktor alias pengecohnya.
1. Tingkat/Taraf Kesukaran Soal
Ada 3 gagasan utama untuk memperoleh kualitas soal yang baik yaitu validitas, reliabilitas, dan keseimbangan dari tingkat kesukaran soal tersebut.
Keseimbangan yang dikehendaki di sini adalah hadirnya variasi soal antara kualitas soal yang mudah, sedang, hingga sulit yang disetel secara proporsional.
Berangkat dari sini, alhasil dapat kita rengkuh gagasan bahwa tingkat kesukaran soal dipandang dari sisi kesanggupan dan kemampuan siswa dalam menjawab soal.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan sukar.
Pertimbangan pertama adalah adanya keseimbangan, yaitu jumlah soal sama untuk ketiga kategori tersebut. artinya soal mudah, sedang, dan sukar jumlahnya seimbang.
Misalnya test objektif pilihan berganda dalam pelajaran matematika disusun sebanyak 60 pertanyaan. Dari ke-60 pertanyaan tersebut, soa kategori mudah sebanyak 20, kategori sedang 20, dan kategori sukar 20.
Kemudian, pertimbangan kedua proporsi jumlah soal untuk ketiga kategori tersebut disandarkan atas kurva normal. Artinya, sebagian soal berada dalam kategori sedang, sebagian lagi termasuk ke dalam kategori mudah dan sukar dengan proporsi yang seimbang.
Perbandingan antara soal mudah-sedang-sukar bisa dibuat 3-4-3. Artinya, 30% soal kategori mudah, 40% soal kategori sedang, dan 30% lagi soal kategori sukar.
Tapi, sampai di sini barangkali sebagian dari kita masih bingung tentang bagaimana caranya mengkategorikan soal?
Nah, dalam menentukan kriteria ini digunakan judgment dari guru berdasarkan pertimbangan–pertimbangan tertentu. Pertimbangan tersebut antara lain adalah:
- Abilitas yang diukur dalam pertanyaan tersebut. Semisal untuk bidang kognitif, aspek pengetahuan atau ingatan dan pemahaman termasuk kategori mudah, aspek penerapan dan analitis termasuk kategori sedang, dan aspek sintesis dan evaluasi termasuk kategori sukar.
- Sifat materi yang diujikan atau ditanyakan. Misalnya ada fakta, konsep, prinsip dan hukum, serta generalisasi.
- Isi bahan yang ditanyakan sesuai dengan bidang keilmuannya, baik luasya maupun ke dalamannya.
- Bentuk soal. Misalnya dalam tes objektif, tipe soal pilihan benar-salah lebih mudah dari pada pilihan berganda dengan option tiga atau empat.
Tingkat kesukaran soal bisa saja ditentukan oleh kedalaman soal, kompleksitas atau hal-hal lain yang berkaitan dengan kemampuan yang diukur oleh soal.
Contohnya seperti pada soal matematika secara sederhana penjumlahan lebih mudah daripada perkalian dan pembagian, integral dan turunan lebih sulit dari perkalian.
Ini menandakan kedalaman soal, yang mengandung arti bahwa semakin sulit soal ialah karena butuh pengetahuan yang lebih kompleks dan mendalam tentangnya.
Begitupun sebaliknya, jika soalnya tergolong mudah, maka tidak perlu didalami.
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut indeks kesukaran (difficulty Indeks).
Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal.
Soal dengan indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah.
Dalam istilah evaluasi, indeks kesukaran ini diberi simbol P (p besar), singkatan dari kata “Proporsi”. Dengan demikian, maka soal dengan P= 0,70 lebih mudah jika dibandingkan dengan P= 0,20. Sebaliknya, P= 0,30 lebih sukar daripada soal dengan P= 0,80.
Dalam kategori tingkat kesukaran, bisa juga dibagi menjadi tiga kelompok, atau lima kelompok:
Pembagian Kategori
Tingkat Kesukaran Tiga Kelompok
Indeks |
Kategori
TK |
0,00 –
0,32 |
Sukar |
0,33 –
0, 66 |
Sedang |
0,67 –
1,00 |
Mudah |
Pembagian Kategori Tingkat Kesukaran Lima Kelompok
Indeks |
Kategori TK |
0,00 – 0,19 |
Sangat Sukar |
0,20 – 0,39 |
Sukar |
0,40 – 0,59 |
Sedang |
0,60 - 0,79 |
Mudah |
0,80 – 1,00 |
Sangat Mudah |
Apabila tingkat kesukaran dikelompokkan menjadi lima kelompok seperti kategori di atas, maka butir soal dikatakan mempunyai tingkat kesukaran sedang apabila indeks kesukaran berada antara 0,40 – 0,59.
Untuk menghitung taraf kesukaran soal dari suatu tes, kita perlu terlebih dahulu mengelompokkan hasil tes tersebut menjadi tiga kelompok berdasarkan peringkat dari keseluruhan skor yang kita peroleh, yaitu:
- Kelompok pandai atau upper group (25% dari peringkat bagian atas)
- Kelompok kurang atau lower group (25% dari peringkat bagian bawah), dan
- Kelompok sedang atau middle group (50% dari peringkat bagian tengah)
Yang kita perlukan dalam analisis soal selanjutnya adalah kelompok pandai (upper group) dan kelompok kurang (lower group), sedangkan kelompok yang sedang (middle group) kita biarkan.
Untuk menghitung taraf kesukaran, dipergunakan rumus sebagai berikut:
TK=(U+L)/T
Keterangan:
TK = Indeks TK atau tingkat kesukaran yang dicari
U = Jumlah siswa yang termasuk kelompok pandai (Upper Group) yang menjawab benar untuk tiap soal
L = Jumlah siswa yang temasuk kedalam kelompok kurang (Lower Group) yang menjawab benar untuk tiap soal
T = Jumlah siswa dari kelompok pandai dan kurang pandai
Adapun rumus lain yang paling umum digunakan, dan lebih disukai oleh penulis adalah:
p = proporsi menjawab benar atau tingkat kesukaran
∑ x = banyaknya peserta tes yang menjawab benar
Sm = skor maksimum
N = jumlah peserta tes
Untuk mendapat analisis yang baik, seharusnya jumlah soal paling tidak 40-50 dan jumlah peserta tes paling tidak 400 orang.
Berikut contoh penskoran 10 soal pilihan ganda dengan respon 36 peserta tes. Jawaban yang benar diberi skor 1 dan jawaban yang salah di berikan skor 0.
2. Daya Pembeda Soal
Yang dimaksud dengan daya pembeda suatu soal tes ialah bagaimana kemampuan soal itu untuk membedakan siswa-siswa yang termasuk kelompok pandai (Upper Group) dengan siswa-siswa yang termasuk kelompok kurang (Lower Group).
Seyogyanya ada butir soal yang sedemikian kualitasnya sehingga:
- Tidak dapat dijawab baik oleh siswa kelompok atas maupun siswa kelompok bawah, atau
- Dapat dijawab benar oleh siswa kelompok atas tetapi tidak dapat dijawab benar oleh siswa kelompok bawah.
Sebagaimana halnya dengan tingkat kesukaran, penggunaan indeks daya pembeda untuk menyeleksi soal pun tidak dapat diterima sepenuhnya.
Tes dikatakan tidak memiliki daya pembeda apabila tes tersebut jika diujikan kepada anak berprestasi tinggi, hasilnya rendah, tetapi bila diberikan kepada anak yang lemah hasilnya lebih tinggi. Atau bila diberikan kepada kedua kategori siswa tersebut hasilnya sama saja.
Jadi, soal yang tidak punya daya pembeda, tidak akan menghasilkan gambaran hasil yang sesuai dengan kemampuan siswa yang sesungguhnya.
Benar-benar aneh bila anak pandai tidak lulus, sedangkan anak yang kurang pandai lulus dengan baik, tanpa dilakukan manipulasi oleh si penilai atau dilur faktor kebetulan.
Jadi, untuk menghasilkan daya pembeda yang benar dan efektif bagi soal, tentu harus diperhatikan tingkat kemampuan anak/peserta didik yang akan diuji.
Jika kita realistiskan, tentu seorang siswa yang termasuk dalam kategori lemah atau kurang pandai tentu sulit dalam menjawab soal-soal yang taraf kesukarannya sulit.
Begitupun sebaliknya, siswa yang termasuk dalam kategori pandai otomatis dapat menjawab soal atau item yang kategorinya susah. Maka dari itu, disinilah letak keberhasilan penggunaan daya pembeda, yaitu mesti sesuai dengan hipotesa sederhana dan realitas yang ada.
Angka yang menunjukkan besarnya daya pembeda berkisar antara -1 sampai dengan +1. Tanda negatif menerangkan bahwa peserta tes yang kemampuannya rendah mampu menjawab butir soal dengan benar, sedangkan peserta tes yang kemampuannya tinggi malah menjawab salah.
Dengan demikian, soal indeks yang daya pembedanya negatif menunjukkan terbaliknya kualitas peserta tes.
Cara yang biasa dilakukan dalam analisis daya pembeda adalah dengan menggunakan tabel atau kriteria dari Rose dan Stanley.
Rumusnya adalah: (SR-ST)
Contoh:
Tes pilihan ganda dengan option 4 diberikan kepada 30 orang siswa. Jumlah soal 15. Setelah diperiksa, datanya adalah sebagai berikut:
Data Tes Pilihan Ganda dengan Option 4
No. Soal |
Jumlah siswa yang
menjawab salah |
Jumlah siswa yang
menjawab salah |
SR-ST |
kelompok rendah
(SR) |
kelompok tinggi
(ST) |
||
1 |
6 |
1 |
5 |
2 |
6 |
1 |
5 |
3 |
5 |
2 |
3 |
4 |
6 |
1 |
5 |
5 |
2 |
1 |
1 |
6 |
5 |
1 |
4 |
7 |
2 |
1 |
1 |
8 |
7 |
1 |
6 |
9 |
7 |
1 |
6 |
10 |
4 |
2 |
2 |
11 |
3 |
1 |
3 |
12 |
6 |
1 |
5 |
13 |
2 |
1 |
1 |
14 |
6 |
1 |
5 |
15 |
5 |
2 |
3 |
N= 30 orang N= 27 % dari 30 = 8
Kriteria yang digunakan dari Tabel Ross dan Stanley adalah:
Jumlah Testi (N) |
n (27% N) |
Option |
|||
2 |
3 |
4 |
5 |
||
28-31 |
8 |
4 |
5 |
5 |
5 |
32-35 |
9 |
5 |
5 |
5 |
5 |
36-38 |
10 |
5 |
5 |
5 |
5 |
dst |
|
|
|
|
|
Kriteria pengujian daya pembeda adalah:
Bila SR-ST sama atau lebih besar dari nilai tabel, artinya butir soal itu mempunyai daya pembeda.
Dari data di atas, batas pengujian adalah 5, yakni yang pertama dalam tabel di atas dengan jumlah N (28-31), n = 8 pada option 4.
Dengan demikian, dapat disimpulkan sebagai berikut:
Hasil Perhitungan Daya
Pembeda Dengan Kriteria Ross dan Stanley
No. Item |
SR-ST |
Batas Nilai Tabel |
Ket. |
1 |
5 |
5 |
diterima |
2 |
5 |
5 |
diterima |
3 |
3 |
5 |
ditolak |
4 |
5 |
5 |
diterima |
5 |
1 |
5 |
ditolak |
6 |
4 |
5 |
ditolak |
7 |
1 |
5 |
ditolak |
8 |
6 |
5 |
diterima |
9 |
6 |
5 |
diterima |
10 |
2 |
5 |
ditolak |
11 |
2 |
5 |
ditolak |
12 |
5 |
5 |
diterima |
13 |
1 |
5 |
ditolak |
14 |
5 |
5 |
diterima |
15 |
3 |
5 |
ditolak |
Kalau kita menyimpulkan data dan angka di atas, maka dapat direngkuh gagasan bahwa hanya soal nomor 1, 2, 4, 8, 9, 12 dan 14 yang memenuhi daya pembeda, sedangkan sisanya tidak punya daya pembeda.
3. Distraktor (Pengecoh)
Instrumen evaluasi yang berbentuk tes dan objektif harus mempunyai distraktor yang efektif. Yang dimaksud distraktor, atau disebut pengecoh yaitu opsi-opsi yang bukan merupakan kunci jawaban.
Suatu distraktor disebut efektif apabila mampu menarik minat testee atau ada yang memilihnya.
Semakin banyak pemilihnya, semakin efektif distaktor itu. Namun, perlu dicermati jika lebih dari 50 % peserta tes ”terkecoh” menandakan distraktor itu tidak baik (terlalu efektif), sebab jika demikian berarti ada siswa kelompok atas yang terkecoh.
Ini jika ditambah dengan daya pembeda yang negatif semakin menunjukkan bahwa distraktor itu tidak efektif dan berarti item itu tidak baik kualitasnya.
Untuk meningkatkan efektivitas distraktor tersebut dapat ditempuh beberapa cara. Diantaranya adalah menjaga homoginitas seluruh opsi.
Artinya seluruh opsi harus termasuk dalam satu varian atau satu variabel. Selain itu, opsi-opsi itu perlu dipilih dan ditata sedemikian rupa sehingga membentuk paralel. Jika berupa angka maka berupa angka semua.
Jika merupakan kata sifat yang berakhiran if, seperti kualitatif, konservatif, maka seluruh opsi juga demikian. Bahkan panjang pendek opsi itu juga perlu menjadi perhatian. Jangan sampai ada opsi yang sangat pendek. Sementara opsi yang lainnya panjang. Padahal dalam item yang sama.
Penting untuk diperhatikan bahwa efektivitas distraktor tidak boleh mengakibatkan kunci ganda dalam satu item, jika mestinya hanya satu opsi yang benar untuk setiap opsi. Jika ini terjadi bukan efektivitas distraktor yang diperoleh, namun item cacat yang didapat.
O ya, ada 3 aturan pengecoh yang perlu kita cermati:
- Diterima, karena sudah baik
- Ditolak, karena tidak baik
- Ditulis kembali, karena kurang baik
Pola Jawaban Analisis Distraktor Item
Pilihan Jawaban |
a |
B |
c* |
D |
O |
Jumlah |
Kelompok Atas |
5 |
15 |
7 |
3 |
0 |
30 |
Kelompok Bawah |
8 |
6 |
8 |
5 |
3 |
30 |
Jumlah |
13 |
21 |
15 |
9 |
3 |
60 |
C, diberi tanda (*) adalah kunci jawaban
O = Omit (yang tidak memilih pilihan jawaban apapun)
Dari pola jawaban soal tersebut dapat dicari:
P = 21/60 = 0,35
D = PA – PB = 15/30-6/30=9/30 = 0,30
Distraktor: semua distraktornya sudah berfungsi dengan baik karena sudah dipilih oleh lebih dari 5% pengikut tes.
Dilihat dari segi omit (kolom pilihan paling kanan) adalah baik.
Sebuah item dikatakan baik jika omitnya tidak lebih dari 10% pengikut tes. (5% dari pengikut tes = 5% x 60 orang = 3 orang).
Sebenarnya ketentuan ini hanya berlaku untuk tes pilihan ganda dengan 5 alternatif dan P = 0,80. Tetapi demi praktisnya diberlakukan untuk semua.
***
Demikianlah sajian konsep dasar dan cara analisis butir soal. Sejatinya tiap guru perlu bersandar pada butir-butir soal yang berkualitas dalam mengevaluasi peserta didik.
Secara, semakin bagus kualitas soal yang disajikan, maka semakin terang dan valid pula hasil evaluasi yang didapat. Nantinya, hasil dari evaluasi tersebut dapat kita jadikan landasan untuk mencipta cara mengajar yang lebih efektif.
Salam.
Ditulis oleh Ozy V. Alandika
Taman Baca:
Abdullah, Shodiq. (2012). Evaluasi Pembelajaran. Semarang: Pustaka Rizki Putra
Arikunto, Suharsimi. (Arikunto). Dasar-Dasar Evaluasi Pendidikan, Jakarta: Bumi Aksara
Daryanto. (2008). Evaluasi Pendidikan. Jakarta: Rineka Cipta
Mulyadi. (2010). Evaluasi Pendidikan. Malang: UIN-Maliki Press
Purwanto, Ngalim. (2013). Prinsip-Prinsip dan Teknik Evaluasi Pengajaran. Bandung: Ramaja Rosdakarya
Silverius, Suke. (1991). Evaluasi Hasil Belajar dan Umpan Balik. Jakarta: Grasindo
Sudiyono, Anas. (2005). Pengantar Evaluasi Pendidikan. Jakarta: RajaGrafindo Persada
Sudjana, Nana. (2009). Penilaian Hasil Proses Belajar Mengajar. Bandung: Remaja Rosdakarya
Surapratana, Sumarna. (2004). Analisis Validitas, Reliabilitas, dan Interpretasi Hasil Tes. Bandung: Remaja Rosdakarya
Thoha, M. Chabib. (1996). Teknik Evaluasi Pendidikan. Jakarta: RajaGrafindo Persada
Widoyoko, S. Eko Putro. (2010). Evaluasi Program Pembelajaran. Yogyakarta: Pustaka Pelajar
3 komentar untuk "Konsep Dasar dan Cara Analisis Butir Soal dalam Mengevaluasi Peserta Didik"
https://kata-h.blogspot.com/2020/10/peran-santri-membangun-negeri.html
Makasih bang guru
Berkomentarlah sesuai dengan postingan artikel. Mohon maaf, link aktif di kolom komentar tidak akan disetujui.
Diperbolehkan mengutip tulisan di blog Guru Penyemangat tidak lebih dari 30% dari keseluruhan isi (1) artikel dengan syarat menyertakan sumber. Mari bersama-sama kita belajar menghargai karya orang lain :-)