%L UNY89842 %K Asesmen, bahasa Arab, DIF, keadilan, kalibrasi soal %T Kalibrasi Soal Ujian Akhir Semester Mata Pelajaran Bahasa Arab Di SMA Muhammadiyah Daerah Istimewa Yogyakarta. %D 2025 %I Sekolah Pascasarjana %A Anugrah Arya Bakti %A Marzuki Marzuki %X Penelitian ini bertujuan untuk: (1) mengevaluasi karakteristik butir soal Ujian Akhir Semester (UAS) mata pelajaran Bahasa Arab ditinjau dari Teori Tes Klasik dan Teori Respons Butir, serta (2) menguji keadilan asesmen melalui deteksi keberfungsian butir diferensial (Differential Item Functioning/DIF) berdasarkan karakteristik siswa meliputi gender, jurusan, dan wilayah asal. Penelitian ini dilatarbelakangi oleh pentingnya memastikan bahwa instrumen evaluasi yang digunakan dalam pendidikan bersifat adil, objektif, serta bebas dari bias yang dapat merugikan kelompok tertentu. Penelitian ini menggunakan pendekatan kuantitatif deskriptif. Desain penelitian meliputi analisis terhadap data hasil UAS Bahasa Arab siswa kelas XII dari beberapa SMA Muhammadiyah di wilayah Daerah Istimewa Yogyakarta. Subjek penelitian adalah siswa kelas XII yang mengikuti UAS Bahasa Arab pada tahun ajaran 2022/2023. Data dikumpulkan melalui dokumentasi lembar jawaban siswa. Instrumen berupa butir soal pilihan ganda dianalisis menggunakan perangkat lunak R dan Microsoft Excel. Validitas isi diperoleh melalui penilaian ahli (expert judgment), sedangkan reliabilitas dihitung menggunakan koefisien Alpha Cronbach. Teknik analisis data mencakup pendekatan Teori Tes Klasik (TTK), Teori Respons Butir (TRB), serta deteksi DIF menggunakan metode regresi logistik (non-IRT), Mantel- Haenszel, dan Lord’s chi-square (IRT). Hasil penelitian menunjukkan bahwa: (1) sebagian besar butir soal tergolong valid dan reliabel. Namun demikian, ditemukan sejumlah butir yang mengindikasikan keberfungsian diferensial (DIF): sebanyak 20 butir berdasarkan gender dengan regresi logistik, 4 butir dengan metode Mantel-Haenszel, dan 11 butir dengan metode Lord, (2) Selain itu, teridentifikasi 23 butir menunjukkan DIF berdasarkan jurusan dan 37 butir berdasarkan wilayah asal siswa. Kesimpulan dari penelitian ini adalah bahwa meskipun instrumen secara umum berkualitas baik, terdapat beberapa butir yang berpotensi menimbulkan bias dan perlu direvisi. Oleh karena itu, disarankan agar dilakukan evaluasi rutin terhadap butir soal berbasis analisis DIF guna menjamin keadilan dalam proses evaluasi pembelajaran.