Oleh: Anindito Aditomo
Dalam tulisan sebelumnya saya memaparkan bias-bias yang kerap muncul ketika guru dan siswa diminta menilai kualitas pengajaran. Akibat bias-bias tersebut, skor hasil pengukuran tidak hanya memuat eror yang acak, tapi eror yang sistematis. Semakin besar eror sistematis dalam hasil pengukuran, semakin buruk validitasnya. Tulisan ini membahas lebih lanjut apa itu validitas hasil pengukuran.
Dalam hal ini saya mengambil perspektif validitas konstruk yang pertama dicetuskan oleh Cronbach dan Meehl (1955) dan terus dikembangkan sebagai bagian dari standar asesmen oleh organisasi-organisasi seperti AERA, NCME, dan APA. Dalam perspektif ini, validasi pengukuran adalah sebuah proses pengujian teori. Mengapa demikian? Hal ini akan lebih jelas jika kita ingat kaitan antara indikator dan konstruk laten.
Lompatan dari indikator ke konstruk laten
Pengukuran psikologis melibatkan inferensi dari indikator-indikator yang terlihat menuju simpulan tentang sebuah konstruk laten seperti kualitas pengajaran. Lompatan inferensial ini tidak mungkin sempurna. Simpulan kita tentang konstruk laten tidak mungkin 100% pasti. Karena itu kapan pun ada lompatan dari indikator ke konstruk laten, konsep validitas konstruk menjadi relevan. Validitas konstruk menjadi relevan when we wish to go beyond what we can observe.
Apakah validitas konstruk selalu relevan dalam pengukuran? Tidak. Kita bisa saja menggunakan indikator sebagai data. Dalam arti, menggunakan data bukan sebagai penanda dari sesuatu yang ada di balik indikator tersebut. Sebagai contoh, ijazah tertinggi bisa digunakan untuk mengukur tingkat pendidikan formal.
Ijazah tertinggi ==> Tingkat pendidikan formal
Perhatikan bahwa di sini (hampir) tidak ada lompatan inferensi. Tingkat pendidikan hanya sinonim saja dari ijazah tertinggi. Seseorang dengan ijazah tertinggi SMA kita sebut sebagai memiliki tingkat pendidikan SMA. Kita tidak sedang membuat lompatan dari indikator tampak ke hal yang bersifat lebih abstrak. Lain halnya jika kita ingin mengukur kemampuan bernalar, misalnya.
Ijazah tertinggi ==> Kemampuan bernalar
Ijazah tertinggi memang bisa saja digunakan sebagai indikator dari kemampuan bernalar. Catatannya adalah bahwa kemampuan bernalar bukan sinonim dari ijazah tertinggi. Dengan kata lain, ketika anda membuat simpulan tentang kemampuan bernalar seseorang berdasarkan ijazah tertingginya, anda sedang membuat inferensi dari indikator ke sebuah konstruk laten. Dari sesuatu yang tampak ke sesuatu yang bersifat teoretis.
Sekarang mari ambil contoh yang terkait dengan pengajaran. Katakanlah anda mengumpulkan data berupa keterlambatan masuk kelas. Data ini dikumpulkan untuk setiap hari untuk setiap guru. Di akhir semester, data tersebut bisa dijumlahkan dan digunakan sebagai indeks ketepatan waktu guru selama satu semester.
Keterlambatan masuk kelas ==> Ketepatan waktu dalam mengajar
Perhatikan bahwa ketepatan waktu dan keterlambatan hanya sinonim belaka. Tidak ada inferensi atau lompatan konseptual dari satu ke yang lainnya. Sekarang bayangkan jika data tersebut digunakan untuk mengukur kualitas pengajaran.
Keterlambatan masuk kelas ==> Kualitas pengajaran
Di sini ada lompatan konseptual dari data ke simpulan. Dengan kata lain, ada inferensi dari indikator ke konstruk laten yang ingin diukur. Keterlambatan dan kualitas pengajaran jelas bukan hal yang sama.
Teori dan validitas konstruk
Secara skematis, lompatan dari indikator ke konstruk laten bisa digambarkan seperti ini:
Validitas berbicara tentang seberapa kuat simpulan yang bisa diambil tentang sebuah konstruk berdasarkan observasi terhadap sekumpulan indikator. Dengan kata lain, validitas dikatakan tinggi ketika kita bisa dengan yakin membuat simpulan berdasarkan hasil sebuah pengukuran. Sebaliknya, validitas dikatakan rendah jika kita ragu-ragu tentang apa yang bisa disimpulkan dari hasil pengukuran.
Melanjutkan contoh di atas, misalkan saya ingin mengambil simpulan tentang guru-guru yang layak diberi penghargaan berdasarkan kualitas pengajarannya. Jika indikator yang saya gunakan hanya keterlambatan masuk kelas dari tiap guru, apakah saya bisa membuat simpulan yang kuat tentang kualitas pengajaran tiap guru dan siapa saja yang layak diberi penghargaan? Rasanya tidak.
Bagaimana cara agar hasil pengukuran memiliki validitas tinggi?
Dari perspektif validitas konstruk, hal pertama yang perlu dilakukan adalah merumuskan atau memetakan apa yang hendak diukur secara cermat. Apa esensi dari konstruk sasaran kita? Apa saja bagian-bagian utamanya? Apa saja indikator yang mencerminkan manifestasi dari tiap bagian konstruk tersebut? Proses ini adalah kebalikan dari proses inferensi.
Jika ingin mengukur kualitas pengajar, maka kita perlu punya gambaran yang jelas tentang apa itu pengajaran yang berkualitas. Rumusan atau peta konstruk sasaran lazimnya kita peroleh dari teori yang relevan.
Untuk kualitas pengajaran, ada beberapa teori yang bisa digunakan. Ada teori yang memotret kualitas pengajaran secara generik (umum) berdasarkan iklim atau suasana kelas. Termasuk di sini adalah teori tiga dimensi kualitas pengajaran yang diajukan oleh Klieme dkk [lihat artikel ini dan ini]. Kalau disederhanakan, pengajaran dikatakan berkualitas menurut teori ini ketika berhasil menciptakan iklim kelas yang memiliki tiga hal:
- struktur dan keteraturan yang memungkinkan siswa memusatkan perhatian pada materi belajar,
- dukungan afektif yang mendorong siswa untuk merasa nyaman dan menikmati proses belajar, dan
- aktivitas kognitif dan metakognitif yang relevan untuk tujuan belajar.
Dari uraian awal ini kita bisa mulai membayangkan bagaimana kualitas pengajaran akan diukur. Misalnya, kita tahu bahwa setidaknya ada tiga hal atau dimensi yang perlu diukur. Langkah selanjutnya adalah mengidentifikasi indikator yang tepat untuk tiap dimensi tersebut. Ini memerlukan pemahaman yang lebih rinci tentang teori tersebut dan penelitian-penelitian yang mendukungnya.
Tentu, teori tiga dimensi generik ini bukan satu-satunya teori yang bisa digunakan untuk mengukur kualitas pengajaran. Kelompok teori lain yang mendefinisikan kualitas pengajaran berdasarkan praktik yang diterapkan oleh guru. Dalam pendekatan ini, pengajaran dianggap berkualitas ketika menerapkan praktik-praktik tertentu yang menurut penelitian terbukti efektif membantu siswa belajar.
Misalnya, pengajaran yang melibatkan aktivitas inkuiri yang terstruktur dipandang efektif terutama untuk matematika dan sains. Menggunakan teori ini, kualitas pengajaran bisa diukur dengan melihat frekuensi dan jenis aktivitas inkuiri serta struktur/panduan yang digunakan oleh guru. Semakin sering guru menerapkan aktivitas inkuiri dengan panduan yang tepat, semakin baik kualitas pengajaran guru tersebut. Jika ingin menggunakan teori ini untuk mengukur kualitas pengajaran, kita perlu mengkaji literatur untuk mengidentifikasi aktivitas inkuiri dan panduan yang efektif untuk tujuan belajar tertentu.
Memilih teori
Jika ada beberapa alterantif, teori mana yang sebaiknya kita gunakan? Pada prinsipnya, teori yang baik adalah yang memiliki basis empiris yang kuat. Dengan kata lain, teori yang didukung oleh hasil penelitian ilmiah.
Selain itu, tentu kita ingin teori yang sesuai dengan keperluan. Jika anda perlu melihat kualitas pengajaran secara komprehensif pada berbagai pelajaran dan jenjang pendidikan, maka teori tiga dimensi generik mungkin cocok. Namun jika anda ingin melihat dampak pengajaran pada luaran kognitif pada pelajaran tertentu, mungkin anda lebih memerlukan teori tentang efektivitas praktik atau metode pengajaran pada pelajaran tersebut.
Sebagai penutup, tidak ada hasil pengukuran yang 100% valid. Sekuat apa pun teori yang digunakan, sebanyak apa pun indikator yang digunakan, dan sebaik apa pun instrumen serta prosedur yang diterapkan untuk mengumpulkan data, lompatan inferensial dari indikator ke konstruk laten tidak mungkin sempurna. Kuat lemah validitas inferensi ini selalu perlu dievaluasi dan dijustifikasi.