Sebuah studi yang dilakukan bekerja sama antara Prolific , Potato , dan University of Michigan telah menjelaskan pengaruh signifikan demografi annotator pada pengembangan dan pelatihan model AI.
Studi ini menyelidiki dampak usia, ras, dan pendidikan pada data pelatihan model AI—menyoroti potensi bahaya bias yang tertanam dalam sistem AI.
“Sistem seperti ChatGPT semakin banyak digunakan oleh orang-orang untuk tugas sehari-hari,” jelas asisten profesor David Jurgens dari University of Michigan School of Information.
“Tapi nilai-nilai siapa yang kita tanamkan dalam model terlatih? Jika kami terus mengambil sampel yang representatif tanpa memperhitungkan perbedaan, kami terus meminggirkan kelompok orang tertentu.”
Pembelajaran mesin dan sistem AI semakin mengandalkan anotasi manusia untuk melatih model mereka secara efektif. Proses ini, sering disebut sebagai ‘Human-in-the-loop’ atau Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF), melibatkan individu yang meninjau dan mengkategorikan output model bahasa untuk menyempurnakan kinerja mereka.
Salah satu temuan yang paling mencolok dari penelitian ini adalah pengaruh demografi pada pelabelan ofensif.
Penelitian menemukan bahwa kelompok ras yang berbeda memiliki persepsi yang berbeda-beda tentang serangan dalam komentar online. Misalnya, peserta kulit hitam cenderung menilai komentar lebih ofensif dibandingkan dengan kelompok ras lain. Usia juga berperan, karena peserta berusia 60 tahun atau lebih cenderung memberi label komentar sebagai ofensif daripada peserta yang lebih muda.
Studi tersebut melibatkan analisis 45.000 anotasi dari 1.484 anotator dan mencakup beragam tugas, termasuk deteksi ofensif, menjawab pertanyaan, dan kesopanan. Terungkap bahwa faktor demografis terus memengaruhi bahkan tugas objektif seperti menjawab pertanyaan. Khususnya, ketepatan dalam menjawab pertanyaan dipengaruhi oleh faktor-faktor seperti ras dan usia, yang mencerminkan perbedaan dalam pendidikan dan kesempatan.
Kesopanan, faktor penting dalam komunikasi interpersonal, juga dipengaruhi oleh demografi.
Wanita cenderung menilai pesan kurang sopan daripada pria, sementara peserta yang lebih tua cenderung memberikan peringkat kesopanan yang lebih tinggi. Selain itu, peserta dengan tingkat pendidikan yang lebih tinggi sering diberi peringkat kesopanan yang lebih rendah dan perbedaan diamati antara kelompok ras dan peserta Asia.