ChatGPT diperkenalkan hanya tujuh minggu yang lalu, tetapi AI telah mendapatkan hype seumur hidup. Siapa pun dapat menebak apakah teknologi khusus ini membuka kimono AI untuk selamanya atau hanya sekejap sebelum musim dingin AI berikutnya tiba, tetapi satu hal yang pasti: Ini memulai percakapan penting tentang AI, termasuk tingkat transparansi apa yang harus kita harapkan saat bekerja. dengan AI dan cara mengetahuinya saat berbohong.
Sejak diluncurkan pada 30 November, model bahasa terbaru OpenAI, yang dilatih pada kumpulan pengetahuan manusia yang sangat besar, telah menunjukkan kemampuan luar biasa untuk menghasilkan respons yang menarik terhadap permintaan berbasis teks. Itu tidak hanya rap seperti Snoop Dogg dan sajak seperti Nick Cave (yang membuat penulis lagu sangat kecewa ), tetapi juga memecahkan masalah matematika yang rumit dan menulis kode komputer.
Sekarang ChatGPT dapat menghasilkan tulisan yang biasa-biasa saja dan (kebanyakan) benar, era esai siswa telah dinyatakan resmi berakhir. “Tidak ada yang siap untuk bagaimana AI akan mengubah akademisi,” tulis Stephen Marche dalam “The College Essay Is Dead,” yang diterbitkan bulan lalu. Marche menulis: “Mengikuti pengalaman saya sebagai mantan profesor Shakespeare, menurut saya akan memakan waktu 10 tahun bagi akademisi untuk menghadapi kenyataan baru ini: dua tahun bagi siswa untuk mengetahui teknologinya, tiga tahun lagi bagi profesor untuk mengakui bahwa siswa menggunakan teknologi, dan kemudian lima tahun bagi administrator universitas untuk memutuskan apa, jika ada, yang harus dilakukan. Guru sudah termasuk orang yang paling banyak bekerja dan bergaji rendah di dunia. Mereka sudah berurusan dengan humaniora dalam krisis. Dan sekarang ini. Saya merasa untuk mereka.
Mungkin saja Marche sedikit melenceng dari waktunya. Sebagai permulaan, sekolah sudah mulai menanggapi ancaman plagiarisme yang ditimbulkan oleh ChatGPT, dengan larangan diberlakukan di distrik sekolah umum di Seattle, Washington, dan New York City. Dan berkat kemajuan teknologi tanpa henti yang sama yang memberi kami ChatGPT, kami mendapatkan kemampuan untuk mendeteksi ketika AI generatif sedang digunakan.
Selama akhir pekan, berita mulai beredar tentang alat yang dapat mendeteksi kapan ChatGPT digunakan untuk menghasilkan sedikit teks tertentu. Dijuluki GPTZero, alat ini ditulis oleh Edward Tian, yang merupakan jurusan ilmu komputer di Universitas Princeton di New Jersey.
“Saya menghabiskan Tahun Baru membangun GPTZero — sebuah aplikasi yang dapat dengan cepat dan efisien mendeteksi apakah sebuah esai adalah ChatGPT atau ditulis oleh manusia,” tulis Tian di Twitter . “[T] motivasinya di sini adalah meningkatkan plagiarisme AI. [T]berpikir apakah guru sekolah menengah ingin siswa menggunakan ChatGPT untuk menulis esai sejarah mereka? [L] sepertinya tidak.”
Alat tersebut bekerja dengan menganalisis dua karakteristik teks: tingkat “kebingungan” dan tingkat “kebocoran”, menurut sebuah artikel di NPR . Tian menentukan bahwa ChatGPT cenderung menghasilkan teks yang memiliki tingkat kerumitan lebih rendah daripada teks buatan manusia. Dia juga menemukan bahwa ChatGPT secara konsisten menghasilkan kalimat yang panjangnya lebih konsisten dan tidak terlalu “meledak” dibandingkan manusia.
GPTZero tidak sempurna (tidak ada AI), tetapi dalam demonstrasi, tampaknya berhasil. Pada hari Minggu, Tian mengumumkan di substack-nya bahwa dia sedang dalam pembicaraan dengan dewan sekolah dan dana beasiswa untuk menyediakan versi baru alat tersebut, yang disebut GPTZeroX, ke 300.000 sekolah dan dana beasiswa. “Jika organisasi Anda mungkin tertarik, beri tahu kami,” tulisnya.
Melacak halusinasi
Sementara itu, pengembang lain sedang membangun alat tambahan untuk membantu masalah lain yang terungkap dengan meroketnya ketenaran ChatGPT: halusinasi.
“Model bahasa besar apa pun yang diberi masukan atau prompt–itu bukan pilihan–itu akan berhalusinasi,” kata Peter Relan, salah satu pendiri dan ketua Got It AI, sebuah perusahaan Silicon Valley yang mengembangkan percakapan khusus Solusi AI untuk klien.
Secara kasar, tingkat halusinasi untuk ChatGPT adalah 15% hingga 20%, kata Relan. “Jadi 80% dari waktu, itu berhasil, dan 20% dari waktu, itu menghasilkan sesuatu,” katanya kepada Datanami . “Kuncinya di sini adalah mencari tahu kapan itu [berhalusinasi], dan pastikan Anda memiliki jawaban alternatif atau respons yang Anda berikan kepada pengguna, versus halusinasinya.”
Got It AI minggu lalu mengumumkan pratinjau pribadi untuk komponen pengecekan kebenaran baru dari Autonomous Articlebot, salah satu dari dua produk di perusahaan. Seperti ChatGPT, pemeriksa kebenaran perusahaan juga didasarkan pada model bahasa besar yang dilatih untuk mendeteksi ketika ChatGPT (atau model bahasa besar lainnya) mengatakan kebohongan.
Pemeriksa kebenaran yang baru saat ini 90% akurat, menurut Relan. Jadi jika ChatGPT atau model bahasa besar lainnya digunakan untuk menghasilkan respons 100 kali dan 20 di antaranya salah, pemeriksa kebenaran akan dapat menemukan 18 pemalsuan tersebut sebelum jawaban dikirim ke pengguna. Itu secara efektif meningkatkan tingkat akurasi ChatGPT hingga 98%, kata Relan.
“Sekarang kamu berada dalam kisaran yang dapat diterima. Kami syuting untuk 95% berikutnya, ”katanya. “Jika Anda dapat mendeteksi 95% dari halusinasi tersebut, Anda hanya memiliki satu dari 100 respons yang masih tidak akurat. Sekarang Anda menggunakan sistem kelas perusahaan yang nyata.”
OpenAI, pembuat ChatGPT, belum merilis API untuk model bahasa besar yang menarik perhatian dunia. Namun, model dasar yang digunakan oleh ChatGPT dikenal sebagai GPT-3, yang memiliki API. Pemeriksa kebenaran Got It AI dapat digunakan sekarang dengan rilis terbaru GPT-3, dijuluki davinci-003, yang dirilis pada tanggal 28 November.
“Model terdekat yang kami temukan di API adalah GPT-3 davinci,” kata Relan. “Itulah yang menurut kami mendekati apa yang digunakan ChatGPT di belakang layar.”
Masalah halusinasi tidak akan pernah sepenuhnya hilang dengan sistem AI percakapan, kata Relan, tetapi itu dapat diminimalkan, dan OpenAI membuat kemajuan di bidang itu. Misalnya, tingkat kesalahan untuk GPT-3.5 mendekati 30%, sehingga tingkat 20% dengan ChatGPT – yang Relan atributkan ke adopsi OpenAI dari loop umpan balik manusia pembelajaran penguatan (RLHF) – sudah merupakan peningkatan besar.
“Saya percaya bahwa OpenAI…akan menyelesaikan beberapa kecenderungan platform inti untuk berhalusinasi,” kata Relan. “Tapi itu model stokastik. Ini akan melakukan pencocokan pola dan menghasilkan sesuatu, dan kadang-kadang itu akan membuat barang. Itu bukan tantangan kita. Itulah tantangan OpenAI: Bagaimana mengurangi tingkat halusinasinya dari 20% menjadi 10% menjadi 5% menjadi sangat sedikit dari waktu ke waktu.”