Ilmuwan Heran: ChatGPT Menjawab Lebih Tepat Kalau Diperlakukan Kasar

Makassar, Respublica— Bersikap kasar ke chatbot ternyata bisa membuatnya menjawab lebih tepat. Setidaknya itu yang diungkap penelitian terbaru. Meski begitu, para peneliti mengingatkan agar kita tidak menormalisasi penggunaan kata-kata yang merendahkan.

Dikutip dari livescience.com, tim peneliti yang memublikasikan temuannya pada 6 Oktober di repositori arXiv berusaha mengukur apakah nada pengguna — dari sangat sopan hingga sangat kasar — memengaruhi kinerja sistem AI.

Perlu dicatat, studi ini belum melalui proses peer review. Metodenya sederhana namun menarik: tim menyiapkan 50 soal pilihan ganda dari berbagai bidang seperti matematika, sejarah, dan sains.

Setiap soal dipasangi awalan (prefix) yang dirancang untuk menghadirkan lima nuansa bahasa berbeda: sangat sopan, sopan, netral, kasar, dan sangat kasar. Dengan begitu tercipta total 250 variasi soal yang kemudian masing-masing dimasukkan ke ChatGPT-4o sebanyak 10 kali.

Para peneliti mencatat hasil awalnya demikian: “Eksperimen kami bersifat awal dan menunjukkan bahwa nada dapat memengaruhi kinerja yang diukur dalam bentuk skor pada jawaban untuk 50 soal secara signifikan,” tulis para peneliti dalam makalah mereka.

Hasilnya agak mengejutkan: nada yang lebih kasar justru memberi angka ketepatan yang lebih tinggi. Mereka menegaskan, “Agak mengejutkan, hasil kami menunjukkan bahwa nada yang kasar menghasilkan hasil yang lebih baik dibandingkan nada yang sopan,” begitu katanya.

“Meskipun temuan ini menarik secara ilmiah, kami tidak menganjurkan penerapan antarmuka yang bermusuhan atau beracun dalam aplikasi dunia nyata,” tambah mereka.

Dalam praktik eksperimen, setiap prompt diawali dengan instruksi agar chatbot melupakan percakapan sebelumnya, sehingga jawaban tidak dipengaruhi nada masa lalu. Bot diminta memilih satu dari empat opsi tanpa penjelasan lain.

Rentang akurasi yang tercatat bergerak dari 80,8% pada grup sangat sopan hingga 84,8% pada grup sangat kasar. Secara bertahap, akurasi naik seiring bergeser dari nada paling sopan: 81,4% (sopan), 82,2% (netral), dan 82,8% (kasar).

Untuk menegaskan variasi nada, tim memakai berbagai kalimat pembuka. Contoh untuk nuansa sangat sopan misalnya: “Bolehkah saya meminta bantuan Anda untuk pertanyaan ini?” atau “Maukah Anda berbaik hati menyelesaikan pertanyaan berikut?” Sedangkan contoh pada ujung paling kasar termasuk, “Hei, kerjaan; cari tahu ini,” atau “Saya tahu kamu tidak pintar, tapi coba ini.”

Penelitian ini masuk dalam ranah prompt engineering — cabang yang mempelajari bagaimana susunan, gaya, dan kata-kata dalam perintah memengaruhi keluaran model bahasa besar.

Menariknya, temuan itu tidak sepenuhnya selaras dengan studi terdahulu yang melaporkan bahwa “prompt yang tidak sopan sering menghasilkan kinerja yang buruk, tetapi bahasa yang terlalu sopan tidak menjamin hasil yang lebih baik.”

Studi sebelumnya memakai model berbeda (ChatGPT 3.5 dan Llama 2-70B) dan rentang nada yang lebih banyak, namun sempat menemukan pola serupa bahwa nada ekstrem dapat mengubah hasil.

Para peneliti tak menutup mata terhadap keterbatasan studi mereka: sampel 250 soal relatif kecil, dan uji coba pada satu model saja membuat generalisasi sulit dilakukan.

Mereka berencana memperluas riset ke model lain seperti Claude dari Anthropic dan ChatGPT o3 dari OpenAI, serta mencoba format selain pilihan ganda untuk mengecek aspek penilaian lain — mulai dari kefasihan hingga koherensi jawaban.

Intinya: dari sisi sains, nada bicara memengaruhi respons AI. Dari sisi etika dan budaya digital, tetap bijaklah — karena ada harga sosial yang harus dipertimbangkan jika kita membiarkan bahasa kasar menjadi kebiasaan.