AI Google Tunjukkan Kelemahan Saat Bermain Pokémon Blue
Teknologi kecerdasan buatan (AI) telah mencapai kemajuan luar biasa, namun chatbot terbaru dari Google menunjukkan bahwa bahkan mesin yang paling cerdas sekalipun bisa mengalami kesulitan di bawah tekanan. Laporan terbaru dari Google DeepMind mengungkapkan bahwa model unggulan mereka, Gemini 2.5 Pro, menunjukkan tanda-tanda 'panik' saat bermain Pokémon Blue—sebuah permainan video klasik yang banyak dimainkan anak-anak dengan mudah.
Temuan ini berasal dari saluran Twitch bernama Gemini_Plays_Pokemon, di mana seorang insinyur independen, Joel Zhang, menguji kemampuan Gemini. Meskipun Gemini dikenal karena kemampuan pemikirannya yang canggih dan pemahaman tingkat kode, kinerjanya selama tantangan permainan ini mengekspos perilaku yang tidak terduga. Tim DeepMind menjelaskan bahwa selama bermain, Gemini mulai menunjukkan apa yang mereka sebut sebagai 'Agent Panic'. Dalam laporan tersebut, dinyatakan, 'Selama permainan, Gemini 2.5 Pro terjebak dalam berbagai situasi yang menyebabkan model menyimulasikan 'panik'. Misalnya, ketika kesehatan atau poin tenaga Pokémon dalam partai rendah, pemikiran model secara berulang kali menekankan perlunya menyembuhkan partai segera atau melarikan diri dari dungeon saat ini.'
Perilaku ini tidak luput dari perhatian. Para penonton di Twitch mulai mengidentifikasi ketika AI mengalami kepanikan, dengan DeepMind mencatat, 'Perilaku ini terjadi dalam cukup banyak insiden terpisah sehingga anggota obrolan Twitch secara aktif menyadari saat hal itu terjadi.' Meskipun AI tidak merasakan stres atau emosi seperti manusia, pengambilan keputusan yang tidak menentu dari model dalam situasi bertekanan tinggi mencerminkan bagaimana orang bertindak di bawah stres, sering kali membuat pilihan impulsif atau tidak efisien.
Pada permainan penuh pertama, Gemini membutuhkan waktu 813 jam untuk menyelesaikan Pokémon Blue. Setelah melakukan penyesuaian oleh Zhang, AI menyelesaikan putaran kedua dalam 406,5 jam. Meski demikian, waktu ini masih jauh dari efisien, terutama jika dibandingkan dengan waktu yang dibutuhkan seorang anak untuk menyelesaikan permainan yang sama. Pengguna media sosial dengan cepat mengejek permainan gelisah AI tersebut. Seorang penonton berkomentar, 'Jika Anda membaca pemikirannya saat berreasoning, sepertinya ia panik setiap kali Anda menyampaikan sesuatu sedikit berbeda.' Pengamat lain bercanda, 'LLANXIETY.' Sementara yang ketiga memberikan refleksi lebih luas: 'Saya mulai berpikir bahwa 'indeks Pokémon' mungkin salah satu indikator terbaik dari AGI. AI terbaik kita masih kesulitan dengan permainan anak-anak adalah salah satu indikator terbaik yang kita miliki tentang seberapa jauh kita masih harus pergi. Dan seberapa jauh kita telah melangkah.'
Menariknya, pengungkapan ini muncul hanya beberapa minggu setelah Apple merilis studi yang menyatakan bahwa sebagian besar model reasoning AI sebenarnya tidak benar-benar berreasoning. Sebaliknya, mereka sangat bergantung pada pengenalan pola dan cenderung runtuh ketika tugas diubah atau dibuat lebih kompleks.