Meta’s Cicero chatbot mungkin bisa mengalahkan Anda di Diplomacy • The Register

Peneliti meta telah mengembangkan sistem kecerdasan buatan yang disebut Cicero yang dapat memainkan permainan strategi klasik Diplomasi pada tingkat yang sebanding dengan kebanyakan pemain manusia.

Itu adalah pencapaian yang signifikan dalam pemrosesan bahasa alami dan yang dapat membantu orang melupakan debut minggu lalu Galaksimodel bahasa besar Meta boffins dilatih pada makalah ilmiah itu menyajikan kebohongan sebagai fakta dan dulu diambil offline setelah tiga hari kritik dari komunitas sains.

Dikembangkan pada 1950-an dan saat ini diterbitkan oleh Hasbro, Diplomasi berfokus pada komunikasi dan negosiasi antar pemain, yang berperan sebagai tujuh kekuatan Eropa pada awal abad ke-20. Ini dilihat oleh beberapa gamer sebagai cara ideal untuk kehilangan teman.

Gim ini mensimulasikan pengambilan wilayah di peta Eropa. Alih-alih bergiliran, pemain menulis gerakan mereka terlebih dahulu dan mengeksekusinya secara bersamaan. Untuk menghindari gerakan yang terhalang karena lawan melakukan gerakan balasan, pemain berkomunikasi satu sama lain secara pribadi. Mereka mendiskusikan potensi tindakan terkoordinasi dan kemudian melakukan gerakan mereka di atas kertas, menjaga atau melanggar komitmen kepada pemain lain.

Fokus diplomasi pada komunikasi, kepercayaan, dan pengkhianatan menjadikannya tantangan yang berbeda dari game yang lebih berfokus pada aturan dan sumber daya seperti Chess and Go. Cicero pada dasarnya adalah chatbot yang dapat bernegosiasi dengan pemain Diplomasi lainnya untuk melakukan gerakan yang efektif dalam permainan.

Tangkapan layar dialog Cicero

Tangkapan layar dialog Cicero – Klik untuk memperbesar

“Diplomasi telah dipandang selama beberapa dekade sebagai tantangan besar yang hampir mustahil dalam AI karena mengharuskan pemain untuk menguasai seni memahami motivasi dan perspektif orang lain; membuat rencana yang rumit dan menyesuaikan strategi; dan kemudian menggunakan bahasa alami untuk mencapai kesepakatan dengan orang lain. , yakinkan mereka untuk membentuk kemitraan dan aliansi, dan lainnya,” jelas Meta dalam sebuah posting blog.

“Cicero sangat efektif dalam menggunakan bahasa alami untuk bernegosiasi dengan orang-orang dalam Diplomasi sehingga mereka lebih suka bekerja dengan Cicero daripada peserta manusia lainnya.”

Cicero didasarkan pada parameter 2,7 miliar BART-seperti model bahasa dilatih sebelumnya pada teks dari internet dan ditambah menggunakan kumpulan data lebih dari 40.000 game Diplomasi yang dimainkan online di webDiplomacy.net. Permainan ini berisi lebih dari 12 juta pesan yang dipertukarkan antar pemain.

Keluaran dialog agen AI terkait dengan modul penalaran strategisnya yang menciptakan “maksud” yang mewakili serangkaian gerakan yang mungkin dilakukan oleh berbagai pemain.

“Untuk menghasilkan maksud dialog dan memilih tindakan akhir untuk memainkan setiap giliran, Cicero menjalankan modul penalaran strategis yang memprediksi kebijakan pemain lain (yaitu, distribusi probabilitas atas tindakan) untuk giliran saat ini berdasarkan keadaan dewan. dan dialog bersama, dan kemudian memilih kebijakan untuk dirinya sendiri untuk giliran saat ini yang merespons secara optimal kebijakan prediksi pemain lain, “jelas para peneliti Meta dalam sebuah Artikel penelitian ilmiah.

Jika agen AI untuk game seperti Catur dapat dilatih melalui permainan mandiri menggunakan pembelajaran penguatan, pemodelan permainan kooperatif Diplomasi membutuhkan teknik yang berbeda. Menurut Meta, pendekatan klasik akan melibatkan pembelajaran yang diawasi, di mana seorang agen akan dilatih menggunakan data berlabel dari permainan Diplomasi sebelumnya. Tetapi pembelajaran yang diawasi saja menghasilkan agen AI yang mudah tertipu yang dapat dengan mudah dimanipulasi oleh pemain yang berbohong.

Jadi Cicero menyertakan algoritme perencanaan berulang yang disebut piKL yang menyempurnakan prediksi awal kebijakan pemain lain dan gerakan terencana berdasarkan dialog antara bot dan pemain lain. Algoritme mencoba untuk meningkatkan set gerakan yang diantisipasi untuk pemain lain dengan mengevaluasi pilihan berbeda yang akan menghasilkan hasil yang lebih baik.

Dalam sebuah pernyataan, Andrew Goff, juara dunia Diplomasi tiga kali, memuji pendekatan tanpa gairah Cicero terhadap permainan. Banyak pemain manusia akan melunakkan pendekatan mereka atau mereka akan mulai termotivasi oleh balas dendam, tetapi Cicero tidak pernah melakukan itu, kata Goff. “Itu hanya memainkan situasi seperti yang dilihatnya. Jadi kejam dalam mengeksekusi strateginya tetapi tidak kejam dengan cara yang mengganggu pemain lain.”

Cicero memainkan 40 game Diplomasi secara anonim dalam liga “blitz” di webDiplomacy.net antara 19 Agustus dan 13 Oktober 2022, dan finis di 10 persen peserta teratas yang memainkan lebih dari satu game. Dan di antara 19 pemain yang memainkan lima pertandingan atau lebih, Cicero finis kedua. Untuk semua 40 pertandingan, skor rata-rata Cicero adalah 25,8 persen, lebih dari dua kali rata-rata 12,4 persen di antara 82 lawannya.

Sementara Cicero masih membuat beberapa kesalahan, Meta’s boffins mengantisipasi penelitian mereka akan terbukti berguna untuk aplikasi lain seperti chatbots yang mampu melakukan percakapan jangka panjang atau karakter video game yang memahami motivasi pemain dan sebagai hasilnya dapat berinteraksi lebih efektif.

Kode Cicero adalah dirilis di bawah lisensi open source dengan harapan komunitas pengembang AI dapat meningkatkannya lebih lanjut. ®

Leave a Comment