AI Memenangkan Multi Player Poker Untuk Pertama Kalinya

Pluribus memenangkan sesi 12 hari di Texas holdem melawan beberapa pemain manusia terbaik dunia. Sebuah piala kemenangan lain untuk mesin. Sebuah kecerdasan buatan yang disebut Pluribus telah muncul sebagai pemenang dari sesi poker 12 hari maraton di mana ia bermain melawan lima profesional sekaligus.

Lebih dari 10.000 game Texas Hold’em tanpa batas, bentuk permainan yang paling populer, Pluribus memenangkan $ 48.000 (£ 38.000) virtual, mengalahkan lima pemain elit yang dipilih setiap hari dari kelompok yang setuju untuk mengikuti program. Semua pro sebelumnya telah memenangkan lebih dari $ 1 juta bermain game.

Apa yang dianggap sebagai pemukulan bagi umat manusia merupakan tonggak sejarah bagi AI. Tidak ada program komputer yang pernah mencapai kinerja manusia super melawan beberapa pemain poker. Cikal bakal Pluribus bernama Libratus membuat namanya dua tahun lalu dengan mengalahkan pemain-pemain top manusia, tetapi program itu hanya dimainkan satu lawan satu.

“Ini pertama kalinya AI mencapai kinerja manusia super dalam permainan multi-pemain,” kata Tuomas Sandholm, yang mengembangkan Pluribus dengan mahasiswa PhD-nya, Noam Brown di Carnegie Mellon University di Pittsburgh. Kemampuan untuk mengalahkan lima pemain sekaligus dalam permainan yang begitu kompleks berupa gertakan dan informasi tersembunyi membuka peluang baru bagi AI untuk mengatasi masalah dunia nyata, katanya.

Menurut Sandholm, algoritma ini memiliki potensi dalam aplikasi mulai dari perbankan investasi dan strategi negosiasi hingga penasaran dan memutuskan berapa banyak kandidat politik AS yang harus menghabiskan iklan di berbagai media di berbagai negara. Di laboratoriumnya, penelitian sedang dilakukan untuk menggunakan algoritma dalam rencana perawatan yang mengatur populasi sel-sel kekebalan tubuh yang tepat untuk melawan penyakit tertentu. Pekerjaan itu sebagian didanai oleh Kantor Penelitian Angkatan Darat AS.

Untuk menguasai Texas, Plemibus mengadopsi beberapa strategi mengejutkan, dan jelas-jelas bukan manusia, yang telah diadopsi oleh para profesional yang dimainkannya. Ini menggunakan ukuran taruhan yang sangat berbeda, strategi yang tampaknya sulit dilakukan manusia. Dan sementara manusia biasanya menghindari apa yang disebut “taruhan donk” – praktik mengakhiri babak pertama taruhan dengan panggilan dan membuka taruhan berikutnya dengan taruhan – Pluribus menganut taktik itu. Kebijaksanaan yang diterima dalam poker adalah bahwa taruhan donk adalah langkah lemah yang jarang masuk akal. Pluribus menemukan sebaliknya. “Aku tidak memahaminya, tetapi Pluribus memahaminya,” kata Sandholm.

Dalam tantangan komputer dan manusia yang lain, program ini mengalahkan dua profesional, Darren Elias, yang memegang rekor untuk sebagian besar gelar Tur Poker Dunia, dan Chris Ferguson, yang telah memenangkan enam turnamen Seri Dunia Poker. Kekalahan datang setelah masing-masing bermain 5.000 tangan melawan lima salinan AI.

Kecerdasan buatan telah melampaui manusia dalam permainan seperti catur dan Go, tetapi dalam permainan ini pemain dapat melihat posisi semua bagian; tidak ada informasi yang disembunyikan dari mereka. Dalam poker, pemain hanya memiliki informasi parsial dan sejumlah lawan yang berpotensi menggertak, menjadikannya tantangan AI yang jauh lebih sulit.

Pluribus belajar poker dengan memainkan salinannya sendiri. Mulai dari awal, dan bermain secara acak pada awalnya, program ini terus meningkatkan kinerjanya. Setelah delapan hari, ia menyusun “strategi cetak biru”, yang digunakannya untuk ronde pertaruhan pertama. Untuk putaran selanjutnya, Pluribus melihat ke depan untuk mengasah strateginya. Hal ini bertujuan agar tidak salah menangkal lawan-lawannya.

Program ini berjalan pada dua prosesor Intel Haswell dan menggunakan 128GB sederhana saat bermain. Dalam permainan melawan dirinya sendiri, Pluribus membutuhkan waktu sekitar 20 detik untuk bermain, membuatnya dua kali lebih cepat dari seorang profesional biasa, tulis para ilmuwan dalam jurnal Science.

Sean Ruane, salah satu pemain yang mengambil Pluribus, menemukan program lawan yang tangguh. “Dalam permainan yang akan, lebih sering daripada tidak, menghadiahi Anda ketika Anda menunjukkan disiplin mental, fokus, dan konsistensi, dan tentu saja menghukum Anda ketika Anda tidak memiliki ketiganya, bersaing selama berjam-jam melawan bot AI yang jelas tidak Saya tidak perlu khawatir tentang kekurangan ini adalah tugas yang melelahkan. ”