Facebook Kembangkan Algoritma AI yang Belajar Bermain Poker dengan Cepat

Dini Listiyani ยท Rabu, 29 Juli 2020 - 20:06 WIB
Facebook Kembangkan Algoritma AI yang Belajar Bermain Poker dengan Cepat

Facebook Kembangkan Algoritma AI (Foto: Unsplash)

SAN FRANCISCO, iNews.id - Peneliti Facebook telah mengembangkan AI framework umum yang disebut Recursive Belief-based Learning (ReBeL). Teknologi ini dapat mencapai kinerja yang lebih baik dibanding manusia dalam permainan poker hold’em Texas tanpa batas.

Facebook menegaskan, ReBeL adalah langkah menuju pengembangan teknik universal untuk interaksi multi-agen. Dengan kata lain, algoritma umum yang dapat digunakan dalam skala besar, pengaturan multi-agen.

Aplikasi potensial menjalankan keseluruhan dari lelang, negosiasi, dan keamanan siber hingga mobil dan truk yang dapat dikendarai sendiri. Menggabungkan pembelajaran penguatan dengan pencarian di pelatihan model AI dan waktu uji telah menghasilkan sejumlah kemajuan, sebagaimana dikutip dari Venture Beats, Rabu (29/7/2020). 

Pembelajaran penguatan adalah di mana agen belajar untuk mencapai tujuan dengan memaksimalkan imbalan. Sedangkan, pencarian adalah proses navigasi dari awal ke tujuan. Misalnya, DeepZind’s AlphaZero menggunakan pembelajaran penguatan dan pencarian untuk mencapai kinerja canggih dalam game papa catur, shogi, dan Go.

Tapi, pendekatan kombinatorial menderita penalti kinerja saat diterapkan pada game informasi yang tidak sempurna seperti poker. Pasalnya, membuat sejumlah asumsi yang tidak berlaku dalam skenario ini.

Nilai dari setiap tindakan yang diberikan tergantung pada probabilitas itu dipilih. Lebih umum, pada keseluruhan strategi game. Peneliti Facebook mengusulkan ReBeL menawarkan perbaikan.

ReBeL dibangun di atas pekerjaan di mana gagasan tentang kondisi permainan diperluas untuk mencakup kayakinan para agen tentang keadaan mereka, berdasarkan pengetahuan umum dan kebijakan agen lain.

ReBeL melatih dua AI mode, jaringan nilai dan kebijakan untuk stage melalui pembelajaran penguatan game mandiri. Ini menggunakan kedua model untuk pencarian selama bermain sendiri.

Hasilnya, algoritma sederhana dan fleksibel yang diklaim peneliti mampu mengalahkan pemain manusia terbaik di game informasi berskala besar dan dua pemain yang tidak sempurna. Pada tingkat tinggi, ReBeL beroperasi pada bagian kepercayaan publik dibanding dunia.

Editor : Dini Listiyani