最近由卡耐基梅隆大学的两位学者Noam Brown and Tuomas Sandholm提出的AI模型Pluribus,在无限制德州扑克(手牌总数超过10000张)的六人比赛中,成功战胜了五名专家级人类玩家。目前这篇论文已经刊发在最新一期《科学》杂志上了。https://science.sciencemag.org/content/sci/early/2019/07/10/science.aay2400.full.pdf

Pluribus可谓开创了今年以来人工智能方面的两个新风。

一是今年以来AI界的主要成果基本都是大力出奇迹的风格,无论是NLP方面的GPT-2、XLNET,还是生成模型方面的VP-VAE-2其最终模型的训练成本都动辙要耗费数十万人民币。而Pluribus训练成本只有150美元(后面笔者会说明其训练量较少的原因)。是平民也能玩得起的模型。

二是这篇论文直接这被《科学》刊发,之前无论是横空出世的GPT-2,还是稳居自然语言处理方面C位的BERT,其论文都只发在了行业期刊上,而在我印象中这是《科学》杂志今年以来首次刊发人工智能方面的论文。

多人德扑难在哪里

多人德扑其实就是信息不完全情况下的多人博弈,在作者原文中以”柠檬水摊“游戏为例,这个游戏要求每位玩家同时在圆环形的柠檬水摊上选择一个点,并尽量远离其它玩家。在这种情况下几名玩家的联合纳什均衡是均匀的分布在摊位的周围,如下面的左图所示,相同颜色代表一组纳会均衡,不过在实在游戏过程中这几乎不可能完成,玩家独立做出的选择往往如下面的右图所示。

同时考虑到德扑是隐藏信息的博弈,如果考虑所有玩家隐藏信息中可能包括的全部情况,那么其计算量将是天文数字,绝不是150美元能解决的问题。

Pluribus的开创性工作

1.对于类似的策略进行压缩:其原文是这样描述的”For example, a ten-high straight and a nine-high straight are distinct hands, but are nevertheless strategically similar“虽然笔者不太了解德扑,但是可以肯定”ten-high straight and a nine-high straight“应该都是指非常好而且类似的两套手牌,这两种情况进行合并处理。

其实这个思想有点类似于VP-VAE-2算法当中的VP压缩思想,其实就是通过kmeans聚类对于临近的点进行合并压缩再向后输出,以此在保证精度的情况下,降低计算量。

2.使用改进版的MCCFR代替蒙特卡洛(CFR)进行迭代

Pluribus针对信息不对称博弈的特性改进了蒙特卡洛算法。上面的左图当中,使用玩家P1模拟进行游戏。中图则对于左图每一个P1决策点,都会探索P1可能采取的行动,选择具有更高收益和更高概率的行动。右图则是针对中间图中遇到的每一个决策点探索了P1可能采取的行动,然后选择更高收益的行动。这个过程不断重复,直到没有遇到新的P1决策点。所以这个过程可以看做是交互式的蒙特卡洛算法。

更加贴合不对称博弈的搜索方案

AI在完美信息博弈中一般使用实时搜索,来决定下一步如何行动。这种搜索算法会会考虑以后的子叶上所有可能的方案,直到算法的前瞻到达叶节点或深度的上限。

不过这不适用于不对称博弈,因为对手很多信息是隐藏的,所以在Pluribus之前AI不会假设对手会转移其策略到其它叶节点的情况。举个最简单的例子比如在石头、剪刀、布的游戏中如果你一直出剪子,那么AI就会假定你下面的行动还是出剪子。再比如在多人德扑的赛场上,如果一个参与者永远不会 bluff,那么AI总会在这个人加大注的情况下弃牌。这可能会导致一些弱点的出现,从而导致损失。

而在Pluribus模型中,并不假设参与者会进行单个固定策略的博弈,在搜索已经到叶节点时,研究者假设每一个参与者会从四个不同的策略(跟进、弃牌、叫牌、加注)中选择,从而进行剩余的博弈。

Pluribus的表现

在多人

上面的上图表示Pluribus的胜率,下面表示Pluribus记得筹码的数量,如果按照一般职业选手的每天经手的筹码换算,Pluribus每天至少能赚上千美元。

而考虑到其在算力上的各种精打细算,他们只用了一个064-core服务器512G的内存训练了12,400 CPU core hours,这总算也就需要不到150美元,绝对堪称赚钱神器,值得拥有。

充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志相关推荐

  1. 头条号三农领域原创视频日赚1000,自媒体领域选择哪个好?

    头条号三农领域原创视频日赚1000,自媒体领域选择哪个好? 如果你做头条不知道选什么领域,那么懒大咖现在推荐你试试三农领域,拍农村题材的视频可以赚到钱.为什么?因为确实有点火爆,我身边的朋友都已经轻松 ...

  2. 通过小红书精准引流女性粉丝,日赚1000+的网赚项目

    小红书的用户大多都是女性,而且粘性大,购买力强,在小红书既可以分享自己的种草笔记,又可以从别人的推荐中找到适合自己的产品,从而在小红书购买. 这样的循环让用户已经养成了习惯,当她们需要某一性能的产品时 ...

  3. 偏门赚钱日赚1000,这个创业项目我本来不想说的....

    小张是一个很低调的人,可能是因为跟他的性格有关,也有可能是因为跟他做的项目有关,或者说做互联网项目的人都很低调. 低调到不为人所知,但却偷偷的赚钱! 但这仅仅是白天的场景,窝在小房间里面足不出户,到了 ...

  4. 技术人如何打造出日赚1000+美元的赚钱利器(转https://gitbook.cn/gitchat/activity/58f8d110b75ae65904c10628?utm_source=csd)

    阅读全文:http://blog.maptoface.com/post/211 什么是赚钱利器 这里是指网络赚钱利器,用李笑来老师的话讲:『睡后收入』,躺着把钱给挣了.网络赚钱机器就意味着不工作有钱赚 ...

  5. 计算机论文大一范文1000字,【大一数学论文1000字6篇】_大一数学论文1000字范文大全_2021年大一数学论文1000字_东城教研...

    大一数学论文1000字 近日,出现了许多关于大一数学论文1000字的资讯,东城教研第一时间为您准备了这一期大一数学论文1000字专题.也察觉到了大学给人们带来的锻炼.[大一组织委员学期工作总结 ]文章 ...

  6. 【历史上的今天】4 月 12 日:Google 中文名称谷歌发布;Fire TV 问世;登上太空的计算器

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 4 月 12 日,每年的这一天是世界航天日,全名载人空间飞行国际日:在 1961 年的 4 月 12 ...

  7. 3个案例揭秘一个冷门吸粉渠道,有人在此操作日赚千元!

    最近,圈子里面的朋友都在讨论微视,一方面研究如何赚取微视30亿补贴,另一方面思考如何引流,第三是如何利用微视打造个人IP进行多层次多方式的变现! 抖音的成功让我们看到了一个新的红利项目:玩微视. ​ ...

  8. 80后屌丝站长自曝日赚6000(纯分享贴)

    前两天在朋友圈分享了本站长日赚6000的光辉事迹,没想到一个妹子都没引来,结果却招来一片骂声,总结一下有两类声音比较强烈:一是说我催牛逼不可信!二是说我经验分享得太少,未能解救仍处于贫下中农阶层的广大 ...

  9. 【思维进阶】思维碎片日更系列第1篇

    [一] 技术不值钱,会聊天才值钱,要学会帮别人解决问题. 怎么帮人解决问题?要利用大师的智慧去帮人. 怎么用?习惯建立自己强大的智慧数据库.习惯性搜集各种致富,成长故事.大咖的聊天记录,对话系统,各种 ...

  10. 技术写作,如何从日赚0.1元到日赚100元,内含CSDN专栏推广秘籍【赢在CSDN】

    感谢你选择阅读本篇博客,它不是标题党,而是一篇实实在在的赚钱操作手册 作为国内排名前三的技术博客社区,CSDN为各个级别的博主都设置了丰富的变现渠道,常见途径如下所示: 日常签到 CSDN付费专栏 C ...

最新文章

  1. [原]unity3d之http多线程异步资源下载
  2. AC日记——双栈排序 洛谷 P1155
  3. 【Python】远离 Python 最差实践,避免挖坑
  4. mysql utf8mb4 造成慢_mysql使用utf8mb4经验吐血总结
  5. 计数原理,递推,求从左边能看到l个棒子,右边能看到r个棒子的方案数目
  6. 数据结构员工通讯录管理系统 C语言,数据结构课程设计报告单位员工通讯录管理系统.doc...
  7. 如何选择自己适合的引流平台?
  8. JSP(二):JSP页面组成部分
  9. 24. Swap Nodes in Pairs 1
  10. 注意!SQLite被曝漏洞,Chrome 火狐等数千应用或受影响
  11. Drools规则引擎介绍及实践
  12. 各省份国内、入境旅游人数 (2007-2018年)
  13. 俄文输入法_【俄语怎么学】手把手教你使用俄语输入法
  14. win10系统找不到telnet服务器,win10系统找不到Telnet服务的技巧介绍
  15. python制作查询软件_Python制作快递查询工具
  16. 在王者荣耀角度下分析面向对象程序设计B中23种设计模式之原型模式
  17. 单链表的逆转:(头尾互换)
  18. java控制器文件内容替换_如何用Java来进行文件切割和简单的内容过滤的实现
  19. 在线语音转文字如何进行在线转换的
  20. 【板栗糖GIS】为什么内网穿透过的地址出现Tunnel not found

热门文章

  1. JS-a标签下载文件
  2. 纯Qt版中国象棋:实现双人对战、人机对战及网络对战
  3. matlab如何调用opencv,matlab调用opencv (mac 或 linux)
  4. windows安装caffe
  5. 微信小程序调用app.js里的函数
  6. android系统壁纸下载,提前用上Android 12系统 官方高清壁纸下载
  7. 阿里笔试题20春招笔试题汇总_python版本
  8. Ubuntu 安装 VMware 15
  9. SVN设置成中文版本
  10. 论文精读——基于演化动力学的复杂网络中带阈值雪堆博弈模型研究