过去二十年来,有许多人工智能被设计出来玩各种类型的扑克牌游戏,但所有这些人工智能都只能玩一对一的游戏,如 Libratus 就是二人德州扑克的高手。由此多人扑克游戏,毫无悬念地成为了下一个里程碑式的目标。

最近,美国卡内基梅隆大学 Noam Brown 和 Tuomas Sandholm 设计出了新的智能系统 Pluribus,它能在六人无限注德州扑克中击败人类专业选手,相关研究发表在7月12日的Science 杂志上。

目前,很多超越人类的人工智能都是关于两人零和游戏,如围棋,游戏中只能有一方可以获胜,用博弈论的术语来讲,这些人工智能所做的都是在找到一个接近纳什均衡的策略。所谓纳什均衡策略就是指一系列能够使自己预期收益最大化的策略,无论对手做什么行动,至少自己不会输,另一个博弈者也会采取同样的策略。

纳什均衡由诺奖得主约翰·纳什1951年提出,图源 l.yimg.com

纳什均衡已经被证明存在于所有有限次博弈中以及大部分无限次博弈中。只不过,纳什均衡策略并不是随随便便就能找到。第一,纳什均衡策略可通过不断观察和利用对手的弱点来获得,就好比见到一直出剪刀的对手,人工智能就一直出石头。但对手也可根据你的策略来做调整,而且这种方法需要很多训练样本;第二,目前还没有足够快的算法可以找到纳什平衡;第三,在多人游戏中,就算每个玩家都独自找到了纳什均衡策略,这个总的策略集合也不一定是纳什均衡策略。

上图为四人柠檬水果摊游戏。玩家需要在圆环中找到一个位置,使自己与其他所有人的距离总和最远(左)。纳什均衡策略是每个人都均匀分布在圆环上。但如果每个人都有自己的纳什均衡策略,那么最终可能不会有纳什均衡出现(右)。而如果是两人游戏就不会有这样的问题。

但 Pluribus 系统并不打算找到这个博弈论意义上的最优策略,而是采用一种能够经常打败人类选手的策略。首先,Pluribus 通过自我博弈计算出自己的策略。换句话说,Pluribus 不断跟自己的分身玩德州扑克,期间没有任何人类或其他人工智能的参与。最初,Pluribus 作为新手,行动完全随机,但它会不断改进自己的策略,逐渐提高自己的水平。自我训练得出的策略被称为“蓝图”。然后,Pluribus 就和真实玩家对战,积累实战经验,期间不断改进自己的策略。

这其中涉及到哪些技术细节呢?在德州扑克中,由于每一回合可以采取的行动实在太多,为了减少问题的复杂度,研究者采用了行动抽象(Action abstraction)和信息抽象(Information abstraction)的简化技术。所谓成败在于细节,Pluribus 因此只会将信息抽象用于对未来几个回合的预想中,而不会用在当前回合的决策上。

为了计算出“蓝图”策略,Pluribus 采用了蒙特卡洛虚拟遗憾最小化算法(MCCFR)。MCCFR 会随机考虑一部分行动,而不是所有可选行动,来选择应该采取的决定。在MCCFR的每一次迭代中,人工智能会根据在场玩家的策略模拟一盘游戏,然后找出自己在模拟游戏中的最优策略。每一回合,人工智能都会被加入一个虚拟遗憾值,使它会后悔上次没有用其他更好的策略,那么下一轮人工智能就会有倾向选择上次后悔没选的策略。就这样,Pluribus每局都在学习如何击败以前的自己,从而不断提高自己的水平。

“蓝图”策略只是一个粗略的策略。基于“蓝图”,Pluribus 在跟真正对手博弈的时候,用实时搜索(real-time search)技术寻找更好的策略。不同于围棋等完全信息博弈(perfect-information games),六人德州扑克是不完全信息博弈(imperfect-information games)。人工智能对其他玩家的特征、策略和对应收益都没有完整的了解。所以,研究者独创了一种新的方法,他们假设每个玩家会有自己的4种策略,包括“蓝图”策略和它的三个变种,并且会在游戏中选择其中一种。由于对手会变换策略,Pluribus 就会计算出比较平衡的策略,而不会偏向于只采取某些决定。另外,为了防止被对手看穿自己的策略,Pluribus 会先计算如果手上的牌跟现在不一样时,会采取什么行动。Pluribus 得出一个可以平衡各种情况的策略后才开始该回合的行动。

训练完成后,就到测试阶段了。实际运行中,Pluribus 平均每回合只需要20秒思考时间,足足比专业选手快一倍。如此快的速度,那实力如何呢?研究者设计了两个比赛,分别是5H+1AI(H代表人类),以及1H+5AI,并且邀请世界各地的高手参加。结果发现,在5H+1AI中,Pluribus 平均每局能赢 48mbb(milli big blinds),在六人德州扑克中是极好的成绩;在1H+5AI中,Pluribus 以平均每局32mbb 的成绩击败人类。

Pluribus 击败人类,说明人类的经验性策略并不是最优,或许人类可以从中学习到新的技巧。另外,从人工智能的研究来讲,Pluribus 的成功表明即使理论上没法保证人工智能在多人游戏上的表现,我们也可以通过精巧的算法设计来训练出超越人类的人工智能。

人工智能再下一城,在多人扑克中大胜人类相关推荐

  1. 华为自研服务器芯片再下一城,从中国移动招标中获取近两成份额

    中国移动近日公布的服务器招标中,华为自研的鲲鹏服务器芯片取得了16.55%的市场份额,显示出它的自研服务器芯片获得越来越多国内客户的认可. 消费者认识华为都是因为华为手机,毕竟华为手机曾在国内市场取得 ...

  2. Serverless 全能选手,再下一城

    简介:近日,中国信通院(即工信部电信研究院),在2021可信云大会上发布了<可信云 Serverless 平台技术能力>和<可信云 Serverless 应用建设成效>的评测结 ...

  3. 微软 Azure 再下一城:收购 Kinvolk,改进开源 Linux

    微软正在以实际证明,做开源,他们是认真的.如今依靠开源,Azure 也再下一城. 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 4 月 29 日,微软宣布收购专注于构建和改进开源 Li ...

  4. 嘉兴碧桂园云栖里土拍价格_奥山深耕嘉兴,再下一城!以总价5.73亿元竞得王店镇宅地...

    点击上方蓝字"嘉兴房产圈"一起玩 时隔1周,嘉兴市本级土地市场迎来了8月第二场宅地拍卖. 今日(8月27日),一宗位于王店镇花园路旁的宅地迎来出让,即2020嘉秀洲-030号地块, ...

  5. Transformer再下一城!low-level多个任务榜首被占领,北大华为等联合提出预训练模型IPT

    来自Transformer的降维打击!北京大学等最新发布论文,联合提出图像处理Transformer.通过对low-level计算机视觉任务,如降噪.超分.去雨等进行研究,提出了一种新的预训练模型IP ...

  6. EMNLP2021 “Transformer+预训练”再下一城,港科大开源高效的多模态摘要总结网络...

    关注公众号,发现CV技术之美 ▊ 写在前面 多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识 ...

  7. 马斯克的挖隧道公司再下一城,未来或将首次实现短途通勤

    Boring公司认为需要9到16台隧道挖掘机同时工作才能实现这一项目. 日前,马斯克的挖隧道公司Boring发布了一份长达50页的大型报告,内容包括通过高速系统连接华盛顿特区和巴尔的摩的建议.可以说这 ...

  8. 每日新闻:钉钉蓝凌双剑合璧;腾讯大数据再下一城;西门子裁员2600人;苹果削减iPhone XS Max中组件 以降低成本...

    关注中国软件网 最新鲜的企业级干货聚集地 洞察 今日热点 腾讯助力乌鲁木齐市打造数字政府 共建亚欧大数据中心 近日,腾讯公司与乌鲁木齐市政府签订战略合作协议,共建亚欧大数据中心.乌鲁木齐市委副书记.常 ...

  9. 源自中国顶级开源软件再下一城!向量数据库公司Zilliz完成6000万美元B+轮融资

    中国开源届再次迎来一个好消息! 北京时间 8 月 25 日,向量数据库公司 Zilliz 宣布完成 6000 万美元的新⼀笔融资,成功将其 B 轮融资规模进⼀步扩⼤⾄ 1.03 亿美元.该笔融资由沙特 ...

最新文章

  1. Android 双击返回键退出程序 实现
  2. 【Android RTMP】RTMPDumb 源码导入 Android Studio ( 交叉编译 | 配置 CMakeList.txt 构建脚本 )
  3. 30KVA UPS电源安装电线的配置
  4. 【收藏】蘑菇博客mogu_blog项目文档
  5. java 10zhuan8,Java代码 10进制转2、8、16进制转换 / 2、8、16进制转10进制转换
  6. 牛客 - Connie(AC自动机+dp/KMP+dp)
  7. SAP 电商云 Spartacus UI 里如何捕捉语言设置的更改
  8. STM32F4_USART配置及细节描述
  9. 单片机拼字程序怎么做_餐饮怎么用微信小程序?餐饮行业怎么做小程序
  10. 大厂产品是如何做行业调研和规划的?附汇报模版(PPT)
  11. string类比较大小_源码阅读String--JAVA成长之路
  12. windows史上最方便解压rar文件的软件WeDo
  13. python谱聚类算法_谱聚类 - python挖掘 - 博客园
  14. Tensorflow(r1.4)API--tf.nn.max_pool
  15. 抖音直播下载方法(附视频下载方法)
  16. Windows字体拯救计划(雅黑+monaco+mactype)
  17. 计算机应用职业生涯规划,计算机应用专业个人职业规划
  18. 仿牛客论坛项目(下)
  19. savour 钱包开发者招募
  20. BPM软件_K2签约龙光地产,为集团实现“千亿目标”保驾护航_全业务流程管理专家...

热门文章

  1. MySQL 5.6 中的 TIMESTAMP 和 explicit_defaults_for_timestamp 参数
  2. Spring Boot中使用RabbitMQ
  3. MYSQL基础----集合函数(count,sun,avg,max,min)
  4. SQL output子句的用法
  5. 系统维护For流星无语
  6. 5.25. Spring boot with Git version
  7. 为什么下载源码包需要到官网上去下载?
  8. svn还原文件中去掉已经删除的文件
  9. 读javascript高级程序设计06-面向对象之继承
  10. Sinon.JS Sinon.JS