大数据文摘出品

2017年年初,Brain vs AI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus。

获胜后人类还遭到了Libratus的无情嘲讽。

但是那时候Libratus还只是个只能在1V1局里称霸的超级玩家,要说人类最喜欢的6人局这样的“大场面”,当时的Libratus还没有拿到入场券。

而就在昨天,Facebook与CMU学Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人类最常见的无限制德州扑克6人局里,战胜了人类顶尖选手。

论文被Sicence收录:

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

跟还是不跟?高手之间的对决

Darren Elias(1986年11月18日出生)是一名美国职业扑克玩家,曾获得四项世界扑克巡回赛冠军。

在他与Pluribus的对决过程中,Darren Elias从来没有遇到过如此不害怕的对手。

一个有经验的扑克玩家,当有两个J(一个面朝上,另一个藏起来,一手既不好也不坏)时,都会谨慎行事。但是Elias的对手看起来好像不知道该怎么做。即使当Elias决定虚张声势(bluff),下注时看起来很有信心,而他的对手似乎在鼓励他继续!好像一点都没有被吓到。

最后,Elias的虚张声势没有起作用,他输了。

Elias

正如埃利亚斯先生意识到的,Pluribus知道什么时候该虚张声势,也知道别人在虚张声势,还知道什么时候该改变自己的行为,这样其他玩家就无法确定自己的策略。32岁 Elias先生说: 它确实做了一些人类很难做到的事情。

赢的背后,只是8天的训练

之前AI和人玩游戏,要么是双人游戏,如国际象棋、跳棋等,要么就是双方之间的零和博弈(一方赢一方输),AI可以在游戏中找到Nash equilibrium strategy(纳什平衡)来保证自己不会输。

关于Nash equilibrium strategy(纳什平衡)属于博弈论范畴(注:纳什证明了,如果允许混合策略,那么任何一个博弈,只要参与者数量是有限的、参与者可以选择的纯策略也是有限的,那么这个博弈至少有一个纳什均衡)。

以经典的“石头剪刀布”游戏为例,AI可以在游戏中找到对方的弱点和常出的手势进行学习,以达到最终的胜利,而多人扑克意味着玩家数量的增多,在更复杂的游戏中,AI难以确定如何与纳什均衡相抗衡;采用固定策略不能很快观察到的对手的策略倾向,而且需要监控到多个玩家在游戏中策略的转变,这对于AI多人扑克博弈来说,是一项挑战。

鉴于多人游戏,如果学习多个玩家的出牌习惯等特征的训练数据集成本过大,这里Pluribus采用的策略是自己与自己博弈,不使用人类对手的数据作为模型训练的输入。在开始时,随机的选择玩法,通过不断的训练来提升自己的性能,这里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通过自我博弈,左右手互博,自己制定了一个blueprint strategy(蓝图策略),最后对每个可能的状况进行概率分布统计,通过搜索决策树来决定下一步的行为,是叫牌还是出牌。

CFR是一种迭代的自我游戏算法,AI从完全随机游戏开始,然后通过学习击败早期版本的自己逐渐改进。

在算法的每次迭代中,MCCFR指定一个玩家作为其当前策略在迭代中更新的标记。在迭代开始时,MCCFR根据当前所有玩家的策略(最初是完全随机的)模拟一手扑克牌。一旦模拟完成,人工智能就会回顾每一个玩家做出的决定,然后通过选择其他可用的行动来预测这个决定的好坏程度。

Pluribus玩家博弈树

在解决不完全信息博弈中搜索的问题,Pluribus跟踪每一手,根据其策略达到目前状况的可能性。不管Pluribus实际上握着的牌,它首先会计算如何使用可能的每一手,谨慎地平衡所有的策略,以保持对于对手的不可预测性。

Pluribus 中的实时搜索

扑克以外的事

之前在1V1局中大胜人类的Libratus后来去五角大楼上班去了,国防部认为这种策略型人工智能或许可以帮助他们进行战略的制定。

负责 Pluribus 项目的 研究员Noam Brown说:“Pluribus的技术可以用于华尔街交易、拍卖、政治谈判和网络安全这些活动中,这些活动就像扑克一样,涉及隐藏信息,因为你并不总是知道真实世界的状态。”

尽管像谷歌这样的公司,有着“Don't be evil”的信条,但是,不可避免的是这样能够理解人类策略的人工智能,还是会引发大众对于人工智能的某种恐惧,或者说,如果这样的人工智能被运用到军事决策中,将会带来多严重的后果?

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

AI赌神升级!无惧bluff,6人局德扑完胜世界冠军,训练只用了8天相关推荐

  1. AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science...

    鱼羊 栗子 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI AI赌神完成了超进化! 两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1.现在全新的赌神Plurib ...

  2. AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了

    本文来自AI新媒体量子位(QbitAI) 称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一. 刚刚,<科学>最新发布的预印版论文,详细解读了AI赌神背后系统的全貌.此前的 ...

  3. CMU德扑AI赌神,现已拿下美军千万美元大单

    乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 还记得那个玩德扑的AI吗? 没错,就是Libratus,中文名冷扑大师,在2017年举办的德扑人机大战中,一举成名. 在2017年的比赛中, ...

  4. AI+IOT战火升级:未来人工智能抢人大战

    https://m.zol.com.cn/article/7156530.html?tuiguangid=toutiao 中关村在线 2019-05-01 05:11:00 教育部已于近日印发通知,公 ...

  5. 老手机升级鸿蒙是不是更流畅,华为称鸿蒙比安卓更能解决手机卡顿:无惧老化 36个月持续流畅...

    很多华为用户从 EMUI 升级鸿蒙之后用户发现,手机流畅度有了肉眼可见的流畅度体验. 6 月 2 日,华为鸿蒙发布会上,华为消费者业务软件部总裁王成录称,新发布的 Harmony OS 系统无惧老化, ...

  6. 华为8xmax可以升级鸿蒙吗,无惧iPhone12,华为鸿蒙2.0操作系统成另一“王炸”

    原标题:无惧iPhone12,华为鸿蒙2.0操作系统成另一"王炸" 这两天iPhone12的消息已经刷屏网络了,一年一度的科技春晚将于北京时间的9月16日凌晨1点正式开始.广大消费 ...

  7. (转)量子位:这个AI股神把顶级对冲基金吓尿了

    每次都能盈利,自己学会抄底,这个AI股神把顶级对冲基金吓尿了 量子位 https://zhuanlan.zhihu.com/p/29750335?utm_medium=social&utm_s ...

  8. @AI大神们 前方31万巨额奖金,别走好吗跑起来!!!

    铁汁们!它回来啦!! 第六届信也科技杯心动登陆 六岁,可见证一个孩子从稚嫩期步入学龄期:六年,可陪伴信也魔镜杯变身信也科技杯,漫漫岁月,信也为技术发烧友们提供交流平台的初心至此如一. 2021年,第六 ...

  9. “龙书”作者斩获图灵奖!谷歌 AI 大神、Swift 之父都受它启蒙

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 被誉为"计算机界诺贝尔奖"的图灵奖,昨日火热出炉! 国际计算机协会(ACM)于官网宣布将 2020 图灵奖授予哥伦比 ...

最新文章

  1. SAP HUM针对HU做货物移动后生成的物料凭证何处看相关的HU信息?
  2. 删除指定文件夹下的小于 4K的所用文件...
  3. earcharts tree 节点间隔_InnoDB是顺序查找B-Tree叶子节点的吗?
  4. python辗转相除法求最大公约数的递归函数_Python基于辗转相除法求解最大公约数的方法示例...
  5. 统计0-n数字中出现k的次数
  6. python网络编程内容_Python网络编程
  7. crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset
  8. mysql循环建表_MySQL循环建表和结合两表的update
  9. 3D视觉——基恩士LJ-X系列线激光
  10. 激光能类毕业论文文献都有哪些?
  11. 抖音的推荐算法是怎样的?
  12. matlab升幂降幂排列,升幂排列与降幂排列
  13. 高斯RBF核函数中Sigma取值和SVM分离面的影响
  14. C语言关系运算符详解
  15. 彩色激光同轴位移计在智能手机和平板电脑的应用
  16. 王者服务器延迟高,王者荣耀网络太卡延迟过高怎么办?解决办法分享
  17. 普通美国人把钱花哪儿了
  18. JS escape()和unescape()函数的介绍
  19. 金融系列3《锁卡指令》
  20. sap2000——模态分析

热门文章

  1. AI生成的代码你敢用吗?有人给最近走红的Copilot做了个“风险评估”
  2. 从演进式角度看消息队列
  3. Pandas进阶修炼120题,给你深度和广度的船新体验
  4. 刘云鹏:大数据,让我离生活更近 | 优秀毕业生专访
  5. AI工程师必读的10本ML读物(附PDF下载)
  6. 一个模型通杀8大视觉任务,图像、视频生成大一统!MSRA+北大全华班「女娲」模型...
  7. Jeff Dean亲自揭秘谷歌下一代AI架构:通用、稀疏且高效
  8. 不用卷积,也能生成清晰图像!Transformer再下一城
  9. 【强烈推荐】Github star 10K+,周志华机器学习详细公式推导!
  10. 佐治亚理工学院发文:不要迷信可解释性,小心被误导