乾明发自凹非寺
量子位出品 | 公众号 QbitAI

还记得那个玩德扑的AI吗？

没错，就是Libratus，中文名冷扑大师，在2017年举办的德扑人机大战中，一举成名。

在2017年的比赛中，它历时20天，战胜四位顶级人类德扑玩家，赢得176万美元，引发大量关注。

许多人都非常好奇，这个AI是不是可以靠打牌就能变现了？

但它没有继续自己的“赌神”之路，而是在军事领域开了花：拿下美国军方千万美元的合同，为期两年。

对此，它的开发者Tuomas Sandholm教授并没有透露太多细节，只是说它可以在模拟战争中做出军事决策，比如在哪里部署军事单位。

其他的一些研究员表示，冷扑大师背后的技术，可以更好的让战争游戏和模拟练习发挥它们应有的作用，帮助提高军队的作战水平。

美国军方看中了什么？

冷扑大师，是基于博弈而生的。与其他棋类AI相比大有不同。

在围棋、象棋等棋类比赛中，比赛双方能够共享所有信息。在博弈论中，这被称为“完美信息博弈”。

在德州扑克中，牌并不会全部发完，每个人手中的牌对其他的选手来说，也都是隐藏的。任意时间，任何一个玩家，都只能观察到一部分的情况，然后据此做出决策。

这是一种“不完美信息”的博弈。在现实世界中，不完美信息才是常态，各种看不见的隐藏信息产生了大量的不确定性。

尤其是在军事场景中，各种谍报与反谍报工作错综复杂，怎样做出最正确的决策，一直是难题所在。

能够在德扑这种不完美信息的场景中打败顶级人类选手，就证明了冷扑大师的价值所在。

那么，它是怎么做到的呢？

背后原理

冷扑大师最核心的概念就是纳什均衡，应用的是CounterFactual Regret Minimization(CFR，反事实遗憾最小化)算法，这是一个类似强化学习的算法，但是更高效。

在早期的版本中，主要由三个模块构成。其中一个用于赛前，两个用于赛中。

△ Sandholm讲解冷扑大师

赛前的模块，是纳什均衡近似，使用蒙特卡洛CFR算法（CFR的变体），抽取最重要的博弈信息，比如针对某一手牌对应的战略，应用强化学习等方法寻求提高和改进。

比赛过程中的模块分别是残局解算和持续自我强化。

前者是针对对手的，对手出新招之后，冷扑大师就会展开残局解算，寻找最佳应对策略，这个过程会在比赛中持续进行。

后者是针对自身的，用于发现自己的漏洞，找到更多细节进行自我强化，然后得到一个更好的纳什均衡。

更多的细节，都被Sandholm教授写在了相关的论文中。这篇论文获得了2017年NIPS最佳论文奖。

（传送门在文末）

这样实时求解的过程，耗费的算力非常巨大。想要运行冷扑大师，最低都需要50个笔记本。

而进行一对一的无限注德扑比赛，每手需要50个CPU进行运算，而且响应速度也没法得到保证。

不断进化

2018年5月，Sandholm教授团队提交了一篇新论文。

这篇论文引入了一种深度有限求解方法，允许对手在深度有限的情况下为游戏剩余部分选择多种策略。

每一个策略中都会为叶节点生成一组不同的值，从而使智能体对对手可能采取的不同策略保持鲁棒。

在这种方法下，使用一块4核的CPU和16G的内存（相当于一个笔记本）提供的算力，就能击败之前的两个顶级的智能体。

一个是2016年计算机扑克竞赛的获胜者Baby Tartanian8，一个是2018年计算机扑克竞赛的获胜者Slumbot。

而且，在响应速度上也能够与人类大师媲美，平均一手只需要20秒。（论文传送门在文末）

11月份，Sandholm教授团队再次提交了一篇论文。

这次，他们介绍了一些优化CFR算法的方法。分别是：

采用各种策略在早期迭代中减低后悔值（regret），在某些情况下，对正负后悔值采用不同的方式。
采用各种策略重新迭代，来获得更好的输出策略。
采用非标准化的后悔值最小化方式。
利用乐观后悔值匹配（optimistic regret matching）。

这些方法，能够帮助CFR算法在许多环境中提高性能。

在测试中发现，应用了这些策略的蒙特卡洛CFR算法与vanilla 蒙特卡洛CFR算法相比，模型在德州扑克上具有更优越的表现。

想要了解更多的细节，可以阅读论文。（论文传送门在文末）

越来越多的军用AI

2018年年初，Sandholm教授创立了一家名为“Strategy Robot”的公司，来将冷扑大师的技术军用化。

8月下旬，这家公司就与美国军方签订了一个1000万美元的合同，为期两年。这一合同，被认为是对国防创新部门（Defense Innovation Unit ）的支持。

这是一个2015年成立的组织，在五角大楼内办公，旨在帮助美国军方更快地利用新兴的商业技术。

在军事化的道路上，冷扑大师并不孤单。

2017年，时任美国国防部长的James Mattis表示，在采用机器学习等技术方面，国防部远远落后于科技公司。

同年，五角大楼启动了一项名为Project Maven的计划，旨在通过商业化的AI技术来改变军事行动方式。

初始项目，机器学习技术来标记无人机监控视频中的对象，参与者有AI创业公司，也有谷歌在内的大公司。

军方对AI的兴趣越来越浓，让一切推进基础技术的人员感到不安。

2018年，在上千名谷歌员工联名抵制，学界大牛纷纷联署反对之后，谷歌退出五角大楼的Project Maven计划，并发布使用AI的七项原则。

其中就包括不会将AI技术应用于开发武器等等。

不过，谷歌也表示，将会继续与政府和军方展开AI合作，例如网络安全、培训以及征兵等领域。

在Sandholm教授看来，对军方使用AI的担忧言过其实。他认为，这项技术对于保护国家安全和提高作战效率非常重要。

“我认为，这将使世界变得更加安全，”他说。

论文传送门

2017年NIPS最佳论文

Safe and Nested Subgame Solving for Imperfect-Information Games

http://papers.nips.cc/paper/6671-safe-and-nested-subgame-solving-for-imperfect-information-games.pdf

2018年优化算力论文

Depth-Limited Solving for Imperfect-Information Games

https://arxiv.org/abs/1805.08195

2018年优化算法论文

Solving Imperfect-Information Games via Discounted Regret Minimization

https://arxiv.org/abs/1809.04040

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

CMU德扑AI赌神，现已拿下美军千万美元大单相关推荐

AI赌神超进化：德扑六人局击溃世界冠军，诈唬如神，每小时能赢1千刀 | Science...
鱼羊栗子乾明发自凹非寺量子位报道 | 公众号 QbitAI AI赌神完成了超进化! 两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1.现在全新的赌神Plurib ...
AI赌神称霸德扑的秘密，刚刚被《科学》“曝光”了
本文来自AI新媒体量子位(QbitAI) 称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一. 刚刚,<科学>最新发布的预印版论文,详细解读了AI赌神背后系统的全貌.此前的 ...
android德州扑克计算器,学界 | 一台笔记本打败超算：CMU冷扑大师团队提出全新德扑AI Modicum...
原标题:学界 | 一台笔记本打败超算:CMU冷扑大师团队提出全新德扑AI Modicum 选自arXiv 参与:路.晓坤 CMU 冷扑大师团队在读博士 Noam Brown.Tuomas Sandho ...
IJCAI-21三大奖项公布，强化学习之父、CMU助理教授方飞、德扑AI之父获奖
转自:机器之心「强化学习之父」Richard Sutton.CMU 助理教授方飞.「德扑 AI 之父」 Tuomas Sandholm 分别获得了今年 IJCAI-21 的卓越研究奖.计算机与思想奖 ...
德扑 AI 之父解答 Libratus 的13个疑问：没有用到任何深度学习，DL 远非 AI 的全部
来源: AI科技评论概要:卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」 ...
德扑AI之父:赢不赢柯洁阿尔法狗都缺乏实际用处
人机对战无疑是4月10日的新闻焦点之一.一边在海南澄迈,德州扑克人工智能"冷扑大师"(Libratus)经过5日激战,在33000手一对一无限注德扑比赛中完胜中国"龙之队 ...
【重磅】AI击败顶级德扑玩家的秘密！德扑AI创造者现身reddit，全面解答34个提问，详解Libratus的现状和未来
翻译:刘畅.reason_W 编校:reason_W 编辑:鸽子今年上半年,继AlphaGo多次升级连克人类高手之后,德州扑克终于也迎来了它的"破壁人"--人工智能Libratu ...
AI赌神升级！无惧bluff，6人局德扑完胜世界冠军，训练只用了8天
大数据文摘出品 2017年年初,Brain vs AI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus. 获胜后人类还遭到了Libra ...
本周AI热点回顾：机器狗要去福特当工程师；人脸黑产攻击一秒被擒；德扑AI大比分击败顶尖人类选手
点击左上方蓝字关注我们 01 波士顿动力机器狗获新工作,这次要去福特当工程师据外媒报道,福特公司宣布为位于美国密歇根州的 Van Dyke 工厂租赁了两台波士顿动力生产的机器狗,机器狗将会以 3mp ...

CMU德扑AI赌神，现已拿下美军千万美元大单

乾明发自凹非寺
量子位出品 | 公众号 QbitAI

美国军方看中了什么？

背后原理

不断进化

越来越多的军用AI

论文传送门

2017年NIPS最佳论文

2018年优化算力论文

2018年优化算法论文

CMU德扑AI赌神，现已拿下美军千万美元大单相关推荐

最新文章

热门文章

CMU德扑AI赌神，现已拿下美军千万美元大单

乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI

美国军方看中了什么？

背后原理

不断进化

越来越多的军用AI

论文传送门

2017年NIPS最佳论文

2018年优化算力论文

2018年优化算法论文

CMU德扑AI赌神，现已拿下美军千万美元大单相关推荐

最新文章

热门文章

乾明发自凹非寺
量子位出品 | 公众号 QbitAI