点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

还记得在双人无限扑克和多人无限扑克中战胜人类顶级玩家的游戏 AI 系统冷扑大师(Libratus)和 Pluribus 吗?近日,这两个 AI 系统的开发者之一、CMU 大神宣布其完成博士论文,并即将从 CMU 毕业。

当地时间 9 月 21 日,FAIR 研究科学家 Noam Brown 在推特宣布其顺利完成了 CMU 博士论文答辩,并公开了长达 230 页的超硬核博士论文《Equilibrium Finding for Large Adversarial Imperfect-Information Games》以及 101 页的 slides。

Noam 在论文前言中表示,除了章节 5.3 中描述的 ReBel 算法,论文中所有其他研究都是与其导师 Tuomas Sandholm 合作完成的。在整个研究过程中,Tuomas 给了 Noam 耐心指导。Noam 表示,如果没有导师的悉心指导,他肯定不会顺利地完成博士学位。

Noam Brown 与其导师 Tuomas Sandholm 教授(左)。

Noam Brown 的博士论文题目为《大型对抗性不完美信息博弈的均衡发现》。不完美信息博弈模拟了多个智能体与私人信息之间的交互。在这一设置下,一个典型的目标是近似一个均衡,其中所有智能体的策略都能达到最优。

完美信息博弈(Perfect-information Games)和不完美信息博弈(Imperfect-information Games)是游戏中信息博弈的两种主要形式。在游戏中,完美信息博弈的前提是所有玩家都知道关于游戏的信息,如规则等;而不完美信息博弈中的玩家对正在玩的游戏没有共同知识,如其他玩家是谁、哪些策略或行动是可行的、结果如何取决于行动等。就难度而言,信息的不完美增加了玩家决策选择的难度,因而博弈分析的难度也更大。

围棋、国际象棋、跳棋等棋类游戏属于完美信息博弈。扑克牌则属于典型的不完美信息博弈,这也是 Noam Brown 一直以来的研究重心。从 2017 年的 AI 系统 Libratus 到 2019 年的新算法 Pluribus,它们都属于不完美信息博弈的范畴。

在论文中,Noam Brown 对博士期间的一系列研究成果进行了汇总。机器之心对该论文的核心内容进行了简要介绍,感兴趣的读者可以阅读原论文。

  • 论文地址:http://www.cs.cmu.edu/~noamb/thesis.pdf

  • Slides 地址:http://www.cs.cmu.edu/~noamb/thesis_slides.pdf

博士论文简介

这篇博士论文详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家,而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。

反事实遗憾最小化(CFR)的改进

作者首先介绍了对反事实遗憾最小化(counterfactual regret minimization, CFR)做出的改进,这是一种在双人零和博弈中收敛至纳什均衡的迭代算法。此外还描述了 CFR 的新变体,它们利用折扣原则(discounting)来显著加快收敛速度。

CFR 方法。

然后,作者介绍了理论上合理的剪枝(pruning)技术,这些技术可以在大型博弈中呈数量级地加快收敛速度。

CFR 中的剪枝流程。

将 CFR 扩展至大型博弈

作者描述了通过自动抽象和函数近似算法将 CFR 扩展至大型博弈的新方法。

具体而言,作者介绍了首个在不完美信息博弈中离散化连续动作空间的算法,该算法被证明局部最优。但是,这种算法需要大量的领域知识,并且难以扩展至其他博弈中。

以往方法的局限性。

所以,作者提出了 CFR 的一种变体 Deep CFR,它使用了神经网络函数近似,而没有使用基于 bucketing 的抽象。Deep CFR 是首个可以扩展至大型博弈的 non-tabular 形式的 CFR,并且使得 CFR 在几乎没有领域知识的设置下实现部署。

利用 Deep CFR 扩展至大型博弈中。

不断改进的搜索技术

作者提出了一种新的不完美信息博弈搜索技术,该技术确保智能体的搜索策略不被对手利用。这些新的搜索形式在理论和实践两方面均优于以往方法。

此外,作者介绍了一种深度受限(depth-limited)搜索方法,它的计算成本显著低于以往方法。

Pluribus 算法中的深度受限搜索。

最后,作者提出了一种新型 ReBel 算法,它在训练和测试时结合强化学习和搜索,并为缩小完美信息博弈和不完美信息博弈研究的差距迈出了关键一步。

在双人无限注德州扑克中的结果对比。

以下是博士论文的章节目录:

致力于德扑游戏 AI 研究的 CMU 大神 Noam Brown

Noam Brown,Facebook 人工智能实验室的研究科学家,他致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统,其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的荣誉。

2017 年,Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《科学》杂志,与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了NIPS 2017 最佳论文奖。

此外,Noam 团队还因此获得了 IJCAI 颁发的第二枚马文 · 明斯基奖章(Marvin Minsky Medal)。

Noam 在 IJCAI 2019 大会上领取马文 · 明斯基奖章证书。

2019 年,Noam Brown 与其导师 Tuomas Sandholm 在 Libratus 的基础上,开发出了所需算力更少的新算法 Pluribus。在为期 12 天、超过 10000 手牌的比赛中,Pluribus 击败了 15 名人类顶级玩家。

这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准游戏中击败顶级职业玩家。Pluribus 不仅登上了《科学》杂志的封面,还被该杂志列为 2019 年度十大突破科研成就之一。

Pluribus 登上了《科学杂志》封面。

此外,Noam 还曾获得 2017 年度 Allen Newell「卓越研究奖」,也曾被 MIT 科技评论评选为 2019 年度「35 岁以下科技精英」(MIT TR35)。2019 年,Noam Brown 与其导师 Tuomas Sandholm 合著的论文《Solving Imperfect-Information Games via Discounted Regret Minimization》获得了 AAAI 杰出论文荣誉提名奖。

end

这是我的私人微信,还有少量坑位,可与相关学者研究人员交流学习 

目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟

王博的公众号,欢迎关注,干货多多

王博的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章(上)

博士笔记 | 周志华《机器学习》手推笔记第八章(下)

博士笔记 | 周志华《机器学习》手推笔记第九章

点个在看支持一下吧

携Science封面、NIPS最佳论文,CMU大神博士毕业论文公开相关推荐

  1. 携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开

    机器之心报道 作者:杜伟 还记得在双人无限扑克和多人无限扑克中战胜人类顶级玩家的游戏 AI 系统冷扑大师(Libratus)和 Pluribus 吗?近日,这两个 AI 系统的开发者之一.CMU 大神 ...

  2. yolov4论文_Alexey 大神接棒,YOLOv4 重磅来袭!快来一睹论文真容吧!| 原力计划...

    作者 | Mr.Jk.Zhang 责编 | 夕颜 出品 | CSDN(ID:CSDNnews) 前言 千呼万唤始出来系列,继YOLOv3两年后,YOLOv4终于在上周出来了,让我们来一睹论文真容吧!由 ...

  3. LeetCode github集合,附CMU大神整理笔记

    Github LeetCode集合 本人所有做过的题目都写在一个java项目中,同步到github中了,算是见证自己的进步.github目前同步的题目是2020-09-17日之后写的题.之前写过的题会 ...

  4. AAAI 2021最佳论文奖出炉

    视学算法报道 机器之心编辑部 第 35 届 AAAI 人工智能会议已于 2 月 2 日在线上召开.在刚刚举行的开幕式上,组委会颁发了今年的最佳论文奖和提名奖,分别有三篇论文获奖.其中来自北航的学者以一 ...

  5. AAAI 2021最佳论文奖出炉,北航成最大赢家,还有这样一批华人学术新星!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 编辑丨机器之心 第 35 届 AAAI 人工智能会议已于 2 月 2 日在线上召开.在刚刚举行的开幕式 ...

  6. 一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer

    来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...

  7. 辰东暂排第二:第四届橙瓜网络文学奖20年十佳玄幻大神

    网络文学发展至今20年,玄幻小说一直是领头羊,在所有大热的作品中,玄幻小说的份额占有绝对领先优势.而网络文学从萌芽时代,到青铜时代,再到无线阅读时代,以及现在的IP泛娱乐时代,出现了一大批引领潮流的玄 ...

  8. [资料]TED大神的飞机(安德烈和维杰·库玛)

    Raffaello D' Andrea和 Vijay Kumar的实验室 技术交流:zinghd@163.com 第一次在TED上看见这两位大叔的演讲,简直打开了新世界的大门,飞行器竟然可以这样玩,请 ...

  9. 大神 PK 红米背后,2G 内存将成互联网手机分水岭

    2015年,国产手机之间的暗战仍在加剧,举个例子,最近酷派发布了酷派大神F1极速版,这款产品售价为699元.众所周知,目前红米2的定价也是699元,显然,酷派此次新品是瞄准了红米2 而来,既然如此,业 ...

最新文章

  1. nginx 实现反向代理
  2. 错误:请求“ ..”中的成员“ ..”属于非类类型
  3. 关于URL重写的一点心得
  4. C# Tips 2------ToolStripSplitButton's 'Checked' property
  5. ExtJS 4 File Upload + Spring MVC 3 Example
  6. 机器学习——常用算法的总结
  7. Atom飞行手册翻译: 3.6 图标
  8. Troubleshoot: R.Layout.Main cannot be resolved
  9. 44特征02——相似对角化与方幂、代数重数与几何重数、可对角化的概念、相似对角化的条件、矩阵方幂的计算
  10. python套用word模板_套用word模板
  11. 机载激光雷达原理与应用科普(三)
  12. git拉取代码报错update_ref failed for ref ‘ORIG_HEAD‘:cannot lock ref ‘ORIG_HEAD‘
  13. 第39级台阶python实现
  14. 微信小程序搜索框加跳转
  15. 如何实现水泥窑分散点信号集中控制?
  16. 关于redis多个哨兵sentinel在阿里云的坑 sdown sentinel或者failover-abort-not-elected
  17. 4位超60岁程序员大爷的生存秘籍
  18. oracle 存储过程返回,Oracle 存储过程返回结果集 (转)
  19. 我在拼多多的三年......
  20. 自学手绘插画的网站有哪些?哪个好一点!

热门文章

  1. 惠普电脑怎么截屏_惠普(HP)暗影精灵6游戏台式电脑主机怎么样?配置和使用体验测评-最新资讯...
  2. 计算机考研调剂规则,21考研调剂规则大变化,这类学生不能调剂!
  3. mysql config.path_mysql之 mysql_config_editor/login-path 登录密码保护
  4. python和gui结合实例_Python GUI —— 简单例子+讲解
  5. java方法中的循环里的变量_Java中循环声明变量方法
  6. ansible免密登录和账号登录方式
  7. iis服务器修改内存,修改IIS的虚拟内存
  8. mac nginx加载php 配置,Mac下Nginx安装环境配置详解
  9. 传感器工作原理_光电式速度传感器的工作原理
  10. python库--pandas--MultiIndex