作者 | 田渊栋

编辑 | 陈大鑫

转自 | AI科技评论

做理论需要的基础知识多,困难,周期长,没有直接经济效益,还只能一两个人单打独斗且无法使用大量计算资源,每个因素都和现在的主流发展方向(强调团队合作,强调速度和新闻性,代码开源,大数据,大量计算资源)背道而驰。

而且,理论研究论文大多艰深、晦涩难懂,结论依赖不现实的假设,难免令人望而却步乃至失望。相比之下,实验研究效果立竿见影,传播快。

田渊栋如此说道。

理论研究要让少数的、有情怀的人去做,远离市场噪杂和竞争,慢慢地钻研。“一万个硕士博士里有一个怀着这个理想,那迟早有一天会做出来的,大部分人不用费这个力气的。”

田渊栋又道。

昨日,NeurIPS 2020放榜,9454篇论文提交,1900篇接收,录取率仅为20.09%。

上海交通大学本硕、卡耐基梅隆大学机器人系博士,现任 Facebook 人工智能研究院(FAIR)研究员和研究经理的田渊栋这次投稿了三篇主打文章(一作或者最后一作),中了两篇。

田渊栋表示:还算不错。

得知自己中了两篇论文之后,作为知乎上的热爱分享、传播知识的大V,田渊栋第一时间写了两篇小博客各自介绍了这两篇篇论文:

第一篇设计了一个新的算法,来试图解决多智能体合作时联合优化策略的问题。

第二篇提出了一种新的黑盒优化的方法:LaMCTS (Latent Action Monte Carlo Tree Search),这个方法基于蒙特卡罗树搜索,但在这上面有改进。

AI科技评论第一时间联系到了田渊栋博士,经授权,现把内容整理如下。

在介绍两篇论文工作之前先把田渊栋博士的NeurIPS后感想转述如下:

这篇一作文章的理论在deadline前四天才被发现,在理论被发现之前,对策略变化的得分计算一直用的是一个极其复杂的方案,考虑各种状态进入和离开信息集的情况,光代码本身就写了一周,修理各种corner case修到头都秃了。最后实验上的效果也确实是单调上升,但一直证明不出来其正确性。

直到某一天晚上意识到根本不需要这么复杂,推出了非常简单的公式之后不敢相信自己的眼睛,立即重写代码,从晚上十点半写到十点四十分,跑出来的结果是一样的,速度还快。

数学的美,可能正是美在这里。

另一篇最后一作的中稿文章基本上我从头到尾都重写过一遍,包括abstract,introduction,方法还有实验部分。反观第三篇没中的,其实整体思路及实验效果都非常好,但因为写作只把关了abstract和intro,导致方法论的描述部分出现了低级失误,给reviewers造成了巨大的误解,可惜了。

做研究,文章其实贵精不贵多,现在铺天盖地的AI论文,每天看arXiv都看不完,但留下印象的,给领域提供实质性贡献的,其实并不多。

我每次向别人介绍FAIR内部的评价体系,都会说“我们不看论文数量”,每半年打绩效,只问有没有Top-3的工作,在每篇工作里的具体贡献是什么:思路是谁提出的?代码是谁写的?实验是谁跑的?效果是谁调上去的?定理是谁证的?文章是谁写的?其它的各种挂名文列上去就行,也没人会在意。这样算下来,花大力气发一篇好工作是正分,发一百篇毫无关联的水文是零分甚至是负的印象分,这样也可以鼓励大家多出成果少搭便车。

我也在向这方面一直继续努力。曾经挺羡慕那些文章列表上百的朋友们,但后来才明白什么才是自己想要走的道路。

之后的ICLR还会延续同样的模式,除开被拒转投的文章,还会有两篇新的文章出来,还是老样子,一篇一作,一篇最后一作。两篇文章都非常不错,而教师-学生的神经网络理论分析也将回归,用在一个大家想不到却正是极其适合的地方,得到极其有趣的结果,敬请期待。

接下来田渊栋博士对两篇中奖论文的介绍。

1

论文一

论文链接:https://arxiv.org/abs/2008.06495.pdf

论文作者:Yuandong Tian, Qucheng Gong, Tina Jiang

这篇文章设计了一个新的算法,来试图解决多智能体合作时联合优化策略的问题。

对于不完美信息两人零和游戏,比如说两人德州扑克。

用现用的一些算法(比如说CFR)可以在理论上保证当迭代次数足够时一定收敛到纳什均衡点。但不完美信息多智能体合作的策略优化则要困难很多,并且往往会陷入局部极小值。

比如说有两个玩家合作,玩家1抽一张暗牌红桃A或黑桃A,然后向玩家2发一个红桃A或黑桃A或方块A的信号,让玩家2猜A手上的牌是什么,猜中得1分,猜不中则得0分。

显然在这种情况下,存在 种协议,这6种协议是完全对称的,采用任何一种玩家2都可以猜中得1分。但如果规则稍微改一下,比如说发送黑桃A有0.1的附加分,那若玩家1和玩家2采用“抽红桃A发红桃A, 抽黑桃A发方块A”的协议,就赚不到这个附加分,是局部极小策略。但玩家1和玩家2单方面都不想改变自己的策略,因为单方面改变的结果是对方不理解自己策略的改变,导致得分的下降。

那在这种情况下,要如何去优化各自的策略呢?很多策略优化方案采用就是按坐标优化(Coordinate Descent),即假设其它人的策略不变,然后优化自身的策略。这显然在这里不太可行。而同时优化多个智能体的策略,在不完美信息的条件下,又是比较困难的,见下图:

假设带阴影的这些信息集(Information Set)上的策略需要优化,但问题在于如果改变了上游的策略,则下游信息集内各状态的可到达概率就会发生各种变化,从而隐含地改变下游的期望得分;而下游策略的改变,又会改变上游的期望得分。

这就使得策略与收益得分相互间的影响变得非常复杂,而且存在“牵一发而动全身”的关系,让联合优化变得非常困难——如果我们只想修改1000个信息集中的3个信息集的策略,那其它997个信息集上的期望得分也会发生变化,即便它们之上的策略并没有发生任何改变。

这篇文章的一个主要贡献,就是找到了一个”策略变化密度“(policy-change density)这样一个量,满足以下两个条件:

1、 不管上下游的策略是否发生了变化,如果一个状态的当前策略没有变化,那策略变化密度就为0。

2、策略变化密度在所有状态上的总和,就是整个游戏得分因策略变化后的改变量。

如果一个状态的当前策略没有变化,那么策略变化密度(policy-density change) 正好等于零。这个和周围的策略有没有变化无关。

有了这两个性质之后,得分因策略变化后的改变量就可以分解成局部项了:如果只修改了3个信息集的策略,那么总的期望得分的增加就完全由这3个信息集上的策略变化密度的和来决定。这样就极大简化了计算。

策略变化后,整个游戏的得分改变量在每个信息集上的局部分解。

有了这个公式之后,再要联合优化策略就变得相对容易了。

这篇文章采用的是简单的深度优先搜索,从上游策略出发,先改变上游策略,然后给定上游策略,再改变下游策略,如此往复,然后看最后整个游戏的得分改变量的大小,最终选出最好的新策略组合。

这样就能达到联合策略搜索(Joint Policy Search)的目的,并且这样的算法得到的策略性能一定是单调上升的。

运用这个方法,我们先在一些小规模的非完美信息合作游戏(主要是桥牌叫牌阶段的简化版)上进行了测试。我们从CFR得到的联合策略开始,用搜索算法对当前的联合策略进行改进(CFR1k+JPS),直到陷入局部极大值为止。结果发现确实有用,新的策略都改进了得分,而且越复杂的游戏,改进越大。

这部分代码已经开源:

https://github.com/facebookresearch/jps

联合策略搜索在四个不同的小游戏上都改进了游戏得分。

最后当然是在真的桥牌叫牌环境下进行测试。

们先用A2C自对弈训练了一个还不错的基线策略,然后用上文提到的联合策略搜索(JPS)来改进队友间的叫牌约定,并且和目前较好的桥牌AI软件(WBridge5)进行了一千局开闭室比赛。

比赛是JPS和JPS一队,WBridge5和WBridge5一队。最后发现和基线策略相比,我们的效果确实变好了。

注意这里的两阶段训练没有用到任何人类对局,为的是能够无监督地学到全新的叫牌约定——让机器学到人类所不知道的新东西永远是很有意思的。

当然这里有个问题是我们只做了叫牌,没有做打牌,叫牌完了之后游戏就结束了,并以双明手(double-dummy)的分数,即所有牌摊开来打,来定胜负。

WBridge5是以正常叫牌加打牌的模式来优化的,并且事先也没有领教过我们学出来的新叫牌约定,所以这个比较不是特别公平(也被reviewer们使劲狂喷),但目前只有这个办法(这部分代码暂不开源,因为各种小trick比较多,之后等全部搞完了再说)。

IMPs/b (平均每桌的国际比赛分)这个应该算是目前最好的结果了(State-of-the-Art)。

2

论文二

论文链接:https://arxiv.org/abs/2007.00708

论文作者:Linnan Wang, Rodrigo Fonseca, Yuandong Tian

(我们相关的工作还有一篇叫LaNAS,主要是将这个方法用在神经网络架构搜索(NAS)上:Sample-Efficient Neural Architecture Search by Learning Action Space https://arxiv.org/abs/1906.06832。Linnan Wang, Saining Xie, Teng Li, Rodrigo Fonseca, Yuandong Tian)

这篇主要是提出了一种新的黑盒优化(Black-box optimization)的方法。这个新的方法叫LaMCTS (Latent Action Monte Carlo Tree Search),顾名思义这个是基于蒙特卡罗树搜索(Monte Carlo Tree Search)的,但在这上面有改进。

传统的MCTS的目标是在给定状态空间(state space S)、行动空间(action space A)及状态转移函数(transition matrix, S, A -> S') 之后,通过搜索找到最优的行动序列,以获得最大的奖励。

MCTS搜索是通过增量构建一棵以初始状态 为根的树来实现的,树中的每个状态结点都有一个简单的模型,描述如果选择行动,根据过去的经验会有多少奖励。新叶子结点的构建则权衡了过去的经验(exploitation)和探索新的结点(exploration)这两个目标,随着搜索的进行,新叶子会更多集中在有希望的区域里面。

乍一看,MCTS和规划有关,和黑盒优化似乎无关,那它们之间是如何建立联系的呢?

一般来说,黑盒优化都是从一个初始解出发,通过不停迭代来改进当前解,直到无法再改进为止。

其主要性能指标是:达到同样的函数值,需要多少次黑盒函数的调用,越少越好。因为在实际问题中,需要用黑盒优化的场景,往往是函数调用开销非常大且没有导数信息的场景,比如说函数值是一个复杂系统运转一天后的平均效率,或者是耗费巨资才可获得的一个实验结果,等等。

这个黑盒优化的迭代过程可以用各种方案去刻划:比如说从一个还不错的起始点开始的局部搜索,一个从粗到细的逐步精化,或者说局部渐进和长程跳跃的组合(例如进化算法的演化和突变),等等,每种方案都对应不同的行动空间。

但从本质上来说,优化和“下棋打游戏”等问题很大的不同点在于,优化本身没有”行动空间“的概念,对它而言,行动空间如何定义都无所谓,只要最终解质量好就行。

与其使用各种人工定义,自然的想法就是学一个行动空间出来。这就是这一系列文章的贡献。

我们以“解空间的切分”作为广义上的行动空间,而具体的切分方式,则是在每个MCTS的树结点上,用过去获得的样本点学一个最好的切分函数出来——我们希望这个切分函数能将好的和差的样本点尽量分开,这样一刀切下去,如果能将质量差的解空间统统切掉,以后少分配些搜索资源,那就是最理想的了。

而MCTS兼顾exploitation和exploration的特性,使得即便一开始切得不够好,以后也有扳回来重新划分空间的余地。而每个叶节点的空间,就是它的所有祖先节点的切分的交集。

以下是一个神经网络架构搜索(NAS)上的简单例子。

假设我们要搜索一个一至五层的卷积网络,每层的filter数是32或是64,filter大小可以是3x3或者5x5。考虑两个不同的行动空间,一个是逐层确定每层的参数(filter数及filter大小),另一个是先确定网络层数,再确定每层的参数。

从图上可以看到,明显是先确定网络层数的方案效率更高(同样样本下准确率更高),因为相对其它参数,层数对最后网络准确率的影响更大,如果先按层数切分搜索空间,那搜索效率自然就提高了。

神经网络架构搜索(NAS)上的简单例子,先按层数切分搜索空间(蓝线),搜索效率得到了提高。

洞察到了这些问题之后,我们提出了LaNAS和LaMCTS。

LaNAS采用线性函数切分空间,对于叶节点的函数值估计则采用简单的随机采样法,及最近比较流行的one-shot supernet。

LaMCTS做了改进,采用非线性函数切分空间,并且在叶节点上用了已有的黑盒优化的方法比如说Bayesian Optimization(BO)来找到叶节点的子区域里的最优解。

通过这个方式,特别对于高维问题达到同样性能,我们发现LaMCTS可以达到更低的样本复杂度。这里我们在Mujoco的任务上做了测试,和各种已有的黑盒算法进行了比较,蓝线是我们的方法:

LaMCTS在高维空间搜索中有优势,纵轴是奖励,越高越好。

当然LaMCTS和基于梯度的方法相比,在Mujoco的高维问题上还是有差距(因为Mujoco其实并不需要太多探索)。我们指出了自身的局限性,出乎意料地被reviewers们开口称赞。

因为每个叶结点采用了已有算法,LaMCTS也可以套在任何已知的黑盒优化算法上,作为一个元算法(meta-algorithm),让整个系统达到更好的效果。

为什么能提高呢?

主要原因是,传统方法像Bayesian Optimization (BO)在参数空间维数很大(比如上百维)的情况下,由于维数灾难的问题,高斯过程(GP)的建模效率就会大打折扣。

而LaMCTS通过切分空间,让GP的建模局限在一个比较小的范围内,从而提高了它的效率。

LaMCTS可以套在任何已知的黑盒优化算法上,一定程度上提高它们的性能。

田渊栋博士知乎链接:

https://www.zhihu.com/people/tian-yuan-dong/posts

感谢你的分享,点赞,在看三连↓

Facebook 田渊栋:NeurIPS 2020 中了两篇,感觉还算不错相关推荐

  1. 直播 NO.5 | Facebook 田渊栋:用深度(强化)学习为组合优化寻找更好的启发式搜索策略...

    ↑↑↑↑↑点击上方蓝色字关注我们! 『运筹OR帷幄』原创 对这次分享主题感兴趣的小伙伴, 欢迎在文末留言提问, 我们会收集有价值的问题, 请嘉宾在直播中亲自解答. 分享提纲 主题:<用深度(强化 ...

  2. 第一篇学术演讲准备两个月,去了谷歌却做不了深度学习,听Facebook田渊栋谈人生挑战与选择...

    视学算法转载 来源:从零道一 (公众号ID:goto0011) 第一次 15 分钟的演讲准备了两个月.毕业就进谷歌却只能当螺丝钉.从研究员到研究经理面临角色转换-- 在最近的一次访谈中,Faceboo ...

  3. Facebook田渊栋谈人生挑战与选择

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:编辑 ∑Gemini 来源:从零道一 AI博士笔记系列推荐 ...

  4. nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...

      新智元报道   来源:Facebook AI 作者:Ari Morcos.田渊栋  编辑:肖琴 [新智元导读]ICLR 2019最佳论文提出的"彩票假设"能够将神经网络缩小10 ...

  5. Facebook AI研究员田渊栋:2021年年终总结

    在知乎上看到了一篇大佬的2021年终总结,看了后感觉受益匪浅,作者是田渊栋老师,博士毕业于卡耐基梅隆大学机器人系,目前在Facebook AI研究院担任研究员,特此分享给大家,希望能在新的一年里带给你 ...

  6. Facebook AI研究员田渊栋的2021年终总结:多读历史!

    仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:知乎@田渊栋 https://zhuanlan.zhihu.com/p/451903256 这一年在组里开了一个比较大的方向,组织并带领团队一点 ...

  7. 【田渊栋报告】游戏中的人工智能:成就与挑战 | ICML WorkShop(46PPT)

    [田渊栋]这次有幸成为了首届VGML(Video Games and Machine Learning)的workshop的受邀演讲嘉宾.以下是流水帐. 我第一个演讲,因为Gabriel的开场白只花了 ...

  8. 田渊栋的2021年终总结:多读历史!历史就是一个大规模强化学习训练集

      视学算法报道   作者:田渊栋 编辑:好困 LRS [新智元导读]田渊栋博士最近又在知乎上发表了他的2021年度总结,成果包括10篇Paper和1部长篇小说及续集.文章中还提到一些研究心得和反思, ...

  9. ICML 2021杰出论文奖“临时更换”,上海交大校友田渊栋陆昱成等获提名

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天,I ...

最新文章

  1. linux系统级别的能够打开的文件句柄的数file-max命令
  2. 分布式存储系统设计的几个问题和考虑点
  3. 初识Java-IO流
  4. git-svn — 让git和svn协同工作
  5. Python3 基础学习笔记 C04【if 语句】
  6. 如何解决数据倾斜问题?
  7. 你应该要掌握的7种回归分析方法
  8. spring boot安装环境步骤及问题解决方式
  9. 云原生时代企业级应用架构设计的思考
  10. habernet备份mysql_harbor 安装
  11. 《Java进阶学习+面试宝典》分享给大家
  12. STM32电机TB6612驱动
  13. ERP远程管理解决方案
  14. 宋九九:怎么做好网站搜索引擎优化,企业网站如何seo优化?
  15. 9本4月程序员新书,Python书就占了6本
  16. @aspect注解无法添加
  17. 如何让青少年远离“网络成瘾”?
  18. java实验7 常用类的使用
  19. ESD静电二极管选型需要关注的要点在哪里?
  20. 手机怎样和宽带连接无线路由器设置路由器连接服务器,怎么用手机设置无线路由器...

热门文章

  1. 姜子上:利用BiLSTM-CRF进行命名实体识别
  2. 数据结构与算法:12 数组与稀疏矩阵
  3. 资料分享:送你一本《数据结构与算法JavaScript描述》电子书!
  4. 资料分享:送你一本《机器学习实战》电子书!
  5. Matlab与线性代数 -- 矩阵的大小
  6. 【ACM】杭电OJ 1877 又一版A+B(进制转换)
  7. 详解 Pandas 与 Lambda 结合进行高效数据分析
  8. 用 YOLOv5模型识别出表情!
  9. 联合南京大学,爱奇艺智能论文入选顶会CVPR 2021
  10. 爬一爬那些年你硬盘存过的“老师”