模仿并超越人类围棋手,KL正则化搜索让AI下棋更像人类,MetaCMU出品
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
如果非要问AlphaGo有什么缺点,那就是下棋不像人类。
和AlphaGo对弈过的顶级棋手都有这种感受,他们觉得AI落子经常让人捉摸不透。
这不仅是AlphaGo的问题,许多AI系统无法解释,且难以学习。如果想让AI与人类协作,就不得不解决这个问题。
现在,来自Meta AI等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的AI。
他们用人类棋谱训练AI模仿,并让后者超越了人类。
上图分别展示了该方法在国际象棋(左)、围棋(右)的表现。
纵轴为AI与原始模型对弈的胜率,横轴为AI预测人类落子位置的Top-1准确度。可以看出新的算法(绿色)在两方面都已经超过了SOTA结果(蓝色)。
像人类,还能打败人类
正所谓“鱼与熊掌难以兼得”。
AlphaGo使用的自我博弈与蒙特卡洛树搜索(MCTS),虽然练就了无比强大的AI,但它的下棋更像凭直觉,而非策略。
如果要让AI更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让AI达到人类顶级棋手水准。
Meta AI和CMU的研究者发现,加入了KL正则化搜索后,一切都不一样了。AI的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。
在国际象棋、围棋和无合作的博弈游戏中,这种方法在预测人类的准确性上达到了SOTA水平,同时也大大强于模仿学习策略。
作者选择了遗憾最小化算法(regret minimization algorithms)作为模仿学习的算法,但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。
因此作者引入了新的方法,引入了与搜索策略和人类模仿学习的锚策略之间的KL散度成正比的成本项。此算法被称为策略正则化对冲,简称piKL-hedge。
piKL-hedge的执行步骤如下:
在下图中,piKL-Hedge(绿色)可以生成预测人类博弈的策略,其准确度与模仿学习(蓝色)相同,同时性能强1.4倍。
另一方面,在实现更高预测准确性的同时,piKL-Hedge优于非正则化搜索(黄色)的策略。
作者团队简介
本文共有三位共同一作,分别是来自Meta AI的Athul Paul Jacob、David Wu,以及CMU的Gabriele Farina。
Athul Paul Jacob同时也是MIT CSAIL的二年级博士生,从2016年到2018年,他还在Mila担任访问学生研究员,在Yoshua Bengio手下工作,与Bengio共同发表了多篇论文。
David Wu是Meta AI的国际象棋和围棋首席研究员。
Gabriele Farina是CMU一名六年级博士生,曾是2019-2020年Facebook经济学和计算奖学金的获得者,他的研究方向是人工智能、计算机科学、运筹学和经济学。
另外,Gabriele Farina还参与过著名的CMU德州扑克AI程序Libratus的开发。
论文地址:
https://arxiv.org/abs/2112.07544
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点个在看 paper不断!
模仿并超越人类围棋手,KL正则化搜索让AI下棋更像人类,MetaCMU出品相关推荐
- 深度丨当AI变得无处不在,人类社会将发生这五大变化!
文章来源:腾讯科技 人工智能(AI)正以前所未有的速度急速崛起,并开始进入人们生活的各个方面.将来,当AI变得无处不在时,我们的社会将会变成什么样子?机器人会拥有自我意识吗?它们能享受与人类相同的权利 ...
- 当AI变得无处不在,人类社会将发生这五大变化!
人工智能(AI)正以前所未有的速度急速崛起,并开始进入人们生活的各个方面.将来,当AI变得无处不在时,我们的社会将会变成什么样子?机器人会拥有自我意识吗?它们能享受与人类相同的权利吗?下面就让我们看看 ...
- 青出于蓝-在模仿和超越之间铸就伟大
原文作者:上海科维安信息技术顾问有限公司QAI China 何丹博士 CMMI主任评估师 一.追随大师的智慧而不是足迹- CMMI 的模仿与超越 "吾尝终日而思矣,不如须臾之所学也:吾尝跂而 ...
- AI 真的能够理解人类语言吗?
作者 | Melanie Mitchell 译者 | 弯月 出品 | CSDN(ID:CSDNnews) 2011年,IBM 的人工智能系统沃森参加综艺节目<危险边缘>,并获得了冠军,当时 ...
- 僵尸 AI 来了,人类该怎么办?
点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! AI普及的未来世界,我们的生活会变成什么样子? 1956年6月,来自美国全国各地的几十名科学 ...
- DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
视学算法报道 编辑:David [新智元导读]DeepMind 首席研究科学家David Silver的明星气质与他安静.谦逊的性格形成了鲜明对比.这位让AI自学下围棋玩游戏的强化学习大牛认为 ...
- 《人类简史》作者:AI 黑掉了人类文明的操作系统
自然语言大模型的应用爆发后,已经有不少科技圈大佬从不同角度表达了对AI的看法.最近,<经济学人>杂志约稿知名历史学家.哲学家.<人类简史>的作者尤瓦尔·赫拉利(Yuval Ha ...
- AIGC周报|周鸿祎:不会用GPT的人未来将被淘汰;蔡崇信:不用过于担心AI未来会取代人类;AI翻唱或涉多项侵权行为
AIGC(AI Generated Content)即人工智能生成内容.近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2.Stable Diffusion 等文生图模型,都属于 A ...
- 谷歌AI乳腺癌检测超过人类,LeCun质疑引起讨论
点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 赖可 发自 凹非寺 量子位 报道 | 公众号 QbitAI Google Health ...
最新文章
- 一顿关于心智、机器和智能的哲学大餐!!
- selenium2与python自动化5-iframe和163邮箱登录
- unity 继承会调用start吗_Unity 继承MonoBehaviour脚本 执行顺序 详解
- 光线在传播过程中是否会有变化?可以通过镜子接力的方式抵达目的地吗!?...
- P5221 Product(反演)
- java的观察模式链式,design-pattern-java
- linux终端中出现 cd: OLDPWD 未设定 的提示
- python-time、datetimme模块
- Vimium、CrxMouse配置信息
- matlab中的Repeating Sequence的用法
- 服务器mdf ldf文件,sqlserver2008如何导入mdf,ldf文件
- qt 模拟鼠标滑轮_【游戏流体力学基础及Unity代码(四)】用欧拉方程模拟无粘性染料之公式推导...
- c语言数字的ascii码范围,c的ascii码值是多少?
- Visual Studio 版本号及其各个版本对应关系
- element Dropdown二级下拉菜单
- 命令行快速清理Mac版搜狗输入法
- (五)carla中世界坐标系与相机坐标系、像素坐标系变换
- JAVA环境搭建及入门
- 超简单的Android圆形进度条
- internet协议服务器在哪,网络协议在哪设置
热门文章
- android.view.ViewRoot$CalledFromWrongThreadException的解决办法
- 判断JS对象是否拥有某属性两种方式
- Online Judge上陪审团选人问题用Java实现的一个AC解
- 刻意练习:LeetCode实战 -- Task26.判断子序列
- 如何通过 Scratch 教小朋友编程思维?
- 利用BP神经网络教计算机识别语音特征信号(代码部分SL)
- 赠书 | 干货!用 Python 动手学强化学习
- 希捷发布CORTX对象存储软件与开源社区,普惠超大规模数据存储
- 这么多年,终于有人讲清楚Transformer了
- MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告...