Google发布“多巴胺”开源强化学习框架,三大特性全满足
编译整理 | Just
编辑 | 阿司匹林
出品 | AI科技大本营
强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。
麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。
但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴胺)。
Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。
除了强化学习框架的发布,谷歌还推出了一个网站(https://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。
以下为 Google 博客详细内容,AI科技大本营编译:
▌引入灵活和可重复的强化学习研究的新框架
强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。
具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。
通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。
今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。
▌易用性
清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。
▌可重复性
我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。
▌基准测试
对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。
下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。
在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。
我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。
希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。
GitHub 链接:
https://github.com/google/dopamine/tree/master/docs#downloads
参考链接:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/
--【完】--
Google发布“多巴胺”开源强化学习框架,三大特性全满足相关推荐
- 清华大学深度强化学习框架“天授”开源
日前,清华大学人工智能研究院基础理论研究中心发布了深度强化学习框架"天授",代码已在GitHub开源(https://github.com/thu-ml/tianshou).这也是 ...
- DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 想搞强化学习,但算力门槛让不少人望而却步. 想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5 ...
- 业界 |「多巴胺」来袭!谷歌推出新型强化学习框架Dopamine
作者:Pablo Samuel Castro.Marc G. Bellemare 来源:Google AI Blog,机器之心 摘要:在过去几年里,强化学习研究取得了多方面的显著进展. 在过去几年里, ...
- DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
内容来源:ATYUN AI平台 最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...
- 腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 导读]今日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军.该冠军球队来自 ...
- 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架
20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...
- 华为开源深度学习框架MindSpore背后的商业野心
最近华为开源了深度学习框架MindSpore,一时成为了热点.我之前也点评了很多微软.Google.腾讯等厂商的框架,有些点评文章还被官方社区收录,今天为大家解析下MindSpore. 首先阐明下我个 ...
- 快速入门开源深度学习框架
AI发展新趋势 Garter发布的2021年重要战略科技发展趋势中提到,目前只有53%的项目能够从人工智能原型落地转化为生产.原因是缺乏创建和管理生产级人工智能的工具,这使得人工智能项目的落地和扩展难 ...
- pythonic的典故_旷视开源深度学习框架「天元」,提供人人可用的AI“生产力工具”【星特写】...
原标题:旷视开源深度学习框架「天元」,提供人人可用的AI"生产力工具"[星特写] 今日,旷视宣布开源自研深度学习框架MegEngine(Brain++核心组件之一),中文名天元-- ...
最新文章
- 2019年25大人工智能趋势!一文看到未来
- 只身单车游山东(五)
- html绘制圆形和弧形的代码,通过HTML5 Canvas API绘制弧线和圆形的教程
- python编程100例头条-python爬虫演示:以爬取今日头条为例
- linux 多源代码文件编译
- mysql二进制日志内容说明_MySQL二进制日志相关问题详细说明
- 字符串替换方法的优劣
- 算法训练 6-1 递归求二项式系数值
- CSS3选择器的研究
- Java面试之设计模式七大原则
- select和其元素options
- ftp 上传文件夹_8uftp上传工具,8uftp上传工具的使用方法
- hdu 4723 How Long Do You Have to Draw(贪心)
- cpu要和gpu搭配吗_搞懂GPU为什么比CPU“快”
- 排序算法--冒泡排序
- 投行巨头金融科技战略——摩根士丹利财富管理转型之路篇
- 每日一题/010/微积分/极限/换元/取指数
- MyBatis中Mapper接口是怎么和XML文件关联起来的
- win7修复计算机卡了,win7系统下360补丁修复过程中卡住的解决方法
- 试用钉钉内网映射工具