郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five,背后是强化学习的助推。

其实不仅仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN(deep Q-network),都离不开强化学习(Reinforcement Learning)。



现在,谷歌发布了一个基于TensorFlow的强化学习开源框架,名叫Dopamine

另外,还有一组Dopamine的教学colab。

和它的名字Dopamine(多巴胺)一样,新框架听上去就令人激动。

清晰,简洁,易用

新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是15个Python文件,基于Arcade Learning Environment (ALE)基准,整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖,可作为补充文档的形式,也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法,该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据,以Python pickle文件和JSON数据文件的格式存储,并且放到了一个可视化网页中。



另外,新框架中还有训练好的深度网络、原始统计日志,以及TensorBoard标注好的TensorFlow事件文件。

传送门

开源框架资源

Dopamine谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载:
https://github.com/google/dopamine/tree/master/docs#downloads

colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页:
https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准:
https://arxiv.org/abs/1207.4708

DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017):
https://arxiv.org/abs/1707.06887

Rainbow:
https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

令人激动!谷歌推强化学习新框架「多巴胺」,基于TensorFlow,已开源丨附github...相关推荐

  1. 提高复杂网络分析效率!中国科学家研发强化学习新框架

    提高复杂网络分析效率!中国科学家研发强化学习新框架 近日,中国国防科技大学.美国加州大学洛杉矶分校和哈佛医学院的研究人员研发了一个深度强化学习框架FINDER.相比于现有的解决方案,FINDER能够更 ...

  2. 最新!李飞飞提出深度进化强化学习新框架

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习> ...

  3. 李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | 外媒 编辑 | Yaxin, LQ 6亿 ...

  4. 一文看懂深度学习新王者「AutoML」:是什么、怎么用、未来如何发展?

    原作:George Seif 夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI AutoML和神经架构搜索(NAS),是深度学习领域的新一代王者. 这些方法能快糙猛地搞定机器学习任务,简单 ...

  5. ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯

    视学算法报道 编辑:蛋酱.小舟 youChat 能成为搜索引擎变革的先行者吗? ChatGPT 自推出以来就被寄予厚望,一些人认为它会取代搜索引擎,成为「改变游戏规则的人」. 真的会有这一天吗?至少, ...

  6. 业界 |「多巴胺」来袭!谷歌推出新型强化学习框架Dopamine

    作者:Pablo Samuel Castro.Marc G. Bellemare 来源:Google AI Blog,机器之心 摘要:在过去几年里,强化学习研究取得了多方面的显著进展. 在过去几年里, ...

  7. DeepMind:星际争霸2:强化学习新挑战(翻译)

    DeepMind:StarCraftII:A New Challenge for Reinforcement Learning 星际争霸2:强化学习新挑战 原文下载链接:https://deepmin ...

  8. DeepMind:星际争霸2:强化学习新挑战(论文翻译)

    星际争霸2:强化学习新挑战 原文下载链接:https://deepmind.com/documents/110/sc2le.pdf 整个论文分为: 摘要(Abstract) 1.介绍(Introduc ...

  9. 谷歌发布深度学习新算法,适用于真实机器人的技能学习

    https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...

最新文章

  1. 一次心惊肉跳的服务器误删文件的恢复过程
  2. 使用 remix-ide(Browser-solidity)在 Geth 上部署智能合约
  3. Android消息传递之EventBus 3.0使用详解
  4. 区块链学习笔记:DAY05 如何使用公有云区块链服务
  5. CentOS 利用Yum安装mysql后无法启动(MySQL Daemon failed to start.)
  6. ubuntu16.04 内核源码编译
  7. 国外大神一张图学会python-没有接触过编程Python难学吗?
  8. python下标是什么类型_python基本的数据类型
  9. Python 的 MySQL 模块
  10. vibe的matlab实现,Matlab调用VIBE算法
  11. 运筹学——表上作业法
  12. matlab生成范德蒙矩阵
  13. 华人“芯片女神”苏妈的硅谷传奇之路
  14. 数字滤波器的简单使用
  15. 计算机里面的硬盘图标怎么会变,win7系统电脑硬盘图标变样的解决方法
  16. 中小企业如何选择OA协同办公产品?最全的对比都在这里了
  17. OpenCV 读写图像、读写像素、修改像素值(案例:图像反处理)
  18. zabbix + nexmo = 电话告警
  19. 使用dd命令切割文件
  20. A股-入门-如何巧用集合竞价规避风险

热门文章

  1. 联想危险!74 岁的创始人柳传志站了出来
  2. TIOBE 2 月编程语言排行榜:VB 又有人要了,Go 一直在跌!
  3. 用 VR 检查代码,码农们的必备神器!
  4. linux磁盘管fdisk,Linux 磁盘分区工具和挂载,fdisk管理分区详解
  5. Spring的XML解析原理,java接口流程图
  6. matlab oj,Matlab习题(1)
  7. 删除oracle的注册,oracle数据库账号删除oracle收集系统统计信息
  8. oracle11g 冷备,oracle11G Windows冷备恢复
  9. android.cat 镜像,Android开发利器之pidcat安装方式
  10. 生产者消费者伪码_[线程同步]生产者消费者代码实现