晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

Facebook上周末开源了一个强化学习工具——Horizon

虽然之前也有其他公司开源过强化学习工具,但Facebook声称Horizon是第一个开源的“端到端”(end-to-end)强化学习工具

它由Python编写,使用Pytorch进行建模和Caffe2进行训练,用于解决一些数据集很大、反馈回路很慢的实际强化学习问题。而这些问题往往需要在现实世界中小心翼翼的进行试验,因为没有模拟器可供运行。

Facebook全球拥有20多亿用户,在这方面有丰富的经验。Horizon框架开发的工作始于2年半以前,并在去年投入公司内部使用。Facebook曾将它用在优化网络360°全景视频智能个性化推荐等实际产品上。

Horizon平台包含训练深度强化学习算法的工作流,像数据处理、特征转换、分布式训练、反事实策略评估、优化服务等。

改进的强化学习工具

强化学习在AI领域取得了很多成就,比如人机围棋大战、AI在Dota 2团战中战胜人类这些大新闻,其中都有强化学习的功劳。

但是它却鲜有商业用途,原因是在游戏之外的地方,通过反复试错来学习的方法是不明智或不安全的。对于现实世界中的现象,也没有精确的模拟器可供算法进行安全的训练。

为了解决其中的一些限制,Facebook开发了Horizon工具,让公司团队在面临一些实际问题时也能使用强化学习。

Horizon最初训练算法是选取工程师指定的动作集合,而不是让算法从零开始并从随机动作中学习。然后,它使用基于现有数据的几种反事实分析来模拟算法可能采取的不同动作。通过这种方式,Horizon在模拟器中模拟训练算法,使其完善而不必担心它会在现实世界中造成严重破坏。

一般来说,使用实际的模拟器会比进行这种反事实分析更好。 但对于Facebook的许多问题,构建模拟器并非易事。目前Facebook团队正在研究如何从数据集构建模拟器。

一旦算法运行良好,Horizon就允许用户进行小规模在线实验,实时使用实际数据,然后逐步将新算法推广到更大的用户或数据集。再将完全训练的算法作为新的起点,不断重复此过程。

Facebook为何选择开源

谈到为何将Horizon开源,Facebook应用机器学习主管Srinivas Narayanan说:“我们致力于开源,因此共享这个最新的产品化系统是很自然的事情。”

原本Horizon是为企业和研究团队大规模部署AI而开发的,它需要数以千计的CPU或GPU数十亿的观测结果。现在经过Facebook用Apache Spark预处理和用PyTorch训练系统后,它也能用在个人电脑上了。

Horizon项目负责人Jason Gauci认为强化学习是在采用ML的工业领域的下一个前沿,希望开源这个平台让用户开始使用强化学习。Horizon是为了规范大型数据集的训练,这也是强化学习中的常见问题,他说。

另外一些AI公司,如果DeepMind、谷歌大脑团队和OpenAI,也在之前开源过强化学习工具。Facebook此举或是紧随竞争对手的步伐。

附录

项目地址:
https://github.com/facebookresearch/Horizon
项目白皮书:

https://research.fb.com/publications/horizon-facebooks-open-source-applied-reinforcement-learning-platform/

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

强化学习工具Horizon开源:Facebook曾用它优化在线视频和聊天软件相关推荐

  1. Unity强化学习工具MLAgents

    文章目录 参考资料 一.环境准备 1.下载ml-agents 2.安装Unity Hub 3.安装Unity 3D 二.新建项目 2.1 新建工程 2.2 搭建场景 2.3 设置材质 三.程序 3.1 ...

  2. 强化学习 - Deep RL开源项目总结

    https://zhuanlan.zhihu.com/p/24392239 一. Lua 语言的程序包(运用框架:Torch 7): 1. 相关论文:Human-level control throu ...

  3. 谷歌造了个虚拟足球场,让AI像打FIFA一样做强化学习训练丨开源有API

    郭一璞 发自 苏州街  量子位 报道 | 公众号 QbitAI 除了下棋.雅达利游戏和星际,AI终于把"魔爪"伸向了粉丝众多的体育竞技活动: 足球. 今天,谷歌开源了足球模拟环境G ...

  4. 强化学习(三):策略评估与优化

    本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系.我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面.结构合理的知识库. 作者 ...

  5. 深度强化学习(资源篇)(更新于2020.11.22)

    理论 1种策略就能控制多类模型,华人大二学生提出RL泛化方法,LeCun认可转发 | ICML 2020 AlphaGo原来是这样运行的,一文详解多智能体强化学习的基础和应用 [DeepMind总结] ...

  6. Facebook开源Horizon:首个用于大规模产品和服务的强化学习平台

    Horizon是首个使用应用强化学习(RL)在大规模生产环境中优化系统的端到端开源平台. 这个版本中包含的工作流和算法是以开放框架为基础构建的--PyTorch 1.0.Caffe2和Spark--使 ...

  7. DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现

    作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...

  8. OpenAI Gym 是一个优秀开发和比较强化学习算法的工具

    OpenAI Gym 是一个优秀开发和比较强化学习算法的工具. gym的核心接口是Env方法: reset(self):重置环境的状态,返回观察.     step(self, action):推进一 ...

  9. 《强化学习周刊》第31期:康奈尔大学推出基于强化学习的数据库调优工具DB-BERT...

    No.31 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

最新文章

  1. 用高中数学理解AI “深度学习”的基本原理
  2. thinkbook14 2021款电脑买来后发现:关机后电源指示灯仍然是亮的
  3. 百度二次上市涨0.79%,错过移动互联网热潮后牌怎么出?
  4. oracle主键自动增长
  5. VTK:小部件之BoxWidget
  6. 还不懂你现在学习的编程语言能做什么?还不懂如何进阶?过来看图
  7. k8s 基础概念和术语
  8. unity3d 随机物体生成器 工具
  9. 【UOJ#450】【集训队作业2018】复读机(生成函数,单位根反演)
  10. CTF小工具下载整理
  11. R语言实现随机分组(按照学号或者是姓名随机分组)
  12. 《深入理解Java虚拟机》笔记04之垃圾收集算法
  13. 【Blender】Coffe Shop建模思路及常用键、常见问题
  14. 体验godaddy域名转入,添加A记录,及使用dnspod的NS
  15. 软件体系结构层次风格理解
  16. conda:安装python
  17. vue+js 从一个数组中删除在另一个数组中已存在对象;
  18. CentOS安装pycurl报错
  19. python/zmq/monitor
  20. 2011最具技术影响力评选——图书篇(引进):2011年整个行业都在百花齐放,

热门文章

  1. 今日头条们:一边道歉一边做大
  2. ofo 辟谣滴滴收购;美团饿了么回应数据泄露;金立转战海外 | CSDN 极客头条
  3. 滴滴接盘小蓝单车,押金问题谁来负责?
  4. AI 算法起家的今日头条为何败给了色情?
  5. r语言dataellipse_R语言绘图:28个实用程序包
  6. 计算机作为信息处理工具 应用于科学研究,计算机2013春分章节试题及答案.doc
  7. tracepro杂散光分析例子_2020临中高考咨询群咨询成效问卷结果分析
  8. python中remove用法_python中remove的一些坑
  9. 利用开放定址法实现散列表的创建、插入、删除、查找操作_快速入门数据结构:散列表(上)...
  10. mfc界面的onvscroll没反应_电脑小技巧之360安全卫士卸载不掉怎么办?只因一个开关没打开...