来源:新智元

本文共多图,建议阅读10分钟。

为你分享Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出的强化学习中要注意的10大要点。

[ 导读 ]近日,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看,也许能少走点弯路。

近日,在南非斯泰伦博斯举行的Deep Learning Indaba活动上,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上,引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议,非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧!

1、在评估中产生进步 

客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究:确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究:提出假设,在宽泛的条件下验证假设,与相似结果对比,而不是与最先进的结果对比。重要的是对结果的理解,而不是追求排名。

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论:要广泛验证,建立现实的机器学习环境。

4、 信任智能体的经验

经验(包括观察、动作、奖励)是指深度学习的数据。信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。

5、状态是主观的

智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

6、控制数据流

智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

8、从想象的经验中进行学习

想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。

9、加强函数逼近器

差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。

第二代:浅度学习。手动控制特征,学习预测。

第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。

第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。

参考链接:

https://twitter.com/DeepIndaba/status/1040234486250782721

AlphaGo首席研究员亲授!10张PPT介绍10大强化学习黄金法则!相关推荐

  1. 10张PPT干货,教你写出一流的文案

    想写出一流的文案,最关键的是要掌握背后最核心的方法论. 如何写出一流的文案? 这一直是很多产品运营的朋友苦恼的问题.大家在写文案的时候,很容易陷入一个误区,认为好的文案或者说有创意的文案都是通过发散思 ...

  2. 用24张图介绍九大数据结构

    用24张图介绍九大数据结构 数据结构想必大家都不会陌生,对于一个成熟的程序员而言,熟悉和掌握数据结构和算法也是基本功之一.数据结构本身其实不过是数据按照特点关系进行存储或者组织的集合,特殊的结构在不同 ...

  3. 「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则

    「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则 https://mp.weixin.qq.com/s/KBddskHUAzQ8dm0Onu13ZA 演讲课件地址: h ...

  4. 美团点评DDD在微服务架构中的实践!10张ppt一次讲透

    点击"技术领导力"关注∆  每天早上8:30推送 来源:美团技术团队 至少30年以前,一些软件设计人员就已经意识到领域建模和设计的重要性,并形成一种思潮,Eric Evans将其定 ...

  5. 路径规划之 10张PPT总结 A*算法

    A* 代码实现请参考:基于图的路径搜索算法(BFS Dijkstra A*)代码实现 参考文章: A*算法详解(个人认为最透彻的一个)_CSer-CSDN博客_a* A*搜索算法(python)_慕课 ...

  6. 10.28rsync工具介绍10.2910.30rsync常用选项10.31rsync通过ssh同步

    10.28 rsync工具介绍 本机同步,将passwd同步到/tmp/更名为1.txt 远程的的同步方法 10.29/10.30 rsync常用选项 加上L同步软链接时会把源文件给同步 aming3 ...

  7. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

  8. Hadoop基础教程-第10章 HBase:Hadoop数据库(10.1 NoSQL介绍)(草稿)

    第10章 HBase:Hadoop数据库 10.1 NoSQL介绍 10.1.1 NoSQL简介 随着互联网技术(互联网+,物联网)发展,特别是大数据时代到来,我们需要存储处理更多数据,这种需求远远超 ...

  9. 约瑟夫问题与魔术(四)——魔术《10张牌的巧合》

    在前面的三篇文章中,我们完成了约瑟夫问题数学部分的解析,相信已经令数学爱好者们大呼过瘾,让魔术爱好者们一头雾水了,相关内容请戳: 约瑟夫问题与魔术(三)--终极数学推导 约瑟夫问题与魔术(二)--数学 ...

最新文章

  1. java双等号和equals_Java中的 equals和双等号,你懂吗?
  2. 想获得50亿专项激励?关于穿山甲新星助推计划你必须了解的几件事
  3. python和perl哪个好_做为脚本语言来说perl和python那个更有优势?
  4. 洛谷.4897.[模板]最小割树(Dinic)
  5. 优化混合云性能:数据管理技巧大公开
  6. TorchMetrics:PyTorch的指标度量库
  7. oracle自增的两种办法,ORACLE数据库实现自增的两种方式
  8. linux下qt生成dll,Qt 创建和使用动态链接库 - cibiren2011的专栏 - 博客频道 - CSDN.NET...
  9. 并注册烧写钩子 获取启动介质类型_PyTorch中对张量登记注册反向传播的钩子函数,并展示调用顺序...
  10. C#文件过滤器filter
  11. java文件中注释出现乱码解决办法
  12. 有什么软件能一帧一帧的播放视频吗?KMPlayer
  13. android 焦点丢失,RecyclerView更新数据时焦点丢失(android bug)
  14. Word中把竖排文字里的数字变横向
  15. 东北大学计算机考研专业842包括什么,东北大学2019年计算机考研842计算机专业基础考试大纲...
  16. 推荐系统笔记(八):推荐系统中的长尾效应
  17. HDU1556--涂气球
  18. 千万别活成自己最讨厌的样子
  19. 数据库入门理论知识介绍以及编译安装MySql
  20. java_多线程下载

热门文章

  1. Expo 快速开启之旅
  2. Fiddler小技巧-测试上传文件接口多参数并传情况
  3. TCP协议客户端读取文本文件,服务器端输出到文本文件
  4. JS操作iframe
  5. php 调用url field,使用 PHP curl 调用 API,如何传递如下格式的 POSTFIELD?
  6. phplivechat安卓app下载_PHP在线网页客服系统PHP Live Chat中文版下载
  7. 重学《动手学深度学习》转
  8. python前面+r
  9. pandas 的describe的参数含义
  10. 在Java程序设计中,设置环境变量path和classpath的作用分别是什么?