原则 #1 评价驱动发展

客观、量化的评价驱动进展:

  • 评价指标的选择决定了进展的方向

  • 这可以说是项目过程中最重要的决策

排行榜驱动的研究:

  • 确保评价指标紧贴最终目标

  • 避免主观评估(如人为监测)

假设驱动的研究:

  • 提出假设:

    • “双 Q 学习优于 Q 学习,减少了向上偏差”

  • 在广泛的条件下验证该假设

  • 做同类比较,不对比目前最新进展

  • 要理解,而不是看排行榜排名

原则 #2 可伸缩性决定成败

  • 可伸缩性是算法相对于资源的性能梯度

    • 如果提供更多的资源,性能是如何增加的?

  • 资源包括计算、内存或数据

  • 可伸缩性最终决定了算法成功与否

  • 可伸缩性总是(最终)比好的出发点更重要

  • 好的算法在资源无限的条件下总是最优的

原则 #3 通用性保证算法符合未来发展

  • 算法的通用性是它在不同的强化学习环境下的性能体现

  • 避免对当前任务的过拟合

  • 寻找可以推广到未知、未来环境的算法

  • 我们无法预测未来,但是:

    • 或许未来的任务会至少和当前任务一样复杂

    • 而在未来,当前任务中遇到的困难很可能会增加

结论:在多样化且真实的强化学习环境中进行验证

原则 #4 信任智能体的经验

经验(观察、行为、奖励)是强化学习的数据:

  • 在智能体的整个生命历程中,可以不断积累经验

  • 要相信经验是知识的唯一来源

    • 人类的专业知识总会起诱导作用(人类数据,特征,启发式、约束、抽象、域操作)

  • 仅从经验中学习似乎是不可能的,但是:

    • 要接受的是,强化学习的核心问题是困难的

    • 这是人工智能的核心问题

    • 这是值得我们努力的

  • 长远来看,从经验中学习永远是赢家

原则 #5 状态是主观的

智能体应该根据经验构建自己的状态。

智能体状态是前一状态和新观察的函数

这是一个循环神经网络的隐藏状态

永远不要根据环境的“真实”状态(部分可观察马尔可夫决策过程,POMDP)来下定义

原则 #6 控制数据流

  • 智能体存在于丰富的感觉运动的数据流中

    • 输入智能体的观察数据流

    • 智能体输出的行为数据流

  • 智能体行为影响物流

  • 控制特征 => 控制数据流

  • 控制数据流 => 控制未来

  • 控制未来 => 最大化任意奖励

原则 #7 值函数建模世界

为什么要使用值函数?

  • 值函数可以有效地总结 / 缓存未来

  • 固定时间查找,而不是指数级的正向预搜索(LookAhead),可以简化搜索规划

  • 可以独立计算和学习

学习多个值函数可以:

  • 有效地模拟世界的许多方面(通过控制数据流)

    • 包含后续的状态变量

  • 支持多种时间尺度

避免在原始时间步长上模拟世界。

原则 #8 规划:从想象的经验中学习

一种有效的规划方法:

  • 想象下一步会发生什么

    • 基于模型的状态采样轨迹

  • 从想象的经验中学习

  • 使用已应用于实际经验的强化学习算法

现在,应该关注值函数近似(value function approximation)。

原则 #9 赋能函数近似器

可微分网络架构是强大的工具,有助于:

  • 丰富的方式表示状态

  • 可微分记忆

  • 可微分规划

  • 分级控制

算法复杂度应用到网络架构,可以:

  • 减少算法的复杂度(如何更新参数)

  • 增加架构的可表达性(参数用来做什么)

原则 #10 学会学习

人工智能的历史展示了一条清晰的发展足迹:

第一代:尚好的旧式人工智能

  • 手动预测

  • 不支持学习

第二代:浅尝学习

  • 手动处理特征

  • 开始学习预测

第三代:深度学习

  • 手动算法(优化器、目标、架构等)

  • 端到端的特征和预测学习

第四代:元学习

  • 无需手工

  • 端到端的算法、特征及预测学习

原文链接:

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

AlphaGo之父亲授深度强化学习十大法则相关推荐

  1. 【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 来源:深度强化学习实验室 作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...

  2. 【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 一.关于FinRL 目前,深度 ...

  3. 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...

  4. 【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资,高瓴创投领投

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 3月10日,南栖仙策宣布获总额数千万元的Pre-A ...

  5. 【重磅整理】提前看287篇ICLR-2021 深度强化学习领域论文得分汇总列表

    深度强化学习实验室 来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S ...

  6. 【招聘推荐】启元世界招聘深度强化学习算法工程师

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...

  7. 深度强化学习(资源篇)(更新于2020.11.22)

    理论 1种策略就能控制多类模型,华人大二学生提出RL泛化方法,LeCun认可转发 | ICML 2020 AlphaGo原来是这样运行的,一文详解多智能体强化学习的基础和应用 [DeepMind总结] ...

  8. 【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 人们普遍认为,将传统强化学习与深度神经网络相结合的 ...

  9. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

最新文章

  1. 第106天:Ajax中同步请求和异步请求
  2. Windows Socket 编程_ 简单的服务器/客户端程序 .
  3. VS2017调试时如何查看内存
  4. 破冰接入云信,打造陌生人游戏社交APP
  5. boost::histogram::histogram::fill用法的测试程序
  6. [MSSQL]ROW_NUMBER函数
  7. git安装,windows下git bash默认目录更改
  8. 《实施Cisco统一通信管理器(CIPT1)》一2.8 复习题
  9. 好书推荐之《活着》 隐私策略(Privacy policy)
  10. Python为什么这么厉害? 不想成为专业码农? 来学习Python吧!
  11. 图论-网络流-Dinic (邻接表版)
  12. Mac. 修改bash_file
  13. mysql c库 示例_选择MySQL数据库进行连接的简单示例
  14. renpy 如何执行2个action_可执行的网络推广方案如何策划 8个维度 学会了策划方案不求人...
  15. Hr人力资源管理系统怎样给企业创造价值
  16. 勤哲excel服务器点击修改,用勤哲Excel服务器实现工作任务管理系统
  17. 【嵌入式技术】Atmega128串口详解
  18. Medusa 破解centos密码
  19. where 空集_实验七SQL的空值和空集处理.doc
  20. python图像处理:核磁共振图像(3D)的缩放

热门文章

  1. docker容器的本地局域网yum源优化
  2. 程序员必备的 10 大 GitHub 仓库
  3. Java:用POI读写Excel
  4. postman发送object_.NetCore HttpClient发送请求的时候为什么自动带上了一个RequestId头部...
  5. c语言学生成绩删除功能,c语言学生成绩管理系统程序设计,有添加,查找,删除,输出,修改,排序等功能!!!...
  6. unity双面显示在哪_双面屏努比亚Z20售3499起 4800万三摄+855Plus+4K电池
  7. 杰瑞服务器虚拟化,大家在Mac中开发PHP,是用虚拟机的方式还是直接在Mac下搭建环境...
  8. android弹球动画,Android动画之自定义Evaluator实现弹球效果
  9. 按15分钟取数据_【数量技术宅|金融数据分析系列分享】套利策略的价差序列计算,恐怕没有你想的那么简单...
  10. 成员的访问控制java_java类成员的访问控制(翻译自Java Tutorials)