作为机器学习的子领域,强化学习(RL)经常被比作黑盒。您尝试几个操作,将得到的观察结果输入神经网络,并输出一些值——这是一个深奥的策略,因为这些值要告诉你在任何给定的情况下应该做什么。

当你穿越结冰的湖泊或玩电子游戏时,你很快就会发现这一政策是否有用。但是,有许多问题没有明确的解决质量的概念,没有上界和下界,没有视觉辅助。我们考虑控制一个大型车队的卡车,会根据超市的订货策略和时间的推移重新定制货物运送的组合方式,这种情况下确定 RL 算法是否有效可能会变得非常困难。

对于这类问题,在算法开发期间,如果手边有一些快速基线策略是至关重要的。本文中概述的三个策略非常容易实现,可以作为完备性检查,并在出现问题时立即告诉你。

随机策略

大多数 RL 算法都有一些探索参数,例如,一个 ϵ 可以设置 5% 的时间采取随机行动。 如果将其设置为 100%,就一直在随机探索。

很明显,蒙着眼睛的猴子投掷飞镖并不是一个很好的策略,这正是为什么你的 RL 算法应该始终且实质上优于它的原因。

但是,还有更多内容,特别是如果您不确定您的环境在多大程度上是可预测的。 如果您未能全面超越随机基线,则可能表明根本没有可预测的模式可供学习。 毕竟,即使是最复杂的神经网络也无法从纯噪声中学到任何东西。 (当然,也可能是你的算法很烂)

短视策略

RL最大的吸引力在于它可以解决复杂的顺序决策问题。现在确定最好的行动可能是一个简单的问题,但预测这个行动如何持续影响我们的奖励和环境则是另一回事。

如果我们将所有的努力都投入到建模和从未来学习中,我们希望看到更好的结果。如果我们可以在不考虑其下游影响的情况下做出类似质量的决策,为什么还要做更多的事情呢?对于大多数问题,短视策略只是最大化(最小化)直接奖励(成本)并且很容易实现。

与随机政策类似,短视政策可能在某种程度上是一块试金石。在高度随机的环境中,你今天采取的行动可能对明天的世界产生非常有限的影响,甚至对后天的影响更小。从一种状态到另一种状态的转变通常包含随机和确定性成分;如果随机分量很大且大多是噪声,那么预测下游效应就会收效甚微。对比有前瞻性和没有前瞻性的政策,可以量化预测未来实际帮助的程度。

现有成熟的算法

我们大多数人都不得不忍受“站在巨人的肩膀上”的痛苦。完全新颖的算法很少有突破性的发展,并且需要很多的条件。问题成熟的解决方案很可能是一些已经存在的RL算法的调整版本,而不是从头构建的东西。

虽然,我们都相信我们知道得更清楚,我们可以巧妙地重新组合技术、构建架构和调整参数以获得更好的结果。 也许我们可以,例如我们可能需要花费数周时间来构建自定义的 actor-critic 模型,那么它的性能最好比基本的 REINFORCE 算法好很多,但是这对于我们来说可能花费很大,因为时间和资源总是稀缺的。

总结

对某些人来说,本文中的基线可能有点愚蠢,但坦率地说它不止一次地帮助了我。特别是在高维业务问题中,只盯着大的向量而不进行比较通常是没有多大帮助的。在某些情况下(尤其是金融),数据集是否隐藏了可预测的模式,而这些模式实际上帮助了今天的决策,这确实值得怀疑。基线策略有助于验证您是否在正确的轨道上。

在结束之前,最好强调一下基线(baseline)和竞争性标杆(competitive benchmark)之间的明显区别。为了证明您的RL算法学到了一些有用的东西,你的算法应该比本文中提到的基线表现得更好。然而,仅凭这一点还不足以证明这是一个好的解决方案。如果你想发表一篇学术论文,或者想升级你公司的规划系统,你最好将你的算法与一些重要的竞争对手进行对比。

本文作者:Wouter van Heeswijk

强化学习算法三个基线策略相关推荐

  1. 强化学习(三):策略评估与优化

    本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系.我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面.结构合理的知识库. 作者 ...

  2. 【强化学习实战】基于gym和tensorflow的强化学习算法实现

    [新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...

  3. 7.阿尔法狗与强化学习算法

    7.1 人工智能的发展 老一代人工智能深蓝,使用穷举法战胜国际象棋大师 AlphaGo,围棋的可能性要远远超过国际象棋,因此挑战围棋的新一代人工智能的进化采用了这么长的时间.它没有使用穷举法,而是使用 ...

  4. 动手学强化学习(三):动态规划算法 (Dynamic Programming)

    动手学强化学习(三):动态规划算法 (Dynamic Programming) 1. 简介 2. 悬崖漫步环境 3. 策略迭代算法 3.1 策略评估 3.2 策略提升 3.3 策略迭代算法 4.价值迭 ...

  5. 近端策略优化深度强化学习算法

    PPO:Proximal Policy Optimization Algorithms,其优化的核心目标是: ppo paper 策略梯度 以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标 ...

  6. 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)

    强化学习(三)-- 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略 ...

  7. ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例

    ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例 目录 基于MovieLens电影评分数据集利用强化学习算 ...

  8. 如何提高强化学习算法模型的泛化能力?

    深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...

  9. 多智能体强化学习(三)单智能体强化学习

    多智能体强化学习(三)单智能体强化学习 1. 问题制定:马尔可夫决策过程 2. 奖励最大化的理由 3. 解决马尔可夫决策过程 3.1 基于价值的方法 3.2 基于策略的方法 通过试验和错误,一个RL智 ...

  10. 强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例

    强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例 1. 引言 在这个部分补充之前马尔科夫决策和动态规划部分的代码.在以后的内容我会把相关代码都附到相关内容的后面.本部 ...

最新文章

  1. WebService大讲堂之Axis2(7):将Spring的装配JavaBean发布成WebService
  2. Access数据库出现的0x80004005 Unspecified error问题
  3. 二十世纪最伟大的算法,你了解哪个?
  4. java 中for循环中重复定义的变量 为什么不报错?
  5. JEECG-V3 版本相关文档开放通知
  6. 复杂性思维 中文第二版 翻译完成
  7. springcloud和dubbole的区别和解释
  8. case when then else end 用法
  9. JAX-RPC 与 JAX-WS 的比较
  10. Mesh平滑处理的几种算法比较
  11. linux_如何在Linux上配置基于Web的网络流量监控系统
  12. 手机浏览器 JavaScript 调起百度地图导航
  13. python 悬浮窗_python浮窗
  14. 机房温度可视化:物联网下的数据中心环境运维新方式
  15. AcWing 860. 染色法判定二分图 (染色法)
  16. GIT 知识收集-GIT banch 没有显示
  17. 【哈希】关于哈希表和哈希函数的理解与应用
  18. 【网络安全】知名网络安全企业有哪些?
  19. Libuv Timer定时器
  20. MySql字段内容加密与解密

热门文章

  1. python 扫描二维码
  2. 阿里云访问控制——OSS——STS
  3. lighttpd 记录
  4. 看这玩意复习你还会挂科?《web开发1篇》
  5. 添加zabbix飞信报警
  6. jsp——四大作用域详解
  7. 计算机按键截图,电脑按什么键自由截图(电脑截屏的快捷键是什么)
  8. Delphi程序破解技术概要
  9. 全新安装Win7的好方法
  10. Can‘t locate XXX/XXX.pm in @INC (you may need to install the XXX::XXX module)