强化学习算法三个基线策略
作为机器学习的子领域,强化学习(RL)经常被比作黑盒。您尝试几个操作,将得到的观察结果输入神经网络,并输出一些值——这是一个深奥的策略,因为这些值要告诉你在任何给定的情况下应该做什么。
当你穿越结冰的湖泊或玩电子游戏时,你很快就会发现这一政策是否有用。但是,有许多问题没有明确的解决质量的概念,没有上界和下界,没有视觉辅助。我们考虑控制一个大型车队的卡车,会根据超市的订货策略和时间的推移重新定制货物运送的组合方式,这种情况下确定 RL 算法是否有效可能会变得非常困难。
对于这类问题,在算法开发期间,如果手边有一些快速基线策略是至关重要的。本文中概述的三个策略非常容易实现,可以作为完备性检查,并在出现问题时立即告诉你。
随机策略
大多数 RL 算法都有一些探索参数,例如,一个 ϵ 可以设置 5% 的时间采取随机行动。 如果将其设置为 100%,就一直在随机探索。
很明显,蒙着眼睛的猴子投掷飞镖并不是一个很好的策略,这正是为什么你的 RL 算法应该始终且实质上优于它的原因。
但是,还有更多内容,特别是如果您不确定您的环境在多大程度上是可预测的。 如果您未能全面超越随机基线,则可能表明根本没有可预测的模式可供学习。 毕竟,即使是最复杂的神经网络也无法从纯噪声中学到任何东西。 (当然,也可能是你的算法很烂)
短视策略
RL最大的吸引力在于它可以解决复杂的顺序决策问题。现在确定最好的行动可能是一个简单的问题,但预测这个行动如何持续影响我们的奖励和环境则是另一回事。
如果我们将所有的努力都投入到建模和从未来学习中,我们希望看到更好的结果。如果我们可以在不考虑其下游影响的情况下做出类似质量的决策,为什么还要做更多的事情呢?对于大多数问题,短视策略只是最大化(最小化)直接奖励(成本)并且很容易实现。
与随机政策类似,短视政策可能在某种程度上是一块试金石。在高度随机的环境中,你今天采取的行动可能对明天的世界产生非常有限的影响,甚至对后天的影响更小。从一种状态到另一种状态的转变通常包含随机和确定性成分;如果随机分量很大且大多是噪声,那么预测下游效应就会收效甚微。对比有前瞻性和没有前瞻性的政策,可以量化预测未来实际帮助的程度。
现有成熟的算法
我们大多数人都不得不忍受“站在巨人的肩膀上”的痛苦。完全新颖的算法很少有突破性的发展,并且需要很多的条件。问题成熟的解决方案很可能是一些已经存在的RL算法的调整版本,而不是从头构建的东西。
虽然,我们都相信我们知道得更清楚,我们可以巧妙地重新组合技术、构建架构和调整参数以获得更好的结果。 也许我们可以,例如我们可能需要花费数周时间来构建自定义的 actor-critic 模型,那么它的性能最好比基本的 REINFORCE 算法好很多,但是这对于我们来说可能花费很大,因为时间和资源总是稀缺的。
总结
对某些人来说,本文中的基线可能有点愚蠢,但坦率地说它不止一次地帮助了我。特别是在高维业务问题中,只盯着大的向量而不进行比较通常是没有多大帮助的。在某些情况下(尤其是金融),数据集是否隐藏了可预测的模式,而这些模式实际上帮助了今天的决策,这确实值得怀疑。基线策略有助于验证您是否在正确的轨道上。
在结束之前,最好强调一下基线(baseline)和竞争性标杆(competitive benchmark)之间的明显区别。为了证明您的RL算法学到了一些有用的东西,你的算法应该比本文中提到的基线表现得更好。然而,仅凭这一点还不足以证明这是一个好的解决方案。如果你想发表一篇学术论文,或者想升级你公司的规划系统,你最好将你的算法与一些重要的竞争对手进行对比。
本文作者:Wouter van Heeswijk
强化学习算法三个基线策略相关推荐
- 强化学习(三):策略评估与优化
本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系.我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面.结构合理的知识库. 作者 ...
- 【强化学习实战】基于gym和tensorflow的强化学习算法实现
[新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...
- 7.阿尔法狗与强化学习算法
7.1 人工智能的发展 老一代人工智能深蓝,使用穷举法战胜国际象棋大师 AlphaGo,围棋的可能性要远远超过国际象棋,因此挑战围棋的新一代人工智能的进化采用了这么长的时间.它没有使用穷举法,而是使用 ...
- 动手学强化学习(三):动态规划算法 (Dynamic Programming)
动手学强化学习(三):动态规划算法 (Dynamic Programming) 1. 简介 2. 悬崖漫步环境 3. 策略迭代算法 3.1 策略评估 3.2 策略提升 3.3 策略迭代算法 4.价值迭 ...
- 近端策略优化深度强化学习算法
PPO:Proximal Policy Optimization Algorithms,其优化的核心目标是: ppo paper 策略梯度 以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标 ...
- 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
强化学习(三)-- 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略 ...
- ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例
ML之RL:基于MovieLens电影评分数据集利用强化学习算法(多臂老虎机+EpsilonGreedy策略)实现对用户进行Top电影推荐案例 目录 基于MovieLens电影评分数据集利用强化学习算 ...
- 如何提高强化学习算法模型的泛化能力?
深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...
- 多智能体强化学习(三)单智能体强化学习
多智能体强化学习(三)单智能体强化学习 1. 问题制定:马尔可夫决策过程 2. 奖励最大化的理由 3. 解决马尔可夫决策过程 3.1 基于价值的方法 3.2 基于策略的方法 通过试验和错误,一个RL智 ...
- 强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例
强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例 1. 引言 在这个部分补充之前马尔科夫决策和动态规划部分的代码.在以后的内容我会把相关代码都附到相关内容的后面.本部 ...
最新文章
- WebService大讲堂之Axis2(7):将Spring的装配JavaBean发布成WebService
- Access数据库出现的0x80004005 Unspecified error问题
- 二十世纪最伟大的算法,你了解哪个?
- java 中for循环中重复定义的变量 为什么不报错?
- JEECG-V3 版本相关文档开放通知
- 复杂性思维 中文第二版 翻译完成
- springcloud和dubbole的区别和解释
- case when then else end 用法
- JAX-RPC 与 JAX-WS 的比较
- Mesh平滑处理的几种算法比较
- linux_如何在Linux上配置基于Web的网络流量监控系统
- 手机浏览器 JavaScript 调起百度地图导航
- python 悬浮窗_python浮窗
- 机房温度可视化:物联网下的数据中心环境运维新方式
- AcWing 860. 染色法判定二分图 (染色法)
- GIT 知识收集-GIT banch 没有显示
- 【哈希】关于哈希表和哈希函数的理解与应用
- 【网络安全】知名网络安全企业有哪些?
- Libuv Timer定时器
- MySql字段内容加密与解密