强化学习算法三个基线策略

作为机器学习的子领域，强化学习(RL)经常被比作黑盒。您尝试几个操作，将得到的观察结果输入神经网络，并输出一些值——这是一个深奥的策略，因为这些值要告诉你在任何给定的情况下应该做什么。

当你穿越结冰的湖泊或玩电子游戏时，你很快就会发现这一政策是否有用。但是，有许多问题没有明确的解决质量的概念，没有上界和下界，没有视觉辅助。我们考虑控制一个大型车队的卡车，会根据超市的订货策略和时间的推移重新定制货物运送的组合方式，这种情况下确定 RL 算法是否有效可能会变得非常困难。

对于这类问题，在算法开发期间，如果手边有一些快速基线策略是至关重要的。本文中概述的三个策略非常容易实现，可以作为完备性检查，并在出现问题时立即告诉你。

随机策略

大多数 RL 算法都有一些探索参数，例如，一个 ϵ 可以设置 5% 的时间采取随机行动。如果将其设置为 100%，就一直在随机探索。

很明显，蒙着眼睛的猴子投掷飞镖并不是一个很好的策略，这正是为什么你的 RL 算法应该始终且实质上优于它的原因。

但是，还有更多内容，特别是如果您不确定您的环境在多大程度上是可预测的。如果您未能全面超越随机基线，则可能表明根本没有可预测的模式可供学习。毕竟，即使是最复杂的神经网络也无法从纯噪声中学到任何东西。（当然，也可能是你的算法很烂）

短视策略

RL最大的吸引力在于它可以解决复杂的顺序决策问题。现在确定最好的行动可能是一个简单的问题，但预测这个行动如何持续影响我们的奖励和环境则是另一回事。

如果我们将所有的努力都投入到建模和从未来学习中，我们希望看到更好的结果。如果我们可以在不考虑其下游影响的情况下做出类似质量的决策，为什么还要做更多的事情呢？对于大多数问题，短视策略只是最大化（最小化）直接奖励（成本）并且很容易实现。

与随机政策类似，短视政策可能在某种程度上是一块试金石。在高度随机的环境中，你今天采取的行动可能对明天的世界产生非常有限的影响，甚至对后天的影响更小。从一种状态到另一种状态的转变通常包含随机和确定性成分;如果随机分量很大且大多是噪声，那么预测下游效应就会收效甚微。对比有前瞻性和没有前瞻性的政策，可以量化预测未来实际帮助的程度。

现有成熟的算法

我们大多数人都不得不忍受“站在巨人的肩膀上”的痛苦。完全新颖的算法很少有突破性的发展，并且需要很多的条件。问题成熟的解决方案很可能是一些已经存在的RL算法的调整版本，而不是从头构建的东西。

虽然，我们都相信我们知道得更清楚，我们可以巧妙地重新组合技术、构建架构和调整参数以获得更好的结果。也许我们可以，例如我们可能需要花费数周时间来构建自定义的 actor-critic 模型，那么它的性能最好比基本的 REINFORCE 算法好很多，但是这对于我们来说可能花费很大，因为时间和资源总是稀缺的。

总结

对某些人来说，本文中的基线可能有点愚蠢，但坦率地说它不止一次地帮助了我。特别是在高维业务问题中，只盯着大的向量而不进行比较通常是没有多大帮助的。在某些情况下(尤其是金融)，数据集是否隐藏了可预测的模式，而这些模式实际上帮助了今天的决策，这确实值得怀疑。基线策略有助于验证您是否在正确的轨道上。

在结束之前，最好强调一下基线（baseline）和竞争性标杆（competitive benchmark）之间的明显区别。为了证明您的RL算法学到了一些有用的东西，你的算法应该比本文中提到的基线表现得更好。然而，仅凭这一点还不足以证明这是一个好的解决方案。如果你想发表一篇学术论文，或者想升级你公司的规划系统，你最好将你的算法与一些重要的竞争对手进行对比。

本文作者：Wouter van Heeswijk