1 背景

无聊时看群聊发现在半年前2021年7月左右新出了一个方法，叫做decision transformer。一直以来都是对attention机制大家族保持着崇高的敬意，于是找到了这篇文章看了一下。看完之后感觉并不是很惊喜，也可能是期待太高。文章核心做的工作是给出了一种新的深度强化学习训练模式，使得能够更加‘端对端’地去用transformer大家族去拟合和训练。截止2022年1月22日，这篇文章在谷歌学术上有了50次引用（半年多）。
论文原文：Decision Transformer: Reinforcement Learning via Sequence Modeling
代码仓库：https://github.com/kzl/decision-transformer

2 模型结构

文章并没有提出新的模型结构，本质是在为transformers提供输入的embeddings。RL中的一个轨迹由多个 $s_t, a_t, r_t$ 按顺序组成，作者将其中的 $r_t$ 换成对于未来的奖励期望–汇报 $R_t$ ，然后将采样获得的长度为K的轨迹直接顺序拼接起来形成一个输入。然后就可以将其看作正常DL中的 $x_i$ 来做回归训练了。那LOSS是怎么产生的呢？因为整个模型要预测的是下一步动作，所以LOSS是由当前模型预测的下一步的动作 $a^{pre}$ 和真实的下一步动作 $a$ 之间的差得到的。这就很有意思了，相当于标签不仅是标签，还会在某种情况下成为输入。
当然，这里面还是有几个小细节：
1）直接把采样得到的K长的raw feature喂给transformers那怕是有点直接，于是作者在这二者直接加了一层MLP来project一下。如果状态是图像的话，比如Atari里的游戏，那么就通过CNN提取后再拼接回去。
2）虽然作者抛弃了传统的策略改进过程，但是序列决策问题还是序列决策，总是要有个能表示当前步骤的 $t$ 的，因此作者在 $s_t, a_t, r_t$ 的embeddings上都加了 $t$ 的embedding，相当于了positional encoding。
3）作者想用transformers拟合的是动作action，但是作者说其实拟合state和reward也行就是没那么直接。

下面这个伪代码还是很直观的：

3 实验

实验部分，作者在Atari和openai的数据集上做了测试，言简意赅概括就是“还行，还不错”：

作者的几个小实验放在了discussion里，里面有几个有意思的尝试，挑了两个：

一个是说K，也就是采样的长度越长越好。

另一个是说解决稀疏、延迟奖励环境下效果也不错。

4 特点总结

1）总的来说，本文还是给DRL领域带来了有趣的尝试，尤其是对于离线DRL来说，能够通过简单的输入构建就可以利用上Transformer大家族的强大模型，比如GPT\BERT，这对于一些问题还是十分重要的。
2）仔细想想，效果可能主要来自于注意力机制对于样本之间的信息交互作用，使得不同样本之间学习到了一下未来或者过去的知识，从而可以直接端对端学习动作。我们想象一个生动的场景：每隔1小时就会复制一个你，然后放到小黑屋里存着，你还是正常做事情。那么过了10个小时，有了10个你的样本，这些样本都知道到他们产生时刻为止事情的一些进展，你让他们来到一起交流分享一下，那么就会从这些不同时刻的片段你中学到到底什么是对的什么是错的。之所以作者会用回报而不是即时奖励，就是因为回报是能代表当前时刻的一个优劣的情况，以方便不同的样本之间进行交互。

[经典论文分享] Decision Transformer: Reinforcement Learning via Sequence Modeling相关推荐

【论文阅读】Decision Transformer: Reinforcement Learning via Sequence Modeling
[论文阅读]Decision Transformer: Reinforcement Learning via Sequence Modeling 1 本文解决了什么问题? 本文将强化学习抽象为一个序列 ...
【强化学习论文】Decision Transformer：通过序列建模进行强化学习
Article 文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling 文献时间:2021 摘要我们引入了一个 ...
论文解析：Deep Reinforcement Learning for List-wise Recommendations
论文解析:Deep Reinforcement Learning for List-wise Recommendations 简介京东在强化学习推荐系统方面的工作背景推荐系统存在的问题: 无法通 ...
论文记载： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
历史最全、最细、近一年最新知识图谱相关经典论文分享
本资源包含了知识图谱相关最全.最细.以及近一年最新经典论文,涉及知识表示.知识建模.知识抽取基础(数据采.实体识别.关系抽取.事件抽取). 知识融合. 知识图谱表示学习.知识存储.基于知识的智能问答. ...
论文代码解读 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation
论文解读论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation_UQI-LIUWJ的博客-CS ...
【论文笔记】Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System
Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System With Input Sat ...
【论文笔记】A Reinforcement Learning Method for Multi-AGV Scheduling in Manufacturing
目录 Abstract Keywords 1 INTRODUCTION 2 REINFORCEMENT LEARNING 3 PROBLEM FORMULATION A. Problem Statem ...
【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina
目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...
[论文翻译]DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 0 总结名称项目题目 DeepPath: A Re ...

[经典论文分享] Decision Transformer: Reinforcement Learning via Sequence Modeling

1 背景

2 模型结构

3 实验

4 特点总结

[经典论文分享] Decision Transformer: Reinforcement Learning via Sequence Modeling相关推荐

最新文章

热门文章