《强化学习周刊》第34期：牛津、谷歌、Facebook等 | 自动强化学习 (AutoRL)：研究综述和开放性问题...

No.34

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第32期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如深度强化学习在机器人视觉、分布式协作多智能体强化学习、多注意力深度强化学习应用于NP-hard领域、基于深度强化学习的自然语言处理应用、深度强化学习在智能机器人应用领域及复杂网络建模领域相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于基于临界度的变步长强化学习算法、基于视觉的机器人深度强化学习算法的基准测试、基于有向协调图的分布式协作多智能体强化学习、基于多注意力深度强化学习解决动态图问题、基于深度强化学习的弱监督场景文本检测、浅层控制器的深度强化学习：PID 调节的实验应用、分层深度强化学习揭示细胞运动的模块化机制、一种强化学习引导的自适应代价敏感特征获取方法、基于深度强化学习的复杂网络建模、基于深度强化学习的智能磁性微型机器人学习游泳、强化学习在解决NP难问题中的应用、遗传算法中的直接变异和交叉在强化学习任务中的应用、基于梯度策略学习的进化行为选择、基于强化学习的空战机动生成等。

标题：Criticality-Based Varying Step-Number Algorithm for Reinforcement Learning（基于临界度的变步长强化学习算法）了解详情

简介：在强化学习的背景下，本文引入了状态临界性的概念，其表明在该特定状态下的动作选择对预期奖励的影响程度。即动作选择更有可能影响最终结果的状态被认为比它不太可能影响最终结果的状态更关键。本文提出了一种基于临界性的变步长算法 (CVS)——一种灵活的步长算法，它利用人类提供的关键性函数，或直接从环境中学习。通过在三个不同的领域进行测试，包括 Atari Pong 环境、Road-Tree 环境和 Shooter 环境。研究结果表明 CVS 能够超越流行的学习算法，如深度Q学习和蒙特卡罗（Monte Carlo）。

论文链接：https://arxiv.org/pdf/2201.05034.pdf

标题：Benchmarking Deep Reinforcement Learning Algorithms for Vision-based Robotics（基于视觉的机器人深度强化学习算法的基准测试）了解详情

简介：本文描述了一些用于解决两个基于视觉的模拟机器人问题的最先进的强化学习算法的基准测试研究。本研究中考虑的算法包括软参与批评 (SAC)、近端策略优化 (PPO)、插值策略梯度 (IPG) 及其与事后经验重放 (HER) 的变体。此类算法的性能分别与 PyBullet 的两个模拟环境 KukaDiverseObjectEnv 和 RacecarZEDGymEnv 进行了比较。这些环境中的状态观测以 RGB 图像的形式提供，并且动作空间是连续的，以至于难以解决。本文提出了许多策略以提供在这些问题上实施 HER 算法所需的中间事后目标，这些问题本质上是单目标环境。此外，本文还提出了许多特征提取架构，将空间和时间注意力纳入学习过程。通过严格的模拟实验，确定了使用这些组件实现的改进。据研究所知，上述两个基于视觉的机器人技术问题无法进行此类基准研究，因此本研究在该领域做出了新的贡献。

论文链接：https://arxiv.org/pdf/2201.04224.pdf

标题：Distributed Cooperative Multi-Agent Reinforcement Learning with Directed Coordination Graph（基于有向协调图的分布式协作多智能体强化学习）了解详情

简介：现有的分布式协作多智能体强化学习（MARL）框架通常采用无向协调图和通信图，通过协商一致的策略评估算法来估计全局奖励。由于全局共识的要求，此类框架可能会导致昂贵的通信成本，并且表现出较差的可扩展性。因而本文研究了有向协调图的MARL，并提出了一种分布式RL算法，其中局部策略评估基于局部值函数。每个智能体的局部价值函数是通过有向学习诱导的通信图与其邻居进行局部通信而获得的，无需使用任何共识算法。本文采用了基于零阶扰动的零阶参数估计方法（ZOO）。通过与现有基于ZOO的RL算法的比较，研究结果表明了本文提出的分布式RL算法保证了高可扩展性。通过分布式资源分配的实例表明了该算法的有效性。

论文链接：https://arxiv.org/pdf/2201.04962.pdf

标题：Solving Dynamic Graph Problems with Multi-Attention Deep Reinforcement Learning（基于多注意力深度强化学习解决动态图问题）了解详情

简介：在数据工程和计算机科学中，诸如旅行商问题或寻找最小Steiner树等图问题得到了广泛的研究和应用。由于图的特征往往会随着时间而变化，故找到问题的解决方案变得具有挑战性。许多图问题的动态版本是交通、电信和社交网络中大量现实问题的关键。现有的启发式学习方法都集中在静态图问题上。动态特性使 NP-hard 图问题的学习更具挑战性。故本文提出了图时间注意与强化学习（GTA-RL）的新架构来学习基于图的动态组合优化问题的启发式解决方案。该架构由能够嵌入组合问题实例的时间特征的编码器和能够动态关注嵌入特征以找到给定组合问题实例的解决方案的解码器组成。通过扩展该架构以学习组合优化问题实时版本的启发式方法，其中问题的所有输入特征都是先验未知的，而是实时学习的。实验研究结果表明，该方法在效率方面优于最先进的基于学习的方法，在动态和实时图形组合优化方面优于最优解算器。

论文链接：https://arxiv.org/pdf/2201.04895.pdf

标题：Weakly Supervised Scene Text Detection using Deep Reinforcement Learning（基于深度强化学习的弱监督场景文本检测）了解详情

简介：具有挑战性的场景文本检测领域需要复杂的数据标注，这既耗时又昂贵。诸如弱监督等技术可以减少所需的数据量。本文提出了基于强化学习的弱监督场景文本检测方法。RL智能体获得的奖励是通过神经网络估计的，而不是从地面真相标签推断出来的。首先，通过一系列训练优化来增强现有的有监督RL文本检测方法，使该方法能够缩小基于回归算法的性能差距。然后，将本文提出的系统用于对真实数据的弱监督和半监督训练。研究结果表明，在弱监督环境下进行训练是可行的。然而，在半监督环境中使用该模型，例如，当将标记的合成数据与未标记的真实世界数据相结合时会产生最佳结果。

论文链接：http://arxiv.org/pdf/2201.04866.pdf

标题：Reinforcement Learning based Air Combat Maneuver Generation（基于强化学习的空战机动生成）了解详情

简介：人工智能技术的出现为空战领域的许多研究铺平了道路。如无人机自主机动决策方向的研究取得了诸多成果，但包括强化学习（RL）在内的决策更有效。为了使智能体以最优的方式达到其目标，已进行了大量的研究和实验，其中最突出的是遗传算法（GA）、Astar、RRT等。但强化学习以其成功而闻名。在DARPHA Alpha格斗试验中，强化学习战胜了波音公司训练的真正经验丰富的F16飞行员。该后续模型由Heron Systems开发。本研究针对具有dubin飞行器动力学特性的无人机，使用双延迟深度确定性策略梯度（TD3）以最佳路径在二维空间中移动到目标，并将其用于经验回放后见经验回放（HER），同时在两个不同的环境中进行了测试和模拟。

论文链接：https://arxiv.org/ftp/arxiv/papers/2201/2201.05528.pdf

标题：Deep reinforcement learning with shallow controllers: An experimental application to PID tuning（浅层控制器的深度强化学习：PID 调节的实验应用）了解详情

简介：深度强化学习 (RL) 是一种优化驱动的框架，用于在不明确依赖过程模型的情况下为一般动态系统生成控制策略。在模拟中报告了良好的结果。本文展示了在真实物理系统上实现最先进的深度 RL 算法所面临的挑战。包括软件和现有硬件之间的相互作用；实验设计和样本效率；受输入约束的训练；以及算法和控制律的可解释性。本文方法的核心是使用 PID 控制器作为可训练的 RL 策略。优点：不需要向控制系统添加额外的硬件，因为可以通过标准的可编程逻辑控制器轻松实现 PID 控制器；控制律可以很容易地在参数空间的“安全”区域初始化；最终成果——经过良好调整的 PID 控制器。

论文链接：https://www.sciencedirect.com/science/article/pii/S0967066121002963

标题：Hierarchical deep reinforcement learning reveals a modular mechanism of cell movement（分层深度强化学习揭示细胞运动的模块化机制）了解详情

简介：细胞和组织的延时图像包含有关动态细胞行为的丰富信息，这些信息反映了增殖、分化和形态发生的基本过程。然而，目前缺乏有效推理的计算工具。本文利用深度强化学习 (DRL) 从三维 (3D) 延时图像推断组织形态发生中的细胞间相互作用和集体细胞行为。本文使用以多尺度学习和数据效率而闻名的分层 DRL (HDRL) 来检查基于图像的细胞迁移，这些图像具有无处不在的核标签和从图像的经验统计中制定的简单规则。用额外的细胞标记成像证实了模块化组织是一种新的迁移机制，本文称之为连续玫瑰花结。本文的研究展示了一种在没有先验知识的情况下从延时成像推断潜在生物学的强大方法。

论文链接：https://www.nature.com/articles/s42256-021-00431-x?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

标题：A reinforcement learning guided adaptive cost-sensitive feature acquisition method（一种强化学习引导的自适应代价敏感特征获取方法）了解详情

简介：现有的大部分特征选择方法都倾向于追求所选特征子集的学习性能，而忽略了获取每个特征的代价。在实际问题中，由于资源有限，经常面临模型性能和特性成本之间的权衡。此外，在某些应用(如医学测试)中，特征是在学习过程中顺序获得的，而不是预先知道整个特征集的信息。本文设计了一个强化学习智能体来指导代价敏感的特征获取过程，并提出了一个基于深度学习的模型来自适应地为每个实例选择信息丰富且成本较低的特征。特征获取的整个过程将由智能体根据其从输入中观察到的信息来决定。具体来说，循环神经网络(RNN)模型将从当前样本中学习知识，智能体将给出RNN模型是继续选择下一个特征还是停止顺序特征获取过程的指令。此外，该方法还可以选择每个块的特征，从而可以处理高维数据。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S1568494622000163/pdf

标题：Modeling Complex Networks Based on Deep Reinforcement Learning（基于深度强化学习的复杂网络建模）了解详情

简介：复杂网络的网络拓扑结构随着时间的推移而动态演化。如何对驱动网络结构动态变化的内部机制进行建模是复杂网络研究领域的关键问题。以WS、NW、BA为代表的模型通常假设网络结构的演化是由节点基于某些限制性规则的被动行为驱动的。而实际上，网络节点是智能个体，它们根据经验和环境主动更新关系。为了克服这一局限性，本文尝试构建一个基于深度强化学习的网络模型，命名为NMDRL。该模型将复杂网络中的每个节点视为一个智能体，并与周围的智能体进行交互，以更新节点间的关系。大量实验表明，该模型不仅能够生成具有无标度和小世界性质的网络，而且能够揭示群落结构的产生和演化过程。所提出的NMDRL模型有助于研究网络中的传播、博弈和合作行为。

论文链接：https://www.readcube.com/articles/10.3389/fphy.2021.822581

标题：Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning（基于深度强化学习的智能磁性微型机器人学习游泳）了解详情

简介：游泳微机器人越来越具有复杂的材料和动态形状，并有望在系统动力学难以建模且微机器人位置控制难以实现的复杂环境中运行。深度强化学习是一种很有前途的自主开发鲁棒控制器的方法，用于创建智能微机器人，它可以使其行为适应非特征环境，而无需对系统动力学建模。本文报告了一种智能螺旋磁性水凝胶微机器人的开发，该机器人使用软作用者-批评家强化学习算法自动推导控制策略，允许微机器人在三轴磁场产生的时变磁场的控制下游过非特征仿生流体环境电磁铁阵列。强化学习代理通过少于100000个训练步骤学习成功的控制策略，证明了快速学习的样本效率。文章证明，可以通过回归将数学函数拟合到学习策略的动作分布来微调强化学习代理所学习的控制策略。将深度强化学习应用于微机器人控制可能会显著扩展下一代微机器人的能力。

论文链接：https://arxiv.org/ftp/arxiv/papers/2201/2201.05599.pdf

标题：Reinforcement Learning to Solve NP-hard Problems: an Application to the CVRP（强化学习在解决NP难问题中的应用）了解详情

简介：本文评估了强化学习（RL）在解决一个经典的组合优化问题中的应用：容量约束车辆路径问题（CVRP）。文章在RL框架中形式化了这个问题，并在一组基准实例上比较了两种最有前途的RL方法与传统的求解技术。通过返回的解决方案的质量和返回所需的时间来衡量不同的方法。尽管没有返回最佳解，但与传统解算器相比，RL方法具有许多优势。首先，该框架的多功能性允许解决更复杂的组合问题。此外，RL算法学习解决问题所需的技能，而不是试图解决问题的特定实例。然后，经过培训的策略可以准即时地为一个看不见的问题提供解决方案，而不必从头开始解决它。最后，使用经过训练的模型使RL解算器成为迄今为止最快的解算器，因此使该方法更适合用户体验最重要的商业用途。知识转移等技术也可以用来提高算法的训练效率，帮助解决更大更复杂的问题.

论文链接：https://arxiv.org/pdf/2201.05393.pdf

标题：Direct Mutation and Crossover in Genetic Algorithms Applied to Reinforcement Learning Tasks（遗传算法中的直接变异和交叉在强化学习任务中的应用）了解详情

简介：神经进化最近被证明在强化学习（RL）环境中具有相当的竞争力，并且能够缓解基于梯度的方法的一些缺点。本文将着重于使用简单遗传算法（GA）应用神经进化来寻找产生最佳行为代理的神经网络的权重。此外，与初始实现相比，文章提出了两个新的修改，它们提高了数据效率和收敛速度。在OpenAI gym提供的FrozenLake环境中对修改进行了评估，结果证明，修改明显优于基线方法。

论文链接：https://arxiv.org/pdf/2201.04815.pdf

标题：Evolutionary Action Selection for Gradient-based Policy Learning（基于梯度策略学习的进化行为选择）了解详情

简介：进化算法（EAs）和深度强化学习（DRL）最近被结合起来，以整合这两种解决方案的优点，从而实现更好的策略学习。然而，在现有的混合方法中，EA被用来直接训练策略网络，这将导致样本效率低下和对策略性能的不可预测的影响。为了更好地整合这两种方法，避免引入EA带来的弊端，本文致力于设计一种更有效、更合理的EA和DRL相结合的方法。在本文中，提出了进化行动选择双延迟深层确定性策略梯度（EAS-TD3），一种EA和DRL的新组合。在EAS中，专注于优化策略网络选择的行为，并尝试通过进化算法获得高质量的行为来指导策略学习。文章在具有挑战性的连续控制任务上进行了一些实验。结果表明，EAS-TD3的性能优于其他最先进的方法。

论文链接：https://arxiv.org/pdf/2201.04286.pdf

研究综述

标题：牛津、谷歌、Facebook、亚马逊、博世AI | 自动强化学习 (AutoRL)：研究综述和开放性问题了解详情

简介：强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的研究，诸多研究者认为（深度）强化学习提供了通向通用智能体的途径。RL 代理的成功通常对训练过程中的设计选择高度敏感，其可能需要繁琐且容易出错的手动调整。这使得应用RL解决新问题具有挑战性并且限制了其全部潜力。在许多其他领域，AutoML 已经表明可以自动化此类设计选择，并且在应用于 RL 时也产生了有希望的初步结果。然而，自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用，还包括 RL 独有的额外挑战，其自然会产生一组不同的方法。因此，AutoRL 已经成为 RL 研究的一个重要领域，为从 RNA 设计到围棋等游戏的各种应用提供了希望。鉴于 RL 中考虑的方法和环境的多样性，许多研究都是在不同的子领域进行的，从元学习到进化。该研究综述试图统一AutoRL 领域，并提供了通用分类法，详细讨论每个领域并提出未来研究人员感兴趣的开放问题。

论文链接：

https://arxiv.org/pdf/2201.03916.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第34期：牛津、谷歌、Facebook等 | 自动强化学习 (AutoRL)：研究综述和开放性问题...相关推荐

【组队学习】【34期】组队学习内容详情
第34期 Datawhale 组队学习活动马上就要开始啦! 02月09日(星期三),宣发,2月组队学习计划!. 02月12日(星期六),进入学习群.开营仪式. 本次组队学习的内容为: 阿里云天池在线编 ...
【组队学习】【34期】零基础学python编程思维
零基础学python编程思维航路开辟者:邓林权领航员:沈一航海士:覃嘉俊.马子阳.左凯文基本信息开源内容:https://linklearner.com/datawhale-homepage ...
【组队学习】【31期】水很深的深度学习
水很深的深度学习航路开辟者:刘洋领航员:陈宇航海士:刘洋.陈陟原.左凯文.初晓宇.刘羽中基本信息开源内容:https://github.com/datawhalechina/unusual- ...
【组队学习】【31期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:张菘淳航海士:王茂霖.吴振一基本信息开源内容:https://github.com/datawhalechina/ ...
CSDN开发者周刊第 22期：谷歌 DeepMind 第四代：不学规则就可以玩游戏；图灵奖得主 Edmund Clarke 因感染“新冠”逝世；
CSDN开发者周刊:只为传递"有趣/有用"的开发者内容! 本周热门项目 1.红帽为杀死 CentOS 发行版辩护红帽公司的高级社区架构师.CentOS 董事会成员卡斯滕-韦德(K ...
【组队学习】【34期】Scratch（二级）
Scratch(二级) 航路开辟者:王思齐.马燕鹏领航员:马燕鹏航海士:马燕鹏基本信息开源内容:https://github.com/datawhalechina/team-learning- ...
【组队学习】【34期】Python（一级）
Python(一级) 航路开辟者:王思齐.马燕鹏领航员:马燕鹏航海士:马燕鹏基本信息开源内容:https://github.com/datawhalechina/team-learning-p ...
【组队学习】【34期】百度飞桨AI达人创造营
百度飞桨AI达人创造营航路开辟者:百度飞桨领航员:六一航海士:阿水.颜鑫.宋泽山.刘洋.张文恺基本信息内容属性:合作课程练习平台:https://aistudio.baidu.com/ai ...
【组队学习】【34期】阿里云天池在线编程训练营
阿里云天池在线编程训练营航路开辟者:陈信达.杨世超.赵子一.马燕鹏领航员:武帅.初晓宇.叶前坤.邱广坤.朱松青航海士:宁彦吉.肖桐.汪超.陈信达.杨世超.赵子一.武帅.初晓宇.叶前坤.邱广坤.朱 ...

《强化学习周刊》第34期：牛津、谷歌、Facebook等 | 自动强化学习 (AutoRL)：研究综述和开放性问题...

《强化学习周刊》第34期：牛津、谷歌、Facebook等 | 自动强化学习 (AutoRL)：研究综述和开放性问题...相关推荐

最新文章

热门文章