《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching

No.42

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第42期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如强化学习应用于广告分配、构建决策森林、多模态追踪、配电网电压控制、多分层强化学习及深度强化学习在网约车领域相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于应用于广告分配强化学习中的深度页面级兴趣网络、通过深度强化学习构建决策森林、基于强化学习的可变形线性物体视觉-触觉多模态跟踪、基于Mask Atari深度强化学习作为POMDP基准、基于图神经网络的配电网电压控制深度强化学习、基于课程的任务抽样的鲁棒元强化学习、TrajGen：为自动驾驶生成具有反应性和可行性的智能体行为的真实和多样的轨迹、基于占用网格图的端到端轨迹分布预测、基于价值梯度加权模型的强化学习、混合可观察性下的分层强化学习、6G环境下卫星/地面组合网络的集中式和分布式强化学习网络切片、通过新型神经网络集成强化学习算法联合控制制造和现场微电网系统、使用深度强化学习优化电动汽车智能充电中心的功率输出、深度调度：在线网约车平台车辆调度的深度强化学习方法等。

标题：Deep Page-Level Interest Network in Reinforcement Learning for Ads Allocation（应用于广告分配强化学习中的深度页面级兴趣网络）了解详情

简介：Feed 中通常会显示广告和自然项目的混合列表，如何分配有限的广告位以最大化整体收入是一个关键问题。同时，将用户偏好与历史行为建模在推荐和广告（例如，CTR 预测和广告分配）中是必不可少的。先前的用户行为建模工作大多只对用户的历史点级正反馈（即点击）进行建模，而忽略了反馈和其他类型反馈的页面级信息。为此，本文提出了深度页面级兴趣网络（DPIN）来模拟页面级用户偏好并利用多种类型的反馈。具体来说，通过引入了四种不同类型的页面级反馈作为输入，并通过多渠道交互模块捕捉用户在不同感受域下对项目安排的偏好。通过在美团外卖平台上进行的大量线下和线上实验，研究结果表明 DPIN 可以有效地模拟页面级用户偏好并增加平台的收入。

论文链接：https://arxiv.org/pdf/2204.00377.pdf

标题：Building Decision Forest via Deep Reinforcement Learning（通过深度强化学习构建决策森林)了解详情

简介：基分类器为决策树的集成学习方法通常属于 bagging 或 boosting。然而，据研究所知，以前没有任何工作通过最大化长期回报来构建集成分类器。本文提出了一种称为 MA-H-SAC-DF 的决策森林构建方法，用于通过深度强化学习进行二元分类。首先，构建过程被建模为分散的部分可观察马尔可夫决策过程，一组协作代理共同构建所有基分类器。其次，基于父节点和当前位置的信息定义全局状态和局部观测。最后，将最先进的深度强化方法 Hybrid SAC 扩展到 CTDE 架构下的多智能体系统，以找到最优的决策林构建策略。实验表明，MA-H-SAC-DF在平衡数据集上的性能与随机森林、Adaboost和GBDT相同，在非平衡数据集上的性能优于它们。

论文链接：https://arxiv.org/pdf/2204.00306.pdf

标题：Visual-Tactile Multimodality for Following Deformable Linear Objects Using Reinforcement Learning（基于强化学习的可变形线性物体视觉-触觉多模态跟踪）了解详情

简介：对机器人来说，操纵可变形物体是一项具有挑战性的任务。使用单一感官输入来跟踪这类物体的行为是有问题的：视觉可能会受到遮挡，而触觉输入无法捕捉对任务有用的全局信息。其首次研究了视觉和触觉输入来完成跟踪可变形线性物体的问题。本文使用不同感知模式的强化学习代理，并研究了与使用单一感知模式相比，如何使用视觉-触觉融合来增强其行为。提出了模拟基准，用于使用多模态传感输入操纵可变形线性对象。智能体的策略使用炼的信息，在视觉和触觉视角下的对象姿势，而不是原始的感知信号，因此可以将其直接传输到真实环境中。其将感知系统和学习的控制策略分离开来。通过大量实验表明，使用视觉和触觉输入，再加上本体感觉，可以让智能体在高达92%的情况下完成任务，而只有一个信号时，这一比例为77%。本文的研究结果可以为未来触觉传感器的设计和可变形物体的操纵提供有价值的见解。

论文链接：https://arxiv.org/pdf/2204.00117.pdf

标题：Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling （基于课程的任务抽样的鲁棒元强化学习）了解详情

简介：元强化学习（Meta-RL）获得的元策略在广泛的任务分布中表现出良好的性能。然而，传统的元RL通过随机抽样任务来学习元策略，据报道，它对某些任务表现出元过度拟合，尤其是对于容易获得高分的任务。为了减少元过度拟合的影响，本文考虑了基于课程的任务抽样的元RL。该方法是基于引导任务抽样的稳健元强化学习（RMRL-GTS），这是一种有效的方法，可以限制基于分数和时代的任务抽样，研究表明，为了实现鲁棒的元RL，不仅需要对分数较低的任务进行密集抽样，还需要限制和扩展待抽样任务的任务区域。

论文链接：https://arxiv.org/pdf/2203.16801.pdf

标题：Mask Atari for Deep Reinforcement Learning as POMDP Benchmarks（基于Mask Atari深度强化学习作为POMDP基准）了解详情

简介：本文提出了 Mask Atari，一个新的基准，可帮助使用基于深度强化学习 (DRL) 的方法解决部分可观察的马尔可夫决策过程 (POMDP) 问题。为了实现 POMDP 问题的模拟环境，Mask Atari 是基于 Atari 2600 游戏构建的，具有可控、可移动和可学习的掩码作为目标代理的观察区域，特别是 POMDP 中的主动信息收集 (AIG) 设置。鉴于尚不存在，Mask Atari 提供了一个具有挑战性的、有效的基准来评估专注于上述问题的方法。此外，掩码操作是将人类视觉系统中的感受野引入代理的模拟环境的试验，这意味着与人类基线相比，评估不会偏向于感知能力，而是纯粹关注方法的认知性能。通过描述该基准测试的挑战和特点，并使用 Mask Atari 评估了几个基准。

论文链接：https://arxiv.org/pdf/2203.16777.pdf

标题：Deep Reinforcement Learning with Graph ConvNets for Distribution Network Voltage Control（基于图神经网络的配电网电压控制深度强化学习）了解详情

简介：本文通过基于时空图 ConvNet 的深度强化学习 (STGCN-DRL) 框架的无模型 Volt-VAR 控制 (VVC) 算法，其目标是控制不平衡配电系统中的智能逆变器。首先根据潮流方程识别图位移算子（GSO）。然后，提出了一个时空图 ConvNet (STGCN)，测试了循环图 ConvNets (RGCN) 和卷积图 ConvNets (CGCN) 架构，旨在捕捉电压相量的时空相关性。STGCN 层为强化学习架构的策略函数和价值函数执行特征提取任务，然后再利用近端策略优化（PPO）来搜索动作空间以找到最优策略函数并逼近最优值函数。并进一步利用电压图信号的低通特性为输入为抽取状态向量（即部分观察）的策略引入了 GCN 架构。通过对不平衡123节点系统的实例研究，验证了该方法在降低不稳定性和将节点电压分布保持在理想范围内方面的优良性能。

论文链接：https://arxiv.org/pdf/2203.16732.pdf

标题：TrajGen: Generating Realistic and Diverse Trajectories with Reactive and Feasible Agent Behaviors for Autonomous Driving（TrajGen：为自动驾驶生成具有反应性和可行性的智能体行为的真实和多样的轨迹）了解详情

简介：具有反应性和可行性智能体行为的真实和多样的模拟场景可用于验证和验证自动驾驶系统的性能。本文提出了两阶段轨迹生成框架TrajGen，它可以直接从人类演示中捕捉更真实的行为。TrajGen包括多模态轨迹预测阶段和基于强化学习的轨迹修改阶段。在第一阶段，本文为轨迹预测模型提出了一种新的辅助路径，以在可驾驶区域生成多模态的不同轨迹。在第二阶段，利用强化学习在避免碰撞的同时跟踪预测轨迹，从而提高生成轨迹的可行性。此外，作者还开发了一个数据驱动的模拟器I-Sim，可用于基于自然驾驶数据并行训练强化学习模型。最后，本文给出了评估仿真场景中生成轨迹的综合指标，这表明TrajGen在保真度、反应性、可行性和多样性方面优于轨迹预测或反向强化学习。

论文链接：https://arxiv.org/pdf/2203.16792.pdf

标题：End-to-End Trajectory Distribution Prediction Based on Occupancy Grid Maps（基于占用网格图的端到端轨迹分布预测）了解详情

简介：本文的目标是在给定社会场景图像和历史轨迹的情况下预测现实世界中移动智能体的未来轨迹分布。然而，真实分布是未知且不可观察的，而其中只有一个样本可以用于监督模型学习，这容易产生偏差。最近的工作集中在预测不同的轨迹以涵盖真实分布的所有模式，但他们可能会轻视精度，从而过多地相信不切实际的预测。为了解决此问题，本文使用占用网格图来学习具有对称交叉熵的分布，作为对真实分布的明确且符合场景的近似。即本文提出了一种基于逆强化学习的多模态轨迹分布预测框架，该框架通过近似值迭代网络以端到端的方式学习规划。此外，通过可微的基于 Transformer 的网络生成一小组具有代表性的轨迹，其注意力机制有助于对轨迹的关系进行建模。在实验中，本文的方法在斯坦福无人机数据集和交叉无人机数据集上实现了最先进的性能。

论文链接：https://arxiv.org/pdf/2203.16910.pdf

标题：Value Gradient weighted Model-Based Reinforcement Learning（基于价值梯度加权模型的强化学习）了解详情

简介：基于模型的强化学习 (MBRL) 是一种获取控制策略的有效技术，但不可避免的建模错误通常会导致性能下降。MBRL 中的模型通常仅适用于重建动态，特别是状态观察，而模型误差对策略的影响并没有被训练目标捕获。价值感知模型学习可以解决这个问题，然而，已有的方法在实践中往往不如常用的基于最大似然 (MLE) 的方法。本文提出了价值梯度加权模型学习 (VaGraM)，一种价值感知模型学习的新方法，可提高MBRL在具有挑战性的环境中的性能。作者分析了MLE和价值感知方法，并展示了它们在学习价值感知模型时如何无法解释探索和函数逼近的行为，并强调了在深度学习环境中稳定优化必须满足的其他目标。本文通过证明损失函数能够在Mujoco基准套件上实现高回报来验证有效性，同时比基于最大似然的方法更稳健。

论文链接：https://arxiv.org/pdf/2204.01464.pdf

标题：Hierarchical Reinforcement Learning under Mixed Observability（混合可观察性下的分层强化学习）了解详情

简介：混合可观察马尔可夫决策过程 (MOMDP) 框架对许多机器人领域进行建模，其中一些状态变量是完全可观察的，而另一些则不是。本文确定了一个重要的MOMDP子类，它定义为行为如何影响状态的完全可观察的组件，以及这些行为又如何影响部分可观察的组件和奖励。这种独特的特性允许采用两级分层方法，称之为混合可观测性下的分层强化学习（HILMO），它将部分可观察性限制在顶层，而底层保持完全可观察性，从而实现更高的学习效率。顶层产生期望的目标，由底层达到，直到任务解决。作者进一步发展了理论保证，以表明方法可以在温和的假设下实现最优和准最优行为。长期连续控制任务的经验结果证明了我们的方法在提高成功率、样本效率方面的有效性。

论文链接：https://arxiv.org/pdf/2204.00898.pdf

标题：Network Slicing with Centralized and Distributed Reinforcement Learning for Combined Satellite/Ground Networks in a 6G Environment（6G环境下卫星/地面组合网络的集中式和分布式强化学习网络切片）了解详情

简介：对于实现超越 5G 和 6G 网络的目标，保持无处不在的访问并提供低延迟和高可靠性至关重要。卫星网络是一种工具技术，即使在没有地面基础设施的偏远地区也能提供网络覆盖，并在地面网络过于拥挤时提供卸载选项。然而，为了有效实施，重要的是不仅要考虑空间卫星系统周围的特性，还要考虑地面和卫星网络联合资源分配所面临的挑战。为了帮助实现这一点，本文建议使用网络切片来为每个新的传入用户请求选择和保留特定资源。这些资源是通过基于机器学习的技术来选择的，该技术学习用户请求的模式以及频繁请求的路径。这些网络路径的成本更高，因此只有在没有其他选择时才分配它们。仿真表明，这种策略可以提高资源分配的效率，从而使系统能够为更多的用户提供服务。

论文链接：https://ieeexplore.ieee.org/document/9749189

标题：Joint control of manufacturing and onsite microgrid system via novel neural-network integrated reinforcement learning algorithms（通过新型神经网络集成强化学习算法联合控制制造和现场微电网系统）了解详情

简介：微电网是一种很有前途的分布式能源供应系统技术，由储能装置、可再生能源等发电能力和可控负荷组成。它已被广泛研究并应用于住宅和商业终端用户以及关键设施。本文提出了一种基于状态的联合动态控制模型，用于微电网和制造系统，其中实施双方的最优控制以协调能源需求和供应，从而在考虑生产目标约束的情况下最大限度地降低总体生产成本。马尔可夫决策过程（MDP）用于制定决策过程。解决公式化 MDP 的主要计算挑战在于与约束交织在一起的高维状态/动作空间的离散和连续部分的共存。提出了一种利用时间差异 (TD) 和确定性策略梯度 (DPG) 算法的新型强化学习算法来解决计算挑战。

论文链接：https://www.sciencedirect.com/science/article/pii/S0306261922003919

标题：Power output optimization of electric vehicles smart charging hubs using deep reinforcement learning（使用深度强化学习优化电动汽车智能充电中心的功率输出）了解详情

简介：由于配电网的大多数分支可能已经接近其最大容量，因此电动汽车 (EV) 充电时的智能管理变得越来越重要。本文提出了通过深度强化学习 (DRL) 技术来调度实时电动汽车充电。选择 DRL 是因为它可以从与周围环境的交互中自适应地学习。优化的重点是确保及时完成充电交易，同时将负荷从高峰需求转移。所提出方法的新颖之处在于其创新框架：使用聚类算法对具有不同特征的电动汽车池进行分类，开发了基于树的分类器对电动汽车的新实例进行分类，多层感知器人工深度神经网络具有被训练来预测每个充电交易的预期持续时间。这些特征用作 DRL 智能体的输入，并映射到调整与每个充电站相关的最大功率的操作。该模型已与传统的计费算法进行了比较，并考虑了越来越具有挑战性的场景。

论文链接：https://www.sciencedirect.com/science/article/pii/S0957417422004158

标题：Deep dispatching: A deep reinforcement learning approach for vehicle dispatching on online ride-hailing platform（深度调度：在线网约车平台车辆调度的深度强化学习方法）了解详情

简介：车辆调度系统是网约车平台最关键的问题之一，需要根据供需动态调整运营和管理策略。本文针对车辆调度问题提出了一种称为深度调度的单智能体深度强化学习方法，通过提前将空置车辆重新分配到需求缺口较大的区域。模拟器和车辆调度算法是基于工业规模的真实世界数据和在线乘车平台的工作流程设计的，确保了本文方法的实用价值。此外，车辆调度问题可以类比为计算机网络中的负载均衡问题。受推荐系统的启发，通过将动作排序为推荐列表，从而将动作与请求进行匹配，从而解决了调度请求的高并发问题。实验表明，所提出的方法优于现有的基准。值得一提的是，该方案在KDD Cup 2020车辆调度任务中获得第一名。

论文链接：https://www.sciencedirect.com/science/article/pii/S1366554522000862

研究综述

标题：伍斯特理工学院（WPI）| 极简机器人群体的强化学习算法研究了解详情

简介：本文旨在研究如何将深度强化学习应用于极简机器人群体的控制。其将聚合定义为具有物理连接的机器人组，这些物理连接迫使它们形成特定的形状。在本案例中，机器人预先连接到一个物体上，这个物体必须被集体运输到一个已知的位置。在该环境中，极简主义源于本文假设的准系统能力：机器人可以感知目标位置和眼前的障碍物，但缺乏通过信息传递等方式进行明确沟通的手段。在本环境中，通信是隐式的，即通过每个机器人对物体施加的聚合推拉来实现。通过分析四种著名的深度强化学习算法（DQN、DDQN、DDPG和TD3）达到协调行为的能力。该实验包括机器人故障和不同类型的环境障碍。本文比较了发现的最佳控制策略的性能，强调了每种考虑的训练算法的优缺点。

论文链接：

https://arxiv.org/pdf/2203.15129.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching相关推荐

VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)
摘要:车辆再识别(re-id)的一个基本挑战是学习鲁棒的和有区别的视觉表示,考虑到不同相机视图的显著的类内车辆变化.由于现有的车辆数据集在训练图像和视点等方面的局限性,我们建议利用四个公共车辆数据集构 ...
Linux学习总结（42）——Linux之Bash脚本入门学习
一.条件选择.判断: (1)条件选择if 1.用法格式 if 判断条件 1 ; then 条件为真的分支代码
《强化学习周刊》第55期：LB-SGD、MSP-DRL对抗鲁棒强化学习
No.55 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第37期：视觉深层框架、Transformer World模型、注意力增强强化学习...
No.37 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第36期：DDA3C、因果推理干预、逆强化学习
No.36 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第10期：强化学习应用之计算机视觉
No.10 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,它在计算机视觉领域中的应用研究进展与成果也引发了众多关注.为帮助研究与工程人 ...
《强化学习周刊》第23期：NeurIPS 2021强化学习的最新研究与应用
No.23 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于NeurIPS 20 ...
《强化学习周刊》第58期：RFQI、DRL-DBSCAN广义强化学习
No.58 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第60期：BARReL、RL-Mlzerd DeepIndex
No.60 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching

《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching相关推荐

最新文章

热门文章