《强化学习周刊》第28期：UNCC提出全新脑-机交互学习模式：内在互动强化学习...

No.28

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第28期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和研究综述等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖、陈元

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如鲁棒强化学习、强化学习在靠泊系统及基金强权的应用、深度强化学习应用于推荐系统、离线深度强化学习及多智能体强化学习相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于基于有监督、无监督和强化学习生成行为学视觉输入的不同表征、基于深度强化学习的动态推荐系统的对抗鲁棒性、基于强化学习的自动靠泊系统、基于目标波动率基金期权的强化学习、基于生成模型鲁棒强化学习的样本复杂度、基于改进的Monkey-多智能体DRL算法的非线性系统PID参数自整定、离线深度强化学习的悲观模型选择、多Agent强化学习中的无奖励攻击、基于价值分解理解合作多智能体Q-Learning等。

标题：Divergent representations of ethological visual inputs emerge from supervised, unsupervised, and reinforcement learning（基于有监督、无监督和强化学习生成行为学视觉输入的不同表征）了解详情

简介：使用强化、监督和非监督学习训练的人工神经系统都获得高维输入的内部表征。这些表示在多大程度上依赖于不同的学习目标在很大程度上是未知的。本文比较了八个不同的卷积神经网络学习的表征，每个网络都具有相同的 ResNet 架构，并在相同的以自我为中心的图像系列上训练，但嵌入到不同的学习系统中。具体来说，表示被训练来指导复合强化学习任务中的行动；在监督下预测一个或三个与任务相关的目标的组合；或使用三个不同的无监督目标之一。使用表征相似性分析，研究发现用强化学习训练的网络与其他网络最大的不同。通过使用受神经科学文献启发的指标进行进一步分析，发现使用强化学习训练的模型具有稀疏和高维表示，其中单个图像以非常不同的神经活动模式表示。进一步分析表明，这些表征可能会出现，以指导 RL 代理的长期行为和目标寻求。本文的研究结果揭示了目标函数对神经表征特性的影响，并为迁移学习方法提供了信息。

论文地址：https://arxiv.org/pdf/2112.02027.pdf

标题：Reinforcement Learning-Based Automatic Berthing System（基于强化学习的自动靠泊系统）了解详情

简介：先前对基于人工神经网络 (ANN) 的自动靠泊系统的研究表明，通过以船舶靠泊数据作为训练数据训练 ANN，显示出良好的靠泊性能。然而，由于人工神经网络需要大量的训练数据才能产生稳健的性能，基于人工神经网络的自动靠泊系统由于难以获得靠泊数据而受到一定的限制。本文为了克服这一困难，提出了基于强化学习 (RL) 算法之一、近端策略优化 (PPO) 的自动靠泊系统，由于 RL 算法可以通过反复试验来学习最佳控制策略通过与给定的环境进行交互并且不需要任何预先获得的训练数据，其中提议的基于 PPO 的自动靠泊系统中的控制策略控制船舶的每秒转数 (RPS) 和舵角。最后，表明所提出的基于 PPO 的自动靠泊系统消除了获取训练数据集的需要，并显示出在实际靠泊应用中的巨大潜力。

论文地址：https://arxiv.org/pdf/2112.01879.pdf

标题：Reinforcement learning for options on target volatility funds（基于目标波动率基金期权的强化学习）了解详情

简介：本文研究了由于对冲目标波动率策略（TVS）、风险资产组合和无风险资产组合下的风险证券而增加的融资成本，以便将组合的已实现波动率保持在一定水平。TVS风险投资组合构成中的不确定性以及每个组成部分的套期保值成本差异需要解决一个控制问题来评估期权价格。通过推导了Black和Scholes（BS）情形下问题的解析解。然后，在局部波动率（LV）模型下，本文使用强化学习（RL）技术来确定导致最保守价格的基金组成，对于局部波动率（LV）模型，先验解不可用。研究表明了RL代理的性能如何与通过将BS分析策略应用于TVS动力学而获得的性能兼容，因此在LV场景中也具有竞争力。

论文地址：https://arxiv.org/pdf/2112.01841.pdf

标题：Sample Complexity of Robust Reinforcement Learning with a Generative Model（基于生成模型鲁棒强化学习的样本复杂度）了解详情

简介：鲁棒马尔可夫决策过程 (RMDP) 框架侧重于设计控制策略，这些策略对于由于模拟器模型与现实世界设置之间的不匹配而导致的参数不确定性具有鲁棒性。RMDP 问题通常被表述为最大-最小问题，其中目标是找到最大化最坏可能模型的价值函数的策略，该模型位于围绕标称模型的不确定性集中。标准的鲁棒动态规划方法需要知道用于计算最优鲁棒策略的标称模型。本文提出了一种基于模型的强化学习 (RL) 算法，用于学习ε- 名义模型未知时的最优稳健策略。通过考虑三种不同形式的不确定性集，以总变异距离、卡方散度和 KL 散度为特征。对于这些不确定性集合中的每一个，研究表明本文提出的算法的样本复杂性的精确表征。除了样本复杂性结果之外，还提出了关于使用稳健策略的好处的正式分析论点。最后，研究展示了该算法在两个基准问题上的优越性能。

论文地址：https://arxiv.org/pdf/2112.01506v2.pdf

https://hub.baai.ac.cn/view/12661

标题：Adversarial Robustness of Deep Reinforcement Learning based Dynamic Recommender Systems（基于深度强化学习的动态推荐系统的对抗鲁棒性）了解详情

简介：对抗性攻击，例如输入和对抗性样本的对抗性扰动，对机器学习和深度学习技术（包括交互式推荐系统）构成了重大挑战。这些技术的潜在嵌入空间使得对抗性攻击难以在早期检测到。因果关系的最新进展表明，反事实也可以被认为是生成从不同分布中抽取的对抗样本作为训练样本的方法之一。本文提出探索基于强化学习的交互式推荐系统上的对抗性示例和攻击不可知检测。首先通过在输入中添加扰动并干预偶然因素来制作不同类型的对抗性示例。然后，通过基于精心制作的数据使用基于深度学习的分类器检测潜在攻击来增强推荐系统。最后，本文研究了对抗性示例的攻击强度和频率，并使用多种制作方法在标准数据集上评估本文的模型。大量实验研究表明，大多数对抗性攻击都是有效的，攻击强度和攻击频率都会影响攻击性能。策略定时攻击仅以 1/3 到 1/2 的攻击频率实现了比较攻击性能。此外，本文用一种制作方法训练的黑盒检测器具有优于其他几种制作方法的泛化能力。

论文地址：https://arxiv.org/pdf/2112.00973.pdf

标题：New PID Parameter Autotuning for Nonlinear Systems Based on a Modified Monkey–Multiagent DRL Algorithm（基于改进的Monkey-多智能体DRL算法的非线性系统PID参数自整定）了解详情

简介：比例-积分-微分 (PID) 控制是工业过程中使用最广泛的控制律。尽管各种新型控制器不断涌现，但PID控制器以其结构简单、易于实现、鲁棒性好等优点仍处于主导地位。在PID控制器的设计和应用中，核心问题之一是参数整定。准确有效地选择PID的最佳整定参数是实现有效PID控制器的关键。本文提出了一种新的改进的猴子-多智能体DRL（MM-MADRL）算法，并用它来调整PID参数，以提高自动参数优化的稳定性和性能。MM-MADRL 算法是基本猴群算法 (MA) 和多智能体强化学习算法的新版本，称为多智能体深度确定性策略梯度 (MADDPG)。本文选取一个典型的非线性四轴飞行器系统进行仿真，结果表明，MM-MADRL算法的整体性能优于其他算法。

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9440392&tag=1

标题：Architecting and Visualizing Deep Reinforcement Learning Models（深度强化学习模型的架构和可视化）了解详情

简介：为了满足对深度强化学习 (DRL) 日益增长的兴趣，本文试图构建一个 DRL 驱动的 Atari Pong 智能体和伴随的可视化工具。现有方法不支持创建具有易于配置的物理和人工控制播放器的交互式展览所需的灵活性。因此，本文构建了一个新的 Pong 游戏环境，发现并解决了将 DRL 应用于新环境时出现的许多独特的数据缺陷，构建和调整了基于策略梯度的 DRL 模型，开发了实时网络可视化，并将这些结合起来元素进入交互式显示，以帮助建立对 DRL 推理机制的直觉和意识。

论文地址：https://arxiv.org/ftp/arxiv/papers/2112/2112.01451.pdf

标题：Pessimistic Model Selection for Offline Deep Reinforcement Learning（离线深度强化学习的悲观模型选择）了解详情

简介：深度强化学习 (DRL) 在解决许多应用中的顺序决策问题方面表现出了巨大的潜力。尽管其性能良好，但在实际场景中部署 DRL 时仍存在实际差距。一个主要障碍是过度拟合问题，导致 DRL 学习的策略的泛化性较差。特别是，对于具有观察数据的离线 DRL，模型选择是一项具有挑战性的任务，因为与具有模拟环境的在线设置相比，没有可用于性能演示的真实情况。本文提出了一种具有理论保证的离线 DRL 悲观模型选择 (PMS) 方法，该方法具有可证明有效的框架，用于在一组候选模型中寻找最佳策略。还提出了两种改进的方法来解决 DRL 模型在确定最佳策略时的潜在偏差。数值研究证明了此方法优于现有方法的性能。

论文地址：https://arxiv.org/pdf/2111.14346.pdf

标题：UAV-Assisted Privacy-Preserving Online Computation Offloading for Internet of Things（无人机辅助隐私保护的物联网在线计算卸载）了解详情

简介：无人机 (UAV) 在物联网 (IoT) 中用于遥感和设备互连，发挥越来越重要的作用。由于计算能力和能源的限制，无人机无法处理复杂的任务。最近，计算卸载为无人机通过基于深度强化学习 (DRL) 的方法处理复杂任务提供了一种有前途的方法。然而，现有的基于 DRL 的计算卸载方法仅保护使用模式隐私和位置隐私。本文考虑了无人机辅助物联网中一个新的缺乏研究的隐私问题，即计算卸载偏好泄漏。本文为无人机辅助物联网提出了一种新颖的隐私保护在线计算卸载方法。本文将差分隐私机制集成到深度强化学习（DRL）中，可以保护无人机的卸载偏好。实验结果表明，与基线方法相比，本文的可以学习具有成本效益的计算卸载策略，而不会出现偏好泄漏和无线信道模型的先验知识。

论文地址：https://www.mdpi.com/2072-4292/13/23/4853/htm

标题：Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Conquers All StarCraftII Tasks（离线预训练的多智能体决策转换器：一个大序列模型可以适用所有StarCraftII任务）了解详情

简介：离线强化学习利用静态数据集学习最佳策略，无需访问环境。由于多智能体在线交互的昂贵性和训练过程中对样本数量的要求，这种技术适合于多智能体学习任务。然而，在多智能体强化学习（MARL）中，离线预训练与在线微调的范例从未被研究过，离线MARL研究的数据集或基准也不可用。本文试图回答以下问题：MARL中的离线预培训是否能够学习有助于提高多个下游任务性能的通用策略表示。首先介绍了第一个基于StarCraftII环境的具有不同质量级别的离线MARL数据集，然后提出了一种新的用于有效离线学习的多智能体决策转换器（MADT）体系结构。MADT利用Transformer的时间表示建模能力，并将其与离线和在线MARL任务集成。MADT的一个重要优点是，它学习可在不同任务场景下在不同类型的代理之间传输的通用策略。在星际争霸II离线数据集上进行评估时，MADT的性能优于最先进的离线RL基线。当应用于在线任务时，预先训练的MADT显著提高了样本效率，即使在零射击的情况下也有很强的性能。这是第一项研究和证明离线预训练模型在MARL中的样本效率和通用性增强方面的有效性的工作。

论文地址：https://arxiv.org/pdf/2112.02845.pdf

标题：MDPGT: Momentum-based Decentralized Policy Gradient Tracking（MDPGT：基于动量的分散策略梯度跟踪）了解详情

简介：本文提出了一种新的多智能体强化学习策略梯度方法，该方法利用了两种不同的方差缩减技术，并且不需要在迭代过程中进行大量处理。具体地说，提出了一种基于动量的分散策略梯度跟踪（MDPGT），其中使用一种新的基于动量的方差缩减技术来近似具有重要抽样的局部策略梯度代理，并采用一个中间参数来跟踪两个连续的策略梯度代理。此外，MDPGT可证明达到了O（N）的最佳可用样本复杂度−1ε−3）收敛到N个局部性能函数（可能是非一致的）全局平均值的ε-平稳点。这比分散无模型强化学习中的最新样本复杂度要好，当使用单个轨迹初始化时，样本复杂度与现有分散策略梯度方法获得的样本复杂度匹配。文章进一步验证了高斯策略函数的理论主张。当所需的误差容限ε足够小时，MDPGT会导致线性加速，这在以前的分散随机优化中已经建立过，但在强化学习中没有。最后，文章提供了一个多智能体强化学习基准环境的实证结果，以支持理论发现。

论文地址：https://arxiv.org/pdf/2112.02813.pdf

标题：Reward-Free Attacks in Multi-Agent Reinforcement Learning(多Agent强化学习中的无奖励攻击)了解详情

简介：该文调查当攻击者只从受害者的行为中学习，而无法获得受害者的奖励时，攻击者的效率如何。在这项工作中，当受害者的动机未知时，受到攻击者想要有策略地行动的场景的激发。文章认为攻击者可以使用的一种启发式方法是最大化受害者策略的熵。该策略通常不会混淆，这意味着它可以通过被动地观察受害者来提取。文章以无奖励探索算法的形式提供了这样一种策略，该算法在探索阶段最大化攻击者的熵，然后在规划阶段最大化受害者的经验熵。在实验中，受害者代理通过策略熵最大化被破坏，这意味着攻击者可能不需要访问受害者的奖励就可以成功。因此，仅基于观察行为的无奖励攻击表明，即使受害者的奖励信息受到保护，攻击者也可以在不了解受害者动机的情况下采取战略性行动。

论文地址：https://arxiv.org/pdf/2112.00940.pdf

标题: Celebrating Diversity in Shared Multi-Agent Reinforcement Learning(在参数共享的多智能体强化学习中引入多样性）了解详情

简介: 本文收录于NeurIPS 2021，深度多智能体强化学习（MARL）已经显示出解决复杂合作任务的能力。它的成功部分是由于智能体之间的参数共享。然而，这种共享可能会导致代理的行为相似，并限制其协调能力。在本文中，作者的目标是在共享多代理强化学习的优化和表示方面引入多样性。具体来说，作者提出了一种信息论上的正则化，以使智能体的身份和他们的轨迹之间的相互信息最大化，鼓励广泛探索和多样化的个性化行为。在表示方法上，作者在共享神经网络架构中加入了特定的代理模块，这些模块通过L1-norm进行正则化，以促进代理之间的学习共享，同时保持必要的多样性。实验结果表明，本文的方法在谷歌研究足球和超难的《星际争霸II》微观管理任务上取得了最先进的性能。

论文地址: https://papers.nips.cc/paper/2021/file/20aee3a5f4643755a79ee5f6a73050ac-Paper.pdf

标题: Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization (基于价值分解理解合作多智能体Q-Learning)了解详情

简介: 价值因子化是在合作环境中扩大多智能体强化学习的一种流行方法，它平衡了学习的可扩展性和价值函数的表示能力。然而，对这种方法的理论理解是有限的。本文正式确定了一个多代理拟合的Q-迭代框架，用于分析因子化多智能体Q-Learning。基于这个框架，其研究了线性价值因子化，并揭示了具有这种简单分解的多代理Q-learning隐含地实现了强大的反事实信用分配，但在某些情况下可能无法收敛。通过进一步分析，研究发现策略上的训练或更丰富的联合价值函数类可以分别改善其局部或全局收敛特性。最后，通过对最先进的深度多智能体Q-learning算法进行了实证分析，分析对象是大量的《星际争霸II》微操任务。

论文地址: https://proceedings.neurips.cc/paper/2021/file/f3f1fa1e4348bfbebdeee8c80a04c3b9-Paper.pdf

综述

标题：内在互动强化学习：研究综述了解详情

简介：强化学习（RL）和脑机接口（BCI）是过去十年中不断发展的两个领域。直到最近，这些领域还彼此独立运作。随着人们对人在回路（HITL）应用的兴趣不断增加，RL算法已被用于解释人的引导，从而产生了交互式强化学习（IRL）的子领域。与之相邻的是，BCI应用长期以来一直对从人机交互过程中的神经活动中提取内在反馈感兴趣。这两个想法通过将BCI集成到IRL框架中，使RL和BCI相互冲突，在IRL框架中，可以利用内在反馈来帮助培训代理。该交叉点被表示为内在IRL。为了进一步促进BCI和IRL的深层次讨好，本综述对内在IRL进行了回顾，重点介绍了反馈驱动IRL的父领域，同时还就有效性、挑战和未来研究方向进行了讨论。

论文地址：

https://arxiv.org/pdf/2112.01575.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第28期：UNCC提出全新脑-机交互学习模式：内在互动强化学习...相关推荐

【组队学习】【28期】Datawhale组队学习内容介绍
第28期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 吃瓜教程--西瓜书+南瓜书李宏毅机器学习动手学数据分析集成学习 SQL编程语言 R语言数据科学基于Pytho ...
耶鲁大学等机构提出的脑机接口软硬件协同设计，增加脑机的更大潜力
脑机接口(brain -computer Interfaces, BCIs)或脑机接口(brain - machine Interfaces, BMIs)自从被医生和研究人员使用以来,已经为治疗神经系 ...
【码云周刊第 28 期】计算机视觉时代的识图技术
为什么80%的码农都做不了架构师?>>> Venture Scanner 追踪了全球957家人工智能公司,总融资额为48亿美金.其中,机器学习.自然语言处理.计算机视觉等认知技 ...
【组队学习】【28期】数据采集从入门到精通
数据采集从入门到精通论坛版块: http://datawhale.club/c/team-learning/38-category/38 开源内容: https://github.com/dataw ...
【组队学习】【28期】青少年编程（Scratch 一级）
青少年编程(Scratch 一级) 论坛版块: http://datawhale.club/c/team-learning/34-category/34 开源内容: https://github.co ...
【组队学习】【28期】基于transformers的自然语言处理(NLP)入门
基于transformers的自然语言处理(NLP)入门论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...
【组队学习】【28期】基于Python的会员数据化运营
基于Python的会员数据化运营论坛版块: http://datawhale.club/c/team-learning/37-category/37 开源内容: https://github.com ...
【组队学习】【28期】R语言数据科学
R语言数据科学论坛版块: http://datawhale.club/c/team-learning/36-category/36 开源内容: https://github.com/datawhal ...
CSDN开发者周刊第28期：今日头条 ANR 优化实践；C/C++类应用迁移理论基础；Elastic 7.12 版重磅发布
开发者周刊将甄选Top100技术社区/团队博客的每周优质内容,集中推荐给CSDN开发者,内容以优质技术文章/视频.精选活动分享为主,每周五推送一期.欢迎关注订阅. [本周Top优质内容推荐] 干货|C ...

《强化学习周刊》第28期：UNCC提出全新脑-机交互学习模式：内在互动强化学习...

《强化学习周刊》第28期：UNCC提出全新脑-机交互学习模式：内在互动强化学习...相关推荐

最新文章

热门文章