《强化学习周刊》第19期：ICCV-2021强化学习的最新研究与应用

No.19

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICCV-2021学术会议中，为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第19期《强化学习周刊》。本期周刊整理了ICCV-2021中强化学习领域相关的最新论文推荐和新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明，刘青、小胖

论文推荐

标题：PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility（PatchMatch RL：具有像素深度、法线和可见性的深MVS）

简介：最近基于学习的多视图立体 (MVS) 方法在密集相机和小深度范围内表现出优异的性能。然而，基于非学习的方法仍然优于具有大深度范围和稀疏宽基线视图的场景，部分原因是它们对深度、法线和可见性的像素级估计进行了 PatchMatch 优化。本文提出了一种端到端可训练的基于 PatchMatch 的 MVS 方法，它将可训练成本和正则化的优势与像素估计相结合。为了克服涉及迭代采样和硬决策的不可微 PatchMatch 优化的挑战，本文使用强化学习以最小化预期的光度成本并最大化真实深度和法线的可能性。通过使用扩张的补丁内核来合并法线估计，并提出了一种循环成本正则化，该正则化适用于本文的像素深度/法线估计之外的正面平面扫描算法。通过广泛使用的MVS 基准、ETH3D 和 Tanks and Temples (TnT) 上评估该方法，并与其他最先进的基于学习的 MVS 模型进行比较。在 ETH3D 上，该方法优于其他最近的基于学习的方法，并且在先进的 TnT 上性能相当。

论文链接：https://arxiv.org/pdf/2108.08943.pdf

标题：End-to-End Urban Driving by Imitating a Reinforcement Learning Coach（基于模拟强化学习教练的端到端城市驾驶）

简介：自动驾驶的端到端方法通常依赖于专家演示。尽管人类是优秀的司机，但对于需要密集政策监督的端到端算法，他们并不是很好的教练。相反，利用特权信息的自动化专家可以有效地生成大规模的策略内和策略外演示。然而，现有的城市驾驶自动化专家大量使用手工制定的规则，即使在可以获得地面实况信息的驾驶模拟器上也表现不佳。为了解决这些问题，本文训练了强化学习将鸟瞰图图像映射到连续的低级动作的专家。同时设定了新的性能上CARLA上限，其专家也是一个更好的教练，提供信息丰富的监督信号，模仿学习智能体学习的。在强化学习教练的监督下，具有单目摄像头输入的基线端到端代理实现了专家级性能。本文端到端的智能体实现了 78% 的成功率，同时在 NoCrash-dense 基准上推广到新城镇和新天气，并在更具挑战性的 CARLA 排行榜上获得了极佳的性能。

论文链接：https://arxiv.org/pdf/2108.08265.pdf

标题：Adaptive Focus for Efficient Video Recognition（用于高效视频识别的自适应对焦）

简介：本文探索了视频识别中的空间冗余，旨在提高计算效率。据观察，视频每一帧中信息量最大的区域通常是一个小的图像块，它在帧间平滑地移动。因此，本文将补丁定位问题建模为一个序列决策任务，并提出了基于强化学习的高效空间自适应视频识别的方法 (AdaFocus)。具体来说，首先采用轻量级 ConvNet 来快速处理完整的视频序列，循环策略网络使用其特征来定位与任务最相关的区域。然后由高容量网络推断选定的补丁以进行最终预测。在离线推理期间，一旦生成了信息补丁序列，就可以并行完成大量计算，并且在现代 GPU 设备上是高效的。此外，本文证明了所提出的方法可以通过进一步考虑时间冗余来轻松扩展，例如，动态跳过价值较低的帧。在五个基准数据集上进行了大量实验，即 ActivityNet、FCVID、Mini-Kinetics、Something-Something V1&V2、证明了该方法比竞争基线更有效。代码可在 https://github.com/blackfeather-wang/AdaFocus 获得。

论文链接：https://arxiv.org/pdf/2105.03245.pdf

标题：Collect & Infer -- a fresh look at data-efficient Reinforcement Learning （收集与推理--数据高效强化学习的新视角）

简介：本文从数据效率的角度提出了对强化学习 (RL) 的全新看法。数据高效 RL 经历了三个主要阶段：纯在线 RL，其中每个数据点仅被考虑一次，具有重放缓冲区的 RL，其中对部分经验进行额外学习，最后是基于转换记忆的强化学习，从概念上讲，所有转换都被存储并在每个更新步骤中重新使用。虽然从所有明确存储的经验中推断知识导致了数据效率的巨大提高，但如何收集这些数据的问题还没有得到充分的研究。本文认为只有通过仔细考虑这两个方面才能实现数据效率。本文提出了一个称之为“收集与推断”的范式来明确地表达这一见解，它将强化学习明确建模为两个独立但相互关联的过程，分别涉及数据收集和知识推理。本文讨论范式的含义，反映其思想，以及它如何指导未来对数据高效 RL 的研究。

论文链接：https://arxiv.org/pdf/2108.10273.pdf

标题：Distilling Neuron Spike with High Temperature in Reinforcement Learning Agents（强化学习智能体中神经元棘波的高温提取）

简介：脉冲神经网络（SNN）与深度神经网络（DNN）相比，处理速度更快，能耗更低，生物可解释性更强，有望接近强人工智能。强化学习类似于生物学中的学习。研究 SNN 与 RL 的结合具有重要意义。本文提出了带有 STBP 的棘波提取网络（SDN）的强化学习方法。该方法使用提取有效地避免了STBP的弱点，在分类上可以达到SOTA性能，并且可以获得更小、更快收敛和更低功耗的SNN强化学习模型。实验表明，本文的方法可以比传统的 SNN 强化学习和 DNN 强化学习方法收敛得更快，大约快 1000 个回合，并获得比 DNN 小 200 倍的 SNN。本文还在PKU nc64c芯片上部署了SDN，证明SDN的功耗比DNN低，在大规模设备上SDN的功耗比DNN低600多倍。SDN提供了一种新的SNN强化学习方式，可以实现SOTA性能，证明了SNN强化学习进一步发展的可能性。

论文链接：https://arxiv.org/ftp/arxiv/papers/2108/2108.10078.pdf

标题：A Boosting Approach to Reinforcement Learning （强化学习的一种增强式方法）

简介：本文研究了马尔可夫决策过程中强化学习的有效算法，其复杂性与状态数量无关。这种公式简洁地捕获了大规模问题，但也已知其一般形式在计算上是困难的。以前的方法试图通过假设转换函数或值函数中的结构，或通过将解保证放宽到局部最优条件来规避计算难度。本文考虑了从监督学习中借用的增强式方法，用于将弱学习器转换为准确的策略。本文研究的弱学习的概念是基于采样的线性函数对策略的近似优化。在这种弱学习性假设下，本文给出了一种有效的算法，能够提高这种弱学习方法的准确性，直到达到全局最优。本文证明了此方法的样本复杂度和运行时间界限，它们是问题自然参数的多项式：近似保证、折扣因子、分布不匹配和动作次数。特别是，界限不依赖于状态的数量。应用之前的增强式结果的一个技术难点是策略空间上的价值函数不是凸的。本文展示了如何使用 Frank-Wolfe 方法的非凸变体，结合梯度提升的最新进展，允许将弱学习器与乘法近似保证结合起来，以克服非凸性并实现全局收敛。

论文链接：https://arxiv.org/pdf/2108.09767.pdf

标题：MimicBot: Combining Imitation and Reinforcement Learning to win in Bot Bowl（MimicBot：结合模仿和强化学习在Bot Bowl中获胜）

简介：本文描述了一个混合智能体，该智能体经过训练，可以在参加 Bot Bowl III 比赛的 Fantasy Football AI 中进行比赛。智能体 MimicBot 是使用专门设计的深度策略网络实现的，并使用模仿和强化学习的组合进行训练。之前在这种情况下使用强化学习方法的尝试因多种原因而失败，例如，由于环境的内在随机性以及可用动作数量庞大且不均匀，课程学习方法未能始终如一地击败随机支付的代理. 目前，没有任何机器学习方法可以击败利用游戏领域知识的脚本化机器人。由于模仿学习和混合决策过程，本文的解决方案始终胜过此类脚本代理。此外，本文阐明了如何在强化学习环境中更有效地训练，同时大幅提高样本效率。MimicBot 是 Bot Bowl III 比赛的获胜者，目前是最先进的解决方案。

论文链接：https://arxiv.org/abs/2108.09478

标题：Cooperative Localization Utilizing Reinforcement Learning for 5G Networks（基于强化学习的5G网络协作定位）

简介：近年来，为了实现自动驾驶汽车的出现，对精确定位的需求有所增加。为了让这些车辆进入智能城市的交通生态系统，需要一个精确的定位系统。为了实现精确定位，协同定位扮演着重要的角色。这种类型的定位计算车辆之间的距离测量值，并通过使用另一个车辆的更精确值来纠正其中一个车辆可能存在的错误值，从而提高位置精度。采用毫米波（mmWave）技术的5G信号支持精确的距离测量，5G网络提供设备到设备（D2D）通信，从而提高协作定位。本文的目的是为自动驾驶车辆提供一种精确的协作定位，利用强化学习技术为5G信号选择最精确和合适的距离测量技术，这种定位不太容易出错。

论文链接：https://arxiv.org/pdf/2108.10222.pdf

标题：Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning（基于离线强化学习的Actor-Critic 方法的可证明优势）

简介：Actor-Critic 方法广泛用于离线强化学习实践，但在理论上并没有那么好理解。本文提出了一种新的离线 actor-critic 算法，该算法自然地结合了悲观主义原则，与现有技术相比具有几个关键优势。当 Bellman 评估算子相对于参与者策略的动作价值函数关闭时，该算法可以运行；这是比低秩 MDP 模型更通用的设置。尽管增加了通用性，但该过程在计算上易于处理，因为它涉及一系列二阶程序的解决方案。本文证明了由程序返回的策略的次优差距的上限，该上限取决于任何任意的、可能依赖于数据的比较策略的数据覆盖率。

论文链接：https://arxiv.org/pdf/2108.08812.pdf

标题：Global Convergence of the ODE Limit for Online Actor-Critic Algorithms in Reinforcement Learning（强化学习中在线 Actor-Critic 算法的 ODE 极限的全局收敛）

简介：Actor-Critic 算法广泛用于强化学习，但由于非 i.i.d 数据样本的在线到达，数学分析具有挑战性。数据样本的分布随着模型的更新而动态变化，在数据分布和强化学习算法之间引入了一个复杂的反馈循环。本文证明，在时间重新缩放下，具有表格参数化的在线 actor-critic 算法会随着更新次数的增加而收敛到常微分方程 (ODE)。该证明首先建立了固定参与者策略下数据样本的几何遍历性。然后，使用泊松方程，本文证明数据样本围绕动态概率度量的波动，这是不断发展的参与者模型的函数，随着更新数量的增加而消失。一旦推导出 ODE 极限，就使用两个时间尺度分析来研究其收敛特性，该分析将评论家 ODE 与参与者 ODE 渐近解耦。证明了批评者对贝尔曼方程解的收敛性和行动者对最优策略的收敛性。此外，还建立了对这个全局最小值的收敛速度。本文的收敛性分析在actor-critic算法中学习率和探索率的特定选择下成立，这可以为actor-critic算法在实践中的实现提供指导。

论文链接：https://arxiv.org/pdf/2108.08655.pdf

新工具

标题：Paint Transformer：基于前向传播神经绘画的笔画预测

简介：神经绘画是指为给定的图像生成一系列笔划，并使用神经网络以非照片真实的方式重新创建该图像的过程。虽然基于强化学习（RL）的agent可以为该任务逐步生成笔划序列，但训练稳定的RL agent并不容易。另一方面，笔划优化方法在较大的搜索空间内迭代搜索一组笔划参数；这种低效率极大地限制了它们的普遍性和实用性。与以往的方法不同，本文中将该任务描述为一个集合预测问题，并提出了一种新的基于 Transformer 的框架，称为Paint-Transformer，以使用前馈网络预测笔画集的参数。通过这种方式，本文的模型可以并行生成一组笔划，并几乎实时地获得大小为512*512的最终绘制。更重要的是，由于没有数据集可用于训练Paint Transformer，因此本文设计了一个自训练管道，这样就可以在不使用任何现成数据集的情况下对其进行训练，同时仍然可以实现出色的泛化能力。实验表明，该方法比以前的方法具有更好的的绘画性能。代码和模型可用。

论文链接：

https://arxiv.org/pdf/2108.03798.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第19期：ICCV-2021强化学习的最新研究与应用相关推荐

麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！...
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
ICCV 2021 | 英伟达新研究：直接通过视频就能捕获3D人体动作！
丰色发自凹非寺来源:量子位(QbitAI) 不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练: 英伟达这项最新研究不仅省钱,效果也不错-- 其合成的样本完全可以用在以往只在动捕数 ...
【组队学习】【29期】Datawhale组队学习内容介绍
第29期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 编程实践(数据可视化) 计算机视觉自然语言处理之情感分析吃瓜教程--西瓜书+南瓜书李宏毅机器学习(含深度学习) ...
【组队学习】【25期】Datawhale组队学习内容介绍
第25期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: web开发入门教程数据挖掘实战(异常检测) 集成学习(下) 大家可以根据我们的开源内容进行自学,也可以加入我们的组 ...
【组队学习】【24期】Datawhale组队学习内容介绍
第24期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 零基础入门语音识别(食物声音识别) Docker教程数据挖掘实践(智慧海洋) 集成学习(中) 河北邀请赛(二手车价 ...
【组队学习】【23期】Datawhale集成学习（上）
集成学习(上) 开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearn ...
【组队学习】【28期】Datawhale组队学习内容介绍
第28期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 吃瓜教程--西瓜书+南瓜书李宏毅机器学习动手学数据分析集成学习 SQL编程语言 R语言数据科学基于Pytho ...

《强化学习周刊》第19期：ICCV-2021强化学习的最新研究与应用

《强化学习周刊》第19期：ICCV-2021强化学习的最新研究与应用相关推荐

最新文章

热门文章