《强化学习周刊》第10期：强化学习应用之计算机视觉

No.10

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，它在计算机视觉领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第10期《强化学习周刊》。本期周刊整理了近期强化学习在计算机视觉方面相关的最新论文推荐、新工具、教程等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，赟瑾、刘青）

论文推荐

强化学习近年来取得了令人瞩目的成就，将其应用于计算机视觉领域也取得较大的进步。通过自在给定环境中学习不断试错以学习计算机视觉中特定任务的策略，如提供不断学习可以有效提高图像分类、视觉目标追踪和定位的效率。此外，强化学习在视觉控制、移动分析、场景理解、交互感知等也得到了很多应用。故将强化学习应用于计算机视觉领域具有较大的优势。

强化学习在计算机视觉领域中的应用越来越多，其在视觉控制、图像等方面都有了深入的应用。本次推荐了8篇强化学习在计算机视觉领域应用的相关论文，主要涉及到图像调整、视觉控制、视觉导航、视觉缺陷检测、图像分割、点云配准、图像处理、视频分割等。

标题：Visual Comfort Aware-Reinforcement Learning for Depth Adjustment of Stereoscopic 3D Images（基于视觉舒适度强化学习的3D图像深度调整）了解详情

简介：深度调整旨在增强立体3D（S3D）图像的视觉体验，同时改善视觉舒适度和深度感。对于人类专家来说，深度调整过程是一系列迭代决策的序列。人类专家反复调整深度，直到他对视觉舒适度和感知深度这两个水平感到满意为止。本文提出了一种新颖的基于深度强化学习（DRL）的深度调整方法，称为VCA-RL（视觉舒适感知强化学习），用于在深度编辑操作中显式建模人类顺序决策。其将深度调整过程公式化为马尔可夫决策过程，其中动作定义为摄像机移动操作，以控制左右摄像机之间的距离。本文的agent是根据客观视觉舒适度评估指标的指导下进行训练的，以根据立体观看中的感知方面，学习相机运动动作的最佳顺序。通过大量的实验和用户研究，本文在三个不同的S3D数据库上展示了我们的VCA-RL模型的有效性。

论文链接：https://arxiv.org/pdf/2104.06782.pdf

标题：Robust Deep Reinforcement Learning via Multi-View Information Bottleneck（基于多视图信息瓶颈的鲁棒深度强化学习）了解详情

简介：深度强化学习(DRL)代理通常对训练环境中看不见的视觉变化很敏感。为了解决这个问题，本文引入了一种鲁棒的表示学习方法。基于多视图信息瓶颈（MIB）原理引入了一个辅助目标，该目标鼓励学习表示既可以预测未来，又对与任务无关的干扰不太敏感的表示形式。这使该方法能够训练高性能的策略，这些策略对视觉干扰是鲁棒的，并且可以推广到看不见的环境。研究结果表明，即使在背景被自然视频替换的情况下，该方法在具有挑战性的视觉控制任务中实现SOTA性能。此外，在大规模Procgen基准测试中，该方法对未知环境的泛化方面优于现有的基准。

论文链接：https://arxiv.org/pdf/2102.13268.pdf

标题：Visual Navigation with Spatial Attention（空间注意视觉导航）了解详情

简介：本文提出了一个端到端的视觉导航强化学习框架，旨在从一个给定的类别中找到对象的位置。该框架是基于一个新颖的适合视觉导航的注意力概率模型，因为它编码了关于观察对象的语义信息和关于它们位置的空间信息。在每一步中，agent都被提供一个以自我为中心的场景的RGB图像，并且提出使用强化学习算法来学习代理的策略。具体来说，注意模型由三个部分组成：目标、动作和记忆。该框架实现了常用场景下的SOTA结果。“what”和“where”的组合允许代理有效地导航到所需的对象，并在常用数据集上获得最先进的结果。

论文链接：https://arxiv.org/pdf/2104.09807.pdf

标题：TaylorMade VDD:Domain-adaptive Visual Defect Detector for High-mix Low-volume Production of Non-convex Cylindrical Metal Objects（TaylorMade VDD: 适用于非凸圆柱形金属物体高混合低批量生产的域自适应视觉缺陷检测方法）了解详情

简介：高混合低量非凸金属物体的视觉缺陷检测(VDD)具有挑战性，因为在领域上有细微差异(例如，金属物体、成像设备、视点、照明)会显著影响单个金属物体类型的镜面反射特性。本文通过引入可自动适应新领域的定制VDD框架（其可将具有复杂镜面反射的非凸金属部件和高混合低量生产组合在一起）来解决此问题。具体来说，本文将需要适应任务定义为深度目标检测网络上的网络架构搜索问题(NAS)，其中网络架构是通过强化学习来搜索的。并且使用VDD-HPPPs任务作为工厂案例研究以验证该框架的有效性，实验结果表明，对于非凸HPPPs，与基线方法相比，该方法对不同训练/测试域的数据具有更高的毛刺检测精度，尤其是受域偏移的影响。

论文链接：https://arxiv.org/pdf/2104.04203.pdf

标题：具有多智能体强化学习功能的边界感知型Supervoxel级迭代改进的交互式3D图像分割了解详情

简介：交互式分割，以通过迭代地合并用户提示来有效地获取高质量的分割蒙版。尽管本质上是迭代的，但大多数现有的交互式细分方法都倾向于忽略连续交互的动力学，并独立进行每个交互。该文在这里建议使用马尔可夫决策过程（MDP）为迭代交互式图像分割建模，并通过强化学习（RL）进行解决，其中每个体素均被视为代理。考虑到体素方向预测的巨大探索空间以及相邻体素之间对分割任务的依赖性，采用多智能体强化学习，其中体素之间共享体素级策略。考虑到边界体素对于细分更为重要，文章进一步介绍了一种边界感知奖赏，其中包括以相对交叉熵增益形式的全局奖赏，用于在约束方向上更新策略，以及以相对权重形式的边界奖赏，以强调策略的正确性。

论文链接：https://arxiv.org/abs/1911.10334

标题：PFRL: Pose-Free Reinforcement Learning for 6D Pose Estimation(PFRL：6D姿态估计的无姿态强化学习方法)了解详情

简介：在计算机视觉领域中，处理RGB图像时，常用的主流方法都是基于带有真实6D物体位姿信息的2D图像，但这种图像的获得代价却很大。本文提出了一种将6D位姿增强信息建模为MDP，并且将其作为强化学习方法的输入信息的方法。这意味着作者将传统的弱监督6D位姿信息替换为2D图像注释信息，大大减少了计算消耗以及时间代价。此方法利用序列性MDP信息来优化延迟积累回报。并提出了一种组合强化优化方法，以高效学习控制策略。实验表明，本文提出的无位姿RL方法在LINEMOD和T-LESS数据集上可达到state-of-art的性能。

论文链接：https://arxiv.org/abs/2102.12096v1

标题：ReAgent: Point Cloud Registration using Imitation and Reinforcement Learning(ReAgent：使用模仿学习和强化学习的点云配准)了解详情

简介：点云配准在3D计算机视觉领域中是一个常规步骤。传统的点云配准方法不能适应观测具有噪声的情况，而基于学习的方法泛化能力较差。本文将可迭代点云配准视为一种RL任务，并提出了一种新型配准智能体（ReAgent）。本文方法为三个部分：1. 模仿学习：与传统初始化方法不同，作者基于专家策略来初始化离散配准策略；2. 强化学习：作者将其提出的合作回报与策略优化方法结合，进一步提升了配准性能；3. 轻量智能体减少了推理时间。作者在三种类型的数据集上进行了测试，实验表明无论是精确度还是推理时间上都有很大改善。

论文链接：https://arxiv.org/abs/2103.15231v1

标题：A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline(基于强化学习的对于多任务视频分析管道的高能效框架)了解详情

简介：视频分析管道的数据流速过高，并且十分依赖于复杂推理算法，很难应用在资源有限的情况中。本文设计出一种可适应性分辨率优化框架，以最小化多任务视频分析管道的资源消耗。此框架利用一种DRL方法来动态控制输入分辨率和整个视频分析管道的计算成本。因为可持续监控变化的分辨率对于高维视频分析特性的影响，此端到端优化框架便可学习到最佳长期策略，以对资源消耗进行全局优化，同时保持了精确度。作者将此方法应用于视频分割任务，实验表明，此方法大大节省了资源，并且与其他基准方法具有相似的准确率。

论文链接：https://arxiv.org/abs/2104.04443

新工具

Learning to Fly：使用PyBullet物理引擎的Gym环境了解详情

简介：本文提出了一种基于Bullet物理引擎的与OpenAI Gym类似的环境，专为四轴飞行器设计。它拥有多智能体和基于视觉的强化学习交互界面，同时支持真实碰撞与空中动态效果。此环境不但支持传统控制任务，还支持强化学习的单智能体和多智能体任务等，可进行控制理论与机器学习相结合的科研工作。

论文链接：

https://arxiv.org/abs/2103.02142v2

The Distracting Control Suite：一系列高难度的强化学习基准任务了解详情

简介：环境中的感知信息对于智能提来说颇具挑战性，如视角、光照以及背景等。先前的模拟RL基准任务如DM控制任务的复杂度过小，不适合具有sim2real需求的算法。作者将DM控制任务进行拓展，用三种视觉干扰信息产生了一种基于视觉的新型基准控制任务，并对当前的state-of-the-art的RL算法在此任务上进行了测试。实验表明，当前RL方法的性能均大幅下降。本文提出的基准任务非常适合算法在高复杂度环境以及sim2real迁移上进行性能提升研究。

论文链接：

https://arxiv.org/abs/2101.02722

myGym：用于视觉运动机器人任务的模块化工具箱了解详情

简介：本文提出了一个新的虚拟模拟器工具包myGym，它是为强化学习（RL）、内在激励和在3D模拟器中训练的模仿学习任务而开发的。经过训练的任务可以很容易地转移到真实世界的机器人场景中。与适用于经典机器人学习的现有工具包(如OpenAI Gym、Roboschool)相比，myGym还适用于需要内在动机的视觉运动（结合视觉和运动）无监督任务，即机器人能够产生自己的目标。该工具包为视觉运动任务提供预训练的视觉模块，允许快速原型制作，此外，用户可以定制视觉子模块，并使用他们自己的对象集重新训练。在实践中，用户选择期望的环境、机器人、对象、任务和奖励类型作为仿真参数，并且训练、可视化和测试本身被自动处理。

论文链接：

https://arxiv.org/pdf/2012.11643.pdf

教程

强化学习教程来啦！贡献者来自中科院、清华、北大3位男神！了解详情

简介：《Easy-RL》由开源组织 Datawhale 发起，由中科院王琦、清华大学杨毅远、北京大学江季三位组织成员主要负责。本书结合了李宏毅老师的《深度强化学习》、周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》等多个强化学习的经典资料，并配有相关的习题、面经以及完全版的代码实战，适合想入门强化学习的小伙伴。时隔半年，《Easy-RL》在原有的基础上进行了充分地迭代和优化，不仅对发布时已有章节进行了完善和纠错，同时还补充了常见的面试题，当然，项目作者还给出了完全版的强化学习实战代码，方便大家深入学习。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第10期：强化学习应用之计算机视觉相关推荐

深度学习三人行(第10期)----CNN经典网络之LeNet-5和AlexNet
上一期,我们一起学习了深度学习卷积神经网络中的代码实现,内存计算以及池化层的原理等, 深度学习三人行(第9期)----卷积神经网络实战进阶(附代码) 接下来我们一起学习下关于CNN中比较经典的网络Le ...
深度学习算法(第5期)----深度学习中的优化器选择
欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...
【码云周刊第 10 期】放码过来，四个男人的带头冲锋！！（内附 PPT 下载链接）...
为什么80%的码农都做不了架构师?>>> 一周热门资讯回顾码云全面改版:新界面新态度,更一致的体验 DuangDuangDuang!码云项目的 Readme.md 特殊技能 ...
深度学习三人行(第5期)----深度学习中的优化器选择
上一期,我们一起学习了TensorFlow在训练深度网络的时候怎么解决梯度消失或梯度爆炸的问题,以及怎么尽可能的减少训练时间. 深度学习三人行(第4期)---- TF训练DNN之进阶这期我们继续学习 ...
摩拜前端周刊第10期
Ladies and 乡亲们,摩拜前端周刊起航啦- 摩拜前端团队会收集每周前端优秀文章,每周五发布至掘金平台,欢迎关注我们- 即使爬到最高的山上,一次也只能脚踏实地地迈一步. Top 榜 [JS 进阶 ...
人工智能轨道交通行业周刊-第10期（2022.8.15-8.21）
0 前言本周在整理轨道交通相关网站的过程中,找到了很多期刊,如铁路计算机应用.中国铁路.城市轨道交通等,在这些期刊中可以了解到最新的技术及应用,具有很高的价值. 后续计划开一个论文专栏,对轨道交通与 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
《因果学习周刊》第9期：因果学习中的工具变量
No.09 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
深度学习三人行(第8期)----卷积神经网络通俗原理
上一期,我们一起学习了深度学习中如何避免过拟合, 深度学习三人行(第7期)----深度学习之避免过拟合(正则化) 接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步.本期主要 ...
《敏捷个人》周刊第11期（可下载）
#敏捷个人# 每日成长101:第55天如今我们的社会交流形式更为丰富,但是带给我们更多的是孤独.孤独是一种存在状态,人的孤独感是现在社会的一种普遍存在.谈到孤独,也许你会想到那些孑然一身,儿女不在 ...

《强化学习周刊》第10期：强化学习应用之计算机视觉

《强化学习周刊》第10期：强化学习应用之计算机视觉相关推荐

最新文章

热门文章