计算机视觉最新进展概览(2021年8月1日到2021年8月7日)

1、GraphFPN: Graph Feature Pyramid Network for Object Detection

在需要多尺度特征的图像理解任务中，特征金字塔已经被证明是强大的。最先进的多尺度特征学习方法关注于使用具有固定拓扑的神经网络进行跨空间和尺度的特征交互。在本文中，我们提出了一种图特征金字塔网络，这种网络能够使其拓扑结构适应于不同的内在图像结构，并支持在所有尺度上同时进行特征交互。我们首先为每个输入图像定义一个特定于图像的超像素层次，以表示其内在的图像结构。图特征金字塔网络继承了超像素层次结构。上下文层和层次层旨在实现相同规模和跨不同规模的特性交互。为了使这些层更加强大，我们通过推广卷积神经网络的全局通道注意，引入了两种图神经网络的局部通道注意。提出的图特征金字塔网络可以增强卷积特征金字塔网络的多尺度特征。我们通过将图特征金字塔网络集成到Faster R-CNN算法中来评估目标检测任务中的图特征金字塔网络。在MS-COCO 2017验证和测试数据集上，改进后的算法不仅在边缘清晰的情况下优于以往最先进的基于特征金字塔的方法，而且优于其他流行的检测方法。

2、Fast Convergence of DETR with Spatially Modulated Co-Attention

最近提出的Detection Transformer (DETR)模型成功地将Transformer应用于目标检测，达到了与Faster-RCNN等两阶段目标检测框架相当的性能。然而，DETR的收敛速度缓慢。从头开始训练DETR需要500个epoch才能达到较高的精度。为了加快其收敛速度，我们提出了一种简单而有效的改进DETR框架的方案，即空间调制共同注意(spatial Modulated Co-Attention, SMCA)机制。SMCA的核心思想是通过限制在初始估计的边界框位置附近的共同注意响应较高来实现位置感知的共同注意。我们提出的SMCA通过替换解码器中原有的共同注意机制，同时保持其他操作不变，从而提高了DETR的收敛速度。此外，通过将多头和比例选择注意设计集成到SMCA中，我们成熟的SMCA可以获得比基于扩展卷积的骨干的DETR更好的性能(在108个纪元时为45.6 mAP，在500个纪元时为43.3 mAP)。我们对COCO数据集进行了广泛的消融研究，以验证SMCA。

3、ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot

单阶段长尾识别方法以一种“跷跷板”的方式提高整体性能，即要么牺牲头部的精度来更好地分类尾巴，要么提高头部的精度而忽略尾巴。现有的算法通过对非平衡集进行预训练和对平衡集进行微调的多阶段训练来绕过这种折衷。虽然取得了良好的性能，但它们不仅对预训练模型的泛化敏感，而且不容易集成到其他计算机视觉任务，如检测和分割，分类器的预训练是不适用的。在本文中，我们提出了一种单阶段长尾识别方案，盟友互补专家(ACE)，该专家是子集中知识最丰富的专家，主导其训练，并与其他专家在较少见的类别中互补，而不会受到从未见过的内容的干扰。我们设计了一个分布自适应优化器来调整每个专家的学习速度，以避免过拟合。在CIFAR10-LT, CIFAR100-LT, ImageNet-LT和iNaturalist数据集上，没有特殊的铃铛和哨，vanilla ACE比目前的单阶段SOTA方法高出3-10%。它也被证明是第一个打破“跷跷板”的交易，通过提高准确性的多数和少数类别只在一个阶段。

4、Video Similarity and Alignment Learning on Partial Video Copy Detection

现有的视频复制检测方法一般基于关键帧之间的空间相似性来度量视频相似性，忽略了时间维度上的潜在相似性，导致视频相似性倾向于空间信息。目前已有的方法采用端到端方式建立统一的视频相似度，但由于丢失了详细的部分对齐信息，导致无法对复制片段进行定位。为了解决上述问题，我们提出了视频相似度和对齐学习(VSAL)方法，该方法联合建模空间相似度、时间相似度和部分对齐。为了减少空间相似性偏差，我们将时间相似性建模为帧级空间相似性预测的掩码映射，其中每个元素表示帧对位于部分对齐上的概率。为了进一步定位部分副本，从空间相似度中学习步进图，其中元素表示当前部分比对在时空相似度图上的延伸方向。从掩模图中获得的起始点按照步进图的指示延伸成部分最优对齐。利用相似度和对齐学习策略，VSAL在VCDB核心数据集上取得了最先进的f1评分。此外，我们通过为FIVR-200k数据集添加新的片段级注释，构建了一个新的部分视频复制检测和定位基准，其中VSAL也取得了最好的性能，验证了其在更具有挑战性的情况下的有效性。

5、Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters

弱监督目标检测(WSOD)是最近一个令人鼓舞的主题，它可以避免昂贵的实例级目标注释。然而，现有的WSOD方法的边界框主要是由预计算的建议确定的，从而限制了目标的精确定位。在本文中，我们为问题设置辩护，通过利用来自一个注释良好的辅助数据集的边界框回归知识来提高定位性能。首先，我们使用注释良好的辅助数据集以多阶段训练的方式探索一系列可学习的边界盒调节器(LBBAs)，这是类不可知的。然后，仅使用lbba和带有非重叠类的弱注释数据集来训练lbba增强的WSOD。因此，我们的LBBAs实际上更方便和经济地实现，同时避免了辅助注释良好的数据集的泄漏。特别地，我们将学习边界框调整器定义为一个双层优化问题，并提出一种类em的多阶段训练算法。在此基础上，进一步提出了一种lbba增强WSOD的多阶段方案。此外，采用掩蔽策略来改进建议分类。实验结果验证了该方法的有效性。我们的方法优于最先进的WSOD方法和具有类似问题设置的知识转移模型。

6、I2V-GAN: Unpaired Infrared-to-Visible Video Translation

人类的视觉经常受到复杂的环境因素的不利影响，尤其是在夜视场景中。因此，红外摄像机往往通过探测周围环境中的红外辐射来帮助增强视觉效果，但红外视频由于缺乏详细的语义信息而不受欢迎。在这种情况下，为了克服红外和可见光之间固有的巨大差距，迫切需要一种有效的从红外域到可见光域的视频-视频转换方法。为了解决这一具有挑战性的问题，我们提出了一种红外到可见光(I2V)视频转换方法I2V- GAN，通过给定的未配对红外视频生成细粒度和时空一致的可见光视频。从技术上讲，我们的模型利用了三种类型的约束:1)对抗约束生成与真实框架相似的合成框架;2)引入感知损失的循环一致性，用于有效内容转换和风格保存;3)域间和域内的相似性约束，在细粒度水平上增强空间和时间空间的内容和运动一致性。此外，目前公共可用的红外和可见光数据集主要用于目标检测或跟踪，有些是由不连续的图像组成，不适合视频任务。因此，我们提供了一个新的I2V视频翻译数据集，命名为IRVI。其中车辆和监控场景连续视频12段，红外和可见光视频均可分割为24352帧。综合实验结果表明，I2V- gan方法在翻译I2V视频时具有更高的流畅性和更精细的语义细节，优于对比的SOTA方法。

7、Group Fisher Pruning for Practical Network Compression

网络压缩可以减少推理过程中的内存和计算量，因此得到了广泛的研究。然而，以往的方法很少处理剩余连接、分组/深度卷积、特征金字塔网络等复杂结构，其中多层通道是耦合的，需要同时进行剪枝。在本文中，我们提出了一种适用于各种复杂结构的通用通道剪枝方法。特别地，我们提出了一种自动查找耦合信道的分层分组算法。然后，我们基于Fisher信息推导出一个统一的度量来评估单个信道和耦合信道的重要性。此外，我们发现GPU上的推理加速与内存的减少更相关，而不是FLOPs，因此我们使用每个通道的内存减少来标准化重要性。我们的方法可以用于修剪任何结构，包括那些耦合通道。我们在各种骨干上进行了大量的实验，包括经典的ResNet和ResNeXt，移动友好的MobileNetV2，以及基于nas的RegNet，在图像分类和有待探索的目标检测上。实验结果表明，该方法能够有效地修剪复杂网络，在不牺牲精度的前提下提高推理速度。

8、RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth

边缘作为计算机视觉的基本构件，根据表面-反射率、光照、表面-法线和深度的不连续，可以分为四种类型。虽然在检测一般或个别类型的边方面已经取得了很大的进展，但全面研究所有四种类型的边仍然有待探索。在本文中，我们提出了一种新的神经网络解决方案，RINDNet，来联合检测所有四种类型的边缘。考虑到每种边的不同属性以及它们之间的关系，RINDNet学习了每种边的有效表示，并分三个阶段进行工作。在阶段I中，RINDNet使用一个共同的主干来提取所有边缘共享的特征。然后在第二阶段，它通过相应的解码器对每一种边缘类型进行分支，以制备鉴别特征。在第三阶段，每一种类型的独立决策头聚合前一阶段的特征来预测初始结果。此外，注意模块学习所有类型的注意图，以获取它们之间的潜在关系，并将这些注意图与初始结果相结合，生成最终的边缘检测结果。为了进行培训和评估，我们构建了第一个公共基准，BSDS-RIND，其中仔细标注了所有四种类型的边。在我们的实验中，与最先进的方法相比，RINDNet得到了很好的结果。其他分析载于补充材料中。