计算机视觉最新进展概览2021年8月15日到2021年8月21日

参考计算机视觉最前沿进展2021年8月15日到2021年8月21日 - 云+社区 - 腾讯云

1、PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation

最近，跨域目标检测和语义分割取得了令人印象深刻的进展。现有方法主要考虑由外部环境(包括背景、光照或天气的变化)引起的域偏移，而不同的摄像机固有参数通常出现在不同的域中，并且它们对域自适应的影响很少被探索。在本文中，我们观察到视场(FoV)间隙导致源域和目标域之间明显的实例外观差异。我们进一步发现，在FoV增加(源FoV <目标FoV)和FoV减少的情况下，两个域之间的FoV差距都会损害域适应性能。受这些观察的启发，我们提出了位置不变变换来更好地对齐不同领域的图像。我们还引入了一个反向PIT，用于将变换/对齐的图像映射回原始图像空间，并设计了一个损失重新加权策略来加速训练过程。我们的方法可以很容易地插入到现有的跨域检测/分割框架中，同时带来可忽略的计算开销。大量的实验表明，我们的方法可以有效地提高跨域目标检测和分割的性能。

2、Contextual Convolutional Neural Networks

我们提出了用于视觉识别的上下文卷积。CoConv是标准卷积的直接替代，标准卷积是卷积神经网络的核心组成部分。与标准卷积相比，CoConv隐含地具有合并上下文信息的能力，同时保持相似数量的参数和计算成本。CoConv受到神经科学研究的启发，这些研究表明(I)神经元，甚至来自初级视觉皮层(V1区)的神经元，都参与了上下文线索的检测，并且(ii)视觉神经元的活动可以受到完全置于其理论感受野之外的刺激的影响。一方面，我们将CoConv集成到广泛使用的残差网络中，并在视觉识别的核心任务和基准上，即在ImageNet数据集上的图像分类和在MS COCO数据集上的目标检测上，显示出比基线更好的识别性能。另一方面，我们在最先进的生成对抗网络的生成器中引入了CoConv，在CIFAR-10和CelebA上显示了改进的生成结果。

3、G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation

本文研究了用于目标检测的知识提取策略，并提出了一个适用于同构和异构师生对的有效框架。传统的特征模仿范例引入模仿掩模来聚焦于信息前景区域，同时排除背景噪声。然而，我们发现这些方法不能充分利用所有特征金字塔层次的语义信息，导致基于FPN的检测器之间的知识提取效率低下。为此，我们提出了一种新的语义引导的特征模仿技术，该技术在所有金字塔级别的特征对之间自动执行软匹配，以向学生提供最佳指导。为了进一步推进包络，我们引入对比蒸馏来有效地捕获不同特征区域之间关系中编码的信息。最后，我们提出了一个通用的检测KD管道，它能够提取同质和异质的检测器对。我们的方法始终优于现有的检测KD技术，并且当(1)框架中的组件被单独和联合使用时有效；(2)对于同质和异质的学生-教师对，以及(3)在多个检测基准上。以强大的X101-Faster R-CNN-insta boost检测器为老师，在COCO数据集上，R50-Fastre R-CNN达到44.0% AP，R50-retainet达到43.3% AP，R50-FCOS达到43.1% AP。

4、Exploring Classification Equilibrium in Long-Tailed Object Detection

当训练数据的分布严重偏斜时，传统的检测器往往会造成分类不均衡，性能下降。在本文中，我们建议在训练过程中使用平均分类分数来表示每个类别的分类精度。基于这个指标，我们通过均衡损失(EBL)和记忆增强特征抽样(MFS)方法来平衡分类。具体来说，EBL通过在任意两个类别之间设计分数引导的损失裕度来增加弱类别的决策边界的调整强度。另一方面，MFS通过对弱类的实例特征进行过采样，提高了弱类决策边界调整的频率和精度。因此，EBL和MFS合作寻找长尾检测中的分类均衡，在保持甚至提高头部类性能的同时，显著提高了尾部类的性能。我们在LVIS上使用掩码R-CNN进行了实验，该掩码具有包括ResNet-50-FPN和ResNet-101-FPN在内的各种主干，以显示所提出方法的优越性。它将尾部类的检测性能提高了15.6个AP，比最新的长尾对象检测器性能提高了1个AP以上。

5、DRÆM -- A discriminatively trained reconstruction embedding for surface anomaly detection

视觉表面异常检测旨在检测明显偏离正常外观的局部图像区域。最近的表面异常检测方法依赖于生成模型来精确地重建正常区域，并且在异常上失败。这些方法仅在无异常图像上训练，并且通常需要手工制作的后处理步骤来定位异常，这禁止优化特征提取以获得最大的检测能力。除了重建方法之外，我们将表面异常检测主要视为一个判别问题，并提出了一个判别训练的重建异常嵌入模型(DRAEM)。所提出的方法学习异常图像及其无异常重建的联合表示，同时学习正常和异常示例之间的判定边界。该方法能够直接进行异常定位，而不需要对网络输出进行额外的复杂后处理，并且可以使用简单和一般的异常模拟进行训练。在具有挑战性的MVTec异常检测数据集上，DRAEM在很大程度上优于当前最先进的无监督方法，甚至在广泛使用的DAGM表面缺陷检测数据集上提供接近全监督方法的检测性能，同时在定位精度上显著优于它们。

6、TOOD: Task-aligned One-stage Object Detection

一阶段目标检测通常通过优化两个子任务来实现:目标分类和定位，使用具有两个平行分支的头部，这可能导致两个任务之间的预测存在一定程度的空间错位。在这项工作中，我们提出了一个任务对齐的一阶段目标检测(TOOD)，它以基于学习的方式明确地对齐两个任务。首先，我们设计了一种新颖的任务对齐头部(T-Head)，它在学习任务交互和任务特定特征之间提供了更好的平衡，以及通过任务对齐预测器学习对齐的更大灵活性。其次，我们提出了任务对齐学习(TAL)，通过设计的样本分配方案和任务对齐损失，在训练过程中明确地拉近(甚至统一)两个任务的最优锚。在MS-COCO上进行了广泛的实验，在单模型单尺度测试中，TOOD达到了51.1的AP。这大大超过了最近的一阶段检测器，如ATSS (47.7 AP)、GFL (48.2 AP)和PAA (49.0 AP)，参数和FLOPs更少。定性结果也证明了TOOD对于更好地协调目标分类和定位任务的有效性。

7、RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection

近年来，三维点云理解取得了很大进展。然而，一个主要的瓶颈是注释真实数据集的稀缺，尤其是与2D目标检测任务相比，因为注释场景的真实扫描涉及大量的劳动。解决这一问题的一个有前途的方法是更好地利用由计算机辅助设计对象模型组成的合成数据集来促进真实数据集上的学习。这可以通过预训练和微调程序来实现。然而，最近关于3D预训练的工作显示，当将在合成目标上学习的特征转移到其他真实世界的应用程序时，会失败。在这项工作中，我们提出了一种新的方法来实现这个目标。特别地，我们提出通过利用合成计算机辅助设计数据集中的目标来生成场景的随机布局，并且通过对从同一组合成目标生成的两个随机场景应用对象级对比学习来学习3D场景表示。以这种方式预训练的模型可以在稍后对3D目标检测任务进行微调时作为更好的初始化。从经验上看，我们在几个基本模型上显示了下游3D检测任务的一致改进，尤其是当使用较少的训练数据时，这有力地证明了我们方法的有效性和通用性。受益于丰富的语义知识和来自合成数据的多样对象，我们的方法在广泛使用的3D检测基准ScanNetV2和SUN RGB-D上建立了新的最先进的状态。我们期望我们的尝试为桥接目标和场景级别的3D理解提供新的视角。

8、Deployment of Deep Neural Networks for Object Detection on Edge AI Devices with Runtime Optimization

深度神经网络已被证明对汽车场景理解越来越重要，新算法不断提高检测性能。然而，很少强调在嵌入式环境中部署的经验和需求。因此，我们对在边缘人工智能平台上部署两个具有代表性的对象检测网络进行了案例研究。特别是，我们考虑将视网膜用于基于图像的2D物体检测，将点柱用于基于激光雷达的三维物体检测。考虑到可用的工具，我们描述了将算法从PyTorch训练环境转换到部署环境所需的修改。我们使用两个不同的库评估部署的DNN的运行时，TensorRT和TorchScript。在我们的实验中，我们观察到TensorRT对于卷积层和TorchScript对于全连接层的微小优势。我们还研究了在为部署选择优化设置时运行时和性能之间的权衡，并观察到量化显著降低了运行时，而对检测性能的影响很小。

9、LIGA-Stereo: Learning LiDAR Geometry Aware Representations for Stereo-based 3D Detector

基于立体的3D检测旨在使用中间深度图或隐式3D几何表示从立体图像中检测3D目标边界框，这为3D感知提供了低成本的解决方案。然而，与基于激光雷达的检测算法相比，它的性能仍然较差。为了检测和定位精确的三维边界框，基于激光雷达的模型可以根据激光雷达点云对精确的目标边界和表面法线方向进行编码。然而，由于立体匹配的限制，基于立体的检测器的检测结果容易受到错误的深度特征的影响。为了解决这个问题，我们提出了LIGA-立体(LiDAR几何感知立体检测器)在基于LiDAR的检测模型的高级几何感知表示的指导下学习基于立体的三维检测器。此外，我们发现现有的基于体素的立体检测器无法从间接的三维监督中有效地学习语义特征。我们附加了一个辅助2D检测头来提供直接的2D语义监督。实验结果表明，上述两种策略提高了几何和语义表示能力。与最先进的立体检测器相比，我们的方法在官方KITTI基准上对汽车、行人、骑车人的3D检测性能分别提高了10.44%、5.69%、5.97% mAP。基于立体和基于激光雷达的三维检测器之间的差距进一步缩小。

10、Pixel-Perfect Structure-from-Motion with Featuremetric Refinement

找到跨多个视图可重复的局部特征是稀疏三维重建的基石。经典的图像匹配范例一劳永逸地检测每个图像的关键点，这可能产生定位不良的特征，并将大的误差传播到最终的几何图形。在本文中，我们通过直接对齐来自多个视图的低级图像信息来细化从运动到结构的两个关键步骤:我们首先在任何几何估计之前调整初始关键点位置，随后细化点和相机姿态作为后处理。这种改进对于大的检测噪声和外观变化是鲁棒的，因为它基于神经网络预测的密集特征来优化特征度量误差。这显著提高了各种关键点检测器的相机姿态和场景几何的准确性，具有挑战性的观看条件和现成的深度功能。我们的系统可以轻松扩展到大型图像集合，支持像素级的大规模众包定位。

11、Amplitude-Phase Recombination: Rethinking Robustness of Convolutional Neural Networks in Frequency Domain

近年来，卷积神经网络的泛化行为通过频率分量分解的解释技术逐渐透明化。然而，图像的相位谱对于鲁棒视觉系统的重要性仍然被忽略。在本文中，我们注意到神经网络趋向于收敛到与训练图像的高频成分密切相关的局部最优值，而振幅谱容易受到诸如噪声或常见噪声的干扰。相比之下，更多的实证研究发现，人类依赖更多的相位分量来实现稳健的识别。这一观察结果进一步解释了CNN在对常见扰动的鲁棒性和分布外检测方面的泛化行为，并激发了对通过重新组合当前图像的相位谱和干扰图像的振幅谱而设计的数据增强的新观点。也就是说，生成的样本迫使CNN更多地关注来自相位分量的结构化信息，并保持对幅度变化的鲁棒性。在多个图像数据集上的实验表明，该方法在多概括和校准任务上取得了最新的性能，包括对常见破坏和表面变化的适应性、分布外检测和对抗攻击。

12、Exploiting Scene Graphs for Human-Object Interaction Detection

人-物体相互作用(HOI)检测是一项基本的视觉任务，旨在定位和识别人和物体之间的相互作用。现有的作品侧重于人和物体的视觉和语言特征。然而，它们没有利用图像中存在的高级和语义关系，这为HOI推断提供了关键的上下文和详细的关系知识。我们提出了一种通过场景图利用这些信息的新方法，用于人-物交互检测任务。我们的方法SG2HOI通过两种方式结合了SG信息:(1)我们将场景图嵌入到全局上下文线索中，作为场景特定的环境上下文；(2)我们构建了一个关系感知的消息传递模块，从对象的邻域中收集关系，并将它们转换为交互。实证评估表明，我们的SG2HOI方法在两个基准HOI数据集:V-COCO和HICO-DET上优于最先进的方法。

13、Vector-Decomposed Disentanglement for Domain-Invariant Object Detection

为了提高检测器的通用性，对于域自适应目标检测(DAOD)，最近的进展主要探索在源域和单目标域之间对齐特征级分布，这可能忽略对齐特征中存在的域特定信息的影响。对于DAOD，重要的是提取域不变的对象表示。为此，在本文中，我们试图将域不变表示与特定域表示分开。提出了一种新的基于向量分解的解纠结方法。首先，设计一个提取器来从输入中分离域不变的表示，用于提取对象提议。其次，引入特定领域表示作为输入和领域不变表示之间的区别。通过差分运算，扩大了特定领域表示和领域不变表示之间的差距，促进领域不变表示包含更多领域无关信息。在实验中，我们分别对单目标和复合目标情况下的方法进行了评估。对于单目标情况，四个域转移场景的实验结果表明，我们的方法比基线方法获得了显著的性能提升。此外，对于复合目标情况(即目标是两个不同域的复合物，没有域标记)，我们的方法比基线方法的性能提高了约4%，这证明了我们方法的有效性。

14、AdaCon: Adaptive Context-Aware Object Detection for Resource-Constrained Embedded Devices

卷积神经网络在目标检测任务中实现了最先进的精度。然而，它们有巨大的计算和能源需求，这对它们在资源受限的边缘设备上的部署提出了挑战。目标检测将图像作为输入，并识别现有的目标类及其在图像中的位置。在本文中，我们利用关于不同目标类别可能联合出现的概率的先验知识来提高对象检测模型的效率。具体来说，我们的技术基于目标的空间共现概率对对象类别进行聚类。我们使用这些集群来设计自适应网络。在运行期间，分支控制器基于输入帧的空间上下文来决定执行网络的哪一部分。我们使用COCO数据集进行的实验表明，我们的自适应目标检测模型实现了高达45%的能耗降低和高达27%的延迟降低，并且目标检测的平均精度损失很小。

15、Pixel Difference Networks for Efficient Edge Detection

近年来，深度卷积神经网络以其丰富而抽象的边缘表示能力，在边缘检测方面取得了人类水平的性能。然而，基于CNN的边缘检测的高性能是通过大的预处理CNN主干来实现的，这是内存和能量消耗。此外，令人惊讶的是，在快速发展的深度学习时代，以前来自传统边缘检测器(如Canny、Sobel和LBP)的智慧很少被研究。为了解决这些问题，我们提出了一种简单、轻量级但有效的架构，称为像素差网络(PiDiNet)，用于高效的边缘检测。在BSDS500、NYUD和Multicue上进行了大量的实验，证明了该算法的有效性以及较高的训练和推理效率。令人惊讶的是，当仅使用BSDS500和VOC数据集从头开始训练时，PiDiNet可以在100 FPS和不到1M参数的BSDS500数据集上超过人类感知的记录结果(0.807 vs . ODS F-measure中的0.803)。参数少于0.1M的更快版本的PiDiNet仍然可以在200 FPS的现有技术中实现相当的性能。在NYUD和多库数据集上的结果显示了类似的观察结果。

16、Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark

由于各种因素，包括类内方差、类不平衡和遮挡，使用计算机视觉技术的自动安全检查在现实场景中是一项具有挑战性的任务。以往的方法大多很少解决由于缺乏大规模数据集而导致违禁物品被故意隐藏在杂乱物体中的情况，限制了其在现实场景中的应用。对于现实世界的违禁物品检测，我们收集了一个大规模的数据集，命名为PIDray，它涵盖了现实世界场景中违禁物品检测的各种情况，尤其是对于故意隐藏的物品。经过大量努力，我们的数据集包含47，677张x光图像中的12类违禁物品，并带有高质量的带注释的分割遮罩和边界框。据我们所知，这是迄今为止最大的违禁物品检测数据集。同时，我们设计了选择性密集注意网络(SDANet)来构建强基线，它由密集注意模块和依赖细化模块组成。由空间和通道方向的密集注意形成的密集注意模块被设计来学习区别特征以提高性能。依赖性细化模块用于利用多尺度特征的依赖性。在所收集的PIDray数据集上进行的大量实验表明，所提出的方法优于现有的方法，尤其是对于检测故意隐藏的项目。