用于目标检测的半自动视频标注

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

大多数现有的基于点云的3D对象检测器使用类似卷积的操作符在一个固定权重的核中处理信息，并分层聚合全局上下文。然而，最近关于2D视觉的非局部神经网络和自我注意的研究表明，明确地建模全局环境和位置之间的远程交互可以导致更稳健和更具竞争力的模型。在本文中，我们通过使用自我注意特征增强卷积特征，探索了两种自我注意变量用于3D物体检测中的上下文建模。我们首先将成对自我注意机制整合到目前最先进的BEV、体素和基于点的检测器中，并显示出与强基线模型相比的一致改进，同时显著减少了它们的参数足迹和计算成本。我们还提出了一种自我注意变量，它通过学习变形在随机抽样的位置上抽样最具代表性的特征子集。这不仅允许我们将显式的全局上下文建模扩展到更大的点云，而且还导致更有区别性和更有信息的特征描述符。我们的方法可以灵活地应用于大多数最先进的探测器，提高了精度、参数和计算效率。我们在KITTI和nuScenes数据集上实现了新的最先进的检测性能。

论文代码：https://github.com/AutoVision-cloud/SA-Det3D

论文创新点

我们在KITTI[9]和大规模nuScenes[5]数据集上测试了我们的方法，跨越了不同计算预算下的广泛架构。我们展示在图2中,减少的总数卷积过滤器和添加FSA和DSA模块导致参数和计算效率模型,不断超越他们的基线用类似的参数来实现,同时也优于原来的表现实现。在下图中，我们提供了定性的例子显示上下文建模的好处。最后，我们还展示了KITTI和nuScenes测试集上最先进的结果。

我们提出了第一个基于自我注意的3D对象检测器的上下文聚合模块，该模块可应用于一系列现代体系结构，包括BEV[18]、voxel[48]、point[35]和pointvoxel[34]基于检测器。我们证明，我们可以用更少的参数和KITTI验证集上的计算成本来优于强大的基线实现。

我们设计了一个可扩展的自我注意变量，它学习变形随机抽样的位置，以覆盖最具代表性和信息最丰富的部分，并在这个子集上聚合上下文。这允许我们在像nuScenes[5]这样的大型点云中聚合全局上下文。

大量的实验证明了使用我们提出的三维目标检测方法进行上下文信息聚合的好处。我们的网络在KITTI[9]和nuScenes[5]数据集上都优于最先进的方法。

KITTI数据集表现结果。红色包围框代表地面真理;绿色表示检测器输出。从左到右:(a)挑战性场景的RGB图像。(b)最新方法的结果:PointPillars [18]，SECOND [48]，Point-RCNN [35]，PV-RCNN[34]。(c)我们完全自我注意(FSA)增强基线的结果，它使用的参数和失败显著减少。FSA处理整个点云，以产生全局上下文感知的特征表示。我们的方法识别漏检并消除假阳性。

框架结构

建议的FSA和DSA模块的架构

针对不同骨干网提出的FSA/DSA模块增强网络架构

中等难度汽车类的性能比较

结论

在本文中，我们提出了一个简单灵活的基于自我注意的框架，以增强卷积特征与全局上下文信息的三维目标检测。我们提出的模块是通用的，参数和计算效率，并可以集成到一系列的3D探测器。我们的工作探讨了两种形式的自我注意:完全(FSA)和可变形(DSA)。FSA模块对所有3D实体之间的成对关系进行编码，而DSA操作一个具有代表性的子集，为全局上下文建模提供一个可伸缩的替代方案。定量和定性实验表明，该体系结构系统地提高了三维物体检测器的性能。

论文链接：https://arxiv.org/pdf/2101.02672.pdf

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目31讲

在「小白学视觉」公众号后台回复：Python视觉实战项目31讲，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

下载4：leetcode算法开源书

在「小白学视觉」公众号后台回复：leetcode，即可下载。每题都 runtime beats 100% 的开源好书，你值得拥有！

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

用于目标检测的半自动视频标注相关推荐

MoCo不适用于目标检测？MSRA提出对象级对比学习的目标检测预训练方法SoCo！性能SOTA！（NeurIPS 2021）...
关注公众号,发现CV技术之美本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive ...
何恺明团队新作ViTDet：用于目标检测的视觉Transformer主干网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达转载自:机器之心 | 编辑:张倩.小舟做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI ...
Mask R-CNN用于目标检测和分割代码实现
Mask R-CNN用于目标检测和分割代码实现 Mask R-CNN for object detection and instance segmentation on Keras and Tenso ...
何恺明大神新作：一种用于目标检测的主流ViT架构，效果SOTA
链接:https://arxiv.org/abs/2203.16527 作者单位:Facebook AI Research 1导读 3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主 ...
maskrcnn用于目标检测_用于目标检测的池化渐进网络（Pooling Pyramid Network）
用于目标检测的池化渐进网络(Pooling Pyramid Network) 题目: Pooling Pyramid Network for Object Detection 作者: Pengchon ...
Interview：算法岗位面试—11.17下午上海某网**软件公司(上市)技术面之比赛考察、目标检测算法、视频分析算法考点
Interview:算法岗位面试-11.17下午上海某网**软件公司(上市)技术面之比赛考察.目标检测算法.视频分析算法考点导读:邀约的下午14.30,到的时候前边有两个学生在等待,当轮到我的时候, ...
【论文解读】CVPR 2021 | 旷视提出GID：用于目标检测的通用实例蒸馏
本文提出一种用于目标检测的知识蒸馏新方法:General Instance Distillation,GID,可应用于各种检测框架中,使得学生模型显著提高AP的性能,甚至优于Teacher模型! 作者 ...
python解析xml+得到pascal voc xml格式用于目标检测+美化xml
1.python解析xml img_path='./data/001.tif'xml_path='./xml/001.xml'img=cv2.imread(img_path)# cv2.imshow( ...
DyFPN：浙大华为诺亚西湖大学等提出用于目标检测的动态特征金字塔，减少40%的FLOPs！...
关注公众号,发现CV技术之美 ▊ 写在前面特征金字塔网络(FPN)是目标检测框架的重要组成部分.大多数现有FPN变体的性能提高主要归因于计算负担的增加.增强FPN的一种方法是通过扩展感受野来丰富空间 ...

用于目标检测的半自动视频标注

用于目标检测的半自动视频标注相关推荐

最新文章

热门文章