点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/3453649291

编辑丨3D视觉工坊

AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“,作者来自中科大和香港中文大学。

本文提出一个有趣的问题:一般大家看到point-based特征计算量大,voxel-based结构更适合特征提取,但精度下降;而作者认为,点云数据的精确定位并不需要,而粗voxel粒度也能产生充分检测精度。设计的模型Voxel R-CNN,是一个两步法,仍然达到和当前point-based方法可比的检测性能,但计算量只是其一部分。Voxel R-CNN包括3D主干网络,2D BEV RPN和检测头,其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。

在文章首页中看到的图示,给出属于两步法的当前point-based方法和该文方法的比较。

作者分析SECOND和PV-RCNN的区别,前者是单步voxel-based方法,3D主干网络加2D BEV RPN;后者是进一步改进,加入一个keypoint分支,保持3D结构信息,其VSA(voxel set abstraction)集成多尺度3D voxels特征。然后由此做RoI pooling得到Region proposals。

这样作者在SECOND的2D主干网中探索rotated ROI align提取ROI特征。由此得到两点认识:1)3D结构很重要,因为BEV不足预测精确的3D BBox;2)point-voxel特征交互费时,影响效率。

设计的Voxel R-CNN model概览图如下:

voxel RoI pooling是从3D voxel特征体中聚集spatial context。这里提出一个新操作符,voxel query,在3D特征体中找邻域voxel,可以聚类voxels。如图所示:

在一个距离范围寻找K个voxels,其中采用Manhattan距离,即

基于此,采用PointNet模块聚集邻域voxel features,记gi是grid points,vi是voxels,那么最后特征如同下面公式计算:

作者只是从3D 主干网络的最后两级提取voxel特征,每一级的曼哈顿距离门限不同,最后把不同级和尺度的特征拼接在一起得到RoI特征。

不过,这个聚集特征过程计算量仍然很大,作者采用了加速方法,如图所示:

网络架构设计基本从SECOND和PV-RCNN过来的。推理中,RPN中IoU门限=0.7做NMS,得到top-100 region proposals进入detection head;细化后NMS再次应用,这里IoU门限=0.1去除冗余。

训练中loss函数如下:

RPN的损失项

其中分类采用Focal loss,box回归采用Huber loss。

先定义一个confidence分支和IoU相关的数值

框回归分支也采用Huber loss。这样,检测头的损失项

实验结果如下:

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN相关推荐

  1. CV:基于keras利用cv2自带两步检测法对《跑男第六季第五期》之如花片段(或调用摄像头)进行实时性别脸部表情检测

    CV:基于keras利用cv2自带两步检测法对<跑男第六季第五期>之如花片段(或调用摄像头)进行实时性别&脸部表情检测 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心 ...

  2. 简单两步彻底根除系统多余输入法

    简单两步彻底根除系统多余输入法 大家想必都曾有过这样的遭遇:在Windows系统中不停地按下"Ctrl+Shift"组合键,以切换到你喜欢的输入法.每次都是这么切换来切换去的,是不 ...

  3. 论文研读-基于种群分布的两阶段自适应知识迁移多目标进化多任务

    论文研读-基于种群分布的两阶段自适应知识迁移多目标进化多任务 Multiobjective Evolutionary Multitasking With Two-Stage Adaptive Know ...

  4. linux操作系统使用论文_Linux高性能服务器设计

    C10K和C10M 计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模.1999年,Dan Kegel提出了著名的C10问题:一台服务器上同 ...

  5. 一个高性能服务器需要关注的地方

    本文将与你分享我多年来在服务器开发方面的一些经验. 对于这里所说的服务器, 更精确的定义应该是每秒处理大量离散消息或者请求的服务程序, 网络服务器更符合这种情况, 但并非所有的网络程序都是严格意义上的 ...

  6. Ristretto 简介:一个高性能 GO 缓存

    这个博客登上了 Golang subreddit[1] 的顶部,并且在 Hacker News[2] 的trending上排在前十位.一定要在那里参与讨论,并通过给我们一个 star[3],表达对我们 ...

  7. Ristretto 简介: 一个高性能GO缓存

    Ristretto 简介: 一个高性能GO缓存 原文地址:Introducing Ristretto: A High-Performance Go Cache 原文作者:Dmitry Filimono ...

  8. 从结构到模块!华为提出最新两步搜索的目标检测SM-NAS

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,经作者授权转载. 原文链接: https://zhuanlan.zhihu.com/p/104357348 背景 <SM-NAS: ...

  9. 阿里终面:如何设计一个高性能网关?

    作者:烟味i cnblogs.com/2YSP/p/14223892.html 一.前言 最近在 github 上看了 soul 网关的设计,突然就来了兴趣准备自己从零开始写一个高性能的网关.经过两周 ...

最新文章

  1. ViewPager 的点击事件回调
  2. 禁止拖放对象文本被选择
  3. python属于哪种类型的语言_Python是什么类型的编程语言,有什么特性
  4. 使用NATAPP.cn测试微信支付回调接口
  5. 关于TensorFlow报错ModuleNotFoundError: No module named ‘imutils‘
  6. Centos7安装Nginx+PHP
  7. 推断股票强弱最有效的一个方法
  8. Unity3D+VR的实现
  9. OpenCV处理引起光学错觉的图像
  10. ios采用什么技术_app软件公司开发宠物别APP采用什么技术?
  11. jvm垃圾回收之JVM GC算法
  12. 解析复杂结构的json文件的时候,快速生成结构体--golang
  13. caffe手写数字分类-学习曲线
  14. 微信小程序排行榜模板
  15. 学习电子书和视频大全
  16. 国际及港澳台电话国家代码表
  17. Linux命令暂停进程,shell脚本不暂停进程,暂停几秒执行下一条shell命令
  18. 为什么linux不需要整理磁盘,为什么Linux不需要磁盘碎片整理
  19. 识别二维码、并保存二维码链接至csv文件
  20. Android uni-app 封装原生插件

热门文章

  1. shiro源码分析(四)具体的Realm
  2. 5、catch中发生了未知异常,finally代码块如何应对?
  3. 深度解读!新一代大数据引擎Flink厉害在哪?(附实现原理细节)
  4. 因4元而市值蒸发400亿!美团“大数据杀熟”翻车!回顾2020年互联网大事件!...
  5. CTO怒了:“如果中台不省钱,我建个屁中台啊!”
  6. 一次900万+数据量 SQL 查询优化后的原理总结!
  7. 阿里不让多表join?我偏要!
  8. 关于Hystrix超时机制和线程状态的测试观察和个人理解
  9. 图解Linux最常用命令!秒懂!
  10. 程序员吐槽:去再好的互联网公司也就是个打工仔,还累出一身病