PVNet: 像素级投票网络估计6DoF位姿

泡泡图灵智库，带你精读机器人顶级会议文章

标题：PVNet:Pixel-wise Voting Network for 6DoF Pose Estimation

作者：Sida Peng，Yuan Liu，Qixing Huang，Xiaowei Zhou，Hujun Bao

来源：CVPR 2019

编译：陈圣伦

审核：万应才

摘要

大家好，今天为大家带来的文章是—— PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation。

本文研究了在严重的遮挡或截断情况下，单张RGB图像的六自由度位姿估计问题。近期的研究表明，两阶段的方法可以获得显著的性能，首先检测关键点，然后求解PnP问题估计位姿。然而，这些方法大多仅通过回归图像坐标或热图定位一组稀疏的关键点，这些关键点对遮挡和截断很敏感。相反，本文引入了一个像素级投票网络(PVNet)用于回归指向关键点的像素级向量，并使用这些向量对关键点位置进行投票。这为定位被遮挡或截断的关键点创建了一种灵活的表示方式。这种表示的另一个重要特征是，它提供了关键点位置的不确定性，可以进一步被PnP求解器所利用。实验表明，该方法在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上的性能优于现有的方法，同时能够有效地进行实时的位姿估计。新创建的Truncation LINEMOD数据集可以验证该方法对截断的鲁棒性。代码https://zju3dv.github.io/pvnet/。

贡献

1.提出了像素级投票网络(PVNet)框架，可以估计六自由度位姿。该框架学习向量场表示，用于鲁棒的2D关键点定位，并能够自然地处理遮挡和截断。

2.基于PVNet的稠密预测，本文提出一种由不确定性驱动的PnP算法。

3.在基准数据集上，与最先进的方法相比，该方法显著地提高了性能(在LINEMOD和OCCLUSION上分别增加了86.3%vs79%，40.8%vs30.4%)。本文还创建了一个新的数据集，用于对截断的对象进行评估。

算法流程

给定一幅图像，位姿估计的任务是检测目标并估计其在三维空间中的方向和平移。首先利用CNNs检测2D目标关键点，然后利用PnP算法计算六自由度位姿。

1.基于投票的关键点定位

给定一个RGB图像，PVNet预测像素级对象标签和向量，其中像素级向量代表每个像素到每个关键点的方向。给定从属于该物体的所有像素到某一物体关键点的方向，可生成该关键点的2D位置假设以及基于ransac投票的置信度得分。在这些假设的基础上估计每个关键点的空间概率分布的均值和协方差，如图1。

图1 关键点定位。(a)Occlusion LINEMOD数据集的图像。(b)PVNet的架构。(c)指向物体关键点的像素级向量。(d)语义标签。(e)投票产生的关键点假设。投票分数越高的假设越亮。(f)根据假设估计的关键点位置的概率分布。分布的均值用红星表示，协方差矩阵用椭圆表示。

更具体地说，PVNet执行两个任务:语义分割和向量场预测。对于像素p, PVNet输出与物体关联的语义标签和向量vk(p)，该向量表示从像素p到物体的2D关键点xk的方向。向量vk(p)是像素p与关键点xk之间的偏移量，即xk-p。利用语义标签和偏移量，得到了目标物体像素，并将这些偏移量相加，生成一组关键点假设。然而，这些偏移量对物体尺度的变化非常敏感，这限制了PVNet的泛化能力。因此，本文提出尺度不变向量

在给定目标像素和单位向量的基础上，本文使用基于ransac的投票方案生成关键点假设。首先，随机选取两个像素点，将其向量的交点作为假设hki，作为关键点xk。重复N次，生成一组假设{hki|i=1,2,…,N} 用于表示可能的关键点位置。然后，物体的所有像素为这些假设投票。将假设hki的投票得分wki定义为，

Ⅱ为指标函数，θ为阈值(所有实验均为0.99)，p∈O表示像素p属于对象O。直觉上，较高的投票分数意味着一个假设更有准确，因为它与更多的预测方向一致。所得到的假设描述了图像中一个关键点的空间概率分布，其均值μk和协方差∑k如下。图1(e)显示了一个示例。

2.关键点选择

如图2(a)使用物体的3D包围框的8个角点作为关键点，这些角点可能远离图像中的物体像素。距离目标像素越远，定位误差就越大，因为关键点假设是使用从目标像素开始的向量生成的。图2(b)和(c)分别是选择包围框角点和选择物体表面上关键点得到的假设。物体表面上的关键点在定位上的差异通常要小得多。

图2 (a)3D物体模型及其3D包围框。(b)PVNet选择包围框角点得到的假设。(c)PVNet选择物体表面的一个关键点产生的假设。表面关键点的较小方差可以表明，在该方法中，表面关键点比包围框角点更容易定位。

本文首先，添加对象中心来初始化关键点集合。然后，不断找到物体表面上到当前关键点集最远的一个点，并将其添加到集合中。实证结果表明，该策略会产生更好的结果。根据实验结果建议K = 8。图3显示了一些物体的关键点。

图3 LINEMOD数据集中四个物体的关键点。

3.不确定性驱动的PnP

给定每个物体的2D关键点位置，它的六自由度位姿可以通过使用现有的PnP求解器求解。然而，大多求解器忽略了不同的关键点可能有不同的置信度。给定估计的平均值μk和协方差矩阵Σk，通过最小化马氏距离来计算六自由度位姿，

其中Xk为关键点的3D坐标，xk~是xk的二维投影，π是透视投影函数。参数R和t采用基于四个关键点的EPnP初始化。然后，使用Levenberg- Marquardt算法求解(5)。

4.损失函数

其中w为PVNet的参数，vk~为预测向量，vk为真实单位向量。请注意，在测试期间，不需要将预测的向量作为单位，因为后续处理只使用向量的方向。

主要结果

2D Projection metric。计算估计位姿和真实位姿的3D模型点投影之间的平均距离。如果距离小于5个像素，则认为估计的位姿是正确的。

ADD metric。用估计的位姿和真实位姿计算转换后的两个模型点之间的平均距离。当距离小于模型直径的10%时，认为估计的位姿是正确的。对于对称对象，使用ADD-S度量[40]，其中的平均距离是根据最近的点距离计算的。

表1 在Occlusion LINEMOD数据集上消融研究。指标为ADD(-S)，其中glue和eggbox为对称对象。Tekin[36]通过回归检测关键点，而其他配置使用提出的基于投票的关键点定位。BBox 8显示了该方法使用[36]中定义的关键点的结果。Offset8显示了对关键点的偏移量预测结果。FPS K是指由FPS算法产生的K个表面关键点。Un意味着使用不确定性驱动的PnP。在没有Un的配置中，使用EPnP估计姿态。

表2 本文方法和基线方法在Occlusion LINEMOD数据集上的准确性（2D Projection metric）。

表3 根据ADD(-S)，本文方法和基线方法在Occlusion LINEMOD数据集上的准确性，其中glue和eggbox认为是对称对象。

表4 根据2D Projection和ADD(-S)metric，在Truncation LINEMOD数据集上的结果。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

PVNet: 像素级投票网络估计6DoF位姿相关推荐

【深度学习】像素级分割网络新思路之DeepLabv3+
[深度学习]像素级分割网络新思路之DeepLabv3+ 1 版本情况 2 引言&相关工作 3 空洞卷积(Dilated/Atrous Convolution) 4 DeepLabv3+ 5 深 ...
CVPR2020 | 旷视研究院提出PVN3D：基于3D关键点投票网络的单目6DoF位姿估计算法
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14- ...
CVPR2020 | 通过可微的代理投票损失进行6DoF对象位姿估计
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达原文链接:https://arxiv.org/pdf/2002.03923v1.pdf 摘要由于遮挡 ...
Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络连续像素级与估计
仅作学习交流~包含重点翻译,要点归纳,部分扩展论文地址 GitHub - ygjwd12345/TransDepth: Code for Transformers Solve Limited Rec ...
【6Dof位姿估计】DPVL:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解
6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解解决什么问题本文创新点\贡献本文IDEA来源方法方向向 ...
用于高光谱图像分类的像素级和超像素级特征融合的CNN增强图卷积网络
高光谱图像:光谱分辨率在10^-2λ数量级范围内的光谱图像光谱分辨率:是指传感器所能记录的电磁波谱中,某一特定的波长范围值,波长范围值越宽,光谱分辨率越低. 光谱:是复色光经过色散系统(如棱镜.光栅 ...
如何妙笔勾檀妆：像素级语义理解
编者按:在徐凝的<宫中曲>中有这样一句诗,"一日新妆抛旧样",描绘了中唐时期宫中女人换妆的场景,而另一句诗"檀妆唯约数条霞",讲的则是复杂的檀妆其实 ...
针对高分辨率雷达和相机的无标定板的像素级外参自标定方法
介绍:固态激光雷达和相机的外参标定系统摘要这是今年的一篇针对高分辨率的固态激光雷达(非重复性扫描型)或者多线的激光雷达和相机在无标定板的环境中自动化外参标定的一篇文章.本文的方法不需要基于巧克力板 ...
【读点论文】Unified Perceptual Parsing for Scene Understanding 整合学习数据集的关系，用图像级标注完成像素级的事
Unified Perceptual Parsing for Scene Understanding 人类在多个层面上识别视觉世界:人类毫不费力地对场景进行分类,并检测内部的对象,同时还识别对象的纹理 ...

PVNet: 像素级投票网络估计6DoF位姿

PVNet: 像素级投票网络估计6DoF位姿相关推荐

最新文章

热门文章