点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

导  读

本文是计算机视觉领域顶级会议 ICCV入选论文《基于点云的类级别刚体与带关节物体位姿追踪(CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds)》的解读。该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。

项目主页:https://yijiaweng.github.io/CAPTRA/

论文地址:https://arxiv.org/abs/2104.03437

01

引   言

物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物体进行九自由度的位姿估计,即估计物体的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实物体。[2] 进一步将对刚性物体的位姿估计拓展到带关节物体(如笔记本电脑、抽屉、眼镜)上,为理解和模仿人类与带关节物体之间的复杂互动奠定了基础。

目前,大部分类级别物体位姿估计的工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑的物体位姿追踪,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。我们提出了首个可以同时应用于刚性物体和带关节物体,运行在类级别场景下的九自由度位姿追踪框架。给定当前帧的深度点云与上一帧的物体位姿估计,本文提出的框架能通过端到端的训练,准确地更新位姿估计,在估计准确率与运行速度上都超过了已有的最好方法。

02

方法简介

图1. 类级别物体位姿追踪任务

如上图,给定包含实例  的实时深度点云流  ,其逐部件初始位姿估计  ,我们希望在线地追踪其各部件位姿  。具体来说,我们逐帧进行位姿估计,在  帧,基于第  帧的各部件位姿估计  与第  帧的深度点云观测  ,估计第  帧的各部件位姿  。

仿照[1],我们将九自由度位姿  进一步分解为七自由度相似变换  与三维长宽高比例  ,以下主要讨论  的估计,细节请参见论文。

位姿估计存在两类主流方法,基于坐标预测的方法首先为观测点预测其对应物体点在归一化物体坐标系中的坐标,利用观察坐标与归一化物体坐标之间的对应关系,使用 RANSAC 拟合物体位姿,得益于 RANSAC 对离群点的有效移除,该方法通常能获得更为准确与鲁棒的预测,但 RANSAC 算法中的假设采样较为耗时,其过程也不可微,无法直接针对位姿进行优化;基于位姿回归的方法进行端到端可微的直接预测,能够达到很高的运行速度,但容易产生更大的预测误差。我们希望结合两类方法的优势,建立一个端到端可微、精度与速度兼备的位姿追踪系统。

如下图所示,我们的模型由位姿正规化(Pose Canonicalization)、旋转回归网络(RotationNet)与坐标预测网络(CoordinateNet)组成。

图2. 我们的位姿追踪框架

位姿正规化(Pose Canonicalization)

为了简化将输入点云坐标  映射到输出相似变换  的学习问题,我们将前一帧位姿估计  的逆变换与输入点云  相乘,得到位姿正规化点云  作为模型输入,令模型输出  中部件  的位姿  ,再间接计算  。

由时序连续性,可以推出  ,这意味着  中部件  总是接近正规位姿(canonical pose),  接近恒等变换,原问题的输入与输出被同时正规化,从而大大降低了网络预测位姿的难度。

旋转回归网络(RotationNet)

以位姿正规化的点云  为输入,我们训练旋转回归网络,直接对  进行回归,再计算原始旋转  总在恒等变换附近,直接回归就能实现准确估计。

坐标预测网络(CoordinateNet)

由于点云  不完整,存在平移与尺寸上的歧义(举例来说,当一支铅笔的一端被遮住时,铅笔的长度无法确定,其中心的平移也无法确定),直接回归  和  仍然很困难。我们转而训练坐标预测网络,从  预测部件在归一化坐标系下的坐标  ,这一稠密的预测目标要求网络能捕捉到类级别的物体几何先验知识,包含了更为准确的有关物体平移、物体尺寸的信息。

基于归一化坐标  与原始点云  的对应关系与旋转回归网络的预测  ,我们解析地计算物体的平移与尺寸。在位姿正规化模块的帮助下,我们预测的  相当准确,无需 RANSAC 就能达到高精度的位姿估计,从而实现一个快速、端到端可微,能直接以 9DoF 位姿准确度为优化目标的计算框架。

03

结果展示

我们的方法在类级别刚性物体位姿估计数据集 NOCS-REAL275 [1]、基于 SAPIEN [3] 的类级别带关节物体位姿估计数据集、BMVC [4] 上均超过了已有方法,以下展示部分定性结果,详细实验设定与定量结果请参见论文。

刚性物体位姿追踪

我们在 NOCS-REAL275 真实世界数据集上与类级别刚性物体追踪算法 6-PACK 进行比较,使用三维包围盒表示九自由度位姿估计,绿色表示追踪误差≤5º5cm,红色表示追踪误差>5º5cm。我们产生的追踪结果更加准确。

图3. NOCS-REAL275上的类级别刚性物体位姿追踪

带关节物体位姿追踪

由于没有现成的类级别带关节物体位姿追踪数据集,我们基于 SAPIEN [3] 生成了一个合成数据集,并在其上对比我们的方法与类级别带关节物体位姿估计算法 ANCSH [2]。我们的追踪结果更加准确、平滑,对自遮挡更加鲁棒。

图4. SAPIEN合成数据集上的类级别带关节物体位姿追踪

我们进一步在真实世界的带关节物体数据上测试我们的模型。在 BMVC [4] 数据集的笔记本电脑序列、我们采集的剪刀序列、机械臂操纵抽屉序列上,我们仅在合成数据上训练的模型均能成功泛化,达到对物体的准确追踪。

图5. 左:BMVC数据集中的笔记本电脑序列;右:我们采集的剪刀序列

图6. 机械臂操纵抽屉序列

04

结   语

本文提出了一个端到端可微的位姿追踪框架,能同时处理类级别刚性物体与带关节物体九自由度位姿追踪问题,在多个数据集上达到了 SOTA 效果。未来可能的研究方向包括对关节限制的进一步利用,向部件个数不固定、部件连接关系不固定的带关节物体类别拓展等。

参考文献

[1] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, and Leonidas J Guibas. Normalized object coordinate space for category-level 6D object pose and size estimation. CVPR 2019.

[2] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. CVPR 2020.

[3] Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, and Hao Su. SAPIEN: A simulated part-based interactive environment. CVPR 2020.

[4] Frank Michel, Alexander Krull, Eric Brachmann, Michael Ying Yang, Stefan Gumhold, and Carsten Rother. Pose estimation of kinematic chain instances via object coordinate regression. BMVC 2015.

ICCV

IEEE International Conference on Computer Vision(IEEE ICCV),即国际计算机视觉大会,是计算机视觉领域国际顶级会议(CCF A类),与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。ICCV在世界范围内每两年召开一次,ICCV 2021将于2021年10月11-17日在线举行。

图文 | 翁伊嘉

Visual Computing and Learning (VCL)

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

ICCV 2021 Oral | 基于点云的类级别刚体与带关节物体位姿追踪相关推荐

  1. ICCV 2021 oral 重构+预测,双管齐下提升视频异常检测性能

    关注公众号,发现CV技术之美 本文分享 ICCV 2021 oral 论文『A Hybrid Video Anomaly Detection Framework via Memory-Augmente ...

  2. ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers

    ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers 论文:https://arxiv.org/abs/2104.06 ...

  3. ICCV 2021 Oral | 清华提出PoinTr:几何敏感的点云补全Transformer

    本文转载自:AI科技评论 作者 | 于旭敏    编辑 | 王晔 我们提出了一种几何敏感的点云补全Transformer,通过将点云表示成为一组无序的点代理,并采用Transformer的Encode ...

  4. ICCV 2021 Oral | Paint Transformer - 基于笔触预测的快速油画渲染算法

    这篇专栏主要介绍我们团队(百度视觉技术部视频理解与编辑组)发表于ICCV 2021上的Oral工作:"Paint Transformer: Feed Forward Neural Paint ...

  5. ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法

    作者丨月明星稀风萧萧@知乎 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...

  6. ICCV 2021 Oral | 重新思考人群计数和定位:一个纯粹基于点的框架

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:CV技术指南 Rethinking Counting and Localization in Cro ...

  7. ICCV 2021 Oral | NerfingMVS:引导优化神经辐射场实现室内多视角三维重建

    作者丨韦祎@知乎 来源丨https://zhuanlan.zhihu.com/p/407123751 编辑丨CVer 本文是对我们ICCV 2021被接收的文章NerfingMVS: Guided O ...

  8. ICCV 2021 Oral | AdaFocus:利用空间冗余性实现高效视频识别

    ©原创 · 作者 | 王语霖 单位 | 清华大学自动化系 研究方向 | 机器学习.计算机视觉 本文主要介绍我们被 ICCV 2021 会议录用为 Oral Presentation 的一篇文章:Ada ...

  9. ICCV 2021 Oral | Transformer再下一城!百度南大提出神经绘画网络:Paint Transformer

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 杨净 发自 凹非寺 转载自:量子位(QbitAI) AI已经能教你画油画了. 随便给一张图,笔画序列秒秒钟呈 ...

最新文章

  1. 安装Windows Vista
  2. 使用字符串解析的方式完成计算器的设计思路
  3. 基于Bresenham和DDA算法画线段
  4. java实现两台计算机的互联,如何用Java语言实现两台计算机之间的文件传输?
  5. STM32学习笔记(十) CAN通讯测试(环回模式)
  6. 十二、I/O复用介绍
  7. 矩阵计算 动手学深度学习 pytorch
  8. java如何实现识别图片上的文字
  9. sql left()函数
  10. 2010年软件业十大新闻事件
  11. python爬虫:案例二:携程网酒店价格信息
  12. 如何提高仓库操作管理效率?
  13. 20个免费的网络电话
  14. ,片片鳞甲都烁烁生辉
  15. linux中的head 显示文件头部内容、tail 输出文件尾部内容
  16. H5页面新增二维码、条形码扫描识别功能
  17. ssm学生综合素质评价系统
  18. stockx使用虚拟信用卡下单测试教程
  19. TIOBE 8 月编程语言排行榜:没有一门语言能比得上 Python
  20. 孟岩:算力是新数字经济的支点,去中心化网络资产规模将达10万亿美元

热门文章

  1. IBM小型机+Oracle数据库+EMC存储设备,IOE简介
  2. LVS负载均衡群集架构(二):DR模式群集部署+keepalived
  3. (转)我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!
  4. 操作系统 #考研操作系统基础理论
  5. 亚信离职后,彻底卸载亚信安全助手
  6. 推荐3dMax三维设计十大插件
  7. 微信聊天记录制作词云图
  8. QQ浏览器HD的动态化方案QBDF的总体架构设计(2)【简书被冻结-搬运】
  9. python炸裂操作函数explode
  10. cifar-100数据集转成图片格式