点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

简介

作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体。通过学习用少量的3D关键点来简洁地表示一个物体,基于这些关键点,通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。实验表明该方法显著优于现有方法,并支持机器人执行简单的基于视觉的闭环操作任务。

问题的提出

在机器人抓取任务中,实时跟踪物体6D位姿的能力影响抓取任务的实施。现有的6D跟踪方法大部分是基于物体的三维模型进行的,有较高的准确性和鲁棒性。然而在现实环境中,很难获得物体的三维模型,所以作者提出开发一种类别级模型,能够跟踪特定类别从未见过的物体。

创新点

1、这种方法不需要已知物体的三维模型。相反,它通过新的anchor机制,类似于2D对象检测中使用的proposals方法,来避免定义和估计绝对6D位姿。2、这些anchor为生成3D关键点提供了基础。与以往需要手动标注关键点的方法不同,提出了一种无监督学习方法,该方法可以发现最优的3D关键点集进行跟踪。3、这些关键点用于简洁的表示物体,可以有效地估计相邻两帧之间位姿的差异。这种基于关键点的表示方法可以实现鲁棒的实时6D姿态跟踪。

核心思想

作者提出的模型使用RGB-D图像,基于之前位姿周围采样的anchors(红点),来鲁棒地检测和跟踪一组基于3D类别的关键点(黄色)。然后利用连续两帧中预测的关键点,通过最小二乘优化求解点集对齐的问题,计算出6D物体的位姿变化:

问题的定义

将类别级物体6D位姿跟踪定义为:物体在连续时间t−1和t之间的位姿变化问题。初始位姿是针对相同类别的所有目标物体定义的标准框架相对于相机框架的平移和旋转。例如,对于类别“相机”,将框架放置在物体的质心处,x轴指向相机物镜的方向,y轴指向上方。将3D关键点定义为:在整个时间序列中几何和语义上一致的点。给定两个连续的输入帧,需要从两帧中预测匹配的关键点列表。基于刚体假设的基础,利用最小二乘优化来解决点集对齐问题,从而得到位姿的变化∆p。

模型

首先在预测物体实例的周围剪裁一个放大的体积,将其归一化为一个单元;在体积块上生成anchor网格;之后使用DenseFusion计算M个点的几何与颜色融合特征;根据距离将它们平均池化成N个anchor特征;注意力机制网络使用anchor特征来选择最接近质心的点;用质心生成一组有序的关键点。将这种关键点生成方法应用在前一帧和当前帧,得到两组有序的关键点来计算帧间的位姿变化。6-PACK算法在预测位姿周围生成anchor网格的过程中使用了注意力机制。每个点用RGB-D点单独特征的距离加权和来表示体积。使用anchor信息在新的RGB-D框架中找到物体的粗略质心,并指导对其周围关键点的后续搜索,这比在无约束的三维空间中搜索关键点效率更高。

实验与结果

作者采用的数据集是NOCS-REAL275,包含六个类别。通过对比三个模型的baseline来评估作者的方法。NOCS:类别级物体6D位姿估计sota。ICP:Open3D中中实现的标准点对面ICP算法。KeypointNet:直接在三维空间中生成3D关键点。1)6-PACK指标5°/5cm比NOCS高出15%以上,指标IoU25高出12%。说明与使用所有输入像素作为关键点的NOCS相比,6-PACK能够检测出最适合类别级6D跟踪的3D关键点。实验结果如下图所示:其中,前两列为NOCS和6-PACK的定性对比,后两列为关键点匹配的结果。2)6-PACK所有指标都优于KeypointNet,KeypointNet经常跟丢。作者的方法避免了丢失物体的轨迹(IoU25>94%),基于anchor的注意力机制提高了整体的跟踪性能。3)为了检验不同方法的鲁棒性和稳定性,作者计算了没有前x帧的平均性能。这样就能测量出初始位姿对性能的影响(接近初始位姿的帧很容易跟踪)。如下图,除了NOCS之外,所有方法的性能都有所下降,因为NOCS是位姿估计方法,而不是位姿跟踪方法。在整个过程中,6-PACK的性能比NOCS高出10%以上,并在初始帧100后停止下降。4)作者在机器人上进行了实时测试,超过60%的试验中,成功地跟踪了目标(目标在可视范围内),而没有丢失。

论文地址:https://arxiv.org/abs/1910.10750v1

代码链接:https://sites.google.com/view/6PACKtracking

上述内容,如有侵犯版权,请联系作者,会自行删文。

推荐阅读:

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总(下)

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法那些年,我们一起刷过的计算机视觉比赛总结|深度学习实现缺陷检测深度学习在3-D环境重建中的应用汇总|医学图像分析领域论文大盘点|OCR算法汇总

重磅!3DCVer-知识星球和学术交流群已成立

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导,550+的星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加群或投稿

传统的6d位姿估计fangfa1_李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪...相关推荐

  1. 李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...

  2. 李飞飞团队最新论文:如何对图像中的实体精准“配对”?

    编译 | 费棋 出品 | AI科技大本营(公众号ID:rgznai100) [导语]近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Referring Relat ...

  3. 李飞飞团队最新论文:如何对图像中的实体精准“配对”?(附代码论文)

    来源:AI科技大本营(公众号ID:rgznai100) 编译:费棋 本文共5749字,建议阅读10分钟. 近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Refe ...

  4. 李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述

    Root 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI 一个设计师拿到简(mo)单(hu)需求的日常. 帮我做个海报吧. 我要个浪漫的场景,两个人在海边走,有日落,海浪,远山那种.  ...

  5. 李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 整理:公众号@量子位 本文仅做学术分享,如有侵权,请联系删除. 现在,细微到物体表面的纹理,AI都可以 ...

  6. 李飞飞团队CVPR论文:让AI识别语义空间关系(附论文、实现代码)

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文共1000字,建议阅读5分钟. 斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研究"指称关系&q ...

  7. 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险

    自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...

  8. 这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 保安,保安!抓住那个砸玻璃的人! 对于人类保安来说,理解这个指令是自然而然毫无难度的事.但机器就不一样了:它们能从画面中认出人人人人人,但究 ...

  9. 盘点类别级物体6D位姿估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 学习3D视觉核心技术,扫描查看介绍,3天内无条件退款 圈里有高质量教程资料.可答疑解惑.助你高效解决问 ...

最新文章

  1. exit语句php,php or die() 语句,exit()
  2. linux 提权一文通
  3. 智能车s3010舵机工作电压_全国大学生智能车竞赛决战南京信息工程大学
  4. Python爬虫必备技能,Xpath提取数据规格详解
  5. 蚂蚁区块链在司法存证领域的探索与实践
  6. Git常用的步骤和命令
  7. 杜拉拉升职记摘录:早日实现退休理想--你需要眼光和资格
  8. 用计算机破解vivo手机数字密码,vivo手机咋样在电脑上解锁?看vivoy66解锁密码找答案。...
  9. 2018-《此生未完成》于娟
  10. 【iOS开发】从小白到低水平开发者进厂实习自救指南
  11. 【原创】如何用mac撰写LaTex论文
  12. NYOJ 71 独木舟上的旅行
  13. 创意美观的思维导图模板分享
  14. Autodesk 3ds Max 2023安装图文教程
  15. flask-sqlalchemy一对多 知了传课 flask web全栈开发实战 黄勇
  16. Python:模拟邮箱登陆
  17. SpringBoot文件下载
  18. 金融时间序列分析——学习金融时间序列之间的时序关系
  19. 栅极驱动器中的电荷泵---BLDC和H桥预驱IC中的电荷泵
  20. 最佳电子表格应用程序

热门文章

  1. 注册docker hub账号
  2. SpringBoot2整合Activiti6工作流框架
  3. 系统架构设计师 - 信息安全技术
  4. mysql查询包含字符串(模糊查询)
  5. 我的特长是计算机VF编程,2016计算机二级考试VF模拟题及答案
  6. mysql图片字符集_MySQL字符集介绍及配置
  7. mysql csdn 知乎_CSDN 怎么样?
  8. (作者:无名`)svn提交代码到本地仓库
  9. linux桌面发展方向,观点|Linux 桌面的发展之路!
  10. 学校计算机 电教材料账册,电教室管理制度