FFB6D A Full Flow Bidirectional Fusion Network for 6D Pose EstimationFFB6D 6D 姿势估计的全流双向融合网络
文章目录
- 摘要
- 解决问题
- 贡献
- 方法
- LOSS
3D-3D对应
摘要
在这项工作中,我们提出了 FFB6D,这是一种全流双向融合网络,专为从单个 RGBD 图像进行 6D 姿态估计而设计。我们的主要见解是 RGB 图像中的外观信息和深度图像中的几何信息是两个互补的数据源,如何充分利用它们仍然未知。为此,我们提出了 FFB6D,它学习结合外观和几何信息进行表示学习以及输出表示选择。具体来说,在表示学习阶段,我们在两个网络的全流程中构建双向融合模块,将融合应用于每个编码和解码层。通过这种方式,两个网络可以利用来自另一个网络的局部和全局互补信息来获得更好的表示。此外,在输出表示阶段,我们设计了一个简单但有效的 3D 关键点选择算法,考虑了物体的纹理和几何信息,简化了关键点定位,以实现精确的姿态估计。
解决问题
- 作者认为先在RGB图像出估计初始位姿,再通过点云ICP(Posecnn)或multi-view hypothesis verification来优化非常耗时,而且使用不了端到端的RGB图像优化。
- 将RGB和点云分割开在某些情况下性能不佳(由于外观特征和几何特征是分开提取的,这两个网络无法通信和共享信息,从而限制了学习表示的表达能力。),比如具有相似外观或具有反射表面的物体,孤立的CNN和PCN对这种情况都识别不出太好的结果,但是融合方法应该1+1>2,而不是1+1=2。
贡献
- FFB6D网络
- 一些选定的关键点可能出现在不明显的区域,如光滑的表面,没有独特的纹理,因此很难定位。相反,我们将对象纹理和几何信息都考虑在内,并提出SIFT-FPS算法用于自动选择3D关键点。以这种方式过滤的显著关键点更易于网络定位,并有助于姿势估计性能。
方法
FFB6D的主干。利用CNN和点云网络分别对RGB图像和点云进行表示学习。在两个网络的流程中,添加了双向融合模块作为通信桥。然后将提取的逐点特征输入实例语义分割和3D关键点投票模块,以获得逐对象3D关键点。最后,利用最小二乘拟合算法恢复姿态。
密集双向融合模块。
(1) 像素到点融合模块将RGB特征融合到点云特征。对于每个点,我们在XYZ地图中找到其Kr2pK_{r2p}Kr2p最近的邻居,并从RGB特征地图中收集其相应的外观特征。然后,通过最大池和共享MLP处理这些功能,以获得最重要的外观功能。最后,共享的MLP融合外观特征和几何特征的串联,以获得融合的点特征。
(2) 点对像素融合模块与点对点融合模块类似地获得融合像素特征
PVN3D中3D关键点选取方法的缺点
由于该算法仅考虑欧氏距离,因此选定的点可能出现在非显著区域,例如没有明显纹理的平面。这些点很难检测,估计姿态的精度降低。为了充分利用物体的纹理和几何信息,
我们提出了一种简单而有效的3D关键点选择算法SIFT-FPS。具体来说,我们使用SIFT算法检测纹理图像中不同的2D关键点,然后将其提升到3D。然后应用FPS算法选择其中的前N个关键点。这样,选定的关键点不仅均匀分布在对象表面上,而且纹理独特,易于检测。
LOSS
- pi∗:是世界坐标下的3D关键点;p_i^*:是世界坐标下的3D关键点;pi∗:是世界坐标下的3D关键点;
- p是相机坐标系下的3D关键点;p是相机坐标系下的3D关键点;p是相机坐标系下的3D关键点;
FFB6D A Full Flow Bidirectional Fusion Network for 6D Pose EstimationFFB6D 6D 姿势估计的全流双向融合网络相关推荐
- 【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images
[读论文]RFN-Nest: An end-to-end residual fusion network for infrared and visible images 介绍 关键词 简单介绍 网络结 ...
- 【边缘检测】BDCN:Bi-Directional Cascade Network for Perceptual Edge Detection
CVPR 2019 Bi-Directional Cascade Network for Perceptual Edge Detection github链接:https://github.com/p ...
- 【论文笔记】Hierarchical Paired Channel Fusion Network for Street Scene Change Detection
论文 论文题目:Hierarchical Paired Channel Fusion Network for Street Scene Change Detection 收录:IEEE Transac ...
- Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition
Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition 基于层次注意的视频情感识别多模 ...
- MMFNet: A Multi-modality MRI Fusion Network for Segmentation of Nasopharyngeal Carcinoma
MMFNet: A Multi-modality MRI Fusion Network for Segmentation of Nasopharyngeal Carcinoma MMFNet:一种用于 ...
- Robust semantic segmentation by dense fusion network on blurred vhr remote sensing images
Robust semantic segmentation by dense fusion network on blurred vhr remote sensing images 说明se的设计还是很 ...
- 论文笔记——C2FNet:Context-aware Cross-level Fusion Network for Camouflaged Object Detection
Context-aware Cross-level Fusion Network for Camouflaged Object Detection 论文地址:https://arxiv.org/pdf/ ...
- Multi-Stage Feature Fusion Network for Video Super-Resolution阅读笔记
Multi-Stage Feature Fusion Network for Video Super-Resolution 用于视频超分辨率的多级特征融合网络 论文:Multi-Stage Featu ...
- 论文阅读【Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network】
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network 概述 发表:ICCV 20 ...
最新文章
- ToString()、Convert.ToString()、(string)、as string 的区别
- Zookeeper-watcher机制源码分析(二)
- 深度学总结:CNN Decoder, Upsampling的处理
- 实战:网店活动付邮试用全攻略
- Linux C语言结构体
- java 线程强制停止线程_java多线程之停止线程
- 产品经理为什么越来越不值钱?不懂数据,只能尴尬退场
- Core Java-多线程-线程的生命周期
- 通过代码设置radiobutton不同方位图标的两种方法
- Excel文件导入mysql数据库
- 20172327 2017-2018-2 《程序设计与数据结构》第九周学习总结
- 特征向量的线性无关性
- ftp扫描工具下载,ftp扫描下载工具到底该怎么选择?
- python怎样批量修改文件大小_使用python对文件夹下的照片进行批量修改尺寸
- 皇后游戏c语言,C语言中关于4皇后或8皇后问题!
- Deepgreen/Greenplum删除节点步骤
- 更改计算机浏览视图,来,一起认识查看、编辑幻灯片时不同的视图方式—想象力电脑应用...
- 【解决Hibernate异常 identifier of an instance of xxx(实体类) was altered from xxx to xxxPK】
- SLAM导航机器人零基础实战系列:(五)树莓派3开发环境搭建——2.安装ros-kinetic
- WMS、WFS、WMTS、TMS