论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建的点集生成网络, 下文简称PSGN)

论文作者: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)

论文出处: CVPR 2017 (oral)

论文摘要: 解决了由单张图像进行三维重建的问题, 生成了一种直接的输出形式——点云坐标; 设计了新型有效的架构、损失函数和学习范式; 考虑到输入图像的形状真值可能是不确定的, 采用了一个条件形状采样器, 能由一张输入图像预测出多个合理的三维点云. 本文方法不仅能超过目前基于单张图像三维重建的最优方法, 还能做出多种合理预测.

目录

介绍

相关工作

由单张图像进行三维重建

几何物体合成的深度学习

问题抽象

本文方法

点集预测网络

简单版本

双预测分支版本

点集间的距离度量

Chamfer distance (CD)​之间的距离

Earth Mover's distance (EMD)集合大小相等的​之间的距离

形状空间

生成多个合理形状

实验

数据集

由RGB图像重建三维形状(与基于深度学习的三维物体重建最优方法3D-R2N2的对比)

额外信息的补充

多种合理形状预测

网络设计分析

双预测分支对重建的作用

距离度量分析(损失函数的选择)

对真实世界数据的应用结果


介绍

目前面临的表示的问题: 目前信号领域用于判别、生成学习的现有深度网络结构适合如图像、音频、视频这样规律的采样数据, 而常见的如二维网格、点云这样的三维几何表示并不是规则的结构, 所以大多数现有工作所采用的如体积网格、几何体的二维视图集合这样的常规表示会导致采样分辨率和效率之间难以权衡, 包含了量化伪影, 掩盖三维形状在几何变换下的自然不变性.

点云表示的特点: 和使用几何基元的CAD模型/简单网格相比, 点云虽然在表示基础连续三维几何体时没那么有效, 但点云是一种简单、统一的结构, 其优势在于: ①更易于学习(无需编码多个基元/组合连接模式); ②当几何变换变形时点云能简单调整(连接性无需更新)

通过推断由输入图像和由此推断出的视点位置所确定的三维点的位置, 由单张图像能够重建出整个物体的三维点云, 每个点被可视化为一个小球, 沿方位角0°和90°两个视点的重建结果

非传统的网络输出的挑战: 由于相同的几何形状在相同的近似程度下可能接受不同的点云表示, 因此需要考虑如何在训练时度量损失. 本文使用基于EMD的解决方案. 为了解决从单张图像恢复出三维结构的不良问题, 网络需要去估计图像中几何体可见部分的深度, 对几何体的不可见部分进行假定, 并评估不同假定的可信度. 由于某些视角中固有的物体不确定性, 一张二维图像会产生多个同样好的三维重建, 因此不同于真值唯一的经典回归/分类问题, 损失的定义尤为重要.

本文贡献: 本文最终采用一个条件采样器, 从给定的一张输入图像的真值空间中选择可信点云. ①用深度学习技术解决点集生成问题; ②在单张图像三维重建任务上达到最优; ③系统地探讨网络的架构、损失函数设计问题; ④讨论解决单张图像三维重建中真值不确定的问题

相关工作

由单张图像进行三维重建

现存问题: 不能稳健地由单张图像重建出完整的高质量形状, 必须引入先验

对形状/环境照明条件作假设——

①B. K. Horn. Obtaining shape from shading information. In Shape from shading, pages 123–171. MIT press, 1989.

②J. Aloimonos. Shape from texture. Biological cybernetics, 58(5):345–360, 1988.

开创了将基于学习的方法用于简单几何结构——

①D. Hoiem, A. A. Efros, and M. Hebert. Automatic photo pop-up. ACM transactions on graphics (TOG), 24(3):577–584, 2005.

②A. Saxena, M. Sun, and A. Y. Ng. Make3d: Learning 3d scene structure from a single still image. IEEE transactions on pattern analysis and machine intelligence, 31(5):824– 840, 2009.

图像集合当中的粗略对应关系也可以用于三维形状估计——

①A. Kar, S. Tulsiani, J. Carreira, and J. Malik. Category-specific object reconstruction from a single image. In CVPR, 2015.

②J. Carreira, S. Vicente, L. Agapito, and J. Batista. Lifting object detection datasets into 3d. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(7):1342– 1355, 2016.

建立RGBD数据集用于训练基于学习的系统——

①D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In Advances in neural information processing systems, pages 2366–2374, 2014.

②D. F. Fouhey, A. Gupta, and M. Hebert. Data-driven 3D primitives for single image understanding. In ICCV, 2013.

提出将已有的形状变形重组成新模型来适应观察到的图像, 但这依赖于高质量的图像-形状对应——

①H. Su, Q. Huang, N. J. Mitra, Y. Li, and L. Guibas. Estimating image depth using shape collections. ACM Transactions on Graphics (TOG), 33(4):37, 2014.

②Q. Huang, H. Wang, and V. Koltun. Single-view reconstruction via joint analysis of image and shape collections. ACM Transactions on Graphics (TOG), 34(4):87, 2015.

与本文最相关的工作C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. (后文简称3D-R2N2)给定单张图像利用神经网络预测基本三维物体为三维体素, 不同点在于①3D-R2N2是体素表示, 而本文是点云: 点集为神经网络形成更好的形状空间, 预测出的形状更加完整自然; ②由于单张图像并不能完全确定三维形状的重建, 本文允许单个输入图像有多个重建候选

几何物体合成的深度学习

点集包含来自度量空间的无序样本, 等价的类别被定义为一个排列, 必须考虑地面距离, 而此前深度学习系统不具备此类预测能力

问题抽象

目标: 由单张二维图像(RGB/RGB-D)重建出物体的完整三维形状

表示形式: 无序点集, 其中N=1024足以保留大多数物体的大致结构. 点集只需要对物体表面的点进行编码, 较为高效, 当物体旋转缩放时点的坐标值经简单线性变化即可.

将真值定义为一个以输入I为条件的概率分布, 训练神经网络G作为从该分布中取样的条件采样器, 其中是网络参数,r是服从 的随机变量作为扰动输入.

本文方法

点集预测网络

简单版本(上); 双预测分支版本(下)

简单版本

编码阶段: 编码器由卷积层和ReLU层组成, 将输入图像I和随机向量r映射到嵌入空间中

预测阶段: 预测器通过全连接网络, 输出N行3列的矩阵M, 其中每行是一个点的坐标, 共N个点

双预测分支版本

更好适应自然物体中常见的大而光滑的表面, 不同于全连接每个点独立预测的方式, 改进预测器的版本包含两个平行预测器分支

FC分支: 同简单版本一样预测个点, 灵活度高, 能更好地描述复杂结构

deconv分支: 得到一张H*W*3通道的图像, 其中每个像素的3个通道值是一个点的坐标, 由此给出剩下的H*W个点, 而后会被合并形成矩阵M整个点集, 采用了跳跃连接, 权重共享简洁了参数, 空间连续性使其更能适应于大的光滑表面

点集间的距离度量

损失函数应满足: ①对应于点的坐标可微;②高效计算; ③对少量的离群点具有鲁棒性(即适用于稀疏点集)

Chamfer distance (CD)之间的距离

对每个点, CD算法找到另一个集合中最近的点并将距离平方相加. CD是连续且分段平滑的, 可并行, 如KD-tree这样的空间数据结构可用来加速最近邻搜索.

Earth Mover's distance (EMD)集合大小相等的之间的距离

, 其中是一个双向映射

EMD在各处是可微的, 为减轻计算, 本文使用了由D. P. Bertsekas. A distributed asynchronous relaxation algorithm for the assignment problem. In Decision and Control, 1985 24th IEEE Conference on, pages 1703–1704. IEEE, 1985.给出的近似方案.

形状空间

神经网络在预测物体精确几何形状时不可避免地会有不确定性, 可能源于: 有限的网络容量; 输入分辨率使用不足; 三维-二维投影中因信息丢失导致的真值不确定. 面对无法精确解析形状这一固有缺陷, 神经网络会预测不确定空间的一个平均形状.

EMD和CD对形状的平均行为
a,b存在连续变化的隐藏变量(a中的圆的半径和b中的弧的位置), EMD大致捕捉到隐藏变量均值的对应形状; CD则产生了飞溅形状模糊了形状的几何结构
c,d存在分类隐藏变量(c中方状四角和d中条形旁边是否有圆), CD将主体外的一些点分布在了正确位置; EMD则严重扭曲了形状

生成多个合理形状

对于单张图像重建的不确定性, 不确定性建模方法MoN (min of N)损失:

, 给定一张图像, 真值点集, 网络G通过n个不同扰动项进行n次预测 (n=2便足够)

实验

数据集

从ShapeNet数据集的带有纹理的三维物体CAD模型渲染二维视图, 本文使用了涵盖2000个类别的220,000个模型作为训练数据. 对于每个模型, 半球体的半径归一化为单位1并和地面对齐. 根据Blinn-Phong着色公式和随机选择的环境图, 渲染成二维图像. 为了节省计算, 使用简单的局部照明模型.

由RGB图像重建三维形状(与基于深度学习的三维物体重建最优方法3D-R2N2的对比)

与3D-R2N2的视觉对比, 本文方法能更好保留物体细节

与3D-R2N2的定量对比(其中更低的数值表示更小的错误率)

与3D-R2N2的按类别对比(IoU), 总共13类中有8类采用本文方法的单视图预测要比3D-R2N2的五视图预测效果还要好

额外信息的补充

输入RGBD图像的系统可被视为一个三维形状完成方法, 神经网络能够成功猜测出模型的缺失部分, 这通过使用在物体仓库中含有的形状先验, 系统能够利用对称(比如飞机有对称的一侧)或者功能(比如拖拉机要有轮子). 点集表示的灵活性有助于物体一般形状拓扑

多种合理形状预测

本文网络的随机性使得同一张输入图像能够有不同形状预测. 输入RGB图像, 训练使用Mo2/VAE来处理随机性

网络设计分析

双预测分支对重建的作用

简单版本网络和双预测分支版本网络的对比, 双预测分支版本网络的错误率用CD和EMD度量均更低

x、y、z通道值的二维图像: deconv分支网络学习使用卷积结构构造, 呈现出围绕物体弯曲的二维曲面; FC分支由于通道无序, 输出的组织性差

蓝色表示deconv分支预测结果: 其对物体的主体捕捉较好; 红色表示FC分支预测结果: 其对物体细节部分予以补充. 两个分支具有互补性

距离度量分析(损失函数的选择)

左侧蓝色表示采用CD训练网络的结果: 其倾向于在不确定部分(如门后)分散一些点, 但能更好地捕捉细节形状(如枪把); 右侧绿色表示采用EMD训练网络的结果: 其结果更紧凑, 但会过度收缩局部结构

对真实世界数据的应用结果

【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image相关推荐

  1. 《A Point Set Generation Network for 3D Object Reconstruction from a Single Image》论文笔记_2D图像生成3D点云

    摘要 通过深度神经网络生成3D数据已在研究界引起了越来越多的关注. 现存的大多数作品都采用常规表示法,例如体积网格或图像收集: 但是,这些表示法掩盖了3D形状在几何变换下的自然不变性,并且还遭受许多其 ...

  2. 【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

    最近在看3d目标检测的文章,感觉看完东西还是要记一下自己的想法,尤其是有思考的文章. 论文题目:Point-GNN: Graph Neural Network for 3D Object Detect ...

  3. 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...

  4. 论文阅读KMN:Kernelized Memory Network for Video Object Segmentation

    这篇论文发表在ECCV2020上面,是对于STM的改进.STM存在一个缺点,就是在做query和memory的key之间的matching时,将所有的情况都建立了联系,这种处理是一种non-local ...

  5. 论文阅读笔记:(2021.06, cvpr) Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

    这是一篇发表在了cvpr 2021上,能够在线估计外参的单目3D目标检测算法,借鉴了visual odometry和style transfer的方法,效果好, 速度快(~30ms), 意料之外,情理 ...

  6. 论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection

    论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...

  7. 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》

    是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...

  8. 论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift

    论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift 全文翻译 ...

  9. 论文阅读(3):Image-Based 3D Object Reconstruction:State-of-the-Art and Trends in the Deep Learning Era

    论文标题:Image-Based 3D Object Reconstruction:State-of-the-Art and Trends in the Deep Learning Era 论文类型: ...

最新文章

  1. SAP SD之如何配置发票分割开票
  2. Linux C编程--main函数参数解析
  3. Excel批量转为Html,Html转换成Excel
  4. 5行代码解决——L1-042 日期格式化 (5分)
  5. 网址由http转换成https
  6. 如何使用Hibernate将PostgreSQL枚举映射到JPA实体属性
  7. 怎么查询局域网内全部电脑IP和mac地址..
  8. 你的adonis用对了吗?不同因素的顺序竟然对结果有很大影响
  9. swap函数_C++ vector成员函数实现[持续更新]
  10. spring boot 注解
  11. php将权限写入session,PHP由session文件夹权限不够引起的报错
  12. 数组重组java,重组数组数组并组合相同的术语
  13. 老人为啥怒砸30辆车
  14. 微信Java SDK开发文档
  15. 语音识别 特征提取(一)
  16. 紫罗兰永恒花园rust简谱_Letter《紫罗兰永恒花园》4.5话ED 简谱
  17. 淘宝店铺订单同步及获取解决方案
  18. 99乘法口诀表用for循环
  19. centos8上实现私有CA和证书申请颁发
  20. 步步为营Hibernate全攻略(三)剪不断理还乱之:多对多关联映射

热门文章

  1. java基于springboot+vue+nodejs的高校学生健康档案管理系统 element
  2. 全国网络游戏点卡招商
  3. css-样式 transform旋转效果
  4. 06.15 iptables防火墙
  5. 面向云计算的数据中心网络体系结构设计
  6. 【linux内核分析与应用-陈莉君】动手实践-编写一个文件系统
  7. 城市大脑建设的3个误区,大脑模型的分歧是关键
  8. 安装php时丢失140文件,msvcp140.dll丢失的解决方法是什么
  9. 5G NR QC-LDPC简介(一)
  10. Java开源OA系统 J.Office