点击我爱计算机视觉标星,更快获取CVML新技术


导读

本文是计算机视觉领域顶级会议 CVPR 2020 入选论文《PQ-NET:序列化的三维形状生成网络(PQ-NET: A Generative Part Seq2Seq Network for 3D Shapes)》的解读。

论文地址:https://arxiv.org/abs/1911.10949

代码库:https://github.com/ChrisWu1997/PQ-NET

引言

三维形状物体的生成是计算机图形学和计算机视觉领域的一个重要问题。图形学关注三维物体的建模,而计算机视觉关注如何推断,如从单张图片的输入,对应三维物体的形状。近年来,很多工作开始使用深度神经网络结合不同的三维表达方式来实现三维形状的生成,如体素(voxel),点云(point clouds),三角网格(mesh)以及隐式曲面表达(implicit function)。大部分此类工作生成的是非结构化的三维物体,但是结构化的表达对于感知和理解三维物体是很重要的,如物体不同组件的构成、关系等。

在这个工作里,我们设计了一个深度神经网络,通过顺序部件装配(sequential part assembly)的方式来表达和生成三维物体。简单来说,我们把这样的部件装配序列看成一个”句子”,这个“句子”的每一个“单词”描述了一个部件及其空间位置,类似说一句话一样来生成三维模型。在这个意义上,我们的工作部分受到语法分析的启发:一个句子既可以被看成一个由单词构成的线性结构(linear),也可以被看成由嵌套的短语构成的层级结构(hierarchical)。在三维物体结构表达的情景下,先前的工作 [1,2,3] 采用层级的部件组合(从整体到局部的树状结构),而我们采用线性的部件组合。

Shape generation vis Sequential part assembly

顺序部件组装的三维形状生成

方法

我们的模型,PQ-NET,是基于一个 Seq2Seq 自编码器(Seq2Seq autoencoder)来实现顺序部件组装和三维物体表征的。给定一个由多个部件构造的三维物体,我们将其表示为一个由多个向量构成的序列,每个向量对应一个部件,由一个表达这个部件的几何的特征向量和一个表达其大小和相对偏移的6维向量连接所得。表达部件的几何的特征向量是通过一个事先训练好的隐式表达自编码器(implicit function based autoencoder)[4] 所提取的。

因为每个三维物体所包含的部件个数可能是不同的,所以上述部件序列的长度是不定的。因此我们选用递归神经网络(RNN)将输入序列编码到一个固定大小的隐空间,随后解码出来重建输入序列,同时每一步输出一个标志符来判断是否停止。

输出序列每一步所包含的几何特征再进一步解码生成每个部件的几何,最后通过得到的每个部件的变换参数(大小、位移)将部件组装成完整的三维物体。由于我们采用隐式曲面表达来表征三维几何,所以最后生成的几何可以是任意分辨率的,从而能够得到高质量的结构化三维物体。

Network architecture

网络结构

结果与应用

模型学习到的隐空间,作为结构化三维形状的一种表达,使得我们能够进行随机生成、单视角重建、形状补全等多项应用。

对于三维形状的随机生成,我们在隐空间上训练一个 WGAN [5] 将采样自正态分布的噪声向量映射到模型学习到的三维形状隐空间,生成的隐向量再通过解码器解码成部件的序列,最终组合成完整的三维形状。另外,三维形状在隐空间的差值所生成的几何展现出了平滑而有意义的过渡。

对于单视角重建,我们另外单独训练一个二维卷积网络建立一个从输入图像空间到 PQ-NET 的隐空间的映射,即将输入图像映射到其所对应三维物体的隐向量。我们的实验尝试了输入图像是 RGB 图片或者是深度图的情况,并与其他方法进行了对比。

Random generation

随机生成

Latent space interpolation

隐空间插值

讨论

在这篇文章中,我们提出了 PQ-NET,一个基于序列化部件组装的三维形状表达和生成网络,以线性结构而非层级结构来表达结构化的三维形状。PQ-NET 一个最大的缺点是它并没有输出各个部件之间的关系,例如对称、相邻等。这些关系更容易通过层级结构 [1,2,3] 来表达,但代价是需要足够多的标注数据。总的来说,线性结构 vs 层级结构这两种表达的优缺点是值得再深入探究的,尤其是在三维形状的生成学习这个情景下。此外,PQ-NET 作为一个序列式的生成模型,采用了数据集里所提供的默认部件顺序。然而我们通过实验发现部件的顺序会对最终生成效果产生影响,如何定义和选取一个最优的线性表达顺序也是一个有趣的问题。

参考文献

[1] Y. Wang, K. Xu, J. Li, H. Zhang, A. Shamir, L. Liu, Z. Cheng, and Y. Xiong. Symmetry hierarchy of man-made objects. Computer Graphics Forum, 30(2), 2011.

[2] J. Li, K. Xu, S. Chaudhuri, E. Yumer, H. Zhang, and L. Guibas. Grass: Generative recursive autoencoders for shape structures. ACM Trans. on Graph. (SIGGRAPH), 2017.

[3] K. Mo, P. Guerrero, L. Yi, H. Su, P. Wonka, N. Mitra, and L. J. Guibas. Structurenet: Hierarchical graph networks for 3d shape generation. ACM Trans. on Graph. (SIGGRAPH Asia), 2019.

[4] Z. Chen and H. Zhang. Learning implicit fields for generative shape modeling. IEEE CVPR, 2019.

[5] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville. Improved training of wasserstein gans. NIPS 2017.


三维视觉交流群

关注最新最前沿的三维视觉、三维重建技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:3D)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

CVPR 2020 | 序列化的三维形状生成网络PQ-NET相关推荐

  1. [CVPR 2020] RandLA-Net:大场景三维点云语义分割新框架(已开源)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文由知乎作者Qingyong Hu授权转载,不得擅自二次转载.原文链接:https://zhuanl ...

  2. CVPR 2020 | CentripetalNet:目标检测新网络,COCO 48 % AP超现所有Anchor-free网络

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Anchor-free目标检测新网络,在COCO上可达48 AP!性能优于CenterNet.RPDe ...

  3. 超100篇!CVPR 2020最全GAN论文梳理汇总!

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货!  戳我,查看GAN的系列专辑~! 下述论文已分类打包好!共116篇,事实上仍有一些 ...

  4. CVPR 2020录用率十年最低,商汤官宣62篇入选

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又到一年一度秀视觉实力时. AI独角兽商汤,今日官宣CVPR 2020成绩单. 作为AI视觉领域最重要的顶会,商汤一向成绩不俗--今年商汤 ...

  5. 电商的「穿衣AI」用得好,剁手根本停不了 | CVPR 2020

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 网购看中了一件衣服和一条裤子,不知搭配起来效果如何,怎么办? 试试这款「穿衣AI」. 假如你在网上看中下面这几件衣服,先把它们「收藏」起来. ...

  6. CVPR 2020 | ACGPN: 基于图像的虚拟换装新思路

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! CVPR 2020之117篇GAN论文分类清单 编辑  AI科技评论 本文介绍的是 ...

  7. CVPR 2020 论文大盘点-医学影像处理识别篇

    医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...

  8. 【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 当前二维图像生成领域的发展已经非常成熟,但是 ...

  9. CVPR 2020之117篇GAN论文分类汇总清单

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 前言:详细说明版可见:CVPR 2020最全GAN论文梳理汇总!,可后台回复 GA ...

最新文章

  1. 提高期——SLA实践指导秘籍
  2. 郭的好象在推销,实在内容很少.
  3. linux 查端口 三种,Linux查看端口常用的三种用例
  4. 简单绘图软件实现mfc大作业_生产流程图怎么做?简单易上手的流程图工具
  5. Windows和Linux双启动,并用在Windows下配置CoLinux启动
  6. JSON在PHP中的基本应用
  7. 七种寻址方式(寄存器间接寻址方式)
  8. 15 MM配置-BP业务伙伴-定义供应商主记录的编号范围
  9. HTML5-canvas标签
  10. 368计算机毕业设计
  11. 编译原理 【国防科技大学网课】【笔记】【 陈火旺】 ——用于期末考试 【持续更新ing】
  12. 学习 react-native-sqlite-storage 案例
  13. APP开发者常用的4种推广渠道
  14. 我终于解救了系统盘ORZ
  15. 【互动媒体】”十二个一“的文艺创作的文本分析与可视化
  16. 关于性能测试的这点事,值得收藏~
  17. 容联云通讯php短信接口,短信发送接口
  18. 哨兵2a 波段组合_一种针对哨兵2A影像的建筑物阴影提取处理方法与流程
  19. ACL’21 | 对话系统也要进军多模态了!
  20. 12种超短线操作绝招

热门文章

  1. Cocos2d-x 2 0 4 小心隐藏的retain
  2. 设计模式学习笔记——策略(Strategy)模式
  3. c# npoi 2.5版本设置字体加粗_Python帮你做Excel——格式设置与画图
  4. jdbc oracle 删除数据库连接,如何使用JDBC API从Oracle数据库中删除表?
  5. flask mysql项目模板渲染_Flask系列(二) 模板 templates
  6. android5.1 投影显示器,5.1.1投影—投影与中心投影(一).ppt
  7. 用MySQL写怎么删除字母_mysql如何替换掉字母
  8. 用c语言设计程序设计查表温度传感器,基于18B20温度传感器+1602液晶显示器的C语言程序设计开发...
  9. php多站点共享用户表,php – Zend_Auth:允许用户登录到多个表/身份
  10. mysql密码攻击_MYSQL用户root密码为弱口令又一攻击方法