深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!

本文转载自CCF-CV,已获得专家委员会同意。

摘要

三维形状特征表示是三维目标识别、三维人脸识别以及三维模型检索等研究的基础,在机器人、AR/VR、人机交互、遥感测绘等领域有着广泛的应用前景。近三年来,针对三维形状数据深度特征表示的研究得到了越来越多的关注。本文对该方向所面临的挑战进行了分析,并对现有算法进行了简要综述。

引言

随着三维成像技术的快速发展,低成本小型化三维传感器近年来大量涌现并逐步配备到移动设备中,典型代表如Kinect,Realsense和Google Tango。三维传感器能很好地捕获场景三维信息,使智能设备更好地感知和理解周围环境,在机器人、AR/VR、人机交互、遥感测绘等多个领域具有广阔的应用前景。

三维传感器获得的数据是物体三维形状的直观反映,其可以表示为深度图、点云或者网格等多种形式。其中,深度图只能表示物体在单个视点下的距离信息,因此常称为2.5维数据,而点云和网格能表示物体在多个视点下的信息,因此常称为三维形状数据。有效的三维形状特征表示是实现点云配准、三维模型重建、三维形状检索、三维目标识别、三维生物特征识别、场景语义分割、以及定位制图等视觉任务的基础。

一个好的特征应该具有良好的鉴别力、稳健性、不变性以及计算效率。自上世纪90年代开始,三维形状特征提取算法经历了20余年的发展,逐步从手工特征过渡到基于深度学习的特征。手工特征通常通过提取三维形状几何属性的空间分布或直方图统计等方法得到,典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但这类方法依赖于研究者的领域知识,无法获得适用于某一特定任务的最优三维形状特征表示。近年来,随着三维形状数据集的不断完善,深度学习模型开始应用于三维形状特征表示,并产生了大量的研究成果。本文旨在简要综述该领域面临的主要挑战,研究进展以及潜在研究方向。

一、面临的挑战

相对于二维图像领域,深度学习模型在三维形状上的研究起步较晚,仅在近三年取得了较大的进展。该领域面临的主要问题如下。

1.1 三维形状的结构化表示

图像是结构化的,可以表示为二维平面上的一个矩阵,但三维点云和网格都是非结构化的,不能直接输入到深度神经网络中。因此,采用深度学习模型首先要解决三维形状的结构化表示问题。主要思路包括:1)在三维形状上手工提取低级特征,再采用深度学习模型提取高级特征;2)将三维点云或网格转化为系列二维图像,再采用深度学习模型提取特征;3)将三维形状体素化得到结构化表示,再构建三维深度学习模型提取特征;4)设计能适应原始三维数据特点的深度学习模型。

1.2 公共数据集较小

相比于ImageNet等千万量级的二维图像数据集,传统的三维形状数据集很小。近年来发布的较大的数据集包括用于形状分类与检索的ModelNet和ShapeNet。ModelNet包含了来自662类的127915个三维形状,其子集Model10包含了来自10类的4899个三维形状,ModelNet40包含了来自40类的12311个三维形状。ShapeNet包含了约300万个形状,其子集ShapeNetCore包含了来自55类的51300个形状。较小的数据集对深度学习模型的设计与训练提出了更高要求.

1.3 神经网络运算量大

由于三维形状比二维图像在空间中多了一维信息,因此在保持相同空间分辨率的前提下,神经网络的运算量比图像大很多。比如,即使将三维形状采样为30×30×30的体素,其运算量已相当于165×165的图像,而实际上分辨率为30×30×30的体素对形状的表示是非常粗糙的。因此,如何既能获得精细的三维形状表示,又能将运算量控制在可接受的范围内,是一个富有挑战的问题。

1.4 物体姿态变化

由于三维物体的姿态是任意的,因此如何使得学习到的特征具有对姿态的不变性也是设计深度学习模型时需要考虑的问题。典型思路包括在预处理中对输入数据进行姿态归一化,或者在神经网络中加入Max-Pooling等操作以消除姿态的影响。

二、现有方法分类

依据不同的数据表示方式,现有的三维形状深度特征表示方法可以分为:基于手工特征的方法、基于投影图像的方法、基于三维体素的方法以及基于原始数据的方法。

2.1 基于手工特征的方法

这类方法首先在三维形状上提取手工特征,进而将这些特征作为深度神经网络的输入,用以学习高层特征表示。其优势在于可以充分利用现有的低层特征描述子及深度学习模型。

比如,Bu等人[2]首先将热核特征和平均测地距离等构成的低层特征通过Bag-of-Feature模型转化为中层特征,接着采用深度置信网络(DBN)从中层特征中学习高层特征表示,并成功应用于三维形状检索与识别。Xie等人[3]首先提取三维形状Heat Kernel Signature特征的多尺度直方图分布作为自编码机的输入,然后在每个尺度上训练一个自编码机并将多个尺度隐含层的输出连接得到特征描述子,并在多个数据集上测试了该方法用于形状检索的有效性。

这类方法的缺陷在于,其仍然依赖手工特征的选择与参数优化,因此在某种程度上损失了深度学习的优势,无法从根本上克服手工特征存在的问题。

2.2 基于投影图像的方法

这类方法首先将三维形状投影到二维图像空间,进而在二维图像上采用深度学习模型进行特征学习,其优势在于:1)可以充分利用二维图像领域性能优越的网络架构;2)存在海量图像数据供深度学习模型进行预训练。

比如,Su等人[4]首先获得三维形状在12个不同视点下的投影图,进而采用VGG-M卷积神经网络学习各个视点下投影图的特征,最后将多视点下的特征进行池化并送入下一个CNN网络中得到最终的形状特征,其网络结构如图2所示。其第一级CNN网络采用ImageNet进行预训练并利用三维形状的二维投影图进行精调,实验结果表明多视点图像能获得比单视点图像更好的性能。Shi等人[5]通过沿主轴方向进行圆柱投影将三维形状转化为多个全景图,进而利用CNN从全景图中学习特征表示。由于在卷积层和全连接层之间加入了Max-Pooling操作,因此特征具有对绕主轴旋转的不变性。Sinha等人[6]将三维形状参数化到球形表面,进而将球形表面投影到八面体后展开成二维平面,并采用主曲率或HKS在平面的分布获得二维图像,最后采用CNN网络从二维图像中学习特征表示。Kalogerakis等人[7]在不同视点及尺度下获得三维形状的系列阴影图(Shaded Image)和深度图,进而采用全卷积网络(FCN)进行特征学习。

虽然这类方法通过变换能一定程度地保留三维物体的形状信息,但变换过程本身改变了三维形状的局部和全局结构,使得特征鉴别力下降。此外,将三维形状进行投影损失了大量的结构信息,且这类方法通常要求三维形状在竖直方向上进行了对齐。

2.3 基于三维体素的方法

这类方法将三维形状视为三维体素网格中的概率分布,从而将其表示为二值或实值的三维张量。图3给出了椅子模型在不同分辨率下的三维体素表示。这类方法的优势在于三维体素完整保留了三维形状信息,有利于提高特征的鉴别力。

比如,Wu等人[8]将三维形状表示为二值概率分布,若体素在三维表面内则其值为1,否则为0,并采用卷积深度置信网络(CDBN)学习三维体素与标签之间的联合分布。Xu等人[9]采用定向搜索对3D ShapeNets进行优化以减少CNN网络的参数数量并提高分类精度。Xu等人[10]则把三维体素的每一层抽取出来组合成一个二值图像输入到CNN网络中进行特征学习。为进一步降低计算量,Li等人[11]将三维形状表示成体素场(Volumetric Fields)以克服三维体素表示的稀疏性问题,并采用一个场探索滤波器(Field Probing Filter)取代CNN中的卷积层来学习特征。Qi等人[12]系统比较了基于多视点投影和基于三维体素的方法,并通过增加辅助学习任务、多姿态数据增广与池化融合等来提高三维形状分类的性能。此外,Wu等人 [13]采用体素卷积网络和生成对抗式网络从概率空间中生成三维形状,其通过非监督学习得到的特征能获得很好的三维目标识别性能。

但是,这类方法也面临一些挑战,如:1)为使得网络训练不过于复杂,三维体素的分辨率不能太高(通常为30×30×30),而较低的分辨率限制了所学特征的鉴别力;2)三维形状表面所占的体素比例不高,使得体素化结果较稀疏,因此需要设计合理的网络以避免大量乘0或者为空的运算。

2.4 基于原始数据的方法

这类方法针对三维形状数据的特点设计特定的神经网络输入层,使得网络能很好地应对三维形状数据非规则化的问题。

对于网格表示,Han等人[14]提出了一种Mesh卷积受限玻尔兹曼机(MCRBM)以实现三维形状的非监督特征学习。该方法首先在三维形状上均匀放置固定点数的节点,并在这些节点上用局部函数能量分布(LFED)来表达三维形状局部区域的几何和结构信息,进而采用卷积深度置信网络来学习高层特征。Han等人[15]还提出了一种圆形卷积受限玻尔兹曼机(CCRBM)来学习三维局部区域的几何和结构信息。该方法首先将局部区域上的点投影到该区域中心的切平面上并获得投影距离分布(PDD)特征,进而采用傅里叶变换系数获得旋转不变的特征,最后采用卷积受限玻尔兹曼机学习高层特征。

对于点云表示,Qi等人[16]认为解决输入点云的无序问题有三种解决思路: 1)将输入点云进行排序,但在高维空间中难以确保排序结果的稳定性;2)将输入点云看作一个序列去训练RNN网络,并采用不同排列组合得到的点云作为增广数据训练RNN网络,但对于包含大量点的点云来说这一方法并不能获得很好的不变性;3)采用一个对称函数融合每个点的信息,该对称函数以所有点作为输入但输出一个对点序不变的向量。Qi等人[16]采用第三种思路,以多层感知网络及Max-Pooling来近似该对称函数,通过训练获得对点序不敏感的特征表示。该方法被成功应用于三维形状分类、物体部件分割以及语义场景分割。

三、未来发展方向

相对于二维图像而言,对三维形状的深度特征表示研究才刚刚起步。随着三维成像传感器的进一步普及,三维形状特征学习及相关应用的研究将得到更多关注。在这一领域,依然有很多方向值得挖掘,比如:非刚性三维形状的特征学习;大规模点云的特征学习,特别是测绘制图和自动驾驶场景下的点云实时特征学习;以及遮挡和背景干扰下的三维目标检测与识别。

参考文献

[1]. Y. Guo, M. Bennamoun, F. Sohel, M. Lu, J. Wan. 3D object recognition in cluttered scenes with local surface features: a survey IEEE PAMI, 36: 2270-2287, 2014

[2]. S. Bu, Z. Liu, J. Han, J. Wu, R. Ji. Learning High-Level Feature by Deep Belief Networks for 3-D Model Retrieval and Recognition. IEEE TMM, 16(8): 2154-2167, 2014

[3]. J. Xie, G. Dai, F. Zhu, E. Wong, Y. Fang. DeepShape: Deep-Learned Shape Descriptor for 3D Shape Retrieval. IEEE TPAMI, 2016

[4]. H. Su, S. Maji, E. Kalogerakis, E. Learned-Miller. Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV, 2015

[5]. B. Shi, S. Bai, Z. Zhou, X. Bai. DeepPano: Deep Panoramic Representation for 3-D Shape Recognition. IEEE Signal Processing Letters, 22: 2339-234, 2015

[6]. A. Sinha, J. Bai, K. Ramani. Deep Learning 3D Shape Surfaces Using Geometry Images. ECCV, 223-240, 2016

[7]. E. Kalogerakis, M. Averkiou, S. Maji, S. Chaudhuri. 3D Shape Segmentation with Projective Convolutional Networks. arXiv preprint arXiv:1612.02808, 2016

[8]. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang. 3D ShapeNets: A Deep Representation for Volumetric Shapes, CVPR, 1912-1920, 2015

[9]. X. Xu, S. Todorovic. Beam Search for Learning a Deep Convolutional Neural Network of 3D Shapes. arXiv preprint arXiv:1612.04774, 2016

[10]. X. Xu, D. Corrigan, A. Dehghani, S. Caulfield, D. Moloney. 3D Object Recognition Based on Volumetric Representation Using Convolutional Neural Networks. International Conference on Articulated Motion and Deformable Objects. 147-156, 2016

[11]. Y. Li, S. Pirk, H. Su, C. R. Qi, L. J. Guibas. FPNN: Field Probing Neural Networks for 3D Data. NIPS, 307-315, 2016

[12]. C. R. Qi, H. Su, M. Niessner, A. Dai, M. Yan, L. J. Guibas. Volumetric and Multi-View CNNs for Object Classification on 3D Data, arXiv, 2016

[13]. J. Wu, C. Zhang, T. Xue, W. T. Freemanand, J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. Advances In Neural Information Processing Systems, 2016

[14]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, C. L. P. Chen. Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features With Structure Preservation on 3-D Meshes. IEEE TNNLS, 2016

[15]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, X. Li. Unsupervised 3D Local Feature Learning by Circle Convolutional Restricted Boltzmann Machine. IEEE TIP, 2016.

[16]. C. R. Qi, H. Su, K. Mo, L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. arXiv preprint arXiv:1612.00593, 2016.

该文章属于“深度学习大讲堂”原创,如需要转载,请联系@果果是枚开心果.

作者简介:

郭裕兰,国防科技大学电子科学与工程学院讲师。2011年至2014年于西澳大学从事访问研究,2016年11月起受中国首届“博新计划”支持于中科院计算所VIPL研究组从事博士后研究。已在TPAMI、IJCV和TIP等国际期刊及会议上发表论文40余篇。曾获“中国人工智能学会优秀博士学位论文奖”和“军队优秀博士学位论文奖”,指导学生获第十一届中国研究生电子设计竞赛第一名暨特等奖。现为中国计算机学会计算机视觉专委委员,中国自动化学会模式识别与机器智能专委委员,中国人工智能学会模式识别专委委员。主要研究方向包括点云特征学习、三维目标识别、三维人脸识别和三维场景重建等。

Email: yulan.guo@nudt.edu.cn

欢迎大家关注我们的微信公众号,搜索微信名称:深度学习大讲堂

modelnet40介绍_三维形状数据的深度特征表示相关推荐

  1. shapenet数据集_三维形状数据的深度特征表示

    摘要 三维形状特征表示是三维目标识别.三维人脸识别以及三维模型检索等研究的基础,在机器人.AR/VR.人机交互.遥感测绘等领域有着广泛的应用前景.近三年来,针对三维形状数据深度特征表示的研究得到了越来 ...

  2. 三维匹配_三维GIS数据融合的基本方法与进展

    点击图片上方蓝色字体"慧天地"即可订阅 文章转载自微信公众号地理信息世界GeomaticsWorld,版权归原作者及刊载媒体所有. 作者信息 华 巍1,2,胡云岗1,2,侯妙乐1, ...

  3. 深度学习数据扩张_适用于少量数据的深度学习结构

    作者:Gorkem Polat 编译:ronghuaiyang 导读 一些最常用的few shot learning的方案介绍及对比. 传统的CNNs (AlexNet, VGG, GoogLeNet ...

  4. 基于三维数据的深度学习综述

    众所周知,计算机视觉的目标是对图像进行理解.我们从图像中获取视觉特征,从视觉特征中对图像.场景等进行认知,最终达到理解.感知.交互.目前,比较主流的计算机视觉基本是基于二维数据进行的,但是回顾计算机视 ...

  5. 一文入门基于三维数据的深度学习

    本文转载自北京智源人工智能研究院. 这是一篇三维数据深度学习的入门好文,兼顾基础与前沿,值得收藏!为方便大家学习,本文PDF版本和所列出的所有文献提供下载,(2020年7月27日11点后)在我爱计算机 ...

  6. 基于大数据与深度学习的自然语言对话

    基于大数据与深度学习的自然语言对话 发表于2015-12-04 09:44| 7989次阅读| 来源<程序员>电子刊| 5 条评论| 作者李航.吕正东.尚利峰 大数据深度学习自然语言处理自 ...

  7. 分割点云数据_3D点云深度学习综述:三维形状分类、目标检测与跟踪、点云分割等...

    3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表.当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同 ...

  8. 深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景

    深度学习数据更换背景 数据科学教育 (DATA SCIENCE EDUCATION) 目录 (Table of Contents) The Importance of Context Knowledg ...

  9. 深度学习数据自动编码器_如何学习数据科学编码

    深度学习数据自动编码器 意见 (Opinion) When I first wanted to learn programming, I coded along to a 4 hour long Yo ...

最新文章

  1. 【LibreOJ】#541. 「LibreOJ NOIP Round #1」七曜圣贤
  2. java正则表达式的使用_java正则表达式使用
  3. TeXLive2019 安装(亲测有效)
  4. java 鼠标拖动图形_java怎么实现鼠标在桌面拖动过程中 画 矩形的 功能?
  5. 紧跟月影大佬的步伐,一起来学习如何写好JS(上)
  6. python多久可以精通_学Python需要多久能学会?精通Python需要多长时间?
  7. 解决java poi导出excel2003不能超过65536行的问题
  8. SSH 免密码/免用户名/免IP登录云服务器
  9. webgl渲染Yuv420P图像
  10. 电话机器人图文+源码介绍
  11. 数据新闻的四大发展特点
  12. FFplay文档解读-43-视频过滤器十八
  13. 【数据分析】基础技术篇 三——matplotlib
  14. alexnet 模型详解以及模型的可视化
  15. npm配置镜像、设置代理cnpm和取消代理的方法
  16. SSM整合Ueditor的上传图片功能常见错误解决办法
  17. aida64使用方法_aida64怎么用 【处理思路】
  18. 用七张表就能轻松管理存货
  19. 【空间数据库】传统数据模型(层次、网状、关系)和空间数据模型详解
  20. 使用Batch Normalization解决VAE训练中的后验坍塌(posterior collapse)问题

热门文章

  1. 关于道家与道教的总结
  2. 哪些道理是过了40岁之后才明白的?
  3. 前端培训一般要多少钱
  4. 基于51单片机GPS定位系统设LCD12864显示(程序+原理图+PCB+论文)
  5. vs可以开发python吗_vs可以写python吗
  6. 在ACM的巨坑里挣扎的弱鸡整理的模板
  7. 2008年8月26号,星期二,晴。欲穷千里目,更上一层楼。 —— 王之涣《登鹳雀楼》今天是我博士生涯的第51天,争吵,分歧,以自我为中心的考虑问题,那个关键问题
  8. Windows密码凭证获取学习
  9. 使用js乘法 精度错乱 使用Decimal插件处理格式问题
  10. python日期校验