本次公开课由深蓝学院开设，李伏欣老师主讲，主要介绍了涵盖3D点云领域的研究，并重点介绍了李老师近期的最新工作内容。

李伏欣

美国俄勒冈州立大学助理教授

本次分享首先介绍了最近几年两篇经典论文中的3D点云识别的工作，详细介绍了PointNet++与PointNet；接着由传统CNN入手，逐渐引入PointConv；最后将结合PointConv介绍了我们团队最近的工作内容。

以下是公开课的相关内容

>> 文章大约5200字，预计阅读需23分钟 <<

课程开始，李伏欣老师介绍了点云CNN的一些背景。

点云上做CNN的工作和点云上其他操作有些不同，点云CNN更偏重于识别的任务，目前市面上已经有了很多深度传感器，可以直接获得周围物体的深度数据，例如Velodyne LiDAR等。

随着深度传感器的普及，日后深度传感器在我们日常生活中将会变得更加普遍。我们都知道深度学习在2D图像识别中有了飞跃性的发展，研究点云CNN的目的就是使深度学习在点云上的应用更加广泛

常见的三维表示形式有很多种，常见的表示形式为点云、Mesh、Volumetric和RGBD等。Mesh可以更好地表示物体表面信息，Volumetric是将三维空间转换成网格的表示形式，RGBD则在传统RGB图相中增加了一个深度维度的信息，但只能看到一个视角的信息。而为什么我们要研究点云的CNN呢？因为不管是LiDAR、结构光还是TOF等深度传感器，都是直接获得的点云信息，而其他的三维表示都是由点云生成的。

同时还可以把RGB的信息同步到点云数据中去，这样在空间表示中不仅仅有物体的三维信息，还有物体的颜色信息。常见的点云往往都是稀疏的，而在土木工程领域中会应用到一种强大的扫描仪，获得数量庞大的点云数据用于还原物体信息，可以表示详细的空间信息。

研究现状

点云CNN为什么难做？从2D图像中出发，例如，可以用image(i-1,j-1)表示像素image(i,j)的邻域信息来表示图像中具体的位置信息，但是不能保证在点云中相同的相对位置处存在点云数据。于是可以把这个问题转成volumetric convolution来进行点云的CNN，那么有的Voxel有特征点，有的Voxel并没有特征点，有点的Voxel可以找到该点的邻域进行计算。将这种方法应用到点云中，近些年研究学者发现利用矩阵稀疏性可以起到提高计算速度的作用，精度和速度近些年已经取得了相当不错的结果。

提到点云深度学习就一定离不开PointNet和PointNet++两篇经典的点云神经网络处理方法。PointNet中常用的有两种操作：1x1 convolution 和Max-pooling，然而只有这两种操作实际上对3D识别来讲是远远不够的。PointNet提取特征的方式是对所有点云数据提取了一个全局的特征，显然，这和目前流行的CNN逐层提取局部特征的方式不一样。

受到CNN的启发，紧接着同一批作者发表了PointNet++，就更接近了传统的CNN，相较于PointNet，它能够在不同尺度提取局部特征，通过多层网络结构得到深层特征。PointNet++由以下几个关键部分构成：Sampling（采样层），Grouping（组合层），PointNet（特征提取层）。

首先，在网络处理时对输入点的数据点进行采样，采样后的结果中每一个点所构成其局部的点进行组合，方便后面连接PointNet的局部特征提取，由于Max-pooling的影响，每组特征点最后只输出一个点。

对提取的特征点再根据每个点所构成的局部点进行组合，得到的结果进行sampling连接PointNet。由Sampling、Grouping和PointNet三层组成了类似卷积层的结构，可以应用这种结构进行分类和分割。

PointNet++作者使用的采样算法是farthest point sampling（最远点采样），相对于随机采样，这种采样算法能够更好地覆盖整个采样空间，包括点云数据特征信息和边角信息，这些都是随机采样所无法具备的。

虽然PointNet已经足够优秀，但是PointNet缺少邻域信息，与传统意义上通过周围邻域得到卷积结果十分不同，这也很难直接应用于后面的点云CNN中。

例如这里有一个最简单的边缘检测的任务，在边缘处两边的颜色不同，为了检测出边缘，我们至少需要考虑两个点的颜色信息才能判断出是否存在边缘。

而PointNet除了Max Pooling以外，剩下的所有操作都只对单点进行，很难直接应用到Corner Detection等任务中去，因此我们迫切需要真正意义上的点云CNN。

CNN 到PointConv

为了引入点云CNN，首先我们来回顾一下传统的CNN。对于2D图片来说，某个位置的输出，不仅与该位置的输入有关，还与此位置周边位置的输入有关，不同位置的输入，具有不同的权重。下图中X(i,j,k)可以看做图像的原始像素，W为卷积核，G为邻域。卷积是一个加权求和的操作，由于位置坐标的像素值是固定值，卷积核上所有作用点以此作用于原始图像像素，并通过线性叠加把所有的作用结果累加，即是图像卷积的输出。

可以通过连续域考虑，此时W就不是权重矩阵而是一个函数，那么由于点云位置是随机的，不同位置的权重应该不同，这样可以把权重函数W抽象成为一个关于三维坐标的函数。由于所有操作都可微，通过深度学习不断学习，由Δi, Δj, Δk作为输入的权重值作为函数的输出结果，这也是最初很重要的一种想法。下图中W和X为连续的函数，（i,j,k）为三维参考坐标，(Δi, Δj, Δk)为该点邻域的相对坐标，由于卷积本质上是一个加权求和的操纵。如果某些位置的采样点比较密集，而某些位置的采样点比较稀疏，最终的计算结果主要受到采样密集的位置的点的影响。考虑到点云是非均匀采样的传感器，为了补偿不均匀采样，需要用点云逆密度对学到的权重进行加权，该模块主要目的是处理点云采样不均的情况。这样我们可以把PointConv描述为：

PointConv 与深度学习

PointConv的主要工作是在原有通过1层隐藏层替换权重函数W的基础上，在添加了一层隐藏层和KDE。这样网络的基本结构就可以描述为：通过寻找点云的K nearest neighbor获得K×3的坐标，做两层全连接网络，得到K×（Cin×Cout）的W，与复制Cout份的输入特征Fin运算，便可以得到1×Cout维的一个点的输出特征。完整的PointCov网络结构图如下所示：

李老师团队之前提交过一篇论文，但由于不知道之前已有团队做过相同的工作而被拒。在他们的工作中由于每个点都需要计算K×Cin×Cout维的权重值， PointConv 实现起来内存消耗大、效率低，很难形成大型的卷积网络结构。李老师发现通过更改了上图中蓝框里求和的顺序可以保证在结果不变的基础上，极大降低内存。假设MLP最后一层的输入为M，M与计算的逆密学习到的权重加权得到的结果Fin直接相乘，而把最后一层全连接层放到最后。看似只是简单的调整顺序，却可以省去复制Cout次的操作，也不用得到K×（Cin×Cout）很大的Tensor，有效的降低了参数的数据量，避免每次卷积都要产生巨大的权重值的问题。

实验结果证明原结构大概需要8G内存，优化过后大概只需要占用100M，极大的节省了内存占用率，为后面构建大规模网络奠定了基础，这样一个PointConv layer就可以完整的对应到一层普通卷积层，优化过后的网络结构为：

当然，我们还可以来定义PointDeconv，在之前的PointNet++中，Deconvolution主要是通过插值的方法来实现的。例如在下层有了一个k邻域，上层的点直接做插值来实现。而有了Pointconv以后可以在每次插值加入一层Pointconv，这样PointDeconv 由两部分组成：插值和 PointConv。首先，使用一个线性插值算法来得到精细层的特征的初始值，再在精细层上进行一个 PointConv 进行优化特征，从而获得较高精度的特征值。

有了PointConv和PointDeConv，便可以根据传统的卷积神经网络结构搭建一个U-Net网络，用于点云的分类任务。如下图所示，将所有的点先通过PointConv得到非常少的点，再通过一系列PointDeConv点数逐渐增多直至回到初始的点数，再对每个点进行1×1的卷积，便得到了点云的U-Net。

为了验证PointConv可以替代真正的卷积效果，李老师团队将CIFAR-10替换成了点云，在5层和19层的实验中发现，PointConv的准确度高于近期出现的PointCNN和SpiderCNN 的点云深度学习网络，接近甚至高于传统卷积神经网络框架。

同时李老师团队也在ModelNet、ShapeNet和ScanNet上与更多的点云深度学习网络结果进行对比，在ModelNet40和ShapeNet提高的精度不是很高，但是在真实的室内扫描数据集ScanNet却提高了很大的精度。

在4层PointConv的基础上就达到了55.6%的精度，显著的高于ScanNet、PointNet++、SPLAT Net和Tangent Convolutions，近期李老师通过搭建更多层的PointConv已经达到了66.6%的精度。这些结果足以证明PointConv在点云深度学习中可以替代传统的卷积层。

讨论

在公开课的最后，李老师给到了我们一些学习深度学习的建议。点云与深度学习结合的应用范围十分广泛，例如三维重建、运动估计等，要想学好深度学习，首先需要学好机器学习的理论知识，例如Overfitting是什么等基础问题，写一写简单的SVM代码。

在对机器学习有了一定的认识之后，再开始学习深度学习，深度学习本身没有很难的知识点，难就难在做实验，例如如何提高精度、怎样对数据初始化可以得到较好的结果等。多学习别人在深度学习中使用的各种技巧，对提高深度学习代码精度有很大的帮助。很多时候自己写一个深度学习的网络不如直接下载一个开源的深度学习网络的代码，在现有的基础上对原工作进行修改。

相关文章

[Qi et al. CVPR 2017] C. Qi et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. CVPR 2017
[Wu, Qi and Fuxin 2019] W. Wu, Z. Qi, L. Fuxin. PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
[Graham et al. 2018] B. Graham and L. van der Maaten. Submanifold Sparse Convolutional Networks. CVPR 2018
[Choy et al. 2019] C. Choy, JY. Gwak, S. Savarese. 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. ICCV 2019
[Qi et al. NeuRIPS 2017] C. Qi et al. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. NeuRIPS 2017
[Su et al. 2018] H. Su et al. SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
[Xu et al. 2018] Y. Xu et al. SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters. ECCV 2018
[Li et al. 2018] Y. Li et al. PointCNN: Convolution On X-Transformed Points. NeuRIPS 2018
[Jia et al. 2016] X. Jia et al. Dynamic Filter Networks. NeuRIPS 2016
[Simonovsky 2017] M. Simonovsky, N. Komodakis. Dynamic edgeconditioned filters in convolutional neural networks on graphs. CVPR 2017
[Wang et al. 2018] S. Wang et al. Deep parametric continuous convolutional neural networks. CVPR 2018
[D. Sun et al. 2018] D. Sun et al. PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume. CVPR 2018
[Wu et al. + Fuxin arXiv:1911.12408] W. Wu et al. PointPWC-Net: A Coarse-to-Fine Network for Supervised and Self-Supervised Scene Flow Estimation on 3D Point Clouds. arXiv:1911.12408
[Ziwen et al. + Fuxin arXiv:1911.10415] C. Ziwen et al. Visualizing Point Cloud Classifiers by Curvature Smoothing. arXiv:1911.10415
[Z. Qi, S. Khorram, L. Fuxin, AAAI 2020] Zhongang Qi, Saeed Khorram, LI Fuxin. Visualizing Deep Networks by Optimizing with Integrated Gradients. AAAI, 2020

3D点云｜云上的卷积神经网络及其部分应用相关推荐

keras构建卷积神经网络_通过此简单教程学习在网络上构建卷积神经网络
keras构建卷积神经网络 by John David Chibuk 约翰·大卫·奇布克(John David Chibuk) 通过此简单教程学习在网络上构建卷积神经网络 (Learn to buil ...
点云上的卷积神经网络及其部分应用
本次公开课由李伏欣老师主讲,李伏欣老师是美国俄勒冈州立大学助力教授,公开课主要介绍了涵盖3D点云领域的研究,并重点介绍了李老师近期的最新工作内容. 公开课回放链接:https://www.shenla ...
在MNIST图像上训练卷积神经网络
摘要:这是第一次接触卷积神经网络,非常顺利地运行了代码,基本了解了卷积神经网络是怎么训练的. 1.代码(有空格的是一个单元格) from keras import layers from keras ...
优达学城深度学习之三（上）——卷积神经网络
学习如何用神经网络来解决分类问题. 开始都会说什么是机器学习?机器学习的应用是什么?用机器在海量数据中学习得到可以解决一类问题的办法,这就是我的理解.图像处理.文本处理.无人驾驶.等,深度学习最热门的 ...
卷积神经网络语音识别_用于物体识别的3D卷积神经网络
本文提出了一种基于CNN的3D物体识别方法,能够从3D图像表示中识别3D物体,并在比较了不同的体素时的准确性.已有文献中,3D CNN使用3D点云数据集或者RGBD图像来构建3D CNNs,但是CNN ...
LeCun亲授的深度学习入门课：从飞行器的发明到卷积神经网络
Root 编译整理量子位出品 | 公众号 QbitAI 深度学习和人脑有什么关系?计算机是如何识别各种物体的?我们怎样构建人工大脑? 这是深度学习入门者绕不过的几个问题.很幸运,这里有位大牛很乐意 ...
云中的机器学习：FPGA 上的深度神经网络
人工智能正在经历一场变革,这要得益于机器学习的快速进步.在机器学习领域,人们正对一类名为"深度学习"算法产生浓厚的兴趣,因为这类算法具有出色的大数据集性能.在深度学习中,机器可以在 ...
GCN图卷积神经网络综述
文章目录一.GNN简史二.GCN的常用方法及分类 2.1 基于频域的方法 2.2 基于空间域的方法 2.3 图池化模块三. GCN常用的基准数据集四.GCN的主要应用 4.1 计算机视觉 4. ...
卷积神经网络为什么能称霸计算机视觉领域？
来源:图灵人工智能摘要:在机器视觉和其他很多问题上,卷积神经网络取得了当前最好的效果,它的成功促使我们思考一个问题,卷积神经网络为什么会这么有效?在本文中,将为大家分析卷积神经网络背后的奥秘. 思想 ...

3D点云｜云上的卷积神经网络及其部分应用

研究现状

CNN 到PointConv

PointConv 与深度学习

最近工作

讨论

3D点云｜云上的卷积神经网络及其部分应用相关推荐

最新文章

热门文章

3D点云｜云上的卷积神经网络及其部分应用

研究现状

CNN 到PointConv

PointConv 与 深度学习

最近工作

讨论

3D点云｜云上的卷积神经网络及其部分应用相关推荐

最新文章

热门文章

PointConv 与深度学习