Paper4：Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Clo

Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Cloud Data

文章下载连接：https://download.csdn.net/download/m0_37957160/12805395

车载点云中3维杆状目标基于体素的提取与分类

摘要：

道路环境数字测绘是道路基础设施清查和城市规划的一项重要任务。对类杆目标的自动提取和分类，可以显著地降低和提高工作效率。因此，本文提出了一种基于体素的方法，通过分析物体的空间特征来自动提取和分类三维(3-D)杆状物体。首先，通过基于体素的形状识别生成一组线性体素作为杆状对象候选者，并用作后续模块的输入。根据杆状地物的局部孤立性且主方向是沿着Z轴的特点，采用一种自适应半径和垂直生长的圆柱模型识别属于杆状地物的体素。最后，根据形状特征和空间拓扑关系推导出若干语义规则，将所提取的类杆对象进一步划分为四类（灯杆、电线杆、树杆和其它）。利用移动激光雷达点云数据的三个数据集对所提出的方法进行了评价。实验结果表明，该方法能有效地从3个样本中提取出类极目标，提取率分别为85.3%、94.1%和92.3%。此外，本文所提出的方法还能有效地进行分类，尤其是树干分类。

提出方法的流程图如下：

提出方法的步骤：

1）生成：通过基于体素的形状识别，生成一系列线性体素作为杆状目标的候选。

2）识别：使用具有自适应半径的圆形模型识别属于杆状物体的体素。

3）提取：基于垂直区域增长算法提取个体杆状物体。

4）分类：根据若干语义规则对提取的杆状对象进行进一步分类。

下面是ABCD步骤对应上述的1）2）3）4）步骤的详细分解。

A、Voxel-Based Shape Recognition

杆状物体的部分呈现线性模式，而其他的(如建筑和树冠)通常呈现平面或球形特征。因此，在本节中，我们采用一个连续的方案来进行基于体素的形状识别，包括体素化、基于体素的维度分析和基于MRF的形状识别优化。因此，生成一组线性体素，作为后续模块的输入。

1)Voxelization：车载雷达包含很多点，而且这些点分布很复杂。因此为了降低数据量，我们仅仅只基于XYZ坐标（轴）构建3-D voxels作为基元（primitives）。空间被划分为规则的三维网格，每个体素都是长方体的形状，其几何形状由长(l)、宽(w)和高(h)定义。体素的位置按列(i)、行(j)和层(k)建立索引。根据三维体素的最小坐标(Xmin,Ymin,Zmin)和长度(l)、宽度(w)、高度(h)，可以用公式（1）计算出点云中每个点的索引(i,j, k)。因此，大量的点被组合在一起形成3-D体素。如下图所示，将多个点组合在一起，形成三维体素。

2）Voxel-Based Dimension Analysis：（基于体素的维度分析---线、面、球）

体素化之后，我们用PCA去分析体素的维度，因为PCA是一种被广泛接受的维度分析的方法，该方法被广泛应用于将点云数据中的物体推断为三种形状：线性、平面和球面。

体素维度分析是一种分析体素内点的局部形状的程序。众所周知体素的大小直接决定了他所包含的点的数量，这很有可能影响维度分析的正确性，或者我们可以根据查询体素的几何中心和其预定义半径R的邻域进行维度分析。为了描述p（几何中心）周围的几何结构，用下面公式，使用查询几何中心p及其邻域来得到协方差矩阵 $C_{p}$

$C_{p}=\frac{1}{|N|}\sum_{p_{i}\subseteq n}^{ } (p_{i}-\bar{p})(p_{i}-\bar{p})^{T}$

上述公式|N|表示点邻域的数量， $\bar{p}=\frac{1}{|N|}\sum_{p_{i}\subseteq n}^{ } p_{i}$ ,让 $\lambda _{1}> \lambda _{2}>\lambda _{3}>0$ 为协方差矩阵 $C_{p}$ 的标准特征值。根据文献[24]的思路，我们用线性（ $a_{1d}$ ），平面（ $a_{2d}$ ），球面（ $a_{3d}$ ）的特点来识别点的几何结构，如下所示：

然而，维数分析的性能很容易受到预定义半径R的影响，例如，预定义半径R过小可能会导致点的几何结构估计错误，而预定义半径R较大时可能会受到噪声的影响。因此，本文采用熵函数[26]自适应地确定预定义半径R来推断点的几何结构，如下：

让 $R_{min}$ 和 $R_{max}$ 分别为最小和最大半径。通过 $R_{add}$ 迭代增大预定义的半径R来使熵函数 $E_{f}(V_{p}^{R})$ 最小。对于查询几何中心p，预先定义的半径R，特征值 $\lambda _{1},\lambda _{2},\lambda _{3}$ ，以及相应的特征向量 $v_{1}$ , $v_{2}$ ，和 $v_{3}$ 被存储。然后计算 $a_{1d}$ 、 $a_{2d}$ 、 $a_{3d}$ 并进行比较(见表I)。

当 $a_{1d}$ 有最大值时，体素内的点集呈线性形状，其主要方向为特征向量v1的方向，该方向与线性物体的方向对齐。当 $a_{2d}$ 值最大时，体素内的点云呈现平面形状，其主要方向为特征向量v3的方向，即平面的法方向。最后，当 $a_{3d}$ 的值最大时，体素内的点云呈球形，没有主导方向。图3展示了基于体素的形状识别结果。（参考文献[24]解释了为什么 $a_{1d}$ 、 $a_{2d}$ 、 $a_{3d}$ 可以表示线性平面球形的原因）

用MRF模型优化的是PCA的结果（we used the MRF model to optimize the results of PCA since some pole-like parts might belong to other ground objects, especially buildings and tree branches）

3) MRF-Based Shape Recognition Optimization: （优化的是线性）

如图4所示，Section II-A2中（就是上一步）识别的线性体素可能是树枝或建筑物的线性部分，而不是像杆状一样的物体，因为存在复杂性和不完全、遮挡和噪声。此外，我们还观察到，与杆状物体不同的是，其他地面物体(如建筑物和树冠)的大部分是平面和球形的。

为了解决图4中的这个问题，MRF模型通常用于建模上下文信息，以获得局部连续和全局最优的结果。因此，在本节中，我们的目标是通过为后续的检测和分类模块引入上下文信息来优化形状识别结果，并将优化问题表示为二值标签问题(即线性和非线性类型的体素)。

（找到线性的但有并不是杆状的，接下来使用MRF模型进行优化）

马尔可夫模型（文献[27]介绍）是一个加权无向图 $G=<V,E>$ ，其中V表示体素对应的一组节点，E表示相邻节点之间的一组无向边。在本文中，加权无向图还包含两个附加终端 $V_{s}$ 和 $V_{t}$ ，分别对应于线性和非线性类型。对于一个点云D，用 $\zeta$ 表示一组体素集 $\zeta =\left \{ \zeta _{1},\zeta _{2},...,\zeta _{N} \right \}$ ，用Ω表示一组标签集 $\Omega =\left \{ linear,nonlinear \right \}$ ，让L表示体素标签结构（配置、形状（conﬁgurations ）这个怎么翻译不太知道）的所有可能性 $L=\left \{ l=(l_{\zeta 1},l_{\zeta 2},...,,l_{\zeta N})|l_{\zeta i}\in \Omega ,i=1,2,...,N \right \}$ 。因此节点集 $V=\left \{ V_{\zeta i}|i=1,2,...,N \right \}\cup \left \{ V_{s} ,V_{t}\right \}$ 和边集 $\left \{\left \{V _{u},V_{v} \right \} , \left \{ V _{u},V_{s} \right \},\left \{ V _{u},V_{t} \right \}\right \},u,v\in \left \{ \zeta _{i} |i=1...N\right \}$ 。在计算机视觉领域，寻找最优标签配置 $L^{*}$ 可以自然地表述为能量函数最小化，如下所示:

数据项Endata(L)测量L和观测数据之间的不一致，平滑项Esmooth(L)测量L非分段平滑的程度，而 $\lambda$ 表示权重参数。

数据项的形式通常定义为：

其中 $D_{u}(l_{u})$ 定量测量标签 $l_{u}$ 与观测数据之间的拟合程度，使用公式(7)计算。 $a_{1d}$ 的值越大，数据项 $D_{u}(l_{u})$ 越小：

为了生成局部连续且全局最优的标签结构（配置、形状（conﬁgurations ）这个怎么翻译不太知道），光滑项Esmooth(L)通常定义为：

其中R表示26邻域系统，

$\rho$ 表示为相邻距离的期望值（参考文献[28]）。如公式(8)所定义，具有相同标签的邻域体素惩罚项为0。对于相邻的不同标签的体素，它们之间的距离越小，平滑度惩罚项越大。因此，平滑项Ensmooth(L)对属于同一标签的邻接体素范围进行编码（the smooth term Ensmooth(L) encodes the extent to which the adjacent voxels belong to the same label不知道翻译的对不对？？）。表II列出了加权无向图中边的权值定义，最后，通过 $\alpha -\beta$ 交换算法（参考文献[29]）最小化能量函数(5)。因为它近似的最小化任意有限标签集的能量函数，不仅证明了计算效率的提高，而且得到了全局最优解。

B. Identifying Voxels of Pole-Like Objects Using a Circular Model With an Adaptive Radius（识别杆状）

（因为A部分已经有了标签线性，面，球，所以这一步是识别）

根据第II-A节所述的步骤，每个体素被标记为线性、平面或球形类型。值得注意的是，杆状物体通常是独立的、孤立的，它们的主要方向近似地平行于z轴。独立的杆状体素在垂直方向呈线性排列，在水平方向不存在平面或球形体素。相比之下，其他地面物体，如树冠、低矮植被和建筑立面，可能在水平方向上有多个连续的体素，而且这些体素大多数是平面或球形的。因此，我们遵循切片策略（文献[7]），并使用具有自适应半径（文献[13]）的圆形模型来识别属于杆状对象的体素。

如图6(a)所示，我们首先将非地面点根据所选择的间隔(如本文中体素的大小)进行切片。切片后，将第II节生成的线性体素与其相邻的在同一切片内的线性体素进行聚类（参考文献[30]）就是将在同一切片内的并且相连的线性体素进行聚类。）然后，将聚类点投影到相关的切片平面上，如图6(b)所示。

事实上，在激光雷达点云数据中，这些单独的杆状物体应该是细长点簇其周围都是空的地方。因此，我们建立了一个由两个同心圆组成的自适应半径的圆形模型。如图6(b)所示，设查询聚类的几何中心p为两个同心圆的中心，设几何中心p与查询聚类内任意点之间的最大水平距离 $d_{max}$ 为内圆的搜索半径，让 $d_{max}+r$ 为外圆的搜索半径，r是控制搜索半径的阈值。理论上，如果查询聚类是杆状对象的一部分，那么外圆内的点数(Nmax)与内圆内的点数(Nmin)是相等。考虑到可能存在场景，在这些场景中存在一些非杆状的物体(如路牌)，如果满足 $N_{max}-N_{min}< N_{threshold}$ ，我们将查询聚类标记为杆状；(其中Nthreshold是控制非杆状的物体点数量的阈值)。

图7为检测不同地物体素的圆形模型的实例。电线杆主要线性体素组成，其该体素在垂直方向上没有非线性体素（即该方向上的体素都是线性的），水平方向上其周围几乎是空空间，而街道树的树冠和建筑结构相对复杂，在垂直和水平方向上多为平面或球形体素。

因此，采用圆形模型识别属于杆状物体的线性体素，采用垂直区域增长算法对类杆状物体进行个体化，对相同的类杆状物体进行匹配和合并（Thus, the circle model was used to recognize the linear voxels belonging to the pole-like objects and the vertical region growing algorithm was conducted to individualize the pole-like objects for matching and merging the same pole-like objects）

C. Pole-Like Object Extraction Based on Vertical Region Growing （基于垂直区域增长的杆状物体提取）

对于每个切片，属于杆状对象的体素被识别出来，它们将被用作检测单个杆状对象的种子体素。

如图8所示，在杆状对象中的一些组件可能不是杆状的。对于单个的类杆状物体，本节在一个柱状结构内进行垂直区域生长算法（参考文献[10]），对类杆状体素进行匹配和合并，即相同的类杆状物体。因此，将提取所有独立的类杆对象。如图9所示，进行垂直区域增长算法的具体过程如下：

1）垂直增长从属于类杆对象的其中一个体素开始，创建第一个单独的类杆对象。

2）从柱状结构内的种子体素垂直生长，属于类杆对象的最近的体素被添加到查询分段对象中。

3）这种增长将持续下去，直到查询分段对象和下一个最近的属于类杆对象的体素之间的距离超过0.5 m的阈值为止。该阈值由实验场景中任意两个杆状物体之间的最小距离决定。

4）重复前面的步骤，直到遍历了属于类杆对象的所有体素。因此，每一组点都表示一个独立的类杆对象。

利用基于ransac的方法对断裂的类杆对象进行重构，得到完整的类杆对象（thebroken pole-likeobjects were reconstructed by the RANSAC-based method to obtainwholeindividualpole-likeobjects）

由于在杆状物体内部存在非杆状部分，仅使用垂直区域增长算法提取的个别类杆状物体可能不具有垂直连续性[图9(b)]。对于这些破裂的杆状对象（就是在垂直方向上不连续）,我们使用一个随机采样一致性(RANSAC)算法（参考文献[31]）去拟合查询单个杆状对象到一个3-D线，由于它使用的初始数据尽可能地满足较少的拟合条件，然后采用一致的方法来扩展数据集，对噪声具有较强的鲁棒性。然后将这些在破裂部分的并且他们与三维拟合线距离小于最大半径的点添加到查询独立杆状对象中，以得到完整的类杆对象[see fig 9(c)]。

D. Pole-Like Object Classiﬁcation Based on Semantic Rules （基于语义规则的杆状分类）

道路环境可能是由各种各样的杆状物体组成，如灯柱、路标、交通灯、电线杆和树干。这些不同类型的杆状物体通常表现出不同的形态特征和空间拓扑关系。因此，因此，在第II-C节中识别出所有独立的极状物体后，几个语义规则可以从物体的形态特征以及它与其他物体之间的空间关系获得，将这些规则用于分类这些提取杆状对象为四类，即树干、电线杆、路灯、和其他(例如，路牌)。

高度（参考文献[32]）是一个重要的杆状对象特征，通常从一种类型变化到另一种高度是变化的，这可以用来作为分类不同的杆类对象的标准。例如，像灯柱、路标、交通灯和电线杆这样的杆状物体的高度通常有明确的规格，而树干的高度则因树木的年龄和种类而不同。电线杆是保证电力线路安全、配电可靠的最高目标。

如图10所示，不同的杆状物体呈现不同的二维(2-D)投影点分布，红色的2-D网格为在II-C部分提取的单个杆状物体的位置。

例如，树干应该连接到树冠上，树冠可以用来识别树干。更具体地说，我们累计查询红网格的24个相邻区域内包含点的二维格网的数量。如果包含点的二维网格数量超过阈值，则该查询杆状对象被标记为树干。因此，树干与其他类型的杆状物体有所区别。在接下来的分类程序中，根据其高度信息将电线杆、灯柱和其他的进行分类。特定区域电线杆、灯柱的高度一般可向市政部门查询。在我们的实施实验中，每一个杆状物体的标准高度（ $N_{h}$ ）是可以计算的。如果 $N_{h}> h_{utility}$ ，该查询杆状物体被标记为电线杆。如果 $N_{h}> h_{lamp}$ ，该查询杆状物体被标记为路灯。如果这两个条件都不满足，则被查询杆状对象被标记为others。

III. EXPERIMENTATION AND ANALYSIS （实验和分析）

Paper4：Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Clo相关推荐

[HSI论文阅读] | Deep Feature Extraction and Classification of Hyperspectral Images Based on CNNs
写在前面论文: Y. Chen, H. Jiang, C. Li, X. Jia and P. Ghamisi, "Deep Feature Extraction and Classifi ...
论文翻译七：Adversarial Transfer Learning for Deep Learning Based Automatic Modulation Classification
30天挑战翻译100篇论文坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...
实体-关系联合抽取：End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
论文地址:https://arxiv.org/pdf/1601.00770.pdf 代码地址:https://github.com/tticoin/LSTM-ER 文章标题:End-to-End Re ...
Real-time voxel based 3D semantic mapping with a hand held RGB-D camera
Real-time voxel based 3D semantic mapping with a hand held RGB-D camera 论文整理作者:Xuan Zhang 整理: ...
CV之IC：计算机视觉之图像分类(Image Classification)方向的简介、使用方法、案例应用之详细攻略
CV之IC:计算机视觉之图像分类(Image Classification)方向的简介.使用方法.案例应用之详细攻略目录图像分类的简介 1.相关概念 2.深度网络模型的开端 3.图像分类网络模型的 ...
【深度学习】网络架构设计：CNN based和Transformer based
从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...
SPH（光滑粒子流体动力学）流体模拟实现六：Position Based Fluid（PBF）
SPH(光滑粒子流体动力学)流体模拟实现六:Position Based Fluid(PBF) PBF方法和前篇提到的PCISPH方法类似,都属于迭代矫正法.PCISPH是通过迭代预测压力,通过压力变 ...
小样本论文笔记5：Model Based - [6] One-shot learning with memory-augmented neural networks.
小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录小样本论文笔记5:Mod ...
实体-关系联合抽取：Incremental Joint Extraction of Entity Mentions and Relations
论文地址:https://www.aclweb.org/anthology/P14-1038.pdf 文章标题:Incremental Joint Extraction of Entity Menti ...

Paper4：Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Clo

Paper4：Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Clo相关推荐

最新文章

热门文章