Abstract

实例分割是场景理解的一项重要任务。与完全开发的2D相比,点云的3D实例分割还有很大的改进空间。在本文中,我们介绍了PointGroup,这是一种新的端到端自下而上的架构,特别专注于通过探索目标之间的空隙空间来更好地对点进行分组。我们设计了一个双分支网络来提取点特征并预测语义标签和偏移量,以将每个点移向其各自的实例质心。遵循聚类组件以利用原始点坐标集和偏移偏移点坐标集,利用它们的互补优势。此外,我们制定了ScoreNet来评估候选实例,然后使用非最大抑制(NMS)来删除重复项。我们在两个具有挑战性的数据集ScanNet v2和S3DIS上进行了广泛的实验,在这两个数据集上,我们的方法实现了最高性能,分别为63.6%和64.0%,而之前的最佳解决方案在IoU阈值为0.5的mAP方面实现了54.9%和54.4%。

1. Introduction

实例分割是一项基本且具有挑战性的任务,不仅需要预测语义标签,还需要预测场景中每个目标的实例IDs。鉴于室外和室内环境在自动驾驶、机器人导航等方面的潜在应用,它最近引起了极大的兴趣。

卷积神经网络提高了2D实例分割的性能[10, 17, 29, 5]。然而,给定无序和非结构化的3D点云,2D方法不能直接扩展到3D点,这使得后者仍然非常具有挑战性[49,19,53]。在本文中,我们通过探索3D目标之间的空隙空间以及语义信息来解决具有挑战性的3D点云实例分割任务,以更好地分割单个目标。


图 1:我们的ScanNet v2方法的3D实例分割示例。实例有不同的颜色。

具体来说,我们为3D实例分割设计了一个名为PointGroup的自下而上的端到端框架,其关键目标是更好地对点进行分组。我们的管道是首先提取每点语义预测并进行有效的点分组以收集候选目标实例。我们利用语义分割主干来提取描述性特征并预测每个点的语义标签。与分割头平行,我们采用偏移分支来学习相对偏移,以将每个点带到其各自的真实实例质心。通过这种方式,我们将同一目标实例的点移向同一质心并将它们聚集得更近,从而能够更好地将点分组为目标并分离同一类的附近目标。

利用预测的语义标签和偏移量,我们采用一种简单而有效的算法将点分组到集群中。对于每个点,我们以它的坐标为参考,将其与附近具有相同标签的点进行分组,并逐步扩大该组。重要的是,我们在两个单独的通道中考虑两个坐标集——原始点位置和那些被预测偏移量移动的点位置。我们将此过程称为“双设定点分组”。这两种类型的结果相互补充,以实现更好的性能。此外,我们设计了ScoreNet来评估和挑选候选组。最后采用非极大值抑制去除重复预测。

我们对具有挑战性的ScanNet v2[8]和S3DIS[2]数据集进行了广泛的实验。 PointGroup在两者上都达到了最高的准确度。对于ScanNet v2,我们在测试集上的表现在mAP50方面为 63.6%,比之前的最佳解决方案[23]高8.7%。对于S3DIS,我们实现了64.0% mAP50、69.6% mPrec50和69.2% mRec50,大大优于所有以前的方法。

总而言之,我们的贡献有三点。

  • 我们提出了一个自下而上的3D实例分割框架,名为PointGroup,以处理具有挑战性的3D实例分割任务。

  • 我们提出了一种基于双坐标集的点聚类方法,即原始集和移位集。与新的ScoreNet一起,可以更好地分割出目标实例。

  • 所提出的方法在各种具有挑战性的数据集上取得了最先进的结果,证明了它的有效性和通用性。

2. Related Work

Deep Learning in 3D Scenes 2D图像像素处于规则网格中,因此可以通过卷积神经网络自然地处理[24、22、42、46、18]。相比之下,3D点云在3D空间中是无序且分散的,给点云场景的理解造成了额外的困难[37, 41]。

几种方法处理数据不规则性。多层感知(MLP)风格的网络,例如PointNet[35, 37],直接将MLP与最大池化一起应用以获取3D中的局部和全局结构。然后将学习到的特征用于点云分类和分割。其他方法[51、48、57、52、21]通过动态上下文聚合和注意模块增强局部区域的特征学习。

除了直接处理不规则输入外,还有几种方法将无序点集转换为有序点集以应用卷积操作。 PointCNN[26]学习点重加权和排列的顺序变换。其他一些方法[30, 43, 47, 39, 13, 7]对齐和体素化点云以生成用于3D卷积的常规3D有序张量。多视图策略[36, 44, 45]也被广泛探索,其中3D点云被投影到2D视图中以进行视图域处理。

2D Instance Segmentation 实例分割旨在找到场景中的前景目标,并用唯一的标签标记每个目标实例。总的来说,有两条主要路线。第一种是基于检测或自上而下的,它直接检测目标实例。早期的作品[14, 15]使用MCG[1]的proposal进行特征提取。[9, 10, 16]的方法采用池化特征来加快处理速度。Mask R-CNN[17]被广泛认为是一种在检测框架中具有额外分割头的有效方法,如Faster R-CNN[38]。进一步的工作[29, 6, 5]增强了实例分割的特征学习。

另一条线是基于分割或自下而上的,其中执行像素级语义分割,然后对像素进行分组以查找目标实例。Zhang等人[56, 55]利用MRF进行局部patch合并。 Arnab和Torr[3]使用CRF。 Bai和Urtasun[4]结合经典的分水岭变换和深度学习来生成能量图以区分各个实例。 Liu等人[28]采用一系列神经网络从像素构造目标。

3D Instance Segmentation 使用可用的大规模3D标记数据集[8, 2],3D点云的实例分割变得很重要。与2D案例类似,当前的3D方法也可以分为两条线。

基于检测的方法提取3D边界框,并在每个框内利用mask学习分支来预测目标mask。杨等人[53]提出了3DBoNet,它可以在每个实例中同时直接预测3D边界框和点级mask。李等人[54]提出了GSPN,它采用综合分析策略来生成实例分割的proposal。侯等人[19]将多视图RGB输入与3D几何相结合,以端到端的方式联合推断目标边界框和相应的实例mask。

相反,基于分割的方法预测语义标签,并利用点嵌入将点分组到目标实例中。 Wang等人[49]通过基于PointNet++等主干预测的语义分割对点进行聚类来设计SGPN。 Liu和Furukawa[27]预测不同尺度下相邻体素之间的语义标签和亲和性,以对实例进行分组。Phm等人[33]开发了一个多任务学习框架,该框架采用多值CRF模型来共同推理两个语义和实例标签。 Wang等人 [50]学习语义感知点级实例嵌入,以有益于语义和实例任务的学习。 Lahoud等人[23]引入了一种多任务学习策略,其中同一实例的点分组更近,不同的集群彼此分离得更远。

与上述方法不同,我们提出了一种名为PointGroup的新方法来解决3D实例分割任务。我们提出的模型主要包含两部分——即(i)学习基于它们在原始坐标空间和移位坐标空间中的语义预测将点分组到不同的簇中,以及(ii)ScoreNet学习预测用于选择的分数适当的集群。整体框架是可区分的。它可以以端到端的方式进行联合优化和训练。

3. Our Method

3.1. Architecture Overview

为了获得3D目标的实例级分割标签,我们考虑两个问题。第一个是将3D空间中的内容分离成单个目标,第二个是确定每个目标的语义标签。与2D图像不同,3D场景不存在视野遮挡问题,3D中分散的目标是通常由空隙空间自然隔开。因此,我们建议利用3D目标的这些特性,根据语义信息将3D内容分组到目标实例中。图2概述了我们方法的架构,它具有三个主要组件,即骨干网、点聚类部分和ScoreNet。


图 2:网络架构示意图。它具有三个主要组件 - (a)骨干网络,(b)聚类部分和©ScoreNet。首先,我们使用主干网络来提取每个点的特征F\mathbf{F}F,然后是两个分支来产生偏移向量O={oi}\mathbf{O}=\left\{o_{i}\right\}O={oi​}和语义标签S={si}\mathbf{S}=\left\{s_{i}\right\}S={si​}。然后,我们引入了一种聚类方法,将点分组为双坐标集上的候选聚类,即原始集P\mathbf{P}P和移动后的Q\mathbf{Q}Q,它们分别产生Cp\mathbf{C}^{p}Cp和Cq\mathbf{C}^{q}Cq。最后,我们使用ScoreNet生成集群分数Sc\mathbf{S}_{c}Sc​。颜色集f={fi}\mathbf{f}=\left\{f_{i}\right\}f={fi​}作为主干的输入特征。

骨干网络的输入(图2(a))是N个点的点集P\mathbb{P}P。每个点都有一个颜色fi=(ri,gi,bi)f_{i}=\left(r_{i}, g_{i}, b_{i}\right)fi​=(ri​,gi​,bi​)和3D坐标pi=(xi,yi,zi)p_{i}=\left(x_{i}, y_{i}, z_{i}\right)pi​=(xi​,yi​,zi​),其中i∈{1,…,N}i \in\{1, \ldots, N\}i∈{1,…,N}。主干为每个点提取特征FiF_{i}Fi​。我们将主干的输出特征表示为F={Fi}∈RN×K\mathbf{F}=\left\{F_{i}\right\} \in \mathbb{R}^{N \times K}F={Fi​}∈RN×K,其中KKK是通道数。然后我们将F\mathbf{F}F输入两个分支,一个用于语义分割,另一个用于预测每个点的偏移向量,以将每个点移向其各自目标实例的质心。令sis_{i}si​和oi=(Δxi,Δyi,Δzi)o_{i}=\left(\Delta x_{i}, \Delta y_{i}, \Delta z_{i}\right)oi​=(Δxi​,Δyi​,Δzi​)分别表示点iii的预测语义标签和偏移向量。

获得语义标签后,我们开始根据目标之间的空隙空间将点分组为实例聚类。在点聚类部分(图2(b)),我们引入了一种聚类方法,如果它们具有相同的语义标签,则将彼此接近的点分组到同一个聚类中。然而,直接基于点坐标集P={pi}\mathbf{P}=\left\{p_{i}\right\}P={pi​}进行聚类可能无法将3D空间中彼此靠近的同类别目标分开并错误分组,例如并排悬挂的两张图片墙。

因此,我们使用学习到的偏移量oio_{i}oi​将点iii向其各自的实例质心移动,并获得移动后的坐标qi=pi+oi∈R3q_{i}=p_{i}+o_{i} \in \mathbb{R}^{3}qi​=pi​+oi​∈R3。对于属于同一目标实例的点,与pip_{i}pi​不同,偏移坐标qiq_{i}qi​在同一质心周围杂乱无章。因此,通过基于偏移坐标集Q={qi}\mathbf{Q}=\left\{q_{i}\right\}Q={qi​}的聚类,我们可以更好地分离附近的目标,即使它们具有相同的语义标签。

但是,对于靠近目标边界的点,预测的偏移量可能不准确。因此,我们的聚类算法采用“dual”点坐标集,即原始坐标P\mathbf{P}P和移动坐标Q\mathbf{Q}Q。我们将聚类结果C\mathbf{C}C表示为Cp={C1p,…,CMpp}\mathbf{C}^{p}=\left\{C_{1}^{p}, \ldots, C_{M_{p}}^{p}\right\}Cp={C1p​,…,CMp​p​}和Cq={C1q,…,CMqq}\mathbf{C}^{q}=\left\{C_{1}^{q}, \ldots, C_{M_{q}}^{q}\right\}Cq={C1q​,…,CMq​q​}的并集,分别是基于P\mathbf{P}P和Q\mathbf{Q}Q发现的聚类。这里,MpM_{p}Mp​和MqM_{q}Mq​分别表示Cp\mathbf{C}^{p}Cp和Cq\mathbf{C}^{q}Cq中的聚类数,M=Mp+MqM=M_{p}+M_{q}M=Mp​+Mq​表示总数。

最后,我们构建ScoreNet(图2©)来处理建议的点聚类C=Cp∪Cq\mathbf{C}=\mathbf{C}^{p} \cup \mathbf{C}^{q}C=Cp∪Cq,并为每个聚类建议生成一个分数。然后将NMS应用于这些具有分数的proposal,以生成最终实例预测。在下文中,我们将实例预测表示为G={G1,…,GMpred }⊆C\mathbf{G}=\left\{G_{1}, \ldots, G_{M_{\text {pred }}}\right\} \subseteq \mathbf{C}G={G1​,…,GMpred ​​}⊆C和ground-truth实例为I={I1,…,IMgt}\mathbf{I}=\left\{I_{1}, \ldots, I_{M_{g t}}\right\}I={I1​,…,IMgt​​}。这里,GiG_{i}Gi​和IiI_{i}Ii​是P\mathbb{P}P的子集,而Mpred M_{\text {pred }}Mpred ​和Mgt M_{\text {gt }}Mgt ​分别表示G和I中的实例数。同样,我们用NiIN_{i}^{I}NiI​和NiGN_{i}^{G}NiG​分别表示IiI_{i}Ii​和GiG_{i}Gi​中的点数。

3.2. Backbone Network

我们可以使用任何点特征提取网络作为骨干网络(图2(a))。在我们的实现中,我们对这些点进行体素化,并按照[13]的过程构建具有子流形稀疏卷积(SSC)和稀疏卷积(SC)的U-Net[25, 40]。然后我们从体素中恢复点以获得逐点特征。 U-Net很好地提取了上下文和几何信息,为后续处理提供了判别性的逐点特征F\mathbf{F}F。之后,我们基于逐点特征F\mathbf{F}F构建两个分支来预测每个点的语义标签sis_{i}si​和偏移向量oio_{i}oi​。

Semantic Segmentation Branch 我们将MLP应用于F\mathbf{F}F以产生语义分数SC={sc1,…,scN}∈RN×Nclass\mathbf{S C}=\left\{s c_{1}, \ldots, s c_{N}\right\} \in \mathbb{R}^{N \times N_{c l a s s}}SC={sc1​,…,scN​}∈RN×Nclass​用于NclassN_{class}Nclass​类上的N个点,并通过交叉熵损失LsemL_{sem}Lsem​对结果进行正则化。点iii的预测语义标签sis_{i}si​是得分最高的类,即si=argmax⁡(sci)s_{i}=\operatorname{argmax}\left(s c_{i}\right)si​=argmax(sci​)。

Offset Prediction Branch 偏移分支对F\mathbf{F}F进行编码以产生NNN个偏移向量O={o1,…,oN}∈RN×3\mathrm{O}=\left\{o_{1}, \ldots, o_{N}\right\} \in \mathbb{R}^{N \times 3}O={o1​,…,oN​}∈RN×3用于NNN个点。对于属于同一实例的点,我们通过L1回归损失将它们的学习偏移限制为

Lo−reg=1∑imi∑i∥oi−(c^i−pi)∥⋅mi,(1)L_{o_{-} r e g}=\frac{1}{\sum_{i} m_{i}} \sum_{i}\left\|o_{i}-\left(\hat{c}_{i}-p_{i}\right)\right\| \cdot m_{i}, \tag{1} Lo−​reg​=∑i​mi​1​i∑​∥oi​−(c^i​−pi​)∥⋅mi​,(1)

其中m={m1,…,mN}\mathbf{m}=\left\{m_{1}, \ldots, m_{N}\right\}m={m1​,…,mN​}是二进制mask。如果点iii在实例上,则mi=1m_{i}=1mi​=1,否则mi=0m_{i}=0mi​=0。 c^i\hat{c}_{i}c^i​是点iii所属实例的质心,即
c^i=1Ng(i)I∑j∈Ig(i)pj(2)\hat{c}_{i}=\frac{1}{N_{g(i)}^{I}} \sum_{j \in I_{g(i)}} p_{j} \tag{2} c^i​=Ng(i)I​1​j∈Ig(i)​∑​pj​(2)

其中g(i)g(i)g(i)将点iii映射到其对应的ground-truth实例的索引,即包含点iii的实例。Ng(i)IN_{g(i)}^{I}Ng(i)I​是实例Ig(i)I_{g(i)}Ig(i)​中的点数。

上述机制看起来类似于VoteNet[34]中的投票生成策略。然而,我们不是基于几个子采样种子点的投票来回归边界框,而是预测每个点的偏移向量以围绕一个共同的实例质心收集实例点,以便更好地将相关点聚集到同一个实例中。此外,我们观察到从点到它们的实例质心的距离通常具有较小的值(0到1m)。图3b给出了ScanNet数据集中这种距离分布的统计分析。考虑到不同类别的不同目标大小,我们发现网络很难回归精确的偏移量,特别是对于大尺寸目标的边界点,因为这些点距离实例质心相对较远。为了解决这个问题,我们制定了方向损失来约束预测偏移向量的方向。我们按照[23]将损失定义为负余弦相似度的一种方法,即

Lo−dir=−1∑imi∑ioi∥oi∥2⋅c^i−pi∥c^i−pi∥2⋅mi.(3)L_{o_{-} d i r}=-\frac{1}{\sum_{i} m_{i}} \sum_{i} \frac{o_{i}}{\left\|o_{i}\right\|_{2}} \cdot \frac{\hat{c}_{i}-p_{i}}{\left\|\hat{c}_{i}-p_{i}\right\|_{2}} \cdot m_{i} . \tag{3} Lo−​dir​=−∑i​mi​1​i∑​∥oi​∥2​oi​​⋅∥c^i​−pi​∥2​c^i​−pi​​⋅mi​.(3)

这种损失与偏移向量范数无关,并确保点向它们的实例质心移动。

3.3. Clustering Algorithm

给定预测的语义标签和偏移向量,我们准备将输入点分组到实例中。为此,我们介绍了一种简单而有效的聚类算法。在算法1中有详细说明。

我们算法的核心步骤是,对于点iii,我们在以xix_{i}xi​(点iii的坐标)为中心的半径为r的球内得到点,并将与点i具有相同语义标签的点分组到同一个聚类中。这里,r作为聚类中的空间约束,使得距离大于r的两个类别内目标不被分组。在这里,我们使用广度优先搜索将同一实例的点分组到一个聚类中。在我们的实现中,对于场景中的点,可以在聚类之前并行找到r球内的相邻点以提高速度。

如第3.1节所述,我们将聚类算法分别应用于“对偶”集,即原始坐标集P\mathbf{P}P和移动集Q\mathbf{Q}Q,以生成聚类集Cp\mathbf{C}^{p}Cp和Cq\mathbf{C}^{q}Cq。在P\mathbf{P}P上聚类可能会错误地将附近的同类目标分组,而在Q\mathbf{Q}Q上聚类则没有这个问题,但可能无法处理大目标的边界点。由于它们的互补特性,我们共同使用P\mathbf{P}P和Q\mathbf{Q}Q来寻找候选集群。第4.2.2节介绍了单独使用P\mathbf{P}P、单独使用Q\mathbf{Q}Q或同时使用P\mathbf{P}P和Q\mathbf{Q}Q的聚类性能分析。

3.4. ScoreNet

ScoreNet的输入是候选聚类集C={C1,…,CM}\mathbf{C}=\left\{C_{1}, \ldots, C_{M}\right\}C={C1​,…,CM​},其中MMM表示候选聚类的总数,CiC_{i}Ci​表示第iii个聚类。此外,我们使用NiN_{i}Ni​来表示CiC_{i}Ci​中的点数。ScoreNet的目标是预测每个聚类的分数,以指示相关聚类proposal的质量,以便我们可以在NMS中精确地保留更好的聚类,从而结合Cp\mathbf{C}^{p}Cp和Cq\mathbf{C}^{q}Cq的强度。

首先,对于每个聚类,我们从F∈RN×K\mathbf{F} \in \mathbb{R}^{N \times K}F∈RN×K(主干提取的特征)中收集点特征并形成FCi={Fh(Ci,1),…,Fh(Ci,Ni)}\mathbf{F}_{C_{i}}=\left\{F_{h\left(C_{i}, 1\right)}, \ldots, F_{h\left(C_{i}, N_{i}\right)}\right\}FCi​​={Fh(Ci​,1)​,…,Fh(Ci​,Ni​)​}聚类CiC_{i}Ci​,其中hhh将CiC_{i}Ci​中的点索引映射到P\mathbb{P}P中的对应点索引。类似地,我们将CiC_{i}Ci​中的点的坐标表示为PCi={ph(Ci,1),…,ph(Ci,Ni)}\mathbf{P}_{C_{i}}=\left\{p_{h\left(C_{i}, 1\right)}, \ldots, p_{h\left(C_{i}, N_{i}\right)}\right\}PCi​​={ph(Ci​,1)​,…,ph(Ci​,Ni​)​}。

为了更好地聚合聚类信息,我们将FCi\mathbf{F}_{C_{i}}FCi​​和PCi\mathbf{P}_{C_{i}}PCi​​作为初始特征和坐标,并以与我们在骨干网络开始时相同的方式对集群进行体素化。每个体素的特征是从该体素中点的初始特征平均池化的。 然后我们将它们输入一个带有SSC和SC的小型U-Net以进一步编码特征。然后遵循聚类感知的最大池化以产生每个聚类的单个聚类特征向量fCi∈R1×Kcf_{C_{i}} \in \mathbb{R}^{1 \times K_{c}}fCi​​∈R1×Kc​。最终的聚类分数Sc={s1c,…,sMc}∈RM\mathbf{S}_{c}=\left\{s_{1}^{c}, \ldots, s_{M}^{c}\right\} \in \mathbb{R}^{M}Sc​={s1c​,…,sMc​}∈RM获得为

Sc=Sigmoid⁡(MLP⁡(FC)),(4)\mathbf{S}_{c}=\operatorname{Sigmoid}\left(\operatorname{MLP}\left(\mathbf{F}_{C}\right)\right), \tag{4}Sc​=Sigmoid(MLP(FC​)),(4)

其中FC={fC1,…,fCM}∈RM×Kc\mathbf{F}_{C}=\left\{f_{C_{1}}, \ldots, f_{C_{M}}\right\} \in \mathbb{R}^{M \times K_{c}}FC​={fC1​​,…,fCM​​}∈RM×Kc​。 ScoreNet的结构如图3a所示。


图 3:(a)ScoreNet的结构。(b)ScanNet数据集[8](包括训练集和验证集)中点到它们各自实例质心的距离分布。

受[25, 20]的启发,为了在分数中反映聚类的质量,我们使用软标签代替二进制0/1标签来监督预测的聚类分数为

s^ic={0iou i<θl1iou i>θh1θh−θl⋅(iou i−θl)otherwise (5)\hat{s}_{i}^{c}= \begin{cases}0 & \text { iou }_{i}<\theta_{l} \\ 1 & \text { iou }_{i}>\theta_{h} \\ \frac{1}{\theta_{h}-\theta_{l}} \cdot\left(\text { iou }_{i}-\theta_{l}\right) & \text { otherwise }\end{cases} \tag{5} s^ic​=⎩⎨⎧​01θh​−θl​1​⋅( iou i​−θl​)​ iou i​<θl​ iou i​>θh​ otherwise ​(5)

其中θl\theta_{l}θl​和θh\theta_{h}θh​在我们的实现中根据经验分别设置为0.25和0.75,iouii o u_{i}ioui​是聚类CiC_{i}Ci​和ground-truth实例之间的最大联合交集(IoU)。

iou i=max⁡({IoU⁡(Ci,Ij)∣Ij∈I})(6)\text { iou }_{i}=\max \left(\left\{\operatorname{IoU}\left(C_{i}, I_{j}\right) \mid I_{j} \in \mathbf{I}\right\}\right) \tag{6}  iou i​=max({IoU(Ci​,Ij​)∣Ij​∈I})(6)

然后我们使用二元交叉熵损失作为我们的分数损失,公式为
Lc−score =−1M∑i=1M(s^iclog⁡(sic)+(1−s^ic)log⁡(1−sic)).(7)L_{c_{-} \text {score }}=-\frac{1}{M} \sum_{i=1}^{M}\left(\hat{s}_{i}^{c} \log \left(s_{i}^{c}\right)+\left(1-\hat{s}_{i}^{c}\right) \log \left(1-s_{i}^{c}\right)\right) .\tag{7} Lc−​score ​=−M1​i=1∑M​(s^ic​log(sic​)+(1−s^ic​)log(1−sic​)).(7)

3.5. Network Training and Inference

Training 我们以端到端的方式训练整个框架,总损失为

L=Lsem+Lo−dir+Lo−reg+Lc−score.(8)L=L_{s e m}+L_{o_{-} d i r}+L_{o_{-} r e g}+L_{c_{-} s c o r e} . \quad\quad\quad\quad(8) L=Lsem​+Lo−​dir​+Lo−​reg​+Lc−​score​.(8)

Inference 在推理过程中,我们对具有预测分数Sc\mathbf{S}_{c}Sc​的聚类C\mathbf{C}C执行NMS以获得最终实例预测G⊆C\mathbf{G} \subseteq \mathbf{C}G⊆C。IoU阈值根据经验设置为0.3。由于我们基于语义信息进行聚类,因此聚类的语义标签正是聚类点所属的类别。

5. Conclusion

我们提出了用于3D实例分割的PointGroup,特别关注通过探索目标实例之间的空间和点语义标签来更好地分组点。考虑到两个类别内目标可能彼此非常接近的情况,我们设计了一个双分支网络,分别学习每个点的语义标签和每个点的偏移向量,用于将每个点移向其各自的实例质心。然后,我们基于原始点坐标和偏移点坐标对点进行聚类。它结合了两个坐标集的互补优势来优化点分组精度。此外,我们引入了ScoreNet来学习评估生成的候选集群,然后是NMS以避免在我们输出最终预测实例之前出现重复。PointGroup取得了有史以来最好的成绩。

在我们未来的工作中,我们计划进一步引入渐进式细化模块,以缓解影响实例分组的语义不准确问题,并探索结合弱监督或自我监督技术以进一步提高性能的可能性。


(CVPR 2020) PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation相关推荐

  1. (CVPR 2020) PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

    Abstract 我们提出了一种新颖的高性能3D目标检测框架,名为PointVoxel-RCNN(PV-RCNN),用于从点云进行准确的3D目标检测.我们提出的方法深度集成了3D体素卷积神经网络(CN ...

  2. CVPR 2020——OccuSeg: Occupancy-aware 3D Instance Segmentation

    OccuSeg: Occupancy-aware 3D Instance Segmentation Abstract (一)Introduction (二)Related Work (三)Method ...

  3. CVPR 2020 论文总结:Weakly Supervised Semantic Point Cloud Segmentation: Towards 10×Fewer Labels

    Weakly Supervised Semantic Point Cloud Segmentation: Towards 10×FewerLabels (本文是看完了这篇论文做的总结,有不对的地方欢迎 ...

  4. MASKGROUP: HIERARCHICAL POINT GROUPING AND MASKING FOR 3D INSTANCE SEGMENTATION

    ABSTRACT 本文研究了 3D 实例分割问题,该问题在机器人技术和增强现实等现实世界中具有多种应用.由于3D物体的周围环境非常复杂,不同物体的分离非常困难.为了解决这个具有挑战性的问题,我们提出了 ...

  5. [SGN]SGN: Sequential Grouping Networks for Instance Segmentation

    Abstract 香港中文大学ICCV 2017的文章 实例分割是一个结合了物体检测和语义分割的任务,物体遮挡和数量差异大的物体是实例分割中的主要困难.本文考虑到实例分割的困难性,提出将这个复杂的任务 ...

  6. CVPR 2020 论文和开源项目合集(Papers with Code)

    CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享CVPR 2020开源项目 [推荐阅读] CVPR 2020 virtual ECCV 2020 论文开源项目合集来了:htt ...

  7. CVPR 2020代码开源的论文最全合集

    前言 之前Amusi整理了1467篇CVPR 2020所有论文PDF下载资源,详见:全在这里了! CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享 ...

  8. 300+篇CVPR 2020代码开源的论文,全在这里了!

    CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内外的CVPR 2020论文作者提交issue,分享他们的工 ...

  9. 300+篇CVPR 2020代码开源的论文,全在这里了

    300+篇CVPR 2020代码开源的论文,全在这里了! CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内 ...

  10. CVPR 2020 论文大盘点-目标检测篇

    本文盘点CVPR 2020 所有目标检测相关论文,总计64篇论文,感觉最大的特点是3D目标检测研究工作很多有21篇,尤其是工业界单位,可能是自动驾驶热带来的.2D目标检测依然很热,神经架构搜索也开始在 ...

最新文章

  1. 大数据笔记2019.5.11
  2. Helios与Katana的区别
  3. 多元价值呼唤教育性父母
  4. MySQL基本操作(表,字段)
  5. char型变量中能不能存储一个中文汉字?为什么?
  6. WIndows10系统解决“选择电源按钮的功能”中没有休眠选项
  7. echarts 柱状图
  8. linux部署python web项目 详细_在linux服务器下部署python工程(爬虫)
  9. android中shape资源定义,Android中drawable使用Shape资源
  10. 如何实现系统集约与管理运营集约相互促进而不是相互制约
  11. 算法:Sqrt(x) (x 的平方根)
  12. 超级计算机更深的蓝,国际象棋发生革命性变化 老棋手深感力不从心
  13. 将脑图像转换成伪彩色
  14. 元宇宙的第一步,应该在汽车里迈出去?
  15. Beacon API的应用
  16. 读取JPEG文件的压缩质量/质量因子参数
  17. function的用法()
  18. 避坑指南:Zotero的文件管理与同步zotfile、webdav
  19. 阿里一员工被判刑,涉及金额66亿,获利千万
  20. 贝叶斯模型的理解(1)

热门文章

  1. 黑盒测试---等价类划分
  2. [乐意黎原创] 送李愿归盘谷序
  3. Windows10打印机共享无法连接到打印机:0x0000011b
  4. 转载:声优 - 野上ゆかな
  5. iOS -- 播放本地音频文件 (Swift)
  6. mint-ui引用iconfont图标
  7. 优动漫PAINT入门宝典(图层篇)——混合模式
  8. 新浪云python开发_Python开发入门与实战17-新浪云部署
  9. 计算机专业设计(论文)内容及要求,计算机专业毕业设计要求.doc
  10. IMAP4协议介绍nbsp;工作原理