Faster BiSeNet：A Faster Bilateral SegmentationNetwork for Real-time Semantic Segmentation

更快的BiSeNet：用于实时语义分割的更快的双边分割网络

提出了一种基于BiSeNetV2的更快的双边分割网络（faster BiSeNet），它以更紧凑的结构促进了空间和语义分支的特征融合，以提高实时性能

尽管BiseNetV2在速度和准确性方面取得了显著进步，但在初始下采样阶段和聚合层仍存在一些冗余，这阻碍了空间和语义分支的信息交换。我们进行了更简洁的设计，以减少冗余网络架构并加强两个分支之间的相互关系。

轻量级设计通过以下方式增强了浅层和深层两个分支之间的相互连接：

1）浅层特征共享：使用简单的线性运算将空间分支的浅层特征转换为语义分支所需的浅层；

2）深度特征聚合：引入门控引导聚合层，以引导适当的空间信息，通过门控机制补充语义分支的缺失细节，避免使用不必要的卷积来选择聚合的特征；

3）辅助边缘丢失：使空间分支的门控输出集中于重要的边界相关信息，这有助于将有价值的边缘信息融合到预测结果中。

实时性能的提高通常会导致准确性的显著下降。因此，如何在不牺牲高分辨率图像输入的太多准确性的情况下提高推理速度是一个具有挑战性的问题。为了解决这个问题，BiSeNet首先提出了一种采用双分支架构的双边分割网络，其中深分支用于捕获高级语义，而浅分支用于学习低级细节。两个分支输出的融合被用作最终的分割结果。深分支采用快速下采样策略以快速扩大感受野。

在深度分支中，对全分辨率输入的执行仅在少数层上使用，这节省了计算成本。浅分支遵循宽通道和浅层的设计，为最终分割结果提供足够的细节。双分支架构在速度和准确性之间取得了很好的平衡。

语义分割网络的两个分支分别为空间分支和语义分支；空间分支用于保留图像数据的浅层空间信息；语义分支用于提取图像数据的深层语义信息；

由于空间分支和语义分支之间存在相似的浅层特征，这里在浅层空间采用特征共享，使用余弦距离来测量特征之间的相似性。通过对相应空间特征的简单线性操作来生成浅语义特征，这使我们能够简化初始下采样阶段。

与我们的方法相比，Fast SCNN直接利用浅层语义特征作为空间分支的输出来实现浅层特征共享，这不能确保空间分支的输入包含足够的详细信息。

设计了一个门控引导聚集层（GGAL）来引导特征聚集。门控机制的添加可以控制适当的信息通过相关的门传播。由于语义分支提供了强语义，但缺少详细信息，因此设计门的原则是在语义输出缺少相应信息时，既发送两个分支的有用信息，又从空间分支接收补充细节。门控机制的设计可以有效地细化预测结果并最小化聚合层中的冗余。

辅助边缘损失优化了空间分支的选通输出，以确保输出包含丰富的空间细节，尤其是边缘信息。详细信息被聚集到最终预测中，该最终预测可以在对象边界周围锐化预测，并在不增加推理复杂性的情况下进一步提高小对象的准确性。

总结如下：

•我们提出了浅层特征共享，以促进信息交换并简化初始下采样阶段。

•我们引入了一种新的门控引导聚合层，该层控制适当的空间信息以补充缺失的细节并减少网络冗余。

•辅助边缘损失促进了边界相关信息的学习，并在不增加任何推理成本的情况下改进了聚合结果。

SEM X-Y表示语义分支下采样中第X阶段的第Y通道......余弦距离（余弦相似度）

用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

当两向量夹角余弦等于1时，这两向量完全重复；

当夹角的余弦值接近于1时，两向量相似；

夹角的余弦越小，两向量越不相关。

所有空间特征图和对应语义特征图之间的五个最小余弦距离在BISENETV2中具有相同分辨率。

根据余弦距离结果得出总结：

一个语义特征图可以至少找到5个相似的空间特征图，所以，可以通过对相应空间特征的简单线性操作来生成浅语义特征，这使我们能够简化初始下采样阶段。

ENet减少了下采样次数，以实现更紧凑的框架和更快的速度。SegNet构建了一个轻量级结构，结合了跳过连接和池索引策略，以加快网络推理。ICNet使用具有多分辨率分支的图像级联网络，以获得高分辨率输入图像的快速和良好精度。DFANet重用高级特征并组合不同阶段的输出以增强多尺度特征表示。

上述方法在实时推理速度上获得了良好的性能，但它们未能考虑低层次空间细节对语义分割任务的积极影响。

双边分割网络被引入，以利用低层次细节和高层次语义来实现高精度和高效率。这些方法采用与BiSeNetV2类似的结构。然而，在最初的下采样阶段，两个分支机构的划分不利于信息的相互作用因此，Faster BiSeNet结合了一个共享的浅层网络来编码细节，而语义仍然可以通过深层的低分辨率特征有效学习。直观地说，我们提出的方法实现了浅层特征共享，以便于信息交换并减少语义分支的初始下采样阶段。

a）BiSeNetV2 b）Faster BiSeNet ——蓝色：空间分支，绿色：语义分支

Sx表示空间和语义分支下采样的第x阶段。立方体中的数字表示特征图大小与原始输入分辨率的比率。

双边网络中，在语义分支上添加一系列辅助分割预测头可以促进最终预测结果的优化。空间分支可以假设为形状流。添加辅助边缘损失可以优化空间分支的门控输出，可以增强低层细节信息，并促进对边界和小对象的预测。

实时高性能语义分割方法由四个部分组成：特征共享层（FSL）、双路径编码器网络（TPEN）、门控引导聚合层（GGAL）和增强训练网络（BTN）

,分别表示逐元素乘法和逐元素加法。

和被视为空间分支和语义分支的S形输出。Up×4表示四次上采样操作，σ表示S形函数

将输入图像发送到空间分支以在FSL中生成浅空间特征。然后通过简单的1×1卷积将特征转化为浅层语义特征。接下来，原始生成的空间特征被直接用作空间分支的输出，而转换后的浅层语义特征通过TPEN中的语义分支进一步生成高级语义。我们设计中的空间和语义分支的特征图对应于原始输入图像的1/8和1/32进行下采样。之后，GGAL有选择地聚合两个分支的特征表示以获得预测结果。

最后，通过简单的双线性插值将预测结果上采样到原始图像的大小。采用BTN来加强网络的训练。

与负责底层细节的空间分支需要宽通道和浅层不同，语义分支应该捕获高层语义。深度卷积和反向残差块可以帮助语义分支实现快速下采样，以扩大感受野并有效提高特征表示的水平。在语义分支中，我们利用集合和扩展层以及上下文嵌入块来提取高级语义