【论文笔记】视频息肉分割VPS：Video Polyp Segmentation A Deep Learning Perspective

论文地址：VPS
代码地址：GitHub - GewelsJI/VPS: Video Polyp Segmentation (VPS)
数据集说明：VPS/DATA_PREPARATION.md at main · GewelsJI/VPS · GitHub

贡献：

效果：170fps
视频息肉分割数据集：SUN-SEG-Easy Dataset
VPS Baseline：PNS+ (baseline是指基线，表示比该方法性能还低的是不能接受的)
VPS Benchmark

针对：结肠息肉的多样性（如边界对比、形状、方向、拍摄角度）、内部伪影（如水流、残留物）和成像退化（如颜色失真、镜面反射）。

SUN-SEG数据集

在SUN数据集的基础上，增加了新的注释，包括物体掩码、边界、

网络架构

Global Encoder

将T帧序列中的第一帧(H’, W’, 3)作为锚点，通过全局编码器提取锚点特征Ah∈RHh×Wh×ChA^h ∈ R^{H^h×W^h×C^h}Ah∈RHh×Wh×Ch

Local Encoder

利用滑动窗口内的一块连续帧作为输入，利用编码器提取两组特征high和low

NS块

动态更新感受野

通道划分

得到Q、K、V矩阵(T * H * W * C)后，从通道维度化为N份，得到Qi,Ki,Vi∈RT×H×W×CN{Q_i, K_i, V_i}∈R^{T\times H\times W\times \frac{C}{N}}Qi,Ki,Vi∈RT×H×W×NC，分别输入N个self-attention模块

查询依赖规则

参考了：PCSA

为了对连续帧之间的时空关系进行建模，需要测量分割的查询特征(Qi)i=1N{(Q_i)}_{i=1}^N(Qi)i=1N和关键特征(Ki)i=1N{(K_i)}_{i=1}^N(Ki)i=1N之间的相似度，参考PCSA引入N个相关性测量块来计算目标像素的受限领域的空间-时间矩阵。

在Non-local中，计算的是Q中的像素与K中所有像素之间的关系，计算查询位置与所有位置关键特征之间的关系，而本文中的块是渐进的扩大特征块的范围

具体的说，就是类似于金字塔网络，给定QiQ_iQi矩阵的一个像素点XqX^qXq（更准确地说应该是高x，宽y，第z帧的所有C/8通道像素值），根据窗口的尺寸kkk和空洞卷积的扩张率did_idi，在KiK_iKi矩阵中选取高为(x−kdi，x+kdi)(x-kd_i，x+kd_i)(x−kdi，x+kdi)，宽为(y−kdi，y+kdi)(y-kd_i，y+kd_i)(y−kdi，y+kdi)，所有帧所有通道的像素值加起来，同时随着N个块中块数的增加，di=2i−1d_i=2i-1di=2i−1会增加，相当于要获取QiQ_iQi与更大范围的KiK_iKi之间的关系。类似于扩大感受野

归一化规则

对QiQ_iQi利用Norm()Norm()Norm()沿时间维度进行层归一化
Qi^=Norm(Qi)\hat{Q_i}=Norm(Q_i) Qi^=Norm(Qi)

Spatial-Temporal(时空聚合)

与相似度计算类似，计算V矩阵与Q和K相似度结果，其实

其实整体的计算过程与transformer的自注意力机制是一样的，不过在计算像素之间的相关的方式改了

soft-attention

通过此模块融合相似度矩阵的特征MiAM^A_iMiA和时空聚合特征MiTM^T_iMiT，应该加强相关的时空模式，抑制弱相关的时空模式

先将一组相似度矩阵MiAM_i^AMiA沿通道维度串联起来，生成MAM^AMA

Max函数计算了MAM^AMA在通道维度上的最大值，然后将一组沿着通道维度的时空聚合特征MiTM^T_iMiT拼接生成MTM^TMT

归一化的自注意力

WTW_TWT是可学习的权重，※表示通道式Hadamard积(矩阵对应元素相乘)

哈达玛积：

对于m×nm\times nm×n的两个矩阵A和B，相同位置元素相乘
(a11a12a13a21a22a23a31a32a33)∗(b11b12b13b21b22b23b31b32b33)=(a11b11a12b12a13b13a21b21a22b22a23b23a31b31a32b32a33b33)\left( \begin{matrix} a_{11}\ a_{12}\ a_{13}\\ a_{21}\ a_{22}\ a_{23}\\ a_{31}\ a_{32}\ a_{33}\\ \end{matrix} \right) * \left( \begin{matrix} b_{11}\ b_{12}\ b_{13}\\ b_{21}\ b_{22}\ b_{23}\\ b_{31}\ b_{32}\ b_{33}\\ \end{matrix} \right) = \left( \begin{matrix} a_{11}b_{11}\ a_{12}b_{12}\ a_{13}b_{13}\\ a_{21}b_{21}\ a_{22}b_{22}\ a_{23}b_{23}\\ a_{31}b_{31}\ a_{32}b_{32}\ a_{33}b_{33}\\ \end{matrix} \right) ⎝⎛a11 a12 a13a21 a22 a23a31 a32 a33⎠⎞∗⎝⎛b11 b12 b13b21 b22 b23b31 b32 b33⎠⎞=⎝⎛a11b11 a12b12 a13b13a21b21 a22b22 a23b23a31b31 a32b32 a33b33⎠⎞

NS块的输出

全局-局部学习策略

在任意的时间距离上实现长期和短期的时空传播

Global Spatial-Temporal Modeling

全局时空建模

第一个NS块来模拟任意时间距离的长期关系，需要四维的时间特征作为输入。

利用锚点特征AhA^hAh作为查询矩阵QgQ^gQg，采用局部编码器生成的high特征作为KgK^gKg和QgQ^gQg

目的是建立锚点和局部high特征之间的像素相似性，残差连接，得到ZgZ^gZg，其中＋是逐元素相加

Global-to-Local Propagation

第二个NS块，将长距离依赖关系ZgZ^gZg传播到滑动窗口内的帧，将其作为第二个NS块的输入

解码器

将局部编码器的low特征和第二个NS块的输出特征ZlZ^lZl恢复到空间形式，作为一个两级U-Net解码器的输入

利用二进制交叉熵损失进行优化

PCSA

CSA（受约束的self-attetion）专注于局部运动模式，而不是学习全局背景

考虑到突出物体可以有不同的尺寸，并以不同的速度移动，所以利用一组CSA形成金字塔结构

受约束的self-attention

将连续帧中的相关性测量和上下文约束到Q的邻近区域

比如下面这个图，第一帧中的物体与相邻帧中的物体有相似的位置，基于此，对于Q矩阵中的一个特征元素x(t, h, w)，取其在K矩阵中的周围区域用来测量相关性，该区域被限制在帧：1-T，高：h-dr，h+dr，宽：w-dr，w+dr

金字塔的组合

这就是应用于PNS-Net中的参考

具有固定尺寸的单一的受约束的自注意力无法识别有各种速度和各种大小引起的移动目标，多头机制每个头都有不同的窗口大小和移动范围，以适应不同的运动情况

将多头与多尺度相结合

多头：并行的，将输入特征沿着通道分为g组，对每一组使用受约束的自注意力

mg-g44DU2tR-1653467435113)]

金字塔的组合

这就是应用于PNS-Net中的参考

将多头与多尺度相结合

多头：并行的，将输入特征沿着通道分为g组，对每一组使用受约束的自注意力

多尺度：不同的组，采用不同的窗口大小，d和r不同