• 论文地址:VPS
  • 代码地址:GitHub - GewelsJI/VPS: Video Polyp Segmentation (VPS)
  • 数据集说明:VPS/DATA_PREPARATION.md at main · GewelsJI/VPS · GitHub

贡献:

  • 效果:170fps
  • 视频息肉分割数据集:SUN-SEG-Easy Dataset
  • VPS Baseline:PNS+ (baseline是指基线,表示比该方法性能还低的是不能接受的)
  • VPS Benchmark

针对:结肠息肉的多样性(如边界对比、形状、方向、拍摄角度)、内部伪影(如水流、残留物)和成像退化(如颜色失真、镜面反射)。

SUN-SEG数据集

在SUN数据集的基础上,增加了新的注释,包括物体掩码、边界、

网络架构

Global Encoder

将T帧序列中的第一帧(H’, W’, 3)作为锚点,通过全局编码器提取锚点特征Ah∈RHh×Wh×ChA^h ∈ R^{H^h×W^h×C^h}Ah∈RHh×Wh×Ch

Local Encoder

利用滑动窗口内的一块连续帧作为输入,利用编码器提取两组特征high和low

NS块

动态更新感受野

通道划分

得到Q、K、V矩阵(T * H * W * C)后,从通道维度化为N份,得到Qi,Ki,Vi∈RT×H×W×CN{Q_i, K_i, V_i}∈R^{T\times H\times W\times \frac{C}{N}}Qi​,Ki​,Vi​∈RT×H×W×NC​,分别输入N个self-attention模块

查询依赖规则

参考了:PCSA

为了对连续帧之间的时空关系进行建模,需要测量分割的查询特征(Qi)i=1N{(Q_i)}_{i=1}^N(Qi​)i=1N​和关键特征(Ki)i=1N{(K_i)}_{i=1}^N(Ki​)i=1N​之间的相似度,参考PCSA引入N个相关性测量块来计算目标像素的受限领域的空间-时间矩阵。

在Non-local中,计算的是Q中的像素与K中所有像素之间的关系,计算查询位置与所有位置关键特征之间的关系,而本文中的块是渐进的扩大特征块的范围

具体的说,就是类似于金字塔网络,给定QiQ_iQi​矩阵的一个像素点XqX^qXq(更准确地说应该是高x,宽y,第z帧的所有C/8通道像素值),根据窗口的尺寸kkk和空洞卷积的扩张率did_idi​,在KiK_iKi​矩阵中选取高为(x−kdi,x+kdi)(x-kd_i,x+kd_i)(x−kdi​,x+kdi​),宽为(y−kdi,y+kdi)(y-kd_i,y+kd_i)(y−kdi​,y+kdi​),所有帧所有通道的像素值加起来,同时随着N个块中块数的增加,di=2i−1d_i=2i-1di​=2i−1会增加,相当于要获取QiQ_iQi​与更大范围的KiK_iKi​之间的关系。类似于扩大感受野

归一化规则

对QiQ_iQi​利用Norm()Norm()Norm()沿时间维度进行层归一化
Qi^=Norm(Qi)\hat{Q_i}=Norm(Q_i) Qi​^​=Norm(Qi​)

相关性测量

最终的相关度计算公式,整体的形式与原始的transformer的自注意力公式是一样的

Spatial-Temporal(时空聚合)

与相似度计算类似,计算V矩阵与Q和K相似度结果,其实

其实整体的计算过程与transformer的自注意力机制是一样的,不过在计算像素之间的相关的方式改了

soft-attention

通过此模块融合相似度矩阵的特征MiAM^A_iMiA​和时空聚合特征MiTM^T_iMiT​,应该加强相关的时空模式,抑制弱相关的时空模式

先将一组相似度矩阵MiAM_i^AMiA​沿通道维度串联起来,生成MAM^AMA

Max函数计算了MAM^AMA在通道维度上的最大值,然后将一组沿着通道维度的时空聚合特征MiTM^T_iMiT​拼接生成MTM^TMT

归一化的自注意力

WTW_TWT​是可学习的权重,※表示通道式Hadamard积(矩阵对应元素相乘)

哈达玛积:

对于m×nm\times nm×n的两个矩阵A和B,相同位置元素相乘
(a11a12a13a21a22a23a31a32a33)∗(b11b12b13b21b22b23b31b32b33)=(a11b11a12b12a13b13a21b21a22b22a23b23a31b31a32b32a33b33)\left( \begin{matrix} a_{11}\ a_{12}\ a_{13}\\ a_{21}\ a_{22}\ a_{23}\\ a_{31}\ a_{32}\ a_{33}\\ \end{matrix} \right) * \left( \begin{matrix} b_{11}\ b_{12}\ b_{13}\\ b_{21}\ b_{22}\ b_{23}\\ b_{31}\ b_{32}\ b_{33}\\ \end{matrix} \right) = \left( \begin{matrix} a_{11}b_{11}\ a_{12}b_{12}\ a_{13}b_{13}\\ a_{21}b_{21}\ a_{22}b_{22}\ a_{23}b_{23}\\ a_{31}b_{31}\ a_{32}b_{32}\ a_{33}b_{33}\\ \end{matrix} \right) ⎝⎛​a11​ a12​ a13​a21​ a22​ a23​a31​ a32​ a33​​⎠⎞​∗⎝⎛​b11​ b12​ b13​b21​ b22​ b23​b31​ b32​ b33​​⎠⎞​=⎝⎛​a11​b11​ a12​b12​ a13​b13​a21​b21​ a22​b22​ a23​b23​a31​b31​ a32​b32​ a33​b33​​⎠⎞​

NS块的输出

全局-局部学习策略

在任意的时间距离上实现长期和短期的时空传播

Global Spatial-Temporal Modeling

全局时空建模

第一个NS块来模拟任意时间距离的长期关系,需要四维的时间特征作为输入。

利用锚点特征AhA^hAh作为查询矩阵QgQ^gQg,采用局部编码器生成的high特征作为KgK^gKg和QgQ^gQg

目的是建立锚点和局部high特征之间的像素相似性,残差连接,得到ZgZ^gZg,其中+是逐元素相加

Global-to-Local Propagation

第二个NS块,将长距离依赖关系ZgZ^gZg传播到滑动窗口内的帧,将其作为第二个NS块的输入

解码器

将局部编码器的low特征和第二个NS块的输出特征ZlZ^lZl恢复到空间形式,作为一个两级U-Net解码器的输入

利用二进制交叉熵损失进行优化

PCSA

CSA(受约束的self-attetion)专注于局部运动模式,而不是学习全局背景

考虑到突出物体可以有不同的尺寸,并以不同的速度移动,所以利用一组CSA形成金字塔结构

受约束的self-attention

将连续帧中的相关性测量和上下文约束到Q的邻近区域

比如下面这个图,第一帧中的物体与相邻帧中的物体有相似的位置,基于此,对于Q矩阵中的一个特征元素x(t, h, w),取其在K矩阵中的周围区域用来测量相关性,该区域被限制在帧:1-T,高:h-dr,h+dr,宽:w-dr,w+dr

金字塔的组合

这就是应用于PNS-Net中的参考

具有固定尺寸的单一的受约束的自注意力无法识别有各种速度和各种大小引起的移动目标,多头机制每个头都有不同的窗口大小和移动范围,以适应不同的运动情况

将多头与多尺度相结合

多头:并行的,将输入特征沿着通道分为g组,对每一组使用受约束的自注意力

mg-g44DU2tR-1653467435113)]

金字塔的组合

这就是应用于PNS-Net中的参考

具有固定尺寸的单一的受约束的自注意力无法识别有各种速度和各种大小引起的移动目标,多头机制每个头都有不同的窗口大小和移动范围,以适应不同的运动情况

将多头与多尺度相结合

多头:并行的,将输入特征沿着通道分为g组,对每一组使用受约束的自注意力

多尺度:不同的组,采用不同的窗口大小,d和r不同

【论文笔记】视频息肉分割VPS:Video Polyp Segmentation A Deep Learning Perspective相关推荐

  1. 虹膜识别论文1:Iris Recognition With Off-the-Shelf CNN Features: A Deep Learning Perspective 2017年 学习心得

    论文百度一下 官网可以下载. 题目:Iris Recognition With Off-the-Shelf CNN Features: A Deep Learning Perspective 虹膜识别 ...

  2. 视频物体分割--One-Shot Video Object Segmentation

    One-Shot Video Object Segmentation CVPR2017 http://www.vision.ee.ethz.ch/~cvlsegmentation/osvos/ One ...

  3. [论文笔记]图片语义分割 文献综述

    原文:<基于深度学习的图像语义分割方法综述>2019_田萱,引用量=19 1.简介 是什么:ISS 为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签.(田萱,2019) 与目标 ...

  4. enet分割_[论文笔记] 图像语义分割——ENet(ICLR 2017)

    [论文笔记] 图像语义分割--ENet(ICLR 2017) bluestyle • 2019 年 05 月 03 日 介绍 Motivation: 移动应用上的实时像素级语义分割是一个重要的问题,然 ...

  5. 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...

  6. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  7. Brain tumor segmentation using deep learning +HybridResUnet脑胶质瘤分割BraTs +论文解读

    Brain tumor segmentation using deep learning 下载地址 摘要 Brain tumor is one of the deadliest forms of ca ...

  8. 阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

    阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 1.介绍 2.相关工作 2.1 贝叶 ...

  9. 【医学+深度论文:F18】2019 Robust optic disc and cup segmentation with deep learning for glaucoma detection

    18 2019 Computerized Medical Imaging and Graphics Robust optic disc and cup segmentation with deep l ...

最新文章

  1. oracle中的赋权
  2. Base64加密---加密学习笔记(一)
  3. 业务库负载翻了百倍,我做了什么来拯救MySQL架构
  4. iphone如何信任软件_【手机软件】千禾影院:全新观影神器,支持安卓+iOS,最新、最全、高清、免费!...
  5. ThinkPHP的增、删、改、查
  6. Flash发布iOS应用全攻略(二)——如何成为一个合法的iOS开发者
  7. 【CNN】94页论文综述卷积神经网络:从基础技术到研究前景
  8. Seek and Destroy
  9. android 可拖拽控件,安卓实现任意控件view可拖拽,并监听拖拽和点击事件,可自动拉回屏幕边缘...
  10. t3服务器一登录就运行时错误,用友T3软件登陆系统管理提示运行时错误3709
  11. 华为一员工猝死出租屋 警方初步排除他杀
  12. vs2015+openCV(x64)出现运行时”无法查找或打开 PDB 文件”问题
  13. 人生是一个连续的过程,没什么东西能影响人的一生,怎么选择不是问题。问题是每天都要努力 (转)...
  14. NEO改进协议提案2(NEP-2) 1
  15. Method.invoke
  16. Trinity安装全过程并解决部分报错
  17. html的代码怎麼格式化,怎么格式化html代码? Dreamweaver格式化html代码的技巧
  18. 港股打新丨放弃药明巨诺,搞蚂蚁金服
  19. c++ 中乘方的运算符是什么
  20. iOS极光推送和极光IM中的JCore冲突问题

热门文章

  1. flash反编译杂记
  2. 梅林 自动订阅_如何为4万名订阅者编写自动令牌空投脚本
  3. 一种简单的抗锯齿算法
  4. GSM与N-CDMA网络覆盖能力对比研究(转)
  5. html实现ppt的效果,js、css实现ppt的出现效果
  6. 设计精致的入门价位耳机,音质确实不错,瓷音未来Mars上手
  7. linux logger 监控,shell-logger的使用
  8. 欧特克开发者训练营(Autodesk DevCamp 2013)的视频教程可以下载
  9. Who Wants to Be a Millionaire?
  10. php文章打赏系统,给你看看小白博主开发的打赏系统