背景:Unet结构在分割,重建以及GAN等网络之中被广泛采用,非常经典。网络于2015年5月提出,在后续图像分割领域广泛运用。

论文地址  https://arxiv.org/abs/1505.04597

目录

一、概览

1.1 全新方法

1.2 分割准确

1.3 速度快

二、背景

2.1 图像定位网络

2.2 基于滑窗的分割

2.3 本文方法

三、方法

3.1 网络结构

3.2 训练过程

3.3 数据增强

四、实验

4.1 评价指标

4.2 实验性能

五、结论及个人总结

六、后续相关论文及链接

R2U-Net   ,2018 CVPR

UNet++     ,2018 CVPR

Attention U-Net      ,2018 CVPR

nnU-Net      ,2019 CVPR


一、概览

1.1 全新方法

深度网络训练之中需要大量的有标样本,Unet作者提供了一种新的训练方法,可以更有效的运用相应的有标样本。

  • Contracting path:提取语义信息
  • Symmetric expanding path:确保精确定位

作者提出了一种全新的方法,全卷积网络fully convolutional network,使网络即使通过少量的训练图片也可以进行更精确的分割。网络的主要想法是通过successive layer来实现,即把pooling.

1.2 分割准确

作者通过实验验证了,网络即使通过少量样本的训练也可以在ISBI分割挑战上超越当时最好的方法(滑窗卷积网络)。

1.3 速度快

分割一个512*512大小的图片,在单显卡上只需要1秒。

二、背景

2.1 图像定位网络

近两年(2014-2015年),深度网络在一些视觉识别的任务中被广泛应用。

  • Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
  • Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)

但是深度网络受限于可得到训练集的大小及数量,更大更深的网络以及更大的数据集可以更好的提升性能。

  • Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)

但是更经典的运用,不仅仅受限于分类问题,也需要对目标进行定位。例如定位到每个像素点上的类别。同时,大量的训练样本(thoustands of)往往是不可得的。

2.2 基于滑窗的分割

滑窗法提出被用于判定每个pixel属于哪个class label

  • Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp.2852–2860 (2012)

网络直接将滑窗的patchs送入,首先可以解决定位的问题,其次可以将训练数据数量可以远远大于训练集的图像的数量。

缺点:

  • 网络必须分开的对每个取窗的patch进行训练,patches之间有大量的重叠则会出现重复训练
  • 定位精确度与context之间有trade-off。大的patch需要更大的pooilng层,使得定位误差增大;同时,小的patch使得网络提取出更少的语义信息。

2.3 本文方法

创建一个全卷积网络,fully convolution network来用于提取出相应的特征。网络只需要少量的训练数据并且可以有更高的分割准确率。

  • 额外的引入了successive layer,使得pooing操作之后会跟上采样操作。
  • 高分辨率的feature可以从contractin path来与相应的上采样结合。Successive convolution层可以更好的集成更加精确的信息。
  • 上采样部分,有更多的feature channel,可以让网络有更高的分辨率。
  • 因此,expansive path与contracting path是近似对称的关系。使得网络是一个U型的结构。
  • 网络没有全连接层,只有相应的卷积层。
  • 网络的最终的分割图像是与输入像素相同的图像。运用了overlap-title策略,使得在任意图像分类上都达到无缝分类。
  • 对图片进行了镜像,使得图像边缘也能很好的分割。并且使得图片大小不再受限制与GPU内存。

三、方法

3.1 网络结构

网络左边为contracting path,右边为expansive path。

  • Contracting path为常规的3×3卷积结构,与ReLU,还有2×2的max pooling。每次下采样,都将featuremap的channel变为之前的两倍。
  • Expansive path为上采样过程,每次都是2*2的上采样卷积过程,并且将相应的feature channel减少为之前的一半。
  • 与上采样对应的下采样过程中的feature会被连接。
  • cropping过程是必需的,因为每次卷积过程边缘的像素点都会损失。
  • 最终的网络有23层的卷积层。

3.2 训练过程

运用带冲量的随机梯度下降算法(SGD)来对网络进行训练。运用较大的冲量momentum=0.99 ,这样网络训练时候 a large number of the previously seen training samples determine the update in the current optimization step

To minimize the overhead and make maximum use of the GPU memory, we favor large input tiles over a large batch size and hence reduce the batch to a single image.

Enery function

最终的energy function被定义为 pixel-wise soft-max over the final feature map,同时加了一个交叉熵函数。

其中,soft-max定义为:

  • 表示在feature channel k的激活。
  • k表示feature channel的的第k个。
  • x表示像素点,Z表示patch的大小
  • K表示类别的个数
  • 近似于maximum-function
  • 例如果 k that has the maximum activation ak(x)
  • 对于其他的k,则

图像最终在每个位置上的softmax和交叉熵结合为:

  • 对于每个像素来说,标签为:
  • Weight map为:
  • weight map在实验前阶段通过计算获得:

  • w(x)用于平衡不同类别出现的频率
  • 表示细胞与最近的边界的距离
  • 表示细胞与第二近的边界的距离。

3.3 数据增强

这部分虽然论文中提及较少,但是数据增强对于网络来讲非常重要,并且文中提到了非常实用的数据增强的方法。

因为医学样本较少,但是仍然需要网络具有平移与旋转不变性,并且对形变和灰度变化鲁棒。

  • 使用随机位移矢量在粗糙的3*3网格上(random displacement vectors on a coarse 3 by 3 grid)产生平滑形变(smooth deformations)。
  • 位移是从10像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每个像素的位移。
  • 在contracting path的末尾采用drop-out 层更进一步增加数据。

四、实验

4.1 评价指标

作者在三个目标分割数据集上进行了相应的实验。并且有三种评价指标:

Pixel error

预测错误的像素点的个数除以总像素个数。对于二进制的labels,欧式距离和汉明距离结果相同。优点:简单 缺点:过分敏感,可能已经到达了较好的分割效果,却有很大的pixel error。

warping error

是一种segmention metric,基于数字拓扑领域概念,比较边界标签的另一种指标。当pixel error很大当分割效果更好可以引入warping error,主要用来衡量分割目标的拓扑形状效果。

主要来衡量分割目标的拓扑形状效果。给定L∗的pixel error,候选标注T(预测值)和参考标注L∗(实际值)的warping error可以认为是L∗和对于T最好的L∗的汉明距离。

Rand error

两个数据聚类的相似性评价方法,改造之后用来衡量分割性能,因为分割可以看作是聚成类的像素。

给定一张图片S,有n个像素点,同时有两个分割X和Y

a:两个分割中同属于一个聚类的像素点数量

b:两个分割中都不属于一个聚类的像素点数量

4.2 实验性能

五、结论及个人总结

Unet是分割领域最经典的论文,基本上SOTA的模型都在此基础上进行更改,非常重要。

并且在数据增扩阶段的工作也同等重要,就是基于几何形变的数据增扩。

六、后续相关论文及链接

R2U-Net   ,2018 CVPR

Md Zahangir Alom, Mahmudul Hasan, Chris Yakopcic, Tarek M. Taha, Vijayan K. Asari

Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1802.06955

UNet++     ,2018 CVPR

Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang

UNet++: A Nested U-Net Architecture for Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1807.10165

Attention U-Net      ,2018 CVPR

Ozan Oktay, Jo Schlemper, Loic Le Folgoc, Matthew Lee

Attention U-Net: Learning Where to Look for the Pancreas

论文地址:

https://arxiv.org/abs/1804.03999

nnU-Net      ,2019 CVPR

Fabian Isensee, Jens Petersen, Simon A. A. Kohl, Paul F. Jäger, Klaus H. Maier-Hein

nnU-Net: Breaking the Spell on Successful Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1904.08128v1

Unet论文详解U-Net:Convolutional Networks for Biomedical Image Segmentation相关推荐

  1. 【U-Net】【粗读】U-Net: Convolutional Networks for Biomedical Image Segmentation

    U-Net: Convolutional Networks for Biomedical Image Segmentation Introduction Network Architecture Tr ...

  2. 《U-Net: Convolutional Networks for Biomedical Image Segmentation》学习笔记

    1. 总述 在15年的文章:<U-Net: Convolutional Networks for Biomedical Image Segmentation>中提出了一种基于少量数据进行训 ...

  3. U-Net——《U-Net: Convolutional Networks for Biomedical Image Segmentation》(MICCA 2015)

    U-net: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 医学图像分割 1. U-Net--< ...

  4. UNet论文详解分析

    论文地址:https://arxiv.org/abs/1505.04597 一.概要 2015年UNet的出现使得原先需要数千个带注释的数据才能进行训练的深度学习神经网络大大减少了训练所需要的数据量, ...

  5. 论文翻译:U-Net: Convolutional Networks for Biomedical Image Segmentation

    论文地址:http://www.arxiv.org/pdf/1505.04597.pdf U-Net:用于生物医学影像分割的卷积网络 摘要 普遍认为深度网络的成功训练需要数千个标记好的训练样本.在本文 ...

  6. [行为识别论文详解]TSN(Temporal Segment Networks)

    摘要 本文旨在设计有效的卷积网络体系结构用于视频中的动作识别,并在有限的训练样本下进行模型学习.TSN基于two-stream方法构建. 论文主要贡献: 提出了TSN(Temporal Segment ...

  7. 论文解读:U-Net: Convolutional Networks for Biomedical Image Segmentation

    要点 1. 提出了U-Net和一种依赖于数据增强的训练策略,能更加高效地使用有限的标注样本. 2. U-Net由一条捕捉上下文信息的收缩路径和一条提供精准定位的对称路径组成. 3. 这种网络拥有从极少 ...

  8. U-Net: Convolutional Networks for Biomedical Image Segmentation论文翻译

    U-Net: 1)架构:收缩路径和扩展路径 2)特点: 1.语义分割 2.overlap-tile策略 3.使用弹性变形进行数据扩充 4.使用权重损失来分离相同类的接触对象 3)实验: 2015 IS ...

  9. U-Net: Convolutional Networks for Biomedical Image Segmentation 解析

    网络结构包括一个捕获上下文信息的收缩路径和一个用于精确定位的对称扩张路径,该网络能使用很少的图像就能够进行端到端的训练,并且在ISBI对电子显微镜下神经元结构进行的分割挑战方面胜过先前的最佳方法(滑动 ...

最新文章

  1. python函数模块概念_python中模块和包的概念
  2. Servlet+Tomcat制作出第一个运行在Tomcat上的Java应用程序
  3. 【学习求职必备】百度AI和它的7大AI黑科技
  4. 自己实现spring核心功能 三
  5. gson 转换 ListMap 注意事项
  6. Apache2 部署flask项目
  7. split 中文 java_Java String[] split() 方法
  8. C#:把发表的时间改为几个月,几天前,几小时前,几分钟前,或几秒前
  9. ffmpeg (三):ffmpeg结合SDL2.0解码音频流
  10. java 修改final_Java反射有效修改final属性值
  11. AIML应答机器人(二)java实现
  12. 遗传算法原理,交叉、变异、适应度函数的设置
  13. AppLocker绕过之路
  14. 【小常识】打印机身份证双面打印方法
  15. CSS五种方式实现 Footer 置底
  16. 数据库SQL实战:MySql练习(下)
  17. shell脚本传递参数的方法
  18. 解决virtual下安装的fedora虚拟机和本地互相ping以及访问的问题
  19. Elasticsearch:使用反向地理编码在地图上显示自定义区域统计数据
  20. 《极简欧洲史》及相关思考

热门文章

  1. invader的java学习第五天基础篇
  2. 苹果Apple Watch可检测自行车是否有助力,苹果Find My助力市场
  3. SoftEther 1.0与PacketiX ××× 3.0的区别是什么?
  4. 倚天屠龙记决战光明顶java,新倚天屠龙记张无忌决战光明顶 一人从头打到尾动作满分...
  5. PostgreSql强制删除数据库的操作
  6. zstuacm数据结构基础12-瓷砖
  7. Python从键盘上输入自己的身份证号,从中提取出生年份、月份、日期以及性别信息
  8. oracle安装报错:orcl:orcl
  9. k8s部署-45-k8s共享存储(上)
  10. mac苹果电脑如何把视频转成gif