路面检测的多尺度网络结构论文笔记

1.u-net网络结构

u-net网络具有收缩路径和扩张路径，这里的收缩和扩张指的是图像的尺寸。收缩路径由典型的3*3卷积-relu层组成，在每做两次卷积后接一个2*2的max-pooling下采样，每次下采样同时将卷积模板数量翻倍。如此经过5次下采样后，进入扩张路径，扩张路径的一步由一个上采样、对应收缩路径对应特征图拼接和两个卷积-relu层组成，上采样放大了图像的尺寸同时减半特征图通道数，对应收缩路径特征图具有更多地原图像位置信息，拼接该特征图再进行卷积提取特征有利于保留原图像的位置信息，增强预测图像的位置信息。另外由于卷积时no-padding，所以收缩路径和扩张路径对应的特征尺寸并不一致，在收缩路径特征图拼接到扩张路径特征图时需要裁剪。再最后使用1*1的卷积层输出至等于分类数channels。

关于u-net的论文值得注意的是：

u-net网络具有使用较少的训练图像就能实现很好的图像分割能力。
u-net网络在经过了5个下采样，损失了很多的位置细节信息，为了提高预测图像中物体位置精确度，作者在5个上采样的过程中对应地添加了收缩路径的特征图以此增加源图像细节信息。
论文中提到了使用镜像对称的方式来进行图像填充。
[外链图片转存失败(img-XNpOMpNL-1563722150621)(./u-net_paddingstype.PNG)]

2.本文的网络结构

2.1网络结构

这篇论文提出的网络结构是，以u-net为基础网络（在论文中没有看到关于上采样，扩张路径的描述），将卷积层改进成带identity block的残差模块，再考虑多尺度融合，将后四个卷积层输出特征图直接拼接至输出层。

2.2路面裂缝检测任务

因为图像中道路裂缝分布广泛，并且裂缝的轮廓模糊，所以难以人工给裂缝图像每个像素地做标记。因此作者将裂缝图像分割成不重叠的块，每个块形状为100∗100100*100100∗100。
裂缝检测的任务就是给定一个未做标记的裂缝图像，判断每个块是否有裂缝。

输入图像尺寸是70400∗10880070400*10880070400∗108800，先resize，在放入神经网络中进行预测，得出34∗2234*2234∗22的预测图像，接着讲预测图像resize放大，标记在源图像上形成一次预测。

2.3论文总结

这篇论文主要还是想说多尺度对裂缝检测的作用，作者认为单尺度CNN网络具有固定的感受野，这不利于抗裂缝尺度变化的能力，并且在下采样的过程中图像中细节信息容易丢失。反过来说，多尺度融合特征有利于增强图像抗尺度变化能力，更好地利用图像细节信息。

参考

https://arxiv.org/abs/1505.04597
http://xueshu.baidu.com/usercenter/paper/show?paperid=1b0b0rc0tq0f0mr07s410p70cj715446&site=xueshu_se