Tire Defect Detection Using Fully Convolutional Network-论文阅读笔记
Tire Defect Detection Using Fully Convolutional Network
基于全卷积网络的轮胎缺陷检测
//2022.7.16晚上21:07开始阅读笔记
论文速览
1.文章做了什么?
文中提出了一个具有两个过程的缺陷检测框架,对轮胎的侧面和正面进行了缺陷检测,通过将VGG16网络的三个pooling层进行融合得到了最佳的性能。
在第一阶段,使用VGG16网络进行特征提取,在该过程中将全连接-FC层改为了卷积层CONV,从而使得得到的特征输出具有足够的空间信息。在第二阶段,通过添加采样层,使用双线性插值的方法在第一阶段产生的特征向量基础上生成了与初始图像相同大小的特征层,并进行融合。之后在融合的特征上使用softmax函数预测类别分数。
2.文章做的事情有什么意义?
实现了在轮胎侧面和表面进行缺陷检测的效果高于传统的方法。
3.文章做出了哪些贡献?
将FC层进行替换为CONV层的思想,即使用全卷机神经网络进行缺陷检测的pipeline;
将特征上采样之后进行融合。
4.文中作者用什么方法做的?
将VGG16最后的FC层修改为了CONV层,然后对pool5、pool4和pool3三个池化层的特征进行上采样之后并融合,然后进行softmax预测。
论文地址
Tire Defect Detection Using Fully Convolutional Network | IEEE Journals & Magazine | IEEE Xplore
论文贡献
文中提出来的缺陷检测框架中,第一阶段是传统的深度网络,用于提取轮胎图像的特征,并在最后一层获得特征地图。通过将完全连接的层替换为卷积层,最终的特征地图保留了足够的空间信息。通过添加采样层,在第二阶段,可以生成与原始图像大小相同的输出。在前两个阶段之后,我们开发了粗分割结果,并通过融合多尺度特征图对其进行细化。实验结果表明,该方法能够准确定位和分割轮胎图像中的缺陷。
论文内容
1.介绍
尽管基于CNN网络的缺陷检测方法有很多,但是适用于轮胎表面缺陷检测的很少。
图2展示了轮胎表面的缺陷。
轮胎表面缺陷检测遇到的困难:
视觉质量低。由于机器类型的不同和环境的变化,轮胎图像的采集存在许多不确定性。另一方面,用于自动检测的图像来自X射线照射,并且具有一些不良特征,例如低对比度和低亮度。
不同的纹理结构。轮胎分为:胎面图像和胎侧图像。由于胎面图像亮度较低,因此胎面图像的缺陷更难检测出来。
各种缺陷类别的存在。轮胎内侧或轮胎胎面的缺陷很复杂,同时轮胎表面的纹理也具有混淆的作用。
轮胎表面的缺陷和无缺陷表面相比差距较小。
近年来,在轮胎表面缺陷检测中多使用分析缺陷边缘或纹理特征的方法。
空间域方法使用低级线索来进行缺陷检测,但是计算复杂度很高,不便于进行计算。
基于变换的方法也用到了轮胎表面缺陷检测任务中,如:小波变换,一种多尺度变换的方法,使用curvelet变换来增强图像的边缘,使用优化的Canny算法来定位缺陷。
但是,基于边缘缺陷检测的方法对轮胎表面的缺陷不敏感,同时,基于Curvelet变换的方法计算复杂度较高,而检测速度较慢。
使用Randon变换对轮胎进行多角度投影,可以有效地检测出线性缺陷,但它不适用于非线性缺陷。
使用固定变换核的方法具有很广泛的应用,但是没有针对轮胎表面的应用。
此外,一种基于字典表示的检测方法,该方法从轮胎图像中学习字典表示。根据缺陷指示和无缺陷零件之间的分布差异来检测缺陷的位置。尽管如此,检测轮胎图像中的缺陷,特别是在没有规则纹理和明显分布模式的轮胎胎面图像中,仍然是一项具有挑战性的检测任务。
与以前的方法不同,我们提出了一种基于全卷积网络(FCN)的轮胎检测方法,该网络是一种能够保留特征空间信息的CNN。在FCN中,传统分类网络中使用的所有全连接层都被卷积层所取代。特征信息通过卷积和池层学习,并保留在特征地图中。与全连接层相比,卷积全连接层将每个特征地图简化为一个向量并输出标签结果,卷积全连接层可以保留特征地图的空间信息,以实现精确的像素级预测和对象分割。本文利用全卷积神经网络强大的自学习和分割能力,克服了传统轮胎缺陷检测的不足。
2.提出来的方法
在目标分割任务重FCN的作用已经得到了验证。
作者通过简化一个FCN分割网络转换为一个二进制和像素级的预测模型,并结合不同尺度细化了检测结果。
模型实现细节:
在第一阶段,使用经典VGG16作为网络的基本框架。它包括重复应用由3×3卷积层和2×2池层组成的堆栈,每个卷积层后面是用于非线性校正的校正线性单元(ReLU)。然后,卷积VGG16中完全连接的层,以便生成的特征地图可以保留完整的空间信息。然而,由于池层的存在,提取的特征图被下采样。在第二阶段,放大特征图,通过上采样层保持与输入图像的大小相同。我们可以通过在特征提取模块中前馈输入图像来获得多尺度特征图。通常,合并后的特征图可用于使用softmax层获得的类分数图得出检测结果。然而,由于合并层后的特征地图包含的纹理特征不足,这些结果通常比较粗糙。因此,多尺度特征地图通过裁剪层和eltwise层顺序对齐和融合。然后融合不同尺度的特征,得到精细的检测结果。
2.1 提取特征
文中还比较了AlexNet和VGGNet两个网络的性能。
此外,我们还比较了不同配置和深度的VGGNet,如VGG11、VGG13、VGG16。由于其强大的特征提取能力,VGG16被选为主干。更具体地说,VGG16由13个具有ReLU的卷积层和3个完全连接层组成。一些卷积层之后是非重叠的最大池层,用于过滤噪声特征。最后将softmax层用于类别预测。为了提取特征,我们完全保留卷积层和池层,其中池层通过提取具有单个代表值的感受野中的特征来过滤噪声特征。每个池层后的地图包含不同的比例特征。此外,全连接层被视为具有大感受野的特殊卷积。通过这些特殊的卷积层保留具有空间信息的特征,这有利于准确检测。
2.2 上采样特征映射
从特征提取阶段导出具有空间信息的特征地图。然而,在第一阶段的五个池层之后,对这些特征图进行下采样。例如,具有步长2的2×2最大池层通过仅保留稳健特征来帮助分类,可以将图像大小减少一半。由于尺寸减小,网络的最终输出不能指示属于预定义类别之一的每个像素的概率。因此,在第二阶段对特征图进行上采样,使其保持与输入图像相同的大小。
在本文中,我们使用双线性插值策略来获得放大的特征图,该特征图在网络构造中初始化,并在反向传播过程中更新。双线性插值可以在不降低精度的情况下有效地减少参数。
2.3 融合多尺度特征
合并的特征图可以直接上采样,以获得与原始图像相对应的像素级预测。然而,标准池层在保留高级语义信息的同时丢失了详细的纹理。这些丢失的细节对于准确检测缺陷至关重要。为了解决这一问题,我们融合了多尺度特征地图,以减少细节丢失的负面影响,并细化检测结果。更具体地说,如图1的上采样阶段所示,对每个池层获得的特征图进行顺序上采样。这些放大的特征图描述了不同比例的信息。局部细节涉及浅层,语义信息涉及深层。由于上采样和填充,跨层贴图的大小不一致。在融合这些地图之前,必须通过裁剪对齐放大的特征地图。下一节将讨论有关修剪的更多细节。然后,我们通过简单的元素级操作融合这些映射,这在[20]中已被证明是有效的,并且还使用softmax分类器作为网络的末端进行像素级预测。
3.实现细节
FCN在处理小目标时表现的并不是很好。
同时,由于数据集有限,无法有效地从数据集中恢复丢失的信息,为了缓解以上问题,将多分类换为了二分类问题。
类别的减少还可以减少过度拟合并增加网络的鲁棒性。
多尺度特征层的对齐,然后进行融合,这个过程可以补充细节纹理。
3.1 像素对齐
为了从特征图中获得密集的预测输出,文中采用了softmax分类器。
对于WxW的图像,采用如下公式计算卷积核进行卷积之后的输出大小:
其中p和s分别表示卷积运算中的填充和步长。通常,当卷积核和填充的大小分别为3和1时,卷积层对图像大小没有影响。
双线性插值方法:
在上采样层的帮助下,图像大小被放大,以融合多尺度特征。在本文中,我们使用双线性插值方法来增加样本特征图,并在训练期间更新其权重参数。简单双线性插值通过线性映射从最近的四个输入计算每个输出yij,该线性映射仅取决于输入和输出单元的相对位置。输出yij可以写成
其中f是上采样因子,{·}表示分数部分。在具体实现中,使用双线性插值初始化上采样层,然后在网络中通过像素级损耗的反向传播进行端到端学习。在某些层配置中,在上采样和卷积完全连接层后,特征映射大小以非整数倍数放大,例如,卷积核大小和填充大小分别设置为7和0。然而,标准池层严格地将特征图大小减少了一半。因此,我们在每个上采样层之后添加一个裁剪层,以确保特征地图和地面真实度之间的大小相同。
3.2 融合策略
在进行特征融合时,实际使用的是分数图,而不是特征图,由于后者计算开销很大,同时,由于融合的特征是根据训练过程进行微调的,所以采用分数图或特征图都是一样的,是可以相互替换的,其中分数图的融合具有更少的参数。
4.结果和讨论
我们提出的方法已在公共FCN代码1上实现,该代码在Caffe框架中用Python 3.5编码。GTX-1080 GPU和Intel Xeon-E5 3.40GHz CPU用于训练和测试。在训练期间,我们将动量参数设置为0.99,权重衰减设置为0.0005。迭代总数设置为200k,并且每2k次迭代在验证集上测试所提出的模型。下面报告并比较了不同配置的网络的实验结果。
4.1 数据集
我们的实验数据集由914个轮胎图像2组成,包括侧壁和胎面图像。其中,随机选择700幅图像作为训练集,其余214幅图像用于形成测试集。这些图像涉及各种缺陷,如金属杂质、气泡和重叠。
数据集中不包含无缺陷的图像,但是存在少量检测为缺陷的无缺陷像素,这个问题可以使用局部方差分析方法来解决。
每个图像中的缺陷标记框由三个人标记之后投票进行决定。
为了简化对齐操作,作者将所有的原始图像和ground-truth缩放到了256x256大小。
4.2 几种基准架构的精度比较
文中比较了AlexNet/VGG11/VGG13/VGG16不同的骨干网络的性能。
表1中列出了各种网络的结构和参数。
基于不同基本架构网络的实验结果如图2所示,图2见上。
4.3 最佳融合层数的烧灼实验
如上所述,由于信息丢失,FCN对小缺陷和边缘细节不敏感。我们融合了不同比例的特征地图,以补充丢失的细节。为了研究熔合层的最佳数量,我们进行了几次烧蚀实验。首先,直接对五个池层(pool5)获得的特征图进行上采样,并将其送入softmax分类器中,以获得分数图。在图3(c)中,没有多尺度特征的预测显示为比较。之后,将来自pool2、pool3和pool4的预测进行融合,并分别如图3(d)-(f)所示。从图3可以看出,VGG16-3(来自pool5、pool4和pool3的VGG16融合特征)对整体结果有积极影响,它使缺陷边缘区域的检测结果更准确。然而,网络的计算成本随着层数的增加而增加。此外,融合过多的层会增加计算复杂度,导致分割结果过于平滑。为了进行权衡,我们在轮胎缺陷检测任务中采用VGG16-3。
表2展示了采用不同融合策略之后的效果。
4.4 定量分析
使用PA像素精度来评估模型的精度,它表示被正确标记像素与总像素的比率。
具体来说,假设如下:图像中总共有k+1类。pij表示属于i类但预测为j类的像素数量,pii表示正确的数量。那么PA可以定义为:
我们选择了轮胎领域中几种具有代表性的缺陷类型,并比较了不同模型的PA值,如图4所示。对于常见的缺陷类型,VGG16-3比其他结构有显著的改进,即使是小尺寸缺陷,其PA值也低于其他缺陷类型。
4.5 与传统方法的比较
比较两种传统方法:基于小波变换的方法[12]和基于上下文感知的显著性检测方法[21]。前者使用局部规则性分析和尺度特征来表示轮胎缺陷,其中通过缺陷边缘测量模型选择最佳阈值参数。然后利用小波多尺度分析将缺陷从背景纹理中分离出来。后者结合局部低层和全局线索来检测显著对象,可用于检测缺陷。图5显示了这两种方法在轮胎缺陷检测中的实验结果。可以看出,小波变换方法适用于侧壁图像中具有显著边缘的缺陷,如杂质和重叠。对于轮胎胎面图像,由于缺陷自由区纹理的干扰,其结果不令人满意。SD方法关注显著性区域而不是缺陷。因此,该方法具有较高的漏检率和不准确检出率。
5.结论
本文探讨了使用全卷积神经网络进行轮胎缺陷检测的解决方案,该方法在解决分割问题方面具有出色的性能。VGG16具有特征提取能力,被构造为表示轮胎图像的基本架构。我们微调全卷积神经网络的参数和结构以获得粗略的检测结果,并通过融合策略对结果进行细化。实验表明,与传统方法相比,该方法适用于更多类型的缺陷。与轮胎行业现有的基于学习的方法[17]不同,我们的算法可以直接分割缺陷,并且对侧壁和胎面图像都有效。
//本文仅作为日后复习之用,并无他用。
Tire Defect Detection Using Fully Convolutional Network-论文阅读笔记相关推荐
- End-to-End Object Detection with Fully Convolutional Network 论文笔记
background 任务:目标检测任务中,去除不可训练的NMS,实现端到端的训练 关键词:POTO,3DMF Introduction 传统的目标检测会用到不可训练的NMS,严重阻碍了端到端的训练. ...
- OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记
文章目录 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记 ...
- LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)
LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...
- Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...
- Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks阅读笔记
Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Ne ...
- Density Map Guided Object Detection in Aerial Images (论文阅读笔记)
Density Map Guided Object Detection in Aerial Images 论文阅读笔记 出处:CVPR2020 一.介绍 文章主要研究的是基于高分辨率航拍图像的目标检测 ...
- End-to-End Object Detection with Fully Convolutional Network
Abstract 基于全卷积网络的主流目标检测器已经取得了令人印象深刻的性能.而其中大多数仍然需要手工设计的非最大抑制(NMS)后处理,这阻碍了完全的端到端训练.在本文中,我们给出了丢弃NMS的分析, ...
- 基于深度学习的表面缺陷检测方法综述-论文阅读笔记
//2022.3.2日阅读笔记 原文链接:基于深度学习的表面缺陷检测方法综述 (aas.net.cn) 个人对本篇综述内容的大致概括 论文首先介绍了表面缺陷检测中不同场景下的成像方案,主要根据表面颜色 ...
- Small Object Detection using Context and Attention(论文阅读笔记)
Small Object Detection using Context and Attention 论文阅读笔记 出处:2021 International Conference on Artifi ...
- 深度学习——3D Fully Convolutional Network for Vehicle Detection in Point Cloud模型实现
1. 参考文献 3D Fully Convolutional Network for Vehicle Detection in Point Cloud 2. 模型实现 ''' Baidu Inc. R ...
最新文章
- python dataframe数据类型_python-Pandas DataFrame,1、2、3和NaN值的默认数据类型
- sql语句的编程手册(2)
- 【Linux】一步一步学Linux——traceroute命令(167)
- centos mysql 远程连接_Linux下开启MySQL的远程连接
- android math类,GitHub - Zihin/MathModeling-Android
- UVA 1329——Corporative Network
- android有关医疗实现功能,基于Android的智能医疗监测系统的设计与实现_问答库
- 组合式应用新利器?SaaS新时代事件网格如何解决集成标准化问题
- seata分布式事务原理_又见分布式事务之Seata
- 深入了解Java ClassLoader、Bytecode 、ASM、cglib (I)
- 使用 data URI scheme 在网页中内嵌图片[转]
- easyui图标对照 --由于文章历史久远, 博主放弃治疗了
- SWOT模板与方法论
- 执行mvn clean报错Plugin org.apache.maven.plugins:maven-clean-plugin:2.5 or one of its dependencies could
- linux开启vi命令,让Linux默认启动是字符界面和Linux之VI命令详解
- 获取电信天邑TEWA-700E光猫超级密码相近系列通用方法
- 虎从风跃,龙借云行--神行者Wi10无线移动硬盘开启WIFI无线存储共享新时代_MID论坛_太平洋电脑网产品论坛...
- iCoremail企业邮箱移动办公新突破
- 模拟IC芯片设计开发的流程
- Redis pool 配置详解
热门文章
- 1148 数字字符出现频率
- 缓冲区,缓存,fflush(stdin)如何使用?
- 几个国外广告联盟介绍
- Linux 工具链 error while loading shared libraries: libgettextsrc-0.19.8.1.so 解决方法
- deflate php,gzip和deflate的几点区别
- ORA-01017 ORA-02063: preceding 2 lines from SQLEMR
- 错误-The server encountered an unexpected condition that prevented it from fulfilling the request
- NPOI 在word中插入 表格 包括 合并单元格
- 简单明了,彻底地理解Binder
- 洛谷 P2142 高精度减法