1、摘  要

缺陷检测是工业产品处理中的一项重要任务。当前,已经有很多基于计算机视觉技术的检测方法成功应用于工业领域并取得了较好的检测结果。然而,受限于类间表面缺陷的内在复杂性,使得实现完全自动的缺陷检测仍然面临巨大挑战。虽然,类间缺陷包含相似的部分,但是缺陷的表面仍然存在较大的不同。为了解决这个问题,论文提出了一种金字塔特征融合与全局上下文注意力网络的逐像素表面缺陷检测方法,并命名为PGA-Net。在这个框架中,首先从骨干网络提取多尺度特征。然后,使用金字塔特征融合模块,通过一些有效的跳连接操作将5个不同分辨率的特征进行融合。最后,再将全局上下文注意模块应用于相邻分辨率的融合特征,这使得有效信息从低分辨率融合特征图传播到高分辨率融合特征图。另外,在框架中还加入边界细化模块,细化缺陷边界,提高预测结果。实验结果证明,所提方法在联合平均交点和平均像素精度方面优于对比方法。

2、引  言

质量是制造过程中的一个重要组成部分。为了满足日益增长的需求,必须在确保产品生产质量的同时提高生产效率。其中,表面缺陷检测是控制工业产品质量的关键步骤。由于缺陷的复杂性,自动缺陷检测任务面临三大挑战:1)低对比度:在工业生产中,粉尘的存在和光照的变化导致图像中缺陷与背景的对比度低。如图1(a)所示,标签红色方框中的缺陷几乎不可见;2)类内差异:与其他应用不同,在工业生产中,缺陷的形状是不规则的。如图1(b)所示,同类缺陷的不同尺度差异较大;3)类间相似性:由于生产过程的不确定性,一些不同类型的缺陷差异很小。如图1(c)所示,不同类型的缺陷(在黄色和蓝色框中),它们在纹理和灰度信息上非常相似。

图1. 工业缺陷检测面临的挑战 (a)低对比度缺陷; (b)类内较大差异缺陷; (c)类间相似缺陷

得益于计算机视觉技术的快速发展,上述问题已经逐渐得到处理。例如,曲率滤波和高斯混合模型被应用到钢轨表面缺陷检测。基于模板匹配的方法可应用于钢板表面缺陷检测。近年来,其它基于手工特征的方法也被用于工业应用(如太阳能电池组件、金属、钢铁)的缺陷检测,并取得了良好的效果。然而,这些方法都是研究人员利用人为手工设定的特征去实现缺陷检测,而这种手工设计的特征并具有普遍性。

目前,基于CNN的检测方法已广泛应用于工业缺陷检测,通过设计不同的网络模型来完成缺陷检测。例如,针对低对比度场景,模型需要有效地利用目标的特征来区分目标与背景的差异。此外,在CNN不同层的特征对目标的敏感性也不同。低层特征具有较高的分辨率,可以生成清晰、详细的边界,但上下文信息较少。高层特征具有较抽象的语义信息,擅长进行类别分类,但形状和位置信息较弱。大多数深度学习方法主要集中在从网络深层提取高层特征。由于缺乏从浅层提取的低层特征(如边界、纹理和灰度信息),导致预测效果不佳。为此,论文利用骨干网各阶段最后一个卷积层提取的特征,包括低级粗特征和高级语义特征。对于类内差异,模型需要对各种变化(如形状、比例和纹理)保持不变形。目前,大多数基于全卷积网络的方法都是通过扩大感受野来覆盖整个缺陷,以实现对物体变化的感知。例如,通过在骨干网络中引入扩张卷积可以增强模型对特征变化的感知,但是这种方法会导致网格伪影。又如,采用不同池核的金字塔池化模块对骨干网不同尺度下提取的特征进行融合,但池化会造成信息的丢失。针对这些问题,论文提出一种金字塔特征融合模块,该模块利用多尺度卷积(不同大小的核)对上次卷积后的特征图进行加权,从而获得不同阶段的上下文信息,然后将这些提取的相同分辨率的特征在每个阶段进行融合。这样既避免了网格化的伪影和信息的缺失,又充分提取了上下文信息。同时,使用与卷积核宽度相同大小的条带不会带来较大的计算量。对于类间相似性,模型还需要实现对图像中不同类别对象的整体感知(包括它们之间的联系和区别),实现每个像素所需分类的正确位置。为此,研究人员将高层特征直接上采样,然后与低层特征融合,但是计算效率较低。或者,通过获取多个上下文信息,并对特征进行从高层到低级的聚合,以细化特征细节,但会产生大量的参数。为了解决这个问题,论文在相邻分辨率融合图中加入全局上下文关注模块,从低分辨率融合图中提取全局上下文信息,然后对高分辨率融合图进行加权,细化像素种类的空间位置。这样既保证了信息的有效传播又不增加计算量。

3、方法设计

A.模型概述

在本文中,表面缺陷检测被当做是逐像素问题,所提网络模型结构包括五个主要部分:1)多级特征提取;2)金字塔特征融合模块;3)全局上下文注意力模块;4)边界细化块;5)深度监督,网络模型框架如图2所示。

图2 PGA-Net网络模型框架

首先,将原始图像和对应真实值输入到网络,通过特征提取网络的卷积池化操作提取多级特征。然后,将这些特征输入到金字塔特征融合模块中。通过卷积和反卷积(不同核和步长)操作调整维数,使融合后的特征映射具有相同的维数。同时,通过一些密集的跳连接,将这些特征融合为5个不同分辨率大小的融合特征。接着,全局上下文注意力网络被嵌入到这5个分辨率特征中以高效的实现低分率到高分辨率的信息传播。最后,融合这些预测特征并产生最终的预测结果。

B.多级特征提取模块(FEM)

深度特征提取模块(FEM)建立在已用ImageNet预训练的VGG-16模型之上,以为缺陷检测获得更多的多层次特征。FEM包括五个块,这些块提取了从浅层到深层的各种外观信息。除最后一个块外,每个块由卷积层、校正线性单元激活函数(RELU)、批归一化和最大池层组成。表1展示了FEM的细节结构。

C.金字塔特征融合模块(PFF)

在深度CNN中,上下文信息被使用的程度大致取决于感受野的大小。对于缺陷的检测,有些缺陷是类内差异,需要较大的感受野才能实现对图像中缺陷的全面感知。为此,论文提出了一种金字塔特征融合(PFF)模块,如图所示3。

图3 金字塔特征融合模块

首先,给与一个尺寸为WxH的输入图像I和通过FEM模块生成的不同阶段的多级特征。PFF模块获取每个阶段的最后一层特征:conv1_2、conv2_2、conv3_3、conv4_3、conv5_3。这五个特征可以用一个特征集F来表示:F=(f1,f2, f3, f4, f5),其中f1表示conv1_2特征,以此类推。其次,通过多尺度感受野加权F生成多上下文信息,并将该信息同时映射到五个不同分辨率的特征映射中去:Tn=(W/2n, H/2n)。对于f1(分辨率R1=T0),模块用一堆卷积层将其降采样到五种分辨率,它们的输出特征映射为Yi1可表示:

其中,σ表示RELU激活,dow-scale(·)表示通过Wk×k(核大小为kxk,步幅s=k)向下降采样特征映射f1,b表示偏差,*表示卷积。对于f5(分辨率R5=T4),模块将其上采样到为5种分辨率,输出特征映射Yi5,如下所示:

upsample(·;φ )是指在训练过程中学习到的参数φ的反卷积。对于分辨率介于T0和T4之间的f2、f3和f4,该模型使用降采样和上采样相结合的方法将它们调整为五种分辨率,输出特征映射为Yil:

最后,将这些输出图中尺寸相同的特征进行融合,生成最终的五个融合特征图:

通过这种方式,该模型便可以有效地获取多尺度的上下文信息,从CNN的不同阶段,实现整体对象感知。

D.全局上下文关注模块(GCA)

由PFF生成的不同分辨率的最终融合特征图,包含了各种视觉上下文信息,并且每一个都可以用于预测结果。一种方法是利用双线性上样将这些融合特征放大到与原始图像相同的维数,然后通过卷积层改变它们的通道来预测分割结果。然而,这些方法的缺点是:1)缺乏不同分辨率预测之间的内在联系信息,2)直接使用双线性大核上样本可能会导致一些细节信息的缺失,参数不可训练。为了解决上述问题,论文提出了一个全局注意力模块,如图4所示。

图4 全局注意力模块

该模块包括两个阶段:第一阶段: 采用3×3卷积调整高分辨率和低分辨率融合特征图的通道维度,然后通过全局池化到低分辨率得到全局上下文,再与高分辨率特征图相乘,其输出特征表示为fs1。第二阶段,将低分辨率融合特征图上采样到与高分辨率融合特征图相同的维数,然后与fs1相加。

与简单地将上采样的粗分辨率特征映射添加到细分辨率特征映射中相比,所提出的GCA模块可以利用不同分辨率的融合特征映射来提高上下文获取和相应像素化定位的效率。

E.边界细化块

论文加入了边界细化块以进一步提高检测精度,图4(b)展示了边界细化残差结构,其输出为细化得分图。

F.深度监督

在充分利用多级特征的同时,参数的数量也明显增加,这可能会增加优化的难度。为了解决这个问题,论文在模型中加入了深度监督,目的是简化训练过程,加速网络模型的优化。每个分辨率的PFF模块生成的融合特征图可以单独进行裂纹预测。将每像素损失(交叉熵)添加到上述五个分辨率融合的特征中。损失函数描述为:

其中TiPi分别表示真实值和预测概率。

4、实验分析

论文采用NEU-DET缺陷数据集,DAGM 2007 缺陷数据集,MT缺陷数据集,以及Road 缺陷数据集进行测试。这里以NEU-DET和DAGM2007数据集的测试结果为例,展示论文所提PGA-Net网络的预测效果。

1) NEU-SEG缺陷的检测结果:在图5展示了PGA-Net和其他方法对带钢表面缺陷图像的视觉比较。在低对比度(4-5行)和类内差异(7-8行)等具有挑战性的缺陷检测情况下, PGA-Net算法的性能优于其他方法,预测结果与真实值非常接近。通过表1所示的定量比较,PGA-Net在评价指标方面优于其他比较方法:mIOU值提高到82.15%。

图5. NEU-SEG数据集检测结果对比。红色、绿色和黄色分别代表夹杂物(In)、斑块(Pa)和划痕(Sc)缺陷。(a)原始图像; (b)真实值; (c)SegNet; (d) PSPNet; (e) DeepLab; (f) RefineNet; (g) FCN; (h) PGA-Net

表1 NEU-SEG缺陷的检测结果定量比较

2) DAGM2007数据集结果:图6展示了DAGM 2007部分缺陷图像可视化检测结果。该数据集的主要检测挑战是背景和缺陷之间的低对比度(1-3行)。可以发现,SegNet遗漏或错误地检测到某些缺陷。对于一些大面积缺陷,PSPNet和RefineNet不能精确定位缺陷。FCN和DeepLab放大了一些低对比度缺陷区域。相反, PGA-Net的性能更接近实际情况。表2所示展示了对各对比方法的定量比较,可以发现PGA-Net将性能提高到74.78%。

图6. DAGM2007数据集检测结果对比。(a)原始图像; (b)真实值; (c)SegNet; (d) FCN; (e) DeepLab; (f) PSPNet; (g) RefineNet; (h) PGA-Net

表2 DAGM2007数据集结果定量比较

消融实验

为了评价所提出的方法,论文进行了一系列消融实验,包括降采样类型、融合特征分辨率的影响以及对检测结果的边界细化。所有这些消融实验的评价都是基于NEU-SEG数据集。

1)降采样类型的消融研究:对于PFF模块中的降采样结构,论文使用了大核卷积取代最大池。这是因为,卷积降在低了特征维数的同时仍然保留了特征信息,而最大池可能会导致大量特征信息的丢失。此外,使用较大的内核不会带来太大的计算负担,如表3所示,性能由79.89%提高到80.46%。

表3不同设置下论文方法的详细性能

2)融合特征分辨率的影响:当通过卷积和反卷积(具有大的核尺寸和步长)调整这些特征分辨率时,FEM中的一些融合特征结构(空间和语义)很容易被破坏,这与目标融合特征图的分辨率有很大差异。为了验证融合特征分辨率的效果,论文额外评估了来自PFF的五个融合特征图(Dec-1s、Dec-2s、Dec-4s、Dec-8s、Dec-16s),相应的性能如3所示。从表中可以看出,随着分辨率的增加,模型性能逐渐变好,这证明了论文方法选择分辨率进行特征图融合的必要性。

3)边界细化对检测结果的消融:在提出的方法中加入了边界细化块,以提高检测结果的性能。如表3所示,边界细化块的mIOU值为82.15%,证明了BR方法的有效性。

4)与其他多级特征融合方法的比较:为了验证PFF模块的优越性,对UN、DLA、DSS等多级特征融合方法进行了比较。论文用这些方法中的多级融合模块取代了所提方法中的PFF模块。所有模块都基于同一个骨干网VGG-16网络。在NEU-SEG数据集上评估这些模块的预测结果。论文方法和其他方法的直观比较显示如图7所示,量化评价如表4所示。可以看出,与多级特征融合模块相比,论文所提的PFF取得了更好的性能。

图7 NEU-Seg 数据集上的检测结果比较。

(a) 原始图像;  (b)真实值; (c)UN;  (d) DLA; (e) DSS; (f) 本文方法

表4不同多尺度特征融合模块的详细性能

5、结论

论文提出了一种用于表面缺陷检测的自动检测网络。在该框架中,通过特征提取模块从缺陷图像中提取多级特征。并引入金字塔特征融合模块,将多级特征融合成不同的分辨率。全局上下文注意力模块使有效信息从低分辨率融合特征图传播到高分辨率融合特征图。此外,在框架中增加了边界细化块,对目标边界预测进行细化。该框架中引入了深度监督,以加快网络优化的进程。实验表明,该方法在四种表面缺陷数据集的检测上取得了较大的进步。但由于数据集数量和多样性的限制,在图中出现了一些缺陷缺失和错误检测的情况。虽然检测的速度可以达到41-49fps/s,在实际检测过程中可以接受,并且不损害用户体验。但是还需要进一步提高,以满足实时性和高准确度的要求。另外,在实验过程中需要对训练样本和测试样本进行标注,耗时较长。在未来的研究中,计划寻求一种有效的数据增强策略,结合论文方法来提高检测性能,并优化框架来加速提出的方法以满足实时性和高精度的要求。此外,在今后的工作中将采用半监督机制。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿,加微信:dddvision

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近6000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

PGA-Net:基于金字塔特征融合与全局上下文注意力网络的自动表面缺陷检测相关推荐

  1. 基于HOG-LBP特征融合的头肩检测研究

    from: http://www.hqew.com/tech/fangan/1721922.html 摘  要: 提出了一种基于HOG-LBP特征融合的人体头肩检测方法,其要点是将人体头肩图像等分为多 ...

  2. 中文命名实体识别---基于多特征融合嵌入

    来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2021-11-18 昨天给大家分享的是一篇EMNLP2021关于关系提取的文章,文章中将关系 ...

  3. 自动驾驶系统进阶与项目实战(九)基于行锚框和全局信息的深度学习车道线检测方法

    自动驾驶系统进阶与项目实战(九)基于行锚框和全局信息的深度学习车道线检测方法 目前多数基于深度学习的车道线检测方法通常把车道线的识别问题处理为车道线像素分割问题,单纯的像素级语义分割模型的推理的实时性 ...

  4. 基于SAE特征融合的合成孔径雷达图像的目标识别

    原论文:Synthetic Aperture Radar Target Recognition with Feature Fusion Based on a Stacked Autoencoder S ...

  5. 基于python的入侵检测系统毕设_基于时空特征融合的入侵检测系统模型

    期刊:COMPUTERS & SECURITY 期刊信息:JCR分区Q1:中科院分区2区:引用因子4.85 摘要: 入侵检测系统可以通过分析网络流量的特征来区分正常流量和攻击流量.近年来,神经 ...

  6. 自适应空间特征融合( adaptively spatial feature fusion)一种基于数据驱动的金字塔特征融合策略

    代码地址:GitHub - GOATmessi7/ASFF: yolov3 with mobilenet v2 and ASFFhttps://github.com/GOATmessi7/ASFF 论 ...

  7. IEEE2019论文:使用基于特征融合和缩放的具有空间上下文分析的单镜头检测器在无人机图像中检测小物体

    摘要: 无人机(UAV)图像中的目标由于拍摄高度较高通常都很小,我们虽然在目标检测方面已经做了很多工作,但是如何准确.快速地检测出小目标仍然是一个有待解决的挑战.本文针对无人机图像中的小目标检测问题, ...

  8. 目标检测论文解读复现之十一:基于特征融合与注意力的遥感图像小目标检测

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...

  9. CVPR2019文章解读 Pyramid Feature Attention Network for Saliency detection 用于显著性检测的金字塔特征注意网络

    Pyramid Feature Attention Network for Saliency detection 摘要 显著性检测是计算机视觉领域的基本挑战之一,怎么有效去提取特征非常关键,目前的一些 ...

最新文章

  1. 商丘网络推广浅析如何分析竞争对手的网站,制定更优秀的优化方案?
  2. Wi-Fi信号满格网速就一定快吗?
  3. Type_C工作原理
  4. android 验证码
  5. c语言入门程序下载,简单实用——C语言入门程序练习
  6. 【软件质量】ISO-9126质量模型
  7. LVM逻辑卷管理命令
  8. redis相关(搭建和数据落盘)
  9. oracle mysql分页语句怎么写,sqlserver ,mysql,oracle 语句实现分页
  10. 比较JSF、Spring MVC、Stripes、Struts 2、Tapestry、Wicket
  11. Subversion代码提交中的org.apache.subversion.javahl.ClientException: svn: E200007: Commit failed异常解决...
  12. C++ 虚函数表详解
  13. ElasticSearch解决中文搜索只能搜索单个字符的问题
  14. 魅族e升级android,魅族魅蓝E升级教程_魅族魅蓝E的OTA系统升级方法
  15. java释放线程资源_Java线程之释放锁,释放资源,释放CPU
  16. 3D Style Transfer
  17. 图像一阶导数和二阶导
  18. 第五人格获取服务器信息失败,第五人格获取版本信息失败怎么办 获取版本信息失败解决办法[图]...
  19. 洛谷OJ:P5960 【模板】差分约束算法
  20. 如何把视频或者音频转成文字

热门文章

  1. 容山堂简介及企业文化
  2. 测试如何保证产品质量/如何保障测试效率?
  3. 32 Java中多媒体文件上传及页面回显
  4. 2.3 可逆矩阵的特征(第2章矩阵代数)
  5. 【智能制造】Digital Twin的8种解读! 国际8大主流厂商对digital twin的理解
  6. NOIP 普及组 2016 回文日期
  7. java使用poi将excel转csv文件(所有sheet页、值)
  8. Android获取IME,IMSI等各种手机信息,并对号码组成详解
  9. 《Java基础——制表符》
  10. 深度学习挑选GPU心得体会