论文阅读：Deep Residual Shrinkage Networksfor Fault Diagnosis

简介

本文提出了一种新的深度学习方法，即深度残差收缩网络，以提高对高噪声振动信号的特征学习能力，实现较高的故障诊断精度。在深层架构中加入软阈值作为非线性变换层，以消除不重要的特征。此外，考虑到阈值的选取难度较大，开发的深度残差收缩网络集成了一些专门的神经网络作为可训练模块，自动确定阈值，不需要专业的信号处理专业知识。通过对不同类型噪声的实验，验证了所开发方法的有效性。

1. 引言

本文开发了两个深度剩余收缩网络(DRSNs)，具有通道共享阈值的DRSN(DRSN- cs)和带信道阈值的DRSN (DRSNCW)，以提高ResNets从高噪声振动信号中学习特征的能力，最终目标是获得高诊断精度。主要贡献总结如下：1)将软阈值(即一种流行的收缩函数)作为非线性变换层插入到深层结构中，以有效消除噪声相关特征。2)采用专门设计的子网络自适应确定阈值，使每段振动信号都有自己的一组阈值。3)软阈值中考虑了两种阈值，即信道共享阈值和信道明智阈值，这也是DRSN-CS和DRSN-CW术语产生的原因。

2. 理论介绍

ResNets和已开发的DRSNs都有一些与传统ConvNets相同的基本组件，包括卷积层、整流线性单元(ReLU)。批处理归一化(BN)、全局平均池化(GAP)和交叉熵误差函数。下面介绍这些基本组件的概念。

BN是一种特征归一化技术，作为一个可训练过程[21]插入到深度学习体系结构中。BN的目的是减少内部协变移位，其中特征的分布往往在训练迭代过程中不断变化。在这种情况下，卷积层中的参数需要不断更新以适应变化的分布，增加了训练的难度。BN在第一步将特征归一化到一个固定的分布(平均值为0，标准差为1)，然后调整特征到一个理想的分布。

GAP是一个从特征映射[22]的每个通道计算平均值的操作。一般来说，它是在最终输出层之前使用的。GAP可以减少FC输出层使用的权值数量，从而减少深度神经网络遇到过拟合的可能性。GAP还可以解决移位变的问题，使深度神经网络学习的特征不受故障脉冲位置变化的影响。

在多类识别任务[6]中，交叉熵误差常被用作最小化目标函数。与传统的平方平均误差相比，交叉熵误差的训练效率更高，因为相对于权值，交叉熵误差的梯度不太可能消失为零。

ResNets是一种新兴的深度学习方法，近年来备受关注[15]。残差建筑单元(RBUs)是基本构件。如图2(a)所示，RBU由两个bn、两个relu、两个卷积层和一个identity shortcut组成。身份捷径是使ResNet优于一般ConvNets的部分。在一般的ConvNet中，交叉熵误差梯度是逐层反向传播的。通过使用标识快捷方式，梯度可以有效地流向靠近输入层的早期层，以便更有效地更新参数。图2(b)和(c)显示了产生不同尺寸输出特征图的RBUs。减少输出特征图宽度的动机是为了减少后续各层的计算量，增加输出特征图通道数量的动机是为了便于不同特征的融合成为判别特征。图2(d)给出了一个ResNet的总体架构，该架构由一个输入层、一个卷积层、若干个RBUs、一个BN、一个ReLU、一个GAP、一个输出FC层组成，并以此作为本文有待进一步完善的基准。

2.1 DRSNs基础架构设计

1)理论背景:近20年来，软阈值在许多信号去噪方法中经常被用作关键步骤通常，将原始信号变换到一个近零数不重要的域，然后采用软阈值法将近零特征转换为零。例如，小波阈值化作为一种经典的信号去噪方法，通常由小波分解、软阈值化和小波重构三个步骤组成。为了保证信号去噪的良好性能，小波阈值化的一个关键任务是设计一种滤波器，将有用信息转换为非常积极或消极的特征，将噪声信息转换为接近零的特征。然而，设计这样的滤波器需要大量的信号处理专业知识，一直是一个具有挑战性的问题。深度学习为解决这一问题提供了一种新的方法。深度学习可以使用梯度下降算法自动学习滤波器，而不是由专家人工设计滤波器。软阈值的作用可以表示为:

其中x为输入特征，y为输出特征，τ为阈值，即一个正参数。软阈值不是将ReLU激活函数中的负面特征设为零，而是将接近零的特征设为零，从而保留有用的负面特征。软阈值处理过程如图3(a)所示。可以看出，输出对输入的导数为1或0，可以有效防止梯度消失和爆炸问题，如图3(b)所示。导数可以表示为:

在经典的信号去噪算法中，往往很难设定一个合适的阈值。此外，最优值因情况而异。针对这一问题，开发的DRSNs所使用的阈值是在深度架构中自动确定的，以避免人工操作的麻烦。提出了确定阈值的方法下文将介绍DRSNs。

2) 已开发DRSN-CS体系结构:已开发DRSN-CS是ResNet的一种变体，使用软阈值去除噪声相关特征。软阈值作为非线性转换层插入建筑单元。此外，阈值的值可以在建筑单元中学习，下面介绍。

如图4(a)所示，建筑单元名为“具有通道共享阈值的剩余收缩建筑单元”(RSBU - cs)”与图2(a)中的RBU不同之处在于RSBU-CS有一个特殊的阈值估计模块，用于软阈值的估计。在特殊模块中，将GAP应用于特征映射x的绝对值，得到一个一维向量。然后，将一维矢量传播到一个两层FC网络中，得到一个类似于图中所示的缩放参数。然后在两层FC网络的末端应用一个sigmoid函数，使缩放参数缩放到(0,1)的范围。可以表示为:，其中，z为RSBUCS中两层FC网络的输出，α为对应的缩放参数。再将尺度参数α乘以| × |的平均值得到阈值。这种安排的动机是，软阈值不仅需要是正的，而且不能太大。如果阈值大于feature map的最大绝对值，则软阈值输出为零。综上所述，RSBU-CS中使用的阈值表示为:，其中，τ为阈值，i、j、c分别为特征映射x的宽度、高度和通道的索引。阈值可以保持在一个合理的范围内，使软阈值的输出不全为零。与图2(b)和(c)中的RBUs相似，可以构造步幅为2且通道数量加倍的RBUS- CSs。

所开发的DRSN-CS的简要架构如图4(b)所示，与图2 (d)中所示的经典ResNet相似。唯一的区别是RBUs - css被用作建筑单元而不是RBUs。在DRSN-CS中叠加了大量的rbus - css，使噪声相关特性逐渐降低。

3) 已开发DRSN-CW架构:已开发DRSN-CW是ResNet的另一种变体，与DRSN-CS不同的是，特征图的每个通道都应用了一个单独的阈值，下面将介绍特征图。图4(c)显示了具有通道阈值的RSBU (RSBU- cw)。利用绝对运算和GAP层将特征映射x简化为一维向量，然后传播到两层
FC网络。FC网络的第二层有多个神经元，神经元的数量等于输入特征映射的通道数量。FC网络的输出被缩放到(0,1),函数使用使用，其中zc为第C个神经元的特征，αc为CTH缩放参数。然后，计算阈值如下:，其中τc为feature map的第C个通道的阈值，i, j, c为特征图的width, height和channel的索引，所研制的DRSN-CW的总体架构如图4(d)所示。将大量的rbus - cws进行叠加，以软阈值作为收缩函数，通过各种非线性变换来学习识别特征，以消除噪声相关信息。

三、实验

3.1 超参数的设置

实验在十倍交叉验证方案下进行。具体来说，数据集被平均分成10个子集;每个实验使用一个子集作为测试集，其余9个子集作为训练集;实验重复十次，使每个子集都有机会作为测试集。在此基础上，详细介绍了深度学习方法中超参数的初始化和选择。

利用与结构相关的超参数定义神经网络的结构，包括层数、卷积核数、卷积核的大小。由于对于如何设置这些超参数还没有达成共识，本文将根据流行的建议来设置它们。与体系结构相关的超参数如表2所示。CBU是指一个卷积的建筑单元，它不同于RBU，因为CBU不使用身份捷径。括号中的第一个数和第二个数分别为卷积核的个数和宽度。括号中的“/2”表示通过移动卷积核的步幅为2来减小feature map的宽度。不同层的feature map输出尺寸如表II第二列所示，可以是通道×宽×高的三维形式，也可以是矢量的一维形式。GAP后的三维特征图被简化为一维向量。最后，FC输出层有8个神经元，相当于考虑的类的数量(即1个健康状态和7个故障状态)。利用优化相关超参数定义训练过程。前40个时代的训练率为0.1，在随后的40个epoch中，参数值为0.01，在最后的20个epoch中，参数值为0.001，这样就可以在开始时进行较大的步骤更新，在结束时进行较小的步骤更新。动量是一种使用前面步骤中的更新来加速训练的训练策略。根据[15]的建议，动量系数设为0.9。L2正则化用于减少过拟合的影响，获得更高的测试精度[6]。L2正则化在目标函数中增加一个惩罚项，使权值趋近于零。这样就不太可能使权值的绝对值被优化得非常大，在处理类似的输入时，深度神经网络与权值相乘后输出也不会有太大的变化。惩罚项的系数设为0.0001，与经典ResNets[15]保持一致。迷你批处理是指随机选择的一组观测数据，这些观测数据被输入到深层架构中。与每次输入一个观测值的情况相比，可以减少时间消耗。迷你批的大小设置为128，与[20]保持一致。

论文阅读：Deep Residual Shrinkage Networksfor Fault Diagnosis相关推荐

（全文翻译）基于深度残差收缩网络的故障诊断Deep Residual Shrinkage Networks for Fault Diagnosis
M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, I ...
《Deep residual shrinkage networks for fault diagnosis》基于深度残差收缩网络的故障诊断（翻译与python代码）
基于深度残差收缩网络的故障诊断(翻译) 赵明航,钟诗胜,付旭云,汤宝平,Michael Pecht 论文连接:https://ieeexplore.ieee.org/document/8850096 ...
论文翻译-基于深度残差收缩网络的故障诊断 Deep Residual Shrinkage Networks for Fault Diagnosis
深度残差收缩网络是深度残差网络的一种改进,针对的是数据中含有噪声或冗余信息的情况,将软阈值化引入深度残差网络的内部,通过消除冗余特征,增强高层特征的判别性.以下对部分论文原文进行了翻译,仅以学习为目的 ...
基于深度残差收缩网络的故障诊断 Deep Residual Shrinkage Networks for Fault Diagnosis
深度残差收缩网络针对的是数据中含有噪声或冗余信息的情况,是深度残差网络的一种改进,将软阈值化引入深度残差网络的内部,通过消除冗余特征,增强高层特征的判别性.以下对部分论文原文进行了翻译,仅以学习为目的 ...
【Deep Learning】Deep Residual Shrinkage Networks for Fault Diagnosis（深度残差收缩网络）
[题目]Deep Residual Shrinkage Networks for Fault Diagnosis [翻译]基于深度残差收缩网络的故障诊断 Abstract (摘要) [翻译]本文提出了 ...
paper fast review :Deep Residual Shrinkage....
文章目录 Deep Residual Shrinkage Networks for Fault Diagnosis Summary 摘要 (中文) Research Objective Backgro ...
论文翻译[Deep Residual Learning for Image Recognition]
论文来源:Deep Residual Learning for Image Recognition [翻译人]:BDML@CQUT实验室 Deep Residual Learning for Imag ...
年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
深度残差收缩网络（Deep Residual Shrinkage Networks for Fault Diagnosis ）
摘要-本文开发了新的深度学习方法,即深度残余收缩网络,提高来自高噪声振动信号的特征学习能力,并实现较高的故障诊断准确性.软阈值作为非线性转换层插入到深层体系结构中,以消除不重要的特征.此外,考虑到通常 ...

论文阅读：Deep Residual Shrinkage Networksfor Fault Diagnosis

论文阅读：Deep Residual Shrinkage Networksfor Fault Diagnosis相关推荐

最新文章

热门文章