【翻译】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解释磁盘故障预测模型

Abstract 摘要
1.Introduction 介绍
2.BACKGROUND AND RELATED WORK 背景和相关工作
- A.Notation list 注释列表
- B.Disk failure prediction 磁盘故障预测
- C.Abstraction for disk failure predictive models 磁盘故障预测模型简介
- D.Explainability 可解释性
- E.Related work 相关工作
- - 1）磁盘故障预测：
  - 2）可解释性：
3.THE PROPOSED EXPLANATION METHOD 提出的解释方法
- A.Replacement tests 替换测试
- B.MFCS的定义
- C.解释故障预测
- D.解释预测模型
- E.复杂度和开销分析
4.EVALUATION
- A.设置
- B.D0上的评估
- C.开销
- D.讨论：智能磁盘故障处理
5.CONCLUSION AND FUTURE WORK 结论与下一步工作

·论文链接： https://ieeexplore.ieee.org/document/8890231

Abstract 摘要

磁盘故障预测的最新研究工作以复杂的模型实现了较高的检测率和较低的虚警率，但代价是难以解释。缺乏可解释性可能会掩盖模型中的偏差和过拟合问题，从而导致在实际应用中表现不佳。为了解决这一问题，我们提出了一种新的解释方法DFPE，该方法设计用于磁盘故障预测，以解释模型做出的故障预测并推断模型学习的预测规则。DFPE通过执行一系列替换测试以找出故障原因来解释故障预测，然后通过汇总故障预测的解释来解释模型。 在真实数据集上给出的用例表明，与当前的解释方法相比，DFPE可以更准确地解释故障预测和模型。因此，它有助于瞄准和处理隐藏的偏差和过拟合，从新的角度衡量功能的重要性，并实现智能的故障处理。

1.Introduction 介绍

数以万计的服务器聚集在数据中心中，以存储大量数据，并提供Internet、云计算、数据分析等服务。由于磁盘技术的成熟和高成本效益，大量的不同年龄的磁盘正在数据中心中使用。这就导致故障的频繁发生，尤其是磁盘故障。 对于未部署数据冗余方案（例如磁盘RAID，复制或擦除代码）的存储系统来说，磁盘故障会导致数据的丢失。而对于具有任何冗余方案的系统，磁盘故障会导致很大的开销来恢复丢失的数据，包括存储I/O、网络I/O和CPU突发（CPU burst）。

为了减少磁盘故障的影响，许多工作将重点放在磁盘故障预测上。磁盘故障预测解决方案会在即将发生磁盘故障时发出警报，因此存储系统有足够多的时间主动将数据和服务从高风险的磁盘中迁移出来。因此，它有助于维护数据和服务始终可用，并且减少了由于被动故障处理引起的I/O和CPU突发事件。

通常来说，预测模型在以下的情况下是可信赖的：1）对测试中大多数的现有案例做出正确预测。2）对做出预测的原因给出合理解释。关于磁盘故障预测的最新工作倾向于只关注前者而忽略后者。 他们建议在磁盘故障预测中采用复杂的模型，以改进检测率和虚警率。但是，他们是以可解释性为代价实现了改进，很难去理解为什么这些模型能够预测磁盘不久会发生故障。由于测试无法涵盖所有可能的情况，因此预测模型可能在测试中表现良好，但在测试中并未暴露出隐藏的偏差或过拟合问题，所以导致在实际应用中表现不佳。

偏差，也称为机器学习偏差，表示模型会产生系统性的偏见结果。例如，流行的Google News Word2Vec模型具有性别偏见，因为Google News数据集具有固有偏见。过拟合意味着模型会学习训练数据的噪声，并且过于精确地和训练数据对应。偏差和过拟合在预测模型的应用中会导致较低的预测精度。它们可能是由于对数据收集和处理的无意识监督造成的，很难去检测和处理。然而，如果对模型做出的预测给出解释，模型的高可解释性可以帮助检测偏差和过拟合。因此，提高磁盘故障预测中复杂模型的可解释性是十分重要的。

在本文中，我们提出了DFPE，一种磁盘故障预测解释方法，以提高复杂模型在磁盘故障预测上的可解释性。 DFPE通过提取相关特征来解释模型做出的故障预测，并通过汇总故障预测的解释和度量特征的重要性来推断模型学习的预测规则。此外，DFPE提供了更多的故障相关信息，以实现智能故障处理，从而可以针对不同故障情况采取不同的措施，而不是直接丢弃高风险磁盘。

总结起来，我们在本文中做出了以下贡献：
• 我们提出了一种新的解释方法，以提高当前复杂模型对磁盘故障预测的可解释性。据我们所知，它是第一个针对磁盘故障预测的可解释性问题的。
• 我们在一个实际数据集上提供了一个案例，以表明在磁盘故障预测的复杂模型中可能存在偏差，而我们的新方法有助于检测和处理隐藏的偏差。
• 我们证明了DFPE可以用于度量特征的重要性，并讨论了DFPE如何实现智能故障处理。

本文的其余部分将介绍方法的细节。第二节介绍了背景，存在的问题及相关工作。第三节介绍了我们方法的设计，第四节介绍了评估。第五节总结了论文并介绍了我们未来的工作。

2.BACKGROUND AND RELATED WORK 背景和相关工作

A.Notation list 注释列表

表 I 列出了本文中使用的符号。

B.Disk failure prediction 磁盘故障预测

磁盘故障预测是为了预测磁盘的未来状态：正常或故障。但是，它不仅仅是一个分类问题，还具有以下特征：
• 由于磁盘故障的情况比普通情况少得多，因此它是不平衡的分类问题。因此，预测磁盘故障的情况通常比正常预测少得多。
• 由于磁盘状态会随时间变化，因此这是一个时间序列分析问题。
• 这是一个多实例学习问题。对于发生故障的磁盘，其最终状态是已知的，但是磁盘变为故障时的确切更改点是未知的。

DFPE用于解释磁盘故障的预测和模型：1）DFPE通过专注于解释故障预测来解决上述第一个特征； 2）DFPE可以解释为时间序列构建的模型。 3）DFPE可以找出给定模型的变更点。

C.Abstraction for disk failure predictive models 磁盘故障预测模型简介

令I为预测模型的输入。I由许多特征组成：I = I1I2 … In，这些特征从各个方面描述了磁盘的运行指标。大部分有关磁盘故障预测的最新成果是基于SMART属性来建立预测模型的。SMART（自我监视，分析和报告技术的缩写）是一种监视系统，用于检测和报告各种存储驱动器可靠性的指标。它已很好地部署在硬盘驱动器（HDD）、固态驱动器（SSD）和eMMC驱动器中。例如，HDD的常见SMART属性包括SMART 5（重新分配扇区数）、SMART 7（寻错率）、SMART 189（高写入率）等等。此外，一些方法还考虑了系统级指标，例如文件系统错误、读取速率、写入速率、I/O队列大小、I/O等待时间和I/O利用率。由于特征值随时间变化，I可以是当前值，也可以是近一段时间内的值，也可以是从部署时间到现在的值。

令P为磁盘故障预测的预测模型。 P以I作为输入，并输出磁盘是否会发生故障：P：I→O。建立预测模型很复杂。为了解决建模问题，提出了许多算法、方法和工具，例如抽样、价值定标、学习、投票等。在本文中，我们将重点放在学习模型上。在磁盘故障预测中流行的学习模型包括SVM（支持向量机）、决策树、集成模型（例如随机森林、GBDT（梯度提升决策树））、以及人工神经网络（例如MLP（多层感知器），RNN（递归神经网络）和LSTM（长期短期记忆））。

令O为预测模型的输出。它可以推断磁盘在不久的将来是否会发生故障。它可以是布尔值（故障或正常），浮点值（多接近故障）或整数值（不同紧急程度）。在本文中，O默认为布尔值，其他类型的O可以轻松转换为布尔值。

D.Explainability 可解释性

随着人工智能的快速发展，越来越多复杂的模型被提出来以提高精度。提出的模型通常具有成千上万的参数。对于人类来说是不可能理解每个参数的确切含义以及模型如何从输入中推断出结果的。换句话说，为了提高准确性而牺牲掉了可解释性。

但是，随着对安全性和可信度的要求越来越高，越来越多的研究工作致力于改善复杂模型的可解释性。可解释性要求模型不仅输出结果，而且还解释其为何推断结果以及所学的规则。 尽管了解复杂模型中所有参数的确切含义是不现实的，但是可解释性只要求模型定性地解释输入和输出之间的关系，或者量化输入的每个特征对输出的贡献。这些解释为模型提供了见解，因此可以决定输出和模型是否可信。强调可解释性的优点是：1）帮助提高模型的可信度； 2）当模型给出难以置信的解释时，有助于检测模型中的偏差或过拟合； 3）提供了有关结果的更多详细信息，以支持后面更明智的决策。

现有两种流行的方法可以实现较高的可解释性：1）使用可解释的模型。例如，通过检查参数来推断规则，从而使决策树模型易于理解。具有高水平学习能力的复杂的可解释模型已经被开发。 2）采用一种解释方法来提高复杂模型的可解释性。 解释方法对模型进行一系列测试，例如随机排列测试，以推断输入和输出之间的关系并得出学习的规则。它的优点是可以与现有的学习模型很好地协作，这些学习模型通常比可解释的模型具有更好的学习性能。

最近，越来越多的复杂模型被部署到磁盘故障预测中，它们实现了非常好的学习性能（高检测率和低虚警率），例如Random Forest 、GBDT、MLP、RNN和LSTM。因此，我们提出了一种新的解释方法，以提高现有模型对磁盘故障预测的可解释性，而不会降低预测精度。

E.Related work 相关工作

1）磁盘故障预测：

近年来，磁盘故障预测得到了很好的研究，部署了许多机器学习方法来构建具有高检测率和低虚警率的高质量预测模型。

一方面，一些工作建立了具有高解释性的简单预测模型。例如，Murray等人利用了朴素贝叶斯。皮塔克拉特等人发现，最近邻分类器在21种分类算法中获得了最佳的预测质量。Li等人采用决策树。Ma等人表明，重新分配扇区的累积表明磁盘的劣化程度，因此可以根据该指标建立预测模型。对于这些模型，可以通过检查模型内部的参数来轻松地跟踪如何进行的预测以及学习了哪些预测规则。简单的模型可以快速进行预测，因此可以在强调低开销的场景中很好地部署它们。

另一方面，有些工作以可解释性为代价获得了更好的预测准确性。构建的模型很复杂。首先，模型包含了太多参数，因此很难去理解每个参数。例如，Zhu等人探索反向传播神经网络（MLP模型）的能力并开发了一种改进的SVM。徐等人部署RNN来测量硬盘的健康水平。其次，集成学习方法将许多基本模型结合在一起以获得更好的性能。集成模型包含的基本模型越多，可解释性就越低。例如，Botezatu等人使用了正则化贪婪森林。Mahdisoltani等人发现基于随机森林的分类器可以准确地预测扇区错误。Xiao等人利用在线随机森林可以随时间在线更新预测模型。

本文旨在提高当前复杂模型对磁盘故障预测的可解释性。 利用我们的新方法，当前的复杂模型不仅可以保持其较高的预测精度，而且还具有较高的解释性。

2）可解释性：

随着人工智能的发展，越来越复杂的建模方法被提出，可解释性的需求也在稳步增长。为了提高当前复杂模型的可解释性，研究人员提出了许多解释方法。根据解释目标，可以将解释方法分为本地和全局解释方法。

局部解释方法试图解释模型做出的预测。Robnik-ˇSikonja等人建议通过计算原始预测与省略某个特征的预测之间的差异来衡量该特征对预测的重要性。Baehrens等人建议通过测量局部梯度来解释预测结果，该局部梯度表示了该如何调整输入来改变预测结果。 Ribeiro等人提出LIME通过在预测周围局部学习模型来解释任何分类器的预测。

全局解释方法试图解释模型。 杂质平均降低（MDI）和准确性平均降低（MDA）是两种流行的方法，它们通过测量特征的重要性来解释树模型。 MDI计算包含特征的节点分割数，并按其分割的样本数加权，而MDA计算特征值随机排列时模型的平均增加误差。 Lakkaraju等人提出了BETA，一种模型不可知论的框架，通过优化原始模型的保真度和解释的可解释性来产生全局解释。

以上这些解释方法适用于任何应用程序，而我们的新方法则适用于磁盘故障预测。由于磁盘故障预测具有序列特征，因此我们的新方法可以比当前的解释方法产生更多、更好的解释。

此外，具有高学习能力的可解释模型正在开发中。这是提供磁盘故障预测高精度高可解释性模型的方法。

3.THE PROPOSED EXPLANATION METHOD 提出的解释方法

通过对前人的工作的学习，我们开发了DFPE，这是一种新的解释方法，它通过执行一系列替换测试来对磁盘故障预测做出解释。

A.Replacement tests 替换测试

对于磁盘的输入I，将第i个特征替换为值v，我们得到修改后的输入C(I,i,v)。令T(Ii)为普通磁盘的第i个特征的典型值。它可以是普通磁盘特征的平均值或中值。因此，C(I,i,T(Ii)) 意味着省略第i个特征。对于不在列集S中的每列i，将第i个特征替换为T(Ii)，最后得到修改后的输入CS(I,S)。 CS(I,S) 表示忽略S之外的所有功能。

对于磁盘故障预测而言，预测模型做出正常预测的情况应该远多于故障预测。但是，故障预测比正常预测重要得多。因此，替换测试的目的是测试故障预测是不是由给定的特征集引起的。 对于特征集S，替换测试将测试P(I)和P(C(I,S))是否都会预测磁盘发生故障。如果是这样，则意味着即使省略了S之外的所有特征，该模型也会在磁盘上做出相同的故障预测。因此是集合S中的特征导致了磁盘的故障预测。

B.MFCS的定义

定义1：对于预测将故障 P(I)=true的磁盘的输入I，当列集S满足以下条件时，S被定义为磁盘的最小故障原因集（MFCS）：

第一个条件表明，即使从输入I中忽略了所有不在MFCS中的特征，预测模型P仍然预测磁盘发生故障。换句话说，对于磁盘，MFCS中的特征使模型P确信磁盘将在不久的将来发生故障。第二个条件表示最小值。没有合适的MFCS子集能够说服P磁盘会发生故障。MFCS中的任何特征对于支持故障预测都是必不可少的。

定义了MFCS来解释故障预测。MFCS会告知哪些特征使得模型做出故障预测。此外，由于模型已经了解了故障与MFCS中的特征之间的关系，因此可以从MFCS推断学习规则。

令im(MFCS,Ii)为MFCS(i∈MFCS)中特征Ii的重要性。通过学习文献[20]，DFPE通过计算如何调整特征以改变预测结果来计算im(MFCS,Ii)，如算法1所示。由于有关磁盘可靠性的大多数特征都有增加或减少的趋势， DFPE利用二进制搜索，通过有限的步长（Stepmax）来计算特征的变化点。然后，DFPE归一化变化点和特征值之间的距离。要注意的是，Ii可以是单个值也可以是时间序列，但是算法1在两种情况下都适用。

由于预测磁盘故障可能是根据不止一条规则，因此可能有不止一个MFCS用于故障预测。令E为磁盘故障预测的解释。E是一组MFCS，并且E = {MFCS1，MFCS2 … MFCSm}。

C.解释故障预测

现在将解释磁盘故障预测转换为找出磁盘的所有MFCS或E。对于具有n个特征的磁盘，测试所有可能的MFCS的复杂度为O(2^n)，这将花费很多时间。因此，DFPE无需测试所有可能的MFCS，而是采用两步方法来找出尽可能多的MFCS。

第一步，DFPE做一些替换测试以寻找潜在的MFCS，如算法2所示。算法2包含两个嵌套循环。内循环（第5至15行）试图通过逐个替换特征，测试特征是否影响预测结果。如果有影响，DFPE将回滚替换值并将特征添加到当前的MFCS中。如果没有，DFPE将保留替换值并继续迭代。找到一个MFCS之后，DFPE会忽略这个MFCS中的所有特征，并测试外环中是否有更多的MFCS。如果有，DFPE会尝试再次通过内部循环查找更多的MF CS。如果没有了，则DFPE返回所有找到的MFCS。

算法2只能找出没有重叠的MFCS。 例如，它可以找出{1,3}和{2,4}。但是当有重叠时，它不能找出所有的MFCS。例如，当MFCS为{1,3}和{2,3}时，算法2只能找出{2,3}，因为在找到{2,3}之后省略了特征I3。为了找出更多用于故障预测的MFCS，DFPE采取了第二步。

在第二步中，DFPE保持一个用于预测模型的MFCS集，称为knownMFCS。knownMFCS包含算法2为历史故障预测发现的所有已知MFCS。通常，DFPE使用训练数据构建已知的knownMFCS。如算法3所示，DFPE检查knownMFCS中的每个元素，以找出更多的MFCS用于故障预测。为了减少检查次数，DFPE首先按大小升序排列knownMFCS中的元素。然后，对于knownMFCS中的每个元素KS，DFPE检查E中是否存在KS的子集还是KS的超集（请参见第3行）。如果有，则KS不能作为磁盘的MFCS，因为不能满足MFCS定义中的条件。如果KS是E中元素的子集，则P(CS(I,KS))等于false，因此无法满足第一个条件。如果KS是E中元素的超集，则不满足第二个条件。如果通过了第3行的测试，则DFPE会进一步测试是否找到与KS共享特征的MFCS（请参见第4行）。由于算法2已找到所有没有重叠的MFCS，因此算法3只能找出与找到的MFCS有重叠的MFCS。最后，如果检查不能排除KS，则DFPE将执行替换测试，以检查KS是否确实是磁盘的MFCS。

DFPE不保证会找到所有MFCS。假设存在一个MFCS并在以上两个步骤中隐藏。根据第一步，MFCS与另一个MFCS’一起出现。根据第二步，有两种情况。首先，MFCS从未出现过。在这种情况下，如果不遍历所有可能性就很难通过启发式方法找到它。其次，MFCS从来没有单独出现过。在这种情况下，这可能意味着存在多余的特征，这些特征只会引起多余的解释。因此，DFPE没有采取更多的步骤来挖掘隐藏的MFCS。

D.解释预测模型

为了解释预测模型，DFPE汇总了所有关于故障预测的历史解释，以推断出预测模型已掌握的预测规则。通常，DFPE会使用训练数据或验证数据来解释模型。 DFPE将MFCS看作预测规则。对于每个MFCS，DFPE将分别计算由其导致的正确和不正确的故障预测数量（分别标记为TPMFCS和FPMF CS）。令FNMFCS为没有MFCS的故障磁盘数。令TNMFCS为没有MFCS的正常磁盘数。然后，DFPE进一步根据方程式（1）和（2）分别计算由MFCS得出正确故障预测的百分比以及其虚警率（标记为FDRMFCS和F ARMFCS）。

对于MFCS，FDRMFCS描述其流行程度和重要性，而FARMFCS描述其可信度。DFPE根据所有MFCS的FDRMFCS对其进行排序，显示出最常见的故障原因。同时，DFPE根据所有MFCS的FARMFCS对它们进行排序，以提供最值得怀疑的规则，从而警告管理员谨慎处理相关的故障预测。

最后，DFPE度量了预测模型中每个特征的重要性（标记为imp(Ii,P)）。对于每个功能Ii，DFPE都会计算成功预测了多少故障磁盘，其故障预测的解释中包含该特征。计数器标记为TPIi。然后DFPE通过根据等式（3）归一化TPIi来计算imp(Ii,P)。imp(Ii,P)值表示模型中各个特征的重要性。imp(Ii,P)的值越大，该特征越重要。这些值在要素工程中很有用，例如要素选择，可以选择具有最高imp(Ii,P)值的要素来构建更精简的模型。

E.复杂度和开销分析

DFPE最耗时的操作就是计算P(I)来进行预测。因此，时间复杂度通过P(I)的计算时间来衡量。当前无解释的磁盘故障预测方法只需要计算一次P(I)，因此它们的时间复杂度为O(1)。 DFPE则需要多次计算P(I)，以便可以对故障预测做出解释并提供有关即将发生的故障的更多详细信息。我们认为这是可以接受的，因为它具有很高的解释性。

算法2尝试找出没有重叠的所有MFCS。 它的复杂度取决于可以找到多少个M FCS。令n为数据集中的要素数量。最好的情况是只有一个MFCS，DFPE需要对每个特征进行替换测试，因此复杂度的严格下限为Ω(n)。在最坏的情况下，每个特征都是一个MFCS，而DFPE在进行所有特征的替换测试的一次循环中只能找出一个MFCS。因此，复杂度的严格上限为O(n^2)。在测试中，我们发现磁盘的MFCS的平均数量通常远少于特征的数量，因此实际成本将比最坏情况下的成本低得多。

算法1执行二分查找以有限的步长（Stepmax）度量特征的重要性，因此其时间复杂度为O(Stepmax)。因为Stepmaxis是一个指定的常数参数，所以O(Stepmax)= O(1)。故障预测的解释不能超过2ⁿ个MFCS，而MFCS不能超过n个特征。因此，用于解释的度量特征重要性的上限复杂度为o(n*2ⁿ)。但是我们在评估中发现，用于解释的MFCS的平均数量通常远少于特征数量，因此实际成本将比最坏情况下的成本低得多。

为了解释故障预测，DFPE根据算法2和3找出MFCS，并度量了找到的M F CS的特征重要性。 因此，复杂度为O(n²)+O(2ⁿ)+o(n2ⁿ)=o(n2ⁿ)。最坏的情况将花费大量时间。但根据以上描述推断，尽管最坏情况确实很糟糕，实际成本通常会比最坏情况下的成本低得多。在第四节中，我们将证明成本是可以接受的。

最后，DFPE通过收集故障预测的解释来推断预测规则以解释预测模型。 推理方法很简单，因为它只做一些计数工作，并使用计数器计算FDRMFCS、FARMFCS和imp(Ii,P)。因此，解释模型的主要成本在于解释故障预测。

为了减少开销，可以通过禁用某些特征来限定DFPE。例如，可以省略算法3，这将减少找到的MFCS的数量。解释模型也可以是可选的。DFPE可以像其他局部解释方法一样只解释预测。另外，可以利用采样技术来进一步减少开销。例如在解释模型时，DFPE可以通过限制每个磁盘的时间序列长度来对数据集进行采样。

4.EVALUATION

A.设置

我们在具有两个Intel Xeon E52620 CPU、128 GB内存和Linux内核4.4.0的Ubuntu x86 64 16.04 LTS的服务器上运行评估。我们基于scikit-learn 0.19.1和PyTorch 0.4.0实现了DFPE和相关方法。评估涉及的数据集见表II。表II中的所有数据集均由SMART属性的记录组成。数据集D0已用于[7] – [9]，[17]，D1，D3，D4和D8用于[10]，以及D1和D2用于[11]。

对于每个磁盘序列，按照7：3的比例将数据集分为训练集和测试集。训练集用于训练、调整和解释预测模型。通过训练集，我们构建了模型并通过迭代小范围的训练参数对其进行了调整。不能保证所构建的模型是最佳的。通过进一步的调整或新的建模方法，可能会获得更好的模型，但在磁盘故障预测上如何建立高质量的模型不是本文的主题。测试集用于评估模型的性能并提供故障预测的解释。

在评估中，我们首先关注数据集D0，比较DFPE所做的解释和其他解释方法的详细信息，然后将评估扩展到其他数据集来展示DFPE的用法和开销。 Stepmax设置为10，这样im(MFCS,Ii)的精度就等于2^-10≈0.001。

B.D0上的评估

表III中列出了为构建D0的预测模型而选择的SMART属性。本文采用的预测模型是随机森林模型。

1）解释预测模型： MDI和MDA是两种流行的通过度量特征重要性来解释随机森林模型的方法。图1(a)和1(b)分别表示了MDI和MDA的解释。与之相比，DFPE不仅度量了特征重要性（图1©），而且还推断出预测规则，计算了规则相关的指标（如表IV和V所示）。

图1展示了三种度量特征重要性的方法之间的比较。一方面，观察到一些差异。结果表明，这三种方法在F11，F9，F7和F3的重要性上有很大差异。例如，MDI和MDA认为F9不重要，而DFPE认为F9重要。另一方面，也有更多的相似之处。 例如F5是最重要的特征，F8和F6有点重要，而F10则最不重要。DFPE设计用于磁盘故障预测。由于磁盘故障预测是一个不平衡的分类问题，因此DFPE只去分析故障的预测。这是DFPE与其他两种方法之间的主要区别。因此，DFPE的结果应该比其他两种方法更准确。此外，由于差异性，DFPE测得的重要性值分布更加均匀，从而可以更好地比较特征。

特征选择可以在度量特征重要性之后进行。在分别基于这三种方法进行特征选择之后，我们为10个数据集建立了模型。由于相似性，这三种方法选择了许多共同的特征。结果，未观察到由DFPE作出的明显改进。因此，DFPE只是提供了另一个衡量模型中特征重要性的角度，并为特征选择提供了多一种方法。

与MDI和MDA相比，DFPE可以通过推断预测规则来解释有关预测模型的更多信息。DFPE根据其检测率对规则进行排序，直观地显示最流行和最重要的规则。 表IV显示了Random Forest模型学习的十大重要规则。可以看出，大多数故障只能通过一些规则来检测。此外，DFPE根据虚警率对规则进行排序，直观地显示最值得怀疑的规则。 表V列出了随机森林模型已学习到的十大可疑规则。可以看出，大多数错误警报仅由少数规则引起。这也表明规则的虚警率确实很小，意味着随机森林模型已经很好的拟合了训练数据。通常来说，可以去排除掉虚警率高或检测率低的规则，而不需要进行重建来提高模型的质量。

2）解释故障预测： 我们在测试集中随机选择了一个故障磁盘来展示DFPE的解释。为了进行比较，我们还使用LIME来解释相同的故障预测。图2中LIME的解释表明，F5，F2，F12，F11，F7，F9和F1试图说服模型磁盘将在不同程度上发生故障，而F4和F8试图说服模型磁盘在正常工作。它还表明F5是导致故障预测的主导因素。

与LIME相比，DFPE可以针对故障预测解释的更多，并且解释的更为准确。 表VI显示，DFPE对于该故障预测发现了三个MFCS。每个MFCS都可以分别说服模型作出故障预测。根据表IV，这三个MFCS属于前4个最重要的MFCS，意味着这三个规则已对许多故障磁盘预测正确。其中{6}的FARMFCS最小，等于0，这意味着故障预测非常可信。DFPE还度量了特征对故障预测的重要性，如图3所示。它表明F6，F5，F9，F3和F11对于故障预测很重要，这与LIME的解释大不相同。原因是DFPE与LIME不同，它通过忽略MFCS之外的其他特征来衡量MFCS中特征的重要性。对于这个例子，模型可以仅根据F5而做出故障预测，但由于F6，F3，F9和F11的存在，省略F5并不会更改作出故障预测的决定。因此，如果不排除F5的影响，就无法暴露F6，F3，F9和F11的重要性。因此在磁盘故障预测的应用中，DFPE的解释比LIME的解释更为准确。

3）检测和处理偏差： 从MDA，MDI和LIME的解释（如图1(a)、1(b)和2所示）可以看出，F5（磁盘的上电时间）是磁盘故障预测中最重要的功能。这是合理的，因为磁盘运行的时间越长，发生故障的可能性就越大。但是，从如图1©和3以及表IV至VI所示的DFPE的说明中可以看出，模型已了解到F5可以单独确定故障预测。这意味着，只要磁盘的通电时间超过某个阈值，该模型就可以确定磁盘肯定会发生故障。这种学到的规则是不合理的，因为在使用磁盘一定时间后会引起很多错误警报。简而言之，模型中存在偏差，DFPE有助于揭露它。

如表V所示，由于规则{5}的虚警率确实很低，因此偏差可能是由数据集而不是建模方法引起的。为了确定偏差不是由建模方法引起的，我们从其他学习方法中建立了几种预测模型：GBDT，XGBoost，SVM，MLP和LSTM。表VII显示所有模型都学会了规则{5}，而且是最重要的规则，具有最高的检测率和非常低的虚警率。这意味着无论采用哪种建模方法，都存在偏差。针对数据集中的偏差，图4表示了普通磁盘和故障磁盘的F5值分布。原始F5值的范围是0到255，并且在预处理过程中会线性缩放到[-1,1]范围。以下特征是保留的：值越大，上电时间越短。可以看出，普通磁盘的F5值范围是-0.08-1，而故障磁盘的F5值范围是-1-1。缺少F5值范围在[-1，-0.08]的普通磁盘样本会导致模型十分容易学习到磁盘上电时间超过一定阈值将出现故障的规则。这意味着数据集具有时间偏差。 时间偏差可能是由于数据收集方法引起的，它是在某个时间导出所有磁盘的一周样本，然后在此时间之后只去更新故障磁盘中的样本。

有两种简单的方法可以处理数据偏差：1）仅在解释中存在不是{5}的MFCS时，让模型预测磁盘发生故障。 2）重建没有功能F5的模型。表VIII显示了基于随机森林模型的两种方法的评估结果。结果表明，前一种方法具有更好的FAR，而后者具有更好的FDR。这两种方法的性能都比原始模型差，因为它们没有利用数据偏差。但是，这两种方法在现实世界中都应比原始模型具有更好的性能，因为它们没有不健全的规则。

4）总结： 对D0的评估表明，与目前的方法相比，DFPE对模型的解释更多，并且对模型进行的故障预测的解释更多，并且DFPE的解释更加准确。因此，DFPE有助于直观地检测和处理偏差。

C.开销

我们将评估扩展到十个数据集，以展示DFPE的间接费用。对于每个数据集，用于评估的随机森林模型都基于所选的12个最相关的要素建模。表IX中列出的SMART属性是为表III中所列的一个或多个数据集选择的。由于某些SMART属性暗示了磁盘的使用期限，因此模型可能具有上述的使用期限偏差，因此部署DFPE来检测和处理该偏差将很有帮助。间接费用通过相关的时间成本来衡量。呈现的时间成本可以通过将它们除以一个模型做出预测的平均时间成本进行归一化，然后将它们乘以10^-6秒，来排除模型复杂度的影响。因为在评估中模型进行预测的时间成本大小为10^-6秒。

解释模型的开销是通过用训练集解释模型的时间成本来衡量的。MDI度量在建模的期间度量重要性，不需要更多成本。因此我们仅比较了MDA和DFPE的时间成本，如图5所示。与MDA相比，DFPE在D2上需要89倍的时间，其他数据集需要1.2倍至12倍的时间。DFPE的开销要比MDA的开销大得多，因为DFPE通过大量替换测试提取有关该模型的更多信息，来详细解释每个故障预测。此外，在给定相同数量的特征的情况下，MDA的时间成本由训练集的大小确定，而DFPE的时间成本主要由训练集的故障预测数确定。数据集D2相对较小，但有很多故障预测，因此DFPE比MDA需要更多的时间。解释模型是数据分析的一项离线任务，因此考虑到高可解释性的好处，DFPE的时间成本是可以接受的。

解释预测的开销是通过测试集中磁盘预测的解释平均时间成本来衡量的。让LIME和DFPE仅解释故障的预测。图6分别显示了LIME和DFPE的时间成本。结果表明，与LIME相比，对于这十个数据集DFPE需要1.1倍至8.0倍的时间。DFPE的开销要比LIME的开销大，因为DFPE试图通过寻找更多的故障原因并分别度量特征重要性来进行更多解释。在线进行预测后，解释预测也要在线进行，越快越好。但当模型做出故障的预测时不需要很在意，因为处理故障的成本要比做出解释高得多。

我们将进一步研究DFPE的成本。图7显示，对于十个数据集，每个解释的MFCS的平均个数范围在1.3到8.2，少于12个（特征的数量），因此根据算法2查找MFCS和根据算法1进行特征重要性度量的实际成本远低于最坏的情况下的理论成本。图8展示了| knownMFCSs |。十个数据集的值范围从11到192。它们远远小于2¹²（knownMFCS的理论最大个数），因此根据算法3检查knownMFCS的实际成本要比最差情况下的理论成本低得多。图8还显示，每个解释检查knownMFCS的平均值约为knownMFCS大小的8％〜46％。这意味着算法3中的过滤器帮助算法3减少了54％〜92％的开销。

为了展示DFPE开销与所选特征数量之间的关系，我们针对具有不同特征数量的数据集D4构建并解释了模型。因为D4的模型解释的时间少，为了节省时间只选择了D4。如图9所示，随着选定特征数量的增加，开销的增长往往会随着相当大的振荡而缓慢增长。 缓慢增长的原因是，只有一小部分特征与磁盘故障有关，并且大多数故障可以通过甚至更少的特征预测出来。由于增长缓慢，DFPE在应用程序中将具有很大的可伸缩性。振荡出现的原因是当所涉及的特征太少或不相关时，模型可能会在训练数据中学习到噪声，这会导致不确定地增加进行解释的时间成本。

综上所述，与当前的解释方法相比，DFPE需要更多的开销来解释有关模型和故障预测的更多信息。由于具有较高的可解释性和较高的故障处理成本，因此我们认为这些开销是可以接受的。

D.讨论：智能磁盘故障处理

目前主动的磁盘故障处理方法是迁移数据并替换预计发生故障的磁盘。如果能维修磁盘或者将其部署在其他应用程序场景中，那么丢弃磁盘会导致存储资源的巨大浪费。例如当预测一个磁盘会因为温度（SMART 194）而发生故障时，可以通过清洁灰尘来维修磁盘。当由于磁盘的重新分配扇区数（SMART 5）而预测磁盘发生故障时，磁盘中的数据仍可以正常服务，但是会有相对较高的错误率。在这种情况下，可以将该磁盘部署在对尾部延迟不敏感的应用场景中，而且存储系统可以利用磁盘清理来发现错误并存储冗余数据以恢复丢失的数据。该处理方式也称为降低使用率。为了减少存储资源的浪费，采用智能磁盘故障处理方法很重要，这意味着根据故障原因智能地处理预测出的磁盘故障。

DFPE通过以MFCS形式提供故障原因来实现智能磁盘故障处理。在这里，我们介绍一个简单的智能磁盘故障解决方案，称为SIDF。对于每个特征，SIDF都提供相应的操作来处理由该特征引起的故障预测。当一个MFCS在故障预测的解释中时，必须采取一个与这个MFCS中的特征相对应的处理措施来处理故障。SIDF可以选择可以最佳使用磁盘而不是丢弃磁盘的操作。当一个解释包含多个MFCS时，必须采取相同数量的相应处理动作。当一个处理操作可以处理多个MFCS时，SIDF将采取这个高优先级的动作。但是，当一项操作是丢弃磁盘时，则无需执行其他的操作。

以数据集D0的磁盘系列为例。SIDF可以提供三种处理措施：降低温度，降低使用率和丢弃磁盘。降低温度是特征F8的处理措施。降低磁盘的使用率是为了处理由F1，F3，F6，F9，F10，F11或F12引起的故障，因为这些特征的异常可能只会导致较高的数据错误率。丢弃磁盘用于F2，F4和F7，因为这些特征的异常可能是由于某些机械零件的损坏而引起的。如果预测磁盘出现故障并给出解释{{8,9,11}}，则SIDF应该采取下面其中一种处理措施：降低温度或降低使用率。当解释为{{4,8,12}，{3,5}}时，SIDF将采取降低使用率的操作，因为该操作同时针对F12和F3。当解释为{{4}，{1,3,6}}时，SIDF应该同时执行两个操作：降低使用率并丢弃磁盘。但是应该将磁盘丢弃，因此SIDF无需采取降低使用率的措施。

5.CONCLUSION AND FUTURE WORK 结论与下一步工作

在本文中，我们提出了一种解释方法DFPE，以提高复杂模型在磁盘故障预测上的可解释性。对实际数据集的评估表明，DFPE可以解释模型做出的故障预测，并推断出模型学习的预测规则。与当前的解释方法相比，DFPE可以更准确地解释有关故障预测和模型的信息。因此，DFPE有助于检测和处理模型中的偏差和过拟合，为度量特征的重要性提供了另一个视角，并实现了智能磁盘故障处理。

我们未来的工作是通过减少开销来改进DFPE，探索更合适DFPE的应用程序，并测试智能磁盘故障处理的实用性。

【翻译】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解释磁盘故障预测模型相关推荐

oracle asm 状态,ASM 规划ASM DISK GROUP、查看asm 磁盘当前状态等
规划ASM DISK GROUP.查看asm 磁盘当前状态.mount or dismount 磁盘组.检查磁盘组 metadata 的内部一致性规划ASM DISK GROUP: 1. 每个磁盘组 ...
论文中文翻译——A deep tree-based model for software defect prediction
本论文相关内容论文下载地址--Web Of Science 论文中文翻译--A deep tree-based model for software defect prediction 论文阅读笔记 ...
【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge
本篇基于有道翻译进行翻译的.为了自己阅读翻遍, 公式部分处理不太好. 论文原文链接:https://arxiv.org/abs/2003.03622 Abstract 本文提出了一种通过对深度神经网络 ...
face论文翻译--3D Face Morphable Models “In-the-Wild”
3D Face Morphable Models "In-the-Wild" Abstract 3D Morphable模型(3DMMs)是三维人脸形状和纹理的有力统计模型,也是从 ...
因果推断杂记——因果推断与线性回归、SHAP值理论的关系（十九）
文章目录 1 因果推断与线性回归的关系 1.1 DML的启发 1.2 特殊的离散回归 = 因果? 2 因果推断中的ITE 与SHAP值理论的思考 2.1 一些奇思妙想 2.2 因果推断 -> s ...
FAST 2020 摘要概览
FAST 2020 摘要概览 (18th USENIX Conference on File and Storage Technologies) https://www.usenix.org/conf ...
oracle离线文档查dbms_Oracle的健康检查–dbms_hm的使用 | 学步园
这是oracle11g推出的一个新特性,利用这个特性我们可以提前预知一些问题,比如一张表上有个长时间未使用的坏块,在检测出来后我们可以提前修复,我们可以针对数据文件.控制文件.重做日志进行检测,当然我 ...
他复读才考上三本，如今让华为开出201万年薪（其实还拒绝了360万offer）
点击上方"大鱼机器人",选择"置顶/星标公众号" 福利干货,第一时间送达! 萧箫鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 他叫张霁,1993 ...
PAKDD2020 阿里巴巴智能运维算法大赛总结（初赛33，决赛19）
赛题地址:PAKDD2020 阿里巴巴智能运维算法大赛-大规模硬盘故障预测 Githun代码地址:初赛+复赛感谢另外两名队友的帮助,在整理资料和查阅文献方面给予了不少帮助. 另外一名队友的相关文章分 ...

【翻译】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解释磁盘故障预测模型

【翻译】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解释磁盘故障预测模型

Abstract 摘要

1.Introduction 介绍

2.BACKGROUND AND RELATED WORK 背景和相关工作

A.Notation list 注释列表

B.Disk failure prediction 磁盘故障预测

C.Abstraction for disk failure predictive models 磁盘故障预测模型简介

D.Explainability 可解释性

E.Related work 相关工作

1）磁盘故障预测：

2）可解释性：

3.THE PROPOSED EXPLANATION METHOD 提出的解释方法

A.Replacement tests 替换测试

B.MFCS的定义

C.解释故障预测

D.解释预测模型

E.复杂度和开销分析

4.EVALUATION

A.设置

B.D0上的评估

C.开销

D.讨论：智能磁盘故障处理

5.CONCLUSION AND FUTURE WORK 结论与下一步工作

【翻译】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解释磁盘故障预测模型相关推荐

最新文章

热门文章