“概念白化”，提供神经网络可解释性的新技术

作者：Ben Dickson（软件工程师、TechTalks 的创始人）

译者：hhhnoone

原文：Deep learning doesn’t need to be a black box

深度神经网络的成功，要归功于它们极其庞大而复杂的参数网络，但是这种复杂性也导致了某些弊端：神经网络的内部运作通常是一个谜 —— 即使对于其创造者而言也是如此。自从深度学习从 2010 年代初期开始流行以来，这个难题就持续困扰着人工智能社区。

随着深度学习在不同领域的应用和拓展，人们对能够通过验证神经网络结果和学习参数来解释神经网络（内部工作原理）的技术越来越感兴趣。

最近，Nature Machine Intelligence 发表的一篇论文，介绍了一种有潜力的新方法。杜克大学的科学家提出了一种名为 “concept whitening”（概念白化）技术，可在不牺牲性能的前提下帮助引导神经网络学习特定的概念。concept whitening 将可解释性带入了深度学习模型，而不是在数百万经过过训练的参数中寻找答案，显示出令人鼓舞的结果。

深度学习模型的特征和隐空间

如果有足够高质量的训练例子，一个具有合理架构的深度学习模型应该能够区分不同类型的输入。例如，在计算机视觉任务中，经过训练的神经网络将能够将图像的像素值转换为其相应的类别。而 concept whitening，正是在图像识别背景下提出的。

在训练过程中，深度学习模型的每一层都将训练图像的特征编码成一组数值，并存储在其参数中，这被称为 AI 模型的隐空间（Latent Space）。一般来说，多层卷积神经网络的较低层将学习基本特征，如角和边，更高层次的神经网络将学习检测更复杂的特征，如人脸、物体、完整的场景等。

图：神经网络的每一层编码输入图片的特定特征

理想情况下，神经网络的隐空间代表一些概念，这些概念与神经网络要检测的图像类别相关，但是我们通常不能清楚地意识到这一点，并且深度学习模型倾向于学习最具有辨识度的特征，即使这些特征是错误的。

例如，下面的数据集包含一些图像，这些图像中包含小猫，同时右下角恰好有一个 logo。一个人可以很容易认为 logo 与目标无关，从而忽略它，但深度学习模型可能会发现，右下角有一个 logo 是区分猫和其他动物最简单、最有效的方法。同样，如果你的训练集中所有的绵羊图像都包含大片的绿色牧场，你的神经网络可能会学着检测绿色牧场而不是检测绵羊。

图：训练时，机器学习算法会搜索将像素与标签相关联的最易区分的特征。

所以，除了深度学习模型在训练和测试数据集上的表现，了解它已经学会检测哪些概念和特征也很重要。这就是经典解释技巧发挥作用的地方。

神经网络的事后归因

许多深度学习技术都是事后归因的（ post hoc），即尝试通过检查其输出和参数值来使经过训练的神经网络有意义。例如，一种常见的技术通过屏蔽输入图像的不同部分来确定神经网络在图像中看到了什么（神经网络看懂了图像的哪个部分或那个特征），并观察这些变化如何影响深度学习模型的输出，这项技术有助于创建热图（heap map），它可以用来突出与神经网络更相关的图像特征。

图：特征图示例

其他事后归因技术包括打开和关闭不同的人工神经元，并检查这些变化如何影响 AI 模型的输出。这些方法有助于发现特征与隐空间之间关系。虽然这些方法很有帮助，但它们仍然将深度学习模型视为黑盒，并不能明确描绘出神经网络的工作原理。

现有解释方法通常是对性能的汇总统计 (例如，局部近似，节点激活的一般趋势)，而不是对模型计算的实际解释”，concept whitening 论文的作者写道。例如，特征图的问题在于，它们经常不能显示神经网络可能已经学习到的错误内容，当神经网络的特征分散在隐空间时，解释单个神经元的作用变得非常困难。

图：特征图解释并不能准确描述黑盒 AI 模型的工作方式。

杜克大学计算机科学博士生、 concept whitening 论文的第一作者 Zhi Chen 表示：“深度神经网络 (DNNs) 在图像识别领域中非常强大，但由于其复杂性，在 DNNs 的隐藏层中学到了什么是未知的。缺乏可解释性使得神经网络不值得信任，也很难进行故障排除，” 以往许多工作都尝试解释神经网络模型所学习到的东西，例如每个神经元所学习到的概念有哪些，但是这些工作严重依赖这样一个假设：这些概念被神经网络真实学习到（但实际上并不是）并且集中在一个神经元上。

杜克大学计算机科学教授辛西娅・Rudin (Cynthia Rudin) 是 concept whitening 论文的联合著者，她此前就警告过相信黑盒解释技术的危险，并展示了这种方法可能会对神经网络提供错误的解释。在之前发表在 Nature Machine Intelligence 杂志上的另一篇论文中，鲁丁鼓励使用和开发具有内在可解释性的 AI 模型。

这次提出的 concept whitening，目标是让神经网络的隐空间与一些概念所对齐，而这些概念就是神经网络的目标。这种方法将使深度学习模型具有可解释性，也使我们更容易找出输入图像的特征与神经网络的输出之间的关系。Rudin 称:“我们的工作直接改变了神经网络，以解耦隐空间，使 axes 与已知概念对齐。”

深度学习模型通常在单个带标签的示例数据集上进行训练。concept whitening 引入另一种数据集，该数据集包含概念示例。而这些概念与 AI 模型的主要任务有关。例如，如果你的深度学习模型主要用于检测卧室，相关的概念将包括床、灯、窗、门等。

“有代表性的样本可以手工选择，因为它们可能构成我们对可解释性的定义，”Chen 说，“机器学习从业者可以通过任何方式收集这些样本，创建适合自己应用的概念数据集。例如，可以要求医生选择有代表性的 x 射线图像来定义医学概念（数据集）。”

通过 concept whitening，团队对深度学习模型进行了两个并行的训练周期。当神经网络调整其总体参数来代表主要任务中的类别时，concept whitening 调整每一层中的特定神经元，使这些神经元与概念数据集中所包含的类别对齐。

其结果是形成了一个解耦的隐空间，概念在每一层被整齐地分开，神经元的激活对应于它们各自的概念。“这样的解耦可以让我们更清楚地了解神经网络是如何逐渐在不同层次上学习概念的，”，Chen 说（这里的解耦 disentangle，意味着隐空间的不同部分代表不同的概念）。

为了评估 concept whitenin 技术的有效性，研究人员通过在不同层次插入 concept whitening 模块的深度学习模型运行了一系列验证图像。然后他们根据每一层激活的概念神经元对图像进行分类。在神经网络较低层，concept whitenin 模块捕获低级特征，如颜色和纹理。例如，神经网络的较低层可以学习到包含白色物体的蓝色图像与 “飞机” 的概念密切相关，而暖色调的图像更有可能包含 “床” 的概念。在更高层，神经网络学习去对概念进行分类。

图: Concept whitening 在低层学习低级信息 (如颜色、纹理)，在高层学习高级信息 (如物体、人)。

概念分解和对齐的好处之一是，神经网络变得不太容易犯明显的错误。当图像进入神经网络，较高层的概念神经元会纠正可能发生在较低层的错误。例如，在下图中，由于蓝白像素的密集存在，神经网络的较低层错误地将图像与 “飞机” 的概念联系起来。但当图像在更高的层次上移动时，概念神经元将结果引导到正确的方向 (如图所示)。

图：当图像从神经网络的较低层移动到较高层时，Concept whitening 可以纠正错误的概念和错误。

AI 领域之前的工作包括创建分类器，试图从神经网络的隐空间中的值推断概念。但是，根据 Chen 的说法，没有一个解耦的隐空间，这些（没有采用 Concept whitening 的）方法学习的概念是不纯粹的，因为概念神经元的预测分数（prediction scores）可以是相关的。“以前，有些人曾试图以监督学习的方式解开神经网络的纠缠，但并没有以一种方式真正能够解耦隐空间。另一方面，Concept whitening 通过白化变换（whitening transformation）解除轴间的关联，真正解耦了这些概念。

Concept whitening 在深度学习中的应用

具体而言，Concept whitening 是可以插入卷积神经网络的模块，从而替换 batch normalization 模块。batch normalization 于 2015 年推出，是一项目前流行的技术，它可以调整用于训练神经网络的数据的分布，以加快训练速度并避免诸如过拟合之类的假象。多数卷积神经网络在各个层中使用 batch normalization。

除了 batch normalization 功能外，Concept whitening 还使数据沿代表相关概念的多个轴对齐。

Concept whitening 架构的好处在于，它可以轻松地集成到许多现有的深度学习模型。在研究过程中，团队通过用 Concept whitening 代替 batch normalization 模块，修改了几种流行的预训练深度学习模型，并且仅用一个 epoch 的训练就达到了预期的结果（一个 epoch 是训练完整训练集的时间。深度学习模块在从头开始训练时，通常经历许多 epoch）。

“CW 可以应用于医学成像等领域，在这些领域中可解释性非常重要，”Rudin 说。

在他们的实验中，研究人员将 concept whitening 应用到诊断皮肤损伤的深度学习模型中。“在 CW 隐空间上测量概念重要性分数（Concept importance scores），可以为哪些概念在皮肤病变诊断中可能更重要提供实用的见解”，他们在论文中写道。

Chen 表示：“为了进一步发展，我们计划不依赖于预定义的概念，而是从数据集中发现这些概念，尤其是尚未发现的、有用的、未定义的概念，然后再以解耦的方式在神经网络的隐空间中明确表示这些发现的概念，以更好地解释（神经网络的工作原理）”。

对于他们来说，未来研究的另一个方向是在层次结构中组织概念，并解耦概念集群，而不是单个概念。

对深度学习研究的启示

长久以来，伴随着深度学习模型的逐年扩大和复杂化，关于如何处理神经网络的透明度问题有了越来越多元的不同理论。

主要争论之一在于，是否应该观察 AI 模型的行为，而非试图查看黑盒内部的工作原理。这与研究动物和人类的大脑，进行实验并记录大脑活动的方式相同。该理论的支持者认为，任何对神经网络施加可解释性设计约束的尝试，都将导致模型质量下降。如果大脑在没有智能的自上而下设计的情况下经过数十亿次迭代而进化，那么神经网络也应该通过纯进化途径达到其最高性能。

Concept whitening 反驳了这一理论，并证明可以在不造成任何性能损失的情况下，对神经网络施加自上而下的设计约束。有趣的是，实验表明，深度学习模型的 Concept whitening 模块可提供可解释性，且任务的准确性不会显着下降。

Rudin 说：“Concept whitening 和我们实验室 (以及其他许多实验室) 的许多其他工作清楚地表明，在不影响性能的情况下，构建一个可解释模型是可能的。我们希望这一工作可以改变人们的假设，即一个黑盒对良好的性能是必要的，并希望该工作能吸引更多人在其各自领域中建立可解释的模型。”

References：
1、https://bdtechtalks.com/2021/01/11/concept-whitening-interpretable-neural-networks/
2、https://www.nature.com/articles/s42256-020-00265-z

关于数据实战派

数据实战派希望用真实数据和行业实战案例，帮助读者提升业务能力，共建有趣的大数据社区。