作者:Ben Dickson(软件工程师、TechTalks 的创始人)

译者:hhhnoone

原文:Deep learning doesn’t need to be a black box

深度神经网络的成功,要归功于它们极其庞大而复杂的参数网络,但是这种复杂性也导致了某些弊端:神经网络的内部运作通常是一个谜 —— 即使对于其创造者而言也是如此。自从深度学习从 2010 年代初期开始流行以来,这个难题就持续困扰着人工智能社区。

随着深度学习在不同领域的应用和拓展,人们对能够通过验证神经网络结果和学习参数来解释神经网络(内部工作原理)的技术越来越感兴趣。

最近,Nature Machine Intelligence 发表的一篇论文,介绍了一种有潜力的新方法。杜克大学的科学家提出了一种名为 “concept whitening”(概念白化)技术,可在不牺牲性能的前提下帮助引导神经网络学习特定的概念。concept whitening 将可解释性带入了深度学习模型,而不是在数百万经过过训练的参数中寻找答案,显示出令人鼓舞的结果。

深度学习模型的特征和隐空间

如果有足够高质量的训练例子,一个具有合理架构的深度学习模型应该能够区分不同类型的输入。例如,在计算机视觉任务中,经过训练的神经网络将能够将图像的像素值转换为其相应的类别。而 concept whitening,正是在图像识别背景下提出的。

在训练过程中,深度学习模型的每一层都将训练图像的特征编码成一组数值,并存储在其参数中,这被称为 AI 模型的隐空间(Latent Space)。一般来说,多层卷积神经网络的较低层将学习基本特征,如角和边,更高层次的神经网络将学习检测更复杂的特征,如人脸、物体、完整的场景等。

图:神经网络的每一层编码输入图片的特定特征

理想情况下,神经网络的隐空间代表一些概念,这些概念与神经网络要检测的图像类别相关,但是我们通常不能清楚地意识到这一点,并且深度学习模型倾向于学习最具有辨识度的特征,即使这些特征是错误的。

例如,下面的数据集包含一些图像,这些图像中包含小猫,同时右下角恰好有一个 logo。一个人可以很容易认为 logo 与目标无关,从而忽略它,但深度学习模型可能会发现,右下角有一个 logo 是区分猫和其他动物最简单、最有效的方法。同样,如果你的训练集中所有的绵羊图像都包含大片的绿色牧场,你的神经网络可能会学着检测绿色牧场而不是检测绵羊。

图:训练时,机器学习算法会搜索将像素与标签相关联的最易区分的特征。

所以,除了深度学习模型在训练和测试数据集上的表现,了解它已经学会检测哪些概念和特征也很重要。这就是经典解释技巧发挥作用的地方。

神经网络的事后归因

许多深度学习技术都是事后归因的( post hoc),即尝试通过检查其输出和参数值来使经过训练的神经网络有意义。例如,一种常见的技术通过屏蔽输入图像的不同部分来确定神经网络在图像中看到了什么(神经网络看懂了图像的哪个部分或那个特征),并观察这些变化如何影响深度学习模型的输出,这项技术有助于创建热图(heap map),它可以用来突出与神经网络更相关的图像特征。

图:特征图示例

其他事后归因技术包括打开和关闭不同的人工神经元,并检查这些变化如何影响 AI 模型的输出。这些方法有助于发现特征与隐空间之间关系。虽然这些方法很有帮助,但它们仍然将深度学习模型视为黑盒,并不能明确描绘出神经网络的工作原理。

现有解释方法通常是对性能的汇总统计 (例如,局部近似,节点激活的一般趋势),而不是对模型计算的实际解释”,concept whitening 论文的作者写道。例如,特征图的问题在于,它们经常不能显示神经网络可能已经学习到的错误内容,当神经网络的特征分散在隐空间时,解释单个神经元的作用变得非常困难。

图:特征图解释并不能准确描述黑盒 AI 模型的工作方式。

杜克大学计算机科学博士生、 concept whitening 论文的第一作者 Zhi Chen 表示:“深度神经网络 (DNNs) 在图像识别领域中非常强大,但由于其复杂性,在 DNNs 的隐藏层中学到了什么是未知的。缺乏可解释性使得神经网络不值得信任,也很难进行故障排除,” 以往许多工作都尝试解释神经网络模型所学习到的东西,例如每个神经元所学习到的概念有哪些,但是这些工作严重依赖这样一个假设:这些概念被神经网络真实学习到(但实际上并不是)并且集中在一个神经元上。

杜克大学计算机科学教授辛西娅・Rudin (Cynthia Rudin) 是 concept whitening 论文的联合著者,她此前就警告过相信黑盒解释技术的危险,并展示了这种方法可能会对神经网络提供错误的解释。在之前发表在 Nature Machine Intelligence 杂志上的另一篇论文中,鲁丁鼓励使用和开发具有内在可解释性的 AI 模型。

这次提出的 concept whitening,目标是让神经网络的隐空间与一些概念所对齐,而这些概念就是神经网络的目标。这种方法将使深度学习模型具有可解释性,也使我们更容易找出输入图像的特征与神经网络的输出之间的关系。Rudin 称:“我们的工作直接改变了神经网络,以解耦隐空间,使 axes 与已知概念对齐。”

深度学习模型通常在单个带标签的示例数据集上进行训练。concept whitening 引入另一种数据集,该数据集包含概念示例。而这些概念与 AI 模型的主要任务有关。例如,如果你的深度学习模型主要用于检测卧室,相关的概念将包括床、灯、窗、门等。

“有代表性的样本可以手工选择,因为它们可能构成我们对可解释性的定义,”Chen 说,“机器学习从业者可以通过任何方式收集这些样本,创建适合自己应用的概念数据集。例如,可以要求医生选择有代表性的 x 射线图像来定义医学概念(数据集)。”

通过 concept whitening,团队对深度学习模型进行了两个并行的训练周期。当神经网络调整其总体参数来代表主要任务中的类别时,concept whitening 调整每一层中的特定神经元,使这些神经元与概念数据集中所包含的类别对齐。

其结果是形成了一个解耦的隐空间,概念在每一层被整齐地分开,神经元的激活对应于它们各自的概念。“这样的解耦可以让我们更清楚地了解神经网络是如何逐渐在不同层次上学习概念的,”,Chen 说(这里的解耦 disentangle,意味着隐空间的不同部分代表不同的概念)。

为了评估 concept whitenin 技术的有效性,研究人员通过在不同层次插入 concept whitening 模块的深度学习模型运行了一系列验证图像。然后他们根据每一层激活的概念神经元对图像进行分类。在神经网络较低层,concept whitenin 模块捕获低级特征,如颜色和纹理。例如,神经网络的较低层可以学习到包含白色物体的蓝色图像与 “飞机” 的概念密切相关,而暖色调的图像更有可能包含 “床” 的概念。在更高层,神经网络学习去对概念进行分类。

图: Concept whitening 在低层学习低级信息 (如颜色、纹理),在高层学习高级信息 (如物体、人)。

概念分解和对齐的好处之一是,神经网络变得不太容易犯明显的错误。当图像进入神经网络,较高层的概念神经元会纠正可能发生在较低层的错误。例如,在下图中,由于蓝白像素的密集存在,神经网络的较低层错误地将图像与 “飞机” 的概念联系起来。但当图像在更高的层次上移动时,概念神经元将结果引导到正确的方向 (如图所示)。

图:当图像从神经网络的较低层移动到较高层时,Concept whitening 可以纠正错误的概念和错误。

AI 领域之前的工作包括创建分类器,试图从神经网络的隐空间中的值推断概念。但是,根据 Chen 的说法,没有一个解耦的隐空间,这些(没有采用 Concept whitening 的)方法学习的概念是不纯粹的,因为概念神经元的预测分数(prediction scores)可以是相关的。“以前,有些人曾试图以监督学习的方式解开神经网络的纠缠,但并没有以一种方式真正能够解耦隐空间。另一方面,Concept whitening 通过白化变换(whitening transformation)解除轴间的关联,真正解耦了这些概念。

Concept whitening 在深度学习中的应用

具体而言,Concept whitening 是可以插入卷积神经网络的模块,从而替换 batch normalization 模块。batch normalization 于 2015 年推出,是一项目前流行的技术,它可以调整用于训练神经网络的数据的分布,以加快训练速度并避免诸如过拟合之类的假象。多数卷积神经网络在各个层中使用 batch normalization。

除了 batch normalization 功能外,Concept whitening 还使数据沿代表相关概念的多个轴对齐。

Concept whitening 架构的好处在于,它可以轻松地集成到许多现有的深度学习模型。在研究过程中,团队通过用 Concept whitening 代替 batch normalization 模块,修改了几种流行的预训练深度学习模型,并且仅用一个 epoch 的训练就达到了预期的结果(一个 epoch 是训练完整训练集的时间。深度学习模块在从头开始训练时,通常经历许多 epoch)。

“CW 可以应用于医学成像等领域,在这些领域中可解释性非常重要,”Rudin 说。

在他们的实验中,研究人员将 concept whitening 应用到诊断皮肤损伤的深度学习模型中。“在 CW 隐空间上测量概念重要性分数(Concept importance scores),可以为哪些概念在皮肤病变诊断中可能更重要提供实用的见解”,他们在论文中写道。

Chen 表示:“为了进一步发展,我们计划不依赖于预定义的概念,而是从数据集中发现这些概念,尤其是尚未发现的、有用的、未定义的概念,然后再以解耦的方式在神经网络的隐空间中明确表示这些发现的概念,以更好地解释(神经网络的工作原理)”。

对于他们来说,未来研究的另一个方向是在层次结构中组织概念,并解耦概念集群,而不是单个概念。

对深度学习研究的启示

长久以来,伴随着深度学习模型的逐年扩大和复杂化,关于如何处理神经网络的透明度问题有了越来越多元的不同理论。

主要争论之一在于,是否应该观察 AI 模型的行为,而非试图查看黑盒内部的工作原理。这与研究动物和人类的大脑,进行实验并记录大脑活动的方式相同。该理论的支持者认为,任何对神经网络施加可解释性设计约束的尝试,都将导致模型质量下降。如果大脑在没有智能的自上而下设计的情况下经过数十亿次迭代而进化,那么神经网络也应该通过纯进化途径达到其最高性能。

Concept whitening 反驳了这一理论,并证明可以在不造成任何性能损失的情况下,对神经网络施加自上而下的设计约束。有趣的是,实验表明,深度学习模型的 Concept whitening 模块可提供可解释性,且任务的准确性不会显着下降。

Rudin 说:“Concept whitening 和我们实验室 (以及其他许多实验室) 的许多其他工作清楚地表明,在不影响性能的情况下,构建一个可解释模型是可能的。我们希望这一工作可以改变人们的假设,即一个黑盒对良好的性能是必要的,并希望该 工作能吸引更多人在其各自领域中建立可解释的模型。”

References:
1、https://bdtechtalks.com/2021/01/11/concept-whitening-interpretable-neural-networks/
2、https://www.nature.com/articles/s42256-020-00265-z

关于数据实战派

数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。

“概念白化”,提供神经网络可解释性的新技术相关推荐

  1. Nature Machine Intelligence论文:「概念白化」,提供神经网络可解释性的新技术

    ‍‍‍‍‍‍‍‍‍‍‍作者:Ben Dickson(软件工程师.TechTalks 的创始人) 译者:hhhnoone 原文:Deep learning doesn't need to be a bl ...

  2. 神经网络可解释性、深度学习新方法,2020 年 AI 有哪些势不可挡的研究趋势?...

    来演:雷锋网 2019 年最后一场学术顶会告诉我们 2020 年该研究什么! 文 | MrBear 作为 2019 年最后一场重量级的人工智能国际学术顶会,NeurIPS 2019 所反映出的一些人工 ...

  3. 打开深度学习的黑盒,详解神经网络可解释性

    深度学习的可解释性研究在近年来顶会的录取文献词云上频频上榜,越来越多的研究工作表明,打开深度学习的黑盒并不是那么遥不可及.这些工作令人们更加信赖深度学习算法生成的结果,也通过分析模型工作的机理,让新的 ...

  4. LIVE 预告 | 南方科大张宇:神经网络可解释性综述

    深度学习的可解释性研究在近年来顶会的录取文献词云上频频上榜,越来越多的研究工作表明,打开深度学习的黑盒并不是那么遥不可及.这些工作令人们更加信赖深度学习算法生成的结果,也通过分析模型工作的机理,让新的 ...

  5. 你的模型刚不刚?谷歌提出“刚度”概念,探索神经网络泛化新视角

    https://www.toutiao.com/a6670676458433675779/ 最近,Google AI的研究人员的最新研究提出一个全新概念:刚度(Stiffness),为探索神经网络的训 ...

  6. Concept Whitening for interpretable image recognition 用于可解释图像识别的概念白化

    Concept Whitening for interpretable image recognition用于可解释图像识别的概念白化 Zhi Chen, Yijie Bei, Cynthia Rud ...

  7. 神经网络可解释性的另一种方法:积分梯度,解决梯度饱和缺陷

    作者|hahakity,https://zhuanlan.zhihu.com/p/148105536 本文已获作者授权,不得二次转载 今天介绍一种特定的神经网络可解释性方法 -- 积分梯度法 (Int ...

  8. 图神经网络的解释性综述!

    ↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过Datawhale干货 来源:纪厚业,北京邮电大学,图与推荐 编辑:数据派THU本文约1.5w字,干 ...

  9. 收藏 | 图神经网络的解释性综述

    来源:图与推荐本文约1.5w字,干货满满,建议收藏本文对近期提出的 GNN 解释技术进行了系统的总结和分析,归纳对比了该问题的解决思路. 图神经网络的可解释性是目前比较值得探索的方向,今天解读的202 ...

最新文章

  1. 有人说Julia比Python好,还给出了5个理由
  2. 框架 路由地址_Django框架的使用
  3. Django的电子商务网站的调研
  4. mysql 日期索引的使用_日期使用
  5. Python——EM(期望极大算法)实战(附详细代码与注解)(一)
  6. jprofiler 9注册码
  7. mysql有没有mssql执行计划_MSSQL优化执行计划
  8. 分类数据转换为树形结构
  9. 查看oracle中的中文所占字节数
  10. (附源码)RN Demo
  11. Screen Orientation for Windows Phone
  12. 计算机硬盘启动设置方法,如何在BIOS中设置硬盘启动
  13. 全球及中国吊链总成行业研究及十四五规划分析报告
  14. 电机加减速S曲线算法 Sigmoid 函数
  15. 汤臣倍健营销云与畅捷通T+系统对接方案
  16. 腾讯安全月报丨发布安心计划、携手上汽共建安全实验室、多项产品入选国际研报……
  17. 如何增加自动化测试面试通过率?学会以下几点offer增加50%
  18. 《ybtoj高效进阶》第五部分第六章例题3 耗费体力
  19. 机器人学中的Pieper准则【学习感悟】
  20. python end函数用法_python end用法是什么?_后端开发

热门文章

  1. nifi apache_Apache Nifi的工作原理-浏览数据流,不要淹没其中
  2. android studio实现蓝牙通信
  3. 暴力破解攻击工具汇总——字典很关键,肉鸡也关键
  4. DT时代,大数据常用的软件工具有哪些?
  5. 对于给定的n个位于同一二维平面上的点,求最多能有多少个点位于同一直线上
  6. Froala V4.0.18 Crack Froala 编辑器
  7. 关于电影的HTML网页设计—— 电影小黄人6页 HTML+CSS+JavaScript
  8. oracle OMF
  9. codesys 之 SFC探索
  10. android高仿小米日历,高仿钉钉和小米的日历控件