论文地址:https://arxiv.org/pdf/1704.05796.pdf

论文提出了一种名为“Network Dissection”的通用框架,通过评估单个隐藏单元与一系列语义概念间的对应关系,来量化 CNN 隐藏表征的可解释性。

这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签,这些概念包括物体、组成部分、场景、纹理、材料和颜色等。

论文使用该方法测试了“单元的可解释性等同于单元的随机线性结合”的假设。该方法可以揭示 CNN 模型和训练方法的特性,而不仅仅是衡量他们的判别能力。

通过观察大型深度神经网络中的隐藏单元,论文发现:人类可解释的概念有时候会以单一隐藏变量的形式出现在这些网络中:当网络未受限于只能用可解释的方式分解问题时,就会出现这种内部结构。这种可解释结构的出现意味着,深度神经网络也许可以自发学习分离式表征(disentangled representations)。众所周知,神经网络可以学习某种编码方式,高效利用隐藏变量来区分其状态。如果深度神经网络的内部表征是部分分离的,那么检测断分离式结构并读取分离因数可能是理解这种机制的一种方法。

论文在各种使用物体和情景识别训练的 CNN(AlexNet、VGG、GoogLeNet和ResNet)上对这种方法进行了评价,并证明了:显现出的可解释性是表征的某种轴对齐属性,轴的旋转可以在不影响判别能力的条件下毁坏这种可解释性。我们进一步探究了训练数据集影响可解释性的方式,并研究了诸如dropout 和批规范化(batch normalization)这样的训练方法,以及主要任务不同的监督训练。

论文大致做法是准备了一个带有不同语义概念的图片数据库,里面每张图都有像素层次的标定,如颜色,纹理,场景,物体部分,物体等,然后我们把每个神经元在图像上的激活响应当做对这些概念进行语义分割(Semantic segmentation),然后看每个神经元对哪个语义概念分割得最好,那么这个神经元就是在检测这个语义概念。

  • 论文对深层视觉表现的可解释性的测量分为三个步骤:
    1.确定一系列人类标记的视觉概念。
    2.收集隐藏变量对已知概念的响应。
    4.量化隐藏变量的对齐——概念对。

作者将一个带有不同语义概念的图片数据库(标记了不同的属性)输入AlexNet、GoogLeNet、VGG、ResNet等CNN训练模型进行训练,观察比较了不同神经网络的可解释性的概念分布差异;作者还分析了不同supervision,以及训练过程中网络的变化和各种regularization,如batchnorm, dropout,对网络内部表征的影响。

  • 可解释的隐藏神经元是否与特征空间构成特定的映射?
    一个语义概念可能被多个神经元检测到,一个神经元也可能检测多个语义。

  • 神经网络训练中什么因素会影响可解释的程度?
    1.可解释的度量:CNN(某层)中独特检测器(Unique detector)的数量(神经元最对应语义的 IoU > 0.04时为独特检测器);
    2.网络深度:CNN 中越往后层比前面的层可解释性更高,同时可解释的语义等级也更高(浅层可检测颜色、纹理,深层可检测物体、场景);跨网络结构比较时,网络结构越深,最后层可解释性越高;
    3.图片角度:保持分类能力不变下旋转图片,旋转角度越大,CNN 可解释性越低(也说明了分类辨别力与可解释性相互独立);
    4.训练用的数据集:数据集内容越丰富,训练出的 CNN 可解释性越高;
    5.训练参数:迭代次数大程度上与可解释性成正比。

最后产生了一些结论
1.可解释性是与坐标轴对齐(axis-aligned)的,对表示(representation)进行翻转(rotate),网络的可解释能力会下降,但是分类性能不变。

2.越深的结构可解释性越好,ResNet>VGGNet>GoogleNet>AlexNet

3.对于训练数据集的可解释性,Places > ImageNet,因为一个场景(scene)会包含多个目标,因此有益于多个目标检测器(object detectors)出现来识别场景。

4.对训练条件的可解释性,训练论数越多越好。与初始化无关,dropout会增强可解释性。Batch normalization会降低可解释性,百化(whiten)操作会平滑缩放问题并且rotate中间特征的轴。

不同的训练方法对隐单元学习的表示的可解释性有显著的影响。

以上仅仅是初步理解。

论文笔记----Network Dissection:Quantifying Interpretability of Deep Visual Representations(深层视觉表征的量化解释)相关推荐

  1. 论文笔记:《Network Dissection: Quantifying Interpretability of Deep Visual Representations》

    CVPR 2017 的 MIT 论文<Network Dissection: Quantifying Interpretability of Deep Visual Representation ...

  2. 【CVPR2017周博磊】Network Dissection: Quantifying Interpretability of Deep Visual Representations

    Network Dissection: Quantifying Interpretability of Deep Visual Representations 论文地址:https://arxiv.o ...

  3. Network Dissection:Quantifying Interpretability of Deep Visual Representations(深层视觉表征的量化解释)

    NetworkDissection(深层视觉表征的量化解释)Network Dissection(深层视觉表征的量化解释)NetworkDissection(深层视觉表征的量化解释) conv_lay ...

  4. 神经网络的可解释性——Network Dissection: Quantifying Interpretability of Deep Visual Representations

    本文是周博磊大神CVPR 2017年的文章,主要关注网络的可解释性. 前言 神经网络的可解释性一直是一个很有趣也很有用的东西.很多情况下大家都把神经网络作为一个黑箱来用,而近年来也有越来越多的工作希望 ...

  5. 【Paper】Network Dissection: Quantifying Interpretability of Deep Visual Representations跑源码遇到的问题

    Environment :服务器Ubuntu 16. 4 + torch + torchvision + scipy==1.1.0 运行过程中出现的错误: error 1.ImportError: c ...

  6. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  7. 【论文笔记】Image Privacy Prediction Using Deep Neural Networks

    摘要 如今,越来越多的图片在Facebook.Flickr.Foursquare和Instagram等社交网站上在线共享.图像共享不仅发生在一群朋友之间,而且越来越多地发生在用户社交圈之外,用于社交发 ...

  8. 【ACL19 论文笔记】EPAr:探索+提议+组装:多跳阅读理解的可解释模型

    Yichen Jiang, Nitish Joshi, Yen-Chun Chen Mohit Bansal ; UNC Chapel Hill Explore, Propose, and Assem ...

  9. 论文笔记:Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

    Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World 文章概况 作者 ...

最新文章

  1. SAP QM 不常用功能点之 Physical-Sample Record
  2. 服务器支持热部署吗,热部署
  3. Python 开发的 10 个小贴士,你知道几个?
  4. 2d Laser 和 Odomter 内外参数标定工具原理及使用方法
  5. 深度剖析 | 初学者应该如何学习前端?该怎么学?
  6. Object工具类 ObjectUtils.java
  7. Python单词识别
  8. 占领电商细分领域高地的湖南,在产业互联网时代该如何入海?
  9. (栈的应用5.2.2)POJ 2106 Boolean Expressions(表达式求值)
  10. YOLOv3源码解析2-数据预处理Dataset()
  11. arthas-dashboard
  12. App 图标设计 - 圆角透明效果(0 基础使用 PS)
  13. PS学习笔记(05)
  14. html5学习记录(三)
  15. 印度为何能频频培养出全球顶尖的程序员?
  16. 小米6鲁大师html5评测,小米6跑分超110万?鲁大师官方:网友PS的图片
  17. Kotlin实现定时任务(AlarmManager + BroadcastReceiver)
  18. 什么是数据共享?如何做好数据交换与共享?
  19. 2022下半场,Plug and Play 最关心的金融科技创新趋势是?
  20. 关于郭天祥51单片机教程视频课后题《同时用两个定时器控制蜂鸣器发声》

热门文章

  1. XC3062A耐压30V锂电池充电IC双灯指示SOT23-6
  2. 实现api返回json数据并在调用api时处理json数据
  3. JVM面试题(史上最强、持续更新、吐血推荐)
  4. vscode更换编译器_打造性感好用的VS Code编辑器
  5. rxjavamap和flatmap区别,Flutter全方位深入探索,看完这篇彻底明白了
  6. Spring Boot (#1 quick start)
  7. 使用SAF Spectrum Compact频谱仪MASK MODE功能观察天线交叉极化鉴别率
  8. 阿里云OSS对象存储STS鉴权配置以及JAVA-SDK代码
  9. 期刊投稿状态_你知道SCI论文审稿的12种状态吗?
  10. 关于win11 WLAN消失的处理方法