目录

摘要

引言

相关工作

深度网络压缩与加速

知识蒸馏

领域自适应

准备知识

一些符号

MMD(Maximum Mean Discrepancy)

神经元选择性迁移

出发点

公式

讨论

实验

在分类数据集上

在检测数据集上

讨论

不同KT的分析

MMD以外的方法

结论


摘要

将知识迁移看成一种分布匹配问题

通过用一种新的损失函数最小化teacher与student网络间的Maximum Mean Discrepancy (MMD) metric来解决这个分布问题

引言

  • 出发点

神经元具有知识选择性特性,比如神经元只对特定的区域或者样本感兴趣,所以作者提出了对齐teacher和student网络间的神经元选择样式分布

最终的损失函数为交叉熵损失和MMD的和

  • 本文的贡献

提出了一种新的知识迁移的观点(对其选择样式分布),并提出了新的名叫 Neuron Selectivity Transfer (NST)的蒸馏的方法

在很多数据集上测试,并证明了提出的方法有效

表明提出的方法与其他的知识蒸馏的方法结合

表明知识迁移的方法可以帮助学习更好的特征,并且在其他的视觉任务中(比如目标检测)也可以获益

相关工作

深度网络压缩与加速

网络裁剪:

小数量级的权重是不重要的,可以裁剪,需要特殊的实现

将裁剪看作子集选择和稀疏优化问题

量化和低秩近似

这些方法都可以与作者提出的方法结合

知识蒸馏

KD的优点:软标签一方面可以捕捉类内的变化,另一方面还可以类间的相似性;

KD的缺点:假如是二分类,那么可供蒸馏的信息就很少

Fitnets可以通过中间层的监督来解决KD的问题,但要求严格,当teacher和student能力相差太大,可能会差生不利的影响

AT可以通过注意力机制,只蒸馏与目标强相关的神经元去蒸馏,解决Fitnets的问题,后面会讲到这是作者提出的方法的特殊情况

Flow of Solution Procedure (FSP)计算了两个不同层的特征的Gram matrix,他们认为FSP矩阵可以反应老师教学生的过程

领域自适应

解决的问题是当目标领域的没有标签的时候,如何利用已有的标签,通过对比并减少两个领域的分布差异来训练模型,核心问题是如何减少两个领域分布的差异

在Reproducing Kernel Hilbert Space (RKHS)中, MaximumMeanDiscrepancy(MMD)被当作比较两个分布的一个指标

有的方法,通过重新分配样本的权重或者重新挑选样本来最小化两个分布的MMD

有的方法,通过在一个显式的低维潜在空间中测量MMD

还有的,用MMD去正则化原领域和新领域学到的特征

值得注意的是,风格迁移也是一种领域自适应问题,它也是二秩多项式核MMD的特殊情况

准备知识

一些符号

表示第k个通道上的特征

表示在第i个位置上的C维特征

MMD(Maximum Mean Discrepancy)

x,y为随机变量,x采样数量为N,y采样数量为M,MMD的想法就是求两个随机变量在高维空间中均值的距离

对于卷积网络中的H*W*C特征,将C层的特征看作是随机向量的C次采样,所以MMD的做法就是先将每个通道做映射,得到H'*W'*C的特征,然后将映射完后的通道H'*W'*C做平均,得到随机向量在高维空间中的平均(H'*W'),最后用teacher与student的这个结果求欧式距离

可以利用kernel技巧,省去映射的过程,直接求得损失函数的结果,k就是核函数

神经元选择性迁移

出发点

  • 这样做的原因

图2展示的是神经元的激活图(应该是从该神经元向输入求导得到的)

从图中可以看出,神经元具有区域选择性,这些区域是有任务相似性的,比如左边图片对应猴子的脸,右边的图片对应字母,为了捕捉这些区域相似性,在学生网络中,神经元也应该学到这些激活样式

  • 直接用feature map来做匹配有什么问题

将feature map的每个通道的特征看作为神经元选择性的采样空间

文章中直接用teacher和student的这些采样去匹配,会忽略掉在这个空间中的采样密度,丢掉了样式

这两句话过于晦涩难懂,个人理解如下:

如过直接用feature map间的欧式距离作为损失函数,体现不出来Figure2中的样式(猴脸,字母),所以用一种新的方式,先将每个通道上的H*W的特征映射成H'*W'的特征,现在的特征就是H'*W'*C,然后将新的特征在C方向上合并,形成H'*W'的新的特征(比如注意力蒸馏中的做法)就可以体现出这个样式,也注重了空间上的采样密度,再用欧式距离算损失即可

公式

  • 损失函数

在(4)中,是在(3)中的fk.的基础上添加了l2-normalized,这是为了确保每个采样有相同的尺度

  • 核函数的选择

讨论

  • 线性核函数

线性核下的损失函数:

在注意力图映射函数是绝对值就和规范化的条件下,AT的损失函数:

除了规范化的方式不一样外,式5与式8是等价的,因此AT是本工作的一个特殊情况

  • 多项式核函数

G是一个Gram matrix,gij代表了位置i与位置j上向量的相似性;

其中的F是按照4.2节描述的方法规范化的;

因为内积能够表示向量的相似度,而G是在不同空间点上所有通道上做内积,也就是计算不同位置点之间的相似度,所以说Gram matrix中含有区域相似性

实验

在分类数据集上

总的来说,所有的对比实验表明,NST-poly可能不是最好的(ImageNet),但是他是KD的补充,它和KD结合起来可以吊打一切

在检测数据集上

总的来说,NST-poly相比于其他是最好的,可能是因为检测任务需要更多的空间信息,而KD没有,所以KD打不过它;

还有一点没有变的是,KD-NST依然是最强的组合,又证明了NST是KD的好伙伴

讨论

不同KT的分析

  • NST

Figure 5中,一个点代表一个神经元的分布,可视化是用一种叫做t-SNE做出来的

NST可以使teacher和student神经元的分布接近一致

各人感觉,除了KD(因为KD没有训练中间层),其他的方法(AT,HT)都可以做到这一点

  • KD

KD在类别更多的分类任务上效果更好,因为类别更多,soften target得到的信息就更多;

然而KD太过依赖softmax,所以它不能在回归和rank(是个什么任务)上起作用

Fitnets将所有的feature都用作了监督信息,可能会引入噪声,而且没有注重采样密度

MMD以外的方法

GAN的思想是一个可以研究的方向,student的特征相当于一个G,teacher的特征相当于D

结论

将知识迁移看错一个分布对齐的问题(分布对齐其实就是说的好听了,其实跟分布没啥关系)

利用了神经元的选择性(这个是AT的思想,还不如AT来的干脆,真的多余)

NST和KD的协作能力才是这篇论文值得吹嘘的地方

可以迁移到更高级的视觉任务中(AT,HT都可以做到,但是NST最好,也不知道为啥)

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读相关推荐

  1. Like What You Like: Knowledge Distill via Neuron Selectivity Transfer 论文翻译

    摘要 尽管深度神经网络已经在各种各样的应用中表现出非凡的效果,但是其优越的性能是以高存储和计算成本为代价的.因此,神经网络的加速和压缩近来引起了人们极大的关注.知识迁移(KT),旨在通过从较大的教师模 ...

  2. Like What Y ou Like: Knowledge Distill via Neuron Selectivity Transfer(2017)------论文阅读笔记

    Like What Y ou Like: Knowledge Distill via Neuron Selectivity Transfer------论文阅读笔记 写在前面 Abstract 1. ...

  3. Face Model Compression by Distilling Knowledge from Neurons论文初读

    目录 摘要 引言 方法 通过选择后的神经元训练学生网络 神经元的属性判别性定义(关系到上边两个函数如何定义) Teacher和Student的网络结构 实验 测试方法 压缩T1模型 压缩模型T2 压缩 ...

  4. Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer 论文解读

    Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer 论文解读 前言 Motivation Con ...

  5. SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记

    SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记 1. Motiva ...

  6. 知识蒸馏 knowledge distill 相关论文理解

    Knowledge Distil 相关文章 1.FitNets : Hints For Thin Deep Nets (ICLR2015) 2.A Gift from Knowledge Distil ...

  7. 《Distilling the Knowledge in a Neural Network》 论文阅读笔记

    原文链接:https://arxiv.org/abs/1503.02531   第一次接触这篇文章是在做网络结构的时候,对于神经网络加速,知识蒸馏也算是一种方法,当时连同剪纸等都是网络压缩的内容,觉得 ...

  8. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记

    我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...

  9. RKGE:Recurrent Knowledge Graph Embedding for Effective Recommendation 论文

    emm-图片复制过来显示不了(因为我太懒了0.0),要看图的话可以去我的博客瞅瞅,嘿嘿嘿 对了,有些英文短句假如翻译成中文,阅读的时候就太搞脑子了,所以我干脆就不翻译了 这篇论文的模型跟我上一篇发布的 ...

最新文章

  1. 智源重大研究方向:机器学习学术报告会(暨学者候选人发布)
  2. js通过月份判断前三个月_怀孕前三个月如何判断胎儿发育是否健康,看HCG翻倍情况,快收藏...
  3. python基础——logging、OS、sys、random、string模块(0424)
  4. 使用SSM开发一个校友联络的平台系统
  5. ocelot 中间件的变化
  6. jquery 数字滚动特效 数字自增特效 数字位数动态适应
  7. 人工智能(3)---未来已来,如何成为一名人工智能产品经理
  8. 字体系列之字体大小(CSS、HTML)
  9. Web API的CORS
  10. 卷积神经网络专题之上采样与下采样初步理论
  11. 如何在win7下安装XP系统?
  12. 函数在c99中隐式声明无效_C函数的隐式声明
  13. Matlab滤波器设计——基于filter函数的低通、高通、带通、带阻滤波器
  14. Win10报错 Windows 找不到文件 “(null)“请确定文件名是否正确后,再试一次。
  15. 惠普打印机介质不匹配_惠普打印机的常见故障
  16. 中国状元”在美国读大学后对中国教育的感悟
  17. win10右键刷新卡顿解决方案
  18. 美赞臣中国独立后任命朱定平为总裁;思拓凡亚洲首个技术研发卓越中心上海揭幕 | 美通社头条...
  19. 计算机科学引论2答案,计算机科学引论答案.doc
  20. 洛谷P1875 佳佳的魔法药水

热门文章

  1. IMSI(MIN)介绍
  2. jQuery入门与实战
  3. 伍伦贡大学计算机科学与技术好吗,伍伦贡大学怎么样?伍伦贡大学值得申请吗?...
  4. 用浏览器轻松录制音频、视频—— MediaRecorder API
  5. android 平板 旗舰,聊一款旗舰级安卓平板电脑
  6. 毕业论文图片、公式自动编号和交叉索引教程——真的超好用
  7. Object-based superresolution land cover Mapping From Remotely sensed imagery
  8. Go语言中 Scan 与 Scanf 和 Scanln的区别
  9. Serverless Computing Fass $ openwhisk快速部署、应用、实例
  10. HFDS的Shell操作