引入教师助理来提高知识蒸馏效率

  • 知识蒸馏简单介绍
  • 摘要
  • 实验数据证明
  • 多层助教?

参考论文:Improved Knowledge Distillation via Teacher Assistant.
!声明!文章的图片均来自以上论文

知识蒸馏简单介绍

在介绍论文前,先向大家介绍一下什么是知识蒸馏。知识蒸馏:一种神经网络的压缩方法。知识蒸馏背后的想法是不仅通过真实标签提供的信息,而且通过观察教师网络(T)如何表示和处理数据来培训学生网络(S)
        教师网络(T)就是压缩前的神经网络,学生网络(S)就是压缩后的网络。主流的方式就是让规模与复杂度更小的学生网络(S)通过观察教师网络(T)是如何处理数据的来进行学习。说白了就是把教师网络(T)的softmax前一层都作为标签(软标签)来训练学生网络(S)
        用一个简单的公式来分析一下:

  • 令at教师网络(T)的softmax前一层的输入。
  • 令as学生网络(S)的softmax前一层的输入。

然后我们应该都知道,softmax(as)的结果就会是学生网络(S)输出的各类别的概率。然后和真实标签yr做一对比。得到知识蒸馏的第一个损失:

        然后还要从老师网络那里进行学习。令ys= softmax(as/t),yt=softmax(at/t),则第二个损失如下(t就是知识蒸馏中常说的温度):

        最后学生网络的训练过程就是不断缩小如下损失:

        至于具体上面这几个公式中使用的是什么损失函数,感兴趣的可以去看看原文。

摘要

由于目前深度神经网络取得了巨大的成果,但是由于这些优秀的模型都过于庞大,使得他们很难部署在智能手机或者嵌入式传感器上。所以,如果要应用这些深度神经网络,必须要压缩网络。然后比较流行的方法就是知识蒸馏。但是本论文的作者发现,当教师网络和学生网络之间的差异过大时,会出现知识蒸馏效率下降的情况。为了解决这个问题,该论文引入了多步知识蒸馏,即采用中等规模的网络(教师助理TA)来弥合学生和老师之间的差距。大致流程如下图:

实验数据证明


        上图的蓝色代表学生,红色代表老师。学生的神经网络深度始终是2。从图中可以看出,随着老师网络准确率的提高(规模的增大),学生网络的的准确率并没有一直呈上升趋势,反而下降了。所以这篇论文就是为了解决这个问题。

  • NOKD: 让学生网络直接从数据进行训练。
  • BLKD:普通的知识蒸馏方法。
  • TAKD:本论文中的引入助教的知识蒸馏方法。
            通过这个表,我们可以得知,该论文的方法就是好。准确率就是高。emmmm

多层助教?

直接看表:

        从表中可以看到一些东西,引入了助教的准确率(蓝色部分)比没有引入助教(绿色部分)的知识蒸馏准确率都要高。

引入助教来提高知识蒸馏效率相关推荐

  1. PointDistiller:面向高效紧凑3D检测的结构化知识蒸馏​

    点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨吃饭机@知乎 来源丨https://zhuanlan.zhihu.com/p/20092418 ...

  2. 【第54篇】一种用于视觉识别的快速知识蒸馏框架

    文章目录 摘要 1 简介 2 相关工作 3 方法 3.1快速知识蒸馏 3.2更高的标签质量 3.4用监督方案训练自监督模型 3.5 标签压缩与存储分析 4 实验 4.1 监督学习 4.2 ReaL[1 ...

  3. 【知识蒸馏】知识蒸馏(Knowledge Distillation)技术详解

    参考论文:Knowledge Distillation: A Survey 1.前言 ​ 近年来,深度学习在学术界和工业界取得了巨大的成功,根本原因在于其可拓展性和编码大规模数据的能力.但是,深度学习 ...

  4. NYU Google: 知识蒸馏无处不在,但它真的有用吗?

    文 | 小伟 编 | 小轶 导师: 小伟,听说你对知识蒸馏比较了解,你来给我说说知识蒸馏有什么用? 我: 知识蒸馏是一种很典型的模型压缩的方法,我们可以用它来有效地从大型教师模型学习小型学生模型,并且 ...

  5. 知识蒸馏在推荐系统的应用

    点击上方,选择星标或置顶,每天给你送干货! 作者 | 张俊林 本文转载自知乎 https://zhuanlan.zhihu.com/p/143155437 随着深度学习的快速发展,优秀的模型层出不穷, ...

  6. 加速100倍,性能媲美SOTA!浙大提出无数据知识蒸馏新方法FastDFKD

    来源:机器之心 本文共2400字,建议阅读5分钟 本文为你介绍知识蒸馏的新方法. 在无法获取到原始训练数据的情况下,你可以尝试一下这种新型蒸馏算法 FastDFKD,数据合成与现有的生成方法相比,可以 ...

  7. 加速100倍,性能媲美SOTA,浙大知识蒸馏新方法FastDFKD

    来源:机器之心 在无法获取到原始训练数据的情况下,你可以尝试一下这种新型蒸馏算法 FastDFKD,数据合成与现有的生成方法相比,可以实现 10 倍的加速,与非生成方法相比,甚至可以达到 100 倍以 ...

  8. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  9. 万字总结,知识蒸馏如何在推荐系统中大显身手?

    来源:AI科技评论 作者 | 张俊杰 编辑 | 丛 末 本文首发于知乎 https://zhuanlan.zhihu.com/p/143155437 随着深度学习的快速发展,优秀的模型层出不穷,比如图 ...

最新文章

  1. LTE CRS 时频资源
  2. Eclipse启动时DDMS files not found: D:\Eclipse\adt-bundle-windows-x86_64-20131030\sdk\tool
  3. 文件管理详细知识要点
  4. 西安python培训班多少钱-西安python正规培训机构
  5. mysql内连接简写_技术分享 | MySQL 的 join_buffer_size 在内连接上的应用
  6. vue项目:this.function()中关于:this指针失效的问题
  7. 利用PHP安装windows自动运行的服务,PHP程序可以实现长时间、自动运行、定时更新功能,直接可以用在项目中的类源代码...
  8. 别吹了!程序员自学Python,不如9岁小孩,网友:我不服.... ​
  9. CNN更新换代!性能提升算力减半,还即插即用
  10. 突发:Maze 勒索团伙公开 LG 和 Xerox 的内部数据,达数十GB
  11. android点击监听,android基础之点击监听器的2种监听实现
  12. 电脑微信多开方式(两种实现方案, 适合中文路径)(办公, 生活两不误 / 海王必备)
  13. qqxml卡片 php代码,qqxml卡
  14. 华北电力保定校区计算机专业好就业吗,2021年华北电力大学(保定)专业排行榜,哪个专业就业比较好...
  15. python中 f代表什么_python 中下拉框中的f,v,m是什么意思??
  16. python数值互换_python值交换
  17. 微信小程序之15分钟倒计时(附带天数和时钟的实现方法在文章中)
  18. Linux命令-PV
  19. c语言while语句1阶层加到10阶层,用C++编程:1的阶层加到10的阶层,使用For语句,还有While和Do While语句编程!!...
  20. 互联网日报 | 5月2日 星期日 | 五一档总票房破5亿;中国联通在香港正式推出5G服务;欧盟首次对苹果发起反垄断诉讼

热门文章

  1. flume1.9自定义hbaseSink(实际是自定义序列化类)
  2. 关于Neuro-Fuzzy Designer的使用
  3. 100个python算法超详细讲解:分糖果
  4. python适合女生吗-女生学数据分析好吗?数据分析适不适合女生学?
  5. 2020秋季C语言综合练习题(节选)
  6. JDO及相关资源介绍
  7. 数据中心服务器怎么设置信息点,数据中心服务器机柜内的信息点数
  8. WordPress问答插件DW Question Answer分享
  9. 使用RDO Packstack在CentOS 8上安装OpenStack Victoria
  10. 内购伪造服务器证书,Xposed绕过元气骑士内购验证