Observations

通过几组实验观察到

  • 反转Knowledge Distillation(KD)即利用student来guide teacher的话,teacher的性能依然可以得到提升
  • 用一个比student还差的teacher来guide student的话,student的性能依然可以得到提升

因此作者得到以下观点

  • KD只是一种可学习的label smoothing regularization
  • label smoothing regularization可以看做提供了一个虚拟teacher的KD
  • argue到KD的有效性可能不全是像KD论文说的那样student从teacher那获得了类别之间的相似关系,还因为soft target的正则作用,后者甚至更重要

    Re-KD是反转的KD,即用student来guide teacher

    De-KD代表用没有训练好的,比student性能还差的teacher去guide student

    teacher的性能好坏对student的影响没有那么大

KD和label smoothing regularization(LSR)的联系


通过推导公式可以发现

  • KD是一种可学习的LSR
  • LSR是一种特殊的KD,他相当于是一个得到随机猜的老师
  • 当KD的t很大时,KD提供的soft target和LSR提供的均匀分布是类似的
    这也解释了上面Re-KD和DE-KD可以帮助学习的原因,实际上是一种正则化

Teacher Free KD

  • self-training:由于差teacher可以guide student,我们完全可以训练一个student然后去guide student
  • reg:联合KD和LSR,即把LSR当成teacher跟预测结果做KL loss

Experiment

Self-training可以和正常的KD取得类似的效果


Reg和self training性能差不多,但是他没有增加太多计算量,且比LSR好很多,可以尝试

Revisit Knowledge Distillation: a Teacher-free Framework相关推荐

  1. 知识蒸馏是什么?(Knowledge Distillation)KD

    1. 知识蒸馏介绍 1.1 什么是知识蒸馏? 在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的.化学蒸馏条件:(1)蒸馏的液 ...

  2. 【知识蒸馏】知识蒸馏(Knowledge Distillation)技术详解

    参考论文:Knowledge Distillation: A Survey 1.前言 ​ 近年来,深度学习在学术界和工业界取得了巨大的成功,根本原因在于其可拓展性和编码大规模数据的能力.但是,深度学习 ...

  3. 论文翻译: Relational Knowledge Distillation

    Relational Knowledge Distillation 这是 CVPR 2019年的一篇文章的译文. 文章链接: Relational Knowledge Distillation 附上G ...

  4. FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks

    标题:FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks 1.什么是知识蒸馏? 1.1 什么是知识: we t ...

  5. 【论文翻译】Few Sample Knowledge Distillation for Efficient Network Compression

    Few Sample Knowledge Distillation for Efficient Network Compression 用于高效网络压缩的少样本知识提取 论文地址:https://ar ...

  6. 【论文翻译】Highlight Every Step: Knowledge Distillation via Collaborative Teaching

    Highlight Every Step: Knowledge Distillation via Collaborative Teaching 强调每一步:通过协作教学提炼知识 摘要 High sto ...

  7. Knowledge Distillation | 知识蒸馏经典解读

    作者 | 小小 整理 | NewBeeNLP 写在前面 知识蒸馏是一种模型压缩方法,是一种基于"教师-学生网络思想"的训练方法,由于其简单,有效,在工业界被广泛应用.这一技术的理论 ...

  8. 【李宏毅2020 ML/DL】P51 Network Compression - Knowledge Distillation | 知识蒸馏两大流派

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  9. 【Distill 系列:三】CVPR2019 Relational Knowledge Distillation

    Relational Knowledge Distillation Relational Knowledge Distillation TL;DR teacher 和 student feature ...

  10. RETHINKING SOFT LABELS FOR KNOWLEDGE DISTIL- LATION: A BIAS-VARIANCE TRADEOFF PERSPECTIVE

    最近的一些研究指出soft labels带来的regularization是知识蒸馏有效的原因之一.这边论文从训练过程中的bias-variance博弈角度出发,对soft labels重新进行了思考 ...

最新文章

  1. R构建朴素贝叶斯分类器(Naive Bayes Classifier)
  2. Net::SSH::Perl 模块
  3. 深度学习核心技术精讲100篇(三十五)-美团餐饮娱乐知识图谱——美团大脑揭秘
  4. python thrift demo
  5. 大话设计模式—组合模式
  6. html重绘text,使用DrawText重绘C++
  7. mongo执行逻辑表达式_MongoDB 常用查询操作
  8. python函数的嵌套调用_python函数的嵌套调用
  9. [转载] 【Python】向json文件中追加新的对象
  10. matlab求非圆齿轮的节曲线,基于MATLAB的非圆齿轮节曲线设计
  11. 统计某个路径下的总文件个数,及总行数(不含空行)
  12. case when的判断顺序_Sql 中的if 判断 case... when
  13. siteservercms 缺点_SiteServer CMS 术语大全
  14. 线性规划问题的求解——Excel和python编程
  15. 图解机器学习算法(2) | 模型评估方法与准则(机器学习通关指南·完结)
  16. 在华为工作十年的感悟
  17. 最新 | 诺奖得主涉嫌论文造假
  18. Android Studio设置关闭当前页面的快捷键
  19. 把鼠标指针换成自定义图片 傻瓜教程
  20. JetPack中的Room

热门文章

  1. pip 在c盘的文件路径
  2. 设置Parallels Desktop中的虚拟机使用宿主机代理
  3. python笔记:7.2.2.2 一元多因素方差分析_交互效应图(购房面积影响因素交互效应)
  4. window10刷新卡顿
  5. CSS3相比CSS新增哪些功能
  6. 【有利可图网】PS实战系列:PS+SAI把照片制成唯美手绘效果
  7. 计算机上的win键是什么意思,win是电脑上哪个键
  8. WinDynamicDesktop下载慢解决方法
  9. 线上软硬件类的接单平台有哪些?
  10. 使用 HTTP 动词篡改的认证旁路 (Http Verb Tempering: Bypassing Web Authentication and Authorization)