Revisit Knowledge Distillation: a Teacher-free Framework
Observations
通过几组实验观察到
- 反转Knowledge Distillation(KD)即利用student来guide teacher的话,teacher的性能依然可以得到提升
- 用一个比student还差的teacher来guide student的话,student的性能依然可以得到提升
因此作者得到以下观点
- KD只是一种可学习的label smoothing regularization
- label smoothing regularization可以看做提供了一个虚拟teacher的KD
- argue到KD的有效性可能不全是像KD论文说的那样student从teacher那获得了类别之间的相似关系,还因为soft target的正则作用,后者甚至更重要
Re-KD是反转的KD,即用student来guide teacher
De-KD代表用没有训练好的,比student性能还差的teacher去guide student
teacher的性能好坏对student的影响没有那么大
KD和label smoothing regularization(LSR)的联系
通过推导公式可以发现
- KD是一种可学习的LSR
- LSR是一种特殊的KD,他相当于是一个得到随机猜的老师
- 当KD的t很大时,KD提供的soft target和LSR提供的均匀分布是类似的
这也解释了上面Re-KD和DE-KD可以帮助学习的原因,实际上是一种正则化
Teacher Free KD
- self-training:由于差teacher可以guide student,我们完全可以训练一个student然后去guide student
- reg:联合KD和LSR,即把LSR当成teacher跟预测结果做KL loss
Experiment
Self-training可以和正常的KD取得类似的效果
Reg和self training性能差不多,但是他没有增加太多计算量,且比LSR好很多,可以尝试
Revisit Knowledge Distillation: a Teacher-free Framework相关推荐
- 知识蒸馏是什么?(Knowledge Distillation)KD
1. 知识蒸馏介绍 1.1 什么是知识蒸馏? 在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的.化学蒸馏条件:(1)蒸馏的液 ...
- 【知识蒸馏】知识蒸馏(Knowledge Distillation)技术详解
参考论文:Knowledge Distillation: A Survey 1.前言 近年来,深度学习在学术界和工业界取得了巨大的成功,根本原因在于其可拓展性和编码大规模数据的能力.但是,深度学习 ...
- 论文翻译: Relational Knowledge Distillation
Relational Knowledge Distillation 这是 CVPR 2019年的一篇文章的译文. 文章链接: Relational Knowledge Distillation 附上G ...
- FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks
标题:FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks 1.什么是知识蒸馏? 1.1 什么是知识: we t ...
- 【论文翻译】Few Sample Knowledge Distillation for Efficient Network Compression
Few Sample Knowledge Distillation for Efficient Network Compression 用于高效网络压缩的少样本知识提取 论文地址:https://ar ...
- 【论文翻译】Highlight Every Step: Knowledge Distillation via Collaborative Teaching
Highlight Every Step: Knowledge Distillation via Collaborative Teaching 强调每一步:通过协作教学提炼知识 摘要 High sto ...
- Knowledge Distillation | 知识蒸馏经典解读
作者 | 小小 整理 | NewBeeNLP 写在前面 知识蒸馏是一种模型压缩方法,是一种基于"教师-学生网络思想"的训练方法,由于其简单,有效,在工业界被广泛应用.这一技术的理论 ...
- 【李宏毅2020 ML/DL】P51 Network Compression - Knowledge Distillation | 知识蒸馏两大流派
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【Distill 系列:三】CVPR2019 Relational Knowledge Distillation
Relational Knowledge Distillation Relational Knowledge Distillation TL;DR teacher 和 student feature ...
- RETHINKING SOFT LABELS FOR KNOWLEDGE DISTIL- LATION: A BIAS-VARIANCE TRADEOFF PERSPECTIVE
最近的一些研究指出soft labels带来的regularization是知识蒸馏有效的原因之一.这边论文从训练过程中的bias-variance博弈角度出发,对soft labels重新进行了思考 ...
最新文章
- R构建朴素贝叶斯分类器(Naive Bayes Classifier)
- Net::SSH::Perl 模块
- 深度学习核心技术精讲100篇(三十五)-美团餐饮娱乐知识图谱——美团大脑揭秘
- python thrift demo
- 大话设计模式—组合模式
- html重绘text,使用DrawText重绘C++
- mongo执行逻辑表达式_MongoDB 常用查询操作
- python函数的嵌套调用_python函数的嵌套调用
- [转载] 【Python】向json文件中追加新的对象
- matlab求非圆齿轮的节曲线,基于MATLAB的非圆齿轮节曲线设计
- 统计某个路径下的总文件个数,及总行数(不含空行)
- case when的判断顺序_Sql 中的if 判断 case... when
- siteservercms 缺点_SiteServer CMS 术语大全
- 线性规划问题的求解——Excel和python编程
- 图解机器学习算法(2) | 模型评估方法与准则(机器学习通关指南·完结)
- 在华为工作十年的感悟
- 最新 | 诺奖得主涉嫌论文造假
- Android Studio设置关闭当前页面的快捷键
- 把鼠标指针换成自定义图片 傻瓜教程
- JetPack中的Room
热门文章
- pip 在c盘的文件路径
- 设置Parallels Desktop中的虚拟机使用宿主机代理
- python笔记:7.2.2.2 一元多因素方差分析_交互效应图(购房面积影响因素交互效应)
- window10刷新卡顿
- CSS3相比CSS新增哪些功能
- 【有利可图网】PS实战系列:PS+SAI把照片制成唯美手绘效果
- 计算机上的win键是什么意思,win是电脑上哪个键
- WinDynamicDesktop下载慢解决方法
- 线上软硬件类的接单平台有哪些?
- 使用 HTTP 动词篡改的认证旁路 (Http Verb Tempering: Bypassing Web Authentication and Authorization)