一、综述

*《Knowledge Distillation: A Survey》2021 IJCV

《Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New》 2021 TPAMI

1、Knowledge:

1) Response-Based Knowledge

LR:  Kullback-Leibler divergence loss

2) Feature-Based Knowledge

​ : The transformation functions, applied when the feature maps of teacher and student models are not in the same shape

​: the similarity function used to match the feature maps of teacher and student models

l2-norm distance, l1-norm distance, cross-entropy loss, maximum mean discrepancy loss

Maximum Mean Discrepancy(MMD):衡量两个分布的相似性

3) Relation-Based Knowledge

based on the relations of feature maps:

LR1:the correlation function between the teacher and student feature maps.

based on the instance relations:

LR2: the correlation function between the teacher and student feature representations

Earth Mover distance, Huber loss, Angle-wise loss,  Frobenius norm

2、Schemes:

1)Offline Distillation

2)Online Distillation

  • Deep Mutual Learning(dml)提出让多个网络以合作的方式进行学习,任何一个网络可以作为学生网络,其他的网络可以作为教师网络。

  • Online Knowledge Distillation via Collaborative Learning提出使用soft logits继承的方式来提升dml的泛化性能。

  • Oneline Knowledge distillation with diverse peers进一步引入了辅助peers和一个group leader来引导互学习过程。

  • 为了降低计算代价,Knowledge Distillation by on-the-fly native ensemble通过提出一个多分支的架构,每个分支可以作为一个学生网络,不同的分支共享相同的的backbone。

  • Feature fusion for online mutual knowledge distillation提出了一种特征融合模块来构建教师分类器。

  • Training convolutional neural networks with cheap convolutions and online distillation提出使用cheap convolutioin来取代原先的conv层构建学生网络。

  • Large scale distributed neural network training throgh online distillation采用在线蒸馏训练大规模分布式网络模型,提出了一种在线蒸馏的变体-co-distillation。co-distillation同时训练多个相同架构的模型,每一个模型都是经由其他模型训练得到的。

  • Feature-map-level online adversarial knowledge distillation提出了一种在线对抗知识蒸馏方法,利用类别概率和特征图的知识,由判别器同时训练多个网络

3)Self-Distillation

在自蒸馏中,教师和学生模型使用相同的网络。自蒸馏可以看作是在线蒸馏的一种特殊情况,因为教师网络和学生网络使用的是相同的模型。

  • Be your own teacher: Improve the performance of convolutional neural networks via self distillation 提出了一种新的自蒸馏方法,将网络较深部分的知识蒸馏到网络较浅部分。

  • Snapshot distillation:Teacher-student optimization in one generation 是自蒸馏的一种特殊变体,它将网络早期阶段(教师)的知识转移到后期阶段(学生),以支持同一网络内有监督的培训过程。

  • 为了进一步减少推断的时间,Distillation based training for multi-exit architectures提出了基于蒸馏的训练方案,即浅层exit layer在训练过程中试图模拟深层 exit layer的输出。

  • 最近,自蒸馏已经在Self-distillation amplifies regularization in hilbert space进行了理论分析,并在Self-Distillation as Instance-Specific Label Smoothing中通过实验证明了其改进的性能。

  • Revisit knowledge distillation: a teacher-free framework 提出了一种基于标签平滑化的无教师知识蒸馏方法。

  • Regularizing Class-wise Predictions via Self-knowledge Distillation提出了一种基于类间(class-wise)的自我知识蒸馏,以与相同的模型在同一源中,在同一源内的训练模型的输出分布相匹配。

  • Rethinking data augmentation: Self-supervision and self-distillation提出的自蒸馏是为数据增强所采用的,并对知识进行增强,以此提升模型本身的性能。

3、structure:

(1)教师网络的简化版本,具有更少的层和每层更少的通道
(2)保留网络结构的教师网络的量化版本
(3)具有高效基本操作的小型网络
(4)具有全局优化过网络结构的小型网络
(5)和教师一样的网络

主要难点:

(1)解决模型容量差距造成的知识转移性能的降低

  • Improved knowledge distillation via  teacher assistant引入教师助理,缓解教师模式和学生模式之间的训练gap。

  • Residual Error Based Knowledge Distillation提出使用残差学习来降低训练gap,辅助的结构主要用于学习残差错误。

(2)最小化学生模型和教师模型结构上差异 。

  • Model compression via distillation and quantization将网络量化与知识蒸馏相结合,即学生模型是教师模型的量化版本。

  • Deep net triage:  Analyzing the importance of network layers via structural compression.提出了一种结构压缩方法,将多个层学到的知识转移到单个层。

  • Progressive blockwise knowledge distillation for  neural network acceleration在保留感受野的同时,从教师网络向学生网络逐步进行block-wise的知识转移。

4、Cross-Modal Distillation

需配对样本

5、Multi-Teacher Distillation

6、其他资料

知识蒸馏(Knowledge Distillation)_Law-Yao的博客-CSDN博客_知识蒸馏

4、

GitHub - dkozlov/awesome-knowledge-distillation: Awesome Knowledge Distillation

https://github.com/FLHonker/Awesome-Knowledge-Distillation

5、

「知识蒸馏」最新2022研究综述 - 云+社区 - 腾讯云

知识蒸馏paper分类整理(2014-2020)_frankliu624的博客-CSDN博客

https://www.cnblogs.com/pprp/p/15682787.html

知识蒸馏 (一) 综述相关推荐

  1. 悉尼大学 伦敦大学联合出品:知识蒸馏最新综述

    ©作者 | 夏劲松 学校 | 哈尔滨理工大学 研究方向 | 知识蒸馏.图神经网络 摘要 深度学习通过参数量巨大的模型,近几年中在多个领域取得了较好的效果,但是往往因为模型体积过大(模型的体积指的就是模 ...

  2. 论文阅读:Knowledge Distillation: A Survey 知识蒸馏综述(2021)

    论文阅读:Knowledge Distillation: A Survey 知识蒸馏综述2021 目录 摘要 Introduction Background 知识 基于响应的知识 基于特征的知识 基于 ...

  3. 【知识蒸馏】2021年最新知识蒸馏综述和论文总结

    [知识蒸馏]2021最新知识蒸馏综述和论文总结 简介: 按照"知识"的定义来分类: 按照教师模型来分类: 按照"数据"有无来分类: 简介: 按照"知识 ...

  4. radioml2018数据集_7 Papers Radios | CVPR 2020获奖论文;知识蒸馏综述

    机器之心 & ArXiv Weekly Radiostation 参与:杜伟.楚航.罗若天 本周的重要论文是CVPR 2020 公布的各奖项获奖论文,包括最佳论文和最佳学生论文等. 目录: K ...

  5. 知识蒸馏综述:蒸馏机制

    作者丨pprp 来源丨GiantPandaCV 编辑丨极市平台 导读 这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏. 感性上理解三种蒸馏方式: ...

  6. 知识蒸馏综述:网络结构搜索应用

    [GiantPandaCV导语]知识蒸馏将教师网络中的知识迁移到学生网络,而NAS中天然的存在大量的网络,使用KD有助于提升超网整体性能.两者结合出现了许多工作,本文收集了部分代表性工作,并进行总结. ...

  7. 杂谈 | 当前知识蒸馏与迁移学习有哪些可用的开源工具?

    所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 作者&编辑 | 言有三 来源 | 有三AI(ID:yanyousan_ai) [导读]知识蒸馏与迁移学习不仅仅属于 ...

  8. 知识蒸馏:如何用一个神经网络训练另一个神经网络

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 如果你曾经用神经网络来解决一个复杂的问题,你就会知道它们的尺寸可能 ...

  9. 训练softmax分类器实例_知识蒸馏:如何用一个神经网络训练另一个神经网络

    作者:Tivadar Danka 编译:ronghuaiyang 原文链接 知识蒸馏:如何用一个神经网络训练另一个神经网络​mp.weixin.qq.com 导读 知识蒸馏的简单介绍,让大家了解知识蒸 ...

最新文章

  1. 太阳直射点纬度计算公式_高中地理——每日讲1题(二十四节气、正午太阳高度、日出时间)...
  2. Android在桌面上添加开关,多键开关 Andromax v1.1.7
  3. Quartz Java resuming a job excecutes it many times--转
  4. flyway java使用,如何使用flyway创建数据库?
  5. 外国人看来也喜欢拜年
  6. POJ - 3347 Kadj Squares(思维+几何)
  7. java private 对象_[Java笔记]类的所有构造器都是private权限,就一定没有办法实例化它的对象了么?...
  8. Java对象容器——List
  9. .net项目开发工具(V2.0)异常报告专帖
  10. oracle滚动打补丁,ORACLE打补丁的方法和案例
  11. htc m7位置服务器,HTC M7 解锁教程(附htc one m7 解锁工具)
  12. Flutter尝鲜:跨平台移动应用开发
  13. 安卓rom制作教程_【教程】给ROM制作一个卡刷补丁包
  14. 免费远程桌面连接工具
  15. kindle上网看其他网址_几个超赞的免费电子书下载网站(支持kindle)!
  16. python安装库之----有些库库真是小妖精
  17. java递归查询数据库树
  18. Python数学建模—线性规划
  19. 通过安卓模拟器使直播软件obs的0粉丝用户开播
  20. 第三方App接入微信登录 解读

热门文章

  1. 1、了解网站建设原理
  2. 杰理之添加SD基本配置【篇】
  3. python编写代码避免内存增加_读书笔记(6): 编写高质量python代码的59个有效方法-完结...
  4. 平面设计师应该知道的平面设计作品集排版技巧有哪些
  5. 常见防火墙设置图文说明
  6. h5 数据制作与读取
  7. vivo2019校招图像算法工程师
  8. 图片Base64编码血泪教训
  9. 织梦tag伪静态html方式,织梦dedecms TAG标签伪静态方法(附伪静态规则)
  10. STM32F105VC波特率不一致