大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型蒸馏的核心技术点。

作者&编辑 | 言有三

1 什么是模型蒸馏

一般地,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而可以实现模型压缩与加速,就是知识蒸馏与迁移学习在模型优化中的应用。

Hinton等人最早在文章“Distilling the knowledge in a neural network”中提出了知识蒸馏这个概念,其核心思想是一旦复杂网络模型训练完成,便可以用另一种训练方法从复杂模型中提取出来更小的模型,因此知识蒸馏框架通常包含了一个大模型(被称为teacher模型),和一个小模型(被称为student模型)。

2 优化目标驱动的知识蒸馏框架

Hinton等人提出的框架是在模型最后的预测端,让student模型学习到与teacher模型的知识,这可以称之为直接使用优化目标进行驱动的框架,也是最简单最直接的框架,它不关心中间的学习过程,类似的还有ProjectionNet等。

3 特征匹配的知识蒸馏框架

目标驱动型的知识蒸馏框架的具体细节是难以控制的,会让训练变得不稳定且缓慢。一种更直观的方式是将teacher模型和student模型的特征进行约束,从而保证student模型确实继承了teacher模型的知识,其中一个典型代表就是FitNets,FitNets将比较浅而宽的Teacher模型的知识迁移到更窄更深的Student模型上。

4 没有教师模型的知识蒸馏

一般知识蒸馏框架都需要包括一个Teacher模型和一个Student模型,而Deep mutual learning则没有Teacher模型,它通过多个小模型进行协同训练,这也是非常有研究意义的方向。

5 与其他框架的结合

在进行知识蒸馏时,我们通常假设teacher模型有更好的性能,而student模型是一个压缩版的模型,这不就是模型压缩吗?与模型剪枝,量化前后的模型对比是一样的。所以知识蒸馏也被用于与相关技术进行结合,apprentice框架是一个代表。

6 其他

总的来说,模型蒸馏有非常多的研究方向,包括:

(1) 优化目标驱动的知识蒸馏框架拓展。

(2) 基于特征匹配的知识蒸馏框架拓展。

(3) 不压缩模型,甚至训练更大模型的框架。

(4) 无教师模型的框架。

(5) 自动搜索的框架。

(6) 与其他模型压缩技术的结合。

(7) 其他。

以上内容,如果你不想自己学习,可以去我们知识星球的网络结构1000变板块—模型蒸馏板块阅读。

有三AI知识星球

知识星球是有三AI的付费内容社区,里面包括各领域的模型学习,数据集下载,公众号的付费图文原稿,技术总结PPT和视频,知识问答,书籍下载,项目推荐,线下活动等资源,了解详细请阅读以下文章:

【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?

【杂谈】万万没想到,有三还有个保密的‘朋友圈’,那里面都在弄啥!

转载文章请后台联系

侵权必究

往期精选

  • 【星球知识卡片】残差网络家族10多个变种学习卡片,请收下!

  • 【星球知识卡片】移动端高效率的分组网络都发展到什么程度了?

  • 【星球知识卡片】注意力机制发展如何了,如何学习它在各类任务中的应用?

  • 【星球知识卡片】模型剪枝有哪些关键技术,如何对其进行长期深入学习

  • 【星球知识卡片】模型量化的核心技术点有哪些,如何对其进行长期深入学习

【星球知识卡片】模型蒸馏的核心技术点有哪些,如何对其进行长期深入学习...相关推荐

  1. 【星球知识卡片】人脸属性编辑都有哪些核心知识点,如何长期进行学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享人脸属性编辑的核心技术点. 作者&编辑 | 言有三 1 人脸表情编辑 人脸表情编辑即更改脸部的表情属性,包括嘴唇.鼻子等区域.可以广泛应 ...

  2. 【星球知识卡片】模型压缩重要方向-动态模型,如何对其长期深入学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型压缩中的一个非常重要的方向,动态模型. 作者&编辑 | 言有三 1 基于样本动态变化的卷积权重 Dynamic Convolutio ...

  3. 【星球知识卡片】换脸算法和人脸驱动都有哪些核心技术,如何对其长期深入学习...

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享换脸算法和人脸驱动相关的资源. 作者&编辑 | 言有三 1 基于3D模型的换脸和人脸驱动 基于3D模型的换脸算法是一类非常经典的思路,它 ...

  4. 【星球知识卡片】图像风格化与翻译都有哪些核心技术,如何对其长期深入学习...

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享图像风格化相关的资源. 作者&编辑 | 言有三 1 基本的图像风格化模型 2015年德国图宾根大学科学家在论文<A Neural ...

  5. 【星球知识卡片】图像和视频超分辨都有哪些核心技术,如何对其长期深入学习...

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享图像和视频超分辨相关的资源. 作者&编辑 | 言有三 1 基本的超分辨模型 基本的超分辨模型根据上采样(upsampling)在网络结构 ...

  6. 【星球知识卡片】深度学习图像降噪有哪些关键技术点,如何学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享图像降噪相关的资源. 作者&编辑 | 言有三 1 基本的CNN降噪模型 图像去噪模型的输出是无噪声的图像,与输入图像大小相同,所以可以使 ...

  7. 【星球知识卡片】深度学习换脸算法都有哪些?如何长期进行学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享人脸换脸算法相关的资源. 作者&编辑 | 言有三 1 基于3D模型的换脸 基于3D模型的换脸算法是一类非常经典的思路,它首先对人脸进行三 ...

  8. 【星球知识卡片】模型量化的核心技术点有哪些,如何对其进行长期深入学习...

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型量化的核心技术点. 作者&编辑 | 言有三 1 二值(1bit)量化 二值量化是最高效率的量化方式,也可以称之为1bit量化,即将3 ...

  9. 【星球知识卡片】AutoML都有哪些核心技术,如何对其进行长期深入学习

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享AutoML的核心技术点. 作者&编辑 | 言有三 1 AutoML与数据增强 大家都知道数据增强很重要,是深度学习必备良药,写论文刷比 ...

最新文章

  1. 关于 OpenIdConnect 认证启用 HTTPS 回调 RedirectUri 不生效问题
  2. iOS - iOS 适配
  3. 服务 TCP 断线错误分析
  4. 关于64位WIN7下正确建立JAVA开发环境(转
  5. python logging 毫秒级别的时间打印
  6. Java黑皮书课后题第5章:*5.48(处理字符串)编写一个程序,提示用户输入一个字符串,显示奇数位置的字符
  7. jmeter+ant+jenkins的自动化接口测试
  8. 46.网络安全与主机基本防护:限制端口、网络升级与 SELinux
  9. [C++] socket - 2 [UDP通信C/S实例]
  10. C语言程序100例之C#版-029
  11. SSH 只能用于远程 Linux 主机?那说明你见识太小了!
  12. 【真人手势动画制作软件】万彩手影大师教程 | 发布在线视频
  13. Oracle 11g 从入门到精通 视频教程——适合新手入门学习
  14. 3DMark2003 破 9000 !
  15. 七年级计算机教案模板范文,七年级信息技术论文大纲模板 七年级信息技术论文提纲怎样写...
  16. TOI2008 大数运算
  17. 云师大的计算机师范专业好吗,云南除了云南师范大学,还有这些实力不错的师范学校...
  18. vacuum 数据库 用法_postgresql vacuum操作
  19. 基于ASP.NET的销售系统源码
  20. C++:类模板与模板类的区别

热门文章

  1. 2020 年腾讯新增 20 亿行代码,鹅厂第一编程语言还是它
  2. 都说了多少遍,不要再学 JSP 了!
  3. 数据结构-单向循环链表、双向循环链表、仿真链表
  4. hibernate教程--事务处理详解
  5. 一看就懂的动态规划入门教程
  6. 15个顶级Java多线程面试题及回答(高级java工程师)
  7. 解读Cardinality Estimation算法(第三部分:LogLog Counting)
  8. Java集合之Properties
  9. java开发名言_程序员名言语录
  10. dropout层_DNN,CNN和RNN的12种主要dropout方法的数学和视觉解释