知识蒸馏简单介绍

在介绍论文前，先向大家介绍一下什么是知识蒸馏。知识蒸馏：一种神经网络的压缩方法。知识蒸馏背后的想法是不仅通过真实标签提供的信息，而且通过观察教师网络（T）如何表示和处理数据来培训学生网络（S）。
教师网络（T）就是压缩前的神经网络，学生网络（S）就是压缩后的网络。主流的方式就是让规模与复杂度更小的学生网络（S）通过观察教师网络（T）是如何处理数据的来进行学习。说白了就是把教师网络（T）的softmax前一层都作为标签（软标签）来训练学生网络（S）。
用一个简单的公式来分析一下：

令a_t为教师网络（T）的softmax前一层的输入。
令a_s为学生网络（S）的softmax前一层的输入。

然后我们应该都知道，softmax(a_s)的结果就会是学生网络（S）输出的各类别的概率。然后和真实标签y_r做一对比。得到知识蒸馏的第一个损失：

        然后还要从老师网络那里进行学习。令y_s= softmax(a_s/t)，y_t=softmax(a_t/t)，则第二个损失如下(t就是知识蒸馏中常说的温度):

        最后学生网络的训练过程就是不断缩小如下损失：

        至于具体上面这几个公式中使用的是什么损失函数，感兴趣的可以去看看原文。

摘要

由于目前深度神经网络取得了巨大的成果，但是由于这些优秀的模型都过于庞大，使得他们很难部署在智能手机或者嵌入式传感器上。所以，如果要应用这些深度神经网络，必须要压缩网络。然后比较流行的方法就是知识蒸馏。但是本论文的作者发现，当教师网络和学生网络之间的差异过大时，会出现知识蒸馏效率下降的情况。为了解决这个问题，该论文引入了多步知识蒸馏，即采用中等规模的网络（教师助理TA）来弥合学生和老师之间的差距。大致流程如下图：

实验数据证明

上图的蓝色代表学生，红色代表老师。学生的神经网络深度始终是2。从图中可以看出，随着老师网络准确率的提高（规模的增大），学生网络的的准确率并没有一直呈上升趋势，反而下降了。所以这篇论文就是为了解决这个问题。

NOKD: 让学生网络直接从数据进行训练。
BLKD：普通的知识蒸馏方法。
TAKD：本论文中的引入助教的知识蒸馏方法。
通过这个表，我们可以得知，该论文的方法就是好。准确率就是高。emmmm

多层助教？

直接看表：

从表中可以看到一些东西，引入了助教的准确率（蓝色部分）比没有引入助教（绿色部分）的知识蒸馏准确率都要高。

引入助教来提高知识蒸馏效率相关推荐

PointDistiller:面向高效紧凑3D检测的结构化知识蒸馏
点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达作者丨吃饭机@知乎来源丨https://zhuanlan.zhihu.com/p/20092418 ...
【第54篇】一种用于视觉识别的快速知识蒸馏框架
文章目录摘要 1 简介 2 相关工作 3 方法 3.1快速知识蒸馏 3.2更高的标签质量 3.4用监督方案训练自监督模型 3.5 标签压缩与存储分析 4 实验 4.1 监督学习 4.2 ReaL[1 ...
【知识蒸馏】知识蒸馏（Knowledge Distillation）技术详解
参考论文:Knowledge Distillation: A Survey 1.前言近年来,深度学习在学术界和工业界取得了巨大的成功,根本原因在于其可拓展性和编码大规模数据的能力.但是,深度学习 ...
NYU Google: 知识蒸馏无处不在，但它真的有用吗？
文 | 小伟编 | 小轶导师: 小伟,听说你对知识蒸馏比较了解,你来给我说说知识蒸馏有什么用? 我: 知识蒸馏是一种很典型的模型压缩的方法,我们可以用它来有效地从大型教师模型学习小型学生模型,并且 ...
知识蒸馏在推荐系统的应用
点击上方,选择星标或置顶,每天给你送干货! 作者 | 张俊林本文转载自知乎 https://zhuanlan.zhihu.com/p/143155437 随着深度学习的快速发展,优秀的模型层出不穷, ...
加速100倍，性能媲美SOTA！浙大提出无数据知识蒸馏新方法FastDFKD
来源:机器之心本文共2400字,建议阅读5分钟本文为你介绍知识蒸馏的新方法. 在无法获取到原始训练数据的情况下,你可以尝试一下这种新型蒸馏算法 FastDFKD,数据合成与现有的生成方法相比,可以 ...
加速100倍，性能媲美SOTA，浙大知识蒸馏新方法FastDFKD
来源:机器之心在无法获取到原始训练数据的情况下,你可以尝试一下这种新型蒸馏算法 FastDFKD,数据合成与现有的生成方法相比,可以实现 10 倍的加速,与非生成方法相比,甚至可以达到 100 倍以 ...
旷视孙剑博士提出LGD，训练速度提升51%，适用于目标检测的知识蒸馏
来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...
万字总结，知识蒸馏如何在推荐系统中大显身手？
来源:AI科技评论作者 | 张俊杰编辑 | 丛末本文首发于知乎 https://zhuanlan.zhihu.com/p/143155437 随着深度学习的快速发展,优秀的模型层出不穷,比如图 ...

引入助教来提高知识蒸馏效率

引入教师助理来提高知识蒸馏效率

知识蒸馏简单介绍

摘要

实验数据证明

多层助教？

引入助教来提高知识蒸馏效率相关推荐

最新文章

热门文章