CA-MKD:置信多教师知识蒸馏
问题:现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将其组合来整合来自不同来源的知识,这可能在低质量教师预测的情况下误导学生。
方法简介:1、提出了置信度感知的多教师知识蒸馏(CA-MKD),该方法借助于真实标签,自适 应地为每个教师预测分配样本可靠性,并为这些教师预测分配大权重。
2、CA-MKD结合了中间层的特征,以稳定知识转移过程。
1、模型方法
a、将表示为标记训练集,N是样本数,K是教师数。是最后一个网络块的输出。
b、将表示为logits输出,其中C是类别标签。
最终的模型预测是通过具有温度的软最大函数获得的。
1.1教师预测的损失函数
为了有效地聚合多个教师的预测分布,通过计算教师预测和真实标签之间的交叉熵损失,分配反映其样本置信度的不同权重
其中表示第k个教师。越小对应于越大。
教师的总体预测如下并用计算出的权重进行聚合:
预测更接近真实标签的教师将被分配更大的权重,因为其有足够的信心做出准确判断,以正确指导。相反,如果我们简单地通过计算教师预测的熵来获得权重,则无论最高概率类别是否正确。
1.2中级教师特征的损失
除KD损失外,受FitNets的启发认为中间层也有利于学习结构知识,因此将方法扩展到中间层以挖掘更多信息。中间特征匹配的计算如下所示:
其中是第k个教师的最终分类器。
1、是最后一个学生特征向量,即hS=AvgPooling()。
2、通过将传递给每个教师分类器来获得。
3、的计算类似于的计算。
为了稳定知识转移过程,将学生设计为更专注于模仿具有相似特征空间的教师,实际上用作表示教师分类器在学生特征空间中的可辨别性的相似性度量。消融研究表明,利用而不是在中间层进行知识聚合更有效。
1、r(·)是用于对齐学生和教师特征维度的函数。
2、损失函数用作中间特征的距离度量。
3、特征对之间的总体训练损失将由汇总。
1.3总损失函数
除了上述两个损失外,还计算了具有真实标签的规则交叉熵:
CA-MKD的总体损失函数总结如下:
其中α和β是超参数,用于平衡知识蒸馏和标准交叉熵损失的影响。
2、总结
1、介绍了多教师知识蒸馏的预测和中间特征的置信感知机制。
2、教师的置信度是基于他们的预测或特征与每个训练样本的可靠性识别的基本事实标签之间的相似度来计算的。
3、在标签的指导下,我们的技术有效地整合了来自多个教师的不同知识,用于学生培训。
CA-MKD:置信多教师知识蒸馏相关推荐
- 论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏
笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱. Motivation 为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨 ...
- 论文阅读:Knowledge Distillation: A Survey 知识蒸馏综述(2021)
论文阅读:Knowledge Distillation: A Survey 知识蒸馏综述2021 目录 摘要 Introduction Background 知识 基于响应的知识 基于特征的知识 基于 ...
- 知识蒸馏综述:蒸馏机制
作者丨pprp 来源丨GiantPandaCV 编辑丨极市平台 导读 这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏. 感性上理解三种蒸馏方式: ...
- 悉尼大学 伦敦大学联合出品:知识蒸馏最新综述
©作者 | 夏劲松 学校 | 哈尔滨理工大学 研究方向 | 知识蒸馏.图神经网络 摘要 深度学习通过参数量巨大的模型,近几年中在多个领域取得了较好的效果,但是往往因为模型体积过大(模型的体积指的就是模 ...
- 【知识蒸馏】知识蒸馏(Knowledge Distillation)技术详解
参考论文:Knowledge Distillation: A Survey 1.前言 近年来,深度学习在学术界和工业界取得了巨大的成功,根本原因在于其可拓展性和编码大规模数据的能力.但是,深度学习 ...
- 知识蒸馏 (一) 综述
一.综述 *<Knowledge Distillation: A Survey>2021 IJCV <Knowledge Distillation and Student-Teach ...
- 模型压缩一-知识蒸馏
一.知识蒸馏简介 知识蒸馏是模型压缩方法中的一个大类,是一种基于"教师-学生网络(teacher-student-network)思想"的训练方法, 其主要思想是拟合教师模型(te ...
- 知识蒸馏是什么?(Knowledge Distillation)KD
1. 知识蒸馏介绍 1.1 什么是知识蒸馏? 在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的.化学蒸馏条件:(1)蒸馏的液 ...
- 知识蒸馏论文翻译(1)——CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION(多教师知识提炼)
知识蒸馏论文翻译(1)--CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION(多教师知识提炼) 文章目录 知识蒸馏论文翻译(1)--CONFID ...
最新文章
- 【ZooKeeper Notes 3】ZooKeeper Java API 使用样例
- 【组队学习】【34期】Scratch(二级)
- pycharm导入本地py文件时,模块下方出现红色波浪线时如何解决
- 2017年前端工作小结,个人踩坑之旅,前端学习者的杂谈
- django mysql 表单_Python Django 表单提交数据到mysql并展示
- VB判断指定的WORD文档是否被打开
- 为CIO而准备的技术
- python装饰器的顺序_python中装饰器的装饰顺序和执行顺序
- 使用BetterZip结合自动操作工具和预设设置创建电影解压程序
- Linux centosVMware mysql用户管理、常用sql语句、mysql数据库备份恢复
- 牛客 动物森友会(最大流+二分)
- [JNI]开发之旅(7)JNI函数中调用java对象的方法
- maven学习系列——(七)Dependency
- idea android远程调试,idea 远程调试
- 神经元模型图手工制作,神经元模型图手工模型
- 计算机主机光驱弹不出来怎么办,光驱弹不出来怎么办,教你win10光驱弹不出来的应对办法...
- 树莓派 linux安装中文语言包6,树莓派安装XBMC并让其支持中文,
- icp经营许可证怎么办?
- 大数据在互联网行业的应用
- BUUCTF 每日打卡 2021-8-18