Relational Knowledge Distillation

Relational Knowledge Distillation

TL;DR

teacher 和 student feature 可能有 gap,student 应该学习 teacher 样本之间的关系而不是 teacher 样本本身
区别于直接蒸馏teacher 和student的特征信息,本文将teacher样本间的距离和角度以及student样本间的距离和角度作为knowledge

knowledge:relation

distance loss

  • instance 蒸馏是
    对于 teacher 一个 batch 内的 N个 sample
    student 一个 batch 内的 N个sample
    这两个求一个 L2 或者是其他

  • rkd是

    对于 teacher 一个 batch 内的 N个 sample,分别求和其他sample的距离(这里用的 L2),得到一个 NN的矩阵,代表一个 sample 和其他 sample的关系
    student 一个 batch 内的 N个sample,也同样得到一个 N
    N矩阵
    这两个 N*N 的矩阵求一个距离(这里用的 smooth L1)作为蒸馏 loss

angle loss

  • 同理
    teacher 和 student 内分别求 cos ,然后求这两个 cosin 的 loss

实验结果:

Thoughts

人脸检测上 work

【Distill 系列:三】CVPR2019 Relational Knowledge Distillation相关推荐

  1. 论文翻译: Relational Knowledge Distillation

    Relational Knowledge Distillation 这是 CVPR 2019年的一篇文章的译文. 文章链接: Relational Knowledge Distillation 附上G ...

  2. 【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

    论文:Relational Knowledge Distillation [1]关系知识蒸馏,中的关系知识是啥? 如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输 ...

  3. CVPR 2022 | Cross-Image Relational Knowledge Distillation for Semantic Segmentation

    CVPR 2022 | Cross-Image Relational Knowledge Distillation for Semantic Segmentation 论文:https://arxiv ...

  4. Mosaicking to Distill Knowledge Distillation from Out-of-Domain Data

    Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data 在本文中,我们试图解决一项雄心勃勃的任务,即域外知识蒸馏(O ...

  5. 【2021知识蒸馏】Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching

    [2021知识蒸馏]Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching 1.问题背 ...

  6. 【深度学习】【CVPR2019 oral】Structured Knowledge Distillation for Semantic Segmentation

    [CVPR2019 oral]Structured Knowledge Distillation for Semantic Segmentation KD Intro Approach Structu ...

  7. 【李宏毅2020 ML/DL】P51 Network Compression - Knowledge Distillation | 知识蒸馏两大流派

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  8. FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks

    标题:FreeKD:Free-direction Knowledge Distillation for Graph Neural Networks 1.什么是知识蒸馏? 1.1 什么是知识: we t ...

  9. Knowledge Distillation: A Survey

    本文是蒸馏学习综述系列的第一篇文章,主要是针对2021年 IJCV Knowledge Distillation: A Survey的一个翻译. 知识蒸馏:综述 摘要 1 引言 2 知识 2.1 基于 ...

最新文章

  1. 阿里巴巴启动2017全球创客大赛 四大洲共设25个赛区
  2. 建立能够持续请求的CS网络程序
  3. dubbo是长连接还是短连接_从快手短视频看,内容平台如何做好产品与用户的连接及运营实操...
  4. 【三国志战略版】拆解与分析
  5. [USACO06NOV]玉米田Corn Fields(动态规划,状态压缩)
  6. 在原有的基础之上,启用NAT模型
  7. 通用职责分配软件原则之2-创造者原则
  8. 上汽集团减发员工绩效工资75% 时效长度3到6个月
  9. CSS 魔法:学海无涯,而吾生有涯
  10. linux中使用gbd进行单布调试
  11. 滑动转向机器人轮间距校准
  12. 仿微信图片上传,带加号,且超过最大数隐藏
  13. SpringBoot整合JWT(二)
  14. 最近游戏更新 未整理 无图片 续3
  15. PCQQ - 发送自定义的XML卡片消息
  16. DevOps 对比分析:产品、服务、开源投入
  17. Mac 升级ruby版本
  18. 深度学习计算模型中门函数的作用
  19. 2285列车时刻表_K2285火车时刻表里程表价格表
  20. java、简单练习题

热门文章

  1. 分布式架构项目的衡量指标及其目标
  2. 教你一招利用Python快速去除图片水印
  3. matlab怎么看输出电压纹波,Boost变换器的能量传输模式和输出纹波电压分析.pdf
  4. C语言输入三角形三条边边长 算三角形面积
  5. 论文图片模糊问题的解决
  6. vite按需引入 Ant Design Vue 3.0
  7. 【转】模糊测试(fuzzing)是什么
  8. excel跑数计算机卡,电脑使用excel很卡甚至死机怎么样解决
  9. 基于伽马变换自适应修正的全景首尾融合算法
  10. android判断字符串是否包含下划线,android 富文本SpannableString去掉下划线