论文地址:https://arxiv.org/abs/1610.09650

主要思想

这篇文章就是用teacher-student模型,用一个teacher模型来训练一个student模型,同时对teacher模型的输出结果加以噪声,然后来模拟多个teacher,这也是一种正则化的方法。

1. teacher输出的结果加噪声以后,然后和student的输出结果计算L2 loss,作为student网络的反馈。

2. 加噪声

3. 计算L2 loss

4. 反向传播,更新参数

5. 算法过程

  • 注意:加噪声的时候对输入进行了采样,不然直接全加也太暴力了吧。

等价于基于噪声的回归




实验结果

1. 对比了不同噪声比例对结果的影响,其实就是调参的过程。

2. 比较了学生加噪声和教师加噪声,结果是教师加噪声效果更加明显。

3. 比较了教师加噪声和一般的正则化操作(dropout)

总结

本文想法比较简单,就是给teacher输出结果加噪声,美曰其名,learn from multi teachers.

转载于:https://www.cnblogs.com/zhonghuasong/p/7653619.html

论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers相关推荐

  1. 论文笔记--Deep contextualized word representations

    论文笔记--Deep contextualized word representations 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BiLM(Bidirectional Langu ...

  2. AI医药论文笔记--Deep learning improves prediction of drug–drug and drug–food interactions

    深度学习用于提高对药物-药物相互作用和药物-食物相互作用的预测 论文题目 Deep learning improves prediction of drug–drug and drug–food in ...

  3. 【论文笔记】Exploring and Distilling Posterior and Prior Knowledge for Radiology Report ... (CVPR 2021)

    论文原文:https://arxiv.org/pdf/2106.06963.pdf 参考:https://blog.csdn.net/qq_45645521/article/details/12349 ...

  4. 论文笔记 Deep Gaussian Processes for Calibration of Computer Models 用于校准计算机模型的深度高斯过程

    0.摘要 黑盒计算机模型的贝叶斯校准为量化模型参数和预测的不确定性提供了一个既定的框架.传统的贝叶斯校准涉及计算机模型的仿真和使用高斯过程的加性模型差异项:然后使用马尔可夫链蒙特卡罗进行推理.这种校准 ...

  5. 论文笔记006-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

    更多博客可以关注MyBlog,欢迎大家一起学习交流! 1. 简介 题目:<Bootstrapping Entity Alignment with Knowledge Graph Embeddin ...

  6. [论文笔记] A model for correlated failures in N-version programming(IIE Trans, 2004)

    Time: 4.0 hours YS Dai, M Xie, KL Poh, SH Ng., 2004. A model for correlated failures in N-version pr ...

  7. 论文笔记——News Recommendation with Topic-Enriched Knowledge Graphs

    文章目录 Abstract Model 问题定义 模型探究(TEKGR) 总结 Abstract 概述 引用论文中的一句话,新闻推荐系统的目标是处理大量的新闻以及给用户提供个性化的新闻推荐. 动机 新 ...

  8. 论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查

    论文链接:https://arxiv.org/abs/1804.08348 面部表情是人类传达其情感状态和意图的最强烈,最自然和最普遍的信号之一.下图是面部表情识别数据库和方法的进化过程,由传统的Ha ...

  9. 论文笔记——Deep Residual Learning for Image Recognition(论文及相关代码)

    啊先说一些题外话,在刚刚进入深度学习的时候就在知乎上看到关于何恺明大神的phd的传奇经历.大概就是何大牛顶着光环选手的称号进的MSRA,peer的到第1-2年就已经各种论文刷到飞起,但是何大牛到第三年 ...

最新文章

  1. 解决流程自动化“最后一公里问题”,达观数据发布智能 RPA
  2. 赠书 | 成为一个多模型思考者,从掌握数据跃迁到拥有智慧
  3. 关闭sql执行功能及找回08CMS系统管理员密码
  4. LeetCode 747. 至少是其他数字两倍的最大数
  5. 移动云帮我养出了一片致富鱼塘
  6. Sublime text 3 快捷键
  7. 每天Leetcode 刷题 初级算法篇-颠倒二进制位
  8. 2019牛客多校第四场 I题 后缀自动机_后缀数组_求两个串de公共子串的种类数
  9. python语言程序设计是干什么的-Python语言程序设计
  10. 线程间的同步和通信机制
  11. Web安全攻防渗透测试实战指南笔记 三
  12. 项目管理 之技术管理
  13. OkHttp完全解析(七)SPDY协议详细介绍
  14. 7.8 W 字总结!Java 8—Java 10 特性详解
  15. 全新 16 核神经网络引擎,a13神经网络处理器
  16. 资格考试_第二章_证券投资基金概述
  17. 远程办公和分布式协作的区别
  18. 渗透测试之---xss-labs闯关【1-14关】
  19. 电脑16G内存升级成32G内存日常使用区别大么?
  20. rust腐蚀几人组队_腐蚀怎么邀请组队

热门文章

  1. poj1741 Tree 点分治
  2. 网络传输层之TCP、UDP详解
  3. jQuery以Post方式发送请求并获取返回的文件供下载!
  4. springboot---mybits整合
  5. javascript --- 几个其他的跨域技术(图像Ping、JSONP、Comet)
  6. 淘宝top平台调用接口响应时间优化
  7. Java编写基于netty的RPC框架
  8. shell之计算文本中单词出现频率
  9. Oracle密码过期问题 ORA-28001:the password has expired
  10. (转载)Qt中MOC的一些限制