近日,CMU 的研究人员在 arXiv 上放出了一份技术报告,介绍他们如何通过蒸馏(distillation)训练一个强大的小模型。所提出方法使用相同模型结构和输入图片大小的前提下,在 ImageNet 上的性能远超之前 state-of-the-art 的 FixRes 2.5% 以上,甚至超过了魔改结构的 ResNeSt 的结果。

这也是第一个能在不改变 ResNet-50 网络结构和不使用外部训练数据的前提下,将 ImageNet Top-1 精度提升到 80% 以上的工作,同时对训练要求也不是很高,一台 8 卡 TITAN Xp 就可以训练了。

论文标题:

MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks

论文链接:

代码链接:

在介绍这个工作之前,首先要简单回顾一下它的最初版本 MEAL,其基本的也是核心的思想是将多个 teacher 网络的知识通过蒸馏的方式压缩进一个 student 里面,同时它提出使用辨别器(discriminators)作为正则模块(regularization)防止 student 的输出跟 teacher 过于相像,从而防止 student 过拟合到训练集上。

MEAL 当时在 ImageNet 上就取得了 78.21% 的结果,超过原版 ResNet-50 1.7% 个点。MEAL V2 跟 MEAL 最大的区别在于监督信号的产生方式,如下图:

具体而言,MEAL 在每次训练迭代的时候会通过一个 teacher 选择模块随机选择一个teacher产生监督信号,而在 V2 中,这个模块被替换成所有 teacher 的集成,因此每次迭代 student 接收到的监督信号将会更加强大。同时,V2 简化了 V1 里面的中间层 loss,只保留最后一个 KL-loss 和辨别器,使得整个框架变得更加简单,直观和易用。

通常我们在训练网络的时候会用到很多技巧(tricks),但是在 MEAL V2 中,这些都是不需要的,作者罗列了他们使用到的和未使用到的一些训练手段,如下表格所示:

从上面表格可以看出来一些常用的数据增强和学习率调节他们都没用到,说明这个框架非常鲁棒和强大,同时也说明了这个框架其实还有很大的提升空间,比如作者进一步加入 CutMix 数据增强的方法来训练,性能得到了进一步的提升。

作者在论文中展示了如何提升不同网络结构的性能,包括 MobileNet V3,EfficientNet-B0 等等,从表格 3 我们可以看到基本在这些网络上都能有 2 个点以上的提升,所以 MEAL V2 整个框架其实可以看成是一个后增强的过程,即我们可以先设计和训练一个自己的模型,然后放入 MEAL V2 的框架中进一步提升它的性能。文章最后作者给出了一些相关的讨论,包括为什么在做蒸馏的时候不需要使用 hard label,辨别器如何帮助优化过程等等,有兴趣的同学可以去看他们的论文原文,这里就不一一赘述了。最后我们不得不感叹一下,一个四五年前提出的 ResNet-50 网络居然还能有如此巨大的潜力,性能可以被提升到超越最近很多新设计的网络结构,作者还发现他们最强的 student 模型的性能其实跟使用的 teacher 已经非常接近了,这是一个非常神奇的地方,因为 student 的网络规模要比 teacher 小很多,但是它居然可以容纳全部 teacher 的知识(knowledge),这也是一个值得继续讨论和研究的地方。

同时我们也不得不反思一下,是否一些新设计的网络结构真的有那么大的进步和贡献,毕竟从 MEAL V2 的实验结果来看,到目前为止原生的 ResNet-50 的性能都还没有完全饱和,这也促使我们更理性、客观的去评价其他一些看上去性能很好的模型结构。最后,Twitter 大佬 Dmytro Mishkin 也转发了这篇文章,同时还有一些有意思的讨论,关注他的人包括深度学习第四巨头 Andrew Ng,英伟达 AI 和机器学习负责人,同时也是加州理工大学教授的 Anima Anandkumar,还有 timm 库的作者 Ross Wightman 等等。

同时上面还有一些比较有意思的评论,比如有个 Twitter 网友就说 “I wish I had an ensemble of giant pre-trained teachers like this model in high school.” 真是太有爱了。

#投 稿 通 道#

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

投稿方式:

• 方法一:在PaperWeekly知乎专栏页面点击“投稿”,即可递交文章

• 方法二:发送邮件至:hr@paperweekly.site ,所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

微信公众号:PaperWeekly

新浪微博:@PaperWeekly

resnet50能用cpu跑吗_用最简单的方式训练史上最强ResNet-50,性能超过魔改结构的ResNeSt...相关推荐

  1. 用最简单的方式训练史上最强ResNet-50,性能超过魔改结构的ResNeSt

    近日,CMU 的研究人员在 arXiv 上放出了一份技术报告,介绍他们如何通过蒸馏(distillation)训练一个强大的小模型.所提出方法使用相同模型结构和输入图片大小的前提下,在 ImageNe ...

  2. resnet50能用cpu跑吗_【有趣】第39期:恐怖的“剪角”CPU

    [0]前言 很多消费者想方设法尽可能减少预算去购买性能相对更强大的CPU,所以国内整个CPU产业链非常复杂,除了铺天盖地的洋垃圾"i7级"."i9级"至强外,购 ...

  3. 黑莓9900java游戏_流畅度秒杀Android 史上最强黑莓9900评测

    昨天ZOL评测中心对黑莓9788进行了翔实的评测,但BBer心中想必对Blackberry 7.0系统更多些期待,今天,史上最强黑莓Bold Touch 9900携王者之气回归,虽然列位看官无法亲手操 ...

  4. iphone x性能测试软件,【苹果iPhoneX评测】性能:iPhone8竟然是史上最强_苹果 iPhone X _手机评测-中关村在线...

    性能:iPhone8竟然是史上最强 这一次,苹果显然是知道了iPhone8系列创新上的不足,因此并没有差异化iPhone8系列和iPhoneX的处理器,同样是A11仿生,2个高性能核心和4个高能效的核 ...

  5. Java移植聊斋_史上最强换脸术:脸部移植太强大了 重获新生

    11 月 17 日消息,史上最强换脸术,将一个人的脸移植到到另一张脸上,网友惊叹如同看聊斋故事一样.据外媒昨日报道,美国纽约大学医学中心完成了史上最复杂的一次换脸时手术.通过换脸整容将一位死亡男子的脸 ...

  6. resnet50能用cpu跑吗_resnet50的PyTorch实现

    背景 按理讲,夏天是一个比较令人激动和向往的季节,比方说暑假.啤酒.绿茵.绿荫还有大街上的--但这个夏天gemfield最轻松的时候还是使用pytorch的片刻.现在pytorch 1.0正式版就要发 ...

  7. cpu开核_新锐龙让AMD重返巅峰,但逆袭的50年里这些CPU也不应忘记

    AMD从成立至今无疑有着许多神奇的经历,比如其创始人一开始只能艰难地筹集到5000美元创业,到如今AMD成为一家年营业额达到65亿美元的公司,这位创始人创始人杰里.桑德斯也赋予了AMD永不放弃,永不投 ...

  8. 和i77700性能一样的服务器cpu,7代酷睿i7-7700K评测:可能是Intel史上最无悬念的换代...

    [PConline 评测]两年前Intel曾经为跳票的五代酷睿来救场,推出了一款默认4.0GHz高频的Core i7-4790K,虽然是Refresh版不过却被誉为高频"大杀器". ...

  9. resnet50能用cpu跑吗_2020年12月1日更新。性价比最高入门游戏CPU--intel 10100F装机配置推荐。...

    牙膏厂终于发布了入门级性价比最高的十代CPU,inte i3 10100F.10100F采用LGA1200芯片接口,四核八线程,主频3.6GHz,睿频可以到4.3Ghz.TDP功耗65w,支持双通道D ...

  10. GPU 编程 CPU 异同点_一个顶俩 十一代酷睿用上Xe架构GPU:笔记本还要独显吗?_...

    2020年10月21日 21:20 作者:黄页 编辑:黄页 2020年笔记本电脑变得比以往更加重要,生产力愈发强大. 原因也不复杂,就是今年的疫情导致远程办公成为刚需,笔记本电脑几乎是上班族人手一台, ...

最新文章

  1. 【Spring】bean的作用域(@Scope) - singleton、prototype
  2. 一、Linux Shell基础
  3. 计算机二级vf知识点总结,2015年计算机二级考试《VFP》复习重点:第四章
  4. 服务器对程序员来说意味着什么,此文带你来了解
  5. python绘制三维图散点图_python matplotlib模块——绘制三维图形、三维数据散点图...
  6. 并发编程中的重重量级模型和轻量级模型
  7. 大数据之-Hadoop之HDFS的API操作_文件下载案例---大数据之hadoop工作笔记0058
  8. 使用shell做进制转换
  9. 如何从我的虚拟环境中更新pip本身?
  10. L2与L1正则化理解
  11. 软件设计师2004年5月下午试题6(C++ 数组下标检测)
  12. LinuxC网络编程
  13. redis视频教程 java_Redis高级运用视频教程
  14. 数据分析基础——R语言(处理缺失值)
  15. VMware虚拟机复制文件卡死的问题
  16. docker run 的 -i -t -d参数
  17. ORACLE ERP consolidation流程(二)
  18. openldap范例数据库mysql_用mysql作openldap的后台数据库
  19. 表单环境外访问Xrm.Page.context对象
  20. 记录,在公网云服务器,装入redis服务后,未设置密码直接被pnscan病毒攻击,变成wakuang机器。

热门文章

  1. Linux终端快捷键
  2. aps生产排程出色的软件功能
  3. 计算机上直接拆硬盘在硬盘盒中使用,触目惊心 西数1TB移动硬盘拆解_硬盘/光驱盒_移动存储-中关村在线...
  4. TB6612FNG 驱动学习笔记
  5. 3dmax2015安装教程与破解方法(其中一步极为重要!!!)
  6. 多个pdf怎么合并成一个pdf?如何将几个pdf文件合并成一个pdf?
  7. ug如何导入excel数据点_ug怎么导入 点数据库
  8. 华为证书有效期是多久?证书要到期了怎么办?
  9. 场景类:vue+iview实现三级导航
  10. linux fstab 远程,linux下fstab文件详解