ICLR 审稿人：这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破！

点击下面卡片，关注我呀，每天给你送来AI技术干货！

来自：AI 科技评论

编辑：陈大鑫

AI 科技评论今天给大家介绍一篇已被 ICLR 2021 接收的论文，论文作者来自卡耐基梅隆大学、香港科技大学、北京大学和马萨诸塞大学阿默斯特分校（是MEAL系列作者的一篇最新力作）。

论文地址：https://openreview.net/pdf?id=PObuuGVrGaZ

这是一篇非常特别的文章，其中一个审稿人评价这篇文章是标签平滑和知识蒸馏领域有突破性的一篇文章，并给出了8分的高分。

为什么说它特殊呢，因为论文的核心并不是常见的刷点打榜的工作，而是在澄清和纠正过去一篇比较有名的文章中提出的一个重要发现，基于这个发现衍生出来的一个观点和在这个问题上的认知，进而让人们更好的理解标签平滑和知识蒸馏的工作原理，那篇被纠正的文章发表于 NeurIPS 2019 [1] ，作者之一是我们大家都非常熟悉的深度学习先驱之一的Geoffrey Hinton。

大家应该很好奇，大佬的文章也会有不完善的观点吗？答案是肯定的。人们对于某些问题的认知本来就是在曲折中不断前进的。我们首先来介绍一下Hinton那篇文章在讲一个什么事情。

Hinton 这篇文章主要是在探究和解释标签平滑的机制和工作原理，下面这张图很好解释了这种机制：

这篇文章里第一个有意思的发现是：Label smoothing encourages the activations of the penultimate layer to be close to the template of the correct class and equally distant to the templates of the incorrect classes.这是一个非常重要的发现，它的大意是在说标签平滑可以消除类内样本之间的差异，让学到的同一类别的特征表达更加紧凑。

更具体来说，比如狗这个类别的图片通常会包含不同的姿态，拍照角度，曝光程度，不同背景等等，标签平滑可以很好的消除不同样本特征中这些差异的或者称为noisy的信息，而更多地保留它的高层语义信息，即狗这个类别信息。

基于标签平滑这个特点，作者进一步提出了一个观点，即：If a teacher network is trained with label smoothing, knowledge distillation into a student network is much less effective.

怎么解释这个结论呢？

如上图最后一行所示，右侧某类样本在使用标签平滑之后会聚集在类中心点，因此不同样本到其他两种样本的距离信息会趋向于相同，即标签平滑抹去了同一类别不同样本到其他类别的距离的细微差别，作者认为这种现象对于知识蒸馏来说是有害的，因为蒸馏正是需要teacher能拥有这种捕捉同一类别不同样本之间细微差别的能力才会有效的，因此他们还认为: a teacher with better accuracy is not necessarily the one that distills better. 大概意思就是说teacher性能好对于知识蒸馏来说并不重要。

上述推理听上去是不是非常合情合理，那么ICLR 2021 这篇文章又在纠正一个什么事情呢？下面这张图很好的解释了它究竟在纠正什么：

作者首先重现了NeurIPS 2019那篇文章中的可视化过程，并证明了上述论文中提到的现象是真实存在并可重现的，但是他们还有了一个新的惊人的发现：

如果我们重新来审视上图中两个语义相似的类别（每个子图左侧的两个靠近的类别），当使用标签平滑训练的teacher时，同一类别样本聚集会更加紧密，因为标签平滑会促使每个样本与该类中其他样本的类中心等距，而紧密的聚类会显著促使语义相似但不同类别的样本的表达变得更加可分离，即两个类中心距离 Dc 增大了，这进一步体现为语义相近但是不同类别的样本获得更可区分的特征。

这个现象非常重要，因为这些相似类别（分辨困难的类别）是提高分类模型性能的关键。一般来说，我们没有必要去衡量"狗和鱼有多像或者有多不像"，因为我们有足够的线索和特征来区分它们（即右侧类样本到左侧类别的距离不重要），但对于细粒度的类别之间比如不同种类的狗，如果能得到" toy poodle与miniature poodle不同的程度"的信息对于区分它们是非常关键的。

上述分析作者从原理上解释了为什么标签平滑和知识蒸馏并不冲突，为了更好地阐述两者关系，作者提出了一个能定量地衡量被抹去信息大小的指标，称之为stability metric，它的数学表达如下：

物理意义为：如果标签平滑会抹除类内的信息，类内样本的特征表达的差异也将相应减少，因此，我们可以使用这种差异来监测标签平滑抹除信息的程度，因为此指标也可以评估同一类别中不同样本特征表达波动程度，因此我们也称之为稳定性指标。

文章还有一个重要的观点是：

作者提出如果知识蒸馏不考虑使用原始数据集one-hot标签项，本质上标签平滑和知识蒸馏优化方式是一致的（都是cross-entropy loss），唯一差别是soft的监督信息的来源方式不一样，知识蒸馏使用的是固定权重参数的teacher模型（一种动态的监督信息获取方式），标签平滑使用的是人为制定的平滑规则（固定不变的标签信息）。

总言而之，文章中作者试图去解答下面几个关键问题：

1、teacher网络训练时候使用标签平滑是否会抑制知识蒸馏阶段的有效性？

2、哪些因素将真正决定student在知识蒸馏中的性能？

3、标签平滑在什么情况下会真正失去有效性？

实验部分

作者在图像分类，二值化网络，机器翻译等任务上进行了大量的实验来验证他们的观点，并且完全抛弃了可能会带来误导的小数据集，比如CIFAR。众所周知，CIFAR上的实验结果和现象经常会跟ImageNet上的不一致，从而产生误导。

作者首先可视化了teacher产生的soft的监督信息的分布如下图所示，我们可以看到使用标签平滑训练teacher产生的监督信号整体上是低于不使用标签平滑，这跟标签平滑本身的工作机制是一致的。

作者还展示了在一些次要类别上的信号分布（下图2），这也是为什么soft标签可以提供更多细微的语义信息差别的原因。

接下来是在图像分类任务上的结果，包括ImageNet-1K以及CUB200-2011。我们可以看到，不管teacher有没有使用标签平滑训练，student的性能基本是跟teacher的性能保持正相关的，即teacher性能越高，student也越高。

作者进一步可视化了知识蒸馏过程的loss曲线和测试误差曲线，如下图。作者发现如果teacher是使用标签平滑训练出来的，那么在知识蒸馏过程中产生的loss会比较大，如下图左侧，但是这个更大的loss值并不会影响student的性能，也就是说，标签平滑训练的teacher产生的抑制作用只会发生在训练数据集上，并不会延续到测试数据上，即student的泛化能力还是得到保证的。

这也是一个非常有意思的发现，本质上，这种更大的loss是由于监督信号更加扁平（flattening）造成的，它具有一定的正则作用防止模型过拟合。

那么什么情况会真正导致标签平滑无效或者效果变弱呢？

作者发现在下列两种情况下标签平滑会失效或者没那么有效：

1、数据集呈现长尾分布的时候（long-tailed）;

2、类别数目变多的时候。具体猜测原因可以去阅读原文。

最后回答一个大家或许最关心的问题：

知识蒸馏到底需要怎么样的teacher？

本质上，针对不同的场景和任务，需要的teacher类型也不尽相同，但大体上来说，精度越高的网络，通常可以蒸馏出更强的student（如下图），当然student的性能也受其自身的结构容量限制。

更多细节大家可以去阅读原论文：

论文地址：https://openreview.net/pdf?id=PObuuGVrGaZ

项目主页：http://zhiqiangshen.com/projects/LS_and_KD/index.html

References:

[1] Müller, Rafael, Simon Kornblith, and Geoffrey Hinton. "When does label smoothing help?." In NeurIPS (2019).

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片，关注我呀，每天推送AI技术干货~

整理不易，还望给个在看！

ICLR 审稿人：这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破！相关推荐

推翻Hinton NeurIPS论文结论！审稿人评价：该文章在标签平滑和知识蒸馏的关系上取得了重大突破！...
今天给大家介绍一篇 ICLR 2021 的文章,来自卡耐基梅隆大学,香港科技大学,北京大学和马萨诸塞大学阿默斯特分校(是 MEAL 系列作者的一篇最新力作). 论文标题: Is Label Smoot ...
#每天一篇论文 329/365 EyrISV2:一种用于移动设备上深度神经网络的柔性加速器（一）
Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices 每天一篇论文汇总list ...
【论文翻译_自监督知识蒸馏】Self-supervised Label Augmentation via Input Transformations
通过输入转换实现自监督标签增强 Hankook Lee 1 Sung Ju Hwang 2 3 4 Jinwoo Shin 2 1,2020年. 摘要自我监督学习,通过在给定输入信号的情况下构建人工 ...
【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation
可以参考2021的另一篇解决相似问题的文章(Learning_Student_Networks_in_the_Wild) 摘要 data-free知识蒸馏(DFKD)由于其仅使用人造合成数据压缩模型的 ...
ICLR 2022的10篇论文推荐
4月25日(星期一)至4月29日(星期五),International Conference in Learning Representations(ICLR)将连续第三年在线举行.它是世界机器学习研 ...
标签平滑论文笔记：2020《When Does Label Smoothing Help?》
标签平滑介绍实验1:标签平滑作用实验2:针对ECE与温度缩放进行对比(作用相近) 实验3:标签平滑对知识蒸馏影响(变差) 实验3知识蒸馏:互信息I(X;Y) 链接介绍看成距离: 这里 ...
ICLR 2020被爆半数审稿人无相关领域经验，同行评审制度在垮塌？
作者 | 若名出品 | AI科技大本营(ID:rgznai100) 根据维基百科,同行评议(peer review),是指由一个或多个具有与作品生产者具有相似能力的人员(同行)对作品进行的评估活动. ...
学术圈要炸锅：论文作者和审稿人串通欺骗盲审，ACM Fellow发文痛斥！顶会“想中就中”...
作者 | 琰琰.维克多近日,ACM Fellow.美国里普罗维登斯布朗大学计算机科学卓越教学的罗伊斯家族教授迈克尔·利特曼(Michael L. Littman)在ACM通讯上发文,痛斥部分学者威胁 ...
顶会「扩招」，一地鸡毛：ICLR2020近半数审稿人未发过相关论文
机器之心报道机器之心编辑部昨日,ICLR 2020 评审结果放出,被大量作者吐槽,甚至有开发者统计,本次大会近半数审稿人没有在相关领域发过论文.这把不久之前刚被清华列为人工智能 A 类顶会的 IC ...
论文作者串通抱团、威胁审稿人，ACM Fellow炮轰「同行评审」作弊
来源:机器之心编辑:陈萍.杜伟布朗大学计算机科学系教授.机器学习研究者.2018 年 ACM Fellow 迈克尔 · 利特曼(Michael L. Littman)在 ACM 通讯上发文斥责「部 ...

ICLR 审稿人：这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破！

ICLR 审稿人：这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破！相关推荐

最新文章

热门文章