点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

歌的搜索引擎需要很多标注数据吗?NO!半监督学习才是他的核心训练方式!卡内基梅隆华人博士提出的Noisy Student在ImageNet夺冠后又在谷歌搜索中大展身手,本文将带你揭秘知识蒸馏的正确打开方式。

监督学习是机器学习界最常用的一种方法,只需要根据已有的数据点和标注数据即可用来训练预测模型。

在工业界,由于监督学习的实现比较简单,所以通常是首选方案。

然而,监督式学习需要精确标记的数据,收集这些数据通常是劳动密集型的任务。

此外,随着更强大的计算机体系结构设计、算法和硬件(gpu/tpu)可以提高模型的训练效率,训练大型模型来实现更高的质量的模型也变得更容易,这反过来又需要更多标记数据来继续训练更大的模型。

为了减少对有标签数据的需求,一个重要的机器学习领域:半监督学习被提出来,它能够结合少量的有标签数据和大量的无标签的数据来预测,最近许多模型如UDA,SimCLR都已经证明了半监督学习的有效性。

受到之前模型的启发,Google 提出了一个全新的半监督蒸馏模型SSD(semi-supervised distillation),是2019年提出的Noisy Student模型的简化版本,这个模型在自然语言处理领域取得了巨大的成功。

目前SSD模型已经应用在了Google搜索中的上下文语言理解中,并且性能强劲。

这是半监督学习在大规模应用的首个成功案例,论文中还说明了这个模型对生产规模较大系统的潜在影响。

Noisy Student提出于2019年,是一个有效的半监督学习方法,即使在有标签数据很多的情况下,依然能够取得稳定的效果。

在Noisy Student之前,有大量关于半监督学习的研究。尽管进行了如此广泛的研究,但这样的半监督模型系统通常只能在低数据(low-data)环境下运行良好,例如,CIFAR、 SVHN 和10% 的 ImageNet。

Noisy Student的第一作者是谢其哲,是卡内基梅隆大学的博士生,本科毕业于上海交通大学,曾在Google Brain, 微软亚洲研究院实习。

随着标记数据的增加时,这些模型便无法与完全监督式学习系统竞争,这是影响半监督方法应用于生产中的重要应用,如搜索引擎和自动驾驶汽车领域急需一个可靠的半监督系统模型。

这一缺陷促使Google 开发了Noisy Student,这是一种在高数据量情况下依然能够运行良好的半监督学习方法,同时在 ImageNet 上使用130M 额外的未标记图像实现了最高的准确度。

它在ImageNet上达到88.4%的top-1准确率,相比ImageNet上需要35亿弱标注Instagram图像的sota模型来说,Noisy Student要好2.0%。

在鲁邦性测试集上,它将ImageNet-A-top-1的准确率从61.0%提高到83.7%,将ImageNet-C的平均错误率从45.7降低到28.3,并将ImageNet-P的平均翻转率从27.8降低到12.2。

Noisy Student的训练方式为使用相等或更大的学生模型,并在学习过程中向学生添加噪声,这扩展了自我训练和蒸馏的概念。

在ImageNet上,首先训练了一个有效的标记图像的网络模型,并用它作为teacher为300M的无标签图像生成伪标记。然后训练一个更大的EfficientNet作为学生模型上的组合标记和伪标记图像。

通过让student重新成为teacher来重复这个过程。在student的学习过程中,通过RandAugment向student注入dropout、随机深度、数据增强等噪声,使student的泛化能力强于teacher。

Noisy Student的训练有四个简单的步骤:

1、训练一个分类器(teacher)处理有标签的数据

2、teacher在一个更大的未标记数据集上推导出伪标签

3、训练一个更大的分类器对组合标记和伪标记数据,同时也增加噪声(成为Noisy Student)

4、(可选)回到第二步,student可以被当作一个新teacher重新标注数据并训练

因为Noisy Student模型可以生成伪标签,所以可以将它看作是一种自我训练的形式,通过重新训练自己以提高性能。

Noisy Student训练后的模型有一个令人惊讶的特性是,训练好的模型在鲁棒性(robustness)测试集上运行得非常好,这些测试集没有对它进行优化,包括 ImageNet-A、 ImageNet-C 和 ImageNet-P。在训练过程中加入的噪声不仅有助于学习,而且使模型更加健壮。

Noisy Student与知识蒸馏(knowledge distillation)类似,知识蒸馏一个将知识从大型模型(即teacher)转移到小型模型(即student)的过程。

蒸馏的目标是建立一个小模型提高预测速度,能够在生产环境中,以不牺牲太多准确率的情况下提升效率。

最简单的蒸馏装置包括一个teacher和使用相同的数据,但在实际使用中,可以使用多个teacher或为student预留一个单独的数据集。

与Noisy Student不同的是,知识蒸馏不会在训练过程中增加噪声(例如,数据增强或模型正则化) ,通常只包含一个较小的sutdent模型。相比之下,可以把Noisy Student看作是知识蒸馏的扩展过程。

训练半监督蒸馏生产模型的另一个策略是应用Noisy Student训练两次: 首先得到一个较大的teacher模型 t’,然后得到一个较小的student s。这种方法产生的模型比单独使用监督式学习或Noisy Student训练都要好。

具体来说,当应用于一系列 EfficientNet 模型的视觉领域时,从有5.3 m 参数的 EfficientNet-b0到有66M 参数的 EfficientNet-b7,这种策略对于每个给定的模型大小都能获得更好的性能。

Noisy Student的训练需要数据增强,例如 RandAugment (用于视觉)或 SpecAugment (用于语音) ,以便更好地工作。

但在某些确定的应用中,例如自然语言处理,这种类型的输入噪声是不容易获得的。对于这些的应用场景,Noisy Student的训练可以简化为无噪音。

在这种情况下,上述两阶段过程合并为一个更简单的方法,则称之为半监督蒸馏(SSD)。首先,teacher模型在未标记的数据集上推导出伪标签,然后训练一个新的teacher模型(t’) ,其大小与原来的teacher模型相同或更大。这一步本质上是自我训练,然后通过知识提炼,生成一个用于生产的较小的student模型。

半监督学习在视觉领域取得成功之后,很自然地就把这种技术引入到语言理解领域的应用中,例如谷歌搜索,将成为下一步具有更广泛用户影响力的合乎逻辑的举措。

在这种情况下,使用SSD在搜索引擎中的关键排序组件上。模型基于BERT ,以便更好地理解语言。

这项任务被证明非常适合于 SSD,事实上,将 SSD 应用到排名组件中,以更好地理解候选搜索结果与查询的相关性,也是在2020年搜索引擎的顶级启动中取得了最高的性能收益之一。

下面是一个查询示例,其中改进的模型展示了SSD能帮助模型金星更好的语言理解。

SSD 将继续改变机器学习在工业中的应用,从主流的监督式学习学习到半监督学习学习。

参考资料:

https://ai.googleblog.com/2021/07/from-vision-to-language-semi-supervised.html

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

超神!卡内基博士ImageNet夺冠后转战NLP!相关推荐

  1. 卡内基梅隆大学如何培养计算机博士

    卡内基·梅隆大学(Carnegie Mellon University)于1900 年成立于宾夕法尼亚州匹兹堡市,经过一百多年发展已经成为世界顶尖大学之一,其计算机科学学院多次被<美国新闻与世界 ...

  2. 阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

    最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间 卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理 在刚刚结束的"AlphaGo"与韩国围棋高手李世石之间 ...

  3. Randy Pausch_卡内基梅隆大学演讲--真正实现你的梦想

    Randy Pausch_卡内基梅隆大学演讲--真正实现你的梦想 2007.9.18     星期二 Randy Pausch's Last Lecture: Really Achieving You ...

  4. 卡内基·梅隆大学新提出AdaScale:自适应缩放实现视频对象实时检测算法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 对机器人和自动驾驶汽车等很多应用而言,视频目标检测都是很重要的.但在使用 CNN 执行这一任务时,速度与准确度往往不 ...

  5. 卡内基梅隆大学(CMU)的Eric Xing(邢波)教授为什么能读完一般学校的分子生物学PhD后到伯克利去CS PhD?

    Eric Xing当年为什么能在读了一个50名左右的学校Rutgers的分子生物学phd之后,去加州大学伯克利分校UCB读计算机科学博士?感觉像这种转行的一般都是第一个phd已经是名校名导才能转得好, ...

  6. 卡内基梅隆大学梁俊卫:视频中行人的多种未来轨迹预测

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  7. 卡耐基梅隆大学计算机工程录取率,卡内基梅隆大学2020新生数据出炉!计算机学院录取率堪比藤校...

    提起CMU,想必各位小伙伴肯定都不陌生,坐落在美国宾夕法尼亚州匹兹堡的它,可是美国25所新常春藤盟校之一.最近卡内基梅隆大学2020年秋季录取数据出炉!跟着学霸君来看看到底什么样的人才会被它录取吧! ...

  8. 卡内基梅隆大学和斯坦福计算机,卡内基梅隆大学并列全美榜首的专业--计算机专业...

    不同于别的计算机系的是,卡内基梅隆大学计算机学院异常庞大,专业设置异常众多,要了解清楚确实不易.根据多年的申请经验对卡内基梅隆大学计算机学院进行深层解答. 专业排名 卡内基梅隆大学在美国排名23名,但 ...

  9. 精度优秀,速度214.7 fps !卡内基梅隆大学开源强大的3D多目标跟踪系统

    点击我爱计算机视觉标星,更快获取CVML新技术 3D 多目标跟踪在自动驾驶和机器人领域具有重要应用,其意为跟踪检测到的物体包围框位于 3D 空间(点云)而非 2D 平面. 昨日,卡内基梅隆大学开源一个 ...

最新文章

  1. C++ 第五课:C/C++ 数据类型
  2. 成都计算机职业学院排名,成都计算机职高排名
  3. Docker架构、镜像及容器的安装和基本操作
  4. Linux下SSH 客户端不用输入密码配置步骤
  5. LCD也可以模拟?这款模拟器别错过了!
  6. Java 基础 之 标识符
  7. 在 dotnet runtime 的容器中安装 dotnet global tool
  8. javascript之调度:setTimeout 和 setInterval
  9. 计算机应用技术重点学科,福州大学省级重点学科介绍:计算机应用技术(081203)...
  10. Dropbox 的崛起之路,创始人曾拒绝乔布斯天价收购
  11. Unity与Android通信
  12. python中文件打开的合法模式组合_python中各种文件打开模式
  13. fastdfs 集群 java,第四套:FastDFS 分布式文件系统集群与应用(视频)
  14. PS证件照更改背景颜色
  15. 训练GAN的16个trick
  16. HttpClient超时时间 timeout
  17. 谷歌地图时代结束,怎么看高清卫星影像地图?
  18. 「镁客·请讲」小不点刘筱璇:新制造时代,用3D打印让世界个性起来
  19. ios底部栏设计规范_设计干货:底部导航栏规范设计总结
  20. python爬虫11 | 这次,将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们

热门文章

  1. bool类型_C语言编程第11讲——C语言的布尔类型
  2. matlab中函数绝对值图像,ex的图像(绝对值的函数图像口诀)
  3. sql 逐行更新_sql优化面试题
  4. python画旋转圆_Python使用PyQt界面库绘制不停旋转的圆控件
  5. 【script】python 中文汉字与url的转换
  6. python编辑编程器_用Python制作编辑器
  7. 计算机组成原理实验串行口,计算机组成原理实验2.ppt
  8. centos mysql无法启动 sock_【零基础学云计算】MYSQL的主从复制、读写分离
  9. MySQL安装叫重启,如何重启MySQL,正确启动MySQL
  10. react native ios 上架