点击下面卡片关注我呀,每天给你送来AI技术干货!


  报道  

来源:Google AI blog

编辑:LRS

来自:新智元

【导读】谷歌的搜索引擎需要很多标注数据吗?NO!半监督学习才是他的核心训练方式!卡内基梅隆华人博士提出的Noisy Student在ImageNet夺冠后又在谷歌搜索中大展身手,本文将带你揭秘知识蒸馏的正确打开方式。

监督学习是机器学习界最常用的一种方法,只需要根据已有的数据点和标注数据即可用来训练预测模型。

在工业界,由于监督学习的实现比较简单,所以通常是首选方案。

然而,监督式学习需要精确标记的数据,收集这些数据通常是劳动密集型的任务。

此外,随着更强大的计算机体系结构设计、算法和硬件(gpu/tpu)可以提高模型的训练效率,训练大型模型来实现更高的质量的模型也变得更容易,这反过来又需要更多标记数据来继续训练更大的模型。

为了减少对有标签数据的需求,一个重要的机器学习领域:半监督学习被提出来,它能够结合少量的有标签数据和大量的无标签的数据来预测,最近许多模型如UDA,SimCLR都已经证明了半监督学习的有效性。

受到之前模型的启发,Google 提出了一个全新的半监督蒸馏模型SSD(semi-supervised distillation),是2019年提出的Noisy Student模型的简化版本,这个模型在自然语言处理领域取得了巨大的成功。

目前SSD模型已经应用在了Google搜索中的上下文语言理解中,并且性能强劲。

这是半监督学习在大规模应用的首个成功案例,论文中还说明了这个模型对生产规模较大系统的潜在影响。

Noisy Student提出于2019年,是一个有效的半监督学习方法,即使在有标签数据很多的情况下,依然能够取得稳定的效果。

在Noisy Student之前,有大量关于半监督学习的研究。尽管进行了如此广泛的研究,但这样的半监督模型系统通常只能在低数据(low-data)环境下运行良好,例如,CIFAR、 SVHN 和10% 的 ImageNet。

Noisy Student的第一作者是谢其哲,是卡内基梅隆大学的博士生,本科毕业于上海交通大学,曾在Google Brain, 微软亚洲研究院实习。

随着标记数据的增加时,这些模型便无法与完全监督式学习系统竞争,这是影响半监督方法应用于生产中的重要应用,如搜索引擎和自动驾驶汽车领域急需一个可靠的半监督系统模型。

这一缺陷促使Google 开发了Noisy Student,这是一种在高数据量情况下依然能够运行良好的半监督学习方法,同时在 ImageNet 上使用130M 额外的未标记图像实现了最高的准确度。

它在ImageNet上达到88.4%的top-1准确率,相比ImageNet上需要35亿弱标注Instagram图像的sota模型来说,Noisy Student要好2.0%。

在鲁邦性测试集上,它将ImageNet-A-top-1的准确率从61.0%提高到83.7%,将ImageNet-C的平均错误率从45.7降低到28.3,并将ImageNet-P的平均翻转率从27.8降低到12.2。

Noisy Student的训练方式为使用相等或更大的学生模型,并在学习过程中向学生添加噪声,这扩展了自我训练和蒸馏的概念。

在ImageNet上,首先训练了一个有效的标记图像的网络模型,并用它作为teacher为300M的无标签图像生成伪标记。然后训练一个更大的EfficientNet作为学生模型上的组合标记和伪标记图像。

通过让student重新成为teacher来重复这个过程。在student的学习过程中,通过RandAugment向student注入dropout、随机深度、数据增强等噪声,使student的泛化能力强于teacher。

Noisy Student的训练有四个简单的步骤:

1、训练一个分类器(teacher)处理有标签的数据

2、teacher在一个更大的未标记数据集上推导出伪标签

3、训练一个更大的分类器对组合标记和伪标记数据,同时也增加噪声(成为Noisy Student)

4、(可选)回到第二步,student可以被当作一个新teacher重新标注数据并训练

因为Noisy Student模型可以生成伪标签,所以可以将它看作是一种自我训练的形式,通过重新训练自己以提高性能。

Noisy Student训练后的模型有一个令人惊讶的特性是,训练好的模型在鲁棒性(robustness)测试集上运行得非常好,这些测试集没有对它进行优化,包括 ImageNet-A、 ImageNet-C 和 ImageNet-P。在训练过程中加入的噪声不仅有助于学习,而且使模型更加健壮。

Noisy Student与知识蒸馏(knowledge distillation)类似,知识蒸馏一个将知识从大型模型(即teacher)转移到小型模型(即student)的过程。

蒸馏的目标是建立一个小模型提高预测速度,能够在生产环境中,以不牺牲太多准确率的情况下提升效率。

最简单的蒸馏装置包括一个teacher和使用相同的数据,但在实际使用中,可以使用多个teacher或为student预留一个单独的数据集。

与Noisy Student不同的是,知识蒸馏不会在训练过程中增加噪声(例如,数据增强或模型正则化) ,通常只包含一个较小的sutdent模型。相比之下,可以把Noisy Student看作是知识蒸馏的扩展过程。

训练半监督蒸馏生产模型的另一个策略是应用Noisy Student训练两次: 首先得到一个较大的teacher模型 t’,然后得到一个较小的student s。这种方法产生的模型比单独使用监督式学习或Noisy Student训练都要好。

具体来说,当应用于一系列 EfficientNet 模型的视觉领域时,从有5.3 m 参数的 EfficientNet-b0到有66M 参数的 EfficientNet-b7,这种策略对于每个给定的模型大小都能获得更好的性能。

Noisy Student的训练需要数据增强,例如 RandAugment (用于视觉)或 SpecAugment (用于语音) ,以便更好地工作。

但在某些确定的应用中,例如自然语言处理,这种类型的输入噪声是不容易获得的。对于这些的应用场景,Noisy Student的训练可以简化为无噪音。

在这种情况下,上述两阶段过程合并为一个更简单的方法,则称之为半监督蒸馏(SSD)。首先,teacher模型在未标记的数据集上推导出伪标签,然后训练一个新的teacher模型(t’) ,其大小与原来的teacher模型相同或更大。这一步本质上是自我训练,然后通过知识提炼,生成一个用于生产的较小的student模型。

半监督学习在视觉领域取得成功之后,很自然地就把这种技术引入到语言理解领域的应用中,例如谷歌搜索,将成为下一步具有更广泛用户影响力的合乎逻辑的举措。

在这种情况下,使用SSD在搜索引擎中的关键排序组件上。模型基于BERT ,以便更好地理解语言。

这项任务被证明非常适合于 SSD,事实上,将 SSD 应用到排名组件中,以更好地理解候选搜索结果与查询的相关性,也是在2020年搜索引擎的顶级启动中取得了最高的性能收益之一。

下面是一个查询示例,其中改进的模型展示了SSD能帮助模型金星更好的语言理解。

SSD 将继续改变机器学习在工业中的应用,从主流的监督式学习学习到半监督学习学习。

参考资料:

https://ai.googleblog.com/2021/07/from-vision-to-language-semi-supervised.html

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

ImageNet夺冠后转战NLP!卡内基梅隆华人博士提出谷歌搜索引擎核心技术相关推荐

  1. 卡内基·梅隆大学新提出AdaScale:自适应缩放实现视频对象实时检测算法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 对机器人和自动驾驶汽车等很多应用而言,视频目标检测都是很重要的.但在使用 CNN 执行这一任务时,速度与准确度往往不 ...

  2. 阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

    最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间 卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理 在刚刚结束的"AlphaGo"与韩国围棋高手李世石之间 ...

  3. 超神!卡内基博士ImageNet夺冠后转战NLP!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 歌的 ...

  4. 卡内基梅隆大学(CMU)的Eric Xing(邢波)教授为什么能读完一般学校的分子生物学PhD后到伯克利去CS PhD?

    Eric Xing当年为什么能在读了一个50名左右的学校Rutgers的分子生物学phd之后,去加州大学伯克利分校UCB读计算机科学博士?感觉像这种转行的一般都是第一个phd已经是名校名导才能转得好, ...

  5. 讨论计算机在学术领域的应用,BGPLUS实地科研 | 卡内基梅隆大学 | 计算机、人工智能:在科学实验领域的应用...

    原标题:BGPLUS实地科研 | 卡内基梅隆大学 | 计算机.人工智能:在科学实验领域的应用 课题名称 = 人工智能在科学实验领域的应用 = 项目简介 2021暑期实地项目汇集了国内外名校的资深教授. ...

  6. 学计算机是什么猿,卡内基梅隆大学生物计算机专业 让你快快乐乐的当一个程序猿...

    现在最热门的专业是计算机专业以及金融专业,有句话是这样说的,站在风口上猪都会飞,而现在计算机专业已经站在了风口上,很多学习计算机专业的学生赚了一波红利.现在互联网技术越来越先进,我们已经迎来了5G时代 ...

  7. 卡内基·梅隆大学计算机科学系主任周以真的父母是中国人吗,清华大学计算机科学与技术系...

    卡内基梅隆大学计算机系主任周以真教授访问我系并考察联合硕士项目 9月14日,美国卡内基-梅隆大学(CMU)计算机系主任周以真教授(Jeannette Wing)访问我系,就落实清华-CMU联合硕士学位 ...

  8. 知乎:在卡内基梅隆大学 (Carnegie Mellon University) 就读是怎样一番体验?

    转自:http://www.zhihu.com/question/24295398 知乎 Yu Zhang 知乎搜索 首页 话题 发现 消息 调查类问题名校就读体验修改 在卡内基梅隆大学 (Carne ...

  9. 卡内基梅隆大学梁俊卫:视频中行人的多种未来轨迹预测

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  10. 斯坦福和伯克利计算机专业,斯坦福、加州伯克利、卡内基梅隆以及MIT计算机专业录取...

    今天分享一位同学介绍斯坦福.加州伯克利.卡内基梅隆以及MIT计算机专业录取的内部数据和信息,非常有用的数据,可以给今年申请的同学们参考,非常有帮助.最后附有这四所名校给申请人的申请建议. 前几个星期, ...

最新文章

  1. poj 1637(混合图求欧拉回路)
  2. Linux上日志的切割
  3. 清理Mac上的软件容易吗?
  4. 使用SAP WebIDE往Github上推送代码修改时遇到错误消息 Commit request failed Commit failed. Ref must be HEAD and is HEAD
  5. Design Compiler指南——设计综合过程
  6. C# 中居然也有切片语法糖,太厉害了
  7. [原创软件]手机截屏及格式转换工具
  8. 空间参考不存在_空间实景三维信息如何服务于BIM应用
  9. WarDrive:使用Backtrack 4中的Kismet进行嗅探并使用GE绘制地图的简明攻略
  10. 思科实验3.数据链路层:生成树配置
  11. 如何利用Tempo BI大数据分析工具快速完成数据同环比分析?
  12. php 计算壬子,壬子日是哪一天,壬子日怎么算
  13. PDF如何转换成EPUB格式
  14. c# 画刻度尺(支持缩放)
  15. 兼容chrome、firebox、IE阻止冒泡问题
  16. NAS还是HFS?教你1分钟免费搭建私有云
  17. 集群中zeus平台的变更
  18. python是开源的跨平台编程语言_Python是一种跨平台、开源、免费的动态编程语言。...
  19. 机器人受人类虐待后奋起反击?这段视频刷爆网络
  20. shell查mysql_通过shell检查mysql主机和数据库,生成html报表的脚本

热门文章

  1. 课时46:魔法方法:描述符(property的原理)
  2. pycharm操作指北
  3. 新人开车——访问控制
  4. 网络编程聊天室----服务器端
  5. (转)iOS 屏幕适配
  6. 数据库 基础学习7— 数据库编程
  7. 手把手教你配置苹果APNS推送服务|钿畑的博客 | 钿畑的博客
  8. 【react】---函数化编程的理解,柯里化函数及返柯里化函数的理解...
  9. Usaco2012-2013 金组 题解 (暂缺Hill walk以及Figue eight)
  10. 0829 数据库的增删改查