原作:Vincent Vanhoucke 
铜灵 栗子 郭一璞 翻译 
量子位 出品 | 公众号 QbitAI

没有大量的标注数据怎么办?

谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。

他用一篇博客,细数了半监督学习的进展,以及这类方法会为机器学习领域带来怎样的变化,量子位已为大家翻译如下:

机器学习工程师最熟悉的操作之一是搞到大量数据,但是拿到数据之后,需要不少资源来标注这些数据。

这是个难题,在这一步上左右为难的工程师们,往往都会这样做:

既然这么多数据都没标注,那先想想用这点已标注的监督数据能干点啥;然后去查文献,发现不同的文献都指向了同一个答案——半监督学习。

这就是通常会出错的地方了。

半监督学习历来是每个工程师走过的弯路,他们研究了半监督学习,然后就回到那些已有的标注过的数据上。每个人遇到的问题细节不一样,但大体上说,都是这些问题:

在数据少的时候,半监督学习的确能提高模型表现,但实际操作中你却发现:

这种提高只是从“太烂,没法用”提高到“不太烂,但还是没法用”。

基本上,如果你的数据体系有利于半监督学习,那基本意味着你的分类器训练的很烂,而且完全没法用(手动狗头)。

另外,半监督学习可不是白来的,而且用半监督学习的方法往往不能像监督学习那样给出一个趋向同样的渐进,比如未标记的数据可能会引起偏差。MIT的《半监督学习(Semi-Supervised Learning)》第四章里曾经提过一个早期很流行的半监督学习方法,先为未标记数据创造一个自动编码器,然后根据标记数据进行微调。

几乎没人这么操作,因为通过自动编码器学习的表现完全受限于微调的渐进表现。有趣的是,即使现代的生成模型大大提高,也没有改变这种状况,可能是因为一个好的生成模型并不等于好的分类器吧。

最后,当你现在看到工程师们微调模型的时候,基本都是从有监督数据中学到的表征开始的,嗯,自我监督数据都是为了语言建模。

在任何可行的情况下,从其他预训练模型迁移学习是一个更强大的起点,半监督方法难以超越。

因此,一个典型的机器学习工程师在遇到半监督学习的困境时的处理过程是这样的:

  1. 一切都很糟糕,我们不如试试半监督学习。(毕竟这是一个工程师的工作,比数据标注有趣多了吧)

  2. 看数字增加了,但看起来还是很恐怖。看来我们还是要给数据先贴上标签了。

  3. 虽然说数据越多越好,但你试过抛弃半监督机制会怎样么?

  4. 越简单的效果可能就是最好的,我们可以省略掉上述的2和3步骤,节省大量时间,也不用给自己找这么多麻烦。

如果你是幸运儿,你的困难可能有这样一个表征:

在这种情况下,有一个苛刻的数据规范,可怕的不是半监督学习的方法,甚至半监督学习还提高了数据效率。

根据我的经验,很少能达到这个最佳状态。考虑到复杂性的额外成本,标签数据的数量通常不会差开几个数量级,所以训练效果差距也不大。

这样来看,这几乎不值得这么麻烦,除非你想搞的是一个学术基准上的竞争。

等等,这篇文章的标题不是“安静的半监督革命”吗?

一个有趣的趋势是,半监督学习的前景可能正在改变,比如这样:

首先,如果这些曲线和人们的心理模型相符,用半监督学习训练的效果就是数据越多,效果越好。即使在监督学习效果良好的情况下,半监督学习与监督学习之间的差距也应该是确定的。

并且,这种情况发生的频次也会越来越多,并且没有任何代价,因此也不会那么复杂。“神奇地带”(magic zone)起点较低,它不受数据规范的限制同样重要。

有哪些新东西呢?

首先,有些机智的方法,可以让AI自己给数据加标签,然后把损失函数用相应的方式来表达:把自动加标签的噪音和可能的偏差都考虑进去。

最近有两篇研究,都是这方面的例子:

一是MixMatch: A Holistic Approach to Semi-Supervised Learning

Arxiv码:1905.02249

二是Unsupervised Data Augmentatio

Arxiv码:1904.12848

其次,有一个根本上的变化,是人类已经意识到半监督学习会在机器学习隐私中,扮演一个很重要的角色了。

比如,PATE (Arxiv码:1610.05755) 方法里面定假设有监督的数据是私有的。那在教师-学生网络里,学生型就有强大的隐私保障,可以只用未标记的数据 (公开数据) 进行训练。

知识蒸馏 (Distilling Knowledge) 中,有些对隐私敏感的方法,成为了联合学习 (Federated Learning) 的一个关键推动力:

因为这样的方法,可以保障高效的分布式学习 (Distributed Learning) ,模型不需要访问用户数据,在数学上保障了隐私。

现在,可以在实际应用的设定下,重新考量半监督学习的价值,真是激动人心。

看到那些长期存在的假设,如今却受到挑战,这是非常好的现象,说明这个领域正在发生惊人的进步。

这趋势是近期才出现的,我们还要看看,这样的方法能不能经受时间的考验;

不过,机器学习工具的架构,很可能发生根本上的改变,这件事还是很诱人的,值得期待。

传送门

原文:The Quiet Semi-Supervised Revolution
https://towardsdatascience.com/the-quiet-semi-supervised-revolution-edec1e9ad8c

MIT的《半监督学习(Semi-Supervised Learning)》
http://www.acad.bg/ebook/ml/MITPress-%20SemiSupervised%20Learning.pdf

作者系网易新闻·网易号“各有态度”签约作者

小程序|get更多AI学习干货

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个...相关推荐

  1. Google谷歌首席科学家:神经网络的奇妙特性与应用

    文/董飞  2016年3月7日,谷歌首席科学家,MapReduce.BigTable等系统的创造者,Jeff Dean受邀韩国大学,演讲主题<大规模深度学习>,这里部分来自highscal ...

  2. Google的深度学习强在哪?谷歌首席科学家说了这些奇妙特性

     Google的深度学习强在哪?谷歌首席科学家说了这些奇妙特性 赛先生 2016-03-26 07:43:47 人工智能 阅读(360) 评论(0) 2016年3月7日,谷歌首席科学家,MapRe ...

  3. 谷歌首席科学家:搞研究的痛苦,搞工程的人不懂

    https://blog.csdn.net/cf2SudS8x8F0v/article/details/84680206 来源:量子位 作者:Vincent Vanhoucke 谷歌首席科学家.谷歌大 ...

  4. 从洗衣妹到谷歌首席科学家,李飞飞如何华丽逆袭?

    1024深度学习 一个让你爱上AI的公众号 关注 导语:12月13日,在2017年谷歌中国开发者大会上,谷歌云首席科学家李飞飞在演讲中宣布成立谷歌AI中国中心,中心落地北京,该团队将由李飞飞.李佳率领 ...

  5. 清华叉院弋力:从谷歌研究科学家到清华任教,我想看远一点

    原来他们是这样走过来的! [AI红人荟]--这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目.从膜拜"红人"到成为"红人",TechBea ...

  6. 监督学习和无监督学习_让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法...

      新智元报道   来源:GoogleAI 编辑:元子 [新智元导读]Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果.该方法超越了所有现有的半监督学习方法,并实现了仅使用 ...

  7. Google首席科学家谈Google是怎么做深度学习的

    Google首席科学家谈Google是怎么做深度学习的 dongfeiwww  2016-03-26 10:17 收藏64 评论1 2016年3月7日,谷歌首席科学家,MapReduce.BigTab ...

  8. 半监督学习技术在金融文本分类上的实践

    垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题,而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案.本文以 Google 在 2019 年提出的 UDA 框架为研究主体,详细探 ...

  9. 【科普】半监督学习的概述与思考,及其在联邦学习场景下的应用

    关注公众号,发现CV技术之美 在现实世界中,数据往往存在各种各样的问题,例如:图片分类模型对标注数据的依赖性很强.标注图片数据难以获取.大量未标注数据存在.针对某个场景的数据量过小-等等问题. 在联邦 ...

最新文章

  1. 企业级IT运维平台的发展趋势与规划要点
  2. jackson java反序列化_java – Jackson JSON强制反序列化为对象
  3. JDBC批量操作性能提升
  4. 学好数学建模,走哪买菜都不怕!
  5. SpringBoot的编码问题
  6. NSOperation队列实实现多线程
  7. 光伏机器人最前线_送水、送药、送餐!哈市这些地方率先用上AI配送机器人(视频)...
  8. 查SCI索引号和EI索引号的方法
  9. 【python】(四)python常用数据结构
  10. Pytorch的自定义拓展:torch.nn.Module和torch.autograd.Function
  11. Java 获取opus 音频文件时长
  12. 【原创】软件架构师考试(下午I试题)真题考点分析
  13. 认识webpack、理解webpack与grunt、glup的核心区别01
  14. 初始化内存程序转化为JLINK脚本gdbinit
  15. python金融数据导入的方法
  16. 数字加上'0'变成字符类型
  17. C++ STL::list常用操作及底层实现(中1)——实现list常用操作之插入(insert、push_front、push_back、splice)
  18. GeoServer如何发布PostgreSQL里的数据?
  19. 更新VantUI 组件
  20. 状压dp板子 德玛西亚万岁

热门文章

  1. Python 分析 35 年的考研英语真题词汇,解读孤独的考研大军!
  2. 腾讯被迫下架《怪物猎人世界》;传谷歌将支持 Win10 ;苹果或将复活 MagSafe | 极客头条...
  3. 弃用 Oracle!
  4. 腾讯竟然是这样存储你的数据的!!!
  5. 苹果iOS 11.3.1正式发布,修复iPhone 8触屏bug
  6. 李彦宏说吃着火锅唱着歌,奔驰你却要我命!
  7. 数据结构与算法顺序表数组版
  8. java软尾山地车评测_[渣图] 骑很慢的穷屌丝软尾历程
  9. matlab转dsp软件,matlab/simulink程序代写 DSP程序开发
  10. java 中文 转义_java下载url路径包含中文需要转义的操作