鱼羊 十三 发自 凹非寺
量子位 报道 | 公众号 QbitA

仅仅根据元学习(Meta-Learning)的基线,就彻底打败了所有“花里胡哨”的改进方法。

就是这些看似简单,又容易被忽略的方法,却有着强大的魔力。

而它们的发现者,是一位叫做陈胤伯的在读本科生,来自清华姚班。

他提出了一种元基线 (Meta-Baseline)方法,通过在所有基类(base classes)上预先训练分类器,并在基于最近质心的少样本(few-shot)分类算法上进行元学习,实验结果大大优于目前最先进的方法。

那么问题来了:为什么这么简单的方法却如此有效?

作者发现,在元学习阶段,一个模型在基类未见任务中的获得更强泛化能力的同时,在新类任务中的泛化表现可能反而下降。

此外,对于元基线来说,存在2个重要的因素:一个是预训练,另一个是从预训练分类器中继承一个好的少样本分类度量

这就有可能让模型更好地利用,具有更强可传递性的预训练表示。

陈胤伯的研究可以说是从问题的本质出发,直击“七寸”,正如论文所说:

这项工作为该领域建立了一个新基准,并给进一步理解元学习框架(用于少样本学习)提供了思路。

知名互联网博主、北邮陈老师也分享了这项研究,得到了较高的关注。

那么,具体又是怎么做到的呢?

什么是元基线方法?

少样本学习的目的,是让分类模型能迁移到仅带有少量标记样本的新类别中。而元学习是目前少样本学习研究中比较常见的方法。

陈胤伯的元基线方法所做的,是用最简单的形式利用预训练分类器和元学习的优势。

元基线方法包括两个训练阶段。

阶段一:预训练阶段

预训练阶段,主要是分类器基线(Classifier-Baseline)的训练。

具体方法是,在具有标准交叉熵损失的所有基类上训练分类器,然后删除其最后一个 FC 层,得到编码器 fθ。编码器能将输入映射到特征空间。

阶段二:元学习(meta-learning)阶段

这一阶段,主要基于分类器基线评估算法,进行模型优化。

给定预训练特征编码器fθ,在基类训练数据中采样 N-way K-shot 任务。

为了计算每个任务的损失,在支持集(support-set)中计算N种类型的质心,公式如下。

然后用它们来计算查询集(query-set)中每个样本的预测概率分布,公式如下。

损失是根据 p 和查询集样本的标签计算的交叉熵损失。

简单的基线改良,大幅提升性能

那么,元基线方法效果如何?

论文作者在 miniImageNet 和 tieredImageNet 两个数据集上进行了实验。

miniImageNet

tieredImageNet

可以看到,尽管元基线方法设计简单,但在两个数据集上,都明显超过了前辈们,提高了至少 2 个百分点

这样的改进效果并不仅仅局限于 N-way K-shot 任务。在单类 K-shot 任务中,实验结果同样证明了元学习阶段的有效性。

作者还在大规模数据集 ImageNet-800 上进行了进一步评估。

在这一规模的数据集上,1-shot 任务中,比起分类器基线,元基线有大幅提升。但在 5-shot 任务中,性能没有明显的改善。

一位清华姚班本科生

最后,姚班代有才人才,一起认识一下今日主角吧。

陈胤伯,清华姚班本科生,高中就读于湖南省长沙市长郡中学,高中期间除了日常学习外,大部分时间都投入到了算法竞赛之中。

陈胤伯回忆说,非常幸运身边能有许多提供指导、探讨问题的朋友,可以共同学习、共同进步。

加之对算法竞赛浓厚的兴趣和不懈的努力,陈胤伯在NOI 2014上摘得金牌,入选国家集训队,并保送清华大学

目前,陈胤伯就读于清华姚班(清华学堂计算机科学实验班),将于今年本科毕业。

不过下一阶段目标也已经明确。

接下来,他将继续在计算机领域中深造,前往UCSD(加州大学圣迭戈分校)攻读博士学位。

我不管这就是大佬本佬

最后,量子位也联系到陈胤伯本人,就个人和学术的一些话题进行了交流。他简单、直率,回答孜孜干脆,我们把问答实录同步如下。

One more thing:问答陈胤伯

量子位:为什么要选择研究元学习这一领域?

陈胤伯:感觉少样本学习这个问题比较有价值,元学习是少样本学习目前比较常见的方法。这篇文章并不是研究广泛意义上的元学习,主要还是对少样本学习的探讨。

量子位:其他研究者目前主要关注改进的点是哪个/些方面

陈胤伯:关注的点挺广的,我了解到的有提出新方法的 (比如meta-learning, self-supervised learning),也有尝试探索新的更符合实际的少样本学习setting的。

量子位:是怎么发现大部分人忽略基线方法缺陷的?

陈胤伯:做实验发现的。

量子位:目前很多科研人员选择在已有的方法上进行改良,然后发paper、毕业,对于这样的一个态度或者趋势,有何看法?为什么没有这么做?

陈胤伯:我觉得在已有方法上改良、发paper、毕业这三件事都挺好的(?),很多有价值的发现都是在改良中慢慢产生的。这篇paper主要侧重对现象的讨论,不过也有在经典方法上改良。

量子位:本科阶段就开始科研相关,你是怎么看论文、筛选论文的?如何处理与其他通识、基础课程学分的关系?

陈胤伯:看论文:google搜,沿着相关工作找。如何处理:好好学习。

量子位:现在在清华学习过程中,有什么不同?或者有没有一些经验分享?

陈胤伯:不同就是不搞竞赛了。没啥值得分享的经验。

量子位:姚班的培养机制,对你来说受益最大的是哪一方面?

陈胤伯:氛围很好,在与老师、同学的交流中能收获很多。

量子位:从这次科研过程中,有何心得体会?

陈胤伯:没啥特别的……

量子位:平时有怎么样的兴趣爱好?

陈胤伯:有一些大家都有的爱好。

量子位:看研究是和伯克利的老师合作,本科毕业之后,准备去伯克利读博吗?还是有其他打算?

陈胤伯:去UCSD读博。

嗯,大佬的回答,果然干练,且精辟。

最后,希望陈胤伯在接下来的学习道路上一帆风顺,不断带来新进展、新研究和新发现。

传送门

论文地址:
https://arxiv.org/abs/2003.04390

只要29元!少儿逻辑思维编程课热抢中

培养孩子的逻辑思维能力,编程学习可能是最好的选择!在炫酷有趣的挑战中,帮助孩子养成高效的思维习惯。

不需高昂学费,现在报名只要29元!扫描下面的二维码,查看详情,即刻报名吧:

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

姚班代有才人出:清华本科生用“最简单的形式”,大幅提高少样本学习性能...相关推荐

  1. 彻底炸锅了!华为新天才少年出炉:武大94年博士生入选!任正非最新发声:江山代有才人出,不拘一格降人才!...

    来源 | 中国基金报 作者 | 中国基金报记者 吴羽 "江山代有才人出!"武汉大学也有博士入选华为"天才少年"了! 据了解,"天才少年"计划 ...

  2. 华为天才少年:武大94年博士!江山代有才人出,不拘一格降人才!

    来源 | 中国基金报 作者 | 中国基金报记者 吴羽 "江山代有才人出!"武汉大学也有博士入选华为"天才少年"了! 据了解,"天才少年"计划 ...

  3. 姚班学霸蝉联第一,清华再霸榜,湘潭大学表现亮眼,第四届 CCF CCSP落下帷幕...

    乾明 发自 苏州  量子位 报道 | 公众号 QbitAI 10月17日下午,经过12个小时的激烈角逐后,2019年CCSP进入颁奖阶段. 和去年一样,今年依旧被清华霸榜,前10名中有一半出自清华,凭 ...

  4. 江山代有才人出,各领风骚数百年

    最近华为的天才少年结果公布,高达年薪201万.印证了那句,一份耕耘,一份收获. 让我感受最深的就是天才少年定制的成长计划,分享给大家可以看下: 任务量满满,其实,看到这里让我吃惊的并不是具体的内容,而 ...

  5. 第12期【江山代有才人出】5月刊

    1.[机房重构]--实体类(Model)的奇葩说--张婷     推荐理由:关于三层架构中的实体层(Model)的理解,仁者见仁智者见智,那么哪种说法才是比较正确,能更好地帮助我们理解呢?我们可以从这 ...

  6. 清华张长水等人30页少样本学习综述论文,涵盖400+参考文献

    来源:机器之心 本文长度为2000字,建议阅读5分钟 这篇综述文章回顾了少样本学习(FSL)的演进历史和当前进展,对 FSL 方法进行了层次分类,并总结了近期多个 FSL 扩展性主题及其最新进展,介绍 ...

  7. 上不了北大“图灵”、清华“姚班”,AI专业还能去哪上?

    整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 在这个燥热的时节,高考分数大榜陆续放出,几家欢喜几家愁的戏码再度上演,满分且长得又帅/美的状元们轮番上热搜,父母们挥泪叹息为何优秀 ...

  8. 200 万年薪,却招不到清华姚班毕业生!能上姚班的都是什么人?

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要5分钟 跟随小博主,每天进步一丢丢 来源 | 轮子工厂(ID:Programmer-ing) 清华姚班可能很多人都没有听说过,不是我们孤陋寡闻, ...

  9. 200万年薪,招不到清华姚班毕业生,能上姚班的都是什么人?

    清华姚班可能很多人都没有听说过,不是我们孤陋寡闻,而是姚班确实是不一般的存在.即便是在清华,姚班的学霸也是可以碾压其他学霸的.在清华有一句话,半国英才聚清华,清华半英在姚班.可见,姚班的学生有多牛! ...

最新文章

  1. SRE工程师到底是做什么的?
  2. matlab 三维饼图,重新学习MATLAB——作图技法及3D可视化
  3. Java——BigInteger类和BigDecimal类
  4. pyrealsense 官方文档 官方doc 官方API(API Architecture 架构)
  5. Bug之ajax不执行
  6. .NET微服务最佳实践eShopOnContainers
  7. C语言有参函数调用时参数间数据传递问题
  8. 无内存在优盘可以启动计算机吗,没有U盘不要紧,内存卡做启动盘装Win7方法
  9. 信息安全工程师-AES密码技术及XOR图像遮盖技术(JavaC++)
  10. 山师计算机学硕分数线,2020山东师范大学考研复试分数线已公布
  11. POJ 1692 Crossed Matchings dp[][] 比较有意思的dp
  12. 《天天数学》连载28:一月二十八日
  13. Vim 可视化模式入门
  14. ArrayList元素的排序 java 集合
  15. 谈用VB无窗口透明Usercontrol编写透明浮动按钮
  16. TOMCAT中使用HTTPS的过程
  17. 代码开源许可证 区别 Apache MIT GPL
  18. 前端干货-网站资源收集
  19. 三等分任意角可能吗?
  20. 计算机专业班级网站,计算机专业班级标语

热门文章

  1. 在使用 interface 声明一个接口时,只可以使用那个修饰符修饰该接口?
  2. 用 Winetricks 配置 WINE
  3. rabbitMQ第一篇:rabbitMQ的安装和配置
  4. Android 表格HorizontalScrollView+ListView
  5. PC远程控制 NetSupport Manager
  6. irobot擦地机器人故障_自己动手修复 iRobot braava380t 电机故障
  7. web前段学习day_01:HTML(学习如何搭建页面结构和内容):文本标签、列表标签、图片标签、超链接、表格、表单表单、分区标签、实体引用
  8. Java学习_day002:变量
  9. Access数据库审计工具mdbtools
  10. java c 流_java对象传输流C/S传输对象