一只小狐狸带你解锁 炼丹术&NLP 秘籍

来源:机器之心

什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。

数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习是其中一个解决方案。来自香港科技大学和第四范式的研究人员综述了该领域的研究发展,并提出了未来的研究方向。

这篇综述论文已被 ACM Computing Surveys 接收,作者还建立了 GitHub repo,用于更新该领域的发展。

  • 论文地址:https://arxiv.org/pdf/1904.05046.pdf

  • GitHub 地址:https://github.com/tata1661/FewShotPapers

机器学习在数据密集型应用中取得了很大成功,但在面临小数据集的情况下往往捉襟见肘。近期出现的小样本学习(Few-Shot Learning,FSL)方法旨在解决该问题。FSL 利用先验知识,能够快速泛化至仅包含少量具备监督信息的样本的新任务中。

这篇论文对 FSL 方法进行了综述。首先,该论文给出了 FSL 的正式定义,并厘清了它与相关机器学习问题(弱监督学习、不平衡学习、迁移学习和元学习)的关联和差异。然后指出 FSL 的核心问题,即经验风险最小化方法不可靠。

基于各个方法利用先验知识处理核心问题的方式,该研究将 FSL 方法分为三大类:

  • 数据:利用先验知识增强监督信号;

  • 模型:利用先验知识缩小假设空间的大小;

  • 算法:利用先验知识更改给定假设空间中对最优假设的搜索。

最后,这篇文章提出了 FSL 的未来研究方向:FSL 问题设置、技术、应用和理论。

论文概览

该综述论文所覆盖的主题见下图:

我们选取介绍了该综述论文中的部分内容,详情参见原论文。

什么是小样本学习

FSL 是机器学习的子领域。

我们先来看机器学习的定义:

计算机程序基于与任务 T 相关的经验 E 学习,并得到性能改进(性能度量指标为 P)。

基于此,该研究将 FSL 定义为:

小样本学习是一类机器学习问题,其经验 E 中仅包含有限数量的监督信息。

下图对比了具备充足训练样本和少量训练样本的学习算法:

FSL方法分类

根据先验知识的利用方式,FSL方法可分为三类:

FSL 方法解决少样本问题的不同角度。

基于此,该研究将现有的 FSL 方法纳入此框架,得到如下分类体系:

数据

此类 FSL 方法利用先验知识增强数据 D_train,从而扩充监督信息,利用充足数据来实现可靠的经验风险最小化。

如上图所示,根据增强数据的来源,这类 FSL 方法可分为以下三个类别:

模型

基于所用先验知识的类型,这类方法可分为如下四个类别:

算法

根据先验知识对搜索策略的影响,此类方法可分为三个类别:

文章最后从问题设置、技术、应用和理论四个层面探讨了小样本学习领域的未来发展方向。

  • 在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?

  • 算法工程师的效率神器——vim篇

  • 推荐系统的价值观

  • 硬核推导Google AdaFactor:一个省显存的宝藏优化器

  • 卖萌屋上线Arxiv论文速刷神器,直达学术最前沿!

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

什么是小样本学习?这篇综述文章用166篇参考文献告诉你答案相关推荐

  1. 【小样本学习】什么是小样本学习?这篇综述文章用166篇参考文献告诉你答案...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来源:机器之心 再次编辑:夕小瑶的卖萌屋 什么是小样本学习?它与弱监督学习等问题有何差 ...

  2. 华南农业大学在Annual Review of Microbiology发表三篇综述文章

    华南农业大学群体微生物研究中心科研人员应国际权威微生物综述期刊Annual Review of Microbiology的邀请,分别于2019年6月21日和7月5日在线发表了三篇综述文章,分别总结了细 ...

  3. Multi-Task Learning的几篇综述文章

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自 | 知乎 地址 | https://zhuanlan.zhihu.com/p/1 ...

  4. Fine-tune之后的NLP新范式:Prompt越来越火,CMU华人博士后出了篇综述文章

    视学算法报道 机器之心编辑部 CMU 博士后研究员刘鹏飞:近代自然语言处理技术发展的第四范式可能是预训练语言模型加持下的 Prompt Learning. 近几年,NLP 技术发展迅猛,特别是 BER ...

  5. 【文献阅读】小样本学习综述:A Survey on Few-Shot Learning(Y. Wang, 等人,ArXiv,201904)

    一.背景 文章题目:<Generalizing from a Few Examples: A Survey on Few-Shot Learning> VQA的工作暂时告一段落,接下来将要 ...

  6. 一篇综述带你全面了解迁移学习的领域泛化(Domain Generalization)

    领域泛化 (Domain Generalization, DG) 是近几年非常热门的一个研究方向.它研究的问题是从若干个具有不同数据分布的数据集(领域)中学习一个泛化能力强的模型,以便在 未知 (Un ...

  7. 收录180篇文献,上海交大推出深度学习图像合成领域首篇综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 收录 180 篇文献的首个深度学习图像合成技术综述文章. 图像合成 (image compositio ...

  8. Generalizing from a Few Examples: A Survey on Few-Shot Learning 小样本学习最新综述 | 三大数据增强方法

    原文链接:小样本学习与智能前沿 文章目录 01 Transforming Samples from Dtrain 02 Transforming Samples from a Weakly Label ...

  9. 怒写400篇AI文章!这群妹子卷疯了…

    今天这篇文章不谈技术,给大家分享一些干货!首先来聊聊一个AI圈子里画风清奇的公众号 夕小瑶的卖萌屋.公号的作者中不仅妹子居多,颜值能打,而且喜欢将学术研究和大厂业务上线中的收获与读者分享. 卖萌屋的作 ...

最新文章

  1. [译]Godot系列教程一 - 场景与节点
  2. 如何解决Spring Data Maven构建的“生命周期配置未涵盖的插件执行”
  3. Go 语言编程 — 并发 — Channel 通道
  4. SCCM 2012 R2---配置客户端发现方法和边界组
  5. 关于出去还是不出去的选择
  6. Java1.5增加了新特性:可变参数
  7. 管道的应用(pipe)《深入分析Linux内核源码》
  8. 10种进阶方法让你快速测试端口连通性
  9. 爱企人事工资管理系统 v8.1 免费下载
  10. paypal支付交易数据
  11. 第八章、Zigbee模块的性能及测试
  12. 钉钉机器人告警快速实现
  13. 我的 2019 年 - 当勤精进,但念无常,何以解忧,唯有暴富
  14. linux把ftp挂载成盘符,使用curlftpfs将ftp空间挂载到本地
  15. 解析ARM中OS_CPU_A.S(中断级方式)
  16. java基本微信小程序的快递代收派送系统 uniapp小程序
  17. Android下的串口开发
  18. spark python_Python、流、SQL 有更新!耗时两年,Spark 3.0 重磅发布!
  19. redis 和 memcached
  20. 微信小程序原生开发学习01

热门文章

  1. C# Excel处理工具
  2. C语言进行CGI程序设计
  3. SQL基础---SQL AND OR 运算符
  4. 《STL源码剖析》相关面试题总结
  5. 整理一篇Linux drm显示系统的文章
  6. #define的高级用法
  7. 学习网站(不断更新)
  8. Linux C高级编程——时间编程
  9. VS2010,C++ 制作静态库(*.lib),并使用
  10. python怎么画出好看的统计图_用最简单的 Python ,画最好看的图 [简单数据可视化]...