小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种基于迁移学习的元学习算法(Meta-Transfer Learning,MTL)用于解决小样本学习问题,通过对深层卷积神经网络的权重进行放缩(Scaling)和平移(Shifting),以适应新的样本任务。传统的迁移学习算法,通常是在一个数据集上进行预训练得到一个较好的初始模型,然后再替换掉最上层的全连接层和分类器(也可能不替换),在新的数据集上进行微调训练(finetune),最后实现从原始数据集到新数据集的迁移过程。但这种方式一方面要求新数据集要有足够多的数据量,支持深层卷积神经网络的参数更新,这是小样本学习任务无法提供的;另一方面会导致“遗忘灾难”,即能够处理新数据集样本,却忘记如何处理原始数据集的样本。而典型的元学习算法(如MAML)是通过元学习器引导任务学习器训练,使其经过少量的优化训练就能够达到很好的效果。但这种方式要求网络必须比较简单(如四层卷积神经网络),否则容易产生过拟合的问题。本文提出的算法结合了迁移学习和元学习算法的优势,首先主体网络采用深层卷积神经网络DNN,保证特征表征能力;其次,在预训练之后保持DNN中的参数不动,通过元学习算法引导网络进行迁移,该过程只需学习少量的放缩和平移参数,避免了过拟合的问题。

  整个训练过程可以分成三个阶段,首先,在一个大规模的数据集上对特征提取网络Θ\ThetaΘ和分类器θ\thetaθ进行预训练,如上图a所示。然后,保持特征提取网络Θ\ThetaΘ参数不动,并替换分类器θ\thetaθ(以满足小样本分类任务的需求,如大规模数据集可能要分成64类,而小样本分类可能只需要10类),在小样本数据集上进行元训练。与MAML等元学习算法一样,元训练集又分成训练集和测试集两部分,训练集部分用于更新任务学习器的参数;测试集用于更新元学习器的参数。具体而言,首先随机初始化分类器参数θ\thetaθ(任务学习器或者基学习器),然后利用训练集中的数据对任务学习器进行训练,更新参数θ\thetaθ

式中ΦS{1,2}\Phi_{S_{\left \{1,2\right \}}}ΦS{1,2}​​表示元学习参数。在训练集上完成任务学习器迭代训练之后,再利用测试集对元学习器进行训练,ΦS1\Phi_{S_1}ΦS1​​的初始值为1,ΦS2\Phi_{S_2}ΦS2​​的初始值为0(此处原文误写为ΦS1\Phi_{S_1}ΦS1​​),θ\thetaθ初始值为随机设定,更新过程如下


  利用学习到的放缩参数ΦS1\Phi_{S_1}ΦS1​​,和平移参数ΦS2\Phi_{S_2}ΦS2​​对特征提取网络Θ\ThetaΘ中的权重进行放缩和平移操作

  最后进入元测试阶段,元测试数据集同样分成训练集和测试集两部分,但其中的样本都是在元训练阶段未见过的,而且样本数量有限。在训练集上进一步对分类器参数θ\thetaθ进行微调训练,但保持特征提取网络Θ\ThetaΘ和元学习器参数ΦS{1,2}\Phi_{S_{\left \{1,2\right \}}}ΦS{1,2}​​不变。微调训练结束后,可以在测试集上验证分类器的效果。

实现过程

网络结构

  特征提取网络可采用浅层机构(4层卷积神经网络)或深层结构(ResNet-12),分类器网络是一个全连接层,元学习器参数ΦS{1,2}\Phi_{S_{\left \{1,2\right \}}}ΦS{1,2}​​根据特征提取网络结构选择,假设特征提取网络由4个通道数为64的卷积层构成,那么ΦS1\Phi_{S_1}ΦS1​​的维度为64 * 4 * 1 * 1(以保证每个特征图都有一个对应的放缩系数),ΦS2\Phi_{S_2}ΦS2​​的维度为1 * 4 * 1 * 1(每个卷积层共用一个偏移向量)。

损失函数

  交叉熵损失函数

训练策略

  本文在上述常规训练的基础上,又引入了一种类似课程学习(Curriculum learning)的训练方法,简答来讲就是先学习简单的任务,再学习困难的任务。在元训练阶段,每次在测试集上对元学习器进行训练时,选择准确率最低的一类样本作为困难样本。在完成元训练阶段之后,再从一系列困难样本中重新采样,对元学习器进行再次训练。

创新点

  • 集合迁移学习和元学习算法实现小样本学习任务,通过元学习器训练得到放缩和平移参数,实现网络对于新数据集的迁移
  • 采用课程学习的训练方式,由简到难训练网络,提高损失收敛速度

算法评价

  本文是运用迁移学习解决小样本学习问题的一次经典的尝试,过去由于小样本数据集不足以完成网络迁移任务,而无法采用迁移学习算法。而本文很巧妙的引入了放缩和平移参数,对权重参数进行调整,以满足新样本任务的需要,这一方式避免了对整个网络的权重参数进行更新,减轻了过拟合的问题,而且可以采用深层卷积神经网络,提高了特征表征能力。最后采用课程学习方式,由简到难对网络进行训练,有效地提高了损失收敛速度,改善分类效果。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

论文阅读笔记《Meta-Transfer Learning for Few-Shot Learning》相关推荐

  1. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  2. 论文阅读 | NIPS‘20 | Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs

    很有意思的一篇paper.在众多Knowledge Graph Embedding (KGE) 的论文中通过问题设计和有意思的解决方式脱颖而出. 首先来看看问题设计. 一般的KGE model都是利用 ...

  3. Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记(EMNLP2021)

    目录 标题翻译:基于Beta分布引导方面感知图的方面类别情感分析 原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf 摘要: 1 引言 2 相关工 ...

  4. Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记

    问题: 因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差.且字节2020在EMNLP上的 ...

  5. DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记

    DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...

  6. [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings

    [论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构 解 ...

  7. 论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics(AAAI,2020)

    这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机  很多机器 ...

  8. 论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》

    <a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...

  9. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记

    我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...

  10. 斯坦福图机器学习CS224W笔记自用: Reasoning in Knowledge Graphs using Embeddings

    1. 基于嵌入的知识图推理 目标:如何对知识图进行多跳推理? 知识图推理: 回答多跳查询 路径查询 连接查询 Query2box 示例:生物医学图 知识图谱上的预测查询 我们是否可以进行多跳推理,即在 ...

最新文章

  1. leangoo项目管理软件应用场景
  2. java 文件 缓冲区大小_Java web 中文件下载遇到的缓冲大小问题
  3. 如果不发论文,我们用什么证明自己的科研实力?
  4. VS2015编译Boost1.64
  5. 疯狂ios讲义疯狂连载之加载界面的图片
  6. CO CCA-作业分割优先级
  7. 使用熔断器设计模式保护软件
  8. 20199计算机二级java答案_计算机二级Java练习题-2019.9
  9. php获取文件目录文件名,php获取路径中的文件名的方法有哪些
  10. hdu 2883 kebab 网络流
  11. 0322Private strand flush not complete
  12. JVM面试重点总结(二)——垃圾收集器(GC)与内存分配策略
  13. wpf 如何实现窗口浮动_如何实现工作表数据与UserForm窗口的交互,显示第一条记录...
  14. 关于按钮需要点两次才有用的问题
  15. QT5 QDateTime函数及时间格式说明
  16. HoloLens2语音指令实现
  17. c语言中chat的使用方法图解,Mechat
  18. java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -XX:+UseParallelGC -XX:MaxGCPauseMillis=100/虚拟机调优
  19. 职称计算机可以扣个税吗,哪些职业资格证书可以获得个税专项附加扣除和减免?...
  20. 苹果电脑MAC OS下快捷键列表大全

热门文章

  1. 中国超级计算机神威 上市公司,神威、天河、曙光三巨头引领中国超级计算机发展...
  2. 利用MLS算法计算法向量,并统一法向。
  3. 多签名基础——General forking lemma(分叉引理)
  4. 一个程序猿眼中的国内主流地图api
  5. 怎么将服务器加入系统白名单,服务器怎么添加白名单
  6. 您不知道Android的ES File Explorer可以做的19件事
  7. Java Web——基于Jsp+Servlet的大学生社团管理系统
  8. 当人们在说大数据的时候到底在说什么?
  9. 在线播放.html,网页嵌入式SWF视频播放器
  10. 基于腾讯云的 Rust 和 WebAssembly 函数即服务