Hi,这里是哈林,今天来跟大家聊一聊Meta Learning在NLP领域的一些应用。

哈林之前在学校科研的方向是NLP,个人对如何将先进的机器学习算法应用到NLP场景很感兴趣(因为好水paper),同时之前也做过一些尝试(水过一些paper)。因此今天主要介绍一下Meta Learning与NLP任务结合的一些工作。话不多说,先上一个自己总结的paper list:

Github链接:
https://github.com/ha-lins/MetaLearning4NLP-Papers

背景:元学习

通常在机器学习里,我们会使用某个场景的大量数据来训练模型;然而当场景发生改变,模型就需要重新训练。但是对于人类而言,一个小朋友成长过程中会见过许多物体的照片,某一天,当Ta(第一次)仅仅看了几张狗的照片,就可以很好地对狗和其他物体进行区分。

元学习Meta Learning,含义为学会学习,即learn to learn,就是带着这种对人类这种“学习能力”的期望诞生的。Meta Learning希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务,需要注意的是,虽然同样有“预训练”的意思在里面,但是元学习的内核区别于迁移学习(Transfer Learning)。

这里介绍一个经典的基于优化的元学习框架MAML[1],(即Model-agnostic Meta Learning)。MAML的目的是获取一组更好的模型初始化参数(即让模型自己学会初始化)。我们通过(许多)N-ways,K-shot的任务(训练任务)进行元学习的训练,使得模型学习到“先验知识”(初始化的参数)。这个“先验知识”在新的任务上可以表现的更好,其算法流程如下图所示:

Note:MAML是一个二阶的元学习算法,因为二阶优化计算海塞矩阵的成本较大,因此后续出现了一阶的元学习算法,如:Repitle[2],通过近似二阶导数,可以实现近似MAML的性能。接下来介绍两个MAML在对话系统领域应用的工作。水paper的好方向

工作介绍1:DAML

先来看第一篇DAML[3],做的是task-oriented dialogue任务下的domain adaption:举个例子来说,假设我们手头有三个域的训练数据(source domains):restaurant, weather, bus information,然后用少量(few-shot learning)的movie领域数据作为新的target domain来测试dialogue的任务完成性能。这个任务是非常有价值的,目前的task-oriented dialogue的dataset往往是针对特定领域的,如果能实现这种域适应,将会降低很多人工标注成本。

通过这个例子可以看出,这篇paper是在研究transfer learning和few-shot learning(少量的test data),采用的方法则是meta-learning中的经典方法MAML:即通过训练寻找一个优秀的初始化参数,使得仅通过两步梯度下降,就能快速适应到新的target domain上。

图中的序号表示执行的先后顺序, M M M 为模型参数,重点看b)图,k=1,2,3分别代表不同的source domain,可以看到DAML采用了两次梯度更新(local和global),先结合域训练数据和初始模型,更新一步得到一个临时model M k ′ M'_{k} Mk′​ ,再由此来计算meta learning的loss,再通过几次梯度更新原始model。至于为何要经过这个临时model M k ′ M'_{k} Mk′​ ,应该是因为可以学到一种所有源域普适的表示,而不是针对特定域的直接的特征。

以上就是这篇paper的核心思想,下面看一下具体实现和细节:前文说了这是一个task-oriented dialogue背景的问题,本文借鉴并采用了一种end-to-end的seq2seq模型:Sequicity[3],与domain adaption的SOTA模型ZSDG和transfer learning model进行了比较,在ZSDG提供的SimDial数据集上进行实验,从任务完成情况(Entity F1 score)和Adapting time等多个方面评估比较。

工作介绍2:GEML

接下来是哈林发表在AAAI 2021上的一篇低资源场景下的医疗对话系统的工作GEML[4],旨在通过元学习构建一个跨疾病可迁移的对话系统。

如上图所示,针对医疗对话场景中疾病数据不均衡的现象,GEML首先设计了一个基于外部医疗知识图谱的端到端对话系统,然后通过一种图演化元学习框架来对其进行元训练和迁移。该对话系统包含三个组件: 分层上下文编码器、元知识图推理模块与图指导的响应生成器;同样还是类似MAML的思路,只不过针对现有知识图谱对对话实体覆盖不全的问题,本文还通过graph evolving的方法对知识图谱进行丰富。具体的模型细节大家可以去论文里查阅~

总结

通过这两个工作和paper list,可以看到以MAML为代表的optimization-based meta learning方法,以其模型无关的灵活性的特点,在各个NLP topic(如:dialog system/ semantic parsing等)的few-shot场景下遍地开花,而其他的meta-learning方法(如metric-based)多集中在解决分类问题上。如何在少量数据场景下构造出合理的meta task,是解决问题的关键。

参考资料

  • [1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, ICML 2017.
  • [2] On First-Order Meta-Learning Algorithms, arXiv 2018.
  • [3] Domain Adaptive Dialog Generation via Meta Learning, ACL19.
  • [4] Graph Evolving Meta-Learning for Low-resource Medical Dialogue Generation, AAAI 2021.

更多算法基础知识介绍,前沿论文解读,欢迎关注微信公众号:口袋AI算法

Meta Learning在NLP领域的应用相关推荐

  1. NLP 领域还有 5 大开放问题

    虽然 NLP 研究领域已经在深度学习的帮助下取得了长足的发展,许多技术也已经商业化落地,但我们也需要知道,这个领域还有几个开放性问题等待解决 -- 如果它们也能比较好地解决,也许我们能迎来 NLP 科 ...

  2. NLP之路-Deep Learning in NLP (一)词向量和语言模型

     from: http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必 ...

  3. Deep Learning in NLP (一)词向量和语言模型

    这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交流,随便拍. Deep Learning 算法已经在图像和音 ...

  4. NLP领域的最新研究进展

    2022年,在NLP领域,哪些技术场景最值得关注?为了回答这个问题,在本次 DataFun 举办的自然语言处理峰会上,我们邀请了NLP领域的领衔专家和学者,共同精选了大模型预训练.自然语言生成.多模态 ...

  5. 资源 | 盘点国外NLP领域40大高校及相关知名学者

    向AI转型的程序员都关注了这个号☝☝☝ 本文译自Quora话题:Which are the best schools for studying natural language processing( ...

  6. 干货|4条实用小建议,送给初入NLP领域的你(附链接)

    来源:知乎 作者:李纪为 本文约5000字,建议阅读10分钟. 本文为你介绍了刚迈进NLP领域需要掌握的一些小技巧. ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届A ...

  7. 元学习(meta learning) 最新进展综述论文,28页pdf

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文综述了元学习在图像分类.自然语言处理和机器人技术等领域的应用.与深度学习不同, ...

  8. 【NLPer必看】NLP领域高质量综述论文

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:徐波,东华大学计算机学院导师研究方向为人工智能.大数据及知识图谱.创建了目前 ...

  9. NLP领域的ImageNet时代:词嵌入已死,语言模型当立

    NLP领域的ImageNet时代:词嵌入已死,语言模型当立 https://www.toutiao.com/a6742137243487437316/ NLP领域的ImageNet时代:词嵌入已死,语 ...

最新文章

  1. 基础搭建Hadoop大数据处理-编程
  2. Ubuntu利用Samba映射磁盘到Windows(转)
  3. PAT1045 快速排序 (25 分)【4/6通过】
  4. jzoj3845-简单题【dp】
  5. Adobe Illustrator CS6 绿色简体中文版下载地址
  6. outlook+app+android,微软Outlook Web App抢占Android平台
  7. 淮海工学院期末考试Oracle,【2017年整理】淮海工学院物理化学下册期末试题.doc...
  8. 【机器学习-西瓜书】六、支持向量机(SVM):最大间隔;对偶问题;KKT条件
  9. 正向有功正向无功_电表_正向有功、反向无功
  10. Leetcode 561.数组拆分I
  11. 差分相干解调 matlab,差分相干解调
  12. 软碟通 刻录linux光盘,使用UltraISO软碟通刻录光盘
  13. 阿里巴巴校招笔试题整理
  14. 新版本GPU加速的tensorflow库的配置方法
  15. resultful 风格
  16. 2023年最新zabbix监控Linux服务+ensp交换机
  17. 凯特勒通道(backtrader)
  18. hadoop dremel Caffeine Pregel
  19. 松下与Delos中国携手,共同推动健康人居空间的研究和实证
  20. 梅森旋转算法原理c语言,梅森旋转素数算法(MT199937)c语言代码

热门文章

  1. 得物数据抓取+参数加密解析
  2. jboot 在拦截器中如何获取 请求的IP地址
  3. 推荐一款 GitHub 星标 11.5K 的神器,可将任何设备转换为电脑辅助屏幕
  4. 用阳光心态去实现快乐工作
  5. 网站搭建需要什么技术?
  6. win10连接android手机助手下载,完美win10手机助手-Win10手机助手v1.0.1 官方免费版下载_飞翔下载...
  7. R语言 | 将CSV文件中原本为空白值的chr数据赋值为NA
  8. VB——消费记录及查询系统。
  9. MLIR深入 —— 转换流程详解(以Toy接入为例)
  10. 怎么画动漫人物的五官:耳鼻眼嘴