Meta Learning在NLP领域的应用

Hi，这里是哈林，今天来跟大家聊一聊Meta Learning在NLP领域的一些应用。

哈林之前在学校科研的方向是NLP，个人对如何将先进的机器学习算法应用到NLP场景很感兴趣(因为好水paper)，同时之前也做过一些尝试(水过一些paper)。因此今天主要介绍一下Meta Learning与NLP任务结合的一些工作。话不多说，先上一个自己总结的paper list:

Github链接：
https://github.com/ha-lins/MetaLearning4NLP-Papers

背景：元学习

通常在机器学习里，我们会使用某个场景的大量数据来训练模型；然而当场景发生改变，模型就需要重新训练。但是对于人类而言，一个小朋友成长过程中会见过许多物体的照片，某一天，当Ta（第一次）仅仅看了几张狗的照片，就可以很好地对狗和其他物体进行区分。

元学习Meta Learning，含义为学会学习，即learn to learn，就是带着这种对人类这种“学习能力”的期望诞生的。Meta Learning希望使得模型获取一种“学会学习”的能力，使其可以在获取已有“知识”的基础上快速学习新的任务，需要注意的是，虽然同样有“预训练”的意思在里面，但是元学习的内核区别于迁移学习（Transfer Learning）。

这里介绍一个经典的基于优化的元学习框架MAML[1]，（即Model-agnostic Meta Learning）。MAML的目的是获取一组更好的模型初始化参数（即让模型自己学会初始化）。我们通过（许多）N-ways，K-shot的任务（训练任务）进行元学习的训练，使得模型学习到“先验知识”（初始化的参数）。这个“先验知识”在新的任务上可以表现的更好，其算法流程如下图所示：

Note：MAML是一个二阶的元学习算法，因为二阶优化计算海塞矩阵的成本较大，因此后续出现了一阶的元学习算法，如:Repitle[2]，通过近似二阶导数，可以实现近似MAML的性能。接下来介绍两个MAML在对话系统领域应用的工作。水paper的好方向

工作介绍1：DAML

先来看第一篇DAML[3]，做的是task-oriented dialogue任务下的domain adaption：举个例子来说，假设我们手头有三个域的训练数据（source domains）：restaurant, weather, bus information，然后用少量（few-shot learning）的movie领域数据作为新的target domain来测试dialogue的任务完成性能。这个任务是非常有价值的，目前的task-oriented dialogue的dataset往往是针对特定领域的，如果能实现这种域适应，将会降低很多人工标注成本。

通过这个例子可以看出，这篇paper是在研究transfer learning和few-shot learning（少量的test data），采用的方法则是meta-learning中的经典方法MAML：即通过训练寻找一个优秀的初始化参数，使得仅通过两步梯度下降，就能快速适应到新的target domain上。

图中的序号表示执行的先后顺序， M M M 为模型参数，重点看b)图，k=1，2，3分别代表不同的source domain，可以看到DAML采用了两次梯度更新（local和global），先结合域训练数据和初始模型，更新一步得到一个临时model M k ′ M'_{k} Mk′ ，再由此来计算meta learning的loss，再通过几次梯度更新原始model。至于为何要经过这个临时model M k ′ M'_{k} Mk′ ，应该是因为可以学到一种所有源域普适的表示，而不是针对特定域的直接的特征。

以上就是这篇paper的核心思想，下面看一下具体实现和细节：前文说了这是一个task-oriented dialogue背景的问题，本文借鉴并采用了一种end-to-end的seq2seq模型：Sequicity[3]，与domain adaption的SOTA模型ZSDG和transfer learning model进行了比较，在ZSDG提供的SimDial数据集上进行实验，从任务完成情况（Entity F1 score）和Adapting time等多个方面评估比较。

工作介绍2：GEML

接下来是哈林发表在AAAI 2021上的一篇低资源场景下的医疗对话系统的工作GEML[4]，旨在通过元学习构建一个跨疾病可迁移的对话系统。

如上图所示，针对医疗对话场景中疾病数据不均衡的现象，GEML首先设计了一个基于外部医疗知识图谱的端到端对话系统，然后通过一种图演化元学习框架来对其进行元训练和迁移。该对话系统包含三个组件：分层上下文编码器、元知识图推理模块与图指导的响应生成器；同样还是类似MAML的思路，只不过针对现有知识图谱对对话实体覆盖不全的问题，本文还通过graph evolving的方法对知识图谱进行丰富。具体的模型细节大家可以去论文里查阅~

总结

通过这两个工作和paper list，可以看到以MAML为代表的optimization-based meta learning方法，以其模型无关的灵活性的特点，在各个NLP topic（如：dialog system/ semantic parsing等）的few-shot场景下遍地开花，而其他的meta-learning方法（如metric-based）多集中在解决分类问题上。如何在少量数据场景下构造出合理的meta task，是解决问题的关键。

参考资料

[1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, ICML 2017.
[2] On First-Order Meta-Learning Algorithms, arXiv 2018.
[3] Domain Adaptive Dialog Generation via Meta Learning, ACL19.
[4] Graph Evolving Meta-Learning for Low-resource Medical Dialogue Generation, AAAI 2021.

更多算法基础知识介绍，前沿论文解读，欢迎关注微信公众号：口袋AI算法