【论文笔记】Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

原文作者：Suchin Gururangan，Ana Marasović，Swabha Swayamdipta，Kyle Lo，Iz Beltagy，Doug Downey，Noah A. Smith

原文标题：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

原文来源：ACL2020

原文链接：https://www.aclweb.org/anthology/2020.acl-main.740.pdf

Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

作者针对预训练模型是否仍然有助于特定领域的任务进行了研究，跨4个领域，8个分类任务，发现第二阶段的领域自适应预训练((domain-adaptive pretraining)仍然能够提高性能。另外，在DAPT之后，再进行TAPT(task-adaptive pretraining)也能够提高成绩。

DAPT

作者选择了四个领域的文本进行DAPT，分别是生物医学和计算机科学出版物、新闻、评论。原因是领域内的文本分类数据集可用，而且在之前的工作中也很常见。表1中列出了这四个数据集的信息。

作者首先进行了这四个领域与ROBERTA预训练领域相似性的分析。图二中为作者采样的文本数据的重叠情况。发现ROBERTA预训练的数据与NEWS和REVIEWS重叠很高，但是和CS、BIOMED相似度比较低。这表明领域的差异越大，DAPT的潜力就越大。

在实验中，作者采用了和ROBERTA一样的设置，选择ROBERTA-base作为baseline，并在四个领域的八个文本分类任务上进行试验，如表2所示。

表三中为实验结果。可以看到，DAPT在所有领域都超过了ROBERTA。尤其是在BIOMED、CS、REVIEWS领域，这也说明了目标领域与ROBERTA领域不相似性的好处。

另外作者做了一个有趣的实验：对于某个领域，使用最不相关的其他领域的LM进行预训练，也就是说，NEWS领域，使用CS
LM；REVIEWS领域，使用BIOMED LM；BIOMED领域，使用REVIEWS LM。原因是，DAPT性能的提升可能只是让模型接触了更多数据。

最终结果在表三最后一列，可以看出每个任务中，DAPT都极大的超过了不相关领域的LM，而且相比与原有的ROBERTA，不相关领域的DAPT性能甚至更低，这也证明了DAPT的有效性。在不考虑领域的情况下，让模型接触更多的数据是有害的。

由图二可以看出，领域之间的界限比较模糊。作者定量的识别了领域间重叠的文档。表4中是一些评论和与评论相关的新闻文章。

这项分析表明，引起领域差异的因素可能不是相互排斥的，超出领域边界的预训练有可能使DAPT更有效。

TAPT

任务数据集可以看作相关领域数据集中的一个子集。作者假设在任务数据是更广泛领域的一个狭义子集的情况下，对任务数据集本身或与任务相关的数据进行预训练可能有帮助。

TAPT是指对给定任务的无标注训练集进行预训练。比起DAPT，TAPT使用的预训练语料库要小得多，但是与任务更相关。这使得TAPT训练的花费比DAPT小得多，而且性能比DAPT也不差。

实验结果如表5所示。

TAPT在所有任务中的表现都超过ROBERTA，即使在新闻领域(TOBERTA预训练语料库的一部分)，TAPT的性能也更好，这证明了TAPT的优越性。DAPT更加消耗资源，在一些任务上TAPT用较少的资源就达到了DAPT的效果；在RCT等任务上，TAPT的表现甚至超过了DAPT，这更表明了TAPT的有效性。

作者还研究了DAPT+TAPT的与训练结果，在表5中的最后一列，可以看出，结合DAPT+TAPT的预训练在所有任务上表现最好。

类似DAPT，作者研究了跨任务的TAPT，比如使用RCT的数据预训练LM，然后使用CHEMPROT数据进行fine-tuning，结果如表6所示。

可以发现，TAPT对单一任务的优化会损害其迁移能力，说明在一个领域内的数据分布也可能不同。也说明了仅仅进行DAPT是不够的，DAPT+TAPT有效。

对于TAPT的训练数据增强

作者将TAPT的数据范围扩大，介绍两种构造更多的、任务相关的无标注数据的增强方式：1）人工构造；2）自动数据选择。

1）人工构造

任务数据集的创建通常会通过人工方式从已知来源收集，其中通过下采样选取部分数据进行人工标注构建标注数据集，而剩下的未标注数据有时也是可用的。对人工构造的、可用的、任务相关的未标注数据进行任务自适应预训练，这一过程就是Curated-TAPT。

表8给出了Curated-TAPT的实验结果。其中RCT-500是保留原始标注集的500条标注数据，基于剩余的标注数据作为无标注数据进行Curated-TAPT；HYP和IMDB就是图4中直接给出的任务相关的无标注数据。

我们可以发现：除了HYP任务外，Curated-TAPT相较于TAPT均有提升，而Curated-TAPT也超过了DAPT+TAPT，可见如果我们能获取更多的、任务相关的无标注数据进行TAPT，效果不但提升明显，而且更为"廉价"、消耗资源低；而结合DAPT+Curated-TAPT在上述3个任务上效果均提升，特别是HYP任务更为明显，从90提升至92.1。

可想而知，如果在设计相关任务时，能够释放大量的、任务相关的无标注数据集，并继续进行预训练（TAPT），对于最终任务是极其有利的。

2）自动数据选择

作者试图找出一个轻量级的数据选择方法，能够在合理的时间内，嵌入上百万的句子。具体的，论文提出了一种词袋模型的最近邻算法，思想非常简单，对于任务领域的每条样本，用词袋模型向量化表示，找领域语料中与其距离最近的k个样本，也纳进任务领域的预训练中。使用两种方法选择k个样本：要么是KNN，要么是随机选择。

在表8中可以看到，KNN-TAPT表现超过TAPT，而RAND-TAPT通常比KNN-TAPT表现要差。随着k增加，kNN-TAPT的性能也稳步提升，并逐步接近DAPT。

总结

本文提出了预训练增强的两种方法，DAPT和TAPT。在4个领域，8个任务上进行了实验。

本文没有太多数学证明，数学公式的东西，主要进行试验，然后对实验结果的说明和推理。实验的结论说明：在DAPT中，如果DAPT的领域与原领域越不相关，则DAPT的效果越好；在大多数情况下，DAPT接触越多领域无关的数据，则其性能反而会下降。注意到这两点并不冲突，前一点是说预训练的模型的领域与DAPT选择的领域越不相关越好，后一点是说，在DAPT中，与该领域不相关的知识越少越好。但是在有些情况下，在任何数据上的预训练都会提高模型性能。另外，领域之间的边界往往并不十分明确，超出传统领域边界的可能会使DAPT更有效。

关于TAPT方法，作者假定任务语料是领域语料的子集。比起DAPT，TAPT的资源消耗往往更少，但是没有领域那么大的限制，比如即便是在ROBERTA的领域中，TAPT方法也能有较好的表现。

作者还将DAPT与TAPT组合起来，发现其性能更好，原因可能在于，即使在一个领域内，其数据的分布也可能不同。这是作者在做了Transfer实验后得出的结论。

最后，作者提出了一种数据选择的方法。TAPT直接将标注数据当作无标注数据进行预训练，数据量较小。有时候，我们能得到有标注的任务数据，还能得到无标注的大量任务数据。那如何在更少资源消耗的情况下，利用这些数据，成了作者关注的一个问题。作者考虑了两种情况，一种是人工构造，一种是自动选择。

人工构造方法就是人为地从RCT中选择500例，然后将RCT剩下的数据当作无标注数据。HYPERPARTISAN使用high-re中5k文档作为unlabeled数据，low-re用来fine-tuning。IMDB，使用由任务注释者手动整理的额外未标记数据，这些数据来自与标记数据相同的分布。最终得到的数据使模型表现出了更好的性能。

自动选择办法是作者提出的一个无监督轻量级的方法。首先使用VAMPIRE得到文本的嵌入，然后对每一个任务句子使用最近邻或者随机的方法进行文本数据的选择。然后在这个数据集上进行预训练。实验结果表明，该方法是有效的。