《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...

No.21

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第21期《预训练周刊》，从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了10篇预训练相关的论文，涉及提取式问答、数据增强、开放域聊天、语言模型训练、抗体设计、蛋白质结构设计、蛋白结构表示、变换器综述、机器翻译和知识增强预训练的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍预训练卷积、人脸识别和预训练方法等方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：特拉维夫大学、脸书|How Optimal is Greedy Decoding for Extractive Question Answering?（提取式问答的贪婪解码有多好？）了解详情

推荐理由：作者提出的精确提取算法在多项问答数据集中取得接近最优效果

简介：微调的语言模型使用贪婪解码来相对成功地回答阅读理解问题。但是，这种方法并不能确保答案是在给定的段落中的短句，也不保证它是最可能的。做贪婪解码实际上比段落提取算法差吗？研究最优性贪婪解码和性能，我们提出"精确提取"，一种解码算法，可以有效地找到文章中最可能的答案跨度。我们比较T5与两种解码算法在零样本和少样本上的抽取式问答性能，当没有训练样本时，精确提取明显优于贪婪解码；然而，有可用的训练样本时，引入一些训练示例贪婪解码迅速收敛到精确提取的性能，随着训练集增长，贪婪解码变得更具提取性，并且越来越有可能生成最可能的跨度。我们还表明，自我监督训练可以使模型偏向于提取行为，提高性能零样本设置而不求助于带注释的示例。总的来说，我们的结果表明预训练的语言模型非常擅长自适应抽取式问答，即通常对贪婪算法的小型训练集进行微调就满足最优解码策略。

代码地址：https://github.com/ocastel/exact-extract

论文地址：https://arxiv.org/pdf/2108.05857v1.pdf

标题：清华｜FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning（FlipDA：有效且稳健的数据增强小样本学习）了解详情

推荐理由：自然语言理解方面的数据增强算法，取得了大部分测评的最佳效果

简介：大多数以前的文本数据增强方法仅限于简单的任务和弱基线。我们探索了困难任务的数据增强和强基线（即具有超过一个亿参数的预训练模型）。在这个设定下，我们调研了大量以前的增强方法，并发现这些方法最多只能带来边际收益，甚至有时会大大降低性能。为了应对这一挑战，我们提出了一种新的数据增强方法FlipDA，它联合使用生成模型和分类器来生成标签翻转数据。FlipDA理念的核心是发现生成标签翻转数据对性能更重要而不是生成标签保留的数据。实验表明，FlipDA实现了有效性和稳健性之间的良好折衷——它大大提高了许多任务的性能，同时不会对其他任务产生负面影响。

代码地址：https://github.com/zhouj8553/FlipDA

论文地址：http://arxiv.org/pdf/2108.06332.pdf

标题：苹果、布朗大学、亚马逊｜Low-Resource Adaptation of Open-Domain Generative Chatbots（开放域低资源适应的生成式聊天机器人）了解详情

推荐理由：在开放式对话领域，减少了90%参数量，同时维持大模型效果

简介：在构建开放域聊天机器人领域，最近的工作已经证明增加模型大小可以提高性能。另一方面，延迟和连接性方面的考虑决定了数字助理在设备上的便携性。像Siri、Alexa或Google Assistant一样讨论任何事情的能力的数字助理需要减少聊天机器人模型的大小。我们证明了低参数模型可以同时保持他们的一般知识会话能力，同时提高特定的领域效果。此外，我们提出了一个通用的考虑到问题类型的多样性、在多轮对话中跟踪参考并消除不一致的框架和潜在的毒性反应。我们的框架在聊天之间无缝转换并执行事务性任务，这将最终使与数字助理的交互更加人性化。我们根据1个内部基准和4个公共基准评估我们的框架使用混淆度和人类评估指标并建立可比较的性能，同时将模型参数减少90%。

代码地址：https://github.com/facebookresearch/ParlAI

论文地址：http://arxiv.org/pdf/2108.06329.pdf

标题：谷歌｜Large-Scale Differentially Private BERT（大规模差分私有BERT）了解详情

推荐理由：我们在软件和硬件方面取得了最新进展并为使用差分私有的BERT-Large预训练建立基线。该模型通过将批量大小扩展到数百万个实例并使用其他优化，例如提高标准化层下网络的可训练性和测量梯度信噪比度量，实现了高精度。

简介：在这项工作中，我们研究了具有差分私有SGD(DP-SGD)的BERT-Large的大规模预训练。结合仔细的实施，将批次大小扩大到数百万提高了DP-SGD的BERT效用；我们还通过增加批次大小计划来提高其效率。我们的实现建立在最近的工作之上，有的学者证明了通过有效使用JAX原语，结合XLA编译器，最小化DP-SGD步数的降低开销。我们的实现在2M的批次大小下实现了60.5%的掩码语言模型准确率，损失为5.36。正确看待此数字，非私有BERT模型的准确率约为70%。

论文地址：https://arxiv.org/pdf/2108.01624v1.pdf

标题：默克、布拉格化工大学 | BioPhi: A platform for antibody design, humanization and humanness evaluation based on natural antibody repertoires and deep learning （BioPhi：抗体设计，人源化和评估平台）了解详情

推荐理由：基于免疫组库测序的预训练语言模型在抗体上的应用

简介：尽管最近在转基因动物模型和显示技术方面取得了进展，小鼠序列的人源化仍然是治疗性抗体开发的主要途径。本文提出了BioPhi，一个具有人源化和人源化评估功能平台。Sapiens是一种通过蛋白质语言模型对OAS抗体序列数据库进行训练的人源化方法，基于177种抗体的虚拟人源化基准，Sapiens可以大规模产生序列，并取得了与人类专家相媲美的结果。OASis是一个基于OAS中长度为9的多肽搜索的可解释人源化评分系统，可以将人类和非人类的序列高度准确地分开，并与临床免疫原性相关联。

论文地址：https://www.biorxiv.org/content/10.1101/2021.08.08.455394v1

标题：清华、伊利诺伊香槟分校 | Deep geometric representations for modeling effects of mutations on protein-protein binding affinity （用于建模突变对蛋白质-蛋白质结合亲和力影响的深度几何表征）了解详情

推荐理由：自监督图神经网络提取蛋白表征

简介：模拟氨基酸突变对蛋白质-蛋白质相互作用的影响在蛋白质工程和药物设计中起着关键作用。本文开发了GeoPPI，一个基于结构的深度学习框架来预测突变后的结合亲和力的变化。基于蛋白质的三维结构，GeoPPI首先通过自监督的学习方案，学习编码蛋白质结构拓扑特征的几何表征。然后，这些表征被用作训练梯度增强树的特征，以预测突变后蛋白质-蛋白质结合亲和力的变化。通过实验，作者发现GeoPPI在预测六个基准数据集的单点和多点突变后的结合亲和力变化方面取得了新的先进性能。另外，本文表明GeoPPI可以准确地估计最近发现的几种SARS-CoV-2抗体与S蛋白的受体结合域之间的结合亲和力差异。

论文地址：https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1009284

标题：芝加哥丰田计算技术研究所 | Deep graph learning of inter-protein contacts （蛋白质间接触的深度图学习）了解详情

推荐理由：预训练语言模型和图神经网络的多模态联用

简介：蛋白质间接触预测对于蛋白质-蛋白质相互作用的虚拟结构表征非常有用。本文提出了一种新的深度学习方法GLINTER，通过蛋白质三级结构的旋转不变表征和多重序列比对的预训练语言模型进行二聚体的界面接触预测。在CASP-CAPRI数据集上测试表明，GLINTER在同源二聚体上实现的平均最高L/10精度为54.35%，在所有二聚体上为51.56%，远远高于最新深度学习方法。本文的实验表明，GLINTER预测的接触有助于改善对接诱饵的选择，适用于蛋白质组尺度的蛋白质-蛋白质相互作用和复合物的研究。

论文地址：https://www.biorxiv.org/content/10.1101/2021.08.14.456342v1

标题：NIT Trichy、Nference | AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing （AMMUS：自然语言处理中基于Transformer的预训练模型综述）了解详情

推荐理由：基于Transformer的NLP预训练综述

简介：基于Transformer的预训练语言模型已经在几乎所有的NLP任务中取得了巨大的成功，这些模型的演变始于GPT和BERT等建立在Transformer、自监督学习和迁移学习之上的模型。基于Transformer的预训练语言模型利用自监督学习从大量的文本数据中学习通用语言表征，并将这些知识迁移到下游任务中。在这篇全面的调研报告中，作者首先对自监督学习进行了简要概述。接下来，解释了各种核心概念，如预训练、预训练方法、预训练任务、嵌入和下游自适应方法。最终本文提出了一个新的预训练模型分类法，然后简要介绍了各种基准，包括内在的和外在的。本文同时总结了各种有用的库来处理预训练模型。

论文地址：https://arxiv.org/pdf/2108.05542v1.pdf

标题：ACL 2021|腾讯AI Lab、港中文：用单语记忆实现高性能神经机器翻译(NMT)了解详情

推荐理由：提出了一种改善双语语料库作为翻译记忆库的新方法，使用单语记忆并以跨语言方式执行可学习的记忆检索。

简介：与使用双语语料库作为翻译记忆库（TM）并采用源端相似性搜索进行记忆检索的现有工作相比，腾讯AI Lab与香港中文大学提出了一种新框架，该框架使用单语记忆并以跨语言方式执行可学习的记忆检索。该研究首先将翻译任务转化为两步过程：检索和生成，并在论文中描述了跨语言记忆检索模型和记忆增强型翻译模型的模型设计。最后，该论文展示了如何使用标准最大似然训练联合优化这两个组件，并通过交叉对齐预训练解决了冷启动问题。值得注意的是，即使不使用额外单语数据，这种方法也要优于使用双语TM的基线方法。由于能够利用单语数据，该研究还证明了所提模型在低资源和领域适应场景中的有效性。

论文地址：https://arxiv.org/abs/2105.11269

标题：谢菲尔德大学、杜汉姆大学|ExBERT：外部知识增强型的自然语言推理了解详情

推荐理由：为自然语言推理（NLI）引入外部知识的预训练模型

简介：在大规模非结构化语料库上预先训练的神经语言表示模型缺乏对现实世界常识知识的明确基础，通常无法记住推理和推理所需的事实。我们为NLI引入了一种称为外部知识增强型BERT新模型：ExBERT，以使用来自外部知识源的现实世界常识知识来丰富上下文表示，并增强BERT的语言理解和推理能力。ExBERT充分利用从BERT获得的上下文词表示，并利用从知识图中检索相关的外部知识并对检索到的外部知识进行编码。该模型自适应地结合了对输入进行推理所需的外部知识上下文。在具有挑战性的SciTail和SNLI基准上进行的大量实验证明了ExBERT的有效性：与之前的最新技术相比，我们在SciTail上获得了95.9%的准确率，在SNLI上获得了91.5%的准确率。

论文地址：https://arxiv.org/pdf/2108.01589

研究动态

标题：NLP任务非Transformer不可？谷歌大规模研究发现预训练卷积模型往往更优了解详情

简介：在当前NLP领域，基于Transformer的模型可谓炙手可热，其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升，也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考：预训练是否也能提升卷积在NLP任务上的效果？近日，资源雄厚的Google Research的一项大规模实证研究填补了这一空白。结果发现，在许多NLP任务上，预训练卷积模型并不比预训练Transformer模型更差。

标题：基于人脸图像复原和人脸转正联合模型的人脸识别方法了解详情

简介：在现实生活中许多因素可能会影响人脸识别系统的识别性能。为了应对这些挑战，之前的人脸识别方法通常先把低质量的人脸图像恢复成高质量人脸图像，然后进行人脸识别。但这些方法大多是阶段性的、不是最优方案。本文中提出一种多退化因子的人脸复原模型MDFR，来一次性解决所有的这些影响因素。MDFR可以从给定的多姿态、多重低质量因素影响的人脸图像中复原其高质量的正面人脸图像。MDFR是一个设计良好的编码器-解码器网络结构。在模型的构建中，作者引入了姿态残差学习策略，以及一个基于3D的姿势归一化模块PNM，该模块可以感知输入人脸姿态和正面人脸姿态之间的差异，以此差异来指导人脸的转正学习。实验表示，训练完成之后的MDFR可以通过一个单一化的网络，一次性地从多重低质量因素影响的侧面人脸图像中恢复其高清的正面人脸图像，并有效的提高人脸算法的识别率。

标题：ACL2021|多粒度输入信息不降低推理速度，腾讯看点和阿尔伯塔大学提出高效预训练方法LICHEE了解详情

简介：现有的预训练语言模型大多是基于单粒度训练而成的，通常伴随细粒度的字符或sub-word，这使其很难学习粗粒度词汇和短语的准确含义。为了得到更加准确的模型，部分研究者试图通过在预训练阶段mask连续token的序列，将粗粒度信息纳入到用细粒度分词训练的模型中。还有研究者提出了一种可以处理多粒度输入文本的模型AMBERT：利用两个具有共享权重的编码器将细粒度token和粗粒度token分别编码为两个上下文表示序列。AMBERT效果尚可、但推理成本却比原始BERT高了约一倍，这在业界的很多场景下都是不可接受的。在本文提出了一种简单但高效的预训练方法：荔枝LICHEE。该方法可以在预训练阶段有效利用多种粒度的输入信息来增强预训练语言模型的表示能力。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...相关推荐

《预训练周刊》第20期：EVA：包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...
No.20 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第20期&l ...
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...
No.13 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...
《预训练周刊》第25期：HyperCLOVA：数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
No.25 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...
No.23 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...
《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...
No.22 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
《预训练周刊》第17期：深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...
No.17 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...

《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...

《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...相关推荐

最新文章

热门文章