《预训练周刊》第61期：谷歌prompt双向语言模型、prompt的理解能力

No.61

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊我们选择了8篇预训练相关的研究论文，展示了来自知名大厂和顶尖院校关于提示理解、提示调优、双向模型提示、大模型语义句法、下游数据分析、表格数据迁移学习、酶底物预测、致病性预测的探索。此外，我们选择了3篇资源和观点，将介绍大模型分片操作代码、图像在线生成平台、有监督无监督的区分的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

【NLP研究】

标题：韩国KAIST | Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts（大型语言模型能否真正理解Prompt？带有否定Prompt的案例研究）了解详情

作者：Joel Jang , Seonghyeon Ye , Minjoon Seo等

简介：本文研究否定Prompt在大型语言模型上的效果。先前的工作表明，语言模型 (LM) 的大小与其在不同下游 NLP 任务上的零样本性能之间存在比例定律。在这项工作中，作者表明：在评估带有否定提示的任务上的大型 LM 时，这种现象并不成立，而是显示出逆比例定律。作者在：(1) 不同大小 (125M - 175B) 的预训练 LM (OPT & GPT-3)；(2) 进一步预训练以泛化到新提示 (InstructGPT) 的 LM；(3) 提供的 LM 上评估 9 个不同的任务和否定提示带有少量示例；(4) LMs 专门针对否定提示进行了微调。所有 LM 类型在否定提示上的表现都较差，因为它们在比较原始提示和否定提示的平均分数时会扩展并显示出人类表现之间的巨大性能差距。通过强调现有 LM 和方法的关键限制，作者建议：敦促社区开发新的方法来开发实际遵循给定说明的 LM。

论文下载：https://arxiv.org/pdf/2209.12711

源码下载：https://github.com/joeljang/negated-prompts-for-llms

标题：新加坡南洋理工大学 |Improving the Sample Efficiency of Prompt Tuning with Domain Adaptation（通过域自适应提高Prompt调优的采样效率）了解详情

作者：Xu Guo, Boyang Li and Han Yu

简介：本文研究用于Prompt提示调优的域适应。提示调优，或使用从数据中学习到的软提示对冻结的预训练语言模型 (PLM) 进行调节，已经在广泛的 NLP 任务中展示了令人印象深刻的性能。但是，提示调优需要大型训练数据集才能有效，并且在数据稀缺的情况下对整个 PLM 进行微调时效果要好得多。以前的研究者曾提出：将在源域上预训练的软提示转移到目标域。在本文中，作者探索了用于提示调优的域适应，这是关于：目标域的未标记数据在预训练期间有效可用的议题。作者建议使用 doMain Adaptation (OPTIMA) 增强提示调优，它将决策边界规范化为在源和目标数据分布相似的区域周围平滑。大量实验表明：与强基线相比，OPTIMA 显著提高了提示调优的可转移性和样本效率。此外，在小样本场景中，OPTIMA 大大超过了全模型调优。

论文下载：https://arxiv.org/pdf/2210.02952.pdf

标题：宾夕法尼亚大学、微软、谷歌等联合 | Bidirectional Language Models Are Also Few-shot Learners（双向语言模型亦可小样本学习）了解详情

作者：Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli,等

简介：本文研究双向语言模型上的Prompt提示学习。大型语言模型可以执行任意任务，而无需在仅使用几个标记示例进行提示后进行微调。可以将任意任务重新表述为自然语言提示，并且可以要求语言模型生成完成，以称为基于提示的学习的范式间接执行任务。迄今为止，基于紧急提示的学习能力主要针对单向语言模型进行了展示。然而，在去噪目标上预训练的双向语言模型为迁移学习提供了更强的学习表示。这激发了提示双向模型的可能性，但它们的预训练目标使它们在很大程度上与现有的提示范式不兼容。作者介绍了 SAP（顺序自回归提示）：一种能够提示双向模型的技术。利用机器翻译任务作为案例研究，作者使用 SAP 提示双向 mT5 模型，并证明其小样本和零样本翻译优于 GPT-3 等单向模型的小样本翻译和 XGLM，尽管 mT5 的参数减少了大约 50%。作者进一步表明 SAP 在问答和总结方面是有效的。作者的结果第一次证明，基于提示的学习是更广泛的语言模型类别的新兴属性，而不仅仅是单向模型。

论文下载：https://arxiv.org/pdf/2209.14500.pdf

标题：谷歌、麻省大学阿默斯特分校等联合 | COMPOSITIONAL SEMANTIC PARSING WITH LARGE LANGUAGE MODELS（大模型的复合语义句法分析）了解详情

作者：Andrew Drozdov, Nathanael Schärli, Ekin Akyuürek, 等

简介：本文研究在大模型语义句法分析上应用Prompt提示技术。当面临新任务时，人类可以进行组合推理。先前的研究表明，适当的提示技术使大型语言模型能够解决人工合成泛化任务（如 SCAN人工合成任务数据集）。在这项工作中，作者确定了具有更大词汇量的、更现实的语义解析任务中的挑战，并改进了这些提示技术来解决相关问题。作者最好的方法是基于最少到最多的提示（dynamic least-to-most prompt）：它使用基于提示的句法解析来分解问题，然后使用这种分解来选择适当的示例并顺序生成语义解析。该方法让研究者在 CFQ（大型KGQA数据集、组合式 Freebase 问题）设置达成新的SOTA效果，同时只需要传统方法使用的训练数据的 1%。鉴于本方法的通用性，作者预计相关努力将在其他任务和领域带来新的成果，特别是在知识密集型应用领域。

论文下载：https://arxiv.org/pdf/2209.15003.pdf

标题：卡内基梅隆大学 | Downstream Datasets Make Surprisingly Good Pretraining Corpora（下游数据集使预训练语料库：出人意料地效果良好）了解详情

作者：Kundan Krishna, Saurabh Garg, Jeffrey P. Bigham, 等

简介：本文研究大模型的背景语料库与下游数据集的效果对比。对于大多数自然语言处理任务，主要做法是使用较小的下游数据集微调大型预训练transformer模型（如BERT）。尽管这种方法取得了成功，但仍不清楚这些收益在多大程度上归因于用于预训练的大量背景语料库与预训练目标本身。本文介绍了自我预训练的大规模研究，其中相同的（下游）训练数据用于预训练和微调。在针对 ELECTRA 和 RoBERTa 模型以及 10 个不同的下游数据集的实验中，作者观察到自我预训练与 BookWiki 语料库上的标准预训练相媲美。令人惊讶的是，这些特定于任务的预训练模型通常在其他任务上表现良好，包括 GLUE 基准。作者的结果表明，在许多情况下，可归因于预训练的性能提升主要由预训练目标本身驱动，并不总是归因于大量数据集的合并。鉴于对网络规模预训练数据中的知识产权和攻击性内容的担忧，这些发现尤其重要。

论文下载：https://arxiv.org/pdf/2209.14389.pdf

【非结构化数据研究】

标题：伊利诺伊香槟分校 | TransTab: Learning Transferable Tabular Transformers Across Tables（TransTab: 学习表格间可迁移的表格式Transformer）了解详情

作者： Zifeng Wang, Jimeng Sun等

简介：本文介绍了表格数据的迁移和预训练方法。表格式数据是机器学习中最广泛使用的数据格式。然而，ML模型通常假设表结构在训练和测试中保持固定。在ML建模之前，需要进行大量的数据清理，以合并具有不同列的不同表格。本文建议通过为表引入一个可迁移的表格式Transformer（TransTab）来处理固定的表结构。TransTab的目标是将每个样本转换为一个可通用的嵌入向量，然后应用transformer进行特征编码，一个方法为将列描述和表格单元结合起来，作为门控transformer模型的原始输入；另一个方法是引入监督和自监督的预训练，以提高模型性能。总的来说，TransTab在监督学习、特征增量学习和迁移学习的12种方法中分别排名1.00、1.00、1.78；而预训练导致AUC比监督学习平均提升2.3%。

论文下载：https://arxiv.org/pdf/2205.09328.pdf

【生命科学研究】

标题：康奈尔、加州大学尔湾分校、哥大 | Predicting enzyme substrate chemical structure with protein language models（用蛋白质语言模型预测酶底物的化学结构）了解详情

作者： Mohammed AlQuraishi, Kyu Rhee等

简介：本文展示了蛋白预训练在酶底物预测上的应用。未注释的或孤儿酶的数量大大超过了那些已知底物化学结构的酶的数量。虽然存在一些酶的功能预测算法，但这些算法通常预测的是酶EC编号或酶家族。本文利用蛋白质语言模型、化学信息学和机器学习分类技术，通过预测底物的化学结构类别来加速孤儿酶的注释。本文以结核分枝杆菌的孤儿酶为案例，从预训练的、自监督的蛋白质语言模型ESM transformer中获得的蛋白质序列嵌入作为输入训练的机器学习分类模型，可以对各种各样的预测任务有很好的准确性。其中包括SDRs的氧化还原辅助因子偏好，SAM依赖性甲基转移酶的小分子与聚合物（即蛋白质、DNA或RNA）底物偏好，以及对两个酶家族的首选底物进行更详细的化学结构预测。

论文下载：https://doi.org/10.1101/2022.09.28.509940

标题：北大、西湖大学等 | Protein Language Model Predicts Mutation Pathogenicity and Clinical Prognosis（蛋白质语言模型预测突变致病性和临床预后）了解详情

作者：Ke Yuan, Fajie Yuan等

简介：本文评价了预训练模型在致病性预测上的效果。具体而言作者在两个与临床相关的任务中对最先进的预训练的蛋白质语言模型进行了基准测试，即识别致病突变和预测病人生存。本文提出了一个基于零样本的致病性突变预测任务的系统基准。实验结果表明，类似BERT的模型，如ESM-1b，比那些依赖生成模型的模型更适合该任务。本文还发现，预训练的蛋白质模型的大小与它预测致病性突变的性能不成正比。本文还证明：进化指数，一个基于蛋白质语言模型训练目标的分数，可以在多种癌症类型中实现统计学意义上的生存预测，预训练的蛋白质模型所捕获的致病性信息可以在六种癌症类型中区分出高风险和低风险的病人，这是迈向蛋白质语言模型临床效用的关键一步。

论文下载：https://doi.org/10.1101/2022.09.30.510294

工具代码

【工具资源】

标题：卡内基梅隆大学、美国东北大学 |Content-Based Search for Deep Generative Models（基于内容的深度生成模型搜索）了解详情

作者：Daohan Lu1，Sheng-Yu Wang， Nupur Kumari 等

简介：本文研究生成模型的搜索任务。预处理生成模型的日益增多使得用户不可能完全了解现有的每个模型。为了满足这一需求，作者引入了基于内容的模型搜索任务：给定一个查询和大量的生成模型，找到与查询最匹配的模型。因为每个生成模型都会生成图像的分布，所以作者将搜索问题定义为一种优化，以最大化给定模型生成查询匹配的概率。当查询是图像、草图、文本描述、另一个生成模型或以上两者的组合时，作者开发近似方法使这个问题易于处理。作者在一组生成模型的精度和速度上对该方法进行了基准测试。实验证明：作者的模型搜索可以为图像编辑和重建、小样本迁移学习和潜在空间插值检索合适的模型。最后，作者将搜索算法部署到在线生成模型共享平台https://modelverse.cs.cmu.edu/.

论文下载：https://arxiv.org/pdf/2210.03116.pdf

【代码学习】

标题：OneFlow的大模型分片保存和加载策略了解详情

简介：本文介绍了 OneFlow 的大模型分片保存、加载策略以及使用方法。OneFlow 的大模型分片保存和加载的实现基于全局视角的概念，既利用 Placement 与 SBP 完成模型文件在各个物理设备上的切分，适用于当模型大到无法在单个设备的内存或显存上容纳下的场景。对于模型并行，模型的参数分散在多个Rank上，在保存模型前通过 flow.utils.global_view.to_global() 将 state dict 里的每个 Tensor 在指定 Placement 上转为 Global Tensor，SBP 的类型为 flow.sbp.split，可以设置在特定维度上的切分。同样的，模型也可以按 Split 被加载。分片保存模型代码如下，更详细参见“了解详情”。

import oneflow as flow# 自定义 get_sbp 函数。
def get_sbp(state_dict, tensor):if tensor is state_dict["System-Train-TrainStep"]:return flow.sbp.broadcastif tensor is state_dict["module_pipeline"]["m_stage3.linear.weight"]:return flow.sbp.split(1)if tensor is state_dict["module_pipeline"]["m_stage3.linear.bias"]:return flow.sbp.broadcast
return flow.sbp.split(0)model_file_state_dict = flow.utils.global_view.to_global(
state_dict, placement=model_file_placement, sbp=get_sbp,
) # 使用 sbp=get_sbp 处理特殊的键，也支持指定普通的 SBP。
rank_id = flow.env.get_rank()# 保存模型分片的路径，一个 rank 对应一个路径。
state_dict_dir = "./graph_save_load_global_" + str(rank_id)
if flow.env.get_rank() in model_file_placement.ranks:flow.save(flow.utils.global_view.to_local(model_file_state_dict),state_dict_dir,)

观点分享

标题：有无监督的特性和选型了解详情

作者：OPPO | 机智的叉烧

简介：本文讨论有监督无监督的区别和选型。众所周知，有无监督区分的根本原因，其实就是在训练阶段是否有一个可供判别的标签；如果有、则是有监督，否则是无监督。作者认为，有监督能把模型往特定领域的识别能力更进一步，即更加能够适配场景，而与之相对的，无监督其实更倾向于更广泛意义的泛用，例如在语义相似度领域，句子表征领域，无监督意味着更加开放域、泛用性的一些相似度对比，但存在不可控性。因此，在进行有无监督的选型的时候，就需要从两者的特性出发来进行分析。如果你的场景是比较限定在某个领域里的，或者是业务定义比较强的任务，那更推荐有监督的学习。然而，如果标签数据真的很难拿到，甚至是包括数据增强之类的方案也搞不定，那其实可以降级，用半监督或者无监督来辅助。如果实在没办法，要用无监督了，在用无监督模型进行预测时，要加以筛选和调整，这样无监督模型就能起到很好的效果了。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

《预训练周刊》第61期：谷歌prompt双向语言模型、prompt的理解能力相关推荐

《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...
No.23 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...
No.11 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...
《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第17期：深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...
No.17 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请...
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第38期： Transformer、BERT结构优化
No.38 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了12篇预训练相关的论文,涉及句子表示.变换器结构优化.数据增强.网络结构优化.动态神经网络.模型压缩. ...
《预训练周刊》第35期：零样本规划器的语言模型：为智能体提取可操作的知识、LaMDA：对话应用的语言模型...
No.35 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了13篇预训练相关的论文,涉及动作规划.大模型改进.网络结构.零样本学习.对话模型.视频理解.机器翻译. ...

《预训练周刊》第61期：谷歌prompt双向语言模型、prompt的理解能力

《预训练周刊》第61期：谷歌prompt双向语言模型、prompt的理解能力相关推荐

最新文章

热门文章