《预训练周刊》第27期：谷歌发布最新看图说话模型、GitHub：平台上30%的新代码受益于AI助手Copilot...

No.27

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

本期周刊，我们选择了9篇预训练相关的论文，涉及少样本理解、图像检测、决策图、大模型微调、对话微调、分子建模、蛋白质结构预测、生物医学综述和文本分类的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍代码生成和图文生成方面的一些最新内容。最后，在资源推荐方面，我们选择了1篇预训练资源，将介绍大模型知识增强方面的一些最新资源。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：清华、智源、MIT等｜FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding（FewNLU：用于少样本自然语言理解的最先进方法基准测试）了解详情

作者：Yanan Zheng, Jie Tang, Sebastian Ruder, Zhilin Yang等

简介：本文提出一种少样本公平衡量方法。少样本的自然语言理解任务最近引起了很多关注，作者引入了一个评估框架来改进之前在三个关键方面的评估程序，即测试性能、开发测试相关性和稳定性。在这个新的评估框架下，作者重新评估了NLU任务的几种最先进的小样本方法。作者开源了FewNLU，它实现了评估框架以及一些最先进的方法。

代码地址：https://github.com/THUDM/FewNLU

论文地址：https://arxiv.org/pdf/2109.12742.pdf

标题：谷歌|PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION（PIX2SEQ：语言建模框架用于物体检测）了解详情

作者：Ting Chen, Geoffrey Hinton

简介：本文介绍了一种序列框架用于图像物体检测任务。作者简单地将对象检测作为一种语言建模任务，其条件是观察到的像素输入。对象描述被表示为离散标记序列，作者训练一个神经网络来感知图像并生成所需的序列。基于直觉是，如果神经网络知道对象位置及类别，只需要教它如何读出它们。除了使用特定于任务的数据增强，作者的方法对任务做了最小的假设，相比于高度专门和优化的检测算法，但它在COCO数据集上取得了有竞争力的结果。提出的 Pix2Seq 框架不仅适用于对象检测，而且还可以用于应用于其他产生低带宽输出的视觉任务，其中输出可以表示作为相对简洁的离散标记序列。

论文地址：https://arxiv.org/pdf/2109.10852v1.pdf

标题：洛桑联邦理工学院、康奈尔大学｜Tree in Tree: from Decision Trees to Decision Graphs（树中树：从决策树到决策图）了解详情

作者：Bingzhao Zhu, Mahsa Shoaran

简介：本文提出一种决策树的改进算法。这个论文介绍了树决策图（TnT）中的树，这是一个扩展传统决策树到更通用和更强大的有向无环图。TnT通过递归增长决策树来构建决策图内部或叶节点，而不是贪婪训练。TnT的时间复杂度为与图中节点数成线性关系，可以构建决策图在大型数据集上。与决策树相比，作者表明TnT实现了更好的减少模型大小的分类性能，均作为独立分类器并作为bagging/AdaBoost集成中的基本估计器。作者提出的模型是广泛使用的决策树的新颖、更有效和准确的替代方案。

论文地址：https://arxiv.org/pdf/2110.00392v2.pdf

标题：清华、智源|P-Tuning v2: Prompt Tuning Can Be Comparable to Finetuning Universally Across Scales and Tasks（P-Tuning v2：即时调优与跨规模和任务的通用微调相媲美）

了解详情

作者：Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhilin Yang, Jie Tang等

简介：本文介绍了一种微调大模型的快速有效方法。提示调优，只调优连续使用冻结的语言模型提示，大大减少了训练时每个任务的存储和内存使用。之前的工作和作者的结果表明，现有的快速调优方法对于正常大小的预训练模型在上下文NLU中表现不佳；对于较难的序列任务，缺乏普遍性。作者提出适当优化的提示调整可以在不同尺寸模型和NLU任务广泛的范围内普遍有效，它媲美微调的性能，同时具有只有0.1%-3%的调谐参数。P-Tuning v2不是一种新方法，而是针对NLU优化和改编的前缀调整版本。

代码地址：https://github.com/THUDM/P-tuning-v2

论文地址：https://arxiv.org/pdf/2110.07602v1.pdf

标题：英国宝莱AI | CONVFIT: Conversational Fine-Tuning of Pretrained Language Models（ConvFiT：预训练语言模型的会话微调）了解详情

作者： Ivan Vulić、 Pei-Hao Su、 Sam Coope等

简介：本文研究会话领域中预训练模型作为编码器的转化。基于Transformer的语言模型、对大型文本数据的预训练，被证明储存了丰富的语义知识。然而，1) 它们在现成使用时不能有效地作为句子编码器，并且 2) 在会话任务之中通常会落后于会话预训练编码器、如意图检测（ID）。在这项工作中，作者提出了 ConvFiT-预训练语言模型的会话微调两阶段任务：先将任意预训练的语言模型转化为通用对话编码器；然后再转化为任务专用的句子编码器。作者证明了 1) 成熟的会话预训练不是必需的，并且语言模型可以快速转换为有效的会话编码器；2)预训练的语言模型可微调为任务专用的句子编码器，针对特定任务的细粒度语义进行优化。实验表明：基于ConvFiT的语言模型已全面实现了最先进的 ID 性能，特别是在个别设置的最具挑战性的方向上。

论文地址：https://arxiv.org/pdf/2109.10126

标题：哥伦比亚大学、浙大、耶鲁 | 3D-Transformer: Molecular Representation with Transformer in 3D Space（3D-Transformer: 在三维空间中用Transformer进行分子表征）了解详情

作者：Fang Wu, Huajun Chen 等

简介：三维空间结构对于确定分子的特性非常重要，而传统几何深度学习在捕捉输入原子的长距离依赖性方面计算成本很高，而且没有考虑到原子间距离的不均匀性。本文介绍了3D-Transformer，它开发了一个多尺度的自注意力模块，利用局部细粒度的模式来增加背景尺度，并设计了一个自适应位置编码模块，对小分子和大分子采用不同的位置编码方法。为了从原子嵌入中获得分子表征，本文提出了一种关注最远点采样算法，该算法在注意力分数的帮助下选择一部分原子，克服了虚拟节点和以前距离主导的下采样方法的障碍。本文在量子化学、材料科学和蛋白质组学上验证了效果，在晶体性质预测任务和蛋白质-配体结合亲和力预测任务中，3D-Transformer比最先进的预训练模型有明显的改进。

论文地址：https://arxiv.org/abs/2110.01191v2

标题：密苏里大学 | Geometric Transformers for Protein Interface Contact Prediction（用于蛋白质接触界面预测的几何Transformer）了解详情

作者：Alex Morehead, Chen Chen, Jianlin Cheng

简介：预测蛋白质之间的界面接触在药物发现中很重要，因为它们可以显著提高蛋白质-蛋白质对接、蛋白质功能分析和其他蛋白质生物信息学的计算方法的准确性。本文提出了几何Transformer，用于旋转变换不变的蛋白质界面接触预测，其预训练模型被整合在一个端到端的预测流程DeepInteract中。DeepInteract以两个蛋白质的三级结构为输入，预测特定的蛋白质界面接触。作者在互动蛋白质结构增强数据库（DIPS-Plus）和第13和第14届CASP-CAPRI的蛋白质复合物任务上分别达到17%和13%的最高L/5精度，优于现有的界面接触预测方法，从而验证了几何Transformer在学习丰富的几何特征方面的有效性，可用于三维蛋白质结构的下游任务。

论文地址：https://arxiv.org/abs/2110.02423v1

标题：曼彻斯特大学、Mila等 | Pre-trained Language Models in Biomedical Domain: A Systematic Survey（生物医学领域的预训练语言模型：系统综述）了解详情

作者：Benyou Wang, Qianqian Xie

简介：预训练语言模型已经成为大多数自然语言处理任务的事实范式，同时来自信息学、医学和计算机科学界的研究人员也提出了各种在生物医学数据集上训练的预训练模型，如生物医学文本、电子健康记录、蛋白质和DNA序列等。然而，生物医学预训练的跨学科特点阻碍了它们在社区中的传播，现有的工作是相互孤立的，没有全面的比较和讨论。本文系统地回顾生物医学预训练模型的最新进展和它们的应用，而且规范了术语和基准，同时总结了预训练语言模型在生物医学领域的最新进展以及它们在生物医学下游任务中的应用，特别是动机，并提出了现有生物医学预训练的分类法。最后，本文详尽地讨论了它们在生物医学下游任务中的应用，并说明了现在研究的局限性和未来的趋势，希望这能为研究界的未来研究提供灵感。

论文地址：https://arxiv.org/abs/2110.05006v2

标题：马普所、早稻田大学等 | A Legal Approach to Hate Speech: Operationalizing the EU's Legal Framework against the Expression of Hatred as an NLP Task（处理仇恨言论的法律方法：将欧盟反对仇恨的法律框架视为一个NLP任务）了解详情

作者：Frederike Zufall, Marius Hamacher 等

简介：本文提出了一种检测仇恨言论的 "法律方法"，将决定一个帖子是否受刑事法律约束的任务转化为一个NLP任务。现有的仇恨言论的监管制度中，准确判断一个帖子是否应受惩罚通常需要法律培训。作者以欧盟的框架为基础训练了一个GBERT-base分类器，将一个帖子作为输入，并估计该帖子是否应受惩罚。实验表明，通过将法律评估分解成一系列更简单的子决策，即使是外行也能进行注释。本文在新数据集的实验表明，直接学习一个可惩罚内容的自动模型是具有挑战性的。然而不使用端到端的可惩罚性方法，而是转为学习 "目标群体 "和 "目标行为 "这两个子任务会产生更好的结果。总的来说，本文的方法还提供了比端到端模型更透明的决策，这是法律决策中的一个关键点。

论文地址：https://arxiv.org/abs/2004.03422v3

研究动态

标题：GitHub：平台上30%的新代码受益于AI助手Copilot了解详情

简介：GitHub Universe大会举办期间，公司副总Oege de Moor在Axios的采访中表示，基于OpenAI GPT-3派生模型Codex的AI编程助手服务Copilot很受程序员欢迎。现在GitHub上30%的新代码已经是在Copilot的帮助下编写的，虽然目前还在技术预览阶段（使用需要排队），但已经尝试过这一服务的程序员有一半继续使用。Copilot目前已经支持Python, JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript甚至Shell语言，对Python的支持最好。它可以将注释或者语音命令转换成整行代码甚至完整的程序（比如简单的小游戏），在比较复杂的场景下，它也能大大提升程序员效率，减少出错。这次大会，Copilot除了VS Code编辑器之外，又扩展到了Neovim和JetBrains的IDE产品，包括IntelliJ IDEA和PyCharm的最新版本。

标题：谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手了解详情

简介：谷歌新推出了弱监督看图说话模型SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。从文字描述图像到回答图片相关问题，模型无需微调也能样样精通。对于一般的视觉语言预训练（VLP）模型，训练数据集中要求包含大量精准标签。而模型的任务迁移，则需要针对特定任务重新进行数据集的标签标注。总结下来，就是标注数据集不仅耗时耗力，还不能多任务通用。能不能开发出一种又简单又万能的VLP模型呢？谷歌新开发的这款模型使用了弱监督学习进行模型训练，通过利用大量的弱对齐图像-文本对进行建模，简化了VLP的训练流程，大大降低了训练的复杂性。SimVLM使用前缀语言建模的单一目标进行端到端训练，并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用，从而能够更好地实现零样本学习泛化效果。

资源推荐

标题：亚马逊最新《知识增强预训练语言模型》，全面综述知识嵌入预训练模型以及在NLU与NLG应用了解详情

简介：预训练语言模型通过在大规模文本语料库上学习信息语境化表示，建立了一种新的范式。这种新的范式已经彻底改变了整个自然语言处理领域，并为各种NLP任务设置了新的最先进的性能。然而，尽管PLM可以从训练语料库中存储一定的知识/事实，但它们的知识意识还远远不能令人满意。为了解决这个问题，将知识集成到PLM中已经成为一个非常活跃的研究领域，并且已经开发了各种各样的方法。在本文中，我们对这一新兴和快速发展的领域-知识增强的预训练语言模型(KE-PLMs)提供了一个全面的文献综述。我们引入三种分类法来对现有工作进行分类。此外，我们还调研了各种NLU和NLG应用，在这些应用上，KE-PLM表现出了优于普通PLM的性能。最后，讨论了KE-PLMs面临的挑战和未来的研究方向。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第27期：谷歌发布最新看图说话模型、GitHub：平台上30%的新代码受益于AI助手Copilot...相关推荐

谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达兴坤发自凹非寺量子位报道 | 公众号 QbitAI 谷歌新推 ...
看图说话实战教程 | 第三节 | 模型构建及训练
欢迎来到<看图说话实战教程>系列第三节.在这一节中,我们正式进入看图说话深度模型的构建与训练. 文章目录 1. 加载数据 2. 构建模型 3. 拟合模型 4. 完整代码 5. 结束语 1. ...
《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...
No.11 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...
《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG
No.07 智源社区预训练组预训练研究观点资源活动关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...
《预训练周刊》第4期：智源「悟道1.0」发布、GPT-3对新一代APP的赋能路径
No.04 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第4期< ...
《预训练周刊》第61期：谷歌prompt双向语言模型、prompt的理解能力
No.61 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第40期：量子预训练、千层BERT与GPT
No.40 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第25期：HyperCLOVA：数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
No.25 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...

《预训练周刊》第27期：谷歌发布最新看图说话模型、GitHub：平台上30%的新代码受益于AI助手Copilot...

《预训练周刊》第27期：谷歌发布最新看图说话模型、GitHub：平台上30%的新代码受益于AI助手Copilot...相关推荐

最新文章

热门文章