《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度

No.12

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第11期《预训练周刊》，从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了10篇预训练相关的论文，涉及文本图像生成、视觉模型、激活函数、高效注意力网络、开放域问答、图结构编码、分子图学习、蛋白质语言模型、蛋白质序列学习和多重序列比对的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍变换器综述、音乐理解大规模模型等方面的一些最新内容。在资源下载方面，我们选择了3篇资源文章，将介绍时间常识推理，大模型训练框架和语音工具包方面的最新动态。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：清华、阿里、智源｜CogView: Mastering Text-to-Image Generation via Transformers（CogView：基于文本的图像生成变换器）了解详情

简介：通用领域中的文本到图像生成长期以来一直是一个悬而未决的问题，这需要生成模型和跨模式理解。我们提出CogView，一个 40 亿参数的 Transformer，带有 VQ-VAE 标记器以推进这个问题。我们还展示了各种下游的微调策略任务，例如风格学习、超分辨率、文本图像排名和时装设计，和稳定预训练的方法，例如消除非数值错误损失。CogView在模糊的MS COCO 上实现了新的最先进的 FID，表现优于以前的基于 GAN 的模型和最近的类似工作 DALL-E。

代码：https://github.com/THUDM/CogView

论文地址：https://arxiv.org/pdf/2105.13290v1.pdf

标题：谷歌、UCLA｜When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations（优于 ResNets的无预训练或强数据增强的视觉变换器）了解详情

简介：本文从损失几何的角度研究 ViTs 和 MLP-Mixers，旨在提高模型在训练和推理时的泛化数据效率。可视化和Hessian 揭示了收敛模型的极其尖锐的局部最小值。通过使用最近提出的锐度感知优化器提高平滑度，我们显着提高 ViT 和 MLP 混合器的准确性和鲁棒性跨越监督、对抗、对比和迁移学习的各种任务。我们证明改进的平滑度归因于前几层中较稀疏的活动神经元。在以下情况下，最终的 ViTs 优于具有相似大小和吞吐量的 ResNets在没有大规模预训练或强数据的情况下在ImageNet 上从头开始训练增强。他们还拥有更敏锐的注意力图。

论文地址：https://arxiv.org/pdf/2106.01548v1.pdf

标题：UCS、CMU、脸书｜Luna: Linear Unified Nested Attention（Luna：线性统一嵌套注意力）了解详情

简介：Transformer 注意力机制的二次计算和记忆复杂性限制了其对长序列建模的可扩展性。在这篇论文中，我们提出了 Luna，一种线性统一嵌套的注意力机制，用两个嵌套的线性注意力函数近似 softmax 注意力，产生只有线性（而不是二次）时间和空间复杂度。相比于一个更传统的注意力机制，Luna 引入了一个额外的序列以固定长度作为输入和额外的相应输出，这允许Luna 线性地执行注意力操作，同时还存储足够的上下文信息。我们对序列的三个基准进行了广泛的评估建模任务：长上下文序列建模、神经机器翻译和用于大规模预训练的掩码语言建模。

代码链接：https://github.com/XuezheMax/fairseq-apollo

论文地址：https://arxiv.org/pdf/2106.01540v1.pdf

标题：苹果｜An Attention Free Transformer（无注意力变换器）

了解详情

简介：我们引入了无注意力变换器，这是变换器的一种有效变体，它消除了对点积自注意的需要。在无注意力变换器层中，键和值首先与一组学习的位置偏差相结合，其结果以元素方式与查询相乘。这个新操作的内存复杂度为线性上下文大小和特征维度，使其兼容大输入和模型大小。我们还介绍了AFT-local和AFT-conv，这两种模型变体在保持全局连接的同时利用了局部性和空间权重共享的思想。对两个自回归建模任务以及一个图像识别任务进行了大量实验。

代码：https://github.com/ShenDezhou/aft-pytorch

论文地址：https://arxiv.org/pdf/2105.14103v1.pdf

标题：Mila-魁北克AI、麦吉尔大学、DeepMind|End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering（基于端到端训练的开放域问答多文档阅读器和检索器）了解详情

简介：我们提出了一种用于检索增强的端到端可微训练方法开放域问答系统，结合来自多个领域的信息生成答案时检索文档。我们将检索决策建模为相关文档集上的潜在变量。由于边缘化集合检索到的文档在计算上很困难，我们使用期望最大化算法。我们迭代地估计我们的潜在价值变量，然后使用它估计更新检索器和读取器参数。我们假设这样的端到端训练允许训练信号流向阅读器，然后流向阅读器检索器比分阶段训练更好。这导致检索器能够为问题选择更多相关文档，并为受过培训的读者选择更准确的文档以生成答案。

代码: https://github.com/DevSinghSachan/emdr2

论文地址：https://arxiv.org/pdf/2106.05346.pdf

标题：Inria大学|GraphiT: Encoding Graph Structure in Transformers（GraphiT：在 Transformer 中编码图结构）了解详情

简介：我们的模型GraphiT通过（1）利用相对基于图上正定核的自注意力得分中的位置编码策略，以及（2）枚举和编码局部子结构，例如短路径。我们彻底评估这两个想法在许多分类和回归任务上，证明了每一个的有效性他们独立，以及他们的组合。除了在标准基准测试中表现良好之外，我们的模型还承认用于解释图基序的自然可视化机制预测，使其成为需要解释的科学应用的潜在有力重要候选者。

代码：https://github.com/inria-thoth/GraphiT

论文地址：https://arxiv.org/pdf/2106.05667.pdf

标题：密歇根州立、Agios药业 | MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge（MoCL：分子图多层次领域知识对比学习）了解详情

简介：近年来，生物医学领域的学者开始利用图神经网络解决药物相关的问题。本文提出了一个生物医学领域中的新的分子图对比学习框架，MoCL，一种利用局部和全局层面的领域知识来帮助表征学习的方法。局部层面的领域知识指导增强过程，从而在不改变图语义的情况下引入变化，而全局层面的知识对整个数据集中的图之间的相似性信息进行编码，帮助学习具有更丰富语义的表示。两者结合，整个模型通过双重对比目标来学习。

论文地址：https://arxiv.org/pdf/2106.04509v1.pdf

标题：斯坦福、微软 | Evolutionary velocity with protein language models（借蛋白质语言模型论进化速度）了解详情

简介：预测生物同源的顺序是进化生物学的一项基本任务。对于蛋白质的进化来说，这种顺序通常是通过将序列排列成系统发育树来确定的。本文展示了语言模型如何学习预测进化方向性的突变可能性，从而实现系统发育分析。作者的主要想法是通过局部进化预测构建一个蛋白质进化的 "矢量场"，称之为进化速度。本文表明，进化速度可以成功地预测从病毒蛋白在几年内的进化到真核生物蛋白在地质年代的进化的不同时间尺度的进化秩序。该方法还产生了新的进化见解，预测了病毒-宿主免疫逃逸的策略，解决了关于蛇蛋白进化的冲突理论，并揭示了水平基因转移在真核生物糖酵解进化中的关键作用。本工作表明，语言模型可以学习足够的天然蛋白质进化规则以实现进化的可预测性。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.07.447389v1.full

标题：希伯来大学、美敦力等 | ProteinBERT: A universal deep-learning model of protein sequence and function（ProteinBERT：蛋白质序列和功能的通用深度学习模型）了解详情

简介：本文介绍了ProteinBERT，一个专门为蛋白质而设计的深度语言模型。本文的预训练方案包括将掩蔽的语言建模与基因本体（GO）注释预测的新任务相结合，同时引入了新的架构，使该模型对非常大的序列长度具有高度的效率和灵活性。ProteinBERT的架构由局部和全局表征组成，允许对这些类型的输入和输出进行端到端处理。尽管使用的模型远小于用于比较的深度学习方法，ProteinBERT在涵盖不同蛋白质属性的的9个新基准上获得了较相似量级的模型先进的性能，证明了其在标注数据有限的情况下仍然较好的效果。

论文地址：https://www.biorxiv.org/content/10.1101/2021.05.24.445464v1.full

标题：麻省理工 | Distillation of MSA Embeddings to Folded Protein Structures with Graph Transformers（用图transformer将MSA嵌入蒸馏成折叠的蛋白质结构）了解详情

简介：蛋白质结构预测一直是生物学的一个长期课题。近年来语言模型被用来捕捉蛋白质序列的进化语义，丰富以多重序列比对（MSA）的信息，语言模型可以编码蛋白质的三级结构。本文引入了一个基于注意力的图结构，利用MSA transformer的嵌入，直接从蛋白质序列中产生三维折叠结构。在ESM数据和CASP13数据上的比较说明，本文的模型能够捕捉到长距离的相互作用，而trRosetta在结构上仅限于捕捉短距离的依赖关系。作者预期这个流水线将成为高效的、端到端的蛋白质结构预测的基础。

论文地址：https://www.biorxiv.org/content/10.1101/2021.05.24.445464v1.full

研究动态

标题：复旦|A Survey of Transformers（变换器综述）

了解详情

简介：变换器在自然语言处理、计算机视觉和音频处理等诸多人工智能领域取得了巨大的成功。到目前为止，有各种各样的变换器变体。在本次调查中，我们对各种X-former进行了全面审查。我们先简要介绍原始变换器，然后提出新的X-former分类法，接下来我们从架构修改、预训练、应用三个角度分析各种X-former。

论文地址：https://arxiv.org/pdf/2106.04554v1.pdf

标题：微软|MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training（MusicBERT：符号音乐理解大规模预训练）了解详情

简介：我们开发了 MusicBERT，用于音乐理解的大规模预训练模型。为此，我们构建了一个包含超过100万首音乐歌曲的大型符号音乐语料库。自从象征性音乐包含更多的结构性和各种信息（例如，速度、乐器和音高），只需采用 NLP 的预训练技术即可象征性的音乐只会带来边际收益。因此，我们设计了几种机制，包括 OctupleMIDI 编码和 bar-level掩蔽策略，以增强预训练符号音乐数据。实验证明了 MusicBERT 在四个方面的优势音乐理解任务，包括旋律完成，伴奏建议，流派分类，风格分类。

论文地址：https://arxiv.org/pdf/2106.05630v1.pdf

资源下载

标题：谷歌、华盛顿大学｜TIMEDIAL: Temporal Commonsense Reasoning in Dialog（TIMEDIAL：对话中的时间常识推理）了解详情

简介：在本文中，我们通过引入一项新任务和一个众包英语挑战集 TIMEDIAL，展示了第一个研究预训练语言模型的时间推理能力 indialogs。我们将 TIME-DIAL 制定为一项多项选择完形填空任务，其中包含超过 1.1K 精心策划的对话。此外，我们的分析表明，模型未能正确推理对话上下文；相反，他们依赖于基于上下文中现有时间模式的浅层线索，激励未来的研究对文本中的时间概念进行建模以及对它们进行稳健的上下文推理。

数据集：https://github.com/google-research-datasets/timedial

论文地址：https://arxiv.org/pdf/2106.04571v1.pdf

标题：清华、智源、循环AI｜FASTMOE: A FAST MIXTURE-OF-EXPERT TRAINING SYSTEM（FASTMOE：快速混合专家训练系统）了解详情

简介：在本文中，我们提出了 FastMoE，一种基于分布式 MoE 训练系统带有常见加速器的 PyTorch。系统提供分层界面灵活的模型设计和轻松适应不同的应用程序，例如Transformer-XL 和 Megatron-LM。与直接执行不同MoE 模型使用 PyTorch，训练速度在 FastMoE 中被高度优化复杂的高性能加速技能。系统支持放置跨多个节点的多个 GPU 上的不同专家，从而能够扩大专家数量与 GPU 数量呈线性关系。

代码：https://github.com/laekov/fastmoe

论文地址：https://arxiv.org/pdf/2103.13262v1.pdf

标题：蒙特利尔大学、LIA-阿维尼翁大学、俄亥俄州立大学等|SpeechBrain: A General-Purpose Speech Toolkit（SpeechBrain：通用语音工具包）了解详情

简介：SpeechBrain 是一个开源的一体化语音工具包。它旨在促进神经语音处理技术的研发，简单、灵活、用户友好且文档齐全。这篇论文描述了旨在支持多个共同感兴趣的任务的核心架构，允许用户自然地构思、比较和分享新颖的语音处理流水线。SpeechBrain 在广泛的范围内实现了具有竞争力或最先进的性能的语音基准。它还提供训练配方、预训练模型和流行语音数据集的推理脚本，以及允许任何人的教程具有基本的 Python 能力以熟悉语音技术。

代码：https://github.com/speechbrain/speechbrain

论文地址：https://arxiv.org/pdf/2106.04624.pdf

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度相关推荐

《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...
No.22 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...
《预训练周刊》第51期：无重构预训练、零样本自动微调、一键调用OPT
No.51 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第9期：TABBIE：表格数据的预训练表示、「视觉预训练神作」：不用图片却训出图像识别SOTA？...
No.09 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第9期< ...
《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG
No.07 智源社区预训练组预训练研究观点资源活动关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...
《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...
《预训练周刊》第40期：量子预训练、千层BERT与GPT
No.40 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第38期： Transformer、BERT结构优化
No.38 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了12篇预训练相关的论文,涉及句子表示.变换器结构优化.数据增强.网络结构优化.动态神经网络.模型压缩. ...
《预训练周刊》第34期：使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...
No.34 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及图像处理.图像理解.语言模型调优.常识问答.大模型隐私泄漏.文本分类.多模 ...

《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度

《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度相关推荐

最新文章

热门文章