《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...

No.22

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第22期《预训练周刊》，从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了12篇预训练相关的论文，涉及基础模型综述、无监督学习、视觉变换器原理、3D物体生成、加法变换器、实体关系学习、感知机设计、代码生成、医学多模态、文本排名、编程语言生成和机器翻译的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍代码蛋白质建模和文本排序方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：斯坦福｜On the Opportunities and Risks of Foundation Models（论基础模型的机遇与风险）

作者：Rishi Bommasani、Drew A. Hudson等

简介：本文从大模型的能力、原理、技术、应用等方面分析了当前流行模型。随着模型（例如 BERT、DALL-E、GPT-3）的兴起，人工智能正在经历范式转变，这些模型在大规模的广泛数据上进行训练并且能够适应各种下游任务。作者称这些模型为基础模型，为了强调它们至关重要但不完整的特征。本报告全面介绍了基础模型的机遇和风险，包括其能力和技术原理的应用和社会影响。

论文地址：https://arxiv.org/pdf/2108.07258v1.pdf

标题：哥伦比亚大学, 亚马逊, 东北大学等|Enhancing Few-Shot Image Classification with Unlabelled Examples（使用未标记的示例增强少样本图像分类）

作者：Peyman Bateni、Jarred Barber

简介：本文在元数据集、mini-ImageNet 和分层 ImageNet 基准上达到最先进性能。作者开发了一种转导元学习方法，使用未标记的实例来提高少样本图像分类性能。作者的方法将基于正则化的Mahalanobis距离的软K均值聚类程序与最先进的神经自适应特征提取器相结合，以使用未标记的数据提高测试时分类准确性。由此产生的架构转导CNAPS 在产生有用的类均值和协方差估计方面更有效，尤其是在小样本测试时使用时。尽管作者证明作者的方法在转导中的有效性，查询示例本身用作未标记数据的领域，作者的软K均值聚类程序可以自然地扩展到使用其他未标记示例来源一种半监督的范式。

论文地址：https://arxiv.org/pdf/2006.12245v5.pdf

标题：谷歌|Do Vision Transformers See Like Convolutional Neural Networks? （视觉变换器跟卷积神经网络观察是同样的原理吗？）

作者：Maithra Raghu、 Alexey Dosovitskiy

简介：本文阐述了视觉变换器网络机制的核心原理。迄今为止，卷积神经网络已成为视觉数据的事实上的模型。近期工作已经表明视觉变换器模型 (ViT) 可以在图像分类任务中使用。这就提出了一个核心问题：Vision Transformers 如何解决这些任务？作者发现两种架构之间的惊人差异，例如 ViT 在所有层上具有更统一的表示。作者探索这些差异是如何产生的，找到自注意力所扮演的关键角色，这使得早期全局信息和ViT残差连接的聚合，它们从低层到高层强烈地传播。作者研究了空间定位的后果，成功证明了ViT保留输入空间信息，不同分类方法的效果显著。最后，作者研究预训练数据集规模对中间特征和迁移学习的影响，并讨论新架构的相关结论。

论文地址：https://arxiv.org/pdf/2108.08810v1.pdf

标题：MIT|Image2Lego: Customized LEGO® Set Generation from Images(Image2Lego：根据图像生成定制的LEGO®集)

作者：Kyle Lennon, Iddo Drori

简介：本文将图像AI技术应用于物理积木模型生成。尽管LEGO套装已经让数代儿童和成人着迷，设计构建匹配现实世界或复杂想象的定制的挑战，作者实施了一个从2D图像生成LEGO积木模型系统。作者为这个问题设计了一个新的解决方案，它使用在3D体素化模型上训练的八叉树结构自编码器来获得用于模型重建的潜在表示，并训练一个单独的网络以从2D图像预测潜在表示，LEGO模型是通过3D体素化的算法转换获得模型到3D积木砖块。作者展示了3DLEGO模型前所未有的转换，八叉树架构能够灵活地产生最适合用户的创意愿景或设计多种分辨率需求。为了展示作者系统的广泛适用性，作者生成分步构建说明和动画LEGO物体和人脸模型。

论文地址：https://arxiv.org/pdf/2108.08477v1.pdf

标题：清华、微软｜Fastformer: Additive Attention is All You Need（Fastformer：加法注意力就是你所需要的）

作者：Chuhan Wu、黄永峰

简介：变换器的一种全新且具有广泛应用前景的变种。变换器是一种强大的文本理解模型。但是由于效率低下输入序列长度的二次复杂度，虽然方法很多变换器加速，他们还是在长序列条件下效率低下。在本文中，作者提出了Fastformer，这是一个基于高效变换器模型的加法注意力。在Fastformer中，对成对相互作用字符建模，作者首先使用加法注意力机制来建模全局上下文，然后进一步转换基于每个符号表示与全局上下文表示的交互。这样，Fastformer就可以实现线性复杂度的有效上下文建模。对五个数据集的广泛实验表明，Fastformer比许多现有的变换器模型效率更高，同时可以达到可比甚至更好的长文本建模性能。

论文地址：https://arxiv.org/pdf/2108.09084v1.pdf

标题：伊利诺伊大学、布法罗大学｜Open Relation Modeling: Learning to Define Relations between Entities（开放关系建模：学习定义实体关系）

作者：Jie Huang、Wen-mei Hwu

简介：本文是语言模型在实体关系预测中的应用。实体之间的关系可以用不同的实例来表示，例如，一个句子同时包含知识中的实体或事实图。但是，这些实例可能无法很好地捕获实体之间的一般关系，可能被人类难以理解，甚至可能由于知识来源不完整而不被发现。作者微调预训练语言模型以生成以提取的实体对为条件的定义。作者证明PLM可以通过以下方式选择可解释和信息丰富的推理路径置信度估计，所选路径可以指导PLM生成更好的关系描述。实验结果表明作者的模型可以生成简洁但信息丰富的关系描述，以捕捉实体的代表性特征和关系。

论文地址：https://arxiv.org/pdf/2108.09241v1.pdf

标题：阿姆斯特丹自由大学｜Generalizing MLPs With Dropouts, Batch Normalization, and Skip Connections（使用Dropouts、批量规范化和跳过连接泛化MLP）

作者：Taewoon Kim

简介：本文使用MLP网络取得了2分类数据集上的最佳效果。多层感知器通常由多个完全连接的具有非线性激活函数的层，作者测试不同的MLP通过对年龄和性别数据集进行实验来构建架构。作者经验表明，通过在每个线性层之前白化输入并添加跳过连接，提出的MLP架构可以带来更好的性能。由于白化过程包括Dropouts，它也可以用来近似贝叶斯推理。

代码地址：https://github.com/tae898/age-gender/

论文地址：https://arxiv.org/pdf/2108.08186v2.pdf

标题：谷歌 | Program Synthesis with Large Language Models （用大规模语言模型进行程序合成）

作者：Jacob Austin, Augustus Odena等

简介：本文探讨了当前大规模语言模型用于通用编程语言程序合成的极限。作者在MBPP和MathQA-Python这两个新的基准上对参数在244M和137B之间的模型进行了评估，以衡量这些模型从自然语言描述中合成短的Python程序的能力。在这两个数据集上，本文发现合成性能与模型大小呈对数线性关系。其中最大的模型即使没有在代码数据集上进行微调，也能通过精心设计的提示用小样本学习来合成MBPP中59.6%的问题的解决方案。在大多数模型中，对数据集的一部分进行微调可以提高约10个百分点的性能。更进一步，本文研究了模型参与关于代码的对话的能力，结合人类的反馈来改进其解决方案。最终发现与模型的初始预测相比，人类的自然语言反馈使错误率减半。

论文地址：https://arxiv.org/abs/2108.07732v1

标题：港中大深圳、中山大学、暨南大学等 | Medical-VLBERT: Medical Visual Language BERT for COVID-19 CT Report Generation With Alternate Learning（Medical-VLBERT: 用于COVID-19 CT报告生成的替代学习的医学视觉语言BERT）

作者：Guangyi Liu, Yinghong Liao等

简介：本文展示了多模态预训练模型在新冠诊断上的临床应用点。针对更加智能的自动生成医疗报告的辅助医疗需求，本文建议使用Medical-VLBERT模型来识别COVID-19扫描的异常情况，并根据检测到的病变区域自动生成医疗报告。该模型采用了一种交替的学习策略，即知识预训练和迁移。知识预训练记忆大规模的中国CX-CHR数据集中的知识，而迁移通过观察医学图像，将获得的知识用于COVID-19 CT数据集医疗句子生成。本文构建了包括368个中文医疗结论和1104个胸部CT扫描的COVID-19病例数据集。实验结果表明，Medical-VLBERT在中国COVID-19 CT数据集和CX-CHR数据集的术语预测和报告生成方面取得了最先进的表现。

论文地址：https://arxiv.org/abs/2108.05067v2

标题：滑铁卢大学、马普所等 | Pretrained Transformers for Text Ranking: BERT and Beyond（用于文本排名的预训练Transformer：BERT及其他模型）

作者：Jimmy Lin, Rodrigo Nogueira

简介：本文为预训练Transformer在文本排名上的现有工作综述。文本排名任务的目标是生成一个响应查询从语料库中检索到的文本有序列表，主要涉及在多阶段架构中执行重新排序的Transformer模型和直接执行排序的密集检索技术。本文的调查涉及两个主题，处理长文档的技术，而非NLP中典型的逐句处理；以及解决有效性（结果质量）和效率（如查询延迟、模型和索引大小）之间权衡的技术。从结论上说，将BERT和其他Transformer架构应用于排名的基础已经相当坚固了。不过除此以外，仍然有许多开放的研究问题，本综述也尝试预测了该领域的发展方向。

论文地址：https://arxiv.org/abs/2010.06467v3

标题：武汉大学、华为等 | CLSEBERT：语法增强型代码预训练模型的对比学习

作者：

简介：本文使用语法增强代码预训练模型的对比学习框架来处理编程语言的代码智能任务。编程语言的预先训练模型已经证明了它们在各种代码相关任务中的重要价值，如代码搜索、代码克隆检测和代码翻译。目前大多数预训练模型将代码片段视为一系列标记，或者只关注代码标识符之间的数据流，但丰富的代码语法和层次结构却被忽略了，它们可以提供重要的代码结构信息和语义规则来帮助增强代码表示。此外，尽管基于BERT的代码预训练模型在许多下游任务上都取得了很高的性能，但是BERT的本地派生序列表示被证明是低质量的，它在代码匹配和相似性任务上的性能较差。作者提出了一个语法增强代码预训练模型的对比学习框架CLSEBERT，来处理各种代码智能任务。

论文地址：https://arxiv.org/pdf/2108.04556

标题：印度IIITT| LoResMT 2021 | 为翻译资源不足的语言，Transformers的专项微调

作者：Karthik Puranik、Adeep Hande

简介：本文介绍了预训练模型的微调技术，在低资源语言机器翻译中的应用。本文报告了印度IIITT团队为"英语至马拉地语"、和"英语至爱尔兰语"，针对LoResMT （低资源语言机器翻译技术研讨会）2021共享任务提交的机器翻译系统。这项任务的重点是为爱尔兰语和马拉地语等资源相对匮乏的语言提供良好的翻译。作者使用外部平行语料库作为额外训练的输入，对模型进行微调、并获得预期效果。其中针对"英语对马拉地语"，使用的是Indicatrans预训练多语言机器翻译模型；而针对"英语至爱尔兰语"，使用的是Helsinki-NLP Opus预训练机器翻译模型。本文所使用的方法在BLEU指标评价上，获得了相对良好的预期结果：在"英语至马拉地语"、"爱尔兰语至英语"、和"英语至爱尔兰语"的翻译指标评价中，分别荣获排名第1、第1、和第2的好成绩。

论文地址：https://arxiv.org/pdf/2108.08556.pdf

研究动态

标题：清华、智源、腾讯 | Modeling Protein Using Large-scale Pretrain Language Model （用于蛋白建模的大规模预训练语言模型）

作者：Yijia Xiao, Jiezhong Qiu, Ziang Li, Chang-Yu Hsieh, Jie Tang

简介：本文展示了悟道·文溯的30亿参数蛋白预训练模型。蛋白质几乎与所有生命过程都有联系，分析蛋白质序列的生物结构和特性对探索生命以及疾病检测和药物发现至关重要。经过数百万年的进化，进化信息被编码在蛋白质序列中，受自然语言和蛋白质序列之间的相似性的启发，本文使用30亿参数的语言模型对进化规模的蛋白质序列进行预训练建模，将蛋白质生物学信息进行编码表示。模型在5个标识符级和序列级的下游任务中都获得了明显的改进，表明本文的大规模模型能够准确地从进化规模的单个序列预训练中捕捉到进化信息。

论文地址：https://arxiv.org/abs/2108.07435v1

标题：基于预训练语言模型的百度搜索排序

作者：Lixin Zou,Shengqiang Zhang等

简介：在大规模搜索引擎中应用基于预训练语言模型的排序模型却并不容易：1) PLM的计算成本过高，尤其是对排序中的长文本限制了在低延时系统中的部署；2)现有的预训练目标与相关性无关，直接应用相关性无关的PLM模型，是限制基于PLM的排序模型的另一个主要障碍；3)现有的排序模型需要和其他排序模型共同应用，因此模型与其他模型的兼容性对于一个排序系统来说也至关重要。近期百度提出了一系列如何在搜索排序任务中成功部署最先进的中文预训练语言模型的技术。具体包括：1）高效地抽取文档的摘要，以及可以“查询、标题和摘要三者建模”的Pyramid-ERNIE架构；2）利用大规模有噪声和偏见的点击后行为数据进行面向相关性的预训练新范式；3）为在线排名系统量身定制的人工锚定微调策略。最后，大量的离线和在线实验结果表明：该方法显著提高了搜索引擎的性能。

论文地址：https://dl.acm.org/doi/10.1145/3447548.3467147

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...相关推荐

人工智能轨道交通行业周刊-第22期（2022.11.7-11.13）
昨日之深渊,今日之浅谈.路虽远,行则将至.事虽难,做则可成. --<荀子·修身> 本期关键词:智能车窗.智能机器人报告.OCR技术.扩散模型.数字基建 1 整理涉及公众号名单 1.1 ...
CSDN开发者周刊第 22期：谷歌 DeepMind 第四代：不学规则就可以玩游戏；图灵奖得主 Edmund Clarke 因感染“新冠”逝世；
CSDN开发者周刊:只为传递"有趣/有用"的开发者内容! 本周热门项目 1.红帽为杀死 CentOS 发行版辩护红帽公司的高级社区架构师.CentOS 董事会成员卡斯滕-韦德(K ...
开源大数据周刊-第22期
摘要: 本周关注:大数据部门.数据科学家.机器学习发展与机遇.spark2.0 Structured Streaming.Hbase运维.Sqoop.Flink的第一本书籍. 阿里云E-Mapredu ...
【音频分类与检测】PANNs：用于音频模式识别的大规模预训练音频神经网络
文章目录摘要 1.引言 2.音频标记系统 2.1 CNNs 2.2 ResNets 2.3 MobileNets 2.4 一维CNNs 3.Wavegram-CNN 系统 3.1 Wavegram- ...
《预训练周刊》第40期：量子预训练、千层BERT与GPT
No.40 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度
No.12 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...
【码云周刊第 24 期】超实用 Andorid 开发实例
为什么80%的码农都做不了架构师?>>> ##码云项目推荐 1.项目名称:开源中国 Android 客户端 **项目简介:**这是 OSCHINA 官方开发的 Android ...
交互式多模型_26亿参数，智源、清华开源中文大规模预训练模型
近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...
2021智源大会AI TIME｜大规模预训练模型离通用人工智能还有多远？
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 6月1日,人工智能领域内行盛会"北京智源大会"如约而至.当天上午,北京市副市长靳伟.科技部战略规划司司长许倞出席并致 ...

《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...

《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...相关推荐

最新文章

热门文章