《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...

No.23

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第23期《预训练周刊》，从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了12篇预训练相关的论文，涉及量子机器学习、变换器优化、分布式降维、图像分割、语言模型、可控分子生成、灾难事件预测、情绪分析、多任务学习、模型性别偏见、蛋白结构表达和RNA表示的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍大模型Prompt设计和网络异常检测方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：斯坦福、马里兰大学|Quantum Cross Entropy and Maximum Likelihood Principle(量子交叉熵和最大似然原理)了解详情

作者：Zhou Shangnan、Yixu Wang

简介：量子机器学习是机器学习和量子计算交叉的新兴领域。经典交叉熵在机器学习中起着核心作用。作者定义它的量子概括，即量子交叉熵，证明了它的下界，并研究了它与量子保真度的关系。在经典情况下，最小化交叉熵等效于最大化可能性。在量子情况下，当量子交叉熵是由量子数据构建的不受量子测量的干扰，这种关系成立。经典交叉熵等于负对数似然。当作者通过经验密度矩阵获得量子交叉熵时在测量结果上，量子交叉熵的下限为负对数似然。这两种不同的场景说明了进行量子测量时的信息丢失。作者得出的结论是，要实现全量子机器学习的目标，利用延迟测量原则。

论文地址：https://arxiv.org/pdf/2102.11887v2.pdf

标题：清华、微软|Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer（Smart Bird：可学习的稀疏注意力高效、有效的变换器）了解详情

作者：Chuhan Wu、Yongfeng Huang

简介：本文提出了一种解决变换器性能瓶颈的新方法。变换器在自然语言处理取得了巨大的成功。然而，变换器中的自注意力机制二次复杂度使其在处理长序列时效率低下。许多现有的文章探索通过计算稀疏而不是密集的来加速变换器自注意力，通常在某些位置关注符号或随机选择的符号。但是，手动选定的或随机的符号可能无法提供上下文建模的信息。在本文中，作者提出Smart Bird，这是一种高效且具有可学习稀疏注意力的有效变换器。在Smart Bird中，作者首先计算一个带有单头的注意矩阵低维草图变换器，旨在发现潜在的重要相互作用符号。然后作者根据符号对进行采样他们的概率分数来自绘制注意力矩阵以生成不同的注意力头的稀疏注意力索引矩阵。最后，作者根据索引矩阵选择标记嵌入以形成稀疏注意力网络的输入。在六个基准数据集上进行了广泛的实验对于不同的任务验证效率和Smart Bird在文本建模中的有效性。

论文地址：https://arxiv.org/pdf/2108.09193v1.pdf

标题：罗格斯大学｜FAST-PCA: A Fast and Exact Algorithm for Distributed Principal Component Analysis(FAST-PCA：一种快速准确的分布式主成分分析算法)了解详情

作者：Arpita Gang, Waheed U. Bajwa

简介：本文提出一种分布式降维方法。主成分分析 (PCA) 是机器学习领域的基本数据预处理工具。虽然PCA常被称为降维，但PCA的目的其实有两个：降维和特征学习。此外，现代数据集中的维度和样本量巨大使得无法使用集中式 PCA 解决方案。在这方面，本文重新考虑了 PCA 的问题，当数据样本分布在任意连接的网络中的节点上。虽然分布式PCA的一些解决方案存在那些要么忽略了特征学习目的部分，要么有通信开销使他们低效和/或缺乏精确的收敛保证。为了解决上述问题，本文提出了一个分布式PCA算法称为FAST-PCA。所提出的算法在通信方面是有效的，可以证明线性地收敛到导致降维主成分以及不相关的特征。作者的主张得到了实验结果的进一步支持。

论文地址：https://arxiv.org/pdf/2108.12373v1.pdf

标题：中科大｜ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation（ISNet：基于集成图像级和语义级上下文语义分割）了解详情

作者：Zhenchao Jin, Bin Liu

简介：本文通过聚合上下文来增强语义图像分割任务中的像素表示。现有的方法侧重于从上下文建模整个图像的视角，即聚合图像级别的上下文信息。尽管令人印象深刻，这些方法削弱了同一类别的像素表示的重要性，即语义级上下文信息。为了解决这个问题，本文提出通过聚合来增强像素表示分别是图像级和语义级上下文信息。首先，设计了一个图像级上下文模块捕获图像中每个像素的上下文信息整个图像。其次，作者聚合了在真值监督下学习类别区域的每个像素的相同类别分割。第三，作者计算之间的相似度每个像素表示和图像级上下文信息，分别是语义级上下文信息。最后，一个像素表示被增强加权聚合图像级上下文信息和语义级上下文信息权重的相似性。集成图像级和语义级上下文使本文能够报告四个基准的最新准确性，即ADE20K、LIP、COCOStuff和城市景观。

代码地址：https://github.com/SegmentationBLWX/sssegmentation

论文地址：https://arxiv.org/pdf/2108.12382.pdf

标题：Copper City Labs | UzBERT：为乌兹别克语预训练BERT模型了解详情

作者：B. Mansurov、A. Mansurov

简介：本文介绍了一种乌兹别克语语言模型。基于Transformer体系结构的预训练语言模型，在各种自然语言处理任务（如词性标注、命名实体识别和问答）中取得了最新成果。在本文中，作者提出了UzBERT：一种基于BERT结构的预训练乌兹别克语模型。UzBERT模型在掩蔽语言模型的准确性上大大优于多语言的BERT。UzBERT的优点之一是的词汇量更小（因此需要更少的资源进行微调）并且理论上能够更好地捕获语言的复杂性，因为只在乌兹别克语文本上训练。由于乌兹别克缺乏下游任务的公共数据集，本研究暂时无法测试其在此类任务上的性能。因此未来工作的方向之一是生产这些数据集并评估下游任务。

论文地址：https://arxiv.org/ftp/arxiv/papers/2108/2108.09814.pdf

标题：伯克利与斯坦福大学 | C5T5模型：基于Transformers可控生成有机分子了解详情

作者：Daniel Rothchild、Joseph Gonzalez

简介：本文研究了用于分子生成的变换器模型。设计具有所需特性的有机材料的方法在医学、可再生能源、石化工程和农业等领域具有很大的潜在影响。然而，使用生成模型来设计具有所需特性的物质是很困难的，因为候选化合物必须满足多个约束条件，包括合成可访问性和其他对领域专家来说很直观但难以量化的指标。作者在本研究中提出 C5T5：一种新颖的自监督预训练使变换器能够进行零样本选择和替换编辑的方法，将有机物质改变为所需的属性值。C5T5 对 IUPAC 名称（一种标准化的分子表示）进行操作，可为有机化学家直观地编码丰富的结构信息，但在很大程度上被 ML 社区所忽视。本研究的技术不需要经过编辑的分子对来训练，只需要粗略估计分子特性，并且它有可能比基于图形的方法更容易地对长程依赖性和对称分子结构进行建模。

论文地址：https://arxiv.org/abs/2108.10307

标题：美国宾州坦普尔大学 | BERT嵌入在Twitter数据中预测灾难的有效性了解详情

作者： Ashis Kumar Chanda

简介：Twitter 等社交媒体提供了一个与其他人分享和交流个人经历的通用平台。人们经常在社交媒体上发布他们的生活经历、当地新闻和事件以告知他人。许多救援机构定期监控此类数据，以识别灾害并降低生命风险。然而，人类无法手动检查海量数据并实时识别灾害。BERT 已成功用于不同的自然语言处理任务，但目前尚没有具体分析这些表示如何有助于灾难类型的推文分析。在这项研究工作中，作者探索了 BERT 嵌入在从 Twitter 数据预测灾难方面的功效，并将其与传统的无上下文词嵌入方法（GloVe、Skip-gram 和 FastText）进行了比较。为此，作者同时使用传统的机器学习方法和深度学习方法。作者为这项研究提供了定量和定性结果。结果表明，BERT 嵌入在灾难预测任务中比传统词嵌入具有最好的结果。

论文地址：https://arxiv.org/abs/2108.10698

标题：德国汉堡大学 | 电影有多可恨？电影字幕的研究与预测了解详情

作者：Niklas von Boguszewski, Sana Moin, Anirban Bhowmick等

简介：作者研究了电影中仇恨言论的检测技术。研究引入了一个新的数据集，该数据集收集了六部电影的字幕，其中每一句话都被标注为仇恨、冒犯或正常。在现有的社交媒体数据集（来自Twitter和福克斯新闻）上应用领域适应和微调的迁移学习技术。作者评估了11k电影字幕上的不同表示，比如词袋（BoW）、双向长短时记忆（Bi-LSTM）和来自Transformer的双向编码器表示（BERT）。其中BERT模型获得了77%的最佳宏观平均F1分数。因此，本研究最终证明了社交媒体领域的迁移学习：可以有效地通过字幕对电影中的仇恨和攻击性言论进行分类。

论文地址：https://arxiv.org/abs/2108.10724

标题：谷歌 | Multi-Task Self-Training for Learning General Representations（用于学习通用表征的多任务自训练）了解详情

作者：Golnaz Ghiasi, Barret Zoph

简介：本文研究了多任务自训练学习通用表征。对于计算机视觉来说，学习一个对许多任务都有效的单一通用模型仍然是一个挑战。本文介绍了多任务自训练（MuST），它利用独立的专业教师模型中的知识来训练一个单一的通用学生模型。本文的方法分为三个步骤，首先在已标记的数据集上独立训练专业教师；然后使用专业教师来标记未标记的数据集，以创建一个多任务的伪标签数据集；最后，使用包含了在不同数据集/任务上训练的教师模型的伪标签，然后用来训练一个多任务学习的学生模型。作者在6个包括图像识别和三维几何估计的视觉任务上评估学生模型的特征表示，在大规模数据集训练时优于专门的监督模型和自监督模型。

论文地址：https://arxiv.org/abs/2108.11353v1

标题：UCLA、犹他大学 | Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies（性别排他性的危害和语言技术中的非二元表征的挑战）了解详情

作者：Kai-Wei Chang，Sunipa Dev

简介：本文分析了预训练模型中存在的伦理偏见。在语言任务中以及在审查语言模型所传播的陈规定型观念时，性别问题是一个广泛讨论的话题。然而，目前主流将性别视为二元，这可能会延续一些伤害，如对非二元性别身份的循环抹杀。这些伤害是由模型和数据集的偏见驱动的，是社会对非二元性别不承认和缺乏理解的后果。本文解释了性别和围绕它的语言的复杂性，并对非二元人士进行了调查，以了解与英语语言技术中对性别的二元处理有关的伤害。本文还详细介绍了目前的语言表征，如GloVe、BERT，是如何捕捉和延续这些伤害的，以及为使公平地编码性别信息而需要承认和解决的相关挑战。

论文地址：https://arxiv.org/abs/2108.12084v1

标题：山东大学，华中科大 | Hydrogen bonds meet self-attention: all you need for general-purpose protein structure embedding（氢键遇到自注意力：通用蛋白质结构嵌入所需要的）了解详情

作者：Cheng Chen, Yuguo Zha

简介：本文研究了蛋白结构表征的基于注意力提取方式。通用的蛋白质结构嵌入表征可用于许多重要的蛋白质生物学任务，如蛋白质设计、药物设计和结合亲和力预测。本文将低层次的表征学习和高层次的表征学习分开处理，并提出了一个两层次通用的蛋白质结构嵌入注意力网络，称为ContactLib-ATT。在局部嵌入层面，作者学习了一个简单而有意义的氢键表征；在全局嵌入层面上，基于注意力的编码器层被用于全局表征学习。实验中，ContactLib-ATT在SCOP40 2.07数据集上实现了82.4%的SCOP超家族分类精度，比最先进的方法高6.7%。此外，ContactLib-ATT被证明可以成功地模拟一个基于结构的远程同源蛋白的搜索引擎。

论文地址：https://arxiv.org/abs/2108.11353v1

标题：庆应义塾大学 | Informative RNA-base embedding for functional RNA structural alignment and clustering by deep representation learning（通过深度表征学习为功能性RNA结构比对和聚类提供信息性RNA碱基嵌入）了解详情

作者：Manato Akiyama, Yasubumi Sakakibara

简介：本文介绍了预训练RNABERT在核酸层级的表征。将深度学习应用于生物分子信息可以获得更好的嵌入表征，也可以提高如DNA序列motif检测和蛋白质功能预测的下游分析的质量。本文采用了预训练算法来获取RNA碱基有效嵌入的丰富的语义表征，并将其应用于两个基本的RNA序列问题：结构比对和聚类。通过使用预训练算法RNABERT，利用大量来自不同家族的RNA序列，以位置依赖的方式嵌入RNA的四个碱基，得到了一个上下文敏感的嵌入表征。训练后不仅仅碱基信息，而且RNA序列的二级结构和上下文信息也被嵌入每个碱基，暨此在RNA结构比对和RNA家族聚类任务中达到甚至优于现有最先进方法的准确性。

论文地址：https://arxiv.org/abs/2010.06467v3

研究动态

标题：普林斯顿、MIT|提示：在 NLP 任务中使用语言模型的更好方法了解详情

作者：Tianyu Gao, Danqi Chen

简介：本文讨论了提升预训练语言模型迁移效果的提示方法。最近的 GPT-3 模型仅通过利用自然语言就实现了卓越的少样本性能提示和一些任务演示作为输入上下文。受到他们发现的启发，作者在更实际的场景中研究小样本学习，作者使用较小的语言模型微调在计算上是有效的。作者提出了 LM-BFF——更好的小样本语言模型的微调——一套用于在少量语言模型上微调语言模型的简单且互补的技术注释的例子。作者的方法包括(1) 基于提示的微调用于自动生成提示的新型流水线；(2) 动态优化策略并有选择地结合示范进入每个上下文。最后，作者提出了一个系统的评估，用于分析一系列 NLP 任务的小样本性能，包括分类和回归。作者的实验证明作者的方法结合起来在这种低资源设置中显著优于标准微调程序，实现高达 30% 的绝对改进，11%所有任务的平均值。作者的方法使对任务资源和领域专业知识的最小假设，因此构成了一个强大的用于小样本学习的任务无关方法。

代码地址：https://github.com/princeton-nlp/LM-BFF

论文地址：https://arxiv.org/pdf/2012.15723.pdf

标题：普林斯顿大学 | 基于预训练模型的云计算实时异常检测系统CloudShield了解详情

作者：Zecheng He、 Ruby B. Lee

简介：本文介绍了基于预训练模型的云计算异常检测任务应用。如果可以通过自动异常检测系统检测到可疑活动是可取的，但相关问题迄今仍未解决，具体的挑战是：如何表征云服务器的正常行为、区分良性和恶意异常/攻击、以及防止因误报引起的警报疲劳。作者针对性地提出了 CloudShield：一个实用且可推广的实时异常和云计算攻击检测系统。Cloudshield 使用通用的、预训练的具有不同云工作负载的深度学习模型，通过检查模型重构误差分布来预测正常行为并提供实时和连续检测。一旦检测到异常，为了减少警报疲劳，CloudShield 会通过检查预测错误分布自动区分良性程序、已知攻击和零日攻击。作者在代表性云基准测试中评估了提议的 CloudShield。经实验评估：使用模型预训练的CloudShield可以适用于广泛的云工作负载，特别是CloudShield 可以在几毫秒内检测到最近提出的推测执行攻击（如 Spectre 和 Meltdown攻击）。此外，研究表明 CloudShield 可以准确区分已知攻击和潜在的零日攻击与良性程序并确定优先级。因此，它可以显著减少高达 99.0% 的误报。

论文地址：https://arxiv.org/abs/2108.08977

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...相关推荐

《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法
(本期贡献者:申德周翟珂吴新刚) 本文来源:智源社区论文推荐标题:斯坦福.马里兰大学|Quantum Cross Entropy and Maximum Likelihood Principl ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...
No.22 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...
《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...
No.21 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期&l ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
《预训练周刊》第17期：深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...
No.17 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...
《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...

《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...相关推荐

最新文章

热门文章