《预训练周刊》第34期：使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...

No.34

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

本期周刊，我们选择了11篇预训练相关的论文，涉及图像处理、图像理解、语言模型调优、常识问答、大模型隐私泄漏、文本分类、多模态、代码理解、蛋白选择、蛋白间作用和蛋白结构预测的探索。此外，在研究动态方面，我们选择了1篇预训练资讯，将介绍开源语言模型方面的一些最新内容。

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：请点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，点击作者栏“预训练周刊”后选择“关注TA”。(注：《预训练周刊》Hub社区版内有详细的订阅步骤图示介绍)。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：清华｜Vision Transformer with Deformable Attention（具有可变形注意力的视觉变换器）了解详情

作者：Zhuofan Xia, Xuran Pan, Gao Huang等

简介：本文提出了图像领域的可变形注意力转换器。变换器最近在各种视觉任务上表现出卓越的表现。大的感受野，或者全局感受野，与CNN相比，赋予变换器模型更高的表示能力。然而，简单地扩大感受野也引发几个担忧。一方面，使用密集注意力，例如，在 ViT 中，会导致过多的内存和计算成本，并且特征可能会受到感兴趣区域之外的不相关部分的影响。在另一方面，PVT或Swin中采用的稀疏注意力变换器与数据无关，可能会限制建立长期关系模型。为了缓解这些问题，作者提出一种新颖的可变形自注意模块，其中自意力中键值对的位置是以数据相关的方式选择。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。以这个为基础，作者提出了可变形注意力转换器，一个通用的具有可变形注意力的主干模型分类和密集预测任务。大量实验表明，作者的模型实现了持续改进综合基准的结果。

代码地址：https://github.com/LeapLabTHU/DAT

论文地址：https://arxiv.org/pdf/2201.00520v1.pdf

标题：Meta、德克萨斯大学｜Detecting Twenty-thousand Classes using Image-level Supervision（使用图像级监督检测两万个类别）了解详情

作者：Xingyi Zhou, Ishan Misra等

简介：本文提出一种新的图像分类算法。由于检测数据集规模小，当前目标检测器的词汇量有限。另一方面，图像分类器对更大的词汇表进行推理，因为它们的数据集更大且更容易收集。作者提出了Detic的概念：它只是在图像分类数据上训练检测器的分类器，因此将检测器的词汇量扩大到数万。与之前的工作不同，Detic不会根据模型预测为框分配图像标签，使其更容易实现并与一系列兼容检测架构和主干。作者的结果显示即使对于没有框注释的类，Detic也能产生出色的检测器。它在这两个方面都优于以前的工作开放词汇和长尾检测基准。Detic为所有类别提供2.4mAP和8.3mAP的增益用于开放词汇LVIS基准上的新课程。在标准LVIS基准测试中，Detic 达到41.7mAP对于所有类和稀有类41.7mAP。第一次，作者用21000类ImageNet数据集训练了一个检测器，并表明它可以泛化无需微调。

代码地址：https://github.com/facebookresearch/Detic

论文地址：https://arxiv.org/pdf/2201.02605v1.pdf

标题：复旦、中南｜Black-Box Tuning for Language-Model-as-a-Service（语言模型即服务的黑盒调优）了解详情

作者：Tianxiang Sun, Yunfan Shao, Xipeng Qiu等

简介：本文介绍了大模型调优的方法。超大型预训练语言模型(PTM)，例如 GPT-3，通常会作为一项服务发布，允许用户设计特定于任务的提示以通过一些黑盒API方式查询PTM。在这样的场景下，作者称之为语言模型即服务，但PTM 的梯度通常是无法使用。作者可以仅通过访问模型推理 API 来提示优化任务吗？根据最近的观察，大型PTM具有非常低的固有维度，这项工作提出了Black-Box通过无导数算法进行调整以优化PTM。特别是，作者通过迭代调用PTM推理API，在输入文本之前添加连续提示调用CMA-ES优化。作者的实验结果表明，在小标记样本上使用RoBERTa进行黑盒调优不仅显著优于prompt手动调优和GPT-3的上下文学习，也超越了基于梯度的同行，即快速调优和全模型调优。

代码地址：https://github.com/txsun1997/Black-Box-Tuning

论文地址：https://arxiv.org/pdf/2201.03514v1.pdf

标题：加州大学 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形转换和一致性优化的小样本常识问答)了解详情

作者：Zi-Yi Dou,Nanyun Peng

简介：本文研究预训练的语言模型中的知识提取、聚焦在常识问答（CQA）方向。在本文中，作者将重点放在更好地利用预训练语言模型中存储的知识。虽然研究人员发现，通过让预训练语言模型填充精心设计的关系提取和文本分类提示的空白，可以提取嵌入在预训练的语言模型中的知识，但目前尚不清楚是否可以在CQA中采用这种范式(其输入和输出的形式更加灵活)。作者研究了四种可以将自然问题翻译成完形填空式句子的翻译方法，以更好地从语言模型中获取常识性知识。实验证明了作者的方法在三个CQA数据集上的有效性，以及作者的方法是对知识库改进模型的补充、可以获得小样本最先进的性能。分析还揭示了不同完形填空翻译方法的不同特点，并提供了将它们结合起来可以带来巨大改进的观点建议。

论文地址：https://arxiv.org/pdf/2201.00136.pdf

标题：Facebook、斯坦福大学 | Submix: Practical Private Prediction for Large-Scale Language Models（面向大规模语言模型的实用隐私预测）了解详情

作者：Antonio Ginart,Laurens van der Maaten,等

简介：本文提出的SUBMIX是第一个即使在公开发布由基于大型Transformer模型做出的数以万计的下一代令牌预测时仍能保持隐私安全的协议。最近的数据提取攻击，暴露了语言模型可以逐字记住部分训练样本，这是一个可能危及训练模型数据隐私的漏洞。在本研究工作中作者提出了 SubMix：一种用于私有下一个令牌预测的实用协议，旨在防止在公共语料库上进行预训练后在私有语料库上进行微调的语言模型侵犯隐私。作者的实验表明：SubMix 通过放松组差异私有预测来限制私有语料库中任何个人用户独有的信息泄漏。重要的是：SubMix提出了一种严格的、依赖于数据的隐私会计机制，这使它能够在保持语言模型的实用性的同时阻止现有的数据提取攻击。

论文地址：https://arxiv.org/pdf/2201.00971

标题：圣保罗大学、巴黎理工学院、波尔图大学 | ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling（面向主题建模的小样本文本分类）了解详情

作者：Alexandre Alcoforado, Thomas Palmeira Ferraz,等

简介：本文研究基于bert预训练模型面向主题建模的小样本文本分类方法。传统的文本分类方法通常需要大量标记数据，但这很难实现、尤其是在受限制的领域中、以及不太广泛的语言中。标记数据的缺乏导致了“假设自然语言处理中的数据可用性低”的低资源方法的兴起。其中，小样本学习的方法脱颖而出，小样本学习是指在没有任何先前标记数据的情况下学习的分类器，当前获得最佳结果的小样本学习方法均使用了 Transformers 等语言模型，但这其中存在两个问题：执行时间长、无法将长文本作为输入处理。本文提出了：利用无监督聚类步骤在分类任务之前获得压缩数据表示的新模型ZeroBERTo。实验表明 ZeroBERTo 在长输入和更短执行时间方面具有更好的性能、在 FolhaUOL 数据集中的 F1 分数上比 XLM-R 高出约 12%。

论文地址：https://arxiv.org/pdf/2201.01337.pdf

标题：新加坡南洋理工大学、西南交通大学 | Self-Training Vision Language BERTs with a Unified Conditional Model（基于统一条件模型的自训练视觉语言BERT模型）了解详情

作者：Xiaofeng Yang,Fengmao Lv,等

简介：本文研究视觉语言BERT类模型的自训练新方法并获得显著效果。与自然语言BERT模型不同，视觉语言BERT类的模型（VL-BERT）需要视觉与语言的成对数据进行训练，这限制了VL-BERT预训练的规模。作者提出了一种自训练方法、允许从未标记的图像数据中训练VL-BERT。具体如下：（1）基于统一条件模型，作者提出一个可以执行小样本条件生成的视觉语言BERT模型。（2）在不同的条件下，统一条件模型可以生成：字幕、密集字幕、甚至问题。（3）作者使用标记的图像数据来训练教师模型，并使用预训练后的模型在未标记的图像数据上生成伪字幕。（4）然后作者结合标记数据和伪标记数据来训练学生模型。该过程通过将学生模型作为新教师进行迭代。实验表明：使用该自训练方法和仅300k未标记的数据，与使用300万图像数据训练的类似大小的模型相比，作者获得了具有竞争力甚至更好的性能。

论文地址：https://arxiv.org/pdf/2201.02010

标题：UC伯克利｜Contrastive Code Representation Learning（对比代码表征的学习）了解详情

作者：Paras Jain, Ion Stoica等

简介：以GitHub为代表的大规模代码库是学习机器辅助编程的一个强大资源。然而，像RoBERTa这样流行的无标签自监督方法对对抗性输入并不稳健，对代码形式也很敏感。与其像BERT那样重构字符，学习代码说什么，不如学习代码做什么。据此本文提出了ContraCode，一个基于对比学习的预训练方法。它可以在众多干扰因素中识别出功能相似的程序变体，学习到代码功能，而不是形式。该模型使用一个自动的编译器作为数据增强的形式，可扩展地生成变体以供对比学习。实验显示本方法对恶意的代码编辑具有鲁棒性，提高了三个下游JavaScript代码理解任务的性能。另外本文还提出了一个新的零样本学习用的JavaScript代码克隆检测数据集。

论文地址：https://arxiv.org/pdf/2007.04973v4.pdf

标题：Nature Biomedical Engineering｜Amelioration of Alzheimer’s disease pathology by mitophagy inducers identified via machine learning and a cross-species workflow（通过机器学习和跨物种流程识别有丝分裂诱导剂对阿尔茨海默症病理的改善）了解详情

作者：Chenglong Xie, Evandro F. Fang等

简介：对功能失调的线粒体的清除减少是衰老和与年龄有关的神经退行性病症，如阿尔茨海默症的共同特征。在该场景上，本文结合使用无监督机器学习，包括分子预训练模型、分子结构的矢量表示、药理指纹和构象体指纹等，和跨物种方法来筛选和实验验证新的有丝分裂诱导化合物。衍生筛选流程使能够从天然化合物库中识别出18个小分子，其中有两个强效的有丝分裂诱导剂。在线虫和啮齿动物的阿尔茨海默症模型中，本文发现这两种有丝分裂诱导剂都能增加谷氨酸和胆碱能神经元的存活率和功能，消除淀粉样蛋白-β和tau的病变，并改善动物的记忆。简而言之，计算实验筛选和验证工作流程有助于发现刺激神经元健康和大脑稳态的有效的有丝分裂调节剂。

论文地址：https://www.nature.com/articles/s41551-021-00819-5

标题：墨尔本大学｜Large-scale protein-protein post-translational modification extraction with distant supervision and confidence calibrated BioBERT（利用远距离监督和置信度校准的BioBERT进行大规模的蛋白质翻译后修饰提取）了解详情

作者：Aparna Elangovan, Karin Verspoor等

简介：蛋白质-蛋白质相互作用（PPI）对正常的细胞功能至关重要，并与许多疾病途径有关。然而，在IntAct等生物知识数据库中，只有4%的PPI被注释了翻译后修饰（PTM）。本文训练一个BioBERT的改进模型，PPI-BioBERT-10，它进行了置信度校准以抵消类别不平衡的影响，便于提取高置信度的预测。作者在1800万份PubMed摘要上评估了该模型，提取了160万个PTM-PPI三元组，并筛选出约5700个高置信度预测。在这5700个预测中，本文对随机抽样的子集进行了人工评估，通过筛选与论文相关的预测，精确度达到了58.8%。在这项工作中，作者强调了基于深度学习的文本挖掘在实践中的好处和挑战，以及需要更加重视置信度校准。

论文地址：https://arxiv.org/pdf/2007.04973v4.pdf

标题：IBM｜Identification of Enzymatic Active Sites with Unsupervised Language Modeling（用无监督语言识别酶的活性位点）了解详情

作者：Loïc Kwate Dassi, Teodoro Laino等

简介：随着测序技术的发展，功能未知的蛋白质的特征描述激增，活性位点的研究也随之变得重要。本文将Transformer架构与预训练应用于生物催化化学反应的语言表征，以学习底物-活性位点上基于原子相互作用的信号。该语言表征包括底物和产物的SMILES，辅以酶的氨基酸序列信息。本文通过注意力和特殊的标记方法成果捕捉底物-活性位点相互作用的信号，并利用它来确定未知蛋白质序列中的活性位点位置，仅用一维表征就能解开复杂的三维相互作用，在共结晶的底物-酶结构的场景上可以回复31.51%的活性部位，大大超过了仅基于序列相似性的方法。该结论也可以通过对酶的三维结构进行对接进行进一步证实。这项工作证实了自然语言处理，特别是Transformer架构对特定领域语言的影响，为蛋白质功能鉴定和生物催化工程的有效解决方案铺平了道路。

论文地址：https://arxiv.org/pdf/2007.04973v4.pdf

研究动态

标题：BigScience，寻求建立强大的开放语言模型了解详情

简介:从欧洲核研究组织（CERN）和大型强子对撞机等组织中汲取灵感，BigScience 的目标是创建最终将开源给更广泛的人工智能的超大模型和大型文本数据集社区。这些模型将在位于法国巴黎附近的Jean Zay超级计算机上进行训练，该超级计算机是世界上最强大的机器之一。虽然对企业的影响可能不会立即明确，但像 BigScience 这样的努力有望在未来让超大模型更容易获得——也更透明。除了开放AI研究小组EleutherAI创建的几个模型外，很少有经过训练的超大模型用于研究或部署到生产中。OpenAI 拒绝将其最强大的模型GPT-3开源，转而将源代码独家授权给微软。与此同时，像Nvidia这样的公司已经发布了有能力的超大模型的代码，但将这些超大模型的训练留给了拥有足够强大硬件的用户。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

《预训练周刊》第34期：使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...相关推荐

《预训练周刊》第25期：HyperCLOVA：数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
No.25 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请...
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...
No.23 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...
《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...
No.22 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...
《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...
No.15 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第15期&l ...
《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...
No.14 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第14期&l ...
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...
No.13 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...
《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...
No.11 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...

《预训练周刊》第34期：使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...

《预训练周刊》第34期：使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...相关推荐

最新文章

热门文章