《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...

No.60

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊我们进行了版面调整，将各个方向的研究分别汇总并加入了更加多样性的模块。我们选择了8篇预训练相关的研究论文，展示了来自知名大厂和顶尖院校关于多模态视频搜索、最大ViT模型、长文本序列、语音弱监督训练、生物模型可解释性、复合物结构预测、通才学习算法、微调方式的探索。此外，我们选择了2篇资讯，将介绍大模型应用图谱、多模态模型代码的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

【多模态研究】

标题：百度 | Tree-based Text-Vision BERT for Video Search in Baidu Video Advertising（基于树的文本视觉BERT：在百度视频广告视频搜索中的应用）了解详情

作者：Tan Yu, Jie Liu, Yi Yang,等

简介：本文研究百度视频广告的核心任务：如何将视频广告与用户搜索配对。由于模态差异，视频检索查询比传统的文档检索查询和图像检索查询更具挑战性。传统上，对视频检索的查询是通过对标题的查询来处理的；但如果分片质量不高时，这种查询是不可靠的。得益于对大规模数据集的预处理，一些基于跨模态注意的visionBERT方法：不仅在学术界，而且在工业界，在许多视觉语言任务中都取得了优异的性能。然而，跨模态注意的昂贵计算成本，使得在工业应用中进行大规模搜索不切实际。在这项工作中，作者提出了一个最近在百度动态视频广告平台中推出的基于树的组合注意力网络（TCAN），TCAN提供了一种实用的解决方案、可以将大规模查询的跨模态注意力部署到视频搜索中。启动基于树的组合注意力网络后，点击率提高了 2.29%，转化率提高了 2.63%。

论文下载：https://arxiv.org/pdf/2209.08759.pdf

标题：谷歌 | PaLI: A Jointly-Scaled Multilingual Language-Image Model（一种联合扩展的多语种语言图像模型）了解详情

作者：Xi Chen, Xiao Wang, Soravit Changpinyo, 等

简介：本文以迄今最大的ViT模型、推动图像语言模型向前迈出重要一步。有效的扩展和灵活的任务接口，使大型语言模型能够在许多任务中表现出色。PaLI（(Pathways Language and Image model：通道语言和图像模型）将这种方法扩展到语言和视觉的联合建模。PaLI 基于视觉和文本输入生成文本，并通过此接口以多语种：执行许多视觉、语言和多模式任务。为了训练 PaLI，作者使用了大型预训练的编码器-解码器语言模型和视觉Transformer(ViT)，这将能够利用：模型现有的能力与训练模型的大量成本。作者发现视觉和语言组件的联合扩展很重要。由于现有的语言Transformer比相应的视觉Transformer大得多，作者训练了迄今为止最大的 ViT，以量化更大容量视觉模型的好处。为训练 PaLI，作者创建了一个大型多语言预训练任务组合，基于包含100余种语言的10B图像和文本的新图像-文本训练集。PaLI 在多种视觉和语言任务中实现了最先进的水平，同时保留了简单、模块化和可扩展的设计。

论文下载：https://arxiv.org/abs/2209.06794

【NLP研究】

标题：Meta | Adapting Pretrained Text-to-Text Models for Long Text Sequences（为长文本序列调整预训练的文本到文本模型）了解详情

作者：Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, 等

简介：本文是针对长序列输入调整现有预训练文本到文本模型的实证研究。通过对预训练管道的三个轴——模型架构、优化目标和预训练语料库的全面研究，作者提出了一种有效的方法，可以从现有的短上下文模型中构建长上下文模型。具体来说，作者将transformer中的全部注意力替换为池增强块级注意力，并使用具有不同长度跨度的掩蔽跨度预测任务对模型进行预训练。在预训练语料库方面，作者发现使用来自大型开放域语料库的随机连接的短文档，比使用通常在域覆盖范围内受限的现有长文档语料库具有更好的性能。根据这些发现，作者构建了一个长上下文模型，该模型在长文本QA任务上实现了有竞争力的性能，并在五个长文本摘要数据集上获取了SOTA水平。

论文下载：https://arxiv.org/pdf/2209.10052.pdf

【语音研究】

标题：OpenAI | Robust Speech Recognition via Large-Scale Weak Supervision（通过大规模的弱监督进行鲁棒性的语音识别）了解详情

作者：Alec Radford, Ilya Sutskever 等

简介：本文介绍了预训练自动语音识别系统「Whisper 」。研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据，来对其进行训练。训练过程中研究团队发现，使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此前有不同研究表明，虽然无监督预训练可以显著提高音频编码器的质量，但由于缺乏同等高质量的预训练解码器，以及特定于数据集中的微调协议，因此在一定程度上限制了模型的有效性和鲁棒性；而在部分有监督的方式预训练语音识别系统中，其表现会比单一源训练的模型呈现出更高的鲁棒性。对此，在「Whisper 」中，OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上，将弱监督语音识别的数量级扩展至68万小时；同时，研究团队还演示了在这种规模下，所训练模型在迁移现有数据集的零样本表现，可消除任何特定于数据集微调的影响，以实现高质量结果。

研究地址：https://openai.com/blog/whisper/

论文下载：https://cdn.openai.com/papers/whisper.pdf

【生命科学研究】

标题：洛桑联邦理工 | Protein language models trained on multiple sequence alignments learn phylogenetic relationships（在多序列比对上训练的蛋白语言模型学到了系统发育关系）了解详情

作者：Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol

简介：本文为对生物预训练模型的可解释性分析。带有注意力的自监督语言模型近来被广泛应用于生物序列数据，并推进了结构、功能和突变效应的预测。一些蛋白质语言模型，包括MSA Transformer和AlphaFold的EvoFormer，将进化相关蛋白质的多序列比对（MSA）作为输入。本文证明，MSA Transformer的列注意力与MSA中序列之间的汉明距离密切相关，故而作者得出结论基于MSA的语言模型编码了详细的系统发育关系。本文进一步表明，这些模型可以将编码功能和结构约束的共进化信号与反映历史偶然性的系统发育相关关系分开。为了评估这一点，本文从在天然MSA上训练的Potts模型中生成了没有系统发育的合成MSA，或有系统发育的合成MSA。本文发现，相比于Potts模型，在使用MSA Transformer进行无监督的接触图预测时，模型对系统发育的噪音有一定适应性。

论文下载：https://doi.org/10.1101/2022.03.29.486219

标题：清华、芝加哥丰田计算技术研究所、腾讯 | Improve the Protein Complex Prediction with Protein Language Models（用蛋白质语言模型改进蛋白质复合物结构预测）了解详情

作者：Jie Tang, Jinbo Xu等

简介：本文利用蛋白质预训练语言模型所具有的共进化信息识别有效的相互关系。作者提出了一种新的方法，称为ColAttn，它可以通过利用语言模型来识别复合物的interologs。作者表明，ColAttn比AlphaFold-Multimer中默认的MSA生成方法能生成更好的interologs，该方法比AlphaFold-Multimer的复杂结构预测结果要好得多，就Top-5最佳DockQ而言，提升了10.7%，特别是当预测的复杂结构具有低置信度时。本文进一步表明，通过结合多种MSA生成方法，可以得到比AlphaFold-Multimer更好的复杂结构预测精度。本文系统地分析了ColAttn算法的影响因素，发现interologs之间的MSA的多样性对预测的准确性有很大影响，此外ColAttn在真核生物的复合物上表现得特别好。

论文下载：https://doi.org/10.1101/2022.09.15.508065

【基础算法研究】

标题：DeepMind、牛津、IDSIA等|A Generalist Neural Algorithmic Learner（通才神经算法学习者）了解详情

作者：Borja Ibarz, Vitaly Kurin, Petar Velickovic等

简介：本文介绍了一种基于神经算法推理解决算法任务。近年来该领域的方法改进激增，但它们主要集中在构建专业模型上。专业模型能够学习神经执行仅一种算法或具有相同控制流主干的算法集合。作者专注于构建一个通用的神经算法学习器——一个能够学习执行各种算法的单图神经网络处理器，例如排序、搜索、动态规划、寻路和几何。作者利用 CLRS 基准从经验上表明，与感知领域最近的成功非常相似，通才算法学习器可以通过“结合”知识来构建。也就是说，只要作者能学会在单任务机制下很好地执行它们，就可以以多任务方式有效地学习算法。受此启发，作者对 CLRS 的输入表示、训练机制和处理器架构进行了一系列改进，将平均单任务性能比现有技术提高了 20% 以上。作者利用这些改进对多任务学习者进行彻底消融。结果证明了一个通才学习者可以有效地整合专家模型捕获的知识。

论文下载：https://arxiv.org/pdf/2209.11142v1.pdf

标题：意大利热那瓦大学、麻省理工 | Fine-tuning or top-tuning? Transfer learning with pretrained features and fast kernel methods（微调还是顶部微调？带有预处理特征和快速核方法的迁移学习）了解详情

作者：Paolo Didier Alfano, Vito Paolo Pastore, Lorenzo Rosasco, 等

简介：本文提出顶部调优的新思路，以降低微调的计算资源代价。深度学习体系结构令人印象深刻的性能，与模型复杂性的大幅增加有关。由于反向传播和涉及的大量参数，对模型微调：常常在在数据需求、训练时间和推理时间、GPU-CPU参与度和内存使用方面需要大量的计算资源！但大规模的微调是必要的吗？在本文中，针对图像分类，本文提出了一种简单的迁移学习方法，该方法利用预处理卷积特征作为快速核方法的输入。作者将这种方法称为顶部调优，因为只训练内核分类器。本文通过32个目标数据集、99个不同的设置、2660个不同的训练过程，广泛的实验表明：该顶部调整方法提供了与微调相当的精度，而训练时间可以缩小一两个数量级之间。在中小型数据集的实验结果表明：顶部调优为微调提供了一种有用的替代方法，尤其是在训练效率至关重要的情况下。

论文下载：https://arxiv.org/pdf/2209.07932.pdf

研究动态

【热点推特】

标题：大模型应用图谱了解详情

作者：Sarah Guo

简介：本推特来自资深投资人Sarah Guo（郭睿）的社交媒体。她曾在知名投资公司Greylock工作9年，做到一般合伙人。她的代表作包括最近被Adobe 200亿美元收购的Figma，2015年A轮独家投了1400万美元，回报在10亿美元级别。在本推特中她展示了众多在多模态大模型应用层的案例。

【代码学习】

标题：FlagAI进入多模态领域，现已支持一键训练推理CLIP了解详情

简介：近期FlagAI加入了对CLIP的支持，并开放了训练、推理的例子。CLIP模型自从发布后，许多工作都使用其作为预训练模型，例如DALL-E将其作为排序模型，用来选择所生成的图片中哪个与输入文本相似度最高。视频理解、图像编辑、图像生成等多个任务中。使用预训练模型直接在推理测试图像，预测图像与文本匹配关系的案例如下，更详细参见hub链接。

import torch
from PIL import Image
from flagai.auto_model.auto_loader import AutoLoader
from flagai.data.dataset.mm.clip_dataset import clip_transform
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
loader = AutoLoader(task_name="txt_img_matching", #contrastive learning
model_name="clip-base-p32-224")
model = loader.get_model()
model.eval()
model.to(device)
tokenizer = loader.get_tokenizer()
transform = clip_transform(img_size=model.image_size)
def inference():image = Image.open("./CLIP.png")image = transform(image).unsqueeze(0).to(device)text = tokenizer.tokenize_as_tensor(["a diagram", "a dog", "a cat"]).to(device)with torch.no_grad():image_features = model.encode_image(image)text_features = model.encode_text(text)text_probs = (image_features @ text_features.T).softmax(dim=-1)print(text_probs.cpu().numpy()[0].tolist())
if __name__=="__main__":inference()

【活动推荐】

标题：英特尔| 人工智能芯片Habana解读与在加速优化深度学习了解详情

简介：随着元宇宙、5G、自动驾驶、智能硬件的浪潮，AI芯片市场不断焕新，“大算力”加持“大数据”和“大模型”。9月28日晚七点半，英特尔AI实践日第58期，将深度解读英特尔人工智能专用芯片：Habana。并讲解深度学习模型向Intel Habana加速卡实现迁移和优化。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...相关推荐

《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...
《预训练周刊》第66期：智源2022大模型创新论坛、 ChatGPT手把手debug代码、AI与物理的交融...
No.66 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第63期：微软视觉语言预训练综述、最新大模型课程
No.63 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第55期：中文预训练进展、大模型泛化、模型下游性能预测
No.55 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...
《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...
No.14 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第14期&l ...
《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...
No.11 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...
《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...

《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...相关推荐

最新文章

热门文章