《预训练周刊》第52期：屏蔽视觉预训练、目标导向对话

No.52

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了7篇预训练相关的论文，涉及视频预训练、视频预测、目标对话、蛋白序列嵌入、分子几何、蛋白序列预测和蛋白模型的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍低资源微调和文本理解方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：OpenAI|Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos（视频预训练 (VPT)：基于观看未标记的在线视频的行动学习）了解详情

作者：Bowen Baker, Ilge Akkaya, Peter Zhokhov, Jeff Clune等

简介：本文介绍了一种基于视频数据的无监督顺序决策学习。对嘈杂的互联网规模数据集进行预训练，已作为一种技术被大量研究，用于训练具有广泛、通用文本、图像和其他功能的模型范式。然而，对于许多顺序决策领域，如机器人技术，视频游戏和计算机使用，公开数据不包含需要以相同的方式训练的行为先验标签。作者使用互联网规模通过半监督对顺序决策域进行预训练范式模仿学习，其中智能体通过观看在线未标记视频来学习动作。具体来说，作者展示了使用少量标记数据，训练一个足够精确的逆动力学模型，可以标记大量未标记的在线资源数据，然后从中训练一般行为先验。尽管使用本机人机界面，作者证明了这种行为先验具有非平凡的零样本能力，并且可以微调，而模仿学习、强化学习和探索任务无法通过强化学习从头开始学到。对于许多任务，作者的模型表现出人类水平的性能，作者是第一个报告可以制作钻石工具的计算机智能体，熟练的人类需要 20 分钟以上的游戏来完成。

论文下载：https://arxiv.org/pdf/2206.11795v1.pdf

标题：斯坦福、Salesforce|MaskViT: Masked Visual Pre-Training for Video Prediction（MaskViT：屏蔽视觉预训练用于视频预测）了解详情

作者：Agrim Gupta, Stephen Tian, Li Fei-Fei等

简介：本文介绍了一种视频预训练方法。以过去为条件预测未来视觉观察的能力观察和运动命令，可以使具体智能体计划解决方案复杂环境中的各种任务。这项工作表明，作者可以通过掩蔽视觉对转换器进行预训练来创建良好的视频预测模型。作者的方法名为 MaskViT，它基于两个简单的设计决策。首先，为了记忆和训练效率，作者使用两种类型的窗口注意力：空间和时空。其次，在训练期间，作者屏蔽了可变百分比的标记，而不是固定的屏蔽率。对于推理，MaskViT生成所有符号都通过迭代细化，作者逐渐减少掩蔽遵循掩码调度函数的比率。在作者展示的几个数据集上MaskViT 在视频预测方面优于先前的工作，参数高效，并且可以生成高分辨率视频（256×256）。此外，作者证明由于使用MaskViT在真实机器人上进行规划的迭代解码，推理加速（高达 512 倍）。作者的工作表明，作者可以通过通用屏蔽视觉模型和少量领域知识赋予智能体强大的预测能力。

论文下载：https://arxiv.org/pdf/2206.11894v1.pdf

标题：微软、哥伦比亚大学|GODEL: Large-Scale Pre-Training for Goal-Directed Dialog（GODEL：目标导向对话的大规模预训练）了解详情

作者：Baolin Peng, Michel Galley, Pengcheng He, Jianfeng Gao等

简介：本文介绍一个用于对话的大型预训练语言模型。相比之下使用较早的模型，例如DialoGPT，GODEL利用接地的新阶段预训练旨在更好地支持 GODEL 适应广泛的下游需要外部信息的对话任务到当前对话（例如，数据库或文件）以产生良好的反应。针对一系列基准的实验包括面向任务的对话、对话式 QA 和扎根的开放域对话表明 GODEL 优于最先进的技术在小样本微调设置中预训练的对话模型，在人和自动评估。作者的一个新特点评价方法是引入评估有用性的效用概念响应（外部评估）另外他们的交际特征（内在评估）。作者证明了外部评估提供改进的注释者间协议和与自动化指标的相关性。

代码下载：https://github.com/Microsoft/GODEL

论文下载：https://arxiv.org/pdf/2206.11309v1.pdf

标题：谷歌 | Deep embedding and alignment of protein sequences（蛋白序列的深度嵌入和比对）了解详情

作者：Olivier Teboul, Jean-Philippe Vert等

简介：本文介绍了预训练在序列比对上的应用。蛋白质序列比对是大多数研究蛋白质结构和功能的生物信息学方法的一个关键组成部分。本文利用深度学习在语言建模和可微分方面的最新进展，提出了DEDAL，一个用于比对蛋白质序列并检测同源物的灵活的模型。DEDAL通过在具有已知比对的序列对和一大组原始蛋白质序列中预训练，通过Smith-Waterman算法的连续可微变体和特定的对齐损失函数进行端到端梯度优化。本文认为，一个通用的蛋白预训练语言模型往往是不够的，至少应该进行微调，以达到对齐任务的最佳性能。本文表明DEDAL比现有方法在远程同源物上的比对正确率提高了2-3倍，并能更好地将远程同源物与进化上不相关的序列区分开来，为改善结构和功能基因组学中许多依赖序列比对的下游任务提供了方案。

论文下载：https://doi.org/10.1101/2021.11.15.468653

标题：Mila、渥太华大学 | Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching（用SE(3)不变去噪距离匹配进行分子几何预训练）了解详情

作者：Shengchao Liu, Hongyu Guo, Jian Tang

简介：本文介绍了分子三维预训练。由于标记的分子数量有限，预训练分子表征在药物和材料发现的各种应用中至关重要，但现有的工作大多集中在二维分子图的预训练上。然而，对三维几何结构进行预训练的能力却没有得到很好的探索，这是因为很难找到一个足够有效地从几何结构中提取基本特征的自监督预训练任务。在三维分子动态性质的激励下，分子在三维欧几里得空间的连续运动形成了一个平滑的势能表面，本文于是提出了一个三维坐标去噪预训练框架来模拟这样一个能量景观。利用SE(3)不变分数匹配方法，本文提出SE(3)-DDM，其中坐标去噪任务被有效地归结为分子中成对原子距离的去噪。综合实验证实了本文提出的方法的有效性和稳健性。

论文下载：https://arxiv.org/pdf/2206.13602v1.pdf

标题：阿卜杜拉国王大学、中科院 | Predicting the antigenic evolution of SARS-COV-2 with deep learning（用深度学习预测SARS-COV-2的抗原进化）了解详情

作者：Wenkai Han、Xin Gao等

简介：本文介绍了多模态预训练在SARS-COV-2抗原进化的研究。本文旨在解决在实验检测能力缺乏的限制下，探索巨大蛋白潜在序列空间，发现潜在具有高抗原进化潜力的组合突变的问题。作者提出了MLAEP，它结合了预训练模型、序列结构信息、多任务学习和遗传算法来模拟病毒的适应度景观，并通过虚拟定向进化预测整个RBD区域的具有高抗原进化潜力的组合突变。为了证明模型的有效性，作者使用了假病毒中和试验数据集验证了模型预测逃逸潜力方面的性能。另外，使用遗传算法生成的具有免疫逃逸潜力的生成RBD突变序列与免疫力低下的COVID-19患者体内发现毒株以及新出现的突变体有类似的突变，且生成序列的对接实验显示，生成序列具有与Omicron相当甚至更好的免疫逃逸潜力，可能成为未来的高风险突变体。

论文下载：https://doi.org/10.1101/2022.06.23.497375

标题：Salesforce、约翰霍普金斯、哥大 | ProGen2: Exploring the Boundaries of Protein Language Models（ProGen2: 探索蛋白语言模型的边界）了解详情

作者：Erik Nijkamp, Jeffrey Ruffolo, Eli N. Weinstein, Nikhil Naik, Ali Madani

简介：本文介绍了超大规模蛋白预训练。近年来，在蛋白质序列上预训练的基于注意力的模型在蛋白质设计相关的分类和生成任务上表现出了惊人的成功。然而，研究者们对非常大规模的模型和数据如何在有效的蛋白质模型开发中发挥作用缺乏足够的了解。本文介绍了一套蛋白质语言模型，命名为ProGen2，该模型被扩展到64亿个参数，并在不同的序列数据集上进行训练，这些数据集来自基因组、元基因组和免疫组库数据库的10多亿种蛋白质。ProGen2模型在捕捉序列进化信息的分布、生成新序列和预测蛋白质的适应度方面显示出最先进的性能，而不需要额外的微调。本文的结果表明，随着模型规模和蛋白质序列数量继续变得越来越大，需要越来越重视蛋白质序列模型的数据分布。

论文下载：https://arxiv.org/pdf/2206.13517.pdf

研究动态

标题：MIT|On-Device Training Under 256KB Memory（256KB 内存下的设备上训练）了解详情

作者：Ji Lin, Ligeng Zhu, Song Han等

简介：通过微调预训练模型，设备上训练使模型能够适应从传感器收集的数据。对于内存资源很少的物联网设备来说，训练内存消耗是令人望而却步的。作者提出了一种算法-系统协同设计框架，只需 256KB 的内存就可以进行设备端训练。设备上的培训面临两个独特的挑战：(1) 神经网络的量化图由于比特精度混合和缺乏归一化而难以优化；(2)有限的硬件资源（内存和计算）不允许完全反向计算。为了应对优化困难，作者提出量化感知扩展来校准梯度尺度和稳定量化训练。为了减少内存占用，作者建议稀疏更新跳过不太重要的梯度计算层和子张量。算法创新由轻量级实现训练系统，修剪后向计算图形以支持稀疏更新并将运行时自动微分卸载到编译时间。作者的框架是第一个实用的设备传输解决方案，在微型物联网设备上学习视觉识别，使用不到现有框架内存的1/100。作者的研究使物联网设备不仅能够执行推理，而且还不断适应新数据，以进行设备上的终身学习。

论文下载：https://arxiv.org/pdf/2206.15472v1.pdf

标题：有监督预训练！文本生成又一探索！了解详情

简介：本文收集了7种代表性生成任务的45个有标签数据集，共计3200千万条样本（23GB），来作为预训练语料。第一阶段，使用这些语料训练一个标准的Transformer，即MVP；第二阶段，冻结住MVP，利用每个任务的数据训练任务特定的连续型提示（即7组提示）。随后，为了测试模型的有效性，本文在这7个任务的常见数据集上进行了测试。相较于无监督预训练的BART，有监督预训练的MVP有明显提示。在没有使用任务技巧的情况下，我们的通用模型在15个数据集上有10个取得了SOTA效果。本文还在生成基准GEM上进行了测试，效果全面优于ExT5。最后，为了测试模型的通用性，本文还在预训练阶段未知的生成任务和自然语言理解基准GLUE上进行了测试，在未知生成任务取得了SOTA效果，在GLUE上也优于基线BART。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

《预训练周刊》第52期：屏蔽视觉预训练、目标导向对话相关推荐

开源大数据周刊-第52期
摘要: 利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制本文结合EMR集群,讲述了如何利用yarn capacity schedule ...
《预训练周刊》第9期：TABBIE：表格数据的预训练表示、「视觉预训练神作」：不用图片却训出图像识别SOTA？...
No.09 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第9期< ...
《预训练周刊》第47期：屏蔽自编码器、结构化知识注入预训练、ERNIE 3.0
No.47 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...
No.13 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...
《预训练周刊》第40期：量子预训练、千层BERT与GPT
No.40 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架...
No.29 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了10篇预训练相关的论文,涉及图像处理.图像屏蔽编码.推荐系统.语言模型解释.多模态表征.多语言建模.推 ...
《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...
《预训练周刊》第25期：HyperCLOVA：数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
No.25 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...

《预训练周刊》第52期：屏蔽视觉预训练、目标导向对话

《预训练周刊》第52期：屏蔽视觉预训练、目标导向对话相关推荐

最新文章

热门文章