《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...

No.14

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第14期《预训练周刊》，从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了14篇预训练相关的论文，涉及表格处理、图像生成、全连接网络、图像识别、稀疏网络、口头表达、语言模型、文档表示、多模态学习、语言模型偏见、聚类编码、视觉脑机制和视觉机制建模的探索。此外，在研究动态方面，我们选择了5篇预训练资讯，将介绍多模语言模型、阅读理解模型、变换器加速训练推理、图像迁移和可控文本生成等方面的一些最新内容。在资源下载方面，将介绍深度学习理论的动态。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：弗莱堡大学、莱布尼茨大学｜Regularization is all you Need:Simple Neural Nets can Excel on Tabular Data（正则化就是你所需要的：简单的神经网络可以在表格数据上表现出色）

了解详情

简介：表格数据集上即使相比最近的专用神经架构，传统的梯度提升决策树等机器学习方法仍然表现强劲。在本文中，我们假设提升神经网络性能的关键在于重新思考联合并同时应用大量现代正则化技术。因此，我们建议对普通多层感知器网络进行正则化通过搜索 13 种正则化技术的最佳组合/混合，对每个数据集使用联合优化来决定哪些正则化器应用及其附属超参数。我们凭经验评估了这些正则化鸡尾酒对MLP的影响包含40个表格数据集的大规模实证研究并证明(1)规范化的普通 MLP 显著优于最近的最新技术专门的神经网络架构，并且(2)它们甚至比传统的机器学习方法表现出色。

论文地址：https://arxiv.org/pdf/2106.11189v1.pdf

标题：莱布尼茨大学｜World-GAN: a Generative Model for Minecraft Worlds（World-GAN：Minecraft 世界的生成模型）

了解详情

简介：这项工作介绍了World-GAN，这是第一种通过 Minecraft 中的机器学习从单个示例执行数据驱动的程序内容生成的方法。基于 3D 生成对抗网络(GAN)架构，我们能够从给定的样本中创建任意大小的世界片段。我们评估了我们对来自社区的创作以及使用Minecraft World Generator生成的结构的方法。我们的方法受到word2vec引入的自然语言处理中使用的密集表示的启发。提议的block2vec表示使World-GAN独立于不同块的数量，这在 Minecraft 中可能有很大差异，并能够生成更大的级别。最后，我们证明改变这个新的表示空间允许我们改变已经训练好的生成器的生成样式。

论文地址：http://arxiv.org/pdf/2106.10155v1

标题：新加坡国立、南开、新加坡海洋AI实验室|Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition（视觉置换器：类似于 MLP 的置换视觉识别架构）

了解详情

简介：我们提出了视觉置换器，这是一种概念上简单且数据高效的类似MLP 的视觉识别架构。通过意识到重要性由 2D 特征表示携带的位置信息，不像最近的类似 MLP 的模型沿着扁平的平面编码空间信息空间维度，视觉置换器分别使用线性投影沿高度和宽度维度对特征表示进行编码。这允许视觉置换器沿一个空间方向捕获远程依赖关系，同时沿另一个空间方向保留精确的位置信息方向。然后将产生的位置敏感输出以相互补充的方式聚合以形成对象的表达表示出于兴趣。我们证明我们的视觉置换器是卷积神经网络和视觉转换器的强大竞争对手。

代码下载：https://github.com/Andrew-Qibin/VisionPermutator

论文地址：http://arxiv.org/pdf/2106.12368.pdf

标题：新加坡海洋AI实验室、新加坡国立|VOLO: Vision Outlooker for Visual Recognition（VOLO：用于视觉识别的视觉前景器）

了解详情

简介：我们发现限制视觉变换器对 ImageNet分类性能的主要因素是它们在将精细特征编码到符号表示中的效率低下。为此，我们介绍了一种新颖的前景注意并呈现简单而通用的架构，与专注于粗略全局依赖模型的自注意力不同，前景注意的目标是有效地将更精细的特征和上下文编码为符号，这对识别性能至关重要，但在很大程度上被自注意力所忽略，称为视觉前景器。

代码地址：https://github.com/sail-sg/volo

论文地址：https://arxiv.org/pdf/2106.13112v1.pdf

标题：阿里｜Exploring Sparse Expert Models and Beyond（探索稀疏专家模型）

了解详情

简介：专家混合模型可以以惊人参数量且恒定计算成本取得较好结果，因此成为模型缩放的趋势。MoE 层如何通过利用稀疏激活的参数带来质量提升仍然是一个谜。我们观察到负载不平衡可能不是影响模型质量的重大问题，而top-k 路由中的稀疏激活专家的数量专家能力可以显着影响上下文。此外，我们提出了称为专家原型一种简单的方法，将专家分成不同的原型并应用k个top-1 路由。这种策略提高了模型质量但保持不变计算成本，以及我们对超大规模模型的进一步探索反映它在训练更大的模型时更有效。

论文地址：https://arxiv.org/pdf/2105.15082.pdf

标题：波恩大学、Zerotha｜VOGUE: Answer Verbalization through Multi-Task Learning（VOGUE：基于多任务学习的语言化回答）了解详情

简介：当前的知识图谱问答系统只关注答案生成技术而不是回答口头表达。然而，在真实场景中，用户更喜欢口头回答而不是生成的响应。本文解决了复杂问题的答案语言化任务知识图谱。在这种情况下，我们提出了一种基于多任务的回答措辞框架：VOGUE。框架尝试通过多任务学习范式使用混合方法生成口头回答。我们的框架可以生成基于使用问题的结果和查询同时作为输入。VOGUE包含四个模块，通过多任务学习同时训练。我们在所有现有数据集上评估我们的框架用于回答语言表达，它的表现在BLEU和METEOR分数的作为评估指标优于所有当前基线。

代码下载：https://github.com/endrikacupaj/VOGUE

论文地址：https://arxiv.org/pdf/2106.13316v2.pdf

标题：百度|ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding（多粒度语言知识增强模型 ERNIE-Gram）

了解详情

简介：我们提出了ERNIE-Gram，这是一种显式的n-gram掩盖方法加强将粗粒度信息集成到预训练中。

论文地址：https://arxiv.org/pdf/2010.12148

标题：百度|ERNIE-DOC: A Retrospective Long-Document Modeling Transformer（长文本理解模型 ERNIE-Doc）

了解详情

简介：我们提出ERNIE-DOC，这是基于递归的文档级语言预训练模型变换器。两种精心设计的技术，即回顾性喂食机制和提高的复发率机制，其中有效上下文长度更长捕获完整文档的上下文信息。

论文地址：https://arxiv.org/pdf/2012.15688

标题：百度|ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs （融合场景图知识的跨模态理解模型 ERNIE-ViL）了解详情

简介：我们提出了一种知识增强的方法ERNIE-ViL，结合了从中获得的结构化知识场景图，以学习视觉语言的联合表示。

论文地址：https://arxiv.org/pdf/2006.16934

标题：百度|UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning（语言与视觉一体的模型 ERNIE-UNIMO）了解详情

简介：我们提出了一种UNIMOTED-MOdal预训练架构，即UNIMO，它可以有效地适应单模态和多模态理解和生成任务。

论文地址：https://arxiv.org/pdf/2012.15409

标题：卡耐基梅隆大学 | Towards Understanding and Mitigating Social Biases in Language Models（去理解和减轻语言模型中的社会偏见）了解详情

简介：随着机器学习方法在医疗保健、法律系统和社会科学等中的普及，认识到它们如何在这些敏感的决策过程中形成社会偏见和定型观念变得至关重要。其中大规模预训练语言模型在表现出不良的表征偏见方面具有潜在的危险性，主要原因在于由传播涉及性别、种族、宗教和其他社会构造的负面概括的陈规定型观念所导致的有害偏见。作为提高语言模型公平性的一个步骤，本文在提出新的基准和衡量标准之前，仔细定义了代表偏见的几个来源，并提出了在文本生成过程中减轻社会偏见的步骤，在为高保真文本生成保留关键的上下文信息的同时，有效地减轻了偏见。

论文地址：https://arxiv.org/pdf/2106.13219v1.pdf

标题：斯坦福、加泰罗尼亚理工 | Neural ADMIXTURE: rapid population clustering with autoencoders（Neural ADMIXTURE: 用自动编码器进行快速群体聚类）了解详情

简介：ADMIXTURE是广泛使用的用于描述遗传关联结构的无监督聚类算法。随着人类生物库规模的迅速扩大和每个样本基因分型或测序数量的增加，传统的方法需要用不同的超参数运行多次以正确描述群体聚类，增加了计算的负担。针对这个问题，本文提出了Neural ADMIXTURE，一个多头预训练自编码器，它遵循与ADMIXTURE相同的建模假设，将计算时间减少几个数量级的同时，提供与运行原始ADMIXTURE算法多次、不同数量的聚类相当的结果。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.27.450081v1

标题：约翰霍普金斯大学 | Functional selectivity for social interaction perception in the human superior temporal sulcus during natural viewing（自然视觉时人类颞上沟对社会互动感知的功能选择性）了解详情

简介：本文利用预训练视觉卷积方法等来揭示自然的社会互动感知所特有的大脑机制，通过在两个公开的fMRI数据集进行像素编码和方差分割分析，证明了社会性大脑区域，包括颞上沟和内侧前额叶皮层，对自然电影中广泛的社会情感信息是敏感的，复制了先前的结果。其中较为值得关注的是预训练视觉特征最能解释整个大脑的神经反应。本文首次表明，颞上沟，而不是内侧前额叶皮层，选择性地处理自然视觉中的社会互动，而不依赖于其他共同出现的知觉和社会特征，包括运动、面孔的存在、语言和对他人的心智分析。我们的结果表明，社会互动感知是人类大脑中社会理解的一个重要维度。

论文地址：https://www.biorxiv.org/content/10.1101/2021.03.26.437258v2.full

标题：Mila、DeepMind等 | The functional specialization of visual cortex emerges from training parallel pathways with self-supervised predictive learning（源自自监督预测学习的平行通路训练的视觉皮层的功能专一化）了解详情

简介：哺乳动物的视觉系统中不同通路使用的表征更适合于支持特定的下游行为，这其中最明显的例子是视觉皮层的分别支持与视觉识别和运动有关的行为的腹侧和背侧通路。本文探索了具有单一损失函数的单一模型是否能捕捉到腹侧和背侧通路的特性，并表明使用自监督的预测损失函数训练一个具有两个平行通路的预训练深度神经网络在拟合小鼠视觉皮层时可以胜过其他模型。此外，本文进行的关于运动不变性和形状不变性与自然进化的分析，证明了基于平行通路架构的自监督预测学习方法可以解释在哺乳动物视觉系统中的功能专一化。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.18.448989v2.full

研究动态

标题：横扫六大权威榜单后，达摩院把自家深度语言模型体系AliceMind开源了了解详情

简介：近几年兴起的预训练语言模型，有望让语言 AI 走向可规模化复制的工业时代。因此，「预训练 + 精调」已成为 NLP 任务的新范式。阿里巴巴达摩院作为最早投入预训练语言模型研究的团队之一，历经三年研发出深度语言模型体系 AliceMind, 其中的模型先后登顶 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在内的自然语言处理领域六大权威榜单，领先业界，相关工作论文被 AI/NLP 顶会接收，并入选 2021 世界人工智能大会最高奖 SAIL 奖 TOP30 榜单。上周 AliceMind 再次登顶多模态权威榜单 VQA Challenge 2021 视觉问答挑战赛，战胜了微软、Facebook 等几十家国际顶尖团队，超越第二名1个点，接近人类水平（80.78%）。近日，阿里巴巴达摩院宣布正式开源 AliceMind，希望通过开源来降低业界研究和创新应用的门槛，助推语言 AI 进入大工业时代。

标题：预训练千亿参数大模型时代，QQ浏览器团队十亿级小模型「摩天」登顶CLUE，极致压榨网络性能 了解详情

简介：随着以 BERT 为代表的一系列优秀预训练模型的推出，先基于预训练，再到下游任务的微调训练范式也已经成为一种主流，甚者对于产业界来说，某种意义上打破了之前语义理解的技术壁垒。今年各大机构先后推出了自家的预训练模型，在反哺自身业务的同时纷纷在 CLUE 榜单不断刷新成绩和排名。中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型，炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型，提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。

标题：支持Transformer全流程训练加速，最高加速3倍！字节跳动LightSeq上新了解详情

简介：Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型，但由于硬件资源匮乏，很多高校实验室或者公司都无法训练很大的模型，而降低批处理大小等措施又会导致训练时间成倍增加。近日LightSeq发布了最新版本！本次引入了引擎方面的重大更新——支持了 Transformer 全流程训练加速，在不同的批处理大小下相比主流训练库最高可加速 3 倍多！至此从训练到推理部署的整个过程都已被 LightSeq 打通。那么LightSeq到底采用了哪些技术呢？

代码地址：https://github.com/bytedance/lightseq

标题：年轻的LeCun、吴恩达长啥样？强大的预训练升级版StyleGAN：可以告诉答案了解详情

简介：英伟达提出的风格迁移模型 StyleGAN 系列，一直是人们用来进行各类脑洞画图实验的流行工具。从生成二次元「偶像」，照片修图，到人物的卡通化，最近几年基于这种技术的应用不一而足。然而 StyleGAN 也一直有着自己的不足，近年来的各种改进也未能让其在反向生成、细节编辑上实现精细的效果。什么时候我们才能让 AI 随心所欲地修改真人照片呢？今年 6 月，这样的研究终于出现了。以色列特拉维夫大学的研究者，通过添加一个简短的训练过程，让 StyleGAN在生成图像方面有了焕然一新的升级，让所用方法在保留源图像身份的同时，在细节编辑上实现了更精细的效果。

论文地址：https://arxiv.org/pdf/2106.05744.pdf

代码地址：https://github.com/danielroich/PTI

标题：如何让机器听起来更像人？CMU博士论文探究可控文本生成

了解详情

简介：CMU学者从人类交流的三个方面：风格、内容、结构讨论了如何能够让机器听起来更像人，并提供了在神经文本生成中控制这些变量的深度学习解决方案。首先，作者概述了可以被操控的几个模块，操控这些模块可以实现有效的可控文本生成。作者为使用反向翻译的风格迁移提供了一种新颖的解决方案，以完成各种任务、如：性别迁移、政治倾向迁移、情绪修改。而且论文中还介绍了两个新任务，以利用非结构化文档的信息，来进入生成的过程。然后，作者为句子排序任务提供了一种新颖且优雅的设计，以学习有效的文档结构。最后，作者讨论了有关可控文本生成应用在道德伦理层面的考量。

论文地址：https://www.cs.cmu.edu/~sprabhum/docs/proposal.pdf

资源下载

标题：脸书、MIT｜The Principles of Deep Learning Theory:An Effective Theory Approach to Understanding Neural Networks(深度学习理论的原理:理解神经网络的有效理论方法)了解详情

简介：在本书中，我们在所做的每一个选择中都力求采用教学法，将直觉置于形式之上。事实上，了解计算是如何完成的与了解计算结果一样重要，因此我们的教学重点往往是其中的细节。鉴于现代深度学习代码的简单性和计算的可用性，您可以轻松地自行验证任何公式。第三，我们主要关注深度学习社区在实践中使用的现实模型：我们想要研究深度神经网络。特别是，这意味着将不会讨论单隐藏层网络的一些特殊结果，以及神经网络的无限宽度限制——对应于零隐藏层网络——将仅作为起点进行介绍。

下载地址：https://arxiv.org/pdf/2106.10165.pdf

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...相关推荐

《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...
《预训练周刊》第20期：EVA：包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...
No.20 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第20期&l ...
《预训练周刊》第17期：深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...
No.17 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...
《预训练周刊》第24期：Infinite-former：无限记忆变换器、2500万悟道科研基金开始申请
No.24 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...
《预训练周刊》第21期：FlipDA：有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...
No.21 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期&l ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...
No.13 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...
《预训练周刊》第12期：无注意力变换器、借蛋白质语言模型论进化速度
No.12 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...

《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...

《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...相关推荐

最新文章

热门文章