No.19

智源社区

预训练组

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了14篇预训练相关的论文,涉及强化学习、图像分割、音频理解、实体分割、认知网络、计算机视觉、文本量子表示、核酸表示、进化对比学习、用户界面理解、预训练提示、新闻提取、关系提取和抄袭识别的探索。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍大语言模型和多模态翻译等方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

论文推荐

标题:MIT、剑桥、哈佛|Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning(基于理论的建模、探索和规划的人类水平的强化学习)了解详情

推荐理由:模仿人类快速学习能力的新强化学习理论:该模型还捕获了人们探索轨迹和学习动态中的细粒度结构,它的设计和行为为构建更通用的类人AI系统指明了前进方向。

简介:强化学习算法都没有考虑到人类能够如此快速地学习这么多不同任务的能力。我们提出了一种新的方法来应对这一挑战,它基于一种特别强大的基于模型的强化学习形式,称之为基于理论的强化学习,它使用了类人的直觉理论——丰富、抽象、因果模型的物理对象、意向代理及其交互——探索和模拟环境,并有效地计划以实现任务目标。我们在名为EMPA(探索、建模和规划代理)的视频游戏代理中实例化该方法,该代理执行贝叶斯推理以学习表示为游戏引擎模拟器程序的概率生成模型,并在这些模型上运行内部模拟以支持有效的对象,关系探索和启发式规划。

论文地址:https://arxiv.org/pdf/2107.12544v1.pdf

标题:约翰霍普金斯大学|Segmentation in Style: Unsupervised Semantic Image Segmentation with Stylegan and CLIP(风格分割:Stylegan 和 CLIP的无监督语义图像分割)了解详情

推荐理由:一种创新性的无监督图像分割方法

简介:我们引入了一种方法,允许自动将图像分割成具有语义的区域,而无需人工监督。派生区域是一致的不同图像并符合人类定义的语义一些数据集上的类。在语义区域的情况下人类可能很难定义和一致地标记,我们的方法仍然能够找到有意义且一致的语义类。在我们的工作中,我们使用预训练的StyleGAN2生成模型:特征空间中的聚类生成模型允许发现语义类。一旦发现类,就可以生成具有生成图像和相应分割掩码的合成数据集。之后,在分割模型上训练合成数据集,并能够推广到真实图像。此外,通过使用CLIP,我们可以使用用自然语言定义的提示来发现一些所需的语义类。

代码地址:https://github.com/warmspringwinds/segmentation_in_style

论文地址:https://arxiv.org/pdf/2107.12518v1.pdf

标题:萨里大学|AUDIO CAPTIONING TRANSFORMER(音频字幕变换器)了解详情

推荐理由:变换器的音频字幕应用

简介:音频字幕旨在自动生成音频剪辑的自然语言描述。大多数字幕模型遵循编码器-解码器架构,其中解码器预测单词基于编码器提取的音频特征。卷积神经网络和循环神经网络通常用作音频编码器。我们提出了一个音频字幕变换器,这是一个完整的变换器基于编码器-解码器架构的网络,完全无卷积。所提出的方法具有更好的建模能力音频信号中的全局信息以及捕获音频事件之间的时间关系。我们在AudioCaps上评估了模型,这是公开可用最大的音频字幕数据集。

论文地址:https://arxiv.org/pdf/2107.09817v1.pdf

标题:港中文、Adobe、牛津等|Open-World Entity Segmentation(开放世界实体分割)了解详情

推荐理由:一种新的图像分割任务

简介:我们引入了一个新的图像分割任务,称为实体分割,目的是在不考虑语义的情况下分割图像中的所有视觉实体类别标签。它在图像处理/编辑方面有许多实际应用,其中分割掩码质量通常至关重要,但类别标签较少。所有语义上有意义的片段都被同等对待作为无类别的实体,并且没有事物与事物的区别。基于我们统一的实体表示,我们提出了一个基于中心的实体分割框架有两个新颖的模块来提高屏蔽质量。实验上,我们的新与现有工作相比,任务和框架显示出优越的优势。特别是,实体分割可以实现以下功能:(1)合并多个数据集以形成一个大的无需解决标签冲突的训练集;(2)在一个模型上训练的任何模型数据集可以非常好地泛化到具有未知域的其他数据集。

代码地址:https://github.com/dvlab-research/Entity

论文地址:https://arxiv.org/pdf/2107.14228v1.pdf

标题:DeepMind|Epistemic Neural Networks(认知神经网络)

了解详情

推荐理由:在不确定性建模方面,认知神经网络设计上的创新在统计质量和计算成本方面提供了几何级数的改进效果。

简介:我们引入了认知神经网络作为深度学习中不确定性建模的方法。现有的不确定性方法建模可以表示为ENN,任何ENN都可以用贝叶斯神经网络表示。然而,这种新观点提供了几个未来研究的有希望的方向。先前工作已经发展的局部神经网络的概率推理工具;相反,我们问,“哪个神经网络适合作为概率推理的工具吗?”。我们提出ENN进展的一个清晰而简单的指标:KL 散度与目标分布。我们评估了几个深度学习中不确定性建模的规范方法,并发现它们的性能差异很大。我们提供对敏感度的洞察,这些结果表明我们的指标在顺序决策问题中与绩效高度相关。最后,我们提供的迹象表明,新的ENN架构可以在统计质量方面提高性能和降低计算成本。

代码地址:https://github.com/deepmind/enn

论文地址:https://arxiv.org/pdf/2107.08924v1.pdf

标题:新加坡国立大学|Go Wider Instead of Deeper(神经网络更宽而不是更深)了解详情

推荐理由:在计算机视觉领域,尝试了拓展网络宽度来提升学习效果;更宽的模型在更少的可训练模型参数下的取得了更好的性能。

简介:为了用更少的可训练参数获得更好的性能,我们提出了一个框架,通过更宽而不是更深,来有效地部署可训练参数。特别地,我们通过专家混合替换前馈网络来沿模型宽度进行缩放。我们使用单独的层归一化在变换器块之间共享MoE层。这样的部署起到了转换各种语义表示作用,这使得该模型参数更高效和有效。为了评估我们的框架,我们设计了WideNet并在ImageNet-1K上进行模型评价。我们最好的模型在0.72倍可训练参数下的性能比Vision Transformer(ViT) 高1.46%;使用0.46×和0.13×参数,我们的WideNet仍然可以分别超过ViT和ViT-MoE0.83%和2.08%。

论文地址:https://arxiv.org/pdf/2107.11817v1.pdf

标题:伦敦大学学院、剑桥、伊利诺伊大学|On the Quantum-like Contextuality of Ambiguous Phrases(歧义短语的类量子语境性研究)了解详情

推荐理由:将量子力学语境用于自然语言歧义短语建模。

简介:语言作为词的意义取决于他们的上下文。在量子力学中,语境是一个定义明确的概念,它是量子计算的主要资源。我们研究自然语言是否表现出任何量子力学的上下文特征。在量子层理论框架中,我们提出可以对歧义短语中的含义组合进行语境建模,在这种情况下,它们可以表示成为情境可能性。我们探索默认上下文(CbD)框架,分析这些潜在变量和默认上下文概率。

论文地址:https://arxiv.org/pdf/2107.14589.pdf

标题:德州农工|Nucleic Transformer: Deep Learning on Nucleic Acids with Self-attention and Convolutions(核酸Transformer:自注意力和卷积的核酸深度学习)了解详情

推荐理由:核酸预训练及可解释性应用

简介:将机器学习应用于基因组学任务方面已经有了很多工作,但这些应用通常需要大量的领域知识,而且所产生的模型提供的可解释性非常有限。本文提出了 Nucleic Transformer,一个使用自注意力和卷积来处理核酸序列的可解释的预训练模型架构。该模型可以在有监督和无监督的情况下进行训练,不需要太多的领域知识,就可以在大肠杆菌启动子分类、病毒基因组识别和COVID-19 mRNA候选疫苗的降解特性方面以有限的数据量实现高性能预测,在各种DNA及RNA任务中表现出色。此外,本文还展示了从学习到的注意力中提取启动子motif,以及自注意力图的直接可视化如何帮助使用深度学习模型进行知情决策。

论文地址:https://www.biorxiv.org/content/10.1101/2021.01.28.428629v2.full

标题:多伦多大学|Discovering molecular features of intrinsically disordered regions by using evolution for contrastive learning(通过进化对比学习发现蛋白内在无序区特征)了解详情

推荐理由:利用预训练进行特征挖掘的蛋白组学层次进化方法

简介:内在无序区(IDRs)广泛存在于蛋白质组中,一个主要挑战是识别介导这些区域功能的分子特征。本文介绍了一种蛋白组规模的IDRs特征发现方法, "反向同源法"。该方法利用重要的功能特征在进化过程中保守的原则作为深度学习的对比学习信号,给定一组同源的IDRs,预训练模型需要从另一组从蛋白组中随机抽样的IDRs中正确选择一个被保留的同源序列。作者将反向同源与预训练架构和可解释技术搭配,并表明学习模型学习到了IDRs的保守特征,这些特征可以被解释为motif、氨基酸重复或其他物理化学特征。本文还表明,该模型可以用来预测哪些残基和区域对功能最重要,为不确定的IDRs设计诱变实验提供一个计算策略。

论文地址:https://www.biorxiv.org/content/10.1101/2021.07.29.454330v2

标题:谷歌、达特茅斯学院 | UIBert: Learning Generic Multimodal Representations for UI Understanding(UIBert:学习用于UI理解的通用多模态表征)了解详情

推荐理由:SOTA多模态UI场景模型

简介:用户界面(UI)理解场景的难点为,如何有效地利用涉及图像、文本和结构数据的多模态UI特征,以及如何在高质量的标记数据不可用时实现良好的性能。对此本文引入了UIBert,一个通过对大规模未标记的UI数据进行新的预训练任务来学习UI及其组成的通用表征的图像-文本联合模型。本文的核心思想是,用户界面中的异质特征是自我对齐的,即用户界面组件的图像和文本特征是可以相互预测的。本文提出了五个利用UI组件的不同特征之间以及同一UI中的不同组件之间的这种自我对齐的预训练任务。作者在九个真实世界的下游UI任务中评估了我们的方法,其中UIBert比强大的多模态基线的准确率提高达9.26%。

论文地址:https://arxiv.org/pdf/2107.13731v1.pdf

标题:卡耐基梅隆大学 | Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing(预训练、prompt和预测:自然语言处理中prompt方法的系统综述)了解详情

推荐理由:基于prompt方法的预训练范式综述

简介:本文总结了自然语言处理中基于prompt的工作,该方法独特点在于原始输入被使用prompt修改成可填充信息的字符串,直接对文本的概率进行建模。prompt方法允许语言模型在大量的原始文本上进行预训练,通过定义一个新的prompt函数,模型能够进行几轮甚至零轮的学习,以适应只有少数或没有标记数据的新场景。本文介绍了这种有前途的范式的基本原理,描述了一套统一的可以涵盖各种现有的工作的数学方法,并沿着几个维度梳理现有的工作,例如预训练的模型的选择、prompt调整策略等。作者认为基于prompt的学习是一种很有前途的新范式,可能代表着NLP的又一次重大变化。

论文地址:https://arxiv.org/pdf/2107.13586v1.pdf

标题:巴黎综合理工学院|基于BERT上下文嵌入的金融新闻股票走势预测了解详情

推荐理由: 基于Transformer(BERT)的新文本挖掘方法,通过新闻标题,预测股价波动。

简介:新闻事件可以极大地影响股票市场。在本文中,我们只利用新闻标题来预测金融新闻事件后股票价格的短期变动。为了实现这一目标,我们引入了一种新的文本挖掘方法,称为微调上下文嵌入递归神经网络(FT-CE-RNN)。与以往使用静态向量表示新闻(静态嵌入)的方法相比,我们的模型使用了由Transformer(BERT)的双向编码器表示生成的标题的上下文化向量表示(上下文化嵌入)。我们的模型得到了这个股票运动预测任务的最新结果。与其他基准模型相比,该模型在精度和交易模拟方面都有显著提高。通过对彭博新闻数百万条头条新闻的各种交易模拟,我们证明了该模型在真实场景中的能力。

论文地址:https://arxiv.org/abs/2107.08721

标题:佛罗里达大学|基于Transformer模型的临床关系提取了解详情

推荐理由:BERT、RoBERTa和XLNet,在临床关系抽取领域的实践

简介:本研究的目的是系统地探索三种广泛使用的基于Transformer的临床关系抽取模型(即BERT、RoBERTa和XLNet),并开发一个开放源码软件包,其中包含临床预训练的基于Transformer的模型,以促进临床领域的信息抽取。期望这项工作将改善目前在生物医学领域的临床关系抽取和其他相关自然语言处理任务的实践。详情请参阅原文。

论文地址:https://arxiv.org/abs/2107.08957

标题:澳门大学、腾讯、悉尼大学|神经机器翻译中预训练的抄袭行为研究了解详情

推荐理由: 通过复制(抄袭)惩罚方法,促升神经机器翻译模型的翻译性能。

简介:以往的研究表明,利用预先训练的语言模型(LM)初始化神经机器翻译(NMT)模型可以加快模型训练并提高模型性能。在这项工作中,我们发现了预训练NMT的一个关键的副作用:基于LM的预训练和NMT之间的训练目标存在有不一致的现象。由于LM目标学习重构少数源符号并复制大部分源符号,因此预训练初始化会影响NMT模型的复制行为。我们通过引入一个称为复制率的指标对复制行为进行了定量分析,实证结果表明,基于预训练的NMT模型比标准模型具有更大的复制率。针对这一问题,我们提出了一种简单有效的方法复制惩罚来控制解码过程中的复制行为。对域内和域外基准测试的大量实验表明,复制惩罚方法通过控制基于预训练的NMT模型的复制行为,持续地提高了翻译性能。

代码地址:https://github.com/SunbowLiu/CopyingPenalty

论文地址:https://arxiv.org/abs/2107.08212

研究动态

标题:中国要做GPT-3!昇腾黑科技曝光,2.4倍性能提升释放「算力狂魔」了解详情

简介:国际权威AI基准测试MLPerf公布最新一期榜单中,鹏城实验室和北京大学联合团队基于华为昇腾AI基础软硬件平台,取得优异的表现:昇腾基础软硬件平台集群性能同比提升2.4倍!

标题:百度ICML 2021论文:融合声音和文本编码的跨模态多语言预训练和语音翻译模型了解详情

简介:近来,文本和语音表示学习成功大幅提升了许多与语言与语音相关的任务。但是,现有方法只能从文本或语音的一种输入模态的数据中学习,而许多常见的跨模态的任务,例如语音翻译,则需要统一的声音和文本表示。为解决这个问题,我们提出了一种融合语音和文本的语言模型FAT-MLM,该模型可以学习统一的语音和文本表示。在这种跨模态表示学习框架下,我们进一步提出了融合语音和文本的端到端语音翻译模型FAT-ST。在三个翻译方向上进行的实验表明,我们在FAT-MLM预训练基础上的语音翻译模型可以显着提高翻译质量。

论文地址:http://proceedings.mlr.press/v139/zheng21a/zheng21a.pdf

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

《预训练周刊》第19期:歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...相关推荐

  1. 《预训练周刊》第24期:Infinite-former:无限记忆变换器、2500万悟道科研基金开始申请

    No.24 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...

  2. 《预训练周刊》第21期:FlipDA:有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...

    No.21 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期&l ...

  3. 《预训练周刊》第16期:中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...

    No.16 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...

  4. 《预训练周刊》第13期:CPM-2:大规模经济高效的预训练语言模型、变换器作为编程语言...

    No.13 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...

  5. 《预训练周刊》第24期:Infinite-former:无限记忆变换器、2500万悟道科研基金开始申请...

    No.24 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...

  6. 《预训练周刊》第39期: 深度模型、提示学习

    No.39 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  7. 《预训练周刊》第25期:HyperCLOVA:数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...

    No.25 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...

  8. 《预训练周刊》第23期:Smart Bird:解决变换器性能瓶颈的新方法、Prompt:如何提升预训练模型的迁移效果...

    No.23 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...

  9. 《预训练周刊》第22期:Fastformer:加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...

    No.22 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...

最新文章

  1. jsp中空格字符怎么写_驰骋职场多年,如何对付Excel中的空格字符?
  2. R语言普通最小二乘回归分析
  3. 算法设计与分析 Fibonacci数列问题的词典法(动态规划:词典)
  4. 文本挖掘预处理流程总结(1)— 中文
  5. GPU Gems1 - 22 颜色控制(Color Controls)
  6. 手写实现java中的trim_JS中字符串trim()使用示例
  7. 微信公众平台开发问答 【转发】
  8. 为应用程序池**提供服务的进程意外终止。进程ID是**。进程退出代码是'0x80'
  9. 【cocos2d-x从c++到js】13:回调函数2——JSCallbackWrapper
  10. Spring Boot基础学习笔记08:Spring Boot整合Redis
  11. NSArray 的遍历
  12. 校赛热身 Problem C. Sometimes Naive (状压dp)
  13. 英文的写作 —— 句子的积累
  14. 4.DTD - 元素 - 属性
  15. 微型计算机工作最小时间单位,2010~2011学年第1学期微机原理2试卷A(答案)
  16. 2022华为杯研究生数学建模竞赛E题思路解析
  17. php文字如何排版,文字如何实现完美UI?文本排版设计告诉你
  18. Floyd是咋求图的最短路径?
  19. 将你的 Python 脚本转换为命令行程序
  20. 【有利可图网】设计配色方案之紫色系篇

热门文章

  1. MyISAM与InnoDB区别
  2. JAVA开发出现的BUG集_Java项目开发中一些BUG的总结
  3. python相关函数_python常用函数精讲
  4. qt 搜索隐藏文件_MacOS如何搜索隐藏文件?MacOS搜索隐藏文件的方法
  5. 请你描述一下 cookies,sessionStorage 和 localStorage 的区别?
  6. 定义一个有参宏判断一个字符是否在0~9之间
  7. java怎么做简易的游戏,Java小项目之《简易桌面小游戏》
  8. python读取字符串的list dict_转:Python 列表(list)、字典(dict)、字符串(string)常用基本操作小结...
  9. 5.java String对象
  10. 这是一篇优雅的Springboot2.0使用手册