No.05

智源社区

预训练组

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了6篇预训练相关的论文,涉及AI诗人、无监督句子嵌入、半监督学习、分子特征学习、机器学习数学以及语音识别的探索。此外,在研究动态方面,我们将介绍P-tuning的新方法来自动搜索连续空间中的prompt,以提高GPT模型的自然语言理解能力,突破Transformer具有二次时间复杂度、高内存使用率以及encoder-decoder体系结构限制的Informer,以及BERT发展史等方面的一些最新内容。周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

论文推荐

标题:Augmenting Poetry Composition with Verse by Verse(用诗歌推荐来增强诗歌创作)了解详情

简介:我们用诗来描述诗,我们在借助AI来增强诗歌创作的创造性过程。我们创建了一组以各种美国经典诗人的风格命名的AI诗人,可以作为建议用户撰写诗歌时生成的诗句行。在本文中,我们描述了提供这些建议的基础系统。这包括一个生成模型,该模型是负责生成大量的语料库的离线诗集,然后存储在索引,以及负责的双编码器模型推荐下一组可能的上一行给出了我们索引的经文的诗句。

论文地址:https://arxiv.org/pdf/2103.17205.pdf

标题:WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach(WhiteningBERT:一种简单的无监督语句嵌入方法)了解详情

简介:计算句子嵌入,在实践中,无监督方式对自然语言匹配和检索问题很有用。在这项工作中,我们对基于预训练模型的无监督句子嵌入进行了全面检查。我们研究四个预训练模型,并在七个关于句子语义的数据集上进行大规模实验。我们有主要发现:一,平均所有字符向量比仅使用[CLS]字符向量效果更好;二,结合顶层和底层比仅使用顶层更好;最后,利用一个简单的基于白化方法,用少于10行的归一化策略代码段提高性能。

论文地址:https://arxiv.org/pdf/2104.01767.pdf

标题:借力预训练模型:实现半监督迁移学习自适应一致性正则化了解详情

简介:最近关于半监督学习的研究在利用标记和未标记数据方面取得了显著进展,但大多数研究都假定模型的基本设置是随机初始化的。本文研究了更实用和更具竞争力的场景:在具备预训练模型的情况下进行半监督学习,让自适应一致性正则化技术来充分利用预训练模型和无标签样本的价值。通过对ImageNet的预先训练模型resnet-50的fine-tuning,我们对现有流行的基准如CUB-200-2011、MIT-Indoor-67、MURA进行了广泛的验证对比。实验结果表明,我们提出的自适应一致性正则化优于最新的半监督学习技术(如Pseudo Label,Mean Teacher和MixMatch)。相比现有的方法:我们的算法是有明显优势,并且能和MixMatch/FixMatch等最新方法叠加使用、将获得进一步提升。

论文地址:https://arxiv.org/abs/2103.02193

标题:Knowledge-aware Contrastive Molecular Graph Learning(知识感知分子图对比学习)了解详情

简介:在分子特征学习中利用包括指纹和官能团在内的领域知识对化学性质预测和药物发现至关重要。在对分子图结构和分子性质之间的关系进行建模时,现有的工作很难捕捉到结构或特性的变化和原子种类分布不平衡的复杂结构。本文提出了用于自监督分子表征学习的对比知识感知图神经网络(CKGNN),将领域知识融合到分子图表征中。在对比学习框架下,作者通过CKGNN编码领域知识,确保生成的分子嵌入具备化学领域知识,以区分化学式相似但功能不同的分子。文章共在8个公共数据集上的广泛实验证明了其模型的有效性,平均上有6%的效果提升。

论文地址:https://arxiv.org/abs/2103.13047

标题:NaturalProofs: Mathematical Theorem Proving in Natural Language(NaturalProofs: 用自然语言证明数学定理)了解详情

简介:利用混合了人类使用的符号语言和自然语言的自然数学语言去了解和创造数学,是推动机器学习发展的一个具有挑战性的重要问题。作为在此方向的一小步,本文提出了NATURALPROOFS,一个用自然数学语言书写的大规模的数学语句数据集以及其对应的证明。作者在此基础上提出了一个数学检索任务,测试系统发掘证明中的关键结果的能力。与经典信息检索技术相比,大尺度序列模型借助语言模型预训练在这项任务中表现出色。

论文地址:https://wellecks.github.io/naturalproofs/welleck2021naturalproofs.pdf

标题:Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training(分析自监督预训练中的域迁移)了解详情

简介:语音表征的自监督学习一直是一个非常活跃的研究领域,但大多数工作都集中在存在大量的标签和非标签数据的某一个单一的领域,如阅读有声读物。本文探索了更普遍的情况,预训练数据的未标记数据的域与微调的标记数据的域不同,而标记数据的域又可能与测试数据域不同。我们的实验表明,在预训练过程中使用目标域数据会在各种情况中带来很大的性能提升。在一个大规模的竞争性场景中,本文表明在未标记的域内数据上进行预训练可以将在域内和域外标记数据上训练的模型之间的差距缩小66%-73%。这具有明显的实际意义,因为获得无标签的目标域数据比获得有标签的数据要容易得多。此外作者发现,在多个域上进行预训练可以提高训练期间未见过的域的泛化性能。

代码地址:https://github.com/pytorch/fairseq

论文地址:https://arxiv.org/pdf/2104.01027.pdf

研究动态

标题:谁说GPT只擅长生成?智源、清华等研究力证:GPT语言理解能力不输BERT了解详情

简介:一直以来,GPT模型的语言生成能力有目共睹,但语言理解能力似乎略逊一筹。最近,智源、清华等机构的一项研究打破了这一刻板印象。GPT-3的成功表明,「巨大的单向语言模型 + 适当的手工prompt」这一组合可能有助于提高模型的自然语言理解能力。然而,手工制作表现最佳的prompt无异于大海捞针,通常需要异常庞大的验证集。在很多情况下,有效的prompt工程意味着过拟合测试集。而且,这很容易导致对抗 prompt的产生,进而导致模型性能大幅下降。为了解决这些问题,部分研究者致力于自动搜索离散prompt并取得了一些成效,但神经网络本质上是连续的,因此离散prompt可能并非最优。在一篇标题为《GPT Understands, Too》的论文中,来自清华大学、麻省理工、北京智源人工智能研究院、Recurrent AI 的 Xiao Liu、唐杰、杨植麟等研究者提出了一种名为P-tuning的新方法来自动搜索连续空间中的prompt,以提高GPT模型的自然语言理解能力。

标题:AAAI 2021最佳论文Informer:效果远超Transformer的长序列预测神器!了解详情

简介:在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer存在一些严重的问题,如:二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:(1)ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了  ,在序列的依赖对齐上具有相当的性能。(2)self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。(3)产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。

标题:盘点NLP预训练「兵器谱」,哪件才是你的最爱了解详情

简介:要说自然语言处理领域当今最fashion的“神兵”,恐怕非预训练语言模型莫属。2018年BERT横空出世,那真可谓是打开了NLP新世界的大门。且在这条预训练+微调的修行之路上,各路高手那叫一个百花齐放,各领风骚。你看XLNet才把 BERT从榜单之巅拉下马,那厢 RoBERTa便进一步“榨干”BERT 性能,重归榜首。其实,还不仅仅是西方选手轮番登台,文心ERNIE等东方身影也不乏精彩表现。那么,这两年多以来,都有哪些模型表现可圈可点?诸位看官便不妨随我盘点一番~

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

《预训练周刊》第5期:智源等研究力证:GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...相关推荐

  1. 智源社区AI周刊No.106:智源提出中英双语生成模型AltDiffusion;DeepMind等破解AlphaZero学习机理...

    汇聚每周AI热点,不错过重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 破解数学难题已成为AI研究的一个主战场 数学被认为是破解智能形成的机制机理,了解神经网络的理论基础等方面的重要工具.近日,MI ...

  2. 倒计时三天丨NeurIPS 2020预讲会:7位智源青年科学家,21场报告

    NeurIPS 2020预讲会来了 7位智源青年科学家领衔 因果与学习.3D视觉 神经网络架构设计.自监督与迁移 扫码报名,线上会议免费注册 第三十四届神经信息处理系统大会(NeurIPS 2020) ...

  3. 倒计时两天丨NeurIPS 2020预讲会:7位智源青年科学家,21场报告

    NeurIPS 2020预讲会来了 7位智源青年科学家领衔 因果与学习.3D视觉 神经网络架构设计.自监督与迁移 扫码报名,线上会议免费注册 第三十四届神经信息处理系统大会(NeurIPS 2020) ...

  4. 完胜BERT!NLP预训练利器:小模型也有高精度,单个GPU就能训练

    2020-03-13 12:37:59 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这款NLP预训练模型,你值得拥有. 它叫ELECTRA,来自谷歌AI,不仅拥有BERT的优势,效率还 ...

  5. 从word2vec到bert:NLP预训练模型发展史

    自然语言处理 Author:张俊林 转自:深度学习前沿笔记 知乎专栏 原文链接:https://zhuanlan.zhihu.com/p/49271699 本文的主题是自然语言处理中的预训练过程,会大 ...

  6. 第八十九期:还在手动盖楼领喵币?双十一这群开发者竟然如此「作弊」

    开发者构建了一个脚本以自动逛双十一会场,让使用者轻松完成各种领币任务,同时还能解放双手. 作者:Synced 每年的 11 月份,总觉得有些硝烟弥漫.好在淘宝双十一领喵币,也已经有了自动化脚本. 感觉 ...

  7. 2021 AI技术盘点:预训练模型5大进展

    [专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...

  8. 《预训练周刊》第25期:HyperCLOVA:数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...

    No.25 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...

  9. 《预训练周刊》第24期:Infinite-former:无限记忆变换器、2500万悟道科研基金开始申请

    No.24 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期&l ...

最新文章

  1. c++动态分配二维数组
  2. Android进程间通信的方式
  3. zookeeper集群启动报错:Cannot open channel to * at election address /ip:3888
  4. LruCache 源码解析
  5. 5G NR — 动态频谱共享
  6. iOS边练边学--iOS中的XML数据解析
  7. 矩阵分解的推荐算法入门-好好看
  8. win 启动redis_Redis慢查询日志
  9. Java| 编译和反编译
  10. 宏定义超过字长的一些问题
  11. 玩转场景化推送,精准把握受众
  12. PaddleOCR体检报告识别
  13. 这些中国顶级黑客带来的价值远比负面影响多!
  14. leetcode (Longest Harmonious Subsequence)
  15. 笔记本html到电视,笔记本怎么连接液晶电视 笔记本连接液晶电视方法【详解】...
  16. QT5百度地图开发学习——qt调用JavaScript函数并传参
  17. teradata ttu_SQL语句笔记之Teradata
  18. 需求文档不明确,怎么处理?项目很紧急,也会写测试用例吗?
  19. Maple矩阵特征多项式
  20. 深富策略:周期股反弹有限 新能源是主基调

热门文章

  1. 积跬步以至千里_积跬步以至千里,聚小利终成大户
  2. MySQL sysdate-5_mysql sysdate 1
  3. python 装饰器参数_python_如何修改装饰器中参数?
  4. python爬虫股票分析准不准_教你用Python爬虫股票评论,简单分析股民用户情绪
  5. vue 保存全局变量_Vue+Typescript起手式
  6. c语言 求sin近似值,用泰勒公式求sin(x)的近似值
  7. 舞伴问题数据结构java_Gale-Shapley算法解决舞伴问题过程详解(C++实现)
  8. java中block类6_Java 实现区块链中的区块,BLOCK的实现
  9. 台式计算机如何自动关机,台式机如何设置自动关机
  10. linux系统调用劫持隐藏进程,Linux2.6内核中劫持系统调用隐藏进程