来源:知乎

https://zhuanlan.zhihu.com/p/139069973

作者:清华阿罗

本文长度为1500字,建议阅读5分钟

为你分享ICLR2020 NLP优秀论文。

1.REFORMER:THE EFFICIENT TRANSFORMER[1]

论文小结:作者提出了一种新的转换器模型,对体系架构进行了两项重大改进:1)使用可逆层以防止需要存储所有层的激活来进行反向传播;2)使用局部敏感哈希来估算耗时间的softmax计算。该Reformer的性能与SOTA Transformer模型相当,但内存效率更高,长序列的速度更快。

代码地址:google/trax

2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations[2]

论文小结:ALBERT是BERT的扩展,它试图回答一个问题,即较大的模型是否可以解决NLP任务?Albert通过跨层参数共享获得SOTA结果。通过共享参数,ALBERT可以变小并具有相似的性能。采用更多参数,ALBERT的表现更好,但其训练速度仍比BERT快。当训练时间相同,ALBERT的表现要好于BERT。这些结果表明单纯构建更复杂、更大、更深的模型并不总是提高模型性能的最佳方法。

代码地址:google-research/albert

3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[3]

论文小结: 预训练语言模型的常见操作是mask输入,并让模型预测被mask的内容。本文介绍了一种称为令牌检测的新的预训练方法。在新方法中,作者从生成器中采样来替代某些令牌,然后训练一个鉴别器来预测生成器是否替换了输入中的每个令牌。论文操作方法的数据效率更高,比以往方法提高了约15%。它表明在如何训练语言模型方面还有更多的创造空间。

代码地址:github.com/google-resea

4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue[4]

论文小结:本文提出了一种用于开放域对话知识选择的新方法,称为序列隐模型,该模型将知识历史表示为某种隐表示。这样做是因为跟踪知识历史记录可减少因会话的知识选择差异而引起的歧义,但也可以帮助更好地使用信息反馈。这项工作表明,改进知识选择可以大大提高响应生成质量。这对构建更强大的对话应用程序产生影响。

代码地址:bckim92/sequential-knowledge-transformer

5.A Probabilistic Formulation of Unsupervised Text Style Transfer[5]

论文小结:作者提出一种无监督文本样式转换的概率模型。该方法大致想法是通过使用来自两个域的非并行数据作为部分观察到的并行语料库。作者提出的模型可以学习将序列从一个域转换为另一域。通过生成并行隐序列,模型能以无监督的方式学习该序列。文章表明在无监督的情感转换、作者模仿和机器翻译等领域取得效果。本文介绍的方法不需要成对的训练数据,这使得数据收集更加容易。

代码地址:github.com/cindyxinyiwa

6.The Curious Case of Neural Text Degeneration[6]

论文小结:论文作者提出了一种新的解码策略,即核心采样、同时截去尾部概率分布,从包含绝大多数概率质量的令牌动态核中采样。与直觉相反的经验观察结果是,即使针对多样语言理解任务,使用似然作为训练目标能提供高模型质量,但作为解码目标,似然会导致文本理解乏味且重复。论文表明即使在最新的语言模型中,文本退化也是一个问题。对于各种NLP任务,解码策略对于类人的文本生成很重要。去掉beam search之类的贪婪算法将有助于执行下游任务。

代码地址:ari-holtzman/degen

7.What Can Neural Networks Reason About[7]

论文小结: 本文介绍了一种称为算法alignment的框架,用于评估神经网络在推理任务上的表现。与已知算法解决方案作align的神经网络能够更好地学习这些解决方案。该框架大致认为,要使模型能够学习并成功地概括推理任务,它需要简单学习(近似)推理任务的步骤。作者提出图神经网络非常适合,因此可以学习解决动态编程问题。这是一篇晦涩的理论论文,解释了人们一直在凭直觉做出的架构选择,并为以后研究并探索新架构来更好地适应机器学习任务奠定基础。

代码地址:github.com/NNReasoning/

参考

  1. https://arxiv.org/pdf/2001.04451.pdf

  2. https://arxiv.org/pdf/1909.11942.pdf

  3. https://arxiv.org/pdf/2003.10555.pdf

  4. https://arxiv.org/pdf/2002.07510.pdf

  5. https://arxiv.org/pdf/2002.03912.pdf

  6. https://arxiv.org/pdf/1904.09751.pdf

  7. https://arxiv.org/pdf/1905.13211.pdf

编辑:文婧

ICLR2020 NLP优秀论文分享(附源码)相关推荐

  1. 图虫网、人人字幕Scrapy爬虫实战分享 附源码

    图虫网.人人字幕Scrapy爬虫实战分享 文章已发表在个人博客,欢迎点击这里访问 序 最近用Scrapy爬取了图虫和人人字幕,图虫网以前是纯摄影爱好论坛,现在往图库方向发展了,图片质量上佳,人人字幕也 ...

  2. 2018年强化学习领域十篇重要论文(附源码)

    2019-06-06 09:47:57 来自网络 与其他机器学习方法相比,比如监督式学习.迁移学习.甚至非监督式学习学习相比,深度强化学习方法极其需要大量数据,而且常常不稳定,从性能上来说可能不是最好 ...

  3. 541页《利用Python进行数据分析》分享(附源码下载)

    1 前言 今天,StrongerTang 给大家分享一下 <利用Python进行数据分析>第二版,分享给有需要的小伙伴,也希望有更多的朋友能在StrongerTang相遇. 2 简介 &l ...

  4. 2花瓣html,html花瓣飘落特效_520情侣浪漫表白JS特效分享(附源码)

    520要来了,为回馈朋友们所有专栏8折优惠,感兴趣的朋友可以订阅,感谢大家的支持! 520马上就要到,作为程序员的你是不是也想送个特别的礼物.今天给大家分享一个HTML5+CSS3+jQuery实现的 ...

  5. 2023最新springboot计算机毕业设计选题大全(附源码+论文答辩),别再发愁毕设了。

    2023最新springboot计算机毕业设计选题大全(附源码+论文答辩),别再发愁毕设了. 要对当前自己的学校对于计算机毕业设计的要求以及严格程度有所了解,这个主要是借助上一届已经毕业的学长学姐了解 ...

  6. [附源码]计算机毕业设计JAVA同德佳苑物业管理系统论文

    [附源码]计算机毕业设计JAVA同德佳苑物业管理系统论文 项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe( ...

  7. [附源码]计算机毕业设计JAVA超市收银系统论文

    [附源码]计算机毕业设计JAVA超市收银系统论文 项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(Inte ...

  8. [附源码]计算机毕业设计JAVA全国人口普查管理系统论文

    [附源码]计算机毕业设计JAVA全国人口普查管理系统论文 项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe( ...

  9. [附源码]计算机毕业设计JAVA游戏装备交易网站论文2022

    [附源码]计算机毕业设计JAVA游戏装备交易网站论文2022 项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclisp ...

最新文章

  1. Linux技巧:多核下绑定硬件/进程到不同CPU
  2. C博客作业03--函数
  3. 洛谷P1120小木棒 爆搜+剪枝
  4. CSS3之Transform
  5. [Leedcode][JAVA][第1300题][转变数组后最接近目标值的数组和][前缀和][二分法][暴力]
  6. php require persion denied,php,nginx_php+nginx配置权限问题(13: Permission denied),php,nginx - phpStudy...
  7. VB6中SendKeys的基本应用
  8. jQuery框架学习
  9. AS3 CookBook学习整理(二)
  10. 基于DEMATEL-ISM法的民航飞行员综合安全能力结构模型研究
  11. sublime下编辑LaTeX
  12. 不要被后端糊弄了,我来告诉你网关是什么
  13. JavaWeb中的表单提交和超链接请求传递参数
  14. 从计算机网络系统组成看 计算机网络可分为,从计算机网络系统组成的角度看,计算机网络可以分为 子网和资源子网。...
  15. 阿里云轻量级应用服务器设置外网访问端口
  16. 网站打开速度优化:如何提高网页加载速度,提升网页打开速度
  17. 微信跳一跳 可以直接更改分数, POST 请求没有校验
  18. OpenAPI 标准规范,了解一下?
  19. html去除文章符号,HTML中怎么去除列表项符号
  20. 互联网寒冬下如何过冬?厚积薄发还是直接开摆?我选这个

热门文章

  1. plsql导入到mysql数据库乱码问题_PLSQL打开sql文件中文乱码解决方案
  2. Sound Forge Pro 3使用教程
  3. python基础学习22----协程
  4. Ubuntu 16.04安装Zabbix 3.2 版本
  5. PostgreSQL索引走错一例分析
  6. OpenStack Newton发布,EasyStack核心代码贡献中国第一!
  7. 关于Cocos2d-x很多奇怪的报错
  8. 安卓的自定义的DemoApplication 出现的问题。
  9. 图书管理系统需求说明书
  10. SQL server中SET ANSI_PADDING对char、varchar、nvarchar的影响