https://www.toutiao.com/a6709249369914212872/

Sequence to Sequence Learning with Neural Networks

seq2seq是最先进NMT(神经机器翻译)的奠基之作,不围观一下?其核心思想是用一个LSTM将可变长度的输入序列编码为固定长度的隐特征表示,另一个LSTM将此隐特征再解码为可变长度的输出序列。

论文链接

https://arxiv.org/pdf/1409.3215.pdf

Neural Machine Translation by Jointly Learning to Align andTranslate

没有attention的seq2seq就像没有翅膀的鸟,一双翅膀送给你。在seq2seq模型中,源序列的所有信息都解码到最后一个时刻的隐含层,造成了信息瓶颈。在加入attention机制之后,decoder部分利用了encoder部分的所有输入信息(加权求和)。原来输出的梯度只能从最后一个时刻的隐含状态向更早时刻传导,有了attention机制之后,梯度能直接传导到输入部分,降低的梯度消失的风险。当然,效果也确实比原始seq2seq好多了。

论文链接

https://arxiv.org/pdf/1409.0473.pdf

博客链接

https://distill.pub/2016/augmented-rnns/

SequenceTransduction with Recurrent Neural Networks

seq2seq的输出部分只知道softmax?赶紧学习beam search的新姿势,不然也不好意思说自己懂NLP,是吧?

论文链接

https://arxiv.org/pdf/1211.3711.pdf

Massive Exploration of Neural Machine Translation

本文做好多个实验,用GPU总共跑25w个小时!!得到相当多的实验性靠谱结论,1)数据预处理很重要。2)嵌入空间的维数并非越大越好,在作者的实验中2048维的总体效果最好。2)LSTM的效果好于GRU。3)seq2seq模型中,encoder的深度多于2层不见得有好处,太深的话反而会使训练发散。4)双向LSTM好于单向LSTM。还有其它好处祥见论文啦~

论文链接

https://arxiv.org/pdf/1703.03906.pdf

a Deep Reinforced Model for Abstractive Summarization

之前的attention太naive啦,赶紧学两个fancy的新attention机制去装逼~_^。对于长文本的总结任务,一般的seq2seq模型经常出现重复和不一致的词组。为此,论文在encoder部分使用了intra-temporal attention,又首次在decoder部分使用了intra-attention(self-attention),值得注意的是,它使用了不同于最初的attention形式,且进行了新颖的规范化,以降低以前时刻的比重。此外,在以最小化负对数似然函数训练seq2seq模型时,往往还会存在exposure bias的问题----训练的时候有下一个字符的监督信息,而测试时没有这种监督信息。为此,论文还将最大似然交叉熵损失和策略梯度强化学习中reward结合起来以缓解这个问题。

论文链接

https://arxiv.org/abs/1705.04304

Get To ThePoint: Summarization with Pointer-Generator Networks

attention机制玩转了,再学个coverage机制耍耍呗?!对文本总结任务的seq2seq模型,本文的亮点作者在attention机制的基础上又使用了coverage机制,以解决相同词组重复出现问题。此外,论文还提出了pointer-generator网络,通过pointer从源文本中复制词句,辅助提升其准确性;通过generator产生新词,就像原来的seq2seq一样。

论文链接

https://arxiv.org/abs/1704.04368

博客链接

http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html

代码链接

www.github.com/abisee/pointer-generator

BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies

softmax输出节点巨多咋办??看这篇论文呗!!论文提出BlackOut----一个近似算法,用于高效训练大型递归神经网络语言模型 (RNNLMs),其高效体现在训练速度快、效果好,大型体现在百万级的词汇量(即百万级的分类,所以适用于任何有大量softmax输出结点的网络,包括CV领域)。BlackOut的核心在于将判别损失函数加权采样策略结合起来,极大提高了稳定性、采样效率、收敛速度。具体来说,作者将softmax和cross entropy的训练等效表示为最大似然(maximum likelihood)的形式,同时按照unigram分布只采样部分输出节点(通常是所有输出结点的1/200!)。当然之所以这样做是因为对于百万级别的分类任务,其计算的瓶颈在softmax层。

论文链接

https://arxiv.org/abs/1511.06909

代码链接

https://github.com/IntelLabs/rnnlm

Attention Is All You Need

没有RNN的NMT模型不拜读一下??论文提出Transformer模型(作者可能是变形金刚迷~),其效果比带RNN的NMT模型质量更好、可并行化(重点!)、速度快。而只利用了Attention机制!牛皮不是吹的,火车不是推的,GitHub上3900 star也不盖的~_^

论文链接

https://arxiv.org/abs/1706.03762

代码链接

https://github.com/tensorflow/tensor2tensor

LayerNormalization

还记得Batch Normalization吗?Layer Normalization算是其中一种变体。BN是对Batch这一维计算统计量,LN是对当前层所有神经元计算统计量。之所以这么做的动机是基于BN对RNN这时序结构不友好。而我推荐这篇论文的最大理由,其实是因为上篇推荐论文里用到了:)

论文链接

https://arxiv.org/pdf/1607.06450.pdf

论文荐读 | NLP之Attention从入门到精通相关推荐

  1. python数据分析从入门到精通电子工业出版社_荐书丨Python数据分析从入门到精通...

    点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 采用Python 3.6版本,兼容Python 3.X等众多版本 一本书搞定IPy ...

  2. IIAI CVPR 2019 跟踪、检测、分割论文荐读

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自起源人工智能研究院. 撰稿:Fahad Khan,孙国磊,廖胜才,卢宪凯 导语 CVPR (Conference on Computer Vi ...

  3. 数学建模overleaf模板_数学建模从入门到精通必备资料,大神经验助你赢战9月数模国赛!...

    假如你对自己心仪的另一半,有一个具体的判断标准,那么,你能否算出你在未来遇到理想型的概率有多大? 这个看似复杂的问题,或许可以用数学建模帮助解决,简化和抽象的能力不仅是数学建模的本质,也是申请海外名校 ...

  4. NLP 论文领读|无参数机器翻译遇上对比学习:效率和性能我全都要!

    欢迎关注「澜舟论文领读」专栏!关注"澜舟科技"公众号探索更多 NLP 前沿论文! 本期分享者:付宇 澜舟科技算法研究实习生,天津大学硕士二年级,研究方向为检索增强机器翻译.文本摘要 ...

  5. NLP 论文领读 | Seq2Seq一统江湖?谷歌提出全新端到端检索范式DSI,它才是检索模型的未来?

    欢迎关注 NLP 论文领读专栏!快乐研究,当然从研读paper开始--澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘.交流NLP「黑科技」,踩在「巨人」肩上触碰星辰!官 ...

  6. 我最佩服的一位同学!他是哈工大在读NLP博士积累28W粉丝

    今天只给大家介绍我的朋友忆臻,我是在知乎认识他的,解答了我不少问题,他目前在哈工大SCIR实验室读NLP方向博士,一直热心回答问题,知乎粉丝达到3万多人! 忆臻创建的公众号[机器学习算法与自然语言处理 ...

  7. 好书荐读:阿里达摩院算法专家领衔《深度学习与图像识别:原理与实践》

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia计算机视觉联盟  报道  | 公众号 CVLianMeng 这本书现在当当新书榜排名前三 既然为大 ...

  8. SCI论文从入门到精通

    SCI论文从入门到精通 一.先想先写最后做: 做研究之前,必须想清楚:结果能不能发表?发表在哪里? 先把文章大框写好,空出数据,等做完实验填完空就可以发了:正所谓心中有沟壑! 在未搞清"写什 ...

  9. 论文带读——IC3D: Image-Conditioned 3D Diffusion for Shape Generation

    IC3D: Image-Conditioned 3D Diffusion for Shape Generation ----YssssMikey Tips: 我会基本上几天更新一篇论文引读,一般是AI ...

最新文章

  1. 使用Python,OpenCV进行图像哈希
  2. c# 模拟window 操作鼠标|winapi
  3. codetyphon, Lazarus+FreePascal+Tools+Free Components packages+Free Libraries
  4. n维数组实现(可变参数表的使用)
  5. Linux sed命令实例详解
  6. 44. Wildcard Matching (String; DP, Back-Track)
  7. 宿舍管理系统(简单版)
  8. java ssm基于springboot的设备巡检系统
  9. 活字格企业Web应用生成器荣获2017年度优秀软件产品
  10. 程序员到底要学什么?
  11. DICOM世界观·第二章 数字(D)、成像(I)与通讯(Co)
  12. 使用海龟绘图,输出四个不同颜色矩形
  13. 计算机网络之应用层图解,秒解应用层HTTP,期末考试不担心!!
  14. python通用管理系统_Python实例---CRM管理系统分析180331
  15. 日紫白飞星算法_地理紫白飞星择日口诀解析
  16. JS里的for…in和for…of的用法
  17. linux设置网络 命令,Linux网络配置相关命令
  18. 银河麒麟桌面操作系统V10创建热点
  19. Python学习:批量转换图片格式-PNG转JPG
  20. 中级职称计算机选几个模块,计算机职称考试正确选择模块的绝招

热门文章

  1. 自然语言处理好的 实体分词 及BERT
  2. pandas怎么选取dataframe中几列
  3. A.CPP (blur.CPP)如何调用B.CPP (zeros.cpp)中定义的方法
  4. weidingma参考文献
  5. 简述python中怎样导入模块_Python中导入模块的两种模式,import
  6. LIVE预告 | 哈佛大学CS博士徐莉莉:用博弈论保护野生动物
  7. 连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再起航...
  8. AI Debate2 | 李飞飞提「AI北极星」,卡尼曼指「系统 1」理解有误
  9. 还原黑客电影中那些Hacking技术的真相
  10. 程序员:今天你读了吗?