https://www.toutiao.com/a6709249369914212872/

Sequence to Sequence Learning with Neural Networks

seq2seq是最先进NMT（神经机器翻译）的奠基之作，不围观一下？其核心思想是用一个LSTM将可变长度的输入序列编码为固定长度的隐特征表示，另一个LSTM将此隐特征再解码为可变长度的输出序列。

论文链接

https://arxiv.org/pdf/1409.3215.pdf

Neural Machine Translation by Jointly Learning to Align andTranslate

没有attention的seq2seq就像没有翅膀的鸟，一双翅膀送给你。在seq2seq模型中，源序列的所有信息都解码到最后一个时刻的隐含层，造成了信息瓶颈。在加入attention机制之后，decoder部分利用了encoder部分的所有输入信息（加权求和）。原来输出的梯度只能从最后一个时刻的隐含状态向更早时刻传导，有了attention机制之后，梯度能直接传导到输入部分，降低的梯度消失的风险。当然，效果也确实比原始seq2seq好多了。

论文链接

https://arxiv.org/pdf/1409.0473.pdf

博客链接

https://distill.pub/2016/augmented-rnns/

SequenceTransduction with Recurrent Neural Networks

seq2seq的输出部分只知道softmax？赶紧学习beam search的新姿势，不然也不好意思说自己懂NLP，是吧？

论文链接

https://arxiv.org/pdf/1211.3711.pdf

Massive Exploration of Neural Machine Translation

本文做好多个实验，用GPU总共跑25w个小时！！得到相当多的实验性靠谱结论，1）数据预处理很重要。2）嵌入空间的维数并非越大越好，在作者的实验中2048维的总体效果最好。2）LSTM的效果好于GRU。3）seq2seq模型中，encoder的深度多于2层不见得有好处，太深的话反而会使训练发散。4）双向LSTM好于单向LSTM。还有其它好处祥见论文啦~

论文链接

https://arxiv.org/pdf/1703.03906.pdf

a Deep Reinforced Model for Abstractive Summarization

之前的attention太naive啦，赶紧学两个fancy的新attention机制去装逼~_^。对于长文本的总结任务，一般的seq2seq模型经常出现重复和不一致的词组。为此，论文在encoder部分使用了intra-temporal attention，又首次在decoder部分使用了intra-attention(self-attention)，值得注意的是，它使用了不同于最初的attention形式，且进行了新颖的规范化，以降低以前时刻的比重。此外，在以最小化负对数似然函数训练seq2seq模型时，往往还会存在exposure bias的问题----训练的时候有下一个字符的监督信息，而测试时没有这种监督信息。为此，论文还将最大似然交叉熵损失和策略梯度强化学习中reward结合起来以缓解这个问题。

论文链接

https://arxiv.org/abs/1705.04304

Get To ThePoint: Summarization with Pointer-Generator Networks

attention机制玩转了，再学个coverage机制耍耍呗？！对文本总结任务的seq2seq模型，本文的亮点作者在attention机制的基础上又使用了coverage机制，以解决相同词组重复出现问题。此外，论文还提出了pointer-generator网络，通过pointer从源文本中复制词句，辅助提升其准确性；通过generator产生新词，就像原来的seq2seq一样。

论文链接

https://arxiv.org/abs/1704.04368

博客链接

http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html

代码链接

www.github.com/abisee/pointer-generator

BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies

softmax输出节点巨多咋办？？看这篇论文呗！！论文提出BlackOut----一个近似算法，用于高效训练大型递归神经网络语言模型（RNNLMs），其高效体现在训练速度快、效果好，大型体现在百万级的词汇量（即百万级的分类，所以适用于任何有大量softmax输出结点的网络，包括CV领域）。BlackOut的核心在于将判别损失函数与加权采样策略结合起来，极大提高了稳定性、采样效率、收敛速度。具体来说，作者将softmax和cross entropy的训练等效表示为最大似然(maximum likelihood)的形式，同时按照unigram分布只采样部分输出节点（通常是所有输出结点的1/200！）。当然之所以这样做是因为对于百万级别的分类任务，其计算的瓶颈在softmax层。

论文链接

https://arxiv.org/abs/1511.06909

代码链接

https://github.com/IntelLabs/rnnlm

Attention Is All You Need

没有RNN的NMT模型不拜读一下？？论文提出Transformer模型（作者可能是变形金刚迷~），其效果比带RNN的NMT模型质量更好、可并行化（重点！）、速度快。而只利用了Attention机制！牛皮不是吹的，火车不是推的，GitHub上3900 star也不盖的~_^

论文链接

https://arxiv.org/abs/1706.03762

代码链接

https://github.com/tensorflow/tensor2tensor

LayerNormalization

还记得Batch Normalization吗？Layer Normalization算是其中一种变体。BN是对Batch这一维计算统计量，LN是对当前层所有神经元计算统计量。之所以这么做的动机是基于BN对RNN这时序结构不友好。而我推荐这篇论文的最大理由，其实是因为上篇推荐论文里用到了:)

论文链接

https://arxiv.org/pdf/1607.06450.pdf

论文荐读 | NLP之Attention从入门到精通相关推荐

python数据分析从入门到精通电子工业出版社_荐书丨Python数据分析从入门到精通...
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事采用Python 3.6版本,兼容Python 3.X等众多版本一本书搞定IPy ...
IIAI CVPR 2019 跟踪、检测、分割论文荐读
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自起源人工智能研究院. 撰稿:Fahad Khan,孙国磊,廖胜才,卢宪凯导语 CVPR (Conference on Computer Vi ...
数学建模overleaf模板_数学建模从入门到精通必备资料，大神经验助你赢战9月数模国赛！...
假如你对自己心仪的另一半,有一个具体的判断标准,那么,你能否算出你在未来遇到理想型的概率有多大? 这个看似复杂的问题,或许可以用数学建模帮助解决,简化和抽象的能力不仅是数学建模的本质,也是申请海外名校 ...
NLP 论文领读｜无参数机器翻译遇上对比学习：效率和性能我全都要！
欢迎关注「澜舟论文领读」专栏!关注"澜舟科技"公众号探索更多 NLP 前沿论文! 本期分享者:付宇澜舟科技算法研究实习生,天津大学硕士二年级,研究方向为检索增强机器翻译.文本摘要 ...
NLP 论文领读 | Seq2Seq一统江湖？谷歌提出全新端到端检索范式DSI，它才是检索模型的未来？
欢迎关注 NLP 论文领读专栏!快乐研究,当然从研读paper开始--澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘.交流NLP「黑科技」,踩在「巨人」肩上触碰星辰!官 ...
我最佩服的一位同学！他是哈工大在读NLP博士积累28W粉丝
今天只给大家介绍我的朋友忆臻,我是在知乎认识他的,解答了我不少问题,他目前在哈工大SCIR实验室读NLP方向博士,一直热心回答问题,知乎粉丝达到3万多人! 忆臻创建的公众号[机器学习算法与自然语言处理 ...
好书荐读：阿里达摩院算法专家领衔《深度学习与图像识别：原理与实践》
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散编辑:Sophia计算机视觉联盟报道 | 公众号 CVLianMeng 这本书现在当当新书榜排名前三既然为大 ...
SCI论文从入门到精通
SCI论文从入门到精通一.先想先写最后做: 做研究之前,必须想清楚:结果能不能发表?发表在哪里? 先把文章大框写好,空出数据,等做完实验填完空就可以发了:正所谓心中有沟壑! 在未搞清"写什 ...
论文带读——IC3D: Image-Conditioned 3D Diffusion for Shape Generation
IC3D: Image-Conditioned 3D Diffusion for Shape Generation ----YssssMikey Tips: 我会基本上几天更新一篇论文引读,一般是AI ...

论文荐读 | NLP之Attention从入门到精通

Sequence to Sequence Learning with Neural Networks

Neural Machine Translation by Jointly Learning to Align andTranslate

SequenceTransduction with Recurrent Neural Networks

Massive Exploration of Neural Machine Translation

a Deep Reinforced Model for Abstractive Summarization

Get To ThePoint: Summarization with Pointer-Generator Networks

BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies

Attention Is All You Need

LayerNormalization

论文荐读 | NLP之Attention从入门到精通相关推荐

最新文章

热门文章