论文下载链接:https://arxiv.org/pdf/1409.3215.pdf

创新点:

针对神经网络(DNN)不能用于将序列映射到序列的问题,提出一种通用的端到端序列学习方法。

论文内容:

DNN:语音识别、视觉对象识别
优势:可以执行任意并行计算的适当数目的步骤。
局限性:只能应用于输入和目标能够合理编码固定维向量的问题。

长短期记忆神经网络(LSTM):将可变长度的输入句子映射成一个固定维度的向量。

传统的序列-序列模型:
当输入和输出对齐时,输入序列通过一个循环神经网络(RNN)被压缩成一个固定向量,再经过一个循环神经网络,将这个固定向量再转化成序列输出。
本文的模型与传统的模型有三点不同:
1、输入序列通过一个LSTM压缩成一个fixed-dimensional向量,然后再经过一个LSTM转化成序列进行输出。(可以在忽略不计的计算成本下增加数量模型参数,并使同时在多语言对上训练LSTM变得自然)
2、本文发现深层的长短期记忆神经网络效果好过浅层的LSTM,所以本文选择了4层的LSTM。
3、颠倒输入句子的单词顺序会使该模型效果更好。
数据验证:
在WMT’ 14数据集的英语到法语翻译任务中,LSTM生成的翻译在整个测试集中获得了34.8分的BLEU分数,而LSTM的BLEU分数在词汇外的单词上被扣分。此外,LSTM在长句子上也没有困难。相比之下,基于短语的SMT系统在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时,其BLEU得分增加到36.5,接近之前该任务的最佳结果。
LSTM还学习了对词序敏感、对主动语态和被动语态相对不变的合理短语和句子表征。针对源句颠倒、目标句没有颠倒的情况,LSTM的效果更好。

数据验证:

总结:

作为一个简单、直接、相对未优化的模型,LSTM明显优于SMT系统。

论文阅读笔记(一)《Sequence to Sequence Learning with Neural Networks》相关推荐

  1. 论文阅读笔记:Link Prediction Based on Graph Neural Networks

    文章目录 说明 Abstract 1 Introduction 2 Preliminaries Notations Latent features and explicit features Grap ...

  2. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  3. 论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

    文章目录 1 概述 2 信号预处理 3 分类神经网络 4 动态贝叶斯网络(HMM) 4.1 原始的bar pointer model 4.2 原始的bar pointer model的缺点 4.3 改 ...

  4. 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...

  5. 论文阅读之《DeepIlluminance: Contextual IlluminanceEstimation via Deep Neural Networks》

    ArXiv2019 Jun Zhang合肥工业大学 Tong Zheng合肥工业大学 Shengping Zhang哈尔滨工业大学(威海) Meng Wang合肥工业大学 Introduction 回 ...

  6. 【论文阅读笔记|ACL2022】Continual Sequence Generation with Adaptive Compositional Modules

    论文题目:Continual Sequence Generation with Adaptive Compositional Modules 论文来源:ACL2022 论文链接:https://acl ...

  7. 论文阅读笔记:Low-Rank Tensor Graph Learning for Multi-view Subspace Clustering(LRTG)

    @[TOC](Low-Rank Tensor Graph Learning for Multi-view Subspace Clustering(LRTG)) ★论文笔记-Low-Rank Tenso ...

  8. Kaiming He论文阅读笔记三——Simple Siamese Representation Learning

    Kaiming He大神在2021年发表的Exploring Simple Siamese Representation Learning,截至目前已经有963的引用,今天我们就一起来阅读一下这篇自监 ...

  9. 论文阅读笔记《Dynamic Few-Shot Visual Learning without Forgetting》

    小样本学习&元学习经典论文整理||持续更新 核心思想   本文提出一种不会遗忘的动态小样本学习算法,严格来讲应该也属于基于外部记忆的小样本学习算法.本文的主体结构依旧是特征提取+分类器的组合, ...

  10. 论文阅读笔记《Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image》

    核心思想   本文提出一种通过图块匹配寻找图像和CAD模型之间的对应关系,并进一步实现位姿估计的算法.与许多从单目图像中实现目标物体三维识别并估计位姿的方法类似,本文也是通过从CAD模型库中检索最相似 ...

最新文章

  1. C++中的new和malloc的区别
  2. 6、linux网络编程--UDP协议编程
  3. 解决Ubuntu16.04视频编码出现Unknown encoder 'libx264'问题
  4. Polymorphic form--多态表单
  5. 英文金曲大赛_JAVA
  6. Demon_接金币(三个掉落物品预设体,一接物体的工具)
  7. C#获取类名为Internet_Explorer_Server控件的内容
  8. 题目:[NOIP2008]火柴棒等式
  9. ZABBIX2.4.8监控 Windows Mysql数据库
  10. mysql n 识别_mysql – 不能有“不识别”的N:M关系吗?
  11. 使用什么优化器_新的深度学习优化器Ranger:RAdam + LookAhead强强结合
  12. SuperSlidev2.1 轮播图片和无缝滚动
  13. 公有云关闭潮或显端倪,企业如何选择?
  14. VB手控Combobox的打开或收起
  15. Gitlab+Git实现版本控制系统
  16. 思科路由器RIP路由汇总
  17. Java常用知识整理
  18. 微星z370安装linux系统,微星z370主板装win7及BIOS设置详细教程
  19. c# splitContainer控件
  20. 竞品分析 | 荔枝VS喜马拉雅FM:有声音频APP的发展与社交

热门文章

  1. Day02QDatatime获取系统时间戳2021-09-13
  2. 员工体验成HR SaaS新风向标
  3. CentOS命令修改系统时间同步
  4. 系统班07.15总结
  5. 惠普微型计算机能效标识,能效标识产品目录2018(含所有).pdf
  6. hist()参数详解
  7. Opening error of VirtualBox in MAC with BIG SUR
  8. matlab 罗德里格 公式,旋转矩阵,四元素,欧拉角
  9. 干货 | 拆解FPGA芯片,带你深入了解其原理
  10. 四核处理器_攀升推出 MaxBook P1 笔记本:四核CPU+15.6英寸大屏,1899 元