真正提出 Seq2Seq 的文章是《Sequence to Sequence Learning with Neural Networks》,但本篇《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》比前者更早使用了 Seq2Seq 模型来解决机器翻译的问题。

摘要

这篇论文中提出了一种新的模型,叫做 RNN Encoder-Decoder, 并将它用来进行机器翻译和比较不同语言的短语/词组之间的语义近似程度。这个模型由两个 RNN 组成,其中 Encoder 用来将输入的序列表示成一个固定长度的向量,Decoder 则使用这个向量重建出目标序列,另外该论文提出了 GRU 的基本结构,为后来的研究奠定了基础。

本文的贡献:

①:提出一种类似LSTM的GRU结构,并且具有比LSTM更少的参数,更不容易过拟合

②:将其应用到机器翻译领域,并且取得不错的效果。

模型

这里首先对输入上文 x 走一遍 RNN,然后得到一个固定长度的向量 c,作为 Encoder,然后接下来再根据 c 和后续隐状态和输入状态来得到后续状态,Encoder 的行为比较简单,重点在 Decoder 上。

上面是需要优化的目标 函数;

经典的一篇:github 传送门 : https://github.com/lisa-groundhog/GroundHog

Neural Machine Translation By Jointly Learning To Align and Translate

这篇文章在神经网络 采用编码-解码RNN 做端到端的机器翻译的基础上,使得模型可以在预测下一个词的时候,自动地选择原句子相关的部分作为解码的输入,这也是后来被提为attention机制的内容。该模型的性能在英法语数据的评测上超过了当前使用基于短语的机器翻译系统。文章的重点就在于,在前人encode-decode的框架上,同时做到机器翻译中的对齐(调序)与(短语)翻译过程,对齐(调序)是指将源语言与目标语言短语对齐,翻译指的是短语间的翻译,文章是怎么做到这一点的呢。其实现在听来很简单,在模型中间加了一层Attention的机制。

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇相关推荐

  1. 【Paper】Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

    论文原文:PDF 论文年份:2014 论文被引:11398(2020/11/08) 18225(2022/03/26) 论文作者:Kyunghyun Cho et.al. 文章目录 Abstract ...

  2. 论文学习笔记02(Learning phrase representations using rnn encoder-decoder for statistical machine translat)

    论文学习笔记 Learning phrase representations using rnn encoder-decoder for statistical machine translation ...

  3. nlp论文-《Neural Machine Translation by Jointly Learning to Align and Translate》-基于联合学习对齐和翻译的神经机器翻译(二)

    1.论文整体框架 1.1 摘要 神经机器翻译的任务定义: 传统神经机器翻译所用的编码器-解码器模型的缺陷: 本文提出一种能够自动搜索原句中与预测目标词相关的神经机器翻译模型: 所提出的模型的效果: 1 ...

  4. 【论文笔记——DIM】Learning Deep Representations By Mutual Information Estimation and Maximization

    arxiv:https://arxiv.org/abs/1808.06670 code:https://github.com/rdevon/DIM report video:https://www.y ...

  5. GAP:Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training

    Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training 论文解读 ...

  6. encoder decoder 模型理解

    encoder decoder 模型是比较难理解的,理解这个模型需要清楚lstm 的整个源码细节,坦率的说这个模型我看了近十天,不敢说完全明白. 我把细胞的有丝分裂的图片放在开头,我的直觉细胞的有丝分 ...

  7. 【论文阅读】Deep Neural Networks for Learning Graph Representations | day14,15

    <Deep Neural Networks for Learning Graph Representations>- (AAAI-16)-2016 文章目录 一.模型 1.1解决了两个问题 ...

  8. 2019 TIP之ReID:Learning Modality-Specific Representations for Visible-Infrared Person Re-Identificati

    Learning Modality-Specific Representations for Visible-Infrared Person Re-Identification 当前的问题及概述: 由 ...

  9. Deep Learning Hierarchical Representations for Image Steganalysis【Ye-Net:图像隐写分析的深度学习层次表示】

    Deep Learning Hierarchical Representations for Image Steganalysis [Ye-Net:图像隐写分析的深度学习层次表示] Abstract ...

最新文章

  1. C语言实现SHA-1
  2. rudesocket如何使用_[WebSocket入门]手把手搭建WebSocket多人在线聊天室(SpringBoot+WebS...
  3. 搭建mongodb分片
  4. 区块链游戏为何只剩下“炒币”的价值?
  5. HTTP之Cache-Control基本概念以及实例(C++ Qt实现)
  6. securecrt 乱码_SecureCRT远程连接Linux,配置端点和字节码
  7. 毕业季,我的Linux求职之路
  8. ssd颗粒查看工具_贴吧机佬强烈推荐的游戏SSD?西数蓝盘3D M.2 500G实测
  9. continue跳转
  10. 记录es几个问题,增删改查,索引创建
  11. python绝对值编程_python求绝对值的三种方法小结
  12. 最大公约数与最小公倍数求法 C语言版
  13. SECURITY 03: 邮件服务TLS/SSL 、 总结和答疑 、 CA数字证书服务
  14. Python自动化办公 | 用Python自动生成数据日报
  15. Elasticsearch - Fuzzy query
  16. 阿里云ID2物联网设备身份认证系统
  17. java 最小公倍数_Java求最大公约数和最小公倍数
  18. 执一不二 跬步千里-王子密码2011年11月份心得(十)
  19. 在香港,无法使用迅雷下载怎么办?
  20. 如何检测时间序列中的异方差(Heteroskedasticity)

热门文章

  1. Python:读取 csv 文件并插入到 PostgreSQL 数据库
  2. Python编曲实践(五):通过编写爬虫来爬取海量MIDI文件,预备构建数据集(附有百度云下载链接)
  3. php cms 路由规则,如何设置PhpCms系统URL规则管理 phpcms教程
  4. 三维引擎基础概述(Direct3D、OpenGL、UE、U3D、threejs等)
  5. 笔记本的维修实例(转)
  6. Java随机数据生成器
  7. FPGA如何将.bdf文件转换成.v文件
  8. 2020-07-11
  9. 解决xshell6需要更新才能打开的问题
  10. 教你成为婚礼上最闪耀的明星