基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,如下图,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。

decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,如下图,最简单的方式是将encoder得到的语义变量作为初始状态输入到decoder的RNN中,得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入,而且其中语义向量C只作为初始状态参与运算,后面的运算都与语义向量C无关。

decoder处理方式还有另外一种,就是语义向量C参与了序列所有时刻的运算,如下图,上一时刻的输出仍然作为当前时刻的输入,但语义向量C会参与所有时刻的运算。

Seq2Seq模型概述 - 简书

seq2seq序列到序列模型相关推荐

  1. seq2seq(序列到序列)模型

    seq2seq(sequence to sequence)模型是NLP中的一个经典模型,基于RNN网络模型构建,用途非常广泛:语言翻译,人机对话,问答系统等. Seq2Seq,就如字面意思,输入一个序 ...

  2. TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

    1 相关背景 维基百科对自动摘要生成的定义是, "使用计算机程序对一段文本进行处理, 生成一段长度被压缩的摘要, 并且这个摘要能保留原始文本的大部分重要信息". 摘要生成算法主要分 ...

  3. 序列到序列网络seq2seq与注意力机制attention浅析

    序列到序列网络 序列到序列网络(Sequence to Sequence network),也叫做seq2seq网络, 又或者是编码器解码器网络(Encoder Decoder network), 是 ...

  4. IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型

    IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型 文章来源:企鹅号 - 读芯术 你和"懂AI"之间,只差了一篇论文 号外!又一拨顶会论文干货来袭! 2018年 ...

  5. 序列到序列模型(一)(基本模型,RNN Search,注意力机制)

    文章目录 基本模型 序列到序列学习 基本模型 RNN Search 模型 注意力 模型定义 模型特点 References 序列到序列学习(sequence to sequence learning, ...

  6. 09.7. 序列到序列学习(seq2seq)

    文章目录 9.7. 序列到序列学习(seq2seq) 9.7.1. 编码器 9.7.2. 解码器 9.7.3. 损失函数 9.7.4. 训练 9.7.5. 预测 9.7.6. 预测序列的评估 9.7. ...

  7. 序列到序列的网络seq2seq

    1.seq2seq 使用两个循环神经网络,将一个语言序列直接转换到另一个语言序列. 2.序列到序列的模型 是循环神经网络的升级版,其联合了两个循环神经网络.一个神经网络负责接收源句子:另一个循环神经网 ...

  8. PyTorch seq2seq translation 使用序列到序列的网络和注意机制进行翻译

    如果要查看图文版教程,请到 http://studyai.com/pytorch-1.4/intermediate/seq2seq_translation_tutorial.html 在这个项目中,我 ...

  9. PyTorch-16 seq2seq translation 使用序列到序列的网络和注意机制进行翻译

    如果要查看图文版教程,请到 http://studyai.com/pytorch-1.4/intermediate/seq2seq_translation_tutorial.html 在这个项目中,我 ...

  10. 序列到序列学习(seq2seq,BLEU)

    根据"编码器-解码器"架构的设计, 我们可以使用两个循环神经网络来设计一个序列到序列学习的模型. 在实现编码器和解码器时,我们可以使用多层循环神经网络. 我们可以使用遮蔽来过滤不相 ...

最新文章

  1. 系统芯片(SOC)架构- Aviral Mittal
  2. Linux上部署、安装nodejs
  3. VTK:模型之Delaunay3D
  4. IT 行业的创新 - 创新的迷思 (5-6)
  5. where显示null行_Python 之 MySql“未解之谜”14-- 都是 NULL 惹的祸(下)
  6. 三类基于贪心思想的区间覆盖问题
  7. css中变形,css3中变形处理
  8. c语言string最大长度,求3个字符串中最长单词的长度 求救 会一个的
  9. python cookbook 学习笔记 -- 1.5 去除字符串两端空格
  10. 【报告分享】华为2019年财报.pdf(附下载链接)
  11. jquery砸金蛋 高仿阿里旅游砸金蛋
  12. php 远程文件是否存在,如何通过php判断本地及远程文件是否存在
  13. SSH KEY免密码验证
  14. VMware Cloud Director 10.4 发布 (含下载) - 云计算调配和管理平台
  15. python图片处理教程_Python图像入门教程:Python图像入门教程推荐
  16. linux的pascal语言,pascal语言视频教程 Linux GCC常用命令详解
  17. Ubuntu使用WakeOnLan远程开机
  18. 计算机里另存桌面不见了,保存文件时桌面选项消失不见怎么办
  19. C++/C输出素数,满某个数就换行
  20. 2017秋招、春招、实习生招聘区别

热门文章

  1. WebSocket 测试
  2. C++--第7课 - 面向对象基本概念
  3. 简易RAM的C++实现
  4. Linux上创建SSH隧道
  5. HTTP 请求头(首部)一览表
  6. 爬虫抓包,模拟提交、Fiddler和Postman结合Chrome的使用
  7. 利用ESXI-Customizer制作定制化的ESXI
  8. Android将应用log信息保存文件
  9. Azure 网站上的 Java
  10. java如何实现进程间的通信?