Seq2Seq模型虽然具有局限性,但是作为入门级别的Nlper,我们应该深入的了解他,如下图

这里encoder和decoder部分我们采用的是传统的RNN,这并不影响我们理解这个模型,你也可以把他看成LSTM或者GRU。

以我爱计算机为例进行讲解,开始时我们把“我爱计算机”输入到encoder网络中,这里hi为隐藏状态,oi为RNN的输出,这里一定要注意的是RNN不能进行并行处理,虽然我们是一次性的把文字输入到网络中,但是在处理的时候RNN是把之前的一个文字处理完成之后再处理后面的文字。encoder中的RNN处理完成后会生成语义变量C,这里的C有多种,一种是RNN序列最后一个状态,也就是h5,其次也可以是o1,o2,o3,o4,o5的合并,这里最常用的是最后一个单元的状态作为整个句子的语义C,有了C之后就可以在decoder中进行解码操作,同样这里也采用RNN结构,与encoder不同的是这里每一个单元的输出都是下一个单元的部分输入,这里讲得很含蓄,但是事实是我们在decoder中的输入并不是i love computer,而是对应的<start> i love computer<end>,我们对应的预测值是i love computer<end>。这个C也有两种不同的用法,第一种是作为第一时刻的隐状态,也就是图中那样,还有就是作为每一时刻的输入,也就是C对于每一个单词的预测都要有贡献。

总结:

传统Seq2Seq模型有很大的不足,C绝大部分取决于后面的几个单词,会把最前面单词的信息给掩盖掉,而且对于decoder中的预测默认每一个单词贡献是相同的,但是事实却并非如此,因此有了后来的改进模型Seq2Seq+attention。

下节再讲Seq2Seq+attention,欢迎加Q互相讨论:1121974909

大话Seq2Seq模型相关推荐

  1. 开源 | IBM、哈佛共同研发:Seq2Seq模型可视化工具

    作者 | Ben Dickson 译者 | 刘旭坤 编辑 | Jane 出品 | AI科技大本营 近年来随着深度学习和神经网络技术的发展,机器翻译也取得了长足的进步.神经网络结构越来越复杂,但我们始终 ...

  2. 【论文写作分析】之一 《基于混合注意力Seq2seq模型的选项多标签分类》

    [1] 参考论文信息   论文名称:<基于混合注意力Seq2seq模型的选项多标签分类>   发布期刊:<计算机工程与应用>   期刊信息:CSCD扩展   论文写作分析摘要: ...

  3. seq2seq模型_直观理解并使用Tensorflow实现Seq2Seq模型的注意机制

    采用带注意机制的序列序列结构进行英印地语神经机器翻译 Seq2seq模型构成了机器翻译.图像和视频字幕.文本摘要.聊天机器人以及任何你可能想到的包括从一个数据序列到另一个数据序列转换的任务的基础.如果 ...

  4. 机器翻译Seq2Seq模型的启发-人工神经网络系统-诞生

    该模型采用了将信息通过某种编码 ,而后通过一个循环神经网络模型解码来实现语言的翻译, 那么我们如果把有的信息都看作是人类的信息,而机器训练需要的数据不是直接的信息,是神经网络的信息,也就是说某个模型的 ...

  5. 深度学习的seq2seq模型——本质是LSTM,训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大...

    from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...

  6. 可视化神经机器翻译模型(基于注意力机制的Seq2seq模型)

    可视化神经机器翻译模型(基于注意力机制的Seq2seq模型)   序列到序列模型是深度学习模型,在机器翻译.文本摘要和图像字幕等任务中取得了很大的成功.谷歌翻译在2016年底开始在生产中使用这样的模型 ...

  7. seq2seq模型_Pytorch学习记录-Seq2Seq模型对比

    Pytorch学习记录-torchtext和Pytorch的实例4 0. PyTorch Seq2Seq项目介绍 在完成基本的torchtext之后,找到了这个教程,<基于Pytorch和tor ...

  8. [转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention

    from : https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/ 一.Seq2Seq 模型 1. 简介 Sequence-to ...

  9. 从Encoder到Decoder实现Seq2Seq模型

    首发于机器不学习 关注专栏 写文章 从Encoder到Decoder实现Seq2Seq模型 天雨粟 模型师傅 / 果粉 ​ 关注他 300 人赞同了该文章 更新:感谢@Gang He指出的代码错误.g ...

  10. KerasSeq2seqGeneration:基于seq2seq模型的文本生成任务项目

    项目的由来 1.分类.抽取.序列标注.生成任务是自然语言处理的四大经典任务,其中,分类.抽取任务,可以使用规则进行快速实现.而对于生成而言,则与统计深度学习关系较为密切. 2.当前,GPT系列,自动文 ...

最新文章

  1. 查询/新建/修改本地用户和组
  2. snort源码的详细分析
  3. 基于产生式的动物识别专家系统_基于5G的智慧养殖方案--漫途科技
  4. PacificA 一致性协议解读
  5. redis3.0.2 编译安装 (启动服务方式启动)
  6. 6 HBase java API访问HBase数据库
  7. SpringBoot+MyBatis登录案例
  8. 安卓游戏开发用什么引擎_游戏开发学习第一天————用什么软件
  9. mysql虚拟机授权错误,windows下用navicat链接虚拟机MySQL数据库的过程和问题解决
  10. 计算机科学中抽象的作用,抽象释义
  11. vs2012+wdk8.0 搭建wdf驱动开发环境
  12. ld cannot find an existing library
  13. python 按位运算符_Python按位运算符
  14. 用大O记号法测量算法的效率(Algorithm efficiency Asymptotic notation Big O notation)
  15. 拓扑排序以及求解关键路径
  16. java 动态性之反射机制 详解 案例,java架构师技术图谱
  17. 知识产权助力中国经济高质量发展广受认可
  18. 百度地图在项目应用示例
  19. 字幕文件srt格式解析
  20. Hadoop1.0和2.0的主要区别

热门文章

  1. fedora mysql gui,fedora 14 启用无线网卡 | 勤奋的小青蛙
  2. 华为手机隐藏app图标_华为手机怎么隐藏应用图标
  3. 计算机基础作业3考试客户端答案,2015年12月份考试作业计算机基础第3次作业满分答案...
  4. 软件开发模式有哪些?
  5. @WebServlet
  6. i.MX6ULL处理器GPIO寄存器配置原理
  7. 2020 wps 免登录_电脑WPS2020永久会员版下载
  8. LM2596、LM2576
  9. dell保修查询(戴尔保修状态查询)
  10. Wowza 4.3.0安装和使用 并联合海康摄像头(RTSP)实现直播推流