背景

SequenceToSequence模型执行翻译任务与模型讲解。

SequenceToSequence 翻译执行流程

步骤:

  1. 英文有26个字母,中文有好多字,可以依据这个来对字进行编号,然后将英文字母和汉字转换为对应的数字。
  2. 可以依据索引值来构造字典
  3. 中文按照字来区分,英文按照字母来进行区分
  4. 当中文句子和英文句子转为对应的数字时,然后进行one-hot编码。使用one-hot编码的目的是为了使特征表达更加合理。
  5. 编码,解码
    SequenceToSequence中有注意力机制的存在,依据代码是可以看到的。Encoder和Decoder中的的输入是不一样的, Encoder输入源语言,Decoder输入的是目标语言。

encoder的最后一个时间步的状态输出作为decoder模型的初始状态输入,这样才能保证序列信息的传递。这就说明了LSTM学习得到的是序列信息。LSTM中有遗忘门,输入门,输出门,GRU有重置门和更新门。decoder最后输出的是中文,所以直接做一个Dense变为中文。我们只需要得到编码器的状态就可以,在LSTM中的输出是有三个的。

  1. 预测 -> 预测模型中的encoder和训练中的一样,都是输入序列,输出几个状态。而decoder和训练中稍有不同,因为训练过程中的decoder端的输入是可以确定的,因此状态只需要初始化一次,而预测过程中,需要多次初始化状态,因此将状态也作为模型输入。

在预测时,我们也需要同时使用encoder的信息和decoder的信息,编码器首先输入预测的信息(即要翻译的句子),然后得到要翻译句子的序列信息,然后将这个序列信息传递给解码器,解码器最终会有一个句子的输出,然后第一次得到一个最可能的词,然后依据这个词,改变解码器的输入,初始状态是不变的,只有输入在变,然后不断的去生成这个序列。

seq2seq代码模型流程图

损失函数

多分类的交叉熵损失函数,没个字或者词对应一个类别。

参考资料

这里面对编码和解码有了一个详细的说明

https://blog.csdn.net/weixin_43718675/article/details/88925451

SequenceToSequence相关推荐

  1. 【自然语言处理】【多模态】OFA:通过简单的sequence-to-sequence学习框架统一架构、任务和模态

    OFA:通过简单的sequence-to-sequence学习框架统一架构.任务和模态 <Unifying Architectures, Task, and Modalities through ...

  2. Sequence-to-Sequence Model (Seq2Seq)

    Sequence-to-Sequence Model (Seq2Seq) 用Seq2Seq实现机器翻译:多对多问题 机器翻译数据Machine Translation Data http://www. ...

  3. 【论文笔记】Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文题目: Rethinking Semant ...

  4. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers

    重新思考语义分割范式--SETR 转载from:https://zhuanlan.zhihu.com/p/348418189   请多支持原创 一.论文信息 标题:<Rethinking Sem ...

  5. 论文阅读笔记--Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

    最近在阅读一些关于transformer的论文,在此记录是为了看看到底天天学了些什么.目前阅读这些论文感觉还是似懂非懂的阶段,还需要时间细细斟酌,共勉! Rethinking Semantic Seg ...

  6. 论文笔记:Sequence-to-Sequence Knowledge Graph Completion and QuestionAnswering

    Sequence-to-Sequence Knowledge Graph Completion and Question 备注:ACL 2022 Main Conference 链接:https:// ...

  7. Incorporating Copying Mechanism in Sequence-to-Sequence Learning

    今天分享的paper是Incorporating Copying Mechanism in Sequence-to-Sequence Learning,作者来自香港大学和华为诺亚方舟实验室. 本文的模 ...

  8. 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》

    论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...

  9. 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling

    文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...

最新文章

  1. 学习ASP.NET MVC系列 - 还有比这更简炼的吗?把复杂的事情变简单了,贡献啊!...
  2. P1102 A-B 数对(二分,映射)难度⭐
  3. Swift学习——Swift解释特定的基础(七)
  4. Unity加载配置文件的两种方式
  5. Dataframe花样切片~(Python)
  6. python html模块调用_Python html 模块简介
  7. 【工作总结】银行的等级架构
  8. 解读SQL Server 2012中的最新BI功能
  9. 25个学习要点帮助你从java菜鸟成为Java高手
  10. npoi操作word书签_100份Word文档合并只需3分钟?不用复制粘贴,简单到一学就会...
  11. 1. Windows Powershell初接触
  12. popwin.js 弹出小窗口,图片预览;
  13. Luogu5280 [ZJOI2019] 线段树 【线段树】
  14. tekla钢结构算量_Tekla有用吗?Tekla软件在钢结构项目中有什么作用?
  15. 搜狗linux 如何启动程序,完美解决搜狗输入法"请启用fcitx-qimpanel面板程序"的方法...
  16. 优动漫PAINT安装教程
  17. 安装ubuntu20.04无法连接wifi问题
  18. java电驴_转:java写的电驴下载完成关机小程序
  19. ArcGIS问题:dbf shp shx sbn sbx mdb adf等类型的文件的解释
  20. 云和恩墨入选《数据安全产品与服务图谱1.0》

热门文章

  1. ZigBee 3.0实战教程-Silicon Labs EFR32+EmberZnet-3-04:模板工程创建/编译/下载-Application
  2. 保姆级Windows下载安装PaddleGAN并使用教程
  3. STM32F207ZG GPIO口学习
  4. Github上设置小图标/小徽章
  5. 行式数据和列式数据对比 存储压缩性能
  6. (附源码)ssm无人机数据管理系统 毕业设计 111022
  7. About云双11两大福利:送书【9本】|送1T资源
  8. 华云数据信创云基座“全芯全栈全生态”能力解读
  9. vue 路由三种写法方式
  10. 查表程序c8051汇编语言,汇编程序 查表求平方的实现