SequenceToSequence
背景
SequenceToSequence模型执行翻译任务与模型讲解。
SequenceToSequence 翻译执行流程
步骤:
- 英文有26个字母,中文有好多字,可以依据这个来对字进行编号,然后将英文字母和汉字转换为对应的数字。
- 可以依据索引值来构造字典
- 中文按照字来区分,英文按照字母来进行区分
- 当中文句子和英文句子转为对应的数字时,然后进行one-hot编码。使用one-hot编码的目的是为了使特征表达更加合理。
- 编码,解码
SequenceToSequence中有注意力机制的存在,依据代码是可以看到的。Encoder和Decoder中的的输入是不一样的, Encoder输入源语言,Decoder输入的是目标语言。
encoder的最后一个时间步的状态输出作为decoder模型的初始状态输入,这样才能保证序列信息的传递。这就说明了LSTM学习得到的是序列信息。LSTM中有遗忘门,输入门,输出门,GRU有重置门和更新门。decoder最后输出的是中文,所以直接做一个Dense变为中文。我们只需要得到编码器的状态就可以,在LSTM中的输出是有三个的。
- 预测 -> 预测模型中的encoder和训练中的一样,都是输入序列,输出几个状态。而decoder和训练中稍有不同,因为训练过程中的decoder端的输入是可以确定的,因此状态只需要初始化一次,而预测过程中,需要多次初始化状态,因此将状态也作为模型输入。
在预测时,我们也需要同时使用encoder的信息和decoder的信息,编码器首先输入预测的信息(即要翻译的句子),然后得到要翻译句子的序列信息,然后将这个序列信息传递给解码器,解码器最终会有一个句子的输出,然后第一次得到一个最可能的词,然后依据这个词,改变解码器的输入,初始状态是不变的,只有输入在变,然后不断的去生成这个序列。
seq2seq代码模型流程图
损失函数
多分类的交叉熵损失函数,没个字或者词对应一个类别。
参考资料
这里面对编码和解码有了一个详细的说明
https://blog.csdn.net/weixin_43718675/article/details/88925451
SequenceToSequence相关推荐
- 【自然语言处理】【多模态】OFA:通过简单的sequence-to-sequence学习框架统一架构、任务和模态
OFA:通过简单的sequence-to-sequence学习框架统一架构.任务和模态 <Unifying Architectures, Task, and Modalities through ...
- Sequence-to-Sequence Model (Seq2Seq)
Sequence-to-Sequence Model (Seq2Seq) 用Seq2Seq实现机器翻译:多对多问题 机器翻译数据Machine Translation Data http://www. ...
- 【论文笔记】Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers
声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文题目: Rethinking Semant ...
- Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers
重新思考语义分割范式--SETR 转载from:https://zhuanlan.zhihu.com/p/348418189 请多支持原创 一.论文信息 标题:<Rethinking Sem ...
- 论文阅读笔记--Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
最近在阅读一些关于transformer的论文,在此记录是为了看看到底天天学了些什么.目前阅读这些论文感觉还是似懂非懂的阶段,还需要时间细细斟酌,共勉! Rethinking Semantic Seg ...
- 论文笔记:Sequence-to-Sequence Knowledge Graph Completion and QuestionAnswering
Sequence-to-Sequence Knowledge Graph Completion and Question 备注:ACL 2022 Main Conference 链接:https:// ...
- Incorporating Copying Mechanism in Sequence-to-Sequence Learning
今天分享的paper是Incorporating Copying Mechanism in Sequence-to-Sequence Learning,作者来自香港大学和华为诺亚方舟实验室. 本文的模 ...
- 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》
论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...
- 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling
文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...
最新文章
- 学习ASP.NET MVC系列 - 还有比这更简炼的吗?把复杂的事情变简单了,贡献啊!...
- P1102 A-B 数对(二分,映射)难度⭐
- Swift学习——Swift解释特定的基础(七)
- Unity加载配置文件的两种方式
- Dataframe花样切片~(Python)
- python html模块调用_Python html 模块简介
- 【工作总结】银行的等级架构
- 解读SQL Server 2012中的最新BI功能
- 25个学习要点帮助你从java菜鸟成为Java高手
- npoi操作word书签_100份Word文档合并只需3分钟?不用复制粘贴,简单到一学就会...
- 1. Windows Powershell初接触
- popwin.js 弹出小窗口,图片预览;
- Luogu5280 [ZJOI2019] 线段树 【线段树】
- tekla钢结构算量_Tekla有用吗?Tekla软件在钢结构项目中有什么作用?
- 搜狗linux 如何启动程序,完美解决搜狗输入法"请启用fcitx-qimpanel面板程序"的方法...
- 优动漫PAINT安装教程
- 安装ubuntu20.04无法连接wifi问题
- java电驴_转:java写的电驴下载完成关机小程序
- ArcGIS问题:dbf shp shx sbn sbx mdb adf等类型的文件的解释
- 云和恩墨入选《数据安全产品与服务图谱1.0》
热门文章
- ZigBee 3.0实战教程-Silicon Labs EFR32+EmberZnet-3-04:模板工程创建/编译/下载-Application
- 保姆级Windows下载安装PaddleGAN并使用教程
- STM32F207ZG GPIO口学习
- Github上设置小图标/小徽章
- 行式数据和列式数据对比 存储压缩性能
- (附源码)ssm无人机数据管理系统 毕业设计 111022
- About云双11两大福利:送书【9本】|送1T资源
- 华云数据信创云基座“全芯全栈全生态”能力解读
- vue 路由三种写法方式
- 查表程序c8051汇编语言,汇编程序 查表求平方的实现