1. 使用RNN对文本预测

假如输入的文本是:the cat sat on the ma     那么下一个字符什么呢?

这里采用的是many to many模型,如下:

此时模型的输出字符概率为:

  1. 如何训练RNN模型?

如上一段英语文字,我们采用分割的方法,这里采用输入的长度为40,滑动距离为3,即从开始到第40个字符用作输入,

第41个字符用作标签数据label,如上:

输入为:Machine learning is a subset of artifici   label为:a

上面是第一个训练数据对即pairs

第二个如下:

因为滑动为3,因此在第一个训练对的基础上,向后滑动三个字符在进行分割,分割距为40个字符,后面一个为对应的预测label,因此训练标签对为:

输入为:hine learning is a subset of artificial             label为 :I

以此类推,直到把这个段落分割完,做成训练对

制作好的数据集,开始训练,输入数据,通过rnn的最后一个状态查找字符字典,然后和label进行比对,通过交叉熵进行计算loss,在通过优化机制和反向传播更新rnn的参数矩阵,然后迭代多次即可完成训练

  1. 制作数据集

下面就开始整个数据集的制作和训练

  • 分割数据

该步骤主要是把一段话或者一篇文章或者一本书进行字符分割,分割时有两个需要设置的参数,分割的长度,滑动长度,这里分割长度是60,滑动长度为3

  • 字典制作

这里是制作字符的字典,英文有26个字符还要加上各种标点和空格总共有57个字符向量,现在按照顺序进行编号,然后给编号进行向量化,这样从字符到向量就完成了

第一步假设分割的段落长度为60,字符字典为57

那么每个段落对应的矩阵就表示为:

假如这里有200278这样的pair,都这样进行矩阵化,这样数据集就制作完成了

下面就是搭建模型训练了:

  • 搭建模型并训练

ViT (Vision Transformer) ---- Text Generation(文本生成器)相关推荐

  1. VIT(vision transformer)结构解析

    文章目录 背景 网络结构 VIT简介 VIT模型概述 参考 transformer的出现彻底改变了自然语言处理的世界,然而在计算机视觉中,注意力机制保持原卷积网络整体结构,常与卷积网络结合.或是取代卷 ...

  2. ViT(Vision Transformer)学习

    ViT(Vison Transformer)学习 Paper:An image is worth 16×16 words: transformers for image recognition at ...

  3. ViT (Vision Transformer) ---- SimpleRNN + Attention

    Attention机制最早还是要来源Bengio在2015年发表的一篇文章Neural machine translation by jointly learning to align and tra ...

  4. ViT (Vision Transformer) ---- RNN

    1.one to one 模型 如何对时序数据建模? 人类大脑在阅读时,并不是把一段文字看完在思考,而是边思考变阅读,随着看完后就积累了整段文字的大意,因此处理时序数据就不能使用one to one ...

  5. ViT (Vision Transformer) ---- Vision Transformer

  6. ViT (Vision Transformer) ---- Transformer Model(2)

    上一节详细的介绍了transform的组件,本节就通过组件进行组装transform Self-attention层: 简化: 多头self-attention 上面是单头self-attention ...

  7. ViT (Vision Transformer) ---- Transformer Model(1)

    transform是2017年提出来的,当时横扫NLP领域的多个任务,Vaswani et al. Attention Is All You Need. In NIPS,2017. transform ...

  8. ViT (Vision Transformer) ---- SimpleRNN + Self-Attention

    首先attention第一次是在2015年应用在Seq2Seq模型上的,该模型有两个网络一个是Encoder,一个是decoder,后来研究者们发现,attention不仅仅可以应用到Seq2Seq模 ...

  9. ViT (Vision Transformer) ---- Seq2Seq

    对于seq2seq模型,网上很多文章直接就把抽象模型拿出来,这样对初学者很不友好,这里采用例子进行阐述,最后在通过抽象模型理解 英语翻译成德语 这个网站有很多的数据集 Tokenization 和创建 ...

最新文章

  1. Glide 框架解析
  2. C语言函数strcmp()(比较两个字符串)
  3. javaFX的控制台实现
  4. PHP导出Excel环境,php怎么导出excel-使用php导出excel的教程 - 河东软件园
  5. HOW-TO:具有MySQL的JEE应用程序中具有集群功能的Quartz Scheduler
  6. pcl的初步使用(ROS)
  7. JSON字符串和实体类的相互转化
  8. 细说JDK动态代理的实现原理
  9. 基于python的气象数据分析_基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其......
  10. halcon学习之运动跟踪定位
  11. 蓝讯数卡api接口,可以接通25家话费充值卡、游戏点卡官方通道,轻松完成客户快速消耗...
  12. nfc修改饭卡软件下载_手机nfc模拟门禁卡app-NFC卡模拟软件中文版下载安卓标准版-西西软件下载...
  13. java基础之线程参考尚硅谷视频
  14. 三津谈保险系统建设:序言
  15. 【Beta】 第三次Daily Scrum Meeting
  16. java io 呕心沥血的学习 学了就忘
  17. 关于过圣诞节的一段往事
  18. 交换机短路_交换机端口短路 导致上网不正常
  19. TCP拥塞控制和宽容
  20. 通过Spire-java实现word和pdf文件相互转换

热门文章

  1. 转载:LOG_ARCHIVE_DEST_n参数属性——DATA GUARD概念和管理
  2. postfix+dovecot
  3. 我的台式机的几张照片
  4. Q145: 三次曲线对比及其矩阵表示(Bezier, B-Spline, Hermite, Catmull-Rom)
  5. 40vf什么意思_LED 的基本术语VF、IV、WL、IR 解释及光通量换算关系
  6. python打印四种三角形
  7. mysql 分表后如何扩展_MySQL横向扩展-分库分表解决方案总结
  8. linux 查看libevent 安装目录,Linux系统centos6.7上安装libevent
  9. java中GC的基本概念
  10. 成都高端企业网站建设前网站推广优化战略规划成都辰星建站