bert就是无监督训练的transformer

transformer :seq2seq model with “self-attention”

单向的RNN:
在输出b4的时候,已经看了a1~a4
在输出b3的时候,已经看了a1~a3
双向的RNN:
在输出每一个bi的时候,已经看了a1~a4
RNN的优点:
可以考虑到长距离的依赖
RNN的缺点:
不能实现并行化

也可以用CNN来处理序列数据,图中每一个三角代表一个filter
CNN的优点:如果想要考虑长距离依赖,需要叠加多层filter
CNN的优点:可以实现并行运算(所有的黄色三角可以同时进行,黄色和橙色也可以同时进行)



计算attention的做法就是 取两个向量qi和kj,得到一个向量αij,代表qi和kj的相似程度


soft-max 的作用:归一化处理


self-attention不仅可以考虑global information,还可以考虑local information. 如果要考虑local information 只要让αijhead为0,就可以不考虑它对应的Vjijhead和Vj的乘积为0)


self-attention做的事情和RNN是一样的,只是self-attention中 b1~b4的计算可以同时进行,实现并行化


self-attention都是通过矩阵进行计算的

对A(A中的每一个元素都是input中两两position的attention)的每一个column做softmax得到 A head

最后O就是self-attention layer的输出

从矩阵的角度,self-attention layer做了什么
gpu可以加速矩阵乘法


每一个head的关注点不一样,各司其职
每两两input vector 做 attention, 每一个input vector 对其他input vector 都有“天涯若比邻”的效果,所以对于self-attention layer来说,不能感知到输入数据的序列。“A打了B”和“B打了A”对于self-attention来说是一样的。

在Xi上concat一个pi, pi是独热编码,标志了Xi在输入中的位置
Wp不是learn出来的(在learn的过程中发现效果不好),是人手设的,用公式推导出来的
Wp的样子,感觉很神奇,矩阵还可以用图显示出来



transformer是一个seq2seq model

用seq2seq的地方,都可以用transformer来取代

transformer--变形金刚相关推荐

  1. H5+CSS3之变型

    变型 核心属性: transform transform 变型 transformer 变形金刚 一个盒子可以携带多个变型,多个变型之间以空格分隔. 变型变的是坐标系,下一个变型是在上一个变型完成后, ...

  2. C++结构型模式-装饰模式

    1.1 基本概念 装饰器模式(Decorator Pattern):动态地给一个对象增加一些额外的职责,就增加功能来说,装饰器比生成子类实现更为灵活. 装饰器可以在不改变对象本身的基础上给对象增加额外 ...

  3. Transformer(“变形金刚”)

    上一篇博客里面,我们讲解了self-attention机制.而self-attention机制最早是在"Attenion Is All Your Need"这篇论文中提出的.而se ...

  4. Transformer讲解(三)- CV变形金刚-ViT知识介绍

    VIT (Vision Transformer) 模型论文+代码从零详细解读,看不懂来打我_哔哩哔哩_bilibili公众号[NLP从入门到放弃]后台回复[VIT]获取对应的PPT和代码https:/ ...

  5. transformer(”变形金刚“)

    Background Transformer发明的背景是在循环神经网络业已成熟阶段,但是成熟的循环神经网络例如LSTM和RNNS等对于长文本的分析效果并不是很理想.当时已经将注意力机制引入了编码器-解 ...

  6. transformer是什么 变形金刚

    transformer和bert有非常强烈的关系 transformer是什么呢 就是句子到句子的转化的一个好用的模型model 输出的句子的长度由机器自己决定 在语音识别中speech recogn ...

  7. 简单有趣的变形金刚网络(VIT) Vision Transformer(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

    论文题目: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale 原论文下载链接:https://arx ...

  8. 攻克 Transformer 之代码精讲+实战,以及《变形金刚》结构

    Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层.尽管transformer最初是应⽤于在⽂本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语⾔.视觉. ...

  9. 变形金刚——Transformer入门刨析详解

    Transformer是什么呢? \qquadTransformer最早起源于论文Attention is all your need,是谷歌云TPU推荐的参考模型. \qquad目前,在NLP领域当 ...

  10. 变形金刚Transformer详解

    写了上一篇,就必有这一篇~ 1. TRM在做啥? 我们输入一个I love you,输出我爱你,输入一段声音,输出得到你真美.输入长度跟输出长度没有决定性的关系,由机器决定输出的是什么. 2. TRM ...

最新文章

  1. AI一分钟 | 小米智能音箱mini版曝光,或售199元;特朗普被指利用AI竞选成功
  2. Linux下的mysql设置表不区分大小写
  3. QT多媒体 播放视频并显示字幕
  4. Linux磁盘管理----分区格式化挂载fdisk、mkfs、mount
  5. html----input标签
  6. CSS基础——定位 (position)【学习笔记】
  7. Nginx 解决请求跨域 与 配置 gzip 压缩
  8. 生成对抗网络(十)----------infoGAN
  9. pytorch读取lmdb文件报错,lmdb.InvalidParameterError:解决
  10. ACM/IOI 国家队集训队论文集锦
  11. 又有朋友被骗入传销了!
  12. 【redis集群:2. 集群伸缩】
  13. 使用ZedGraph记录(原创)
  14. 爬虫总结(二)-- scrapy
  15. navicate Premium 16连接阿里云云数据库RDS
  16. 基于机智云平台的智能花盆
  17. 差分时钟、DQS与DQM - DDRx的关键技术介绍
  18. oracle 支持ltfs的厂商_甲骨文革新磁带存储StorageTek产品线
  19. PostgreSQL常用修改表结构
  20. 在线抓包工具Whistle

热门文章

  1. 【190223】VC++ MP3音频播放器源代码
  2. c++ 计算2个日期相差天数,去除节假日和周末
  3. 7-3 冰岛家谱 (15 分)
  4. nodejs+vue+elementui网上购物超市系统java python php
  5. 电脑pin码忘了登录不进系统_智慧登录:玩转Windows Hello!
  6. SAP采购订单审批时可以拒绝吗?
  7. deploy pry for ruby on rails
  8. html 课件DW,DW《网页设计与制作》教学课件.ppt
  9. 盘点这些年错过的互联网暴富机会,大部分人都后知后觉
  10. 基于Springboot+vue的大学生心理健康平台 elementui