咱们还是照图讨论,transformer结构图如下,本文主要讨论Encoder部分,从低端输入inputs开始,逐个结构进行

图一

一、首先说一下Encoder的输入部分:

在NLP领域,个人理解,这个inputs就是我们的句子分词之后的词语,比如:我的句子是“我喜欢中国”,那么inputs为“我“,”喜欢“,”中国”,然后Input Embedding就是对这些词语的向量化(词向量),之后加上这些词对应的位置信息(比如“喜欢”在“我喜欢中国”中位置为2),两者结合作为Multi-Head Attention(多头注意力机制)的输入。

二、Multi-Head Attention

多头注意力机制,可以简单的理解为:对这个操作重复了n次,得到n个结果 .....,之后对这n个结果求平均,得到一个更稳健的输出。

重复n次实际上就是进行n次单独的self-attention,由于每次的都不同,所以每次self-attention的输出Z也不同,高级的意义:通过重复n次操作,将输入映射到不同的子空间,以便于提取更多的特征信息,从而提高准确性。

大白话:与从不同方位观察物体一样,从前面、侧面、后面看物体,肯定能获取关于这个物体更多的信息对吧,提取更多特征,从而有更深的理解,通俗易懂

Transformer结构解读(Multi-Head Attention、AddNorm、Feed Forward)相关推荐

  1. 谷歌NIPS论文Transformer模型解读:只要Attention就够了

    作者 | Sherwin Chen 译者 | Major,编辑 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:在 NIPS 2017 上,谷歌的 Vaswani 等人提出了 T ...

  2. 翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

    1. 前言 The Transformer--一个使用注意力来提高这些模型的训练速度的模型.Transformer 在特定任务中的表现优于谷歌神经机器翻译模型.然而,最大的好处来自于 The Tran ...

  3. Swin Transformer论文解读

    文章目录 创新点 算法 Patch Merging W-MSA SW-MSA 位置偏置 结构变体 实验 ImageNet分类 COCO目标检测 ADE20K语义分割 消融实验 结论 论文: <S ...

  4. 【Transformer开山之作】Attention is all you need原文解读

    Attention Is All You Need Transformer原文解读与细节复现 导读 在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN.循环神经网络RNN ...

  5. Transformer论文解读

    简介 近年来,注意力(Attention)机制被广泛应用于计算机视觉和自然语言处理领域,仅 CVPR2020 接收的论文中,使用到 Attention 的文章达到 60 篇.随着 Attention ...

  6. 【Transformer专题】一、Attention is All You Need(Transformer入门)

    目录 前言 一.整体架构 二.Transfomer输入 2.1.单词Embedding 2.2.位置Embedding 三.Self-Attention结构 3.1.Self-Attention QK ...

  7. Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2

    本文首先详细介绍Transformer的基本结构,然后再通过GPT.BERT.MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transforme ...

  8. Transformer结构详解(有图,有细节)

    文章目录 1. transformer的基本结构 2. 模块详解 2.1 模块1:Positional Embedding 2.2 模块2:Multi-Head Attention 2.2.1 Sca ...

  9. ACL 2020 | 基于不同硬件搜索更好的Transformer结构

    论文标题: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing 论文作者: Hanrui Wang ( ...

最新文章

  1. android fragmentpageradapter切换不更新,关于android:在FragmentPagerAdapter中更新当前片段...
  2. 币圈王哥:BTC多头局面进一步打开,BCH再现强势姿态
  3. php 验证座机,验证国内手机号与座机号的正则表达式
  4. iOS中的WiFi与硬件通信
  5. java中字符编码详解
  6. es6笔记 day3---Promise
  7. COJ 0967 WZJ的数据结构(负三十三)
  8. JavaScript:对象转换为字符串、字符串转换为对象
  9. 思科网院Packet Tracer实验(七)IP编址
  10. win版跳过id锁工具_一键跳过苹果锁,而且还是免费的!
  11. 服务器启动服务很慢_哦,地方很好,为什么教育对于启动自动驾驶服务至关重要...
  12. Linux命令行运行多线程程序 和 QT集成IDE下运行多线程程序的问题。
  13. java正整数分解因数_java如何将一个正整数分解质因数
  14. 组合数学$1排列组合
  15. python工程师认证证书报考条件_Python工程师需要具备什么条件
  16. AVPlayer与AVPlayerViewController媒体播放器
  17. 破解Navicat全家桶
  18. 再谈目前QQ空间主流的赚钱方法
  19. 空调风扇内机不转故障分析与检修
  20. 10大举措预防心脏病

热门文章

  1. 【WorldPop数据下载】
  2. vue和php混用,在PHP中,使用Vue.js的教程
  3. 大学生应该如何学习的三种方法
  4. DBCO衍生物 DBCO-PEG-DOPE DBCO-PEG-二油酰磷脂酰乙醇胺
  5. http 协议 查看ie http的版本
  6. 软件研发和嵌入式软件研发面试经历
  7. IDEA 修改快捷键
  8. 英语日常口语对话(6)
  9. dl388g7 驱动 linux,HPDL388G7做OLIRAIDBIOS设置linux安装概要.doc-资源下载在线文库www.lddoc.cn...
  10. 慕课编译原理(第八章.扩充的巴科斯范式和语法图)