How Self-Attention with Relative Position Representations works
本文的主要内容是基于相对位置表示的自注意力机制是如何工作的。
1. 引论
本篇文章是基于 Self-Attention with Relative Position Representations(https://arxiv.org/pdf/1803.02155.pdf),它提出了一种对Transformer的输入序列中的位置编码的替代方法。它改变了Transformer的自注意力机制,从而可以考虑序列元素之间的相对位置。
2. 动机
RNN的结构是通过隐状态对序列信息进行编码的。
In contrast, the self-attention layer of a Transformer (without any positional representation) causes identical words at different positions to have the same output representation. For example:
第二个 I I I的输出和第一个 I I I的输出是不同的,这是因为输入到其中的隐状态是不同的。对于第二个 I I I来说,隐状态经过了单词"I think therefore",而第一个 I I I是刚刚经过初始化的。因此,RNN的隐状态会使得处于不同位置的相同词具有不同的输出表示。恰恰相反的是,具有自注意力机制的Transformer(没有位置编码的)会使得不同位置的相同词具有相同的输出表示。
上图表示的是输入序列为"I think therefore I am",然后传送到Transformer的的结果。出于可读性的原因,只显示了输入对应的输出“ I I I”表示(以不同的颜色)。尽管两个" I I I"位于序列不同的位置,
How Self-Attention with Relative Position Representations works相关推荐
- 文本生成(二)【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制!
Relative position representations 相对位置编码突破Bert文本512长度的限制 前言 Self-Attention with Relative Position Re ...
- 论文阅读笔记:Self-Attention with Relative Position Representations
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关 具体结构 Relation-aware自注意力 相对位置表示 高效实现 实验结果 ...
- Relative Position Representations
Self-Attention with Relative Position Representations 摘要 在原始transformer,位置信息通过加一个position的embedding实 ...
- 论文阅读——Self-Attention with Relative Position Representations
Self-Attention with Relative Position Representations Abstract 2017年Vaswani等人提出的Transformer需要在输入中添加绝 ...
- 2018-Self-Attention with Relative Position Representations
文章目录 1. Title 2. Summary 3. Problem Statement 4. Method(s) 4.1 Relation-aware Self-Attention 4.2 Rel ...
- 相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记
- [NLP] 相对位置编码 Relative Position Representatitons (RPR)
1. 翻译:https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-281 ...
- 【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer
论文 论文题目:Rethinking and Improving Relative Position Encoding for Vision Transformer 接收:ICCV 2021 论文地址 ...
- 一文读懂css的相对定位【relative position】以及相对定位为什么要设置偏移量?
目录 何为定位 偏移量 垂直方向 top bottom 水平方向 left right relative-相对定位 何为相对定位 相对定位的特点 实例 元素代码的起始位置 元素若不开启相对定位,即便设 ...
最新文章
- 【数据结构学习】顺序栈 C语言
- 反思开发新需求节省时间的方法
- 屠龙之路_坚持就是胜利_NinthDay
- SAP Cloud for Customer里Sales Order和Sales Quote的建模方式
- 前端:JS类型判断类库
- 35岁成MIT终身教授!北大数学“黄金一代”再获大奖
- Mapx的VC开发实践
- Linux 源码编译安装过程-以安装XZ解压为例
- Android 安全架构及权限控制机制剖析
- 机器视觉——双目视觉的基础知识(视差深度、标定、立体匹配)
- 【Java8实战】list分组、过滤、统计、排序等常用操作
- 2007年考研数学一解析pdf
- 山水功放与音箱接线图_功放接线示意图(图文详解)
- 光影精灵usb安装linux,惠普光影精灵5笔记本怎么装win10系统(uefi+gpt)
- 经纬财富:宜昌炒白银和炒黄金有什么不同?
- C#winform中弹出提示框,点击确认或者取消(是或否)
- Appium测试混血App
- 在国内,如何优雅的使用ChatGPT??
- latex多行公式加大括号、整体编号及多行编号及不同方法的区别
- NoSQL数据库的基础知识
热门文章
- msk 频偏_快速估算msk信号载波的方法
- Android开发人员不得不收集的工具类集合
- 中国计算机技术职业资格网
- 打包时出现Downloading https://...to
- Yolov5添加注意力机制
- Linux下的磁盘克隆、磁盘备份、磁盘还原、分区克隆、分区备份、分区还原
- kaldi第一步安装kaldi测试yesno
- 微软副总裁尤瑟夫·梅赫迪对必应和“病”同音的解释
- 银河麒麟Kylin_s10_sp2安装Oracle11g(FS)(亲测有效)
- 完全免费PNG素材库,免费可商用~