Relative Position Representations
Self-Attention with Relative Position Representations
摘要
在原始transformer,位置信息通过加一个position的embedding实现,(因为position开始也是一个one-hot)
本文提出将 自注意力 考虑 token之间的距离位置信息
相对位置表示 比 绝对位置表示 在机器翻译任务上提升(BERT为啥不用相对位置?感觉因为机器翻译这个任务更关注token之间的相对位置)
并且发现:结合 绝对位置表示 和 相对位置表示,没有进一步提升
做法
一句话看成graph,把token看成节点,token之间的边用向量表示,
首先要理解position_embedding就是position的embedding,即比如one-hot的position是[1,2,3,4,5,6,…]则position_embedding就是对[1,2,3,4,5,6,…]进行embedding
代码:
https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/common_attention.py 的dot_product_attention_relative
方法
由 dot_product_attention_relative
方法 里面的 _generate_relative_positions_embeddings
方法可知:
相对位置表示,先构造 [length_q, length_k] 的one-hot矩阵,再将 [length_q, length_k]
进行embedding_lookup
成[length_q, length_k, hidden_size] 即Relative-position-embedding
之后在 _relative_attention_inner
方法将 Relative-position-embedding 计算入原始注意力里:
由 length == length_k == length_q
Relative-position-embedding = [length, length, hidden_size]
和input_x[length, batch, hidden_size] 进行matmul得到一个tensor [batch,length,length],
这个tensor加到原始那个attention matrix
Relative-position-embedding = [length, length, hidden_size] 和 input_x [length, batch, hidden_size] 进行matmul,这个还是不太理解
Relative Position Representations相关推荐
- 文本生成(二)【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制!
Relative position representations 相对位置编码突破Bert文本512长度的限制 前言 Self-Attention with Relative Position Re ...
- 论文阅读笔记:Self-Attention with Relative Position Representations
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关 具体结构 Relation-aware自注意力 相对位置表示 高效实现 实验结果 ...
- 2018-Self-Attention with Relative Position Representations
文章目录 1. Title 2. Summary 3. Problem Statement 4. Method(s) 4.1 Relation-aware Self-Attention 4.2 Rel ...
- How Self-Attention with Relative Position Representations works
本文的主要内容是基于相对位置表示的自注意力机制是如何工作的. 1. 引论 本篇文章是基于 Self-Attention with Relative Position Representatio ...
- 论文阅读——Self-Attention with Relative Position Representations
Self-Attention with Relative Position Representations Abstract 2017年Vaswani等人提出的Transformer需要在输入中添加绝 ...
- 相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记
- [NLP] 相对位置编码 Relative Position Representatitons (RPR)
1. 翻译:https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-281 ...
- 【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer
论文 论文题目:Rethinking and Improving Relative Position Encoding for Vision Transformer 接收:ICCV 2021 论文地址 ...
- 一文读懂css的相对定位【relative position】以及相对定位为什么要设置偏移量?
目录 何为定位 偏移量 垂直方向 top bottom 水平方向 left right relative-相对定位 何为相对定位 相对定位的特点 实例 元素代码的起始位置 元素若不开启相对定位,即便设 ...
最新文章
- 一周一论文(翻译)——[SIGMOD 2016] RDMA over Commodity Ethernet at Scale
- exit与return区别
- FZU OJ:2230 翻翻棋
- Airflow 中文文档:保护连接
- JTS(Geometry)工具类
- 解决xcel数据导入MySQL数据库【日期数据格式混乱】的问题
- 【Excel】设置数据有效性以及COUNTIF用法
- Spring单例模式的一次失败经历和总结
- C语言编写简单的走迷宫小游戏
- cla作用matlab,CLA(共轭亚油酸)的作用
- 7-23 币值转换 (20 分)
- github.com/gogo/protobu: invalid pseudo-version: revision is shorter than canonical
- Corner芯片TT,FF,SS
- springboot 之 微服务调用 之 链路追踪
- [原创+总结]防火墙常见日志分析
- html插入图标img i png
- Vue给table指定行加样式
- 【科普园地】郭雷院士:系统的反馈原理及魅力
- docker namespaces
- 对测试驱动开发的一些理解
热门文章
- 【先定一个小目标】数据挖掘学习进度总结
- testdisk windows mac linux,TestDisk for Mac-TestDisk Mac版下载 V7.2-PC6苹果网
- UVA11491 奖品的价值 Erasing and Winning
- 胡图图想学c语言之字符串函数原型
- 3.RabbitMQ 通过管理界面了解Rabbit
- <map>标签与<area>标签实例
- 深度技术 GHOSTXPSP3 快速装机专业版 V9.0
- 使用java实现面向对象编程第十章嗖嗖移动业务大厅项目_ACCP6.0 S2 使用Java实现面向对象编程 第一章...
- Linux.centos系统mysql5.7.31安装教程
- UVA508摩斯密码题目详解