⭐原文链接:https://arxiv.org/abs/1706.03762

*黑字——原文翻译

*红字——存在问题

*蓝字——优势

*绿字——主观分析(未对全部细节进行分析,仅针对本文内容补充)


1.摘要

目前主要序列转换模型(dominant sequence transduction models)是基于复杂的循环或卷积神经网络(recurrent or convolutional neural networks),包括一个编码器(encoder)和一个解码器(decoder)表现最好的模型通过注意力机制(attention mechanism)连接编码器(encoder)和解码器(decoder)。我们提出了一个新的简单的网络架构Transformer,完全基于注意力机制(attention mechanism),放弃循环和卷积。

第一段涉及:

(1) 基于循环神经网络(recurrent neural networks)

一种常用的处理序列数据的方法

(2) 基于卷积神经网络(convolutional neural networks)

通常用于处理二维图像数据,也可以处理一维序列数据

(3) 编码器(Encoder)和解码器(Decoder)

a. Encoder-Decoder是一种通用的框架,而不是一种模型;

b. Encoder将Input序列转换成固定长度的向量,Decoder将生成的固定长度向量转换为Output;

c. 针对不同的任务Encoder和decoder中的模型可以是CNN、RNN、Attention等模型的组成。

(4) 注意力机制

涉及不同种的注意力机制(如Self-attention、Multi-head attention等),是本文主要讨论内容。

我们在两个机器翻译任务上进行实验,效果更好。同时具有更强的并行性(more parallelizable),所需的训练时间明显更少。我们的模型在2014年WMT英语-德语翻译任务中实现了28.4 BLEU,比现有的最佳结果,包括集成。提高了2个BLEU以上。在WMT 2014英法翻译任务中,我们的模型在8个gpu上训练3.5天后建立了一个新的最先进的单模型BLEU分数为41.8,仅为文献中最佳模型训练成本的一小部分。

第二段涉及:

(1) 并行性

a. 对于序列长度较长的数据来说,需要在处理的过程中不断保存前序数据的处理结果,造成内存负担。

b. 运算效率相对低下。

并行计算能够有效缓解上述问题。

(2) BLEU

BLEU全称Bilingual Evaluation Understudy,意为双语评估替补,即代替人进行翻译的结果评估。

通过成功地将Transformer应用于具有大量和有限训练数据的英语选区分析(English constituency parsing),我们表明Transformer可以很好地推广到其他任务。

第三段涉及:

(1) 英语选取分析


2.引言

循环神经网络(Recurrent neural networks),长短期记忆神经网络(Long short-term memory ne-ural networks)、门控循环神经网络(Gated recurrent neural networks)目前在序列建模和转换(sequ-ence modeling and transduction)问题是先进的技术,例如语言建模(language m-odeling)和机器翻译(machine translation)。目前也有许多研究推动循环语言模型(recurrent language models)和编码器-解码器架构(encoder-decoder architectures)的边界。

第一段涉及:

(1) 循环神经网络(RNN)

(2) 长短期记忆神经网络(LSTM)

(3) 门控循环神经网络(GRN)

上述三种网络模型是当时几年间主要应用于序列建模和转换问题的网络模型。

循环模型通常沿输入和输出序列的符号位置进行计算。在计算时间内将位置和步长对齐,它们生成一系列隐藏状态ht,作为前一个隐藏状态ht-1和位置t输入的函数。这种固有的序列性质(sequential nat-ure)排除(precludes)了训练示例中的并行化,这对于更长的序列是至关重要的,因为内存约束限制了跨示例的批处理。最近的工作通过因式分解技巧(factorization tricks)和条件计算(conditional computation)在计算效率方面取得了显著的改进,同时也改善了后者的模型性能。然而,顺序计算的基本约束仍然存在。

第二段涉及:

(1) 因式分解技巧

(2) 条件计算

在各种任务中,注意力机制(Attention mechanisms)已经成为引人注目的序列建模(sequence mod-eling)和转换模型(transduction models)的组成部分,允许对依赖关系建模(modeling of dependenc-ies),而不考虑它们在输入或输出序列中的距离。然而,除了少数研究外,所有这些注意机制都与循环网络结合使用。

第三段涉及:

(1) 允许对依赖关系建模(modeling of depe-ndencies),而不考虑它们在输入或输出序列中的距离。

依赖关系即输入序列各个部分间相关性,也是一个缺点,没有考虑位置的关系,需要其他方式进行优化。

在这项研究中, 我们提出了Transformer,这是一种避免循环的模型架构,完全依赖注意力机制来构建输入和输出的全局依赖关系。Transformer允许明显更多的并行化,并且在8个P100GPUs上经过12个小时的训练后,可以在翻译质量上达到一个新的水平。


3.背景

减少序列运算的目标也构成了Extended Neural GPU、ByteNet和ConvS2S的基础,所有这些都使用卷积神经网络作为基本构建块(basic building block),并行计算所有输入和输出位置的隐藏表示(hidd-en representations)。在这些模型中,将来自两个任意输入或输出位置的信号关联起来所需的操作数随着位置之间的距离而增长,对于ConvS2S是线性增长,对于ByteNet是对数增长。这使得学习距离较远的位置之间的依赖关系变得更加困难。在Transformer中,这被简化为一个恒定数量的操作,尽管是以平均注意力加权位置降低有效分辨率为代价的,我们在3.2节中使用多头注意力(Multi-Head Attention)来抵消这种影响。

第一段涉及:

(1) Extended Neural GPU

(2) ByteNet

(3) ConvS2S

自注意(Self-attention),有时也被称为内注意(intra-attention),是一种将单个序列的不同位置联系起来的注意机制,以计算序列的表示。自注意已成功地应用于阅读理解(reading comprehen-sion)、摘要总结(abstractive summa-rization)、文本蕴涵(textual entailment)和与学习任务无关的句子表征(learning task-independent sentence representations)等多种任务中。

第二段涉及:

(1) 自注意

端到端记忆网络(End-to-end memory networks)是基于循环注意机制(recurrent attention mecha-nism)而不是基于序列对齐,已被证明在简单语言问答和语言建模任务中表现良好。

第三段涉及:

(1) 端到端记忆网络

(2) 基于循环注意机制

(3) 基于序列对齐循环注意机制

然而,据我们所知,Transformer是第一个完全依靠自注意(self-attention)来计算其输入和输出表示的转换模型,而不使用序列对齐的RNN或卷积。接下来的章节中,我们将描述Transformer,激发自注意(motivate self-attention),讨论其相对于目前一些模型的优势。


4.参考文献

[1] Vaswani, A. , Shazeer, N. , Parmar, N. , Uszkoreit, J. , Jones, L. , & Gomez, A. N. , et al. (2017). Attention is all you need. arXiv.


*仅用于学习记录,文章内涉及的部分后续慢慢补充啦~

1.Transformer-Attention is all your need论文详读-PartⅠ(摘要、引言、背景)相关推荐

  1. Spark 3.2.0 版本新特性 push-based shuffle 论文详解(二)背景和动机

    前言 本文隶属于专栏<大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据技术体系 目录 Spark 3.2.0 ...

  2. TENER: Adapting Transformer Encoder for Named Entity Recognition 论文详解

    论文地址 https://arxiv.org/pdf/1911.04474.pdf 算法介绍 NER 是一个根据输入的句子,预测出其标注序列(实体的序列)的过程 对于模型来说,一般来说有这么几个组成部 ...

  3. Motion Guided Attention for Video Salient Object Detection论文详读

    abstract 视频显著目标检测的主要目的是检测出视频中视觉上最突出.最独特的目标,现有的方法没有获取和使用视频中的运动线索,或忽略了光流图像中的空间上下文. 本文的方法使用两个子网络分别实现两个子 ...

  4. 【文本匹配】之 经典ESIM论文详读

    ESIM 2017年的论文,在SNLI的排行榜仍榜上有名. 600D ESIM + 300D Syntactic TreeLSTM - 88.6 主要的组成如下图:input encoding, lo ...

  5. 论文详读:Beyond Brightening Low-light Images (Kind++)

    文章地址:Beyond Brightening Low-light Images (tju.edu.cn) github:GitHub - zhangyhuaee/KinD_plus: Beyond ...

  6. 论文详读:LEMNA: Explaining Deep Learning based Security Applications

    我以我ppt的内容顺序介绍一下这篇论文,希望有错误的地方大家可以帮我指出嘻嘻 1.论文出处 论文名:LEMNA: Explaining Deep Learning based Security App ...

  7. Fast R-CNN 论文详读

    刚刚才开始研读R-CNN系列的论文,如果理解有偏差,还请多多指教! Fast R-CNN Abstract This paper proposes a Fast Region-based Convol ...

  8. Semi-Supervised Video Salient Object Detection Using Pseudo-Labels 论文详读

    Semi-Supervised Video Salient Object Detection Using Pseudo-Labels --使用伪标签的半监督式的重要目标(显著目标)检测. abstra ...

  9. 【论文泛读88】复杂背景下红外小目标检测技术研究

    贴一下汇总贴:论文阅读记录 论文链接:<The research on infrared small-target detection technology under complex back ...

最新文章

  1. 华昊中天获国投创业等机构数亿元投资,专注抗肿瘤小分子化学药物研发...
  2. MVC4做网站后台:栏目管理1、添加栏目
  3. 1024程序员节获奖通知
  4. java工程师应该学习的知识点
  5. Caused by: java
  6. QQ 邮箱漂流瓶将下线;华为美国公司起诉美商务部;Ubuntu 不会放弃 32 位应用程序支持 | 极客头条...
  7. IBM 确认裁员约 1700 人;华为新款操作系统来了!开通 5G 服务不换卡不换号 | 极客头条...
  8. ZOJ 2527题解
  9. 003自动装配歧义性解决
  10. C标准中的转义字符以及ASC码表
  11. 使用phpStudy搭建74cms(详)
  12. 浅谈月薪3万 iOS程序员 的职业规划与成长!(进阶篇)
  13. An invalid domain [.xx.com] was specified for this cookie 异常记录
  14. 深夜碎碎念,肿瘤NGS基因检测的寒冬
  15. web基础知识回顾(一)
  16. 华为荣耀屏鸿蒙,荣耀智慧屏:华为鸿蒙迈出的第一步
  17. 文本相似度的那些算法
  18. 基于JAVAHTML5运河古城网站计算机毕业设计源码+数据库+lw文档+系统+部署
  19. python machine learning_Python Machine Learning
  20. PR LUT预设 25个漂亮的Instagram风格抖音视频调色预设

热门文章

  1. 时间单位:s cs ms us ns ps fs as zs js ys 普朗克
  2. 根据不同的厂商,分析师和IT用户对云计算的看法,云计算应该这样细分
  3. 有语音的计算机玩法,哈哈!刚出来的新玩法:喊一嗓子就能让电脑关机
  4. python可视化库matplotlib_Python可视化库matplotlib(基础整理)
  5. 电脑双屏显示变单屏后部分程序无法在当前屏幕显示的问题
  6. 如何创建数仓指标体系?指标建模的基础理论
  7. Spark的RDD的弹性体现在什么地方?------面试题
  8. 朋友圈的权限研究、最后有个实现朋友圈的实现的推测(全网最全)
  9. Java项目安全问题及解决方案
  10. oracle查询元数据,Oracle Spatial-元数据及SDO_GEOMETRY