暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
Attention Is All You Need 中文翻译.pdf
4421
11页
200次
2023-01-07
免费下载
________________________________________________________________________________________________________________________________
Attention Is All You Need
________________________________________________
Ashish Vaswani
Google Brain
avaswani@google.com
Noam Shazeer*
Google Brain
noam@google.com
Niki Parmar*
Google Research
nikip@google.com
Jakob Uszkoreit*
Google Research
usz@google.com
Llion Jones*
Google Research
llion@google.com
Aidan N. Gomez*
University of Toronto
aidan@cs.toronto.edu
Łukasz Kaiser*
Google Brain
lukaszkaiser@google.com
Illia Polosukhin*
illia.polosukhin@gmail.com
第31届神经网络信息处理系统会议(NIPS 2017),美国加州长滩市。
摘要
主流序列转导模型基于复杂的循环神经网络或卷积神经网络,这些神经网络包含一个编码
和一个解码器。 性能最好的模型还通过attention机制将编码器和解码器连接起来。们提
出一种新的简单的网络架构Transformer,仅基于attention机制并完全避免循环和卷积。 对
两个机器翻译任务的实验表明,这些模型在质量上更加优越、并行性更好并且需要的训练
间显著减少。们的型在WMT 2014英-德翻译务上到28.4 BLEU,超过现
佳结果(包括整合模型)2个BLEU。 在WMT 2014英语-法语翻译任务中,我们的模型建立
了单型新先进BLEU分41.8,8个GPU上训了3.5,这间只目前
献中记载的最好的模型训练成本的一小部分。 通过在解析大量训练数据和有限训练数据的
情况English constituencyTransformer可以广其他
任务。
1 简介
在序列建模和转换问题中,如语言建模和机器翻译[35, 2, 5],循环神经网络特别是长短期记忆[13]和门控循
环[7]神经网络,已经被确立为最先进的方法。 自那以后,许多努力一直在推动循环语言模型和编码器-解码
器架构的界限[38, 24, 15]。
循环模型通常是对输入和输出序列的符号位置进行因子计算。 通过在计算期间将位置与步骤对齐,它们
据前一步的隐藏状态
-1
和输入产生位置 的隐藏状态序列 。这种固有的顺序特性阻碍样本训练的并行化,
这在更长的序列长度上变得至关重要,因为有限的内存限制样本的批次大小。 最近的工作通过巧妙的因
分解[21]和条件计算[32]在计算效率方面取得重大进展,后者还同时提高了模型性能。 然而,顺序计算的基
本约束依然存在。
在各种任务中,attention机制已经成为序列建模和转导模型不可或缺的一部分,它可以建模依赖关系而不
输出[2, 19][27]attention使
用。
在这项工中我们提出Transformer这种模型架构免循环并完全赖于attention机制来制输入和
出之间的全局依赖关系。 Transformer允许进行更多的并行化,并且可以在八个P100 GPU上接受少至十二
小时的训练后达到翻译质量的新的最佳结果。
2 背景
减少顺序计算的目标也构成扩展的神经网络GPU [16]、ByteNet [18]和ConvS2S [9]的基础,它们都使用卷
积神经网络作为基本构建模块、并行计算所有输入和输出位置的隐藏表示。 在这些模型中,关联任意两
输入输出位置信号需的操作数会着位置之的距而增加,ConvS2S是线增加,而ByteNet
是对数增加。 这使得学习远距离位置之间的依赖关系变得更加困难[12]。 在Transformer中操作
attention使Multi-Head
Attention进行抵消,具体描述见 3.2
Self-attention,有时称为intra-attention,是一种attention机制,它关联单个序列的不同位置以计算序列
的表示。 Self-attention已成功用于各种任务,包括阅读理解、摘要概括、文本蕴涵和学习与任务无关的句
子表征[4, 27, 28, 22]。
端到端的内存网络基于循环attention机制,而不是序列对齐的循环,并且已被证明在简单语言的问题回答
和语言建模任务中表现良好[34]。
然而,就我们所知,Transformer是第一个完全依靠self-attention来计算输入和输出表示而使用序列
齐RNN或卷积的转导模型。 在下面的章节中,我们将描述Transformer、引出self-attention并讨论它相对
[17, 18]和[9]几个模型的优势。
3 模型架构
图1: Transformer — 模型架构。
大部分神经序列转导模型都有一个编码器-解码器结构[5, 2, 35]。 这里,编码器映射一个用符号表示的输
序列(
1
) 到一个连续的表示z = (
1
)。 根据z,解码器生成符号的一个输出序列(
1
) ,一次一
个元素。 在每一步中,模型都是自回归的[10],当生成下一个时,消耗先前生成的符号作为附加输入。
Transformer使self-attentionpoint-wise
层,分别显示在图1的左边和右边。
3.1 编码器和解码器堆栈
码器器由 = 6 个multi-head
self-attention机制,第二层是一个简单的、位置完全连接的前馈网络。 我们对每个子层再采用一个残差连
[11] [1] LayerNorm( + Sublayer( ))
Sublayer( ) 是由子层本身实现的函数。 为了方便这些残差连接,模型中的所有子层以及嵌入层产生的输
维度都为 model = 512。
解码器: 解码器同样由 = 6 个完全相同的层堆叠而成。 除了每个编码器层中的两个子层之外,解码器还
插入第三个子层,层对编码器堆栈的输出行multi-head attention。 与编码器类似,我们在每个子层
再采用残差连接,然后进行层标准化。 我们还修改解码器堆栈中的self-attention子层,以防止位置关注到
后面的位置。 这种掩码结合将输出嵌入偏移一个位置,确保对位置的预测 只能依赖小于 的已知输出。
of 11
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜