大家好,我是皇子
Transformer 模型架构论文《Attention Is All You Need》发表在 NeurIPS 会议上,同时受到论文模板的影响,论文篇幅极致压缩为 8 页的精华,所以我接下来打算分为几部分来讲清,论文地址放在底部链接。
讲清 Transformer 模型架构论文历史文章请看:
NeurIPS,全称是Conference on Neural Information Processing Systems,中文名为神经信息处理系统大会。这是全球范围内最大、最重要的人工智能和机器学习领域的学术会议之一。会议每年举办一次,吸引了全球范围内的研究者提交他们在人工智能、机器学习、深度学习、神经网络等领域的最新研究成果。会议的形式包括主题演讲、研讨会、论文发表等。是人工智能和机器学习领域的重要风向标,很多重要的研究成果和新的研究方向都会在这个会议上首次公开。
快速了解
Transformer 模型架构(简称:Transformer 模型)在人工智能领域,特别是在自然语言处理(NLP)领域,起到了革命性的作用。
1、自注意力机制:Transformer模型引入了多头自注意力(Multi-Self Attention)机制,这使得模型能够处理长距离的依赖关系和多通道输出的问题,即模型可以更好地理解句子中的各个部分如何相互关联。这对于理解和生成自然语言非常重要。
2、并行计算:与传统的循环神经网络(RNN)相比,Transformer模型的另一个优点是它可以进行并行计算。因为在Transformer模型中,所有的词都是同时处理的,而不是像在RNN中那样一个接一个地处理。这使得Transformer模型在处理大量数据时更加高效。
3、预训练模型:基于Transformer的预训练模型,如BERT、GPT-2、GPT-3等,已经在各种NLP任务中取得了最先进的结果。这些模型首先在大量的文本数据上进行预训练,学习语言的一般特性,然后在特定任务上进行微调。这种方法已经成为NLP领域的标准做法。
背景
一图顶千言

卷积代替循环神经网络的工作及新问题
减少顺序计算的目标也构成了扩展神经GPU、ByteNet和ConvS2S的基础,所有这些都使用卷积神经网络作为基本构建块,并行计算所有输入和输出位置的隐藏表示。在这些模型中,将来自两个任意输入或输出位置的信号关联起来所需的操作数量随着位置之间的距离而增加,对于ConvS2S是线性的,对于ByteNet是对数的。这使得学习远距离位置之间的依赖关系变得更加困难。在Transformer中,这被归结为恒定数量的操作,尽管是以平均注意力加权位置导致的有效分辨率降低为代价的,正如第3.2节中所述,我们用多头注意力来抵消这种影响。
ps: 首先他第一段提出的是:在GPU、ByteNet和ConvS2S的工作中,如何使用卷积神经网络来替换掉循环神经网络的,使得可以减少时序的计算,同时也指出使用卷积神经网络在学习远距离位置之间的依赖关系(在长序列中建模)是很困难的一个问题。
这是因为卷积在计算的时候,每次他去看一个一个比较小的窗口,比如看一个 33 的一个像素块,如果两个像素隔得比较远的话,就得需要用很多层卷积,才能够一层一层上去才能够把这两个隔得比较远的像素给融合起来。
论文指出如果使用 Transformer 里面的注意力机制的话,每一次我能看到所有的像素,一层就能够把所有的序列给看到,相对来说就没有这个问题,但是他有提到说卷积他的一个比较好的地方是说它可以做多个输出通道,一个输出通道可以认为是他可以去识别不一样的模式。所以论文作者也想要这样子的多输出通道的效果,所以提出了一个叫做 Multi-Header Attention(多头注意力机制),达到可以模拟卷积神经网络多输出通道的效果
自注意力机制的历史工作
自注意力机制有时称为内部注意力是一种将单个序列的不同位置联系起来以计算序列的表示的注意力机制。自注意力机制已成功地用于各种任务,包括阅读理解、抽象摘要、语篇隐含和学习任务无关的句子表征。
ps: 讲的是自注意力机制,这其实是 Transformer 的一个关键点,但是他也指出来自注意力机制之前已经有人提出来并用作于阅读理解、抽象摘要、语篇隐含和学习任务无关的句子表征的工作上了,并不是 Transformer 模型的创新。
端到端记忆网络
端到端记忆网络也是基于自注意力机制,而不是序列对齐递归,并且已被证明在简单的语言问答和语言建模任务中表现良好
ps: 端到端记忆网络也是 2017 的一个研究重点, 端到端记忆网络也是基于自注意力机制
第一个完全依靠自注意力机制模型:Transformer
据作者在 2017 年所知,Transformer 是第一个完全依靠自注意力机制来计算其输入和输出表示的转导模型,而不使用序列对齐的 RNN(循环神经网络)和 CNN(卷积神经网络)
论文地址:
https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
“关注我,一起成长”
有启发,点个赞或在看再走呀




