深度学习中的 Attention机制

注意力机制即 Attention
mechanism在序列学习任务上具有巨大的提升作用，在编解码器框架内，通过在编码段加入Attention模型，对源数据序列进行数据加权变换，或者在解码端引入Attention
模型，对目标数据进行加权变化，可以有效提高序列对序列的自然方式下的系统表现。

Attention：

Attention模型的基本表述可以这样理解成：
当我们人在看一样东西的时候，我们当前时刻关注的一定是我们当前正在看的这样东西的某一地方，换句话说，当我们目光移到别处时，注意力随着目光的移动也在转移。
这意味着，当人们注意到某个目标或某个场景时，该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。

这一点在如下情形下同样成立：当我们试图描述一件事情，我们当前时刻说到的单词和句子和正在描述的该事情的对应某个片段最先关，而其他部分随着描述的进行，相关性也在不断地改变。

从上面两种情形来看，对于 Attention的作用角度出发，我们就可以从两个角度来分类 Attention种类：
空间注意力 Spatial Attention
时间注意力 Temporal Attention
这样的分类更多的是从应用层面上，而从 Attention的作用方法上，可以将其分为 Soft Attention 和 Hard
Attention，这既我们所说的， Attention输出的向量分布是一种one-hot的独热分布还是soft的软分布，这直接影响对于上下文信息的选择作用。

为什么要加入Attention：

* 当输入序列非常长时，模型难以学到合理的向量表示
*
序列输入时，随着序列的不断增长，原始根据时间步的方式的表现越来越差，这是由于原始的这种时间步模型设计的结构有缺陷，即所有的上下文输入信息都被限制到固定长度，整个模型的能力都同样收到限制，我们暂且把这种原始的模型称为简单的编解码器模型。
* 编解码器的结构无法解释，也就导致了其无法设计。
长输入序列带来的问题：

使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入序列进行学习，编码为固定长度的向量表示；然后再用一些LSTM单元来读取这种向量表示并解码为输出序列。
采用这种结构的模型在许多比较难的序列预测问题（如文本翻译）上都取得了最好的结果，因此迅速成为了目前的主流方法。
这种结构在很多其他的领域上也取得了不错的结果。然而，它存在一个问题在于：
输入序列不论长短都会被编码成一个固定长度的向量表示，而解码则受限于该固定长度的向量表示。

这个问题限制了模型的性能，尤其是当输入序列比较长时，模型的性能会变得很差（在文本翻译任务上表现为待翻译的原始文本长度过长时翻译质量较差）。

“一个潜在的问题是，采用编码器-解码器结构的神经网络模型需要将输入序列中的必要信息表示为一个固定长度的向量，而当输入序列很长时则难以保留全部的必要信息（因为太多），尤其是当输入序列的长度比训练数据集中的更长时。”

— Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to
align and translate, 2015 <https://arxiv.org/abs/1409.0473>

使用Attention机制

Attention机制的基本思想是：打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。
Attention机制的实现是
通过保留LSTM编码器对输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。

换一个角度而言，输出序列中的每一项的生成概率取决于在输入序列中选择了哪些项。

Attention-based Model
其实就是一个相似性的度量，当前的输入与目标状态约相似，那么在当前的输入的权重就会越大。就是在原有的model上加入了Attention的思想。

没有attention机制的encoder-decoder结构通常把encoder的最后一个状态作为decoder的输入（可能作为初始化，也可能作为每一时刻的输入），但是encoder的state毕竟是有限的，存储不了太多的信息，对于decoder过程，每一个步骤都和之前的输入都没有关系了，只与这个传入的state有关。attention机制的引入之后，decoder根据时刻的不同，让每一时刻的输入都有所不同。

参考博客浅谈Attention-based Model【原理篇】
<https://blog.csdn.net/wuzqchom/article/details/75792501>，对Attention的公式梳理一下。

使用机器翻译为例，我们翻译“机器学习”,在翻译“machine”的时候，我们希望模型更加关注的是“机器”而不是“学习”。

Attention其实就是一个当前的输入与输出的匹配度。
（h1h1为当前时刻RNN的隐层输出向量，而不是原始输入的词向量，z0z0初始化向量，如rnn中的initial memory）
match为计算这两个向量的匹配度的模块，出来的α10α01即为由match算出来的相似度。
所以，match是啥？

对于“match”, 理论上任何可以计算两个向量的相似度都可以，比如：

* 余弦相似度
* 一个简单的神经网络，输入为hh和ww，输出为αα
* 或者矩阵变换α=hTWzα=hTWz (Multiplicative attention，Luong et al., 2015)
现在已经由match模块算出了当前输入输出的匹配度，然后我们需要计算当前的输出和
每一个输入做一次match计算，分别可以得到当前的输出和所有输入的匹配度，由于计算出来并没有归一化，所以我们使用softmax，使其输出时所有权重之和为1。那么和每一个输入的权重都有了，那么我们可以计算出其加权向量和，作为下一次的输入。

算出C0C0之后，把这个向量作为 RNN 的输入。然后第一个时间点的输出的编码z1z1由c0c0和初始状态z0z0共同决定。我们计算得到z1z1
之后，替换之前的z0z0再和每一个输入的encoder的vector计算匹配度，然后softmax，计算向量加权，作为第二时刻的输入……如此循环直至结束。

再看看 Grammar as a Foreign Language <https://arxiv.org/abs/1412.7449> 一文当中的公式：

上面的符号表示和前面描述的不太一样，经统一符号的公式如下：

* uti=vTtanh(W1hi+W2Zt)uit=vTtanh(W1hi+W2Zt)
* αti=softmax(uti)αit=softmax(uit)
* ct=∑iαithict=∑iαtihi
得到ctct之后，就可以作为第t时刻RNN的input，而ZtZt可以作为tt时刻RNN的隐状态的输入，这样就能够得到新的隐状态Zt+1Zt+1
，如此循环，直到遇到停止符为止。

一些例子：

“在文本翻译任务上，使用attention机制的模型每生成一个词时都会在输入序列中找出一个与之最相关的词集合。之后模型根据当前的上下文向量
(context vectors) 和所有之前生成出的词来预测下一个目标词。

…

它将输入序列转化为一堆向量的序列并自适应地从中选择一个子集来解码出目标翻译文本。这感觉上像是用于文本翻译的神经网络模型需要“压缩”输入文本中的所有信息为一个固定长度的向量，不论输入文本的长短。”

— Dzmitry Bahdanau, et al., Neural machine translation by jointly
learning to align and translate,
2015 <https://arxiv.org/abs/1409.0473>

虽然模型使用attention机制之后会增加计算量，但是性能水平能够得到提升。另外，使用attention机制便于理解在模型输出过程中
输入序列中的信息是如何影响最后生成序列的。这有助于我们更好地理解模型的内部运作机制以及对一些特定的输入-输出进行debug。

大型图片带来的问题：

被广泛应用于计算机视觉领域的卷积神经网络模型同样存在类似的问题：对于特别大的图片输入，模型学习起来比较困难。
由此，一种启发式的方法是将在模型做预测之前先对大型图片进行某种近似的表示。

“人类的感知有一个重要的特性是不会立即处理外界的全部输入，相反的，人类会将注意力专注于所选择的部分来得到所需要的信息，然后结合不同时间段的局部信息来建立一个内部的场景表示，从而引导眼球的移动及做出决策。”
— Recurrent Models of Visual Attention,
2014 <https://arxiv.org/abs/1406.6247>

这种启发式方法某种程度上也可以认为是考虑了attention，但在这篇博文中，这种方法并不认为是基于attention机制的。

基于attention机制的相关论文如下：

Recurrent Models of Visual Attention, 2014
DRAW: A Recurrent Neural Network For Image Generation, 2014
Multiple Object Recognition with Visual Attention, 2014

正如博客 Deep Learning基础–理解LSTM/RNN中的Attention机制
<https://www.cnblogs.com/shixiangwan/p/7573589.html>
提及基于attention模型的应用实例：列举几个具体的应用实例，介绍attention机制是如何用在LSTM/RNN模型来进行序列预测的。

* Attention在文本翻译任务上的应用
给定一个法语的句子作为输入序列，需要输出翻译为英语的句子。Attention机制被用在输出输出序列中的每个词时会专注考虑输入序列中的一些被认为比较重要的词。
* Attention在图片描述上的应用

与之前启发式方法不同的是，基于序列生成的attention机制可以应用在计算机视觉相关的任务上，帮助卷积神经网络重点关注图片的一些局部信息来生成相应的序列，典型的任务就是对一张图片进行文本描述。
给定一张图片作为输入，输出对应的英文文本描述。Attention机制被用在输出输出序列的每个词时会专注考虑图片中不同的局部信息。
* Attention在语义蕴涵 (Entailment) 中的应用
给定一个用英文描述的前提和假设作为输入，输出假设与前提是否矛盾、是否相关或者是否成立。
Attention机制被用于关联假设和前提描述文本之间词与词的关系。
Reasoning about Entailment with Neural Attention,
2016：在模型中加入了attention机制来找出假设和前提文本中词/短语之间的对齐关系。
* Attention在语音识别上的应用
给定一个英文的语音片段作为输入，输出对应的音素序列。
Attention机制被用于对输出序列的每个音素和输入语音序列中一些特定帧进行关联。
* Attention在文本摘要上的应用
给定一篇英文文章作为输入序列，输出一个对应的摘要序列。
Attention机制被用于关联输出摘要中的每个词和输入中的一些特定词。
…
在最近神经网络翻译模型的发展基础之上，提出了一个用于生成摘要任务的基于attention的神经网络模型。通过将这个概率模型与一个生成式方法相结合来生成出准确的摘要。

— A Neural Attention Model for Abstractive Sentence Summarization, 2015
<https://arxiv.org/abs/1509.00685>

具体而言，采用传统编码器-解码器结构的LSTM/RNN模型存在一个问题：不论输入长短都将其编码成一个固定长度的向量表示，这使模型对于长输入序列的学习效果很差（解码效果很差）。而attention机制则克服了上述问题，原理是在模型输出时会选择性地专注考虑输入中的对应相关的信息。使用attention机制的方法被广泛应用在各种序列预测任务上，包括文本翻译、语音识别等。

感谢作者：蓝鲸王子 <http://www.cnblogs.com/shixiangwan/> 博客 Deep
Learning基础–理解LSTM/RNN中的Attention机制
<https://www.cnblogs.com/shixiangwan/p/7573589.html>
感谢作者：Jason Brownlee <https://machinelearningmastery.com/author/jasonb/>
。原文链接见：Attention in Long Short-Term Memory Recurrent Neural Networks
<https://machinelearningmastery.com/attention-long-short-term-memory-recurrent-neural-networks/>
感谢作者：joshuaxx316 <http://blog.csdn.net/joshuaxx316> 博客：Attention注意力机制–原理与应用
<http://blog.csdn.net/joshuaxx316/article/details/70665388>
感谢作者：wuzqchom <https://blog.csdn.net/wuzqchom> 博客：浅谈Attention-based
Model【原理篇】 <https://blog.csdn.net/wuzqchom/article/details/75792501>

热门工具换一换

深度学习中 的 Attention机制