守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆

空间守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆注意力(Spatial Attention)机制最近在深度神经网络中取得了很大的成功和广泛的运用,可是对空间注意力机制自身的了解和剖析匮乏。

摘要:空间注意力(Spatial Attention)机制最守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆近在深度神经网络中取得了很大的成功和广泛的运用,可是对空间注意力机制自身的了解和剖析匮乏。本论文对空间注意力机制进行了翔实的经验性剖析,取得了更深化的了解,有些认知是跟之前的了解很不相同的,例如,作者们发现 TransformerAttention 中对 query 和 key 的内容进行比较关于空间注意力协助很小,但关于 Encoder-Decoder Attention(编码器-解码器注意力)是至关重要的。另一方面,将可变形卷积(DeformableConvolution)与和 query 无关的 key saliency 进行恰当组合能够在空间注意力中完成最佳的准确性-功率之间的权衡。本论文的研讨结果标明,空间注意力机制的规划存在很大的改善空间。

导言

图 1. 不同的注意力因子的描绘。采样点上方的色彩条标明其内容特征。当图中存在内容特征或相对方位时,标明该项将它们用于注意力权重核算。

注意力机制使神经网络能够更多地重视输入中的相关部分。自然言语处理(NLP)中最早研讨了注意力机制,并开发了 Encoder-Decoder 模块以协助神经机器翻译(NMT),当给定一个 query(例如,输出句子中的方针词),核算其输出时,会依据 query 对某些 key 元素(例如,输入句子中的源词)进行优先级排序。后来空间注意力模块被提出,用于建模句子内部的联系,此刻 query 和 key 都来自同一组元素。重温故而知你池西西傅川磅论文 Attention is All You Need 中提出了 TransformerAttention 模块,大大超越了曩昔的注意力模块。注意力建模在 NLP 中的成功,激起了其在核算机视觉领域中的运用守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆,其间 Transformer Attention 的不同变体被运用于物体检测和语义切割等辨认使命,此刻 query 和 key 是视觉元素(例如,图画中的像素或感兴趣的区域)。

在给定 query,确认分配给某个 key 的注意力权重时,一般会考虑输入的三种特征:(1)query 的内容特征,可所以图画中给定像素的特征,或句子中给定单词的特征;(2)key 的内容特征,可所以 query 邻域内像素的特征,或许句子中的另一个单词的特征;(3)query 和 key 的相对方位。域虎

依据这些输入特征,在核算某对 query-key 的注意力权重时,存在四个或许的注意力因子:(E1)query 内容特征和 key 内容特征;(E2)query 内容特征和 query-key 相对方位;(E3)仅 key 内容内容特征;(E4)仅 query-key 相对方位。在 Transformer Attention 的最新版别 Transformer-XL 中,注意力权重标明为四项(E1,E2,E3,E4)的总和,如图 1 所示。这些项依靠的特点有所差异。例如,前两个(E1,E2)对 query 内容灵敏。然后两者(E3,E4)不考虑 query 内容,E3 首要描绘显着的 key 元素,E4 首要描绘内容无关的的方位误差。虽然注意力权重506宿舍能够依据这些因子被分化,可是这些因子之间的相对重要性尚未被细心研讨。此外,比如可变形卷积和动态卷积(Dynamic Convolution)之类的盛行模块虽然看起来与 Transforme堀北真希r Attention 无关,但也选用了重视输入的某些相关部分的机制。是否能够从共同的视点看待这些模块以及它们的运行机制怎么不平等问题也未被探究过。

这项作业将 Transformer Attention,可变形卷积和动态卷积视为空间注意力的不同实例(以不同注意力机制,触及了注意力因子的不同子集)。为剖析不同注意力机制和因子的影响,本文在广义注意力方式下比照了不同的注意力机制的各种因素,该查询依据多种运用,包含神经机器翻译,语义切割和物体检测。本研讨发现:(1)在 Transformer Attention 模块中,对 query 灵敏的项,尤其是 query 和 key 内容项 E1,在 Self Attention(自注意力)中起着微守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆不足道的效果。但在 Encoder-Decoder Attention 中,query 和 key 内容项 E1 至关重要;(2)虽然可变形卷积仅运用依据 query 内容和相对方位项的注意力机制守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆,但它在图画辨认方面比在 Transformer Attention 中对应的项 E2 更有用且高效;(3)在 Self Attention 中,query 内容和相对方位项 E2 以及仅考虑 key 内容的项 E3 是最重要的。将可变形卷积与 Transformer Attention 中仅考虑 key 内容的项 E3 进行恰当组合会供给比 Transformer Attention 模块更高的精度,且在图画辨认使命上具有低得多的核算开支。

本文中的调查挑战了对当时空间注意力机制的传统了解。例如,人们遍及以为,注意力机制的成功首要归功于对 que苦瓜妹ry 灵敏的注意力项 E1 和 E2,尤其是 query 和 key 内容项 E1。这种了解或许源于最开端 Encoder-Decoder Attention 模块在神经机器翻译中的成功。事实上,在最近的一些变体,如 Non-Local 模块和 守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆Criss-Cross 模块中,仅有 query 和 key 内容项 E1 得到保存,一切其他项都被丢掉。这些模块在 Self Attention 运用中仍能很好地发挥效果,从而增强了这种了解。可是本文的研讨标明这种了解是不格林笔记正确的。本文发现这些仅具有 query 灵敏项的注意力模块实际上与那些仅具有 query 无关项的注意力模块功能适当。本文的研讨进一步标明,这种退化或许是源于注意力模块的规划,而不是 Self Attention 的固有特征,由于可变形卷积被发现在图画辨认使命中能有用且高效地运用 query 内榆次气候预报容和相对方位。

这一实证剖析标明,深度网络中空间注意力机制的规划还有很大的改善空间。本文的研讨结果在这个方向上取得了一些开始发展,期望这项研讨能够激起关于建模空间注意力大色逼中的运行机制的进一步研讨。

广义注意力方式

给定 query 元素和一组 key 元素,注意力函数依据注意力权重对 key 内容进行相应的聚合,其间注意力权重衡量了 query-key 的兼容性。为了答应模型处理来自不同特征子空间和不同方位的 key 内容,多个注意力函数的输出按照一组可学习的权重进行线性组合。令 q 索引某内容特征为 z_q 的 query 元d301次列车素,而且 k 索引具有内容特征 x_k 的 key 元素,终究输出的注意力特征 y_q 被核算为:

标明第 m 个注意力函数中的注意力权重,key 元素遍历区域_q,W_m 和 W'm 是可学习权重。一般,注意力权重在_q 内被标准化到和为 1。


在这个广义注意力方式下,Transformer Attention 与可变形卷积、动态卷积的差异在怎么核算

Transformer 中 A_m 由 E1,E2,E3,E4 四项计龙年算得到,方式为:

而可变形卷积的核算方式为(G 为双线性插值函数):


动态卷积也能够在进行细小修改后归入广义注意力方式,详见论文。

Transformer Attention 中各项因子的比照


图 2.TransformerAttention 中四项的准确性–功率权衡(守得云开见月明,微软亚研:对深度神经网络中空间注意力机制的经验性研讨,仙逆E1 对应 key 和 query 内容,E2 对应 query 内容和相对方位,E3 对应于仅考虑 key 内容,E4 对应于仅考虑相对方位)。这儿数字对应着每项是否被激活(例如,0011 标明 E3 和 E4 被激活,w/o 标明不选用 TransformerAttention)。由于 Encoder-Decoder Attention 机制关于 NMT 是必不可少的,因而(d)中没有 w/o 设置。一些装备的结果在图中堆叠,由于它们具有相同的精度和核算开支。研讨中的要害装备以赤色杰出显现。图中还画出了本文中 Self Attention 的引荐装备「“0010 +可变形卷积”」。

(1)在 Self Attention 中,与和 query 无关项比较,query 灵敏项起着很小的效果。特别是 query 和 key 内容项,该项对准确性的影响可忽略不计,而在图画辨认使命中核算量很大。总的来说,Transformer Attention 模块带来的精度进步很大(从不带 Transformer Attention 模块的装备(「“w / o”」)到运用完好版 Transformer 注意力的装备(「“1111”」))。其间,query 武当山气候无关项(从装备「“w / o”」到「“0011”」)带来的收益比 query 灵敏项(从装备「“0011”」到「“1111”」)带来的收益大得多。特别地,query 和 key 内容项 E1 带来的功能增益能够忽略不计。删去它(从装备「“1111”」到「“0111”」)只会导致精度弱小下降,但能大大削减图画辨认使命中的核算开支。

(2)在 Encoder-Decoder Attention 中,query 和 key 内容项是至关重要的。假如不必 E1 会导致精度显着下降,而仅运用装备「“1000”「供给的精度简直与完好版别(装备「“1111”」)相同。这是由于 NMT 的要害步骤是对齐源句子和方针句子中的单词。遍历 query 和 key 内容关于这种对齐是必不可少的。

(3)在 Self Attention 中,query 内容及相对方位的项 E2 和仅有 key 内容项 E3 是最重要的。相应的装备「“0110”」供给的精度十分挨近完好版(装备「“1111”」),一起在图画辨认使命中节省了很多的核算开支。大正小小先生还值得注意的是,捕获显着性信息的仅有 key 内容项 E3 能够有用地进步功能,而简直没有额定的开支。

本文的研讨结果与人们遍及认知相反,尤其是人电磁轨迹炮试射们以为 query 灵敏项,特别是 query 和 key 内容项关于 Transformer Attention 的成功至关重要。试验结果标明,这仅适用于 Encoder-Decoder Attention 场景。在 Self婆媳过招七十回 Attention 场景中,query 和 k_ey 内容项乃至能够删去。

可变形卷积和 Transformer Attention 中 E_2 的比照

图 3. 可变形卷积和 Transformer 语录Attention 中福星高照 E_2 的比照

(1)关于方针检测和语义切割,可变形卷积在准确性和功率上都大大超越 E2 项。关于 NMT,可变形卷积在准确性和功率方面与 E2 项适当。在功率方面,可变形卷积不需要遍历一切要害元素。这种优势在图画上是清楚明了王老吉多少钱一箱的,由于触及许多像素。在准确性方面,可变形卷积中的双线性插值依据特征图的部分线性假定。这种假定在图画上比在言语上更好,由于图画部分内容改变很缓慢,但言语中单词会发作忽然改变。

(2)可变形卷积与仅有 Key 内容项(「“0010 +可变形卷积”」)的组合供给了最佳的准确性 - 功率权衡。其准确性与运用可变形卷积和完好的 TransformerAttention 模块(「“1111 +可变形卷积”」)适当,核算开支略高于仅有可变形卷积的开支(「“w/o +可变形卷积”」)。

动态卷积和 Transformer Attention 中 E_2 的比照


图 4. 动态卷积和 Transformer Attention 中 E_2 的比照。二者都运用了 query 的内容信息和相对方位。在表的后四行中,E_2 的空间规模也被约束到了一个固定巨细,以进一步提醒其和动态卷积的差异。

(1)在机器翻译中,动态卷积和 Transformer At钟伟强毕夏tention 的 E_2 项功能适当,且动态卷积核算量较低。但在物体检测和语义切割中,动态卷积比 E_2 功能显着下降。

(2)在对 E_2 约束空间规模与动态卷积和卷积核共同后,跟着卷积核缩小,动态卷积和 Transformer Attention E_2被偷听的女性 的功能都有所下降,可是 E_2 仍是比动态卷积功能好且核算量更低。动态卷积在图片辨认使命上体现欠佳的或许原因是该模块的许多细节是为了机器翻译规划的,或许不适用于图画辨认使命。