解读北大提出的期望最大化注意力网络EMANet

时间:2019-08-21 20:07:13 阅读：2158+ 作者：责任编辑NO。谢兰花0258

机器之心专栏

作者：李夏

ICCV 2019 将在10月27于韩国首尔举办，本文作者介绍了一篇Oral论文，它运用EM 算法优化留意力机制，并在语义切割等使命上取得更好的作用。

本文介绍笔者被 ICCV 2019 承受为 Oral 的论文 Expectation-Maximization Attention Networks for Semantic Segmentation[1]。论文作者为：李夏、钟之声、吴建龙、杨一博、林宙辰、刘宏。

布景介绍

语义切割是核算机视觉范畴的一项根底使命，它的方针是为每个像素猜测类别标签。由于类别多样冗杂，且类间表征相似度大，语义切割要求模型具有强壮的区别才能。近年来，依据全卷积网络（FCN[2]）的一系列研讨，在该使命上取得了杰出的作用。

这些语义切割网络，由主干网络和语义切割头组成。全卷积网络受制于较小的有用感知域，无法充沛捕获长距离信息。为补偿这一缺点，许多作业提出提出了高效的多规范上下文交融模块，例如大局池化层、Deeplab[3] 的空泛空间卷积池化金字塔、PSPNet[4] 的金字塔池化模块等。

近年来，自留意力机制在自然语言处理范畴取得杰出作用。Nonlocal[5] 被提出后，在核算机视觉范畴也受到了广泛的重视，并被一系列文章证明了在语义切割中的有用性。它使得每个像素能够充沛捕获大局信息。但是，自留意力机制需求生成一个巨大的留意力求，其空间复杂度和时刻复杂度巨大。其瓶颈在于，每一个像素的留意力求都需求对全图核算。

本文所提出的希望最大化留意力机制（EMA），摒弃了在全图上核算留意力求的流程，转而经过希望最大化（EM）算法迭代出一组紧凑的基，在这组基上运转留意力机制，然后大大下降了复杂度。其间，E 步更新留意力求，M 步更新这组基。E、M 替换履行，收敛之后用来重建特征图。本文把这一机制嵌入网络中，构造出轻量且易完成的 EMA Unit。其作为语义切割头，在多个数据集上取得了较高的精度。

希望最大化留意力

条件常识

希望最大化算法

希望最大化（EM）算法旨在为隐变量模型寻觅最大似然解。关于观测数据 X=，每一个数据点 x_i 都对应隐变量 z_i。咱们把称为完好数据，其似然函数为 ln p(X, Z|θ)，θ 是模型的参数。

E 步依据当时参数θ^old 核算隐变量 Z 的后验散布，并以之寻觅完好数据的似然 Q(θ, θ^old)：

M 步经过最大化似然函数来更新参数得到θ^new：

EM 算法被证明会收敛到部分最大值处，且迭代进程完好数据似然值单调递加。

高斯混合模型（GMM）是 EM 算法的一个典范，它把数据用多个高斯散布拟合。其 θ_k 即为第 k 个高斯散布的参数μ_k, Σ_k，隐变量 z_nk 为第 k 个高斯散布对第 n 数据点的「职责」。E 步更新「职责」，M 步更新高斯参数。在实践运用中，Σ_k 经常被简化为 I。

非部分网络

非部分网络（Nonlocal[5]）首先将自留意力机制运用在核算机视觉使命中。其间心算子是：

其间 f(., .) 表明广义的核函数，C(x) 是归一化系数。它将第 i 个像素的特征 x_i 更新为其他一切像素特征经过 g 改换之后的加权均匀 y_i，权重经过归一化后的核函数核算，表征两个像素之间的相关度。这儿 1

希望最大化留意力机制

希望最大化留意力机制由 A_E, A_M, A_R 三部分组成，前两者别离对应 EM 算法的 E 步和 M 步。假定输入的特征图为，基初始值为，A_E 估量隐变量，即每个基对像素的权责。具体地，第 k 个基对第 n 个像素的权责能够核算为：

在这儿，内核 K(a, b) 能够有多种挑选。咱们挑选的办法。在完成中，能够用如下的办法完成：

其间，λ 作为超参数来操控 Z 的散布。

A_M 步更新基 μ。为了确保μ和 X 处在同一表征空间内，此处μ被核算作 X 的加权均匀。具体地，第 k 个基被更新为：

值得留意的是，假如λ趋向于无量，则公式 (5) 中，会变成一组 one-hot 编码。在这种景象下，每个像素仅由一个基担任，而基被更新为其所担任的像素的均值，这便是规范的 K-means 算法。

A_E 和 A_M 替换履行 T 步。尔后，近似收敛的μ和 Z 便能够被用来对 X 进行重估量得 X tilde：

X tilde 比较于 X，具有低秩的特性。从下图中可看出，其在坚持类间差异的一起，类别内部差异得到缩小。从图画视点来看，起到了相似保边滤波的作用。

综上，EMA 在取得低秩重构特性的一起，将复杂度从 Nonlocal 的 O(N^2) 下降至 O(NKT)。试验中，EMA 仅需 3 步就可到达近似收敛，因而 T 作为一个小常数，能够被省去。至此，EMA 复杂度仅为 O(NK)。考虑到 k 远小于 N，其复杂度得到明显的下降。

希望最大化留意力模块

EMA Unit

希望最大化留意力模块（EMAU）的结构如上图所示。除了中心的 EMA 之外，两个 1×1 卷积别离放置于 EMA 前后。前者将输入的值域从 R+映射到 R；后者将 X tilde 映射到 X 的残差空间。包括进两个卷积的额定负荷，EMAU 的 FLOPs 仅相当于相同输入输出大小时 3×3 卷积的 1/3，参数量仅为 2C^2+KC。

关于 EM 算法而言，参数的初始化会影响到终究收敛时的作用。上一节中评论了 EMA 如安在单张图画的特征图上进行迭代运算。而关于深度网络练习进程中的很多图片，在逐一批次练习的一起，EM 参数的迭代初值理应得到不断优化。本文中，迭代初值的保护参阅 BN 中 running_mean 和 running_std 的滑动均匀更新办法，即：

其间，α∈[0,1] 表明动量；表明在一个 mini-batch 上的均匀。

此外，EMA 的迭代进程能够打开为一个 RNN，其反向传达也会面对梯度爆破或消失等问题。此外，公式 (8) 也要求和的差异不宜过大，否则初值的更新也会呈现不稳定。RNN 中采纳 LayerNorm（LN）来进行归一化是一个合理的挑选。但在 EMA 中，LN 会改动基的方向，从而影响其语义。由于，本文挑选 L2Norm 来对基进行归一化。这样，的更新轨道便处在一个高维球面上。

此处，咱们能够考虑下 EMA 和 A2Net[6] 的相关。A2Net 的中心算子如下：

其间 θ, φ, ρ 代表三个 1×1 卷积，它们的参数别离为 W_θ、W_φ和 W_ρ。假如咱们将θ和φ的参数同享，并将 W_θ和 W_φ记作 μ。那么，softmax(θ(X, W_θ)) 和公式 (5) 无异；而 [.] 内则在更新 μ，即相当于 A_E 和 A_M 迭代一次。因而，A2-Block 能够看作 EMAU 的特别比如，它只迭代一次 EM，且 μ 由反向传达来更新。而 EMAU 迭代 T 步，用滑动均匀来更新 μ。

试验

首先是在 PASCOL VOC 上的融化试验。这儿比照了不同的 μ 更新办法和归一化办法的影响。

能够清楚地看到，EMA 运用滑动均值（Moving average）和 L2Norm 最为有用。作为比照，Nonlocal 和 A2Net 的模块作为语义切割头，在相同设置下别离到达 77.78% 和 77.34% 的分数，而 EMANet 仅迭代一次时分数为 77.34%，三者无明显差异，契合上文对 Nonlocal 和 A2Net 的剖析和比照。接下来是不同练习和测验中迭代次数 T 的比照试验。

能够发现，EMA 仅需三步即可近似收敛（精度不再增益）。而跟着练习时迭代次数的持续增加，精度有所下降，这是由 EMA 的 RNN 特性引起的。

接下来，是 EMANet 和 DeeplabV3[3]、DeeplabV3+[7] 和 PSANet[8] 的具体比照。

能够发现，EMANet 不管在精度仍是在核算价值上，都明显高于表中几个经典算法。

在 VOC test server 上，EMANet 在一切运用 ResNet-101 的算法中，取得了最高的分数。此外，在 PASCAL Context 和 COCO stuff 数据集上也体现杰出。

最终是学习到的留意力求的可视化。如下图，I,j,k,l 表明四个随机挑选的基的下标。右边四列绘出的是它们各自对应的留意力求。能够看到，不同的基会收敛到一些特定的语义概念。

参阅

[1]Li, Xia, Zhong, Zhisheng, et al. " Expectation Maximization Attention Networks for Semantic Segmentation." Proceedings of the IEEE conference on computer vision. 2019.

[2]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[3]Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[4]Zhao, Hengshuang, et al. "Pyramid scene parsing network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[5]Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[6]Chen, Yunpeng, et al. "A^ 2-Nets: Double Attention Networks." Advances in Neural Information Processing Systems. 2018.

[7]Chen, Liang-Chieh, et al. "Encoder-decoder with atrous separable convolution for semantic image segmentation." Proceedings of the European conference on computer vision (ECCV). 2018.

[8]Zhao, Hengshuang, et al. "Psanet: Point-wise spatial attention network for scene parsing." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

本文为机器之心专栏，转载请联络来源作者取得授权。

------------------------------------------------

上一篇：潜在威胁直径650米小行星越来越近了专家称担心没有必

下一篇：宠物离世之后我们该怎么办有人试着复活它们并且已经获

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！