admin 管理员组文章数量: 1086019
2024年3月28日发(作者:三十行汇编代码)
第 49 卷 第 9 期
2023 年 9 月
自 动 化 学 报
ACTA AUTOMATICA SINICA
Vol. 49, No. 9
September, 2023
基于重组性高斯自注意力的视觉Transformer
赵 亮
周继开
1, 21
摘 要 在目前视觉Transformer的局部自注意力中, 现有的策略无法建立所有窗口之间的信息流动, 导致上下文语境建
模能力不足. 针对这个问题, 基于混合高斯权重重组(Gaussian weight recombination, GWR)的策略, 提出一种新的局部
自注意力机制SGW-MSA (Shuffled and Gaussian window-multi-head self-attention), 它融合了3种不同的局部自注意
力, 并通过GWR策略对特征图进行重建, 在重建的特征图上提取图像特征, 建立了所有窗口的交互以捕获更加丰富的上下
文信息. 基于SGW-MSA设计了SGWin Transformer整体架构. 实验结果表明, 该算法在mini-imagenet图像分类数据集上的准
确率比Swin Transformer提升了5.1%, 在CIFAR10图像分类实验中的准确率比Swin Transformer提升了5.2%, 在MS COCO
数据集上分别使用Mask R-CNN和Cascade R-CNN目标检测框架的mAP比Swin Transformer分别提升了5.5%和5.1%,
相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.
关键词 Transformer, 局部自注意力, 混合高斯权重重组, 图像分类, 目标检测
引用格式 赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988
DOI 10.16383/.c220715
Vision Transformer Based on Reconfigurable Gaussian Self-attention
ZHAO Liang
1, 2
ZHOU Ji-Kai
1
Abstract In the current vision Transformer's local self-attention, the existing strategy cannot establish the inform-
ation flow between all windows, resulting in the lack of context modeling ability. To solve this problem, this paper
proposes a new local self-attention mechanism shuffled and Gaussian window-multi-head self-attention (SGW-MSA)
based on the strategy of Gaussian weight recombination (GWR), which combines three different local self-attention
forces, and reconstructs the feature map through GWR strategy, and extracts image features from the reconstruc-
ted feature map. The interaction of all windows is established to capture richer context information. This paper
designs the overall architecture of SGWin Transformer based on SGW-MSA. The experimental results show that
the accuracy of this algorithm in the mini-imagenet image classification dataset is 5.1% higher than that in the Swin
Transformer, the accuracy in the CIFAR10 image classification experiment is 5.2% higher than that in the Swin
Transformer, and the mAP using the Mask R-CNN and Cascade R-CNN object detection frameworks on the MS
COCO dataset are 5.5% and 5.1% higher than that in the Swin Transformer, respectively. Compared with other
models based on local self-attention, it has stronger competitiveness in the case of similar parameters.
Key words Transformer, local self-attention, Gaussian weight recombination (GWR), image classification, objec-
tion detection
Citation Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention.
Acta Auto-
matica Sinica
, 2023, 49(9): 1976−1988
收稿日期 2022-09-10 录用日期 2023-01-13
Manuscript received September 10, 2022; accepted January 13,
2023
国家自然科学基金(51209167, 12002251), 陕西省自然科学基金
(2019JM-474), 陕西省岩土与地下空间工程重点实验室开放基金
(YT202004), 陕西省教育厅服务地方专项计划(22JC043)资助
Supported by National Natural Science Foundation of China
(51209167, 12002251), Natural Science Foundation of Shaanxi
Province (2019JM-474), Open Fund Project of Key Laboratory of
Geotechnical and Underground Space Engineering in Shaanxi
Province (YT202004), and Shaanxi Provincial Department of
Education Service Local Special Plan Project (22JC043)
本文责任编委 黄华
Recommended by Associate Editor HUANG Hua
1. 西安建筑科技大学信息与控制工程学院 西安 710055 2. 陕
西省岩土与地下空间工程重点实验室 西安 710055
1. College of Information and Control Engineering, Xi'an Uni-
versity of Architecture and Technology, Xi'an 710055 2. Sh-
aanxi Provincial Key Laboratory of Geotechnical and Under-
ground Space Engineering, Xi'an 710055
目前计算机视觉领域使用的方法有两大类, 分
别是卷积神经网络(Convolutional neural net-
works, CNN)和Transformer. 其中CNN是图像分
类
[1]
、目标检测
[2]
和语义分割
[3]
等计算机视觉任务的
主流方法, 自AlexNet
[4]
诞生并在ImageNet图像分
类挑战中获得冠军以后, 研究者们开始通过各种方
法设计卷积神经网络, 使得网络变得更深、更密集、
更复杂
[5−8]
, 在随后的几年内出现了很多经典的卷积
神经网络. VGGNet
[5]
探索了CNN的深度及性能
之间的关系, 通过使用很小的卷积叠加增加网络的
深度达到提升网络精度的效果; DenseNet
[6]
通过从
特征图的角度入手, 为每一个模块加入密集连接达
到了更好的性能和更少的参数量; ResNet
[7]
通过引
Copyright©博看网. All Rights Reserved.
9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1977
入残差结构解决了随着网络层数的加深出现梯度消
失的问题; GoogLeNet
[9]
使用密集成分来近似最优
的稀疏结构, 在提升性能的同时不增加计算量; Ef-
ficientNet
[10]
提出了一种多维度混合的模型缩放方
法, 可以同时兼顾模型的精度以及速度. 在CNN模
型性能越来越强的同时, 另一类视觉Transformer
的方法横空出世. Transformer由于其自注意力模
块具有捕捉长距离依赖
[11]
的能力广泛被应用于自
然语言处理的任务中, 而后被用到了计算机视觉任
务中并取得了比CNN方法更优的效果. 在文献[12−15]
中将自注意力模块嵌入到CNN中并应用于图像分
类、目标检测和语义分割等计算机视觉任务中. Vis-
ion Transformer (ViT)
[16]
不使用卷积神经网络而
是通过将图像序列化的方法首次将Transformer架
构应用到图像领域中, 并且在ImageNet数据集上
取得了比ResNet更好的效果, 而后在短时间内被
引入改进
[17−20]
并应用于各种图像领域的各种下游任
务
[21−24]
. 但是Transformer的复杂度成为了其性能最
大的瓶颈, 为了减小因全局自注意力引起的二次复
杂度, 现有的方法较多使用局部自注意力机制. 目
前现有的局部自注意力机制主要有7类(如图1所示).
1) 目前几乎所有的基于局部自注意力的Trans-
former模型都会使用常规窗口自注意力(Window-
multi-head self-attention, W-MSA), 通过W-MSA
与其他类型的局部自注意力交替使用来建立窗口之
间的通信, 如图1(a)所示.
2) HaloNet
[25]
通过对窗口进行缩放的操作来收
集窗口之外的信息并建立跨窗口的信息交互, 如图1(b)
所示.
3) Swin Transformer通过在连续的局部注意
力层之间移动窗口的分区建立跨窗口之间的信息通
信缓解感受野受限的问题, 如图1(c)所示.
4) CrossFormer
[26]
提出了跨尺度嵌入层和长短
注意力, 有效地建立了长远距离的跨窗口的连接.
5) Shuffle Transformer
[27]
在连续的局部自注
意力层之间加入空间shuffle的操作, 以提供长距离
窗口之间的连接并增强建模能力.
6) GG Transformer
[28]
受到了人类在自然场景
中识别物体的Glance和Gaze行为的启发, 能够有
效地对远程依赖性和局部上下文进行建模, 4) ~ 6)
这3种局部注意力可统一归为图1(d)的形式.
7) Axial-DeepLab
[29]
将二维自注意力分解为横
向和纵向两个一维的自注意力, 如图1(e)所示.
8) CSWin Transformer
[30]
提出了一种在“十”
字等宽窗口内计算自注意力的方式(Cross-shaped
window self-attention), 通过横条和纵条窗口自注
意力并行实现, 如图1(f)所示.
9) Pale Transformer
[31]
提出了“十”字等间隔窗
口自注意力(Pale-shaped-attention, PS-Attention),
如图1(g)所示.
图1展示了现有的局部自注意力方法. 不同的
颜色表示不同的窗口, 在每个窗口内执行计算自注
意力, 并通过引入各种策略来建立跨窗口之间的连
接. 这些工作虽然取得了优异的性能, 甚至优于一
些最新的CNN的方法, 但是每个自注意力层中的
依赖性仍然具有局限性, 具体表现在当特征图很大
时, 通过有间隔的采样点组成的窗口无法建立所有
窗口之间的信息流动导致了模型捕获的上下文语义
(a) 常规窗口
(a) Regular window
(b) 改变尺寸大小的窗口
(b) Resized window
(c) 移动窗口
(c) Shifted window
(d) 等间隔窗口
(d) Shuffled window
(e) 轴向窗口
(e) Axial window
(f) “十”字窗口(g) “十”字等间隔窗口
(f) Cross-shaped window(g) Pale-shaped window
图 1 现有局部自注意力方法
Fig. 1 Existing local self-attention methods
Copyright©博看网. All Rights Reserved.
1978自 动 化 学 报49 卷
信息的能力不足. 针对上述问题, 本文提出了一种
高斯窗口自注意力机制(Gaussian window-multi-
head self-attention, GW-MSA), 它包括纵向高斯
窗口自注意力(Vertical Gaussian window-multi-
head self-attention, VGW-MSA)和横向高斯窗口
自注意力(Horizontal Gaussian window-MSA,
HGW-MSA)两种类型的局部自注意力. GW-MSA
与图1(d)中的Shuffled W-MSA联合组成了SGW-
MSA, 有效地捕捉更丰富的上下文依赖, 如图2所
示, 不同颜色的点代表不同的窗口组成, 在GW-MSA
中, 通过混合高斯权重重组GWR策略重构特征图,
并在重构后的特征图上计算局部自注意力. 本文在Swin
Transformer结构的基础上, 引入SGW-MSA设计
了SGWin Transformer模型, 在公开数据集CI-
FAR10、mini-imagenet、KITTI、PASCAL VOC
和MS COCO上进行了实验, 实验结果表明SGWin
Transformer在图像分类和目标检测的任务上优于
其他同等参数量的基于局部自注意力的Transfor-
mer网络.
数量相似的CNN主干, 推动了Transformer成为
了视觉主干网络的新主流, 在近两年出现了越来越
多基于局部自注意力机制的视觉Transformer方
法, 然而目前的各种局部自注意力建立远距离跨窗
口连接策略具有一定的局限性. 当特征图很大时,
现有的窗口连接的策略无法建立所有窗口之间的信
息流动导致无法捕捉足够的上下文信息. 假设特征
图的高和宽分别为
h
和
w
, 局部窗口的高和宽分别
为
W
h
和
W
w
, 对于特征图上划分的某一个局部窗
口, 该窗口在纵向和横向可以建立最近窗口连接的
距离分别为:
d
h
min
d
w
min
()
h
=max0,
−W
h
+1
W
h
()
w
=max0,
−W
w
+1
W
w
h
(W
h
−1)+W
h
W
h
w
(W
w
−1)+W
w
W
w
(1)
(2)
在纵向和横向可以建立最远窗口连接的距离分别为:
d
h
max
=
d
w
max
=
(3)
(4)
(a) 等间隔窗口
(a) Shuffled window
Horizontal GaussianVertical Gaussian
windowwindow
(b) 高斯窗口
(b) Gaussian window
所以具有4种不能建立窗口连接的情况: 1)
d
h
min
>
hw
W
h
; 2)
d
w
min
>W
w
; 3)
d
max
h ; 4) d max W w . 当 h,w,W h ,W w 之间的关系满足式(5) ~ 式 (7)中的一种情况时就会出现特征图过大导致无法 建立所有窗口之间信息交互的情况. 当满足式(5) 或式(6)时, 窗口之间的纵向距离或者横向距离分 w 别大于 d h max 和 d max 时无法建立连接, 当满足式(7) w 中的情况时, 窗口之间的纵(横)向距离小于 d h min (d min ) w 或者大于 d h 都无法建立连接. max (d max ) 22 2W h −W h h −1 22 2W w −W w w −1 22 h>2W h −1或w>2W w −1 (5) (6) (7) 图 2 局部自注意力组合 Fig. 2 Local self-attention combination 1.2 SGWin Transformer的整体结构 为了解决当特征图过大时现有的局部自注意力 机制无法建立所有窗口之间的信息交互的问题, 本 文提出了一种新的局部自注意力机制SGW-MSA, 并在Swin Transformer的基础上将所有的移动窗 口自注意力SW-MSA替换为SGW-MSA得到一 种新的SGWin Transformer模型, 模型的整体架 构如图3(a) 所示. 主干网络符合标准的视觉分层 Transformer的PVT [32] 的结构, 该设计包含了4个阶段 的金字塔结构, 每个阶段由Patch embed或Patch merging和多个SGWin Transformer block串联组 1 模型框架 1.1 Swin Transformer算法 Swin Transformer提出了一种新的基于Trans- former的视觉主干网络, 自注意力的计算在局部非 重叠窗口内进行. 一方面可以将复杂度从之前的和 图像大小成平方的关系变成线性关系, 并且采用非 重叠局部窗口, 大大减小了计算量; 另一方面在不 同的注意力层之间采用移动窗口的操作, 使得不同 窗口之间的信息可以交换. 并且由于性能超越了参 Copyright©博看网. All Rights Reserved. 9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1979 H/32 × W/32 × 8C Stage 4 P a t c h m e r g i n g SGWin Transformer block H/4 × W/4 × C Stage 1 H/8 × W/8 × 2C Stage 2 P a t c h m e r g i n g H/16 × W/16 × 4C Stage 3 P a t c h m e r g i n g SGWin Transformer block H × W × 3 Images P a t c h e m b e d SGWin Transformer block SGWin Transformer block × 2 × 2× 6× 2 (a) SGWin Transformer 的整体结构 (a) Overall architecture of SGWin Transformer h × w × c/3 MLPMLP h × w × c h × w × c/3 h × w × c LNLN C o n c a t h × w × c/3 S p l i t W-MSASGW-MSA LNLN (b) SGWin Transformer 的基础模块 (b) SGWin Transformer block (c) SGW-MSA 局部自注意力机制 (c) SGW-MSA local self-attention mechanism 图 3 SGWin Transformer整体架构 Fig. 3 Overall architecture of SGWin Transformer 合而成. 如图3(b)所示, 每个SGWin Transformer block由两组结构串联组成, 第一组结构包括一个 W-MSA模块和一个MLP, 第二组结构由一个 SGW-MSA模块和一个MLP模块组成, MLP对输 入特征图进行非线性化的映射得到新的特征图, SGW-MSA局部自注意力机制的示意图如图3(c) 所示. 整个模型的计算过程为: 输入图片通过Patch embed将输入图像下采样4倍, 并得到指定通道数 的特征图, 特征图会被送入Stage 1的SGWin Trans- former block中, 通过W-MSA、SGW-MSA模块提 取局部特征和图像中的上下文信息并建立所有窗口 之间的信息流通, Stage 1最后一个SGWin Trans- former block的输出会被送入Stage 2中, 除Stage 1之外的所有Stage会通过一个Patch merging将 上一个阶段输出的特征图尺寸降采样两倍(宽和高 变为原来的二分之一), 通道维度变为原来的两倍. 整个网络之后可以接一个Softmax层和一个全连 接层用于图像分类任务, 并且每个阶段的特征图可 输入到目标检测的FPN [33] 部分中进行多尺度目标 检测. 1.3 SGW-MSA局部自注意力机制 当出现式(5)或式(6)中的情况时, 两个窗口 之间的纵(横)向距离大于一定值时就无法建立连 接. 当出现式(7)中的情况时, 两个窗口之间的纵 (横)向距离大于或小于一定值时都无法建立连接. 因此式(7) 中的问题包含式(5)和式(6)存在的问 题. 仅考虑式(7)中的情况, 将纵向无法建立窗口连 h 接的两个距离分别记为 d h min 和 d max , 将横向无法建 w 立窗口连接的两个距离分别记为 d w min 和 d max . 如图4 Copyright©博看网. All Rights Reserved. 1980自 动 化 学 报49 卷 纵向高斯权重热力图 所示, 为了能够建立所有窗口之间的信息交互, SGW- MSA将输入特征图在通道上均匀拆分成3组, 对 第一组特征图使用现有的Shuffled W-MSA等间隔 w 采样点组成窗口用于纵(横)向距离大于 d h min (d min ) w 且小于 d h max (d max ) 窗口之间的联系; 后两份特征图 分别使用横向高斯窗口自注意力HGW-MSA和纵 向高斯窗口自注意力VGW-MSA计算局部自注意 力, 建立Shuffled W-MSA未能建立的窗口的联系. 最后将3个部分的局部自注意力计算结果在通道上 进行合并得到最终的输出结果. 纵向 BEB VGW-MSA A-ExpJ reGWR HGW-MSA 横向 BEB A-ExpJ W-MSA reGWR GWR 策略 横向高斯权重热力图 Shuffled W-MSA 图 5 GW-MSA局部自注意力示意图 h × w × c/3 Fig. 5 GW-MSA local self-attention diagram w W b W w h × w × c h × w × c h × w × c/3 Horizontal Gauss W-MSA h × w × c/3 Vertical Gauss W-MSA C o n c a t S p l i t W h h W h 图 4 SGW-MSA局部自注意力示意图 Fig. 4 SGW-MSA local self-attention diagram W w (a) 纵向基础元素块 (a) Vertical basic element block W b (b) 横向基础元素块 (b) Horizontal basic element block 1.3.1 GW-MSA局部自注意力机制 GW-MSA可用于建立Shuffled W-MSA未能 建立的窗口连接, 分为VGW-MSA和HGW-MSA 两种不同的形式. 如图5所示, 每个形式的GW-MSA 由混合高斯权重重组GWR模块、常规局部自注意 力W-MSA和逆混合高斯权重重组(re Gaussian weight recombination, reGWR)模块3个部分组 成, 其中GWR是本文为了建立纵(横)向距离小于 whw d h min (d min ) 或者大于 d max (d max ) 窗口之间的信息交 互提出的一种特征图重组的策略. 假设特征图的高和宽分别为 h 和 w , 局部窗口 的高和宽分别为 W h 和 W w . GWR会将输入特征图 划分成多个长条形状的基础元素块(Basic element block, BEB), 计算纵向的VGW-MSA时将特征图 按高切分成若干份高宽分别为 W b (W b h ) 和 w 的横条基础元素块, 如图6(a)所示. 计算横向的 HGW-MSA时将特征图按宽切分成高宽分别为 h 和 W b (W b w ) 的竖条基础元素块, 如图6(b)所 示. 当 h 或 w 不能整除 w b 时, 取最大可以整除 W b 的 长度作为重组区域. 为所有的基础元素块建立高斯权重分布表, 结 w 合高斯权重分布表尽可能使距离小于 d h min (d min ) 或 w 者大于 d h max (d max ) 的基础元素块放在一起用于重组 (c) 纵向基础元素块高斯权重 (d) 横向基础元素块高斯权重 (c) Vertical basic element block (d) Horizontal basic element Gaussian weightsblock Gaussian weights 图 6 纵横向基础元素块示意图 Fig. 6 Schematic diagram of vertical and horizontal basic element block 特征图. 然后在重组后的特征图上使用W-MSA计 算局部自注意力. 高斯权重分布表由一维高斯分布 公式得到: (x−µ) 2 f(x)=A·exp − 2σ 2 () (8) 式中 A 代表权重的幅值, µ 表示均值, σ 2 为方差. GWR策略的思想就是根据高斯分布的特性. 如图6(c) 和图6(d)所示, 纵向基础元素块越靠近图像上边缘 或下边缘, 权重越小; 横向基础元素块越靠近左边 缘和右边缘, 权重越小. 权重越高的基础元素块对 应图像中的位置颜色越亮, 代表对应位置的权重越 Copyright©博看网. All Rights Reserved. 9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1981 高; 权重越低的基础元素块对应图像中的位置颜色 越暗, 代表对应位置的权重越低. 将特征图上的每 一个基础元素块看作一个点, 以特征图中心的基础 元素块为原点建立坐标系, 依据每个基础元素块在 坐标系中的位置可以被赋予一个对应的高斯分布权 重, 纵向和横向的中心基础元素块的位置坐标记为 () cx=h/2W b 或w/2W b , 对于任意 x 位置下的基础 元素块对应的高斯权重分布遵循下式: ( ( ) ) 2 x−cx1 Weight(x)=exp − cx2σ 2 (9) [ 1 ] 2N X H =X H ,X H ,···,X H cc (13) ii 其中 X V ∈R W h ×W w × 3 , X H ∈R W h ×W w × 3 , i∈[1,2, ···,N] , 窗口的总数 N=h·w/(W h ·W w ) . 当 h·w 不能被 W h ·W w 整除时, 可以对特征图进行填充或 者插值的方法确保 h·w 可以被 W h ·W w 整除. 每一个窗口内部单独计算局部自注意力. 在计 算局部自注意力时, 使用3个全连接层 ℓ Q ,ℓ K ,ℓ V 计算得到Q (Qurey), K (Key), V (Value), 计算式 如下: (( i )( i )( i )) i Y S =MSAℓ Q X S ,ℓ K X S ,ℓ V X S (14) (15) (16) 式中的 σ 取值为1.5, 分子部分除以 cx 是为了控制 权重不会过小而约等于0. 为了尽可能将权重近似 的基础元素块放在一起, 本文采用了带权重的随机 抽样 A-ExpJ [34] 依据每一个基础元素块的索引以及 对应的权重进行随机抽样, 最后将所有基础元素块 的索引按照抽样的顺序进行排列得到新的重组后的 特征图. 假设将特征图划分成基础元素块的序列索 引为 idx=[1,2,···,n] , 其中 n=h/W b 或w/W b ; 基 础元素块的高斯权重分布表为 W=[W 1 ,W 2 ,···, W n ] , 其中 n=h/W b 或w/W b ; 重组的索引 idx new 可 以由式(10)得到, 其中 n 表示通过权重抽样的个 数. A-ExpJ表示带权重的随机抽样函数. 最后按照 新的基础元素块的索引对特征图进行重组得到GWR 策略的输出结果. idx new =A-ExpJ(idx,W,n) (( i )( i )( i )) i Y V =MSAℓ Q X V ,ℓ K X V ,ℓ V X V (( i )( i )( i )) i Y H =MSAℓ Q X H ,ℓ K X H ,ℓ V X H 其中 i∈[1,2,···,N] , MSA 表示Multi-head self- attention [33] . 最后将所有的局部自注意力的计算结 果在空间上进行合并得到新的特征图: 12N Y S =[Y S ,Y S ,···,Y S ] 12N Y V =[Y V ,Y V ,···,Y V ] 12N Y H =[Y H ,Y H ,···,Y H ] (17) (18) (19) (10) 1.3.2 SGW-MSA的计算过程 假设输入特征图为 X∈R h×w×c , SGW-MSA 首先将输入特征图 X 在通道上切分成3个部分, 第 c 一个部分的特征图记为 X S ∈R h×w× 3 , 第二个部分 c 的特征图记为 X V ∈R h×w× 3 , 第三个部分的特征图 c 记为 X H ∈R h×w× 3 . 对 X S 使用Shuffled W-MSA 在特征图上使用等间隔采样点组成窗口, 并在所有 的窗口内部计算自注意力. 对 X V 和 X H 分别使用 纵向和横向的GWR策略对特征图进行重组, 并在 重组的特征图上使用W-MSA计算局部自注意力. 具体计算过程如下. 首先在 X S 上通过等间隔采样特征点形成多个 具有相同尺寸 (W h ,W w ) 的窗口: [ 1 ] 2N X S =X S ,X S ,···,X S c 因为GWR策略将原有的特征图根据新的基 础元素块的顺序进行了重组, 所以需要将 Y V 和 Y H 依据原先的基础元素块的顺序进行还原. 将两个部 分的局部自注意力计算结果在通道上进行合并, 得 到最终的输出结果, 如式(20)所示, 其中 Concat 表 示在通道上进行合并. Y=Concat(Y S ,Y V ,Y H )(20) 1.3.3 计算复杂度分析 对于给定的尺寸为 R h×w×c 的特征图, 局部窗 口的尺寸为 (W h ×W w ) , 用 O 表示复杂度. 标准的 全局自注意力(Global self-attention)的计算复杂 度如式(21) 所示: O Global =4hwc 2 +2c(hw) 2 (21) SGW-MSA的计算复杂度如式(22)所示 O SGW =4hwc 2 +2W w W h hwc(22) (11) i 其中 X S ∈R h×w× 3 , i∈[1,2,···,N] , 窗口的总数 N=h·w/(W h ·W w ) . 然后使用GWR策略对 X V 和 X H 进行重组, 将重组后的 X V 和 X H 拆分成多个 具有相同尺寸 (W h ,W w ) 的窗口: 其中 W w ,W h 分别为局部窗口的宽和高. 对比式(9) 和式(10), 因为 S w S h ≪hw , 所以 O SGW ≪O Global , 即SGW-MSA的计算复杂度远小于全局自注意力 的计算复杂度. 1.4 SGWin Transformer block SGWin Transformer block由两组结构串联组 成. 如图7所示, 第一组结构包括一个W-MSA模 [ 1 ] 2N X V =X V ,X V ,···,X V (12) Copyright©博看网. All Rights Reserved. 1982自 动 化 学 报 块和一个多层感知机模块MLP, 第二组结构由一 个SGW-MSA模块和一个MLP模块组成, MLP 对输入特征图进行非线性化的映射得到新的特征 图, W-MSA用于捕捉特征图的局部自注意力, SGW-MSA用于捕捉局部自注意力并建立所有窗 口之间的信息流通. 整个SGWin Transformer block 的向前传播式如下: xˆ l =W-MSA(LN(x l−1 ))+x l−1 x l )+xˆ l )x l =MLP(LN(ˆ xˆ l+1 49 卷 表 1 SGWin Transformer的超参数配置表 Table 1 Super parameter configuration table of SGWin Transformer StageStrideLayer Patch embed 14 Transformer block Parameter P 1 =4 C 1 =96 (23) (24) ×2 H=3 1 R 1 =4 S 1 =7 Patch merging 28 Transformer block P 2 =2 C 2 =192 =SGW-MSA(LN(x))+x =MLP(LN(ˆx l+1 ll (25) (26) x l−1 l+1 ))+xˆ l+1 ×2 H=6 2 R 2 =4 S 2 =7 其中 x 为前一个Patch embed或者Patch mer- ging或者SGWin Transformer block的输出, xˆ l 和 x l 分别代表(SG)W-MSA模块和MLP模块的输 出, LN代表LayerNorm. Patch merging 316 Transformer block P 3 =2 C 3 =384 LN W-MSA LN MLP 432 H 3 =12 ×2 R 3 =4 S 3 =7 Patch merging p 4 =2 C 4 =768 LN SGW-MSA LN MLP Transformer block H 4 =24 ×2 R 4 =4 S 4 =7 图 7 SGWin Transformer block结构示意图 Fig. 7 Structure diagram of SGWin Transformer block 3) S i . 第 i 个 1.5 SGWin Transformer的超参数配置 SGWin Transformer的超参数配置与Swin Transformer相同, 如表1所示. 其中Stage = i 表 示SGWin Transformer模型的第 i 个阶段. Stride 表示SGWin Transformer模型在每个阶段下采样 的倍数. Layer表示当前阶段的模块名字, 一个阶段 包含两个模块, Patch embed和Patch merging负 责对特征图进行下采样, 下采样的倍数分别为4和 2, Patch embed和Patch merging的输出会被送入 后续的Transformer block中提取局部自注意力并 进行特征的映射, 在最后一个Transformer block 后接一个平均池化层和全连接层可用于图像分类任 务, 或者将每一层的特征图输出可用于目标检测任 务. 模型的第 i 个Stage的模型的超参数定义如下: 1) P i . 第 i 个Stage的输入特征图下采样的倍 数, 第一个Stage下采样的倍数是4, 其余3个 Stage的下采样倍数为2; 2) C i . 第 i 个Stage的输入特征图下采样后新 特征图的通道数; Stage的Transformer block中 计算局部自注意力的窗口大小; 4) H i . 第 i 个Stage的Transformer block中 多头自注意力机制的Head数量; 5) R i . 第 i 个Stage的Transformer block中 MLP模块的通道扩展比. 2 实验结果 本文分别在图像分类数据集CIFAR10 [35] 以及 目标检测数据集KITTI [36] 、PASCAL VOC [37] 、MS COCO [38] 上进行了实验, 与其他参数量相似且具有 代表性的基于局部自注意力的Transformer的模型 进行了对比, 并通过消融实验分析验证了本文提出 的局部自注意力机制SGW-MSA模块的有效性. 2.1 热力图对比实验分析 热力图通常是对类别进行可视化的图像, 表示 着模型特征提取的能力. 图8展示了本文算法与基 线算法Swin Transformer的热力图对比, 第一行是 原图, 第二行是Swin Transformer的热力图, 第三 行是SGWin Transformer的热力图. (a)、(b)、(c) 列的对比可以看出SGWin Transformer比Swin Copyright©博看网. All Rights Reserved. 9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1983 原图 Swin Transformer SGWin Transformer (a)(b)(c)(d) 图 8 本文算法与Swin Transformer的热力图对比 Fig. 8 Comparison between the algorithm in this paper and the thermal diagram of Swin Transformer Transformer热力图覆盖的目标范围更全面; (d)列 的对比可以看出SGWin Transformer比Swin Transformer的定位更准确且小目标检测能力更强. 所以SGWin Transformer算法比Swin Trans- former算法的目标定位更加准确, 也验证了本文提 出的SGW-MSA局部自注意力机制的有效性. 此 外SGWin Transformer对小目标检测的性能也有 一定提升. 表 2 基础元素块宽度消融实验对比 Table 2 Comparison of ablation experiments of basic element block width W b 1 2 3 4 5 6 AP b (%) 34.2 34.9 35.8 36.3 35.5 34.7 AP m (%) 31.9 32.5 33.2 33.7 32.4 32.0 2.2 消融实验分析 为了验证SGW-MSA模块的有效性, 首先在MS COCO数据集上进行了消融实验分析. 实验使用 mmdetection [39] 目标检测库以及Mask R-CNN [40] 目标检测框架, 将主干网络替换为Swin Transfor- mer, 然后依次将本文改进的策略加入到Swin Transformer中进行实验, 优化器采用对超参数不 敏感的AdamW [41] 优化算法更新参数, 训练Epoch 为12, 初始学习率为1×10 −4 , 在第8 Epoch和第11 Epoch结束时分别衰减10倍, 评价指标采用目标 检测平均精度 AP b 以及实例分割平均精度 AP m . 取值为4时模型的精度达到了最高, 达到了最好的 效果, 所以本文的GWR策略中基础元素块的宽度 确定为4. 2.2.2 纵向VGW-MSA与横向HGW-MSA的消 融实验分析 在验证GW-MSA局部自注意力中包含的纵 向VGW-MSA和横向HGW-MSA的有效性时, 本 文依次将基线算法Swin Transformer的SW-MSA 替换为Shuffled W-MSA、Shuffled W-MSA+VGW- MSA、Shuffled W-MSA+VGW-MSA+HGW- MSA, 逐步验证每个模块的有效性, 在不使用预训 练模型的情况下, 实验结果如表3所示. 从表3中可以看出本文算法的基线模型Swin Transformer使用SW-MSA局部自注意力的目标 检测和实例分割的平均精度分别为30.8%和29.5%; 将SW-MSA替换为Shuffled W-MSA后精度分别 提升了2.8%和2.1%; 将SW-MSA替换为Shuffled W-MSA与纵向高斯窗口自注意力VGW-MSA的 结合后精度分别提升了1.3%和1.1%; 将SW-MSA 替换为SGW-MSA (Shuffled W-MSA+VGW- MSA+HGW-MSA)后精度分别提升了1.4%和 2.2.1 GWR策略超参数消融实验分析 GWR策略通过横条和竖条状的基础元素块重组 whw 特征图来建立距离小于 d h min (d min ) 或者大于 d max (d max ) 的窗口的连接, 对于基础元素块的宽度 W b 的设置 会直接影响重组后的特征图的结果, 也会对网络的 性能造成影响. 为了验证 W b ( W b 小于局部窗口的 宽和高)的最佳取值, 本文在默认窗口大小为 7×7 的情况下, W b 的值从1到6取值进行对比实验, 在 不使用预训练模型的情况下, 实验结果如表2所示. 从表2中可以看出当基础元素块的宽度 W b 从 1到6改变的过程中, 在1到4的区间内精度呈现 上升趋势, 在4到6区间内精度呈现下降趋势, 在 Copyright©博看网. All Rights Reserved. 1984 自 动 化 学 报49 卷 表 3 SGW-MSA消融实验结果 Table 3 SGW-MSA ablation experimental results 序号 A B C D 方法 SW-MSA (baseline) Shuffled W-MSA B+VGW-MSA C+HGW-MSA AP b (%) 30.8 33.6 (+2.8) 34.9 (+1.3) 36.3 (+1.4) AP m (%) 29.5 31.6 (+2.1) 32.7 (+1.1) 33.7 (+1.0) 轴上任意距离的窗口连接, 更关注目标和横向背景 之间的联系. 因此, 相比于单一的局部自注意力机 制, SGW-MSA通过融合3种自注意力机制的方 式, 具有更优秀的上下文信息提取能力. 2.3 图像分类实验 2.3.1 CIFAR10图像分类实验 CIFAR10数据集包含60 000张尺寸为 32 的 彩色图片, 分为10个类别, 每一个类别有6 000张 图像. 分为训练集50 000张, 测试集10 000张. 本 文在训练集上训练模型, 并用测试集测试输出的 Top1准确率(排名第一的类别与实际结果相符的 准确率). 在训练模型时, 采用PyTorch深度学习框 架和Timm图像分类库, 优化器采用了对超参数不 敏感的AdamW [42] , 学习率采用余弦退火 [43] 的方 式, 初始的学习率设置为 1×10 −3 , 最小学习率为 1× 10 −6 , warmup学习率为 1×10 −4 , warmup Epoch 设置为3, 权重衰减率为 2×10 −5 , 动量为0.9, 数据 增强采用随机裁剪和水平随机翻转. 训练总轮数为 130 Epoch, 在120个Epoch之后保持最低学习率 继续训练10 Epoch. 损失函数采用标准的交叉熵分 类损失函数. 在不使用预训练模型的情况下, 所有 的模型均在一张RTX2070的GPU上训练, 基础配 置采用表1中的配置. 因为CIFAR10数据集中的 图像较小, 所以配置中的窗口大小 S i 设置为3; 4个 阶段的通道数 C i 分别对应 [32,64,128,256] ; 4个阶 段Transformer block的Head数量 H i 分别设置为 [2,4,8,16] ; SGWin Transformer的基础元素块的 宽度 W b 设置为1. 表4展示了参与对比的模型在 CIFAR10数据集上的实验结果. 可以看出本文所 设计的SGWin Transformer在参数量相当的情况 下的性能明显优于现有具有代表性的其他基于局部 自注意力的Transformer模型. Top1准确率比目 前最先进的Pale Transformer提升0.41%, 相比于 基线算法Swin Transformer, SGWin Trans- former在参数量相同的情况下, 仅仅通过替换SW- MSA为SGW-MSA就达到了5.2%的提升, 验证 了本文设计的SGW-MSA的有效性. 1.0%. 这些消融实验的数据进一步验证了本文提出 的SGW-MSA局部自注意力机制的有效性. 2.2.3 三种局部自注意力特征图融合的消融实验 与分析 为了更直观地感受到SGW-MSA联合3种自 注意力机制的优势, 选用ImageNet中的图像分别 可视化3种局部自注意力机制的注意力热力图. 输 入图像采用 224×224 像素的尺寸, 每一个stage中特 征图的尺寸分别为 56×56,28×28,14×14,7×7 , 越靠后的stage可视化出的热力图覆盖的物体范围 越大、效果越好, 但是考虑到最后一个stage特征图 的尺寸为7×7等于局部自注意力机制的窗口大小, 此时的三个局部自注意力全部退化为全局自注意 力. 因此选取第3个stage中最后一个SGWin Tran- sformer block中SGW-MSA的3个自注意力的热 力图进行可视化对比. 融合效果示意图如图9所示. Shuffled W-MSAVGW-MSAHGW-MSA 融合 SGW-MSA 图 9 融合效果示意图 Fig. 9 Schematic diagram of fusion effect 2.3.2 mini-imagenet数据集上的实验 本文还在mini-imagenet数据集上进行了实验. mini-imagenet数据集包含60 000张图像, 分为 100个类别, 每张图像的宽高中的长边均为500个 像素, 每个类别的图像大约有6 000张. 将50 000 张图像作为训练集, 10 000张图像作为验证集, 训 练模型的设置基本与第2.3.1节中的CIFAR10数 据集相同, 不同的是模型的超参数配置采用表1中 图9展示了各部分注意力机制的输出结果. 可 以看到每一种注意力的关注部分都有所不同. Sh- uffled W-MSA建立固定距离的窗口连接, 对跳跃 的关注目标和周围信息的联系比较敏感. VGW- MSA建立纵轴上任意距离的窗口连接, 对目标和 纵向背景之间的联系比较敏感. HGW-MSA建立横 Copyright©博看网. All Rights Reserved. 9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer 表 4 CIFAR10数据集上的Top1精度对比 Table 4 Top1 accuracy comparison on CIFAR10 dataset 算法 Swin Transformer CSWin Transformer CrossFormer GG Transformer Shuffle Transformer Pale Transformer SGWin Transformer Top1准确率 (%) 85.44 90.20 88.64 87.75 89.32 90.23 90.64 Parameter (MB) 7.1 7.0 7.0 7.1 7.1 7.0 7.1 1985 表 5 mini-imagenet数据集上的Top1精度对比 Table 5 Top1 accuracy comparison on mini-imagenet dataset 算法 Swin Transformer CSWin Transformer CrossFormer GG Transformer Shuffle Transformer Pale Transformer SGWin Transformer Top1准确率(%) 67.51 71.68 70.43 69.85 71.26 71.96 72.63 Parameter (MB) 28 23 28 28 28 23 28 的配置, 训练的Epoch数为100. SGWin Transformer 的基础元素块的宽度 W b 设置为4. 表5展示了参与 对比的模型在mini-imagenet数据集上的实验结 果. 从表5中的结果可以看出本文算法相比于基线 Swin Transformer提升了5.1%, 同时比最先进的 Pale Transformer提升了0.67%. 证明了SGW-MSA 的有效性. 2.4 目标检测实验 2.4.1 MS COCO数据集上的实验结果 本文使用mmdetection库以及Mask R-CNN 目标检测框架, 将主干网络替换为所有具有代表性 的基于局部窗口自注意力的Transformer模型, 并 与本文的方法进行了对比, 采用AdamW优化器更 新网络参数, 训练周期为36 Epoch, 设置初始学习 率为 1×10 −4 , 在第27 Epoch和33 Epoch结束之后 分别衰减10倍. 所有的模型均不使用预训练模型. 实验结果如表6所示. 其中Params (M)代表模型 的参数量, FLOPs (G)代表模型的计算复杂度. 可 以看出本文提出的SGWin Transforemr算法达到 了45.1%的mAP, 相比于目前最先进的Pale Trans- former模型提升1.8%, 并且在参数量不变的情况 下比基线算法Swin Transformer提升了5.5%. 此 外, SGWin Transformer在实例分割上也具有一定 的提升, 比最先进的Pale Transformer提升了1.3%, 比基线算法Swin Transformer提升了4.2%, 也验 证了本文提出的SGW-MSA的有效性. 此外使用 mmdetection库以及Cascade R-CNN [44] 目标检测 框架, 除训练周期外实验配置如同上述的Mask R- CNN, 训练周期设置为11 Epoch, 初始学习率为 1× 10 −4 , 在第8 Epoch和11 Epoch结束后分别衰减 10倍. 实验结果如表7所示. 本文提出的SGWin Transformer算法达到42.9% (AP b ) 和37.8% (AP m ) , 相比于Pale Transformer模型分别提升了1.4%和 1.7%, 并且在参数量不变的情况下比基线算法Swin Transformer分别提升了5.1%和4.4%. 证明了SGW- MSA的有效性. 为了更直观地展示SGWin Transformer的有 效性, 本文选取MS COCO测试集的图像进行检测 并将结果进行可视化, 如图10所示. 以Cascade R- CNN为目标检测框架, 分别将Swin Transformer 以及SGWin Transformer作为主干网络进行检测. 从图中可以看出, SGWin Transformer相比于基线 算法检测到了更多的小目标(如图10(a)中心的人 和车, 如图10(b)中心处的绵羊)和遮挡目标(图10(c) 最下边的游艇, 图10(d)泳池中的人). 证明了SGW- MSA能够通过提取更多的上下信息来提高遮挡目 标和小目标的检测效果. 表 6 以Mask R-CNN为目标检测框架在MS COCO数据集上的实验结果 Table 6 Experimental results on MS COCO dataset based on Mask R-CNN FLOPs (G) 264 279 301 265 268 291 306 265 AP b (%) 39.6 42.6 41.3 40.0 42.7 40.7 43.3 45.1 b AP 50 (%) b AP 75 (%) Backbone Swin CSWin Cross GG Shuffle Focal Pale SGWin Params (M) 48 42 50 48 48 49 41 48 AP m (%) 36.6 39.0 38.2 36.7 39.1 37.8 39.5 40.8 m AP 50 (%) m AP 75 (%) 61.3 63.3 62.7 61.4 63.6 62.4 64.1 66.0 43.2 46.9 45.3 43.9 47.1 44.8 47.9 49.9 58.2 60.5 59.7 58.2 60.9 59.6 61.2 63.5 39.3 42.0 41.2 39.0 42.2 40.8 42.8 44.2 Copyright©博看网. All Rights Reserved. 1986自 动 化 学 报49 卷 2.4.2 在其他目标检测数据集上的实验结果 本文还在KITTI数据集和PASCAL VOC数 据集上进行了对比实验, 使用PyTorch深度学习框 架以及YOLOv5 [45] 目标检测架构, 采用SGD [46] 优 化器, 学习率采用余弦退火的方式, 初始学习率设 置为0.01, 最小学习率为 1×10 −6 , warmup学习率 为0.1, warmup学习率为0.1, warmup Epoch为3, 权重衰减为 5×10 −4 , 动量为0.937, 数据增强采用 Mosaic [47] 、水平翻转和色调变换. 在3张RTX3090 的GPU上训练模型, 超参数采用表1中的配置. 采 用上述的训练策略, 所有的算法均不使用预训练模 型, 在PASCAL VOC数据集上训练100 Epoch, 在KITTI数据集上训练300 Epoch, 训练Batch size数为64, 实验结果如表8所示. 可以看出在模 型参数量相当的情况下, 本文提出的SGWin Trans- former模型在KITTI数据集和PASCAL VOC数 据集的精度比最先进的Pale Transformer分别提 升了0.3和0.6, 比基线算法Swin Transformer分 别提升了1.9和4.5. 在检测速度方面, SGWin Trans- former的FPS达到了56, 超出最先进的Pale Trans- former算法16%, 相比于基线算法Swin Trans- former提升了12%. 所以本文设计的SGWin Trans- former在速度和精度上都优于其他Transformer, 整体性能最好. 3 结论 本文针对现有的基于局部自注意力机制的Tra- nsformer模型不能建立所有窗口之间信息流通的 表 7 以Cascade R-CNN为目标检测框架在MS COCO数据集上的实验结果 Table 7 Experimental results on MS COCO dataset based on Cascade R-CNN Backbone Swin CSWin Cross GG Shuffle Focal Pale SGWin Params(M) 86 80 88 86 86 87 79 86 FLOPs(G) 754 757 770 756 758 770 770 756 AP b (%) 47.8 40.7 39.5 38.1 40.7 38.6 41.5 42.9 b AP 50 (%) b AP 75 (%) AP m (%) 33.4 35.5 34.7 33.2 35.8 34.5 36.1 37.8 m AP 50 (%) m AP 75 (%) 55.5 57.1 56.9 55.4 57.0 55.6 57.8 60.9 40.9 44.5 43.0 41.5 44.4 42.2 45.3 46.3 52.8 55.0 53.7 51.9 55.1 53.7 55.2 57.2 35.8 38.3 37.2 35.1 38.0 39.0 39.0 40.5 原图 Swin Transformer SGWin Transformer (a)(b)(c)(d) 图 10 MS COCO检测结果或可视化 Fig. 10 MS COCO test results or visualization Copyright©博看网. All Rights Reserved. 9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9 10 1987 表 8 KITTI和PASCAL VOC数据集上的实验结果 Table 8 Experimental results on KITTI and PASCAL VOC dataset BackboneKITTI *******:0.95VOC *******Params (M)FPS Swin CSWin Cross Shuffle GG Pale SGWin 57.3 58.7 58.1 58.7 57.8 58.9 59.2 59.6 64.1 62.8 64.6 62.4 64.5 65.1 14.4 14.2 13.8 14.4 14.4 14.2 14.4 50 48 20 53 46 48 56 13 12 11 Tan M, Le Q V. EfficientNet: Rethinking model scaling for con- volutional neural networks. In: Proceedings of the 36th Interna- tional Conference on Machine Learning. New York, USA: JM- LR, 2019. 6105−6114 Tomar G S, Duque T, Tckstrm O. Neural paraphrase identifica- tion of questions with noisy pretraining. In: Proceedings of the First Workshop on Subword and Character Level Models in NLP. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 142−147 Wang C, Bai X, Zhou L. Hyperspectral image classification based on non-local neural networks. In: Proceedings of the Inter- national Geoscience and Remote Sensing Symposium. Yoko- hama, Japan: IEEE, 2019. 584−587 问题, 提出了一种SGW-MSA局部自注意力以及SG- Win Transformer模型, 在SGW-MSA中结合3种 不同的局部自注意力机制的特点, 有效地建立所有 窗口之间的信息交互. 实验结果表明在参数量和计 算量相当的情况下, 本文提出的算法比现有的基于 局部自注意力的Transformer模型更具有优势, 证 明了本文提出的SGW-MSA通过高斯随机窗口策 略建立所有窗口之间的信息流动能够捕捉更多的特 征图语义信息并且具有更强大的上下文建模能力. References 1Jiang Hong-Yi, Wang Yong-Juan, Kang Jin-Yu. A survey of ob- ject detection models and its optimiza-tion methods. Acta Auto- matica Sinica , 2021, 47(6): 1232−1255 (蒋弘毅, 王永娟, 康锦煜. 目标检测模型及其优化方法综述. 自动 化学报, 2021, 47(6): 1232−1255) Zhao H, Jia J, Koltun V. Exploring self-attention for image re- cognition. In: Proceedings of the Conference on Computer Vis- ion and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10073−10082 14Ramachandran P, Parmar N, Vaswani A. Stand-alone self-atten- tion in vision models. In: Proceedings of the Advances in Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2019. 15Carion N, Massa F, Synnaeve G. End-to-end object detection with transformers. In: Proceedings of the 16th European Confer- ence. Glasgow, UK: ECCV, 2020. 213−229 16Dosovitskiy A, Beyer L, Kolesnikov A. An image is worth 16×16 words: Transformers for image recognition at scale. In: Proceed- ings of the International Conference on Learning Representa- tions. Virtual Event: ICLR, 2021. 17Chu X, Tian Z, Zhang B. Conditional positional encodings for vision transformers. In: Proceedings of the International Confer- ence on Learning Representations. Virtual Event: ICLR, 2021. 18 19 Han K, Xiao A, Wu E. Transformer in transformer. Advances in Neural Information Processing Systems , 2021, 34: 15908−15919 2Yin Hong-Peng, Chen Bo, Chai Yi, Liu Zhao-Dong. Vision- based object detection and tracking: A review. Acta Automat- ica Sinica , 2016, 42(10): 1466−1489 (尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自 动化学报, 2016, 42(10): 1466−1489) Touvron H, Cord M, Douze M. Training data-efficient image transformers distillation through attention. In: Proceedings of the International Conference on Machine Learning. Jeju Island, South Korea: PMLR, 2021. 10347−10357 20 3Xu Peng-Bin, Zhai An-Guo, Wang Kun-Feng, Li Da-Zi. A sur- vey of panoptic segmentation methods. Acta Automatica Sinica , 2021, 47(3): 549−568 (徐鹏斌, 翟安国, 王坤峰, 李大字. 全景分割研究综述. 自动化学 报, 2021, 47(3): 549−568) Yuan L, Chen Y, Wang T. Tokens-to-Token ViT: Training vis- ion transformers from scratch on ImageNet. In: Proceedings of the International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 558−567 21Henaff O. Data-efficient image recognition with contrastive pre- dictive coding. In: Proceedings of International Conference on Machine Learning. Berlin, Germany: PMLR, 2020. 4182−4192 4Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. Communications of the ACM , 2017, 60(6): 84−90 22 5Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556, 2014. Liu Z, Lin Y, Cao Y. Swin Transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the Inter- national Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 10012−10022 23 6Huang G, Liu Z, Laurens V D M. Densely connected convolu- tional networks. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 4700−4708 Rao Y, Zhao W, Liu B. Dynamicvit: Efficient vision trans- formers with dynamic token sparsification. Advances in Neural Information Processing Systems , 2021, 34: 13937−13949 24Lin H, Cheng X, Wu X. CAT: Cross attention in visiontrans- former. In: Proceedings of the International Conference on Mul- timedia and Expo. Taipei, China: IEEE, 2022. 1−6 7He K, Zhang X, Ren S. Deep residual tearning for image recog- nition. In: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 25Vaswani A, Ramachandran P, Srinivas A. Scaling local self-at- tention for parameter efficient visual backbones. In: Proceedings of Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 12894−12904 8Xie S, Girshick R, Dollár P. Aggregated residual transforma- tions for deep neural networks. In: Proceedings of the Confer- ence on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1492−1500 26Wang W, Chen W, Qiu Q. Crossformer++: A versatile vision transformer hinging on cross-scale attention. arXiv preprint arX- iv: 2303.06908, 2023. 27 9Szegedy C, Liu W, Jia Y. Going deeper with convolutions. In: Proceedings of the Conference on Computer Vision and Pattern Huang Z, Ben Y, Luo G. Shuffle transformer: Rethinking spa- tial shuffle for vision transformer. arXiv preprint arXiv: 2106.03650, 2021. Copyright©博看网. All Rights Reserved. 1988 28 自 动 化 学 报 arXiv preprint arXiv: 1711.05101, 2017. 43 49 卷 Yu Q, Xia Y, Bai Y. Glance-and-gaze vision transformer. Ad- vances in Neural Information Processing Systems , 2021, 34: 12992−13003 Wang H, Zhu Y, Green B. Axial-deeplab: Stand-alone axial-at- tention for panoptic segmentation. In: Proceedings of the 16th European Conference. Glasgow, UK: ECCV, 2020. 108−126 29 You Y, Li J, Reddi S. Large batch optimization for deep learn- ing: Training bert in 76 minutes. arXiv preprint arXiv: 1904.00962, 2019. 44 30Dong X, Bao J, Chen D. Cswin transformer: A general vision transformer backbone with cross-shaped windows. In: Proceed- ings of the Conference on Computer Vision and Pattern Recog- nition. New York, USA: IEEE, 2022. 12124−12134 Cai Z, Vasconcelos N. Cascade R-CNN: Delving into high qual- ity object detection. In: Proceedings of the Conference on Com- puter Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162 45 31Wu S, Wu T, Tan H. Pale transformer: A general vision trans- former backbone with pale-shaped attention. In: Proceedings of the AAAI Conference on Artificial Intelligence. Washington, USA: 2022. 2731−2739 Wu W, Liu H, Li L. Application of local fully convolutional neural network combined with YOLO v5 algorithm in small tar- get detection of remote sensing image. PloS One , 2021, 16(10): 1−10 46 47 Bottou L. Stochastic gradient descent tricks. Journal of Ma- chine Learning Research , 2017, 18: 1−15 32Wang W, Xie E, Li X. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In: Proceed- ings of the International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 568−578 Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv: 2004.10934, 2020. 33Ren S, He K, Girshick R. Faster R-CNN: Towards real-time ob- ject detection with region proposal networks. Advances in Neur- al Information Processing Systems , 2015: 28 34 35 36 Efraimidis P S, Spirakis P G. Weighted random sampling with a reservoir. Information Processing Letters , 2006, 97(5): 181−185 Krizhevsky A, Hinton G. Convolutional beep belief networks on CIFAR-10. Unpublished Manuscript , 2010, 40(7): 1−9 Geiger A, Lenz P, Stiller C. Vision meets robotics: The KITTI dataset. International Journal of Robotics Research (IJRR) , 2013 37Everingham M, Eslami S M A, Van Gool L. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision , 2015, 111: 98−136 38Veit A, Matera T, Neumann L. Coco-text: Dataset and bench- mark for text detection and recognition in natural images. arX- iv preprint arXiv: 1601.07140, 2016. 赵 亮 西安建筑科技大学信息与控 制工程学院教授. 主要研究方向为智 能建筑检测, 计算机视觉和模式识别. 本文通信作者. E-mail: *******************.cn (ZHAO Liang Professor at College of Information and Control Engin- eering, Xi'an University of Architecture and Techno- logy. His research interest covers intelligent building detection, computer vision and pattern recognition. Corresponding author of this paper.) 周继开 西安建筑科技大学信息与控 制工程学院硕士研究生. 主要研究方 向为图像处理和目标检测. E-mail: ******************** (ZHOU Ji-Kai Master student at College of Information and Control Engineering, Xi'an University of Architecture and Technology. His research interest covers image processing and object detection.) 39Selvaraju R R, Cogswell M, Das A. Grad-cam: Visual explana- tions from deep networks via gradient-based localization. In: Proceedings of the International Conference on Computer Vis- ion. Venice, Italy: IEEE, 2017. 618−626 40Chen K, Wang J, Pang J. MMDetection: Open MMLab detec- tion toolbox and benchmark. arXiv preprint arXiv: 1906.07155, 2019. 41He K, Gkioxari G, Dollár P. Mask R-CNN. In: Proceedings of the International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2961−2969 42Loshchilov I, Hutter F. Decoupled weight decay regularization. Copyright©博看网. All Rights Reserved.
版权声明:本文标题:基于重组性高斯自注意力的视觉Transformer 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1711601718a601816.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论