改进前训练结果:
改进后训练结果:
摘要
在Transformer架构引入“超级令牌”(Super Token)的机制,旨在解决浅层网络中过多冗余的局部特征捕捉问题。传统的Transformer在捕捉长程依赖性方面表现出色,但在浅层网络中,由于局部特征冗余,导致了计算效率的低下。为了解决这一问题,STViT(Super Token Vision Transformer)通过借鉴超像素(superpixels)的设计思想,将视觉内容划分为“超级令牌”,从而降低计算复杂度并保留全局信息建模的能力。因此在 YOLOv8 添加 STA 机制来对视觉内容进行更高效的表征,能够有效捕捉图像中的全局依赖关系,在复杂的场景下,识别物体时也能够处理较远距离的依赖性,有助于提升精度。
理论介绍
Super Token Vision Transformer (STViT)的架构如下;
-
输入与卷积干层 (Conv Stem),首先,输入通过一个卷积干层(Conv Stem),该层包含多个3×3的卷积层,以提取图像的基本特征。
-
STT(Super Token Transformer)块,在卷积干层之后,输入到 Super Token Transformer (STT) 块中。STT 块是该模型的核心部分,其中每个 STT 块又分为三个子模块:CPE 、Super Token Attention (STA) 和 ConvFFN 。 CPE 模块是通过卷积操作为每个输入特征添加位置信息,用于学习输入图像的绝对位置编码,与传统的绝对位置编码(APE)和相对位置编码(RPE)相比,CPE 能够更灵活地处理不同分辨率的输入图像;STA 模块是 STViT 的核心机制,是提高全局建模能力,首先,视觉令牌(Visual Tokens)通过一个稀疏关联学习过程被聚合成超级令牌(Super Tokens),类似于通过分割减少了视觉内容的冗余。令牌与超级令牌之间通过稀疏关联计算它们的关联度,这个过程的计算复杂度较低,主要是因为只与邻近的超级令牌进行计算,对生成的超级令牌执行多头自注意力操作(MHSA),以捕捉全局依赖,这一步通过减少比较对象来降低计算成本。最后,将超级令牌的表示通过上采样映射回原始的视觉令牌空间,从而完成全局信息的整合; ConvFFN 是 STT 中的最后一步,它增强了局部特征的表征能力。
-
STViT 采用了层次化结构,通过多个 STT 块来进行特征提取:Stage 1 到 Stage 4:每个阶段有若干个 STT 块