【论文速看】DL最新进展20240927-目标检测、Transformer

【目标检测】

[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection

论文链接：https://arxiv.org/abs/2406.05755

代码链接：https://github.com/hoiliu-0801/DNTR

尽管计算机视觉领域取得了显著进展，但精确检测微小物体仍然是一个重大挑战，这主要是因为这些物体在图像数据中的像素表示非常微小。这一挑战在地球科学和遥感领域尤为突出，高保真地检测微小物体可以促进从城市规划到环境监测的各种应用。文中提出了一种新的框架，即DeNoising FPN with Trans R-CNN (DNTR)，以提升微小物体检测的性能。DNTR由一个易于插入的设计模块DeNoising FPN (DN-FPN)和一个高效的基于Transformer的检测器Trans R-CNN组成。具体来说，特征金字塔网络中的特征融合对于检测多尺度对象非常重要。然而，由于不同尺度特征之间缺乏正则化，融合过程中可能会产生噪声特征。因此，引入了DN-FPN模块，利用对比学习来抑制FPN自上而下路径中每个层级特征的噪声。其次，基于双阶段框架，用新颖的Trans R-CNN检测器替代了过时的R-CNN检测器，以自注意力机制聚焦于微小物体的表示。实验结果表明，DNTR在AI-TOD数据集上的APvt至少比基线提高了17.4%，在VisDrone数据集上的AP至少提高了9.6%。

在这里插入图片描述

[ICLR 2022] FP-DETR: DETECTION TRANSFORMER ADVANCED BY FULLY PRE-TRAINING

论文链接：https://openreview.net/pdf?id=yjMQuLLcGWK

代码链接：https://github.com/encounter1997/FP-DETR

大规模预训练已被证明在下游任务的视觉表示学习中是有效的，尤其是在提高鲁棒性和泛化能力方面。然而，最近开发的检测转换器（detection transformers）只在其主干网络上进行预训练，而关键的组件，即12层转换器，却是从头开始训练的，这阻碍了模型获得上述好处。这种分离的训练范式主要是由于上游和下游任务之间的差异造成的。为了缓解这个问题，文中提出了FP-DETR，它对仅编码器的转换器进行全面预训练，并通过任务适配器（task adapter）对其进行平滑微调以用于目标检测。受到自然语言处理中文本提示（textual prompts）成功的启发，将查询位置嵌入视为视觉提示，帮助模型关注目标区域（提示）并识别对象。为此，提出了任务适配器，该适配器利用自注意力来建模对象查询嵌入之间的上下文关系。在具有挑战性的COCO数据集上的实验表明，FP-DETR实现了有竞争力的性能。此外，与最先进的检测转换器相比，它在抵御常见干扰和对小型数据集的泛化方面表现更好。

在这里插入图片描述

【Transformer】

[ICML 2024] SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接：https://arxiv.org/abs/2405.11582

代码链接：https://github.com/xinghaochen/SLAB

Transformers 已成为自然语言和计算机视觉任务的基础架构。然而，高计算成本使其在资源受限的设备上部署变得相当具有挑战性。本文研究了高效 Transformer 的计算瓶颈模块，即归一化层和注意力模块。LayerNorm 通常用于 Transformer 架构中，但由于推理期间的统计计算，其计算效率并不友好。然而，用更高效的 BatchNorm 替换 Transformer 中的 LayerNorm 往往会导致性能下降和训练崩溃。为了解决这个问题，文中提出了一种名为 PRepBN 的新方法，以在训练过程中逐步用重参数化的 BatchNorm 替换 LayerNorm。此外，还提出了一个简化的线性注意力（SLA）模块，该模块简单但有效，能够实现强大的性能。广泛的图像分类和目标检测实验证明了提出方法的有效性。例如，SLAB-Swin 在 ImageNet-1K 上的 top-1 准确率达到了 83.6%，延迟为 16.2ms，比 Flatten-Swin 减少了 2.4ms，并且准确率提高了 0.1%。还评估了该方法在语言建模任务中的表现，并获得了相当的性能。

在这里插入图片描述

[CVPR 2024] ViTamin: Designing Scalable Vision Models in the Vision-Language Era

论文链接：https://arxiv.org/abs/2404.02132

代码链接：https://github.com/Beckschen/ViTamin

近期在视觉-语言模型（VLMs）方面的突破为视觉社区开启了新的篇章。与基于 ImageNet 预训练的模型相比，VLMs 提供了更强且更具泛化性的特征嵌入，这归功于其在大规模互联网图像-文本对上进行的训练。然而，尽管 VLMs 取得了令人惊叹的成就，传统的视觉变换器（ViTs）仍然是图像编码的默认选择。尽管纯变换器在文本编码领域证明了其有效性，但在图像编码方面是否同样适用仍然存疑，尤其是考虑到在 ImageNet 基准测试中提出了各种类型的网络，遗憾的是这些网络在 VLMs 中很少被研究。由于数据/模型规模较小，ImageNet 上的原始模型设计结论可能受到限制和偏见。本文旨在构建一个在对比语言-图像预训练（CLIP）框架下的视觉模型评估协议。文中提供了一种全面的方法来评估不同的视觉模型，涵盖它们的零样本性能以及在模型和训练数据大小方面的可扩展性。为此，作者引入了 ViTamin，一种专为 VLMs 量身定制的新视觉模型。在使用相同的公开可用 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时，ViTamin-L 的 ImageNet 零样本准确率显著优于 ViT-L，提高了 2.0%。ViTamin-L 在包括分类、检索、开放词汇检测和分割在内的 60 个多样化基准测试中呈现了有希望的结果，并适用于大型多模态模型。当进一步扩展模型规模时， ViTamin-XL 仅有 436M 参数，达到了 82.9% 的 ImageNet 零样本准确率，超过了拥有十倍更多参数（4.4B）的 EVA-E 所达到的 82.0%。

在这里插入图片描述