【论文速看】DL最新进展20241005-Transformer、目标跟踪、Diffusion Transformer

【Transformer】

[NeurlPS 2024] Parameter-Inverted Image Pyramid Networks

机构：清华大学、上海AI Lab、上交、港中文、商汤

论文链接：https://arxiv.org/pdf/2406.04330

代码链接：https://github.com/OpenGVLab/PIIP

图像金字塔在现代计算机视觉任务中常用来获取多尺度特征，以实现对图像的精确理解。然而，图像金字塔使用相同的大尺度模型处理多个分辨率的图像，这需要显著的计算成本。为了克服这个问题，本文提出了一种新颖的网络架构，称为参数反转图像金字塔网络（Parameter-Inverted Image Pyramid Networks，PIIP）。核心思想是使用不同参数大小的模型来处理图像金字塔的不同分辨率层次，从而平衡计算效率和性能。具体来说，PIIP的输入是一组多尺度图像，其中较高分辨率的图像由较小的网络处理。进一步提出了一个特征交互机制，允许不同分辨率的特征相互补充，并有效地整合来自不同空间尺度的信息。广泛的实验表明，与传统的图像金字塔方法和单分支网络相比，PIIP在目标检测、分割和图像分类等任务上取得了更优的性能，同时降低了计算成本。特别是，当将这种方法应用于大规模视觉基础模型InternViT-6B时，在检测和分割上将其性能提高了1%-2%，而计算量仅为原来的40%-60%。这些结果验证了PIIP方法的有效性，并为未来的视觉计算任务提供了一个新的技术方向。
在这里插入图片描述

【目标跟踪】

[NeurlPS 2024] VastTrack: Vast Category Visual Object Tracking

论文链接：https://arxiv.org/pdf/2403.03493

代码链接：https://github.com/HengLan/VastTrack

本文提出了一种新颖的基准测试集，名为VastTrack，旨在通过包含丰富的类别和视频来促进更通用的视觉跟踪技术的发展。VastTrack具有几个吸引人的特性：（1）广泛的目标类别。特别是，它涵盖了来自2,115个类别的目标对象，大大超过了现有流行基准测试集（例如GOT-10k的563个类别和LaSOT的70个类别）的对象类别。凭借如此广泛的目标类别，期望能够学习到更通用的对象跟踪技术。（2）更大的规模。与当前的基准测试集相比，VastTrack提供了50,610个序列，共计420万帧，使其成为迄今为止在视频数量方面最大的基准测试集，因此可以在深度学习时代帮助训练出更强大的视觉跟踪器。（3）丰富的注释。除了传统的边界框注释外，VastTrack还为视频提供了语言描述。VastTrack的丰富注释使得既可以开发仅基于视觉的跟踪技术，也可以开发基于视觉和语言的跟踪技术。为了确保精确的注释，所有视频都经过多轮仔细检查和修正后手动标记。为了理解现有跟踪器的性能并为未来的比较提供基线，广泛评估了25个代表性的跟踪器。由于缺乏丰富的类别和来自不同场景的视频进行训练，这些跟踪器在当前数据集上的表现出现了显著下降，需要更多的努力来提高通用跟踪技术。

【Diffusion Transformer】

[NeurlPS 2024] U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

论文链接：https://arxiv.org/pdf/2405.02730

代码链接：https://github.com/YuchuanTian/U-DiT

扩散变换器（DiTs）将Transformer架构引入到用于潜在空间图像生成的扩散任务中。通过串联一系列Transformer块的各向同性架构，DiTs展示了竞争力强和良好的可扩展性；但与此同时，放弃U-Net以及随后的改进值得重新思考。为此，本文进行了一个简单的玩具实验，比较了基于U-Net架构的DiT和各向同性架构的DiT。结果显示，U-Net架构仅在U-Net归纳偏置中获得轻微优势，表明U-Net风格的DiT可能存在冗余。受到发现U-Net主干特征主要由低频成分支配的启发，作者对自注意力机制中的查询-键-值元组进行了token下采样，尽管计算量显著减少，但这带来了进一步的改进。基于带有下采样token的自注意力机制，本文提出了一系列U形DiT（U-DiTs），并进行了大量实验以展示U-DiT模型的卓越性能。所提出的U-DiT能够在仅为其1/6的计算成本下超越DiT-XL/2。

在这里插入图片描述

[NeurlPS 2024] Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching

论文链接：https://arxiv.org/pdf/2406.01733

代码链接：https://github.com/horseee/learning-to-cache

扩散Transformer最近在各种任务中展示了前所未有的生成能力。然而，这些令人鼓舞的结果是以缓慢的推理为代价的，因为每个去噪步骤都需要对具有大量参数的Transformer模型进行推理。这项研究做出了一个有趣且有些令人惊讶的观察：通过引入缓存机制，可以轻易地移除扩散Transformer中大部分层的计算，甚至不需要更新模型参数。例如，在U-ViT-H/2的情况下，可以在缓存步骤中移除多达93.68%的计算（所有步骤中为46.84%），而FID仅下降不到0.01。为了实现这一点，引入了一种名为**“学习到缓存”（L2C）的新方案**，该方案以动态方式学习为扩散变换器进行缓存。具体来说，通过利用Transformer中各层结构的一致性和扩散的时序性质，将每一层视为缓存的基本单位，探索时间步之间的冗余计算。为了应对在深度模型中识别要缓存和移除的层所面临的指数级搜索空间挑战，提出了一种新颖的可微分优化目标。然后优化一个输入不变但时间步变化的路由器，最终产生一个静态的计算图。实验结果显示，L2C在相同的推理速度下大幅超越了如DDIM和DPM-Solver等采样器以及之前的基于缓存的方法。

在这里插入图片描述