【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接：https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据，其中包含大量少数/尾部类别，这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型，能够高准确度地识别所有类别，特别是少数/尾部类别。这是一个前沿研究方向，在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先，提出了一个新的长尾学习分类法，包括八个不同的维度，如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法，对长尾学习方法进行了系统回顾，讨论了它们的共性和可比较的差异。同时，还分析了不平衡学习和长尾学习方法之间的差异。最后，讨论了这个领域的前景和未来方向。
在这里插入图片描述

【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接：https://arxiv.org/pdf/2409.08849

代码链接：https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像，但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像，从大型自监督模型（如CLIP）中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了，当与足够大的卷积解码器结合使用时，预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同，所提方法能够在具有挑战性的扩散模型情况下执行定位，其中整个图像都受到生成器的影响。此外，作者观察到，这种结合了局部语义信息和全局的数据类型，相比其他生成方法类别，提供了更稳定的泛化性能。

在这里插入图片描述

[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接：https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧，凸显了对鲁棒且可泛化的面部伪造检测（FFD）技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式，但其他模态如细粒度噪音和文本尚未被充分探索，这限制了模型的泛化能力。此外，大多数FFD方法倾向于识别由GAN生成的面部图像，但难以检测未见过的扩散合成图像。为了克服这些局限性，文中旨在利用尖端的基础模型——对比语言-图像预训练（CLIP），实现可泛化的扩散面部伪造检测（DFFD）。本文中提出了一种新颖的多模态细粒度CLIP（MFCLIP）模型，通过语言引导的面部伪造表示学习，挖掘全面的细粒度伪造痕迹，以促进DFFD的发展。具体而言，设计了一种细粒度语言编码器（FLE），从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器（MVE），以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式，并将它们整合起来以挖掘通用的视觉伪造痕迹。此外，构建了一种创新的即插即用样本对注意力（SPA）方法，以强调相关的负样本对并抑制不相关的负样本对，使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明，所提模型在不同设置下（如跨生成器、跨伪造和跨数据集评估）均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接：https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值，这些真值具有非重叠的掩码布局和互斥的语义。然而，将它们合并用于多数据集训练会破坏这种和谐，并导致语义不一致。例如，一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳，特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战，作者引入了一种简单而有效的多数据集训练方法，通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时，不受训练数据集之间潜在不一致性的影响。值得注意的是，在四个具有标签空间不一致性的基准数据集上进行推理时，在语义分割上的mIoU提升了1.6%，在全景分割上的PQ提升了9.1%，在实例分割上的AP提升了12.1%，并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述

[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接：https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展，同时获取场景的点云和图像变得容易，这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时，严重依赖于标注训练数据的量与质。然而，大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题，作者提出了一种并行双流网络来处理半监督双模态语义分割任务，称为PD-Net，它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流（分别称为原始流和伪标签预测流）。伪标签预测流预测未标注点云及其对应图像的伪标签。然后，未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中，探索了多个双模态融合模块以融合双模态特征。此外，还探索了一个伪标签优化模块，以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明，所提出的PD-Net不仅优于比较的半监督方法，而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述