论文速读：完全测试时域适应（Test-time Adaptation）目标检测(CVPR2024)

原文标题：Fully Test-time Adaptation for Object Detection

中文标题：完全测试时间适应目标检测

通过百度网盘分享的文件：Fully_Test-time_Adaptation_for_Obje...

链接： 百度网盘请输入提取码

提取码：yrvz

代码地址： https://github.com/XiaoqianRuan1/IoU-filter

1、Abstract

虽然目标检测性能在过去十年中有了很大的提高，但目前的目标检测器往往容易在训练数据和测试图像之间受到域转移的影响。领域自适应技术的发展是为了使在源领域训练的目标检测器适应目标领域。然而，他们假设目标领域是已知且固定的，并且目标数据集是可用于训练的，这在许多现实世界的应用中是无法满足的。为了弥补这一差距，本文对目标检测的测试时间自适应进行了全面的研究。这意味着在进行预测之前，在单个测试图像上更新已经训练好的目标检测器，而无需访问训练数据。通过对基线自我训练框架的诊断研究，我们发现该任务的一个巨大挑战是由域漂移引起的伪标签的不可靠性。然后，我们提出了一个简单而有效的方法，称为IoU过滤器，以解决这一挑战。它由两个新的基于IoU的指标组成，这两个指标都是对检测置信度的补充。在五个数据集上的实验结果表明，我们的方法可以有效地使训练好的检测器适应测试时的各种域移位，并带来可观的性能提升。

2、Introduction

目标检测是计算机视觉中的一项基本任务，它处理识别和定位图像中的目标。尽管深度学习方法在标准基准上极大地推动了最先进的目标检测性能，但目前的目标检测器通常容易受到训练数据和测试图像之间的域转移的影响，例如看不见的风格、天气、照明条件和噪声。

2.1、域适应面临的挑战

领域自适应（Domain adaptation）技术是将在源域训练的目标检测器适应到目标域，使其对领域偏移具有鲁棒性。无监督域自适应(UDA)方法需要标记的源数据和未标记的目标数据。这是不可取的，因为出于隐私和利润考虑，源数据通常不可用。无源域自适应(source - free domain adaptation, SFDA)方法就是为了克服这一限制而开发的，它能使得在源数据上训练的检测器无需访问源数据即可适应目标域。UDA 和 SFDA 都假设目标域已知且固定，并且从该域采样的目标数据集可用于训练。然而现实世界是复杂且非平稳的，不可能被任何固定的数据集覆盖。在测试时，检测器必须动态适应未知和变化的域偏移。这在许多现实世界的应用中都是需要的，从帮助视障人士阅读图像的智能助手和自动标记用户上传照片的社交媒体，到随着地点、天气和行人密度变化而安全行驶的自动驾驶汽车。

2.2、测试时间域适应TTA

1）测试时间适应（Test-time adaptation，TTA）的发展就是为了解决这个具有挑战性但很重要的问题。它不预测分布的变化，而是在测试时从中学习：在进行预测之前，会根据单个测试样本来更新已经训练好的模型。然而，这一工作的重点是图像分类，需要访问源数据。最近，TENT 解决了完全测试时自适应问题，这是无源的，但它依赖于一批测试样本来估计归一化统计数据，并且仍然专注于图像分类。

2）为了弥补这一差距，本文对目标检测的测试时间自适应进行了全面的研究。如图1所示，它意味着在不访问训练数据的情况下，在进行预测之前，在单个测试图像上更新已训练好的目标检测器，例如FasterRCNN。与UDA和SFDA相比，我们既没有假设一个固定和已知的目标域，也没有目标数据集。它将促进许多应用，例如针对社交媒体和视障人士的图像理解系统，其中目标域因图像而异，因此只能从一个样本中学习适应。

3）我们首先介绍该任务的基线方法，该方法建立在经典的自我训练框架之上。它根据检测置信度迭代地获得测试图像上的伪标签，并使用伪标签来更新检测器。最后，检测器会在最后一次迭代的时候对测试图像进行预测。我们的诊断研究表明，该框架很有前途，但其性能很大程度上受到域转移引起的低质量伪标签的瓶颈。即使在高置信度阈值下，伪标签也非常嘈杂。

2.3、本文提出的办法

1）我们提出了一种新的方法，称为IoU（Intersection over Union）过滤器，用于在存在域移位的情况下获得更高质量的伪标签。它由两个新的基于IoU的指标组成，这两个指标都是对检测置信度的补充。第一个指标是连续迭代之间的 IoU (IoU-CI)，根据类别和位置将当前自训练迭代中的目标检测与上一次迭代中的目标检测进行匹配。然后在这些匹配成功的检测IoU之中选择伪标签。第二个指标是重叠检测之间的IoU (IoU- od)，它消除了在域移位下由于分类模糊而导致的相同实例却被当作不同类别的重复检测。我们的统计结果表明，这两个指标都增加了正确伪标签的百分比，从而显著提高了测试时的目标检测性能。

2）值得注意的是，我们的任务设置不同于一次性无监督跨域检测（one-shot unsupervised cross-domain detection，OSHOT）和在线域自适应目标检测（online domain adaptive，ODA）。OSHOT通过在测试时只对一个目标样本求解自监督辅助任务（即旋转分类）来执行跨域的无监督自适应。但是它需要在检测模型中加入一个辅助的预测头，并在训练数据上学习自监督任务，因此它不是无源代码的。此外，我们表明本文提出的方法在这种情况下也是有效的，这表明了其多功能性。ODA 以在线方式使检测器适应目标数据集，每个样本依次到达并不断更新模型，在源模型对目标数据集中的所有样本进行训练后，进行测试和评估。此外，他们方法的核心是一种新颖的内存模块（MemXformer），它存储目标分布的原型模式以避免遗忘。添加的 MemXformer 是在源数据上进行预训练的，因此不是无源的。

2.4、本文贡献

本文的贡献总结如下：

1）据我们所知，这是第一个针对目标检测进行完全测试时间适应的工作。与流行的 UDA 和 SFDA 相比，它既不假设固定且已知的目标域，也不需要访问目标数据集。这在许多图像理解应用中是需要的，其中目标域事先未知并且因图像而异。

2）通过对基线自我训练框架的诊断研究，我们表明该任务的巨大挑战是域转移引起的伪标签的不可靠性。我们提出了一种简单而有效的方法，即 IoU Filter 来应对这一挑战。它包括两个新的基于 IoU 的指标，并在存在域转移的情况下选择更高质量的伪标签。

3）五个数据集的实验结果表明，我们的方法可以有效地使训练有素的检测器适应测试时的各种域转换，并带来显著的性能提升。

3、Related Work

3.1、Test-time Adaptation

测试时间适应或训练的目的是在进行预测之前，在单个未标记测试样本上更新已经训练好的模型，以提高模型对分布变化的鲁棒性。有研究通过创建一个自监督辅助任务（旋转分类）在这个单个测试样本上训练模型。有研究提出了基于自监督对比学习和在线伪标记方案的AdaContrast。有研究通过利用事件的时间结构，专注于基于事件的目标识别的测试时间适应。然而这些方法需要访问训练数据。为了解决这一限制，TENT 引入了完全的测试时间自适应，它直接最小化了模型在测试时间预测的熵。最近，也有研究将TENT扩展到不断变化的环境中，他们运用加权和增强平均预测来减少误差积累，并随机恢复权重以避免灾难性遗忘。所有这些测试时间自适应方法都集中在分类任务上。

3.2、Domain-adaptive Object Detection

人们已经开发了多种方法来使在源域中训练的目标检测器适应目标域，如基于对抗性特征学习，自训练，图像到 -图像翻译和域随机化。然而它们通常需要源数据，而在某些实际场景中，源数据是不可用的。这种限制激发了无源无监督域自适应目标检测的工作。有些方法是建立在自我训练框架之上的。有研究将预测不确定性视为自熵，并提出了一种称为自熵下降（self-entropy descent，SED）的新度量来搜索最佳置信度阈值。有研究引入了一种用于噪声过滤和伪标签细化的负集成学习（Negative Ensemble Learning，NEL）技术，该技术通过增强集成成员的多样性来处理噪声伪标签。有研究提出联合模型数据结构（Joint Model-Data Structure，JMDS）评分，包括对数概率间隙（Log Probability Gap，LPG）和伪标签模型概率（Model Probability of Pseudo-Label，MPPL）评分，来衡量样本的重要性。然而这一系列工作假设目标域已知且固定，并且从该域采样的目标数据集可用于训练。

与现有工作不同，我们既不假设固定且已知的目标域，也不需要访问目标数据集。相反，我们的目标是在进行预测之前在单个测试图像上更新经过训练的目标检测器，而无需访问训练数据。此外，我们提出了一种新方法，即 IoU 滤波器，来有效解决这一具有挑战性但重要的任务。

4、Problem Setting

我们正式引入目标检测的完全测试时间适应。在测试时，我们提供一个训练好的目标检测器，例如Faster RCNN，参数为θ0，和单个测试图像I，并且无法获得检测器最初训练的源数据，也无法获得从已知目标域采样的目标数据集。然后我们在测试图像I上调整目标检测器，得到更新后的参数θT。遵循以往在分类任务中的测试时间适应设置，我们允许模型在此单个测试图像I上多次迭代更新。最后，我们将使用更新后的检测器θT对测试图像I进行预测。

5、Discussion of Limitation

我们的方法的主要限制是，所提出的IoU过滤器可以排除一些不正确的检测，但同时也会从伪标签中排除一些正确的检测。它增加了正确伪标签的百分比，但减少了伪标签的绝对数量。虽然我们的方法可以明显改善存在域移位的目标检测，但我们相信如果能提高伪标签质量的同时减少正确伪标签的误删，性能可以进一步提高。

6、Conclusion

本文提出了第一种解决目标检测的完全测试时间自适应问题的方法。与目前的领域自适应目标检测器相比，它既不假设目标分布是固定的且已知的，也不需要访问目标数据集，而这在许多应用中是需要的。我们首先研究了一个基线自训练框架，但发现它的性能受到由域移位引起的低质量伪标签的瓶颈。为了克服这个障碍，我们引入了IoU滤波器；它包括两个基于iou的指标，可以在存在域移位的情况下选择更高质量的伪标签。在三个数据集上的实验结果表明，我们的方法可以有效地使训练好的检测器适应测试时的各种域移位，并带来可观的性能提升。通过消融研究，我们发现每个指标都是有效的，并且它们是互补的，阈值可能会影响性能，并且训练过多的迭代可能会降低测试时的完全适应性。