论文速读:完全测试时域适应(Test-time Adaptation)目标检测(CVPR2024)

原文标题:Fully Test-time Adaptation for Object Detection

中文标题:完全测试时间适应目标检测

通过百度网盘分享的文件:Fully_Test-time_Adaptation_for_Obje...

链接: 百度网盘 请输入提取码

提取码:yrvz

代码地址: https://github.com/XiaoqianRuan1/IoU-filter

1Abstract

虽然目标检测性能在过去十年中有了很大的提高,但目前的目标检测器往往容易在训练数据和测试图像之间受到域转移的影响。领域自适应技术的发展是为了使在源领域训练的目标检测器适应目标领域。然而,他们假设目标领域是已知且固定的,并且目标数据集是可用于训练的,这在许多现实世界的应用中是无法满足的。为了弥补这一差距,本文对目标检测的测试时间自适应进行了全面的研究。这意味着在进行预测之前,在单个测试图像上更新已经训练好的目标检测器,而无需访问训练数据。通过对基线自我训练框架的诊断研究,我们发现该任务的一个巨大挑战是由域漂移引起的伪标签的不可靠性。然后,我们提出了一个简单而有效的方法,称为IoU过滤器,以解决这一挑战。它由两个新的基于IoU的指标组成,这两个指标都是对检测置信度的补充。在五个数据集上的实验结果表明,我们的方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。

2、Introduction

目标检测是计算机视觉中的一项基本任务,它处理识别和定位图像中的目标。尽管深度学习方法在标准基准上极大地推动了最先进的目标检测性能,但目前的目标检测器通常容易受到训练数据和测试图像之间的域转移的影响,例如看不见的风格、天气、照明条件和噪声。

2.1、域适应面临的挑战

领域自适应(Domain adaptation)技术是将在源域训练的目标检测器适应到目标域,使其对领域偏移具有鲁棒性。无监督域自适应(UDA)方法需要标记的源数据和未标记的目标数据。这是不可取的,因为出于隐私和利润考虑,源数据通常不可用。无源域自适应(source - free domain adaptation, SFDA)方法就是为了克服这一限制而开发的,它能使得在源数据上训练的检测器无需访问源数据即可适应目标域。UDA 和 SFDA 都假设目标域已知且固定,并且从该域采样的目标数据集可用于训练。然而现实世界是复杂且非平稳的,不可能被任何固定的数据集覆盖。 在测试时,检测器必须动态适应未知和变化的域偏移。 这在许多现实世界的应用中都是需要的,从帮助视障人士阅读图像的智能助手和自动标记用户上传照片的社交媒体,到随着地点、天气和行人密度变化而安全行驶的自动驾驶汽车。

2.2、测试时间域适应TTA

1测试时间适应(Test-time adaptation,TTA)的发展就是为了解决这个具有挑战性但很重要的问题。它不预测分布的变化,而是在测试时从中学习:在进行预测之前,会根据单个测试样本来更新已经训练好的模型。然而,这一工作的重点是图像分类,需要访问源数据。最近,TENT 解决了完全测试时自适应问题,这是无源的,但它依赖于一批测试样本来估计归一化统计数据,并且仍然专注于图像分类。

2为了弥补这一差距,本文对目标检测的测试时间自适应进行了全面的研究。如图1所示,它意味着在不访问训练数据的情况下,在进行预测之前,在单个测试图像上更新已训练好的目标检测器,例如FasterRCNN。与UDA和SFDA相比,我们既没有假设一个固定和已知的目标域,也没有目标数据集。它将促进许多应用,例如针对社交媒体和视障人士的图像理解系统,其中目标域因图像而异,因此只能从一个样本中学习适应。

3我们首先介绍该任务的基线方法,该方法建立在经典的自我训练框架之上。它根据检测置信度迭代地获得测试图像上的伪标签,并使用伪标签来更新检测器。 最后,检测器会在最后一次迭代的时候对测试图像进​​行预测。我们的诊断研究表明,该框架很有前途,但其性能很大程度上受到域转移引起的低质量伪标签的瓶颈。即使在高置信度阈值下,伪标签也非常嘈杂。

2.3、本文提出的办法

1我们提出了一种新的方法,称为IoU(Intersection over Union)过滤器,用于在存在域移位的情况下获得更高质量的伪标签。它由两个新的基于IoU的指标组成,这两个指标都是对检测置信度的补充。第一个指标是连续迭代之间的 IoU (IoU-CI),根据类别和位置将当前自训练迭代中的目标检测与上一次迭代中的目标检测进行匹配。然后在这些匹配成功的检测IoU之中选择伪标签。第二个指标是重叠检测之间的IoU (IoU- od),它消除了在域移位下由于分类模糊而导致的相同实例却被当作不同类别的重复检测。我们的统计结果表明,这两个指标都增加了正确伪标签的百分比,从而显著提高了测试时的目标检测性能。

2值得注意的是,我们的任务设置不同于一次性无监督跨域检测(one-shot unsupervised cross-domain detection,OSHOT)和在线域自适应目标检测(online domain adaptive,ODA)。OSHOT通过在测试时只对一个目标样本求解自监督辅助任务(即旋转分类)来执行跨域的无监督自适应。但是它需要在检测模型中加入一个辅助的预测头,并在训练数据上学习自监督任务,因此它不是无源代码的。此外,我们表明本文提出的方法在这种情况下也是有效的,这表明了其多功能性。ODA 以在线方式使检测器适应目标数据集,每个样本依次到达并不断更新模型,在源模型对目标数据集中的所有样本进行训练后,进行测试和评估。此外,他们方法的核心是一种新颖的内存模块(MemXformer),它存储目标分布的原型模式以避免遗忘。添加的 MemXformer 是在源数据上进行预训练的,因此不是无源的。

2.4、本文贡献

本文的贡献总结如下:

1据我们所知,这是第一个针对目标检测进行完全测试时间适应的工作。与流行的 UDA 和 SFDA 相比,它既不假设固定且已知的目标域,也不需要访问目标数据集。这在许多图像理解应用中是需要的,其中目标域事先未知并且因图像而异。

2通过对基线自我训练框架的诊断研究,我们表明该任务的巨大挑战是域转移引起的伪标签的不可靠性。我们提出了一种简单而有效的方法,即 IoU Filter 来应对这一挑战。它包括两个新的基于 IoU 的指标,并在存在域转移的情况下选择更高质量的伪标签。

3五个数据集的实验结果表明,我们的方法可以有效地使训练有素的检测器适应测试时的各种域转换,并带来显著的性能提升。

3、Related Work

3.1、Test-time Adaptation

测试时间适应或训练的目的是在进行预测之前,在单个未标记测试样本上更新已经训练好的模型,以提高模型对分布变化的鲁棒性。有研究通过创建一个自监督辅助任务(旋转分类)在这个单个测试样本上训练模型。有研究提出了基于自监督对比学习和在线伪标记方案的AdaContrast。有研究通过利用事件的时间结构,专注于基于事件的目标识别的测试时间适应。然而这些方法需要访问训练数据。为了解决这一限制,TENT 引入了完全的测试时间自适应,它直接最小化了模型在测试时间预测的熵。最近,也有研究将TENT扩展到不断变化的环境中,他们运用加权和增强平均预测来减少误差积累,并随机恢复权重以避免灾难性遗忘。所有这些测试时间自适应方法都集中在分类任务上。

3.2、Domain-adaptive Object Detection

人们已经开发了多种方法来使在源域中训练的目标检测器适应目标域,如基于对抗性特征学习,自训练,图像到 -图像翻译 和域随机化。然而它们通常需要源数据,而在某些实际场景中,源数据是不可用的。这种限制激发了无源无监督域自适应目标检测的工作。有些方法是建立在自我训练框架之上的。有研究将预测不确定性视为自熵,并提出了一种称为自熵下降(self-entropy descent,SED)的新度量来搜索最佳置信度阈值。有研究引入了一种用于噪声过滤和伪标签细化的负集成学习(Negative Ensemble Learning,NEL)技术,该技术通过增强集成成员的多样性来处理噪声伪标签。有研究提出联合模型数据结构(Joint Model-Data Structure,JMDS)评分,包括对数概率间隙(Log Probability Gap,LPG)和伪标签模型概率(Model Probability of Pseudo-Label,MPPL)评分,来衡量样本的重要性。然而这一系列工作假设目标域已知且固定,并且从该域采样的目标数据集可用于训练。

与现有工作不同,我们既不假设固定且已知的目标域,也不需要访问目标数据集。 相反,我们的目标是在进行预测之前在单个测试图像上更新经过训练的目标检测器,而无需访问训练数据。此外,我们提出了一种新方法,即 IoU 滤波器,来有效解决这一具有挑战性但重要的任务。

4、Problem Setting

我们正式引入目标检测的完全测试时间适应。在测试时,我们提供一个训练好的目标检测器,例如Faster RCNN,参数为θ0,和单个测试图像I,并且无法获得检测器最初训练的源数据,也无法获得从已知目标域采样的目标数据集。然后我们在测试图像I上调整目标检测器,得到更新后的参数θT。遵循以往在分类任务中的测试时间适应设置,我们允许模型在此单个测试图像I上多次迭代更新。最后,我们将使用更新后的检测器θT对测试图像I进行预测。

5、Discussion of Limitation

我们的方法的主要限制是,所提出的IoU过滤器可以排除一些不正确的检测,但同时也会从伪标签中排除一些正确的检测。它增加了正确伪标签的百分比,但减少了伪标签的绝对数量。虽然我们的方法可以明显改善存在域移位的目标检测,但我们相信如果能提高伪标签质量的同时减少正确伪标签的误删,性能可以进一步提高。

6、Conclusion

本文提出了第一种解决目标检测的完全测试时间自适应问题的方法。与目前的领域自适应目标检测器相比,它既不假设目标分布是固定的且已知的,也不需要访问目标数据集,而这在许多应用中是需要的。我们首先研究了一个基线自训练框架,但发现它的性能受到由域移位引起的低质量伪标签的瓶颈。为了克服这个障碍,我们引入了IoU滤波器;它包括两个基于iou的指标,可以在存在域移位的情况下选择更高质量的伪标签。在三个数据集上的实验结果表明,我们的方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。通过消融研究,我们发现每个指标都是有效的,并且它们是互补的,阈值可能会影响性能,并且训练过多的迭代可能会降低测试时的完全适应性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1419.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

蔚来汽车 AI产品经理面经

问的问题都比较深入,要求有项目基础,祝好🥰 1、自我介绍 2、你的产品上线后有没有关注用户反馈? 3、给客户交付时,如果产品能力还没ready,你会怎么办? 4、你们团队需求一般来源于哪里&#…

国内短剧源码短剧系统搭建小程序部署H5、APP打造短剧平台

​在当今的互联网时代,短剧作为一种新兴的娱乐形式,受到了越来越多用户的喜爱。为了提供更好的用户体验和满足用户需求,一个好的短剧系统需要具备多元化的功能和优质的界面设计。 本文将介绍国内短剧源码短剧系统搭建小程序部署H5、APP所需的…

深入浅出了解AI教育发展与落地应用情况

2023年,是生成式AI能力涌现的一年,通用大模型是其中的主旋律。经过一年的发展,通用大模型格局已初步形成,生成式AI也从能力展示走向应用落地。进入2024年,对生成式AI的讨论和实践也都转向如何赋能产业。相比于通用大模型,进入产业内的大模型需要的是对行业的Know-How,以…

‘随机失活’:人工智能真的在模仿人脑吗?

序言:过拟合是人工智能训练中的一个常见问题,类似于一位“读死书”的学生,他只能机械地背诵书本内容,缺乏灵活性,一旦题目稍有变化便无法理解。为了解决这一问题,科学家们从人脑的学习方式中获得启发&#…

【机器学习】揭秘XGboost:高效梯度提升算法的实践与应用

目录 🍔 XGBoost 原理 1.1 目标函数确定和树的复杂度介绍 1.2 XGBoost目标函数的推导 1.3 泰勒公式展开 1.4 化简目标函数 1.5 问题再次转换 1.6 对叶子结点求导 1.7 XGBoost的回归树构建方法 🍔 XGBoost API 2.1 通用参数 2.2 Booster 参数 …

Transformer的Pytorch实现【1】

使用Pytorch手把手搭建一个Transformer网络结构并完成一个小型翻译任务。 首先,对Transformer结构进行拆解,Transformer由编码器和解码器(Encoder-Decoder)组成,编码器由Multi-Head Attention Feed-Forward Network组…

【MySQL】存储引擎

MySQL采用的是可插拔的存储引擎架构,也就是说在运行期间可以动态的加载或卸载存储引擎;查看当前服务器存储引擎的方法show engines,其中重点关注两个字段即可,其一是Support-表示当前服务器是否支持,其二是它的数值yes…

构建校园社团信息管理平台:Spring Boot技术的核心要点

6系统测试 6.1概念和意义 测试的定义:程序测试是为了发现错误而执行程序的过程。测试(Testing)的任务与目的可以描述为: 目的:发现程序的错误; 任务:通过在计算机上执行程序,暴露程序中潜在的错误。 另一个…

RAG工具:FlashRAG用于高效 RAG 研究的 Python 工具包

随着大语言模型的火热,如何提高生成内容的准确性和可靠性,成为各行业关注的重点。检索增强生成(RAG)正是通过将强大的检索功能与语言模型结合,在生成文本时引入来自外部的实时信息。 今天,我们来了解一款为…

任天堂新款闹钟被玩家破解,竟能运行《毁灭战士》游戏!

任天堂于10月9日推出的Nintendo Sound Clock Alarmo闹钟在市场上引起了强烈反响。这款定价为99.99美元(约706元人民币)的闹钟,在日本则以12980日元(约619元人民币)的价格迅速被抢购一空。 近日,首批收到闹钟…

我笑了,居民日均劳动不满3.5小时

鸭鸭是一位现代都市青年,生活节奏规律,时间安排精细,非常符合国家统计局发布的时间利用调查报告中的数据。以下是鸭鸭一天的生活日常: 早上 7:00 - 鸭鸭准时起床,开始一天的生活。他通常会在床上稍微刷刷手机&#xf…

django快速基本配置(2)

知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具 目录 配置开发目录 配置MySQL数据库 配置Redis数据库 配置工程日志 用户注册 跨域CORS 注意 配置开发目录 libs 存放第三方的库文件 utils 存放项目自己定义的公共函数或类等 apps 存…

前端技术月刊-2024.11

本月技术月刊聚焦于前端技术的最新发展和业务实践。业界资讯部分,React Native 0.76 版本发布,带来全新架构;Deno 2.0 和 Node.js 23 版本更新,推动 JavaScript 生态进步;Flutter 团队规模缩减,引发社区关注…

Golang的Web应用架构设计

# Golang的Web应用架构设计 介绍 是一种快速、高效、可靠的编程语言,它在Web应用开发中越来越受欢迎。Golang的Web应用架构设计通常包括前端、后端和数据库三个部分。在本篇文章中,我们将详细介绍Golang的Web应用架构设计及其组成部分。 前端 在Golang的…

element-plus按需引入报错AutoImport is not a function

官网文档:快速开始 | Element Plus webpack配置 // webpack.config.js const AutoImport require(unplugin-auto-import/webpack) const Components require(unplugin-vue-components/webpack) const { ElementPlusResolver } require(unplugin-vue-components…

【51单片机】串口通信原理 + 使用

学习使用的开发板:STC89C52RC/LE52RC 编程软件:Keil5 烧录软件:stc-isp 开发板实图: 文章目录 串口硬件电路UART串口相关寄存器 编码单片机通过串口发送数据电脑通过串口发送数据控制LED灯 串口 串口是一种应用十分广泛的通讯接…

操作系统——计算机系统概述——1.4操作系统结构

目录 操作系统的体系结构 大内核(宏内核/单内核): 微内核: 分层法 模块化 操作系统的体系结构 大内核(宏内核/单内核): 将操作系统的主要功能模块都作为系统内核,运行在核心态。…

ssh和ssl的区别在哪些方面?

在网络安全和数据保护领域,谈话中经常提到的两个词是SSH(安全外壳)和SSL(安全套接字层)。尽管这两者在在线通信安全中都具有重要意义,但它们的使用目的不同,并且处于网络堆栈的不同级别。本文将深入分析 SSH 和 SSL 主要区别在哪些方面。 概念…

第三十三篇:TCP协议如何避免/减少网络拥塞,TCP系列八

一、流量控制 一般来说,我们总是希望数据传输得更快一些,但是如果发送方把数据发送得太快,接收方可能来不及接收,造成数据的丢失,数据重发,造成网络资源的浪费甚至网络拥塞。所谓的流量控制(fl…

基于卷积神经网络的棉花病虫害识别与防治系统,resnet50,mobilenet模型【pytorch框架+python源码】

更多目标检测和图像分类识别项目可看我主页其他文章 功能演示: 棉花病害识别与防治系统,卷积神经网络,resnet50,mobilenet【pytorch框架,python源码】_哔哩哔哩_bilibili (一)简介 基于卷积…