论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)

中文标题:简化目标检测的无源域适应:有效的自我训练策略和性能洞察

原文标题:Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights

此篇文章为论文速读,具体论文精读可以看这一篇:ECCV2024新鲜出炉!简化无源域适应的目标检测-有效的自我训练策略和性能洞察-CSDN博客文章浏览阅读441次。在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。https://blog.csdn.net/m0_63294504/article/details/143504736

1Abstract

本文重点关注计算机视觉中目标检测的无源域适应。这项任务非常具有挑战性并且具有很大的实际意义,因为获取每个新领域的带注释数据集的成本很高。最近的研究针对无源目标检测(SFOD)提出了各种各样的解决方案,其中大多数是具有不同特征对齐、正则化和伪标签选择策略的师生架构的变体。我们的工作研究了在几种适应场景中与更复杂的 SFOD 方法相比更简单的方法及其性能。我们强调了检测器主干中批量归一化层的重要性,并表明仅调整批量统计数据就能使模型成为 SFOD 的强大基线。我们在无源设置中针对 Mean Teacher 提出具有强弱增强(strong-weak augmentation)的简单扩展,即无源无偏教师 (SF-UT),并表明它实际上优于以前的大多数 SFOD 方法。此外我们还展示了一种更简单的策略,即在一组固定的伪标签上进行训练,可以实现与更复杂的师生相互学习相似的性能,提高计算效率的同时并减轻师生崩溃的主要问题。我们使用(Foggy)Cityscapes、Sim10k 和 KITTI 等基准驱动数据集对多项适应任务进行了实验,与 SFOD 的最新技术相比,在 Cityscapes→FoggyCityscapes 上实现了 4.7% AP50 的显著改进。

2、Introduction

2.1、无源域适应的定义与价值

领域适应旨在将从源领域获取的知识转移到具有一定相关性但数据分布不同的目标领域,其特征是领域转移。无源域适应 (SFDA) 解决了一个更具挑战性的场景,即只能访问来自源域的预训练模型和来自目标域的未标记数据。这与标准的无监督域适应 (UDA) 形成鲜明对比,后者可以使用标记的源数据。在难以获得目标域数据标签,以及由于隐私问题、存储限制或部署约束而限制源数据使用的情况下,SFDA变得特别有价值。我们关注的是无源目标检测(source - free Object Detection, SFOD),其目的是在不访问源数据的情况下,将在源域上训练的检测器适应于未标记的目标域。

2.2、目标检测

目标检测是在图像中同时定位和分类多个目标的任务,是计算机视觉的一个主要领域,具有许多实际应用。虽然基于深度学习的目标检测器近年来取得了显著的成功,但它们的性能在存在域转移的情况下往往会出现显著的下降。目标检测的领域适应明显比分类更具挑战性,因为它不仅需要准确的分类,还需要精确的定位。为了应对这一挑战,人们提出了各种无监督域适应的方法来解决目标检测任务(UDAOD)。

2.3、无源域适应目标检测

尽管具有实际意义,但 SFOD 受到的关注相对较少。当存在显著的域转移并且源数据不可访问时,该任务变得特别艰巨,阻止了域转移的显式减少。大多数提出的 SFOD 方法采用 Mean Teacher (MT) 框架,在置信伪标签上进行自我训练。Mean Teacher 最初是为半监督学习(semi-supervised learning,SSL)引入的,是 temporal ensembling 的一种变体,其中知识从教师网络提取到学生网络。学生从教师那里接收伪标签,并通过标准的基于梯度的学习进行更新,而老师则通过先前学生权重的指数移动平均值(EMA)逐渐更新。这种方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。在完全无标签的师生架构训练中,一个主要问题是教师和学生在训练过程中的崩溃。具体来说,每当教师在目标域的表现开始下降时,就会导致学生的进一步下降,进而导致两个网络中的表现崩溃。为了缓解这一挑战,有研究将教师更新的周期增加到2500步(没有指定更新速率,也没有指定如何设置更新周期)。PETS 建议教师和学生定期交换,并增加一名更新较慢的教师,以有效防止灾难性崩溃;然而,这增加了整个体系结构的复杂性,并且需要根据经验设置交换周期。

2.4、本文提出的方法

在这项工作中,我们证明了与前面提到的更复杂的 SFOD 方法相比,一种更简单的 SFOD 方法的有效性。首先,我们强调批量归一化(BN)层的重要性,使用更现代的主干 VGG16-BN(带有 BN 层)而不是之前工作中使用的 VGG16 来展示它们对适应的影响。具体来说,仅通过调整未标记目标训练数据的批量统计数据(一种称为 AdaBN 的技术)被证明是 SFOD 的强大基线。其次,我们提出将无偏见教师(UT)直接扩展到无源设置,称为无源无偏见教师(SF-UT)。最后,我们探索了 SFOD 自我训练策略的各种配置(见图 1)。这包括不同的教师 EMA 更新率、弱强增强的使用以及批量统计数据的适应。我们研究了教师更新率 α 的极端情况,范围从 α = 0(相当于仅使用未标记数据的伪标签训练(Pseudo-Label training)的无源版本,SF-PL)到 α = 1(对应于固定的教师,即在源训练模型产生的固定初始伪标签集上进行训练)。当 SF-PL 与弱强增强相结合时,它相当于 FixMatch的无源版本 (SF-FM) 。对于后者 α = 1 的情况(即固定伪标签),我们将它们分别称为Fixed SF-PL 和Fixed SF-FM,分别用于有和没有弱强增强的情况。我们证明了 AdaBN + Fixed SF-FM 方法,使用由预先使用 AdaBN 适应目标域的源模型生成的固定初始伪标签,其效果几乎与适用于源的成熟的 Unbiased Teacher 一样有效(本文SF-UT)。我们提出的方法 AdaBN + Fixed SF-FM 具有稳定训练的优点,因为它在教师和学生之间没有反馈循环,同时实现了类似的良好性能。

图1:具有不同教师更新率α和使用弱-强增强的SFOD的无源平均教师配置概述。α = 0(即教师=学生)的极端情况分别对应于(无源)Pseudo-Label 和FixMatch。α = 1可以表示为将教师冻结并在一组固定的伪标签上进行训练。令人惊讶的是,AdaBN之后的固定伪标签训练产生的效果与更复杂的师生相互学习相似,并对最先进的SFOD方法提出了挑战。

2.5、本文贡献

1我们强调了批归一化层的重要性,并证明了批统计适应无源目标检测任务的有效性。

2我们介绍了一个无源扩展的无偏教师(SF-UT)。

3我们提出了一种新颖的轻量级策略,将AdaBN与使用弱-强增强的一组固定伪标签的训练相结合(AdaBN + Fixed SF-FixMatch)。

4我们在三种 SFOD 适应场景中进行了实验:恶劣天气适应(Cityscapes→Foggy-Cityscapes)、跨摄像机适应(KITTI→Cityscapes)和合成到真实的适应(SIM10k→Cityscapes)。与更复杂的最先进 SFOD 方法相比,我们证明了 SF-UT 具有优越或接近的性能。此外,简单的AdaBN+Fixed SF-FixMatch策略也取得了有竞争力的结果,并避免了师生方法中常见的崩溃。

3、Related work

3.1、UDA for Object Detection (UDAOD)

1)领域自适应的目的是将学习到的知识从源领域转移到目标领域。在无监督域自适应(Unsupervised Domain Adaptation,UDA)中,源域中有标记的数据可用,目标域中只有未标记的样本可用。大多数UDA方法共享的主要原则是在对源数据联合执行有监督训练的同时显式地减少域移位。域差异的减少可以通过匹配源和目标的特征分布、最优传输或通过核学习或域对抗训练来学习域不变特征来实现。

2)在用于目标检测任务(UDAOD)的 UDA 中,一种流行的方法是通过域对抗训练在图像或实例级别对齐源域和目标域之间的特征,包括 DA-Faster 、SW-Faster、SSA-DA、ICR-CCR、SGA-S、ATF、MeGACDA 和 CST-DA。还研究了在目标域上使用伪标签的方法。例如,NL 设计了一种用于目标检测的鲁棒噪声训练方案,该方案在从目标域获取具有噪声的边界框和标签作为伪真实值进行训练。MTOR、UMT 和 AT 采用 Mean Teacher (MT) 架构。SAPNet利用了注意力机制来关注最具区别性的特征。

3.2、Source-Free Object Detection (SFOD)

无源目标检测(SFOD)由于无法在没有源域数据的情况下显式地减少域差异而具有挑战性。最近,已经提出了几种方法来解决这个问题。由于只有未标记的目标数据可用,他们采用对目标样本进行伪标签的自我训练策略。SED 采用自熵下降策略获得合适的伪标签置信阈值。HCL 探索了基于记忆的学习,针对实例区分和类别区分提出了历史对比学习方法。最近的方法基于 Mean Teacher 范式,并结合各种附加对齐、伪标签选择或正则化策略。SOAP  使用对抗性学习,通过用特定领域的噪声扰乱目标图像来转移检测器。同样,LODS 通过增强每个目标域图像的风格,并利用原始图像与增强图像之间的风格程度差异来指导自适应,从而学习域转移。A2SFOD 提出了一种分四个阶段的方法,根据方差标准对目标数据进行划分,并通过对抗性训练对其特征进行对齐。IRG 使用图卷积网络增加了基于学习实例关系的图引导约束损失。ESOD 使用熵最小化来寻找最优置信阈值。在RPL 中,MT 架构利用了类别感知的伪标签自适应阈值和定位感知的伪标签分配策略。Chen等人为空间对比损失项中使用的低置信度提案引入了第二个置信度阈值。最后,PETS 通过定期交换教师和学生,以及增加一个更新较慢的动态教师来稳定训练,解决了师生相互学习崩溃的问题。

3.3、Self-training

1对置信伪标签(PL)进行自我训练是半监督学习(SSL)中的一种有效技术。对未标记数据的置信预测会被当作伪标签,并添加到下一轮训练的标记数据中。FixMatch 提出利用弱-强增强,并使用来自弱增强输入的得到伪标签作为强增强输入的监督目标。

2Mean Teacher (MT)是 temporal ensembling 的变体,其中知识通过一致性损失或伪标签策略从教师网络中提取到学生网络中。学生通过标准的梯度学习进行更新,而教师通过先前学生权重的指数移动平均值(EMA)逐渐更新,从而得到先前学生迭代的集合。该方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。与之前维持保持EMA 的工作不同,权重 EMA 允许更短的更新周期,因为预测每个周期仅更改一次,而权重每一步都会更改。

3Unbiased Teacher (UT)提出了一种弱-强增强的Mean Teacher算法,用于半监督目标检测。经过一个纯源训练阶段后,教师接受弱增强的目标数据输入,生成伪标签来训练接受强增强输入的学生。 Adaptive Teacher 将UT扩展到无监督域自适应,此外它采用了对抗性学习,在学生网络中结合了一个鉴别器来对齐两个领域的图像级特征。

4、Benchmark results

在本节中,我们将本文提出的 SF-UT 与 UDAOD 和 SFOD 的各种最先进的方法进行比较。三个适应任务的结果显示在表 3、表 4 和表 5 中。我们还根据论文和可用代码指出了每种方法的主干。请注意对于 VGG16 主干,作者并不总是指出 BN 的存在。

在所有比较的 SFOD 方法中,SF-UT 在 Cityscapes→Foggy 上表现出最好的性能,mAP 为 45.0%,大大优于之前最先进的 RPL。这部分归功于 VGG16-BN 主干网的优越性。因此,我们还对之前方法中使用的 VGG16 主干进行了实验。在这种情况下,SF-UT 达到 39.2 mAP,仍然接近最先进的水平。然而SF-UT 要简单得多,并且不包含其他更复杂方法中使用的正则化、对齐或伪标签增强技术。

5、Conclusion

在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。此外,我们引入了一种简单的策略,包括在批量统计适应(AdaBN + fixed SF-FM)之后对一组固定的伪标签进行强增强训练,也产生了令人满意的性能,并显著减轻了自训练中的崩溃问题。 总的来说,我们展示了如何以更简单的方法超越以前复杂得多的SFOD方法。

许多现代架构,如ConvNeXt或Transformers,都支持GroupNorm或LayerNorm。据我们所知,GN和LN层对域适应的适应尚未被探索,并且是一个有趣的研究视角。作为未来工作的一部分,我们还考虑评估各种不同的骨干和检测器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/7702.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

mac找到主目录下的文件夹

访达-(上方状态栏显示)-然后在

FFmpeg 4.3 音视频-多路H265监控录放C++开发十二:在屏幕上显示多路视频播放,可以有不同的分辨率,格式和帧率。

上图是在安防领域的要求,一般都是一个屏幕上有显示多个摄像头捕捉到的画面,这一节,我们是从文件中读取多个文件,显示在屏幕上。 一 改动UI文件 这里我们要添加两个label,为了区分我们设置一下背景色(这个是…

RK3576 LINUX RKNN SDK 测试

安装Conda工具 安装 Miniforge Conda wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh chmod 777 Miniforge3-Linux-x86_64.sh bash Miniforge3-Linux-x86_64.shsource ~/miniforge3/bin/activate # Miniforge 安装的…

新能源行业必会基础知识-----电力现货市场理论篇-----主目录-----持续更新

新能源行业知识体系-------主目录-----持续更新https://blog.csdn.net/grd_java/article/details/140004020 这本书是2023年出版的,是当下了解国内电力市场最好的途径了。 电力现货市场理论篇 一、电力市场概述1. 电力市场总体架构2. 电力市场模式选择3. 电力市场建…

docker 拉取MySQL8.0镜像以及安装

目录 一、docker安装MySQL镜像 搜索images 拉取MySQL镜像 二、数据挂载 在/root/mysql/conf中创建 *.cnf 文件 创建容器,将数据,日志,配置文件映射到本机 检查MySQL是否启动成功: 三、DBeaver数据库连接 问题一、Public Key Retrieval is not allowed 问题…

#Prompt | AI | LLM # 人类如何写出LLM理解的Prompt

一、如何写好Prompt 结构化Prompt 结构化Prompt是对信息进行组织,使其遵循特定模式和规则,以便于有效理解信息。常用模块包括: Role: 指定角色,使模型聚焦于特定领域。Profile: 包括作者、版本、语言和描述。Goals: 描述Prompt的…

vue计算属性

概念:基于现有的数据,计算出来新属性。并依赖数据的变化,自动重新计算 使用场景: 语法:声明在computed配置项中,一个计算属性对应一个函数,使用起来和普通属性一样使用{{计算属性名}} 代码&…

playground.tensorflow神经网络可视化工具

playground.tensorflow 是一个可视化工具,用于帮助用户理解深度学习和神经网络的基本原理。它通过交互式界面使用户能够构建、训练和可视化简单的神经网络模型。以下是一些主要的数学模型和公式原理,它们在这个平台中被应用: 1. 线性模型 线…

Zabbix监控架构

目录 1. Zabbix监控架构-CS架构 2. Zabbix极速上手指南 主机规划 2.1 部署ngxphp环境并测试 检查安装结果 2.2 部署数据库 2.3 编译安装zabbix-server服务端及后续配置 2.4 部署前端代码代码进行访问 前端的配置文件(连接数据库与主机名等信息) 2.5 欢迎来到zabbix 2…

后台管理系统:登录页

本次项目为后台管理系统,在本系统内第一个页面是登录页面 登录页的各种功能介绍 作为登录页需要具有的功能有:点击登录时记录账户密码,对比账户密码的正确性,提示用户当前状态,登录完成后跳转至首页等功能。 一、网页设…

go语言解决rtsp协议只播放部分的问题(业务问题)

背景 之前不是写过一个项目嘛,就之前有更改过存储对接的项目 go语言对接S3存储的SDK(支持minio和OSS) 这个项目主要的业务是就一个,点播rtsp协议的码流,视频来源在存储服务器上。 这次的问题是rtsp协议只播放部分,需要我们进行排…

移位寄存器设计—FDRE、SRL16E及原语约束

信号处理中,实现数据对齐时,常常对单bit或多bit信号进行打拍操作,这个可以通过移位寄存器实现,SLICEM中的SRL即为移位寄存器。 这里主要记录下不同写法的效果。 1 //同步复位2 module static_multi_bit_sreg_poor #(3 parame…

Linux学习笔记之虚拟机操作

Linux简介 Linux是一种开源、免费的操作系统,其稳定性、安全性、处理多并发得到业界认可。Linux在服务器领域可以说是最强的,并且具有可定制,可裁剪,适用于嵌入式领域的特点。对于linux系统,它最大的的特点就是一切皆…

middleware中间件概述

中间件定义 中间件(middleware)是基础软件的一大类,属于可复用软件的范畴。顾名思义,中间件处在操作系统、网络和数据库之上,应用软件的下层(如图 15-1 所示)​,也有人认为它应该属…

《清宫辞Ⅱ》开机:陈欣予旗装惊艳回归 重新演绎宫闱传奇

演员陈欣予,1993年11月24日出生,多年来在影视剧方面取得了不错的成绩,在演戏的道路上,陈欣予不断挑战自我,凭借对不同角色的塑造,收获好评无数。 11月6日,由北京七耀文化传媒有限公司出品制作&a…

Linux sed命令详解-结构(清楚结构便于理解记忆)-选项-模式空间与暂存区(多示例、多图)

文章目录 sed基本结构选项-n(静默模式)-e、;(多点编辑,多条命令)-f(指定脚本文件)-i(直接修改文件与备份)-E(扩展正则表达式) 常用动作p(print,打印)i(插入内容)与a(追加内容)c、y(替换)d(delete,删除)s(替换) 其他动作l(小写L,打印特殊字符)r(在匹配行后插入指定文件内容)w(将…

开箱即用!265种windows渗透工具合集--灵兔宝盒

【渗透工具箱】灵兔宝盒-Rabbit_Treasure_Box_V1.0.1 介绍 Rabbit_Treasure_Box_V1.0.1是一款Windows渗透工具箱,集成Dawn Launcher管理,便捷备份更新。内含脚本工具及在线安全工具,覆盖信息收集、漏洞利用、逆向破解、蓝队防御等多领域&am…

对标 Windows Copilot 的 UOS AI,升级后更能打了

进入 2024 年,AI 应用迎来大爆发,不仅各类应用纷纷宣称“AI 赋能”,操作系统也不例外。前有 Windows Copilot,后有 Apple Intelligent,手机行业更是积极,各种 AI 手机纷纷发布。国产信创系统自然也不甘落后…

【LeetCode】每日一题 2024_11_2 使两个整数相等的位更改次数(位运算/模拟)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:使两个整数相等的位更改次数 代码与解题思路 先读题: 题目要我们把 n 这个数字转换成 k 这个数字,但是只能是二进制位 1 转换成 0 纯模拟的解法: f…

2024 开源社年度评选

开源社(英文名称为“KAIYUANSHE”)成立于2014年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球&am…