SafaRi:弱监督引用表达式分割的自适应序列转换器

引用表达式分割(reference Expression Segmentation, RES)旨在提供文本所引用的图像(即引用表达式)中目标对象的分割掩码。

目前存在的挑战

1)现有的方法需要大规模的掩码注释。

2)此外,这种方法不能很好地推广到未见/零射击场景

改进

1)提出了一个弱监督的RES自举架构(包含新算法)SafaRi(基于自回归轮廓预测的RES方法)

2)不会在完全监督的REC任务上预训练我们的模型。只用mask和box注释的小部分进行训练

3)提出Cross-modal Fusion with Attention Consisteny模块,以便提高图像-文本区域级对齐和进一步增强图像目标物体的空间定位

4)提出一种 基于zero-shot proposal scoring 的Mask Validity Filtering(掩码有效性过滤)策略

5)提出SpARC(新颖的REC技术,)以zero-shot获得边界框

在此之前最新的方法  Partial-RES(提出了一种部分(弱)监督的RES任务解决方案)

该方法存在的问题如下:

1)在更实用和真正的弱监督设置中,框的百分比应该等于掩码的百分比

2)在预训练阶段,模型已经意识到在弱监督阶段使用的相同数据集的基础信息

3)该方法没有考虑到图像和语言特征之间的跨模态区域级交互作用,这对定位任务至关重要

流程图

SafaRi架构图

 Swin transformer  and RoBERTa as our image and text feature extractors.

 FFN 代表 cross-feed-forward network,

SA 代表 self Attention   CA 代表 Cross-Multi-Head Attention  

创新点

X-FACt.

1 )Fused Feature Extractors.

2)Attention Mask Consistency Regularization.

Weak-Supervision with γ-Scheduling

step1 :初始RES训练

在RES任务上使用X%的标记数据训练SafaRi (得到训练过的伪标签器并更新了模型参数)

step2 伪标签

使用step1中已训练的模型对剩下的(100-x)%数据进行推理得到掩码,推断的掩码随后通过提议的掩码有效性过滤(MVF),以零拍方式验证这些生成的掩码的有效性。然后从有效掩码中采样轮廓点,并作为伪掩码添加到相应的图像-文本对中

step3 γ-调度(用来在再训练步骤中平衡真实掩码和伪掩码的数量)再训练。

我们使用包含x% Ground Truth (GT) mask (M)和Pseudo-Mask (M)的更新训练数据集重新训练SafaRi(从先前的训练中初始化),并使用Pseudo-Mask loss加权超参数γ最小化最终损失LSafaRi:

 Mask Validity Filtering with SpARC

组成包括

1)ZS-REC(SpARC即空间感知RedBox Clip)  with SpARC module.(使用ZS-REC获得边界框)

        1)Proposal scoring with red-box prompting

        2)Spatial Reasoning component

2)Validation of Inferred Masks with SpARC(使用获得的边界框验证推断的掩码)

具体步骤:我们从每个Mask的最外层(最上、最下、最右、最左)点生成一个边界框,并使用SpARC计算生成的框与使用ZS-REC步骤获得的框之间的Dice Similarity Coefficient (DSC)[49]。我们拒绝了DSC值小于τ = 0.1的噪声伪掩模(消融见补充)。从过滤后的伪Mask中重新采样轮廓点并添加到训练集中(图2)。

结论

1)提出了一个弱监督的RES学习框架,考虑了有限的mask(和box)注释,并采用了基于轮廓的序列预测方法

2)不会在完全监督的REC任务上预训练我们的模型

3)将轻量级门控跨模态注意与注意掩模一致性正则化模块结合在特征主干

4)引入了一个具有自标记功能的自引导管道,其中使用我们提出的掩码有效性过滤方法验证伪标签

5)展示了SafaRi在零差参考视频对象分割任务上出色的泛化能力。将我们的方法扩展到多图像和视频设置可以被视为一个有前途的未来工作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1535895.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Cobbler 搭建方法

统信服务器操作系统行业版V20-1000c【Cobbler 搭建】手册 统信服务器操作系统行业版 V20版本上Cobbler 搭建方法 文章目录 功能概述一、使用范围二、cobbler工作流程1. Server 端2. Client 端三、 环境准备1. 测试环境告知,以提供配置时参考:2. 关闭防火墙、selinux:3. 注意…

优化深度学习模型训练过程:提升PASCAL VOC 2012数据集上Deeplabv3+模型训练效率的策略

创作不易,您的打赏、关注、点赞、收藏和转发是我坚持下去的动力! 优化说明: 避免重复下载和解压数据集:将downloadTrue改为downloadFalse,防止每次运行代码都重新下载和解压数据集,从而节省时间。 使用pin…

【C++】stack 和 queue 以及 容器适配器

文章目录 一、stack1.1 stack的使用1.2 stack的模拟实现 二、queue2.1 queue的使用2.2 queue的模拟实现 三、优先级队列1.优先级队列的介绍2. priority_queue的使用的使用3.模拟实现优先级队列 四、 容器适配器1.STL标准库中stack和queue的底层结构2.deque(双端对列…

OS:初识操作系统——邂逅与启航

✨ Blog’s 主页: 白乐天_ξ( ✿>◡❛) 🌈 个人Motto:实践是检验真理的唯一标准!!! 💫 欢迎来到我的学习笔记! 前言 各位uu好,现在我们要开始一个新的篇章——操作…

Geneformer AI 模型,有限数据也能解锁基因网络

目录 类似于 BERT 的单单元数据参考模型 NVIDIA Clara 工具组合用于药物研发 用于疾病建模的基础 AI 模型 Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,…

misc合集(1)

[Week3] 这是一个压缩包 有密码,提示QmFzZUNURj8/Pz8/P0ZUQ2VzYUI base64解密是BaseCTF??????FTCesaB 猜测这应该是⼀个轴对称的密码 python ⽣成了密码字典,再通过 ARCHPR 进⾏字典爆破 lowercase abcdefghijklmnopqrstuvwxyz uppercase l…

java写s7和plc通讯

pom.xml <dependency><groupId>com.github.s7connector</groupId><artifactId>s7connector</artifactId><version>2.1</version></dependency>maven下载不了的&#xff0c;下载包&#xff0c;评论或者私自内免费给 DB212 类&a…

5.1 溪降技术:个人装备

Content 5.1 个人装备概览设备概览视频电子书&#xff1a;个人装备安全装备非安全装备 峡谷探险个人安全装备个人安全装备视频*安全扣结构*峡谷探险个人非安全装备 湿峡谷湿峡谷装备视频个人安全装备个人非安全装备 干峡谷干峡谷装备视频个人安全装备个人非安全装备 团队装备&a…

安全区域边界等保测评

1.边界防护 应保证跨越边界的访问和数据流通过边界设备提供的受控接口进行通信。 [测评方法] 1)应核查在网络边界处是否部署访问控制设备;网闸和防火墙2)应核查设备配置信息是否指定端口进行跨越边界的网络通信,指定端口是否配置并启用了安全策略acl 3)应采用其他技术手…

【网盘外快】百度网盘SVIP充值使用说明,如何通过软件自动充值获取新用户优惠?这篇文章给你正确答案。

资源地址&#xff1a; 此软件需要 网盘ck 才可以使用。 雷电模拟器下载地址&#xff1a;https://www.ldmnq.com/ 软件下载地址&#xff1a;https://wwi.lanzoup.com/b01qdiavzg 密码:666 模拟器使用说明&#xff1a; 1、调整模拟器分辨率调整为&#xff1a;540 X 960。 2、…

每天练打字1:今日状况——击键5第1遍

前言 首先说明一点&#xff0c;这个每天练打打字系列不会每天更新。因为本来练打字就不是一件太大的事&#xff0c;没必要为了更新而更新&#xff0c;但还是会做到每周一更新。以便于跟踪进度&#xff0c;监控目标是否达成。 今日练习情况 一、跟打情况 常用字中五百&#…

RockyLinux-软件实现RAID5

一、背景 RAID&#xff08;Redundant Array of Independent Disks&#xff0c;独立磁盘冗余阵列&#xff09;是一种将多个物理硬盘驱动器组合成单一逻辑单元的技术&#xff0c;目的是提高存储性能、可靠性和/或数据冗余度。虽然早期的名字中包含“独立”&#xff08;Independen…

【资料分析】常见的坑

in 比较或计数类问题 差别大的基期比较&#xff0c;可以直接用现期进行比较 注意单位可能不同&#xff01; 注意顺序是从小到大还是从大到小 以及老问题&#xff0c;名字本身就叫XX增量&#xff0c;XX增加值&#xff0c;而非还要另外去算的东东 给出的图表可能是不完整的 2…

通过SQL语句判断奇偶数的几种方法

文章目录 1. 准备数据2. 使用 % 判断奇偶数3. 使用 MOD 判断奇偶数4. 使用按位与运算符 & 1. 准备数据 假设我们有一张测试表test_numbers -- 创建测试表 CREATE TABLE test_numbers (number_value INT );-- 插入测试数据 INSERT INTO test_numbers (number_value) VALUE…

Qt:饿汉单例(附带单例使用和内存管理)

前言 本文主要写饿汉单例以及单例的释放&#xff0c;网上很多教程只有单例的创建&#xff0c;但是并没有告诉我们单例的内存管理&#xff0c;这就很头疼。 正文 饿汉式单例 // SingletonClass.h #ifndef SINGLETONCLASS_H #define SINGLETONCLASS_H #include <QObject&g…

PCIe进阶之TL:First/Last DW Byte Enables Rules Traffic Class Field

1 First/Last DW Byte Enables Rules & Attributes Field 1.1 First/Last DW Byte Enables Rules Byte Enable 包含在 Memory、I/O 和 Configuration Request 中。本文定义了相应的规则。Byte Enable 位于 header 的 byte 7 。对于 TH 字段值为 1 的 Memory Read Request…

【stm32笔记】使用rtt-studio与stm32CubeMx联合创建项目

使用rtt-studio与stm32CubeMx联合创建项目 创建rt-thread项目 设置项目信息 在项目资源管理器中“右击“&#xff0c;创建RRT studio 项目 双击“RT-Thread 项目“。 选择MCU&#xff0c;设置UART&#xff0c;以及调试方式。添加项目名称&#xff0c;点击“完成“按钮。 …

长春自闭症寄宿学校:开启创造力与艺术之旅

长春自闭症寄宿学校的启示&#xff1a;在广州星贝育园&#xff0c;自闭症儿童开启创造力与艺术之旅 当我们谈及自闭症儿童的教育与成长时&#xff0c;总有一股力量在推动着我们不断探索与创新。虽然题目中提及了“长春自闭症寄宿学校”&#xff0c;但本文将聚焦于广州的星贝育…

使用jmeter做性能测试实践过程中需要注意什么

前言 在驾驭Apache JMeter进行性能测试之旅中&#xff0c;深刻理解其特性和限制是至关重要的。以下是提升JMeter效能的关键策略&#xff0c;旨在挖掘其潜力&#xff0c;克服局限&#xff0c;实现精准测试。 1.精确调控线程数 推荐阈值&#xff1a;将线程数控制在300以内&…

SSH公私钥后门从入门到应急响应

目录 1. SSH公私钥与SSH公私钥后门介绍 1.1 SSH公私钥介绍 1.1.1 公钥和私钥的基本概念 1.1.2 SSH公私钥认证的工作原理(很重要) 1.2 SSH公私钥后门介绍 2. 如何在已拿下控制权限的主机创建后门 2.1 使用 Xshell 生成公钥与私钥 2.2 将公钥上传到被需要被植入后门的服务…