多模态:DetCLIPv3解析

文章目录

  • 前言
  • 一、介绍
  • 二、方法
    • 2. Open vocabulary detector
      • 2.1 encoder
      • 2.2 decoder
    • 3. Object captioner
  • 三、数据工程
    • 1. Auto-annotation data pipeline
  • 四、训练策略
  • 五、实验
  • 总结


前言

目前多模态目标检测逐渐成为检测领域的主要发力方向,从最初的检测大模型grounding dino, 到YOLO-world, 本文记录最新的多模态目标检测论文DetCLIPv3

paper:http://arxiv.org/pdf/2404.09216


一、介绍

现有的开放词汇表目标检测器(OVD)通常需要用户提供预定义的类别集,这在实际应用场景中限制了它们的使用。
现有方法不同,人类认知能够以分层的方式理解不同粒度的对象,这在当前的OVD系统中尚未实现。
为了解决这些限制,作者提出了 DetCLIPv3,这是一种新型的目标检测器,能够扩展开放词汇表目标检测的范围。

以下面这张图做个简单说明,就能更好的理解作者的purpose;
对于当前OVD来说,输入一张图,模型只能给出预定义的category list中的certain class
但对于人类,我们可以从多粒度去感知它,Phrase, Category, Parent Category


so 作者想实现一个能够多粒度感知的OVD系统
请添加图片描述

二、方法

请添加图片描述

2. Open vocabulary detector

该架构是一个双路径的模型,包括 image encoder and text encoder,detector部分包括一个pixel encoder 和 object decoder。encoder部分指导细粒度特征融合,为decoder提出候选query。

2.1 encoder

这部分思想类似Grounding Dino中的Language-Guided Query Selection请添加图片描述

"""
Input:
image_features: (bs, num_img_tokens, ndim)
text_features: (bs, num_text_tokens, ndim)
num_query: int.
Output:
topk_proposals_idx: (bs, num_query)
"""
logits = torch.einsum("bic,btc->bit",
image_features, text_features)
# bs, num_img_tokens, num_text_tokens
logits_per_img_feat = logits.max(-1)[0]
# bs, num_img_tokens
topk_proposals_idx = torch.topk(
logits_per_image_feature,
num_query, dim = 1)[1]
# bs, num_query

具体来说,通过CLIP分别获得其文本特征和图像特征,输入两个特征张量 image_features 和 text_features,其中 image_features 的维度为 (bs, num_img_tokens, ndim),text_features 的维度为 (bs, num_text_tokens, ndim),bs 表示 batch size,num_img_tokens 和 num_text_tokens 分别表示图像特征和文本特征的总数,ndim 则表示特征维度。

代码首先使用 torch.einsum 函数计算两个特征张量之间的得分矩阵 logits,得分矩阵中的每个元素表示一个图像特征与一个文本特征之间的得分。接下来使用 logits.max(-1)[0] 得到 logits_per_img_feat 张量,该张量的维度为 (bs, num_img_tokens),其中每个元素表示一个图像特征与所有文本特征之间的最大得分。因为我们只需要最大值张量,所以使用 [0] 表示取出最大值张量。使用 torch.topk 函数得到每个图像特征对应的前 num_query 个文本特征的索引。具体来说,该函数用于在某个维度上寻找前k个最大值。

encoder部分思想和grounding dino的基本一致,grounding dino encoder部分如下图:
请添加图片描述

2.2 decoder

解码器部分直接采用DETR-like detector,loss函数如下:
请添加图片描述
作者使用 L1 损失及 GIOU 损失用于框回归;沿用 GLIP,对预测目标是否匹配文本使用对比损失约束(和Grounding Dino采用相同的loss)。

3. Object captioner

请添加图片描述
本文的核心要点在于此,对象标题生成器使 DetCLIPv3 能够为对象生成详细和层次化的标签设计灵感来自 Qformer,采用多模态 Transformer 架构,输入包括视觉(对象或图像)查询和文本标记。

据论文介绍,该模型能够在两种模式下工作:当提供预定义的类别词汇表时,DetCLIPv3 直接预测列表中提到的对象的位置。在没有词汇表的情况下,DetCLIPv3 能够定位对象并为每个对象生成层次化标签。

三、数据工程

1. Auto-annotation data pipeline

训练数据情况如下
请添加图片描述
图中展示了经过多次处理后的标注信息变化,经过VLLM和GPT的调整,图像标注信息越来越丰富,果然数据工程才是如今多模态的core point!!!
数据集包括检测、定位和图像-文本对数据,这些数据包含边界框伪标签。每个输入样本被结构化为一个三元组,包括输入图像、一组边界框和一组概念文本。


此外文章提出了一个自动标注数据pipeline,流程图如下:
请添加图片描述
1)Recaptioning with VLLM:
首先利用BLIP对240K图像-文本对重新标注。prompt如下:
“Given a noisy caption of the image: {raw caption}, write a detailed clean description of the image.”
2)Entity extraction using GPT-4:
利用GPT-4过滤来自VLLM的无实体描述 prompt:
“Here is a caption for an image: {caption}. Extract the part of factual description related to what is directly observable in the image, while filtering out the parts that refer to inferred contents, description of atmosphere/appearance/style and introduction of history/culture/brand etc. Return solely the result without any other contents. If you think there is no factual description, just return ‘None’.”

从过滤后的caption中提取目标实体 prompt:
请添加图片描述
请添加图片描述
3)Instruction tuning of VLLM for large-scale annotation:
在此阶段,使用caption文本和刚获取的目标实例信息fine-tune LLaVA。作者合并了之前的信息使其成为一个简洁的prompt。question-answer pair is constructed as:
请添加图片描述
fine-tune 过程VLLM使用 原始图像和原始caption作为输入,目的是让VLLM去生成精细化的标签。

请添加图片描述

4)Instruction tuning of VLLM for large-scale annotation:

自动标注边界框,使用预训练的开放词汇表对象检测器为图像-文本对数据分配伪边界框标签。

当从VLLM中获得准确的候选对象实体时,可以大大提高检测器的精度。具体来说,我们使用字段“phrase”和“category”作为检测器的文本输入,并使用预定义的分数阈值来过滤产生的边界框。如果两个字段中的任何一个匹配,我们为该对象分配整个实体{phrase, category, parent category}。在使用预定义的置信度阈值进行过滤后,大约有50M的数据被采样用于后续的训练,我们称之为GranuCap50M

为了训练检测器,我们使用“phrase”和“category”字段作为文本标签; 而对于对象captioner,我们将三个字段连接起来——“phrase|category|parent category”——作为对象的基本真理描述。


四、训练策略

为了解决高分辨率输入的计算成本问题,作者提出了一个基于“预训练+微调”的多阶段训练策略,包括:

1)训练开放词汇表检测器 (Stage 1)。
2)预训练对象标题生成器 (Stage 2),使用较低分辨率的输入以提高效率。
3)整体微调 (Stage 3),旨在使标题生成器适应高分辨率输入,同时改进开放词汇表检测器。

通过这些设计,DetCLIPv3 在开放词汇表检测性能上取得了显著的成果,例如,在 LVIS minival 基准测试中,使用 Swin-T 骨干模型取得了 47.0 的零样本固定 AP,显著优于以前的工作

请添加图片描述

五、实验

请添加图片描述
作者还是做了蛮多评测实验的,上表在LVIS数据集上评估了模型的零样本性能,即模型的零样本开放词汇表对象检测能力,可以看出,通过使用固定AP(Average Precision)作为评价指标,DetCLIPv3 在 LVIS minival 上取得了 47.0 和 48.8 的AP,显著优于先前的方法,包括但不仅限于 GD 和 GLIP
(其它实验评测可以参考原文)


总结

DetCLIPv3是一个创新的开放词汇表(OV)检测器,它不仅能够根据类别名称定位对象,还能生成具有层次结构和多粒度(multi-granular)的对象标签。这种增强的视觉能力使得DetCLIPv3能够实现更全面的细粒度(fine-grained)视觉理解,从而扩展了开放词汇表检测(OVD)模型的应用场景。

读完文章不得不说,现在的数据工程真的是百花齐放,利用VLLM+GPT产生的数据fine-tune VLLM的想法实在令人赞叹!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1523803.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

这个桌面插件真的酷!该有的都有了!改造桌面必备神器

这个桌面插件真的酷!该有的都有了!改造桌面必备神器。一个好用的桌面插件可以给我们提供很多的方便,给自己桌面打扮一下,定制一个自己喜欢的桌面插件,让桌面变得更美观实用! 如何给桌面添加一个实用的插件&…

编译器基础介绍

随着深度学习的不断发展,AI 模型结构在快速演化,底层计算硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对 AI 框架的持续迭代。AI 编译器就成了应对以上问题广受关注的技…

安装破解激活pycharm

装pycharm之前先装python 激活方式版本不能过新,要22年1月及其之前的版本,下拉找到对应版本的专业版 Other Versions - PyCharmGet past releases and previous versions of PyCharm.https://www.jetbrains.com/pycharm/download/other.html 2.下载电脑…

Transiting from CUDA to HIP(三)

一、Workarounds 1. memcpyToSymbol 在 HIP (Heterogeneous-compute Interface for Portability) 中,hipMemcpyToSymbol 函数用于将数据从主机内存复制到设备上的全局内存或常量内存中,这样可以在设备端的内核中访问这些数据。这个功能特别有用&#x…

【qiankun】使用总结

主应用 主应用使用的技术栈:Angular 18 Antd 微应用 微应用使用的技术栈:React 18 Antd 创建子应用 // 安装angular CLI(如果本地已安装可忽略) npm install -g angular/cli// 创建子应用 ng new my-app-name配置子应用 安…

保姆级教程:Dupay从注册到充值开卡全过程,可开GPT Plus、可绑定GPT充值API余额

前言 想要购买GPT Plus,或者给GPT充值,绑定国内visa信用卡,会被拒,于是便问问度娘,找到了一篇关于注册虚拟卡的教程,搬过来顺便修改下! 应用场景 1、Depay Master Visa卡支持绑定宝、微、美外…

软件测试基础知识 + 面试理论(超详细!)

一、什么是软件? 软件是计算机系统中的程序和相关文件或文档的总称。 二、什么是软件测试? 说法一:使用人工或自动的手段来运行或测量软件系统的过程,以检验软件系统是否满足规定的要求,并找出与预期结果之间的差异…

【网络安全】服务基础第一阶段——第十一节:Windows系统管理基础----PKI技术与应用

目录​​​​​​​ 一、加密技术 1.1 基本保密通信模型 1.2 密码学发展 1.2.1 古典密码学(1949年前) 1.2.2 近代密码学(1949~1975年) 1.2.3 现代密码学(1976年以后) 1.3 古典密码 1.3.…

月考成绩如何私密发布?教程来啦!

月考结束,老师们总是忙得不可开交。需要将每一份成绩单仔细核对,然后逐一私信给每位学生的家长。这个过程不仅耗时耗力,而且容易出错。家长们也常常因为等待成绩而焦虑不安。但现在有了一种更高效、更私密的方法来发布成绩——易查分小程序。…

GatewayWorker框架的详解和应用

一、介绍 1. 简介 GatewayWorker基于Workerman开发的一个项目框架,用于快速开发TCP长连接应用,例如app推送服务端、即时IM服务端、游戏服务端、物联网、智能家居等等 GatewayWorker使用经典的Gateway和Worker进程模型。Gateway进程负责维持客户端连接…

烟雾报警器可以节能与守护并存吗?| 合宙功耗分析仪Air9000P实测

有多少人跟我一样,每次抬头看到天花板上那个长年累月默默站岗的烟雾报警器, 总会想:它真的在工作吗?电量到底能撑多久呢? 不如,动手测一测功耗! 烟雾报警器通过内置的传感器实时感知环境中的烟…

Vue3安装Element Plus

文章目录 安装使用包管理器安装配置:完整引入按需引入: 使用: 以下将参考Element Plus官网 一个 Vue 3 UI 框架 | Element Plus (element-plus.org)进行 安装 在创建好的项目文件控制台下安装: 使用包管理器 我们建议您使用包…

UE4_后期处理_后期处理材质及后期处理体积二

效果: 步骤: 1、创建后期处理材质,并设置参数。 2、回到主界面,找到需要发光的物体的细节面板。 渲染自定义深度通道,默认自定义深度模具值为10(需要修改此值,此值影响物体的亮度)。 3、添加…

git clone 别人的项目上传到自己的Gitee或者github仓库

git clone别人的项目 git clone https://github.com/wohuweixiya/yft-design.git 进入该项目内,删除原有的.git信息 rm -r .git 初始化.git git init 将本地代码添加到仓库 git add . git commit -m "提交仓库说明" Github上新建一个和这个clone下来…

AI生产力工具暑期迎来大爆发 极光数据:夸克新增用户规模领先

9月3日,极光旗下月狐数据发布《AI生产力工具暑期发展报告》。数据显示,AI生产力工具在用户侧呈现高速增长态势,总体月活跃用户数量达1.7亿。其中,夸克APP实现暑期新增用户数量行业第一,凭借大模型、数据、场景等优势&a…

netty之实现同步调用

写在前面 源码 。 本文看下netty如何实现同步调用,netty本身是不具备这种能力的,但是我们可以结合juc包的相关工具类来让其具备这种能力。接下来就一起看下吧!!! 1:server 请求和响应对象 package com.…

算法笔试-编程练习-M-01-24

t这套题,偏向灵活,更多的考察了数学、贪心 一、质因数 题目描述 小乖对 gcd (最大公约数) 很感兴趣, 他会询问你t次。 每次询问给出一个大于 1 的正整数 n, 你是否找到一个数字m(2 ≤m ≤ n),使得 gcd(n,m)为素数. 注:原题为给…

智能优化算法-北方苍鹰优化算法(NGO)(附源码)

目录 1.内容介绍 2.部分代码 3.实验结果 4.内容获取 1.内容介绍 北方苍鹰优化算法 (Northern Goshawk Optimizer, NGO) 是一种基于群体智能的元启发式优化算法,它模拟了北方苍鹰(Northern Goshawk)的捕食行为、领地行为以及社交互动&#x…

网络攻击全解析:主动、被动与钓鱼式攻击的深度剖析

在当今这个互联网高度普及与深度融合的时代,网络攻击,这一赛博空间的隐形威胁,正以前所未有的频率和复杂度挑战着网络安全乃至国家安全的底线。为了更好地理解并防范这些威胁,本文将深入剖析网络攻击的主要类型——主动攻击、被动…

2024-8-28作业C++/QT

代码&#xff1a; #include <iostream> #include <cstring> #include <array> #include <iomanip> using namespace std; int main() { //array<char,128> a; //array<char,128>::iterator iter; string str; getline(c…