【论文笔记】Dense Connector for MLLMs

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Dense Connector for MLLMs
作者: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
发表: NeurIPS 2024
arXiv: https://arxiv.org/abs/2405.13800

基本信息

摘要

我们是否充分利用了多模态大型语言模型(MLLMs)中视觉编码器的潜力?近期MLLMs在多模态理解方面的卓越表现引起了学术界和工业界的广泛关注。

在当前的MLLM竞赛中,焦点似乎主要集中在语言方面。

我们见证了更大规模、更高质量的指令数据集的出现,以及更大规模LLMs的参与。

然而,对MLLMs使用的视觉信号的关注却寥寥无几,这些信号通常被认为是冻结的视觉编码器提取的最终高级特征。

在本文中,我们介绍了Dense Connector——一个简单、有效且即插即用的视觉-语言连接器,通过利用多层视觉特征,以最小的额外计算开销显著提升了现有的MLLMs。

此外,我们的模型仅通过图像训练,在视频理解方面也展示了显著的零样本能力。

在跨各种视觉编码器、图像分辨率、训练数据集规模、LLMs大小(2.7B→70B)以及MLLMs的多样化架构(例如LLaVA和Mini-Gemini)的实验结果中,验证了我们的方法的灵活性和可扩展性,在19个图像和视频基准测试中实现了最先进的性能。

我们希望这项工作将为未来的MLLM开发提供宝贵的经验,并作为基本模块。

代码开源在:https://github.com/HJYao00/DenseConnector

主要贡献

  • 我们提出了一种简单、有效且即插即用的Dense Connector,它以最小的额外计算开销增强了现有多语言语言模型(MLLM)的视觉表示。我们希望它能作为基本模块,持续为未来的MLLM带来益处。
  • 我们展示了我们的方法在各种视觉编码器、图像分辨率(336px→768px)、训练数据集规模、不同大小的LLMs(2B→70B)以及多样化的MLLMs架构(例如,LLaVA,Mini-Gemini)上的灵活性和可扩展性。
  • 我们的方法在11个图像基准测试中表现出色,并在8个视频基准测试中实现了最先进的结果,无需进行特定的视频调整。

方法

模型架构

模型架构

基于LLaVA架构,将Projector替换为了Dense Connector模块。

Sparse Token Integration (STI)

e v = MLP ⁡ ( Concatenate ⁡ ( [ avg ⁡ ( V l 1 ) , … , avg ⁡ ( V l K ) , V L ] , dim = token ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([\operatorname{avg}(V_{l_1}), \ldots, \operatorname{avg}(V_{l_K}), V_L], \text{dim} = \text{token}\right)\right) ev=MLP(Concatenate([avg(Vl1),,avg(VlK),VL],dim=token))

Sparse Channel Integration (SCI)

e v = MLP ⁡ ( Concatenate ⁡ ( [ V l 1 , … , V l K , V L ] , dim = channel ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([V_{l_1}, \ldots,V_{l_K}, V_L], \text{dim} = \text{channel}\right)\right) ev=MLP(Concatenate([Vl1,,VlK,VL],dim=channel))

Dense Channel Integration (DCI)

G V g = 1 M ∑ i = ( g − 1 ) M + 1 g M V i , 1 ≤ g ≤ G . GV_{g}=\frac{1}{M}\sum_{i=(g-1) M+1}^{g M} V_{i},\quad 1\leq g\leq G. GVg=M1i=(g1)M+1gMVi,1gG.

e v = MLP ⁡ ( Concatenate ⁡ ( [ G V 1 , … , G V G , V L ] , dim = channel ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([GV_{1}, \ldots,GV_{G}, V_L], \text{dim} = \text{channel}\right)\right) ev=MLP(Concatenate([GV1,,GVG,VL],dim=channel))

实验

主实验

Comparisons with State-of-the-Arts

Comparisons with Leading Methods on Zero-shot Video QA Benchmarks

消融实验

Ablations on Visual Layer Selection in Dense Connector

Exploring the Compatibility and Scalability of Dense Connector (DC)

总结

在这篇论文中,我们介绍了Dense Connector,这是一种新颖的即插即用模块,通过密集集成多层视觉特征来增强多语言语言模型(MLLMs)的视觉感知能力。

我们实例化了三种类型的Dense Connector,并在多样化的视觉编码器、LLMs和训练数据集上验证了其有效性,证明了在多个评估基准上性能的显著提升。

Dense Connector可以轻松集成到现有的MLLMs中。

在本工作中,我们将Dense Connector融入主流模型LLaVA和高分辨率方法Mini-Gemini,展示了其灵活性和泛化能力。

我们的三种Dense Connector实例不引入额外的参数,为进一步的探索留下了空间。

我们尚未找到一种有效的方法来引入额外的参数。

未来的研究将专注于发现更有效的方法来连接视觉和语言模型,以实现更好的模态对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/5735.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

[论文阅读]A Survey of Embodied Learning for Object-Centric Robotic Manipulation

Abstract --以对象为中心的机器人操纵的Embodied learning是体现人工智能中一个快速发展且具有挑战性的领域。它对于推进下一代智能机器人至关重要,最近引起了人们的极大兴趣。与数据驱动的机器学习方法不同,具身学习侧重于通过与环境的物理交互和感知反…

vscode的一些使用心得

问题1:/home目录空间有限 连接wsl或者remote的时候,会在另一端下载一个.vscode-server,vscode的插件都会安装进去,导致空间增加很多,可以选择更换这个文件的位置 参考:https://blog.csdn.net/weixin_4389…

Vue前端开发之自定义动画样式

在上一小节中,我们介绍了动画的实现源于6个类别样式,它们的名称默认前缀是一个“v”字母或者指定的名称,如“sc”,其实,也可以不使用这些固定的类别样式,开发者可以自定义任意的类别样式,供动画…

【709】基于SSM+vue的“萌宠小知识”网站设计与实现

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统萌宠小知识信息管理难度大,容错率低&#xff…

《机器学习by周志华》学习笔记-神经网络-05RBF径向基函数网络

1、背景 1988年,Broomhead和Lowe用径向基函数(Radialbasis function, RBF)提出分层网络的设计方法,从而将神经网络的设计与数值分析和线性适应滤波相挂钩。 2、概念 RBF(Radial Basis Function,径向基函数)网络是一种单隐层前馈神经网络,即该网络只有3层,输入层、隐含…

11.1组会汇报-基于区块链的安全多方计算研究现状与展望

基础知识 *1.背书,这个词源来自银行票据业务,是指票据转让时,原持有人在票据背面加盖自己的印鉴,证明该票据真实有效、如果有问题就可以找原持有人。 区块链中的背书就好理解了。可以简单的理解为验证交易并声明此交易合法&…

MSC“名实之辩”:精准鉴定只为精准治疗

前 言 MSC是一群来源广泛、能够体外增殖分化的异质性细胞。MSC具有免疫调节、促进组织修复等作用,应用于多种疾病的治疗。由于科学进程、习惯等原因,MSC具有多种名称。自先秦以来,就有“名实之辩”,今日我们就讲一讲MSC的名称与…

CST联合Isight进行天线DOE设计

本期我们转载一篇国外工程师Matthias MEIENHOFER,利用CST和Isight联合进行DOE设计的案例。 本文通过模拟设计一个双频带(GSM和WLAN)天线来研究天线的几何尺寸变化和性能的关系。如果我们改变天线里的某些宽度或长度参数,天线的性…

微信小程序寓言童话创作APP设计与实现

文章目录 项目介绍具体实现截图技术介绍mvc设计模式小程序框架以及目录结构介绍错误处理和异常处理java类核心代码部分展示详细视频演示源码获取 项目介绍 本文通过对现有寓言童话创作APP的调研和分析,取其精华去其糟粕,遵循软件工程方法进行系统分析、…

越来越多人不喜欢十六薪了

十六薪是个坑 大家好,我是青玉白露。 最近刷各种论坛,发现有个有意思的职场现象。 不少人开始对"十五薪"、“十六薪”敬而远之。 曾经让人眼红的福利,现在却成了让人望而却步的"坑"。这是咋回事呢? 乍一看,十五薪确实挺诱人。比如月薪3万,年收…

【命令执行waf绕过】

一、绕过空格 二、绕过黑名单 三、绕过长度限制 四、练习 发现了两个文件,cat读取,但是被过滤了: 用 I F S IFS IFS绕过读出index的源码,发现过滤了很多东西,黑名单过滤: 字符串拼接绕过: …

MongoDB笔记02-MongoDB基本常用命令

文章目录 一、前言二、数据库操作2.1 选择和创建数据库2.2 数据库的删除 3 集合操作3.1 集合的显式创建3.2 集合的隐式创建3.3 集合的删除 四、文档基本CRUD4.1 文档的插入4.1.1 单个文档插入4.1.2 批量插入 4.2 文档的基本查询4.2.1 查询所有4.2.2 投影查询(Projec…

六、SpringMVC的视图

文章目录 1. ThymeleafView2. 转发视图3. 重定向视图4. 视图控制器view-controller 1. ThymeleafView 2. 转发视图 3. 重定向视图 4. 视图控制器view-controller

springboot系列十三: 异常处理

springboot异常处理 基本介绍拦截器VS过滤器默认异常页面应用实例debug取出状态码和错误信息 全局异常基本说明应用实例Debug处理流程 自定义异常基本说明应用实例Debug处理流程注意事项和细节 基本介绍 1.默认情况下,SpringBoot 提供 /error 处理所有错误的映射&a…

无人机手势控制工作原理和算法!

一、无人机手势控制的工作原理 无人机手势控制的工作原理基于计算机视觉技术和图像识别技术。具体来说,无人机上配备的摄像头会捕捉用户的手势动作,并将这些图像数据传输到无人机内置的处理器中。处理器通过内置的算法对图像进行处理和解析,…

雷池社区版 7.1.0 LTS 发布了

LTS(Long Term Support,长期支持版本)是软件开发中的一个概念,表示该版本将获得较长时间的支持和更新,通常包含稳定性、性能改进和安全修复,但不包含频繁的新特性更新。 作为最受欢迎的社区waf&#xff0c…

自动驾驶---理想汽车智驾进展

1 背景 自媒体---“电车通”从2024年初开始推出智能化评测相关栏目,尤其是针对智能驾驶这一功能做了大量的实测工作;根据综合表现,给测试车型给出了能够直观展示其能力的评分。当评测的对象达到一定数量后,对整个国内车市智驾能力…

跨越科技与文化的桥梁——ROSCon China 2024 即将盛大开幕

在全球机器人技术飞速发展的浪潮中,ROS(Robot Operating System)作为一款开源的机器人操作系统,已成为无数开发者、研究人员和企业的首选工具。为了进一步推动ROS的应用与发展,全球知名的机器人操作系统会议——ROSCon…

制作并量化GGUF模型上传到HuggingFace和ModelScope

llama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现,也是 GPUStack 所支持的推理引擎之一,它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于存储模型以进行推理的文件格式,旨在针对推理进行优化&…

docker+nacos

安装数据库 以docker安装为例(实际建议实体) 初始化数据库 /******************************************/ /* 数据库全名 nacos_config */ /* 表名称 config_info */ /******************************************/ CREATE TABLE config_i…