EAGLE——探索混合编码器的多模态大型语言模型的设计空间

概述

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明,增强的视觉感知可显著减少幻觉并提高分辨率敏感任务(例如光学字符识别和文档分析)的性能。最近的几种 MLLM 通过利用视觉编码器的混合来实现这一点。尽管它们取得了成功,但缺乏系统的比较和详细的消融研究来解决关键方面,例如专家选择和多位视觉专家的整合。本文对使用视觉编码器和分辨率的混合的 MLLM 的设计空间进行了广泛的探索,Eagle 框架试图探索使用编码器混合的多模态大型语言模型的设计空间。研究结果揭示了各种现有策略共同的几个基本原则,从而导致了一种简化而有效的设计方法。Eagle 发现,简单地将一组互补视觉编码器中的视觉标记连接起来与更复杂的混合架构或策略一样有效。此外,Eagle 引入了预对齐来弥合以视觉为中心的编码器和语言标记之间的差距,从而增强了模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。

Eagle 的工作与多模态大型语言模型 (MLLM) 的总体架构设计有关。除了前面提到的代表性开源研究之外,其他值得注意的 MLLM 系列包括但不限于 MiniGPT-4、Lynx、Otter、QwenVL、CogVLM、VILA、GPT-4V、Gemini 和 Llama 3.1。根据视觉信号如何集成到语言模型中,MLLM 可以大致分为“跨模态注意”模型和“前缀调整”模型。前者使用跨模态注意将视觉信息注入 LLM 的不同层,而后者将视觉标记视为语言标记序列的一部分并直接将其附加到文本嵌入中。Eagle 的模型属于前缀调整系列,遵循 LLaVA 风格的多模态架构。考虑到 MLLM 是一个快速发展的领域,Eagle 建议参考更详细的研究和调查以获得进一步的见解。

Eagle 的工作与专注于改进 MLLM 的视觉编码器设计的研究密切相关。早期的工作通常采用在视觉语言对齐任务上预先训练的视觉编码器,例如 CLIP 和 EVA-CLIP。更强大的视觉编码器(例如 SigLIP 和 InternVL)已被提出,以通过更好的设计、更大的模型尺寸和更有效的训练配方来增强视觉语言任务。由于模型通常在低分辨率图像上进行预先训练,并且可能缺乏编码细粒度细节的能力,因此经常执行更高分辨率的自适应以提高 MLLM 输入分辨率。除了更高分辨率的自适应之外,LLaVA-NeXT、LLaVA-UHD、Monkey、InternLM-XComposer 和 InternVL 等模型使用平铺或自适应平铺来处理高分辨率输入,其中图像被分成较低分辨率的块并单独处理。虽然通过引入额外的视觉专家可以处理更高分辨率,但这种方法与平铺技术略有不同,尽管两者都兼容并且可以结合使用。

使用混合编码器探索多模态 LLM 的设计空间

大型语言模型 (LLM) 的成功引发了人们对实现视觉感知能力的极大兴趣,让它们能够在现实世界中观察、理解和推理。这些模型的核心 多模态大型语言模型 (MLLM)是一种典型的设计,其中图像由视觉编码器转换为一系列视觉标记并附加文本嵌入。CLIP 通常被选为视觉编码器,因为它的视觉表示通过对图像-文本对进行预训练与文本空间对齐。根据架构、训练配方和将视觉标记注入语言模型的方式,MLLM 的著名系列包括 Flamingo、BLIP、PaLI、PaLM-E 和 LLaVA。由于预训练视觉编码器和 LLM 序列长度的限制,大多数这些模型都保持相对较低的输入分辨率。Eagle 的工作与使用多个视觉编码器来改善感知的模型密切相关。Mini-Gemini 和 LLaVA-HR 建议将高分辨率视觉特征融合到低分辨率视觉标记中。除了分辨率问题之外,这些预训练的视觉编码器可能缺乏特定功能,例如读取文本或定位对象。为了解决这个问题,各种模型集成了在不同视觉任务上预训练的视觉编码器,以增强视觉编码器的功能。

例如,Mousi 和 Brave 等模型通过沿通道或标记方向连接来融合来自不同视觉编码器的视觉标记。RADIO 引入了多教师蒸馏方法,将不同视觉编码器的能力统一到单个模型中。MoAI、IVE 和 Prismer 进一步使用视觉专家的输出(例如 OCR、检测或深度估计)来补充 MLLM 生成答案的附加信息。MoVA 设计了一个路由网络,根据给定的图像和指令分配最佳视觉模型。

最近的研究表明,更强大的视觉编码器设计对于减少 MLLM 幻觉 并提高光学字符识别 (OCR) 等分辨率敏感任务的性能。一些研究侧重于增强视觉编码器的能力,要么通过扩大预训练数据和参数,要么通过将图像划分为低分辨率块。然而,这些方法通常会带来大量的训练资源需求。一种有效而强大的策略是混合使用不同任务和输入分辨率进行预训练的视觉编码器,要么通过将更高分辨率的编码器与 CLIP 编码器融合,依次附加来自不同编码器的特征,要么采用更复杂的融合和路由策略来最大限度地发挥不同编码器的优势。这种“视觉专家混合”方法已被证明是有效的,尽管对其设计空间的详细研究和严格的烧蚀仍然缺乏,这促使 Eagle 重新审视这一领域。关键问题仍然存在:选择哪种视觉编码器组合,如何融合不同的专家,以及如何使用更多视觉编码器调整训练策略。

为了解决这些问题,Eagle 系统地研究了混合视觉编码器设计空间,以改进 MLLM 感知。该设计空间的探索涉及以下步骤:1) 对各种视觉编码器进行基准测试并寻找更高分辨率的适应性;2) 对视觉编码器融合策略进行“同类”比较;3) 逐步确定多个视觉编码器的最佳组合;4) 改进视觉专家预对齐和数据混合。探索步骤如下图所示。

在这里插入图片描述

Eagle 的研究涵盖了针对不同任务和分辨率进行预训练的视觉编码器的性能,例如视觉语言对齐、自监督学习、检测、分割和 OCR。Eagle 采用循环方法,从基本的 CLIP 编码器开始,每次添加一位专家,选择在每一轮中提供最佳改进的专家。

虽然 Eagle 的研究并不是第一个在 MLLM 中利用多个视觉编码器的研究,但这项系统研究在此环境下得出了几个关键发现:

  • 在 MLLM 训练期间解锁视觉编码器很重要。 这与 LLaVA 等考虑多个视觉编码器或教师的模型形成对比,在这些模型中,冻结视觉编码器是一种常见的做法。
  • 一些最近提出的融合策略并未表现出明显的优势。 相反,直接的通道连接成为一种简单但有竞争力的融合策略,可提供最佳的效率和性能。
  • 吸纳更多视觉专家可带来持续收益。 除了扩大单个编码器的规模外,这使其成为系统地增强 MLLM 感知的一条有希望的途径。当视觉编码器解锁时,改进尤其明显。
  • 预调准阶段是关键。 Eagle 引入了预对齐阶段,其中非文本对齐的视觉专家使用冻结的 LLM 进行单独微调,然后再一起进行训练。此阶段显著提高了混合视觉编码器设计下的 MLLM 性能。

方法论和架构

与之前专注于视觉编码器之间的新融合策略或架构的方法不同,Eagle 的目标是确定一种极简设计来融合不同的视觉编码器,并通过详细的消融和移除任何不必要的组件来支持。如下图所示,Eagle 首先将基本 CLIP 编码器扩展为一组具有不同架构、预训练任务和分辨率的视觉专家。然后,Eagle 会利用这些专家比较不同的融合架构和方法,并探索如何使用多个编码器优化预训练策略。

在这里插入图片描述

最后,Eagle 将所有发现结合起来,并将该方法扩展到具有不同分辨率和领域知识的多个专家视觉编码器。使用与 LLaVA-1.5 相同的预训练数据(包含 595k 个图像-文本对),Eagle 进入监督微调阶段,通过从一系列任务中收集数据并将其转换为多模态对话,包括 LLaVA-1.5、Laion-GPT4V、ShareGPT-4V、DocVQA、synDog-EN、ChartQA、DVQA 和 AI2D,产生 934k 个样本。

该模型首先使用图像-文本对进行预训练,训练一个时期,批处理大小为 256,其中整个模型处于冻结状态,并且仅更新投影层。在第二阶段,该模型在监督微调数据上进行微调,训练一个时期,批处理大小为 128。对于本次探索,Eagle 采用 Vicuna-7B 作为底层语言模型。第一阶段的学习率设置为 1e-3,第二阶段的学习率设置为 2e-5。

更强大的 CLIP 编码器

Eagle 从 CLIP 模型开始探索,因为它已成为许多 MLLM。虽然 CLIP 模型可以增强多模态任务,但它们的局限性也得到了充分证明。例如,许多现有的 MLLM 倾向于使用预先训练的 CLIP 分辨率(例如 224 × 224 或 336 × 336)作为输入分辨率。在这些情况下,编码器通常难以捕捉对分辨率敏感的任务(如 OCR 和文档理解)至关重要的细粒度细节。

在这里插入图片描述

为了处理更高的输入分辨率,一种常见的方法是平铺,即将输入图像分成多个图块并单独编码。另一种更简单的方法是直接扩大输入分辨率,并在必要时插入视觉变换器模型的位置嵌入。Eagle 将这两种方法与不同分辨率的冻结和非冻结视觉编码器进行了比较,结果包含在上表中。研究结果可以总结如下:

  • 解冻 CLIP 编码器在插值到不同于 CLIP 预训练分辨率的更高 MLLM 输入分辨率时会带来显著的改善,而当分辨率保持不变时性能不会下降。
  • 冻结 CLIP 编码器并直接使其适应更高的 MLLM 输入分辨率会严重损害性能。
  • 在所比较的策略中,使用未冻结的 CLIP 编码器直接插值到 448 × 448 在性能和成本方面被证明是有效且高效的。
  • 尽管最佳 CLIP 编码器的模型规模小得多(300M 对 6B),且预训练数据较少,但它的性能仍接近 InternVL。

值得注意的是,CLIP-448 允许 Eagle 将设置与 LLaVA-HR 和 InternVL 相匹配,其中 CLIP 编码器同样适用于采用 448 × 448 输入并输出 1024 个 patch token。为了进一步研究,Eagle 遵循了这一简单策略,即在训练期间扩大输入分辨率并解锁视觉编码器。

在这里插入图片描述

Eagle 观察到,现有的流行融合策略尽管设计各异,但大致可以分为以下几类:

  1. 序列追加:直接将来自不同主干的视觉标记附加为更长的序列。
  2. 通道连接:沿通道维度连接视觉标记而不增加序列长度。
  3. 拉瓦一高回弹率:使用混合分辨率适配器将高分辨率特征注入低分辨率视觉编码器。
  4. 迷你双子座:使用 CLIP 标记作为低分辨率查询来交叉参与位于同地本地窗口中的另一个高分辨率视觉编码器。
  5. 可变形注意力机制:在 Mini-Gemini 之上引入的新基线,其中原始窗口注意力被可变形注意力所取代。

在这里插入图片描述
我们并没有像 LLaVA 最初的预训练策略那样训练投影仪来同时对齐多个视觉专家,而是首先使用下一个标记预测监督将每个专家的表示与较小的语言模型(实践中为 Vicuna-7B)对齐。如下图所示,通过预对齐,整个训练过程包括三个步骤:1)在 SFT 数据上使用他们自己的投影仪训练每个预训练的视觉专家,同时保持语言模型不变;2)将第一步中的所有视觉专家结合起来,并使用图像文本对数据仅训练投影仪;3)在 SFT 数据上训练整个模型。

在这里插入图片描述
实验与结果

Eagle 在精心制定策略后,为该模型制定了以下原则:(1)整合更多视觉专家,并采用优化的训练方案;(2)通过直接通道连接将多个视觉专家组合在一起;(3)通过预对齐分别对视觉专家进行预训练。在本节中,为了进一步展示 Eagle 模型的优势,我们将加入额外的训练数据,并将 Eagle 与当前最先进的 MLLM 在各种任务中进行比较。Eagle 使用 Vicuna-v1.5-7B、Llama3-8B 和 Vicuna-v1.5-13B 作为语言模型。对于视觉编码器,根据第 2.6 节中的结果,Eagle 模型表示为 Eagle-X4,其中包括四个视觉编码器:CLIP、ConvNeXt、Pix2Struct 和 EVA-02,以及 Eagle-X5,其中包括一个额外的 SAM 视觉编码器。

视觉问答任务

Eagle 在三个视觉问答 (VQA) 基准(包括 GQA、VQAv2 和 VizWiz)上比较了该模型系列。如下表所示,Eagle-X5 在 GQA 和 VQAv2 上实现了最佳性能,凸显了加入更多视觉专家的优势。
在这里插入图片描述

OCR 和图表理解任务

为了评估 Eagle 的 OCR、文档和图表理解能力,我们在 OCRBench、TextVQA 和 ChartQA 上对该模型进行了基准测试。如上表所示,得益于 Eagle 的高分辨率架构和不同视觉编码器的集成,Eagle 在 TextVQA 上的表现明显优于竞争对手。值得注意的是,Eagle 保持了简单的设计,最多支持 1024 个 token,而无需对图像进行复杂的图块分解。

下图为OCR与文档理解的案例,通过高分辨率适配,以及更多视觉专家的加入,Eagle可以识别图片中的细小文字,并根据用户的指令精准提取信息。

在这里插入图片描述
为了更好地理解引入在其他视觉任务上经过预训练的专家的好处,下图直观地展示了仅使用 ConvNeXt 和 CLIP 视觉编码器的模型的结果,并与 Eagle-X5 的结果进行了比较。借助全套视觉编码器,该模型成功纠正了错误,这表明即使配备了在视觉语言对齐上经过预训练的高分辨率视觉编码器,通过集成在其他视觉任务上经过预训练的视觉专家,Eagle 的功能也会得到进一步增强。

在这里插入图片描述

多模态基准评估

Eagle 在七个 MLLM 基准上进行评估,以从不同角度展示其功能,包括 MME、MMBench、SEED、MathVista、MMMU、ScienceQA 和 POPE。具体来说,MME、MMBench 和 SEED 评估涉及推理、识别、知识和 OCR 的各种实际任务的整体性能。MMMU 专注于需要大学水平知识的不同领域的挑战性问题。POPE 评估 MLLM 的视觉幻觉。此评估中使用的指标遵循这些基准的默认设置。Eagle 报告 MME 的感知分数、MMBench 的 en_dev 分割、SEED 的图像分割、MathVista 的测试迷你分割、MMMU 的 val 分割、POPE 的 F1 分数和 ScienceQA 的图像分数,确保与其他模型报告的分数保持一致。

在这里插入图片描述

总结

在本文中,我们讨论了 Eagle,这是对将视觉编码器集成到多模态大型语言模型中的设计空间的深入分析。与之前专注于设计新颖的融合范式的作品不同,Eagle 发现系统性的设计选择很重要,并发现了一系列有用的技术。Eagle 一步步优化了单个视觉编码器的训练配方,确定了一种可扩展且高效的融合方法,并逐渐将视觉编码器与不同的领域知识结合起来。结果强调了基本设计空间考虑的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148023.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

网络层协议 —— IP协议

目录 0.前言 1.IP协议的格式 2.IP地址 2.1IP地址的划分 国际间IP地址的划分 公有IP 私有IP 特殊的IP地址 国内IP地址的划分 2.2IP地址不足问题 2.3IP地址的功能 2.4如何使用IP地址 2.5IP地址的构成 3.网段划分 以前的方案 现在的方案 4.认识宏观网络 5.路由 …

SpringCloud config native 配置

SpringCloud config native 配置 1.概述 最近项目使用springCloud 框架,使用config搭建git作为配置中心。 在私有化部署中,出现很多比较麻烦的和鸡肋的设计。 每次部署都需要安装gitlab 有些环境安装完gitlab,外面不能访问,不给开…

QT实现升级进度条页面

一.功能说明 在Qt中实现固件升级的进度条显示窗口,你可以通过创建一个自定义的对话框(Dialog)来完成。这个对话框可以包含一个进度条(QProgressBar)、一些文本标签(QLabel)用于显示状态信息&am…

SSL 最长签发时间是多久?

在当今数字化的时代,网络安全变得至关重要。为了确保数据在网络传输中的安全性,SSL(Secure Sockets Layer,安全套接层)证书被广泛应用。那么,SSL最长签发时间是多久呢? SSL证书是一种数字证书&…

差分数组介绍

差分数组 差分数组介绍定义性质性质1: 计算数列第i项的值性质2: 计算数列第i项的前缀和应用场景差分数组具体示例【leetcode】370.区间加法题目描述题解【leetcode】1109. 航班预订统计题目描述题解【leetcode】2848.与车相交的点题目描述题解差分数组介绍 定义 对于已知有n个…

C#如何把写好的类编译成dll文件

1 新建一个类库项目 2 直接改写这个Class1.cs文件 3 记得要添加Windows.Forms引用 4 我直接把在别的项目中做好的cs文件搞到这里来,连文件名也改了(FilesDirectory.cs),这里using System.Windows.Forms不会报错,因为前…

制造解法 Manufactured Solutions 相关的论文的阅读笔记

Verification of Euler/Navier–Stokes codes using the method of manufactured solutions https://doi.org/10.1002/fld.660 粘性项与扩散项之间的平衡 For the Navier–Stokes simulations presented herein, the absolute viscosity is chosen to be a large constant va…

【Java】掌握Java:基础概念与核心技能

文章目录 前言:1. 注释2. 字面量3. 变量详解3.1 变量的定义3.2 变量里的数据存储原理3.3 数据类型3.4 关键字、标识符 4. 方法4.1 方法是啥?4.2 方法的完整定义格式4.3 方法如何使用:4.4 方法的其他形式4.5 方法的其他注意事项4.5.1 方法是可…

如何充分使用芝士AI呢?一文讲清楚助力论文完成无忧

为了解决各位学弟学妹们的论文烦恼,助力大家毕业无忧,芝士AI由985硕博团队的学长学姐们潜心研发出来的一款集齐论文选题、开题报告、论文初稿、论文查重、论文降重、论文降AIGC率、论文答辩稿、论文答辩PPT,一站式解决困扰大家已久的论文问题…

如何创建标准操作规程(SOP)[+模板]

创建、分发和管理流程文档和逐步说明的能力是确定企业成功的关键因素。许多组织依赖标准操作规程(SOP)作为基本形式的文档,指导他们的工作流程操作。 然而,SOP不仅仅是操作路线图;它们就像高性能车辆中的先进GPS系统一…

机器视觉-7 检测原理之预处理(图像增强)

在图像处理领域,图像增强是一个非常重要的技术,目的是通过调整图像的某些特征来改善图像的视觉效果,或为后续的图像分析和处理做准备。在 OpenCV 中,C 提供了多种图像增强方法,包括直方图均衡化、对比度拉伸、锐化、边…

双向链表-

链表特性:带头/不带头 循环/非循环 --->排列组合后,共有8种链表结构 一.双向链表的定义 前一个节点存了后一个节点的地址,后一个节点也存了前一个节点的地址,即循环链表 二.代码解析 //双向链表 //与非循环链表区别&#…

面试官:Spring是如何解决循依赖问题?

Spring 的循环依赖一直都是 Spring 中一个很重要的话题,一方面是 Spring 为了解决循环依赖做了很多工作,另一个方面是因为它是面试 Spring 的常客,因为他要求你看过 Spring 的源码,如果没有看过 Spring 源码你基本上是回答不了这个…

【Java】线程暂停比拼:wait() 和 sleep()的较量

欢迎浏览高耳机的博客 希望我们彼此都有更好的收获 感谢三连支持! 在Java多线程编程中,合理地控制线程的执行是至关重要的。wait()和sleep()是两个常用的方法,它们都可以用来暂停线程的执行,但它们之间存在着显著的差异。本文将详…

移动技术开发:RecyclerView瀑布流水果列表

1 实验名称 RecyclerView瀑布流水果列表 2 实验目的 掌握RecyclerView控件的实现方法和基本应用 3 实验源代码 布局文件代码&#xff1a; activity_main&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android&q…

Mac系统Docker中SQLserver数据库文件恢复记录

Mac系统Docker中SQLserver数据库文件恢复记录 Mac想要安装SQLsever&#xff0c;通过docker去拉去镜像是最简单方法。 一、下载Docker Docker 下载安装&#xff1a; 需要‘科学上网’ 才能访问到docker官网。&#xff08; https://docs.docker.com/desktop/install/mac-ins…

18.2K Star,AI 高效视频监控摄像头

Hi&#xff0c;骚年&#xff0c;我是大 G&#xff0c;公众号「GitHub 指北」会推荐 GitHub 上有趣有用的项目&#xff0c;一分钟 get 一个优秀的开源项目&#xff0c;挖掘开源的价值&#xff0c;欢迎关注。 导语 在家庭和企业安防领域&#xff0c;实时视频监控是保障安全的核…

2024 SNERT 预备队招新 CTF 体验赛-Web

目录 1、robots 2、NOF12 3、get_post 4、好事慢磨 5、uploads 6、rce 7、ezsql 8、RCE 1、robots robots 协议又叫爬虫协议&#xff0c;访问 robots.txt 继续访问 /JAY.php 拿到 flag&#xff1a;flag{hello_Do_YOU_KONw_JAY!} 2、NOF12 F12 和右键都被禁用 方法&#…

22、Raven2

难度 中 目标 root权限 4个flag 使用Virtualbox启动 kali 192.168.86.105 靶机 192.168.86.106 信息收集 看到111端口有一个rpc相关的东西&#xff0c;去网上查看了一下是什么服务 通过在网上搜索发现这是一个信息泄露的漏洞&#xff0c;上面的这个端口其实就是泄露的端口和…

【Spring 底层原理】手搓一个Spring框架

文章目录 准备工作Spring 框架到底在干啥&#xff1f;几个概念辨析注解的定义自定义核心注解配置类启动类辅助类 Spring 容器XxxAware 回调机制初始化机制前置、后置处理器完整的容器代码源码下载 最近工作接触到的知识比较底层&#xff0c;因此为了突破瓶颈&#xff0c;彻底搞…