一文详解多模态智能体（LMAs）最新进展（核心组件/分类/评估/应用）

大型多模态智能体

文章链接：https://arxiv.org/pdf/2402.15116
github地址：https://github.com/jun0wanan/awesome-large-multimodal-agents

大语言模型（LLMs）在为基于文本的AI智能体提供动力方面取得了卓越的表现，赋予它们类似于人类的决策和推理能力。与此同时，出现了一个新兴的研究趋势，专注于将这些由LLMs驱动的AI智能体扩展到多模态领域。这种扩展使得AI智能体能够解释和响应各种多模态用户queries，从而处理更加复杂和微妙的任务。

本文对LLMs驱动的多模态智能体进行了系统性审查，将其称为大型多模态智能体（简称LMAs）。

首先，介绍了开发LMAs所涉及的基本组件，并将当前的研究成果分类为四种不同类型。

随后，审查了整合多个LMAs的协作框架，增强了集体效能。该领域的一个关键挑战是现有研究中使用了多种不同的评估方法，这些方法阻碍了对不同LMAs进行有效比较。因此，本文编制了这些评估方法，并建立了一个全面的框架来弥合这些差距。该框架旨在标准化评估，促进更有意义的比较。在审查结束时，强调了LMAs的广泛应用，并提出了可能的未来研究方向。

本文讨论旨在为这一快速发展的领域的未来研究提供有价值的见解和指导。

介绍

智能体（agent）是一个能够感知其环境并根据这些感知做出决策以达到特定目标的系统。尽管在狭窄领域内表现出色，早期智能体往往缺乏适应性和泛化能力，与人类智能存在显著差异。最近大语言模型（LLMs）的进展开始弥合这一差距，LLMs增强了它们在命令解释、知识吸收和模拟人类推理和学习方面的能力。这些智能体使用LLMs作为它们的主要决策工具，并进一步增强了关键的类人特征，如记忆。这种增强使它们能够处理各种自然语言处理任务，并使用语言与环境进行交互。

然而，现实世界的场景往往涉及超越文本的信息，包括多种模态，其中视觉方面的重要性很大。因此，由LLMs驱动的智能智能体的下一个进化步骤是获得处理和生成多模态信息的能力，特别是视觉数据。这种能力对于这些智能体进化为更强大的AI实体，模仿人类级别的智能至关重要。本文具备这种能力的智能体被称为大型多模态智能体（LMAs）。通常，它们面临的挑战比仅包含语言的智能体更为复杂。

以网络搜索为例，一个LMA首先需要通过搜索栏输入用户的要求，以查找相关信息。随后，它通过鼠标点击和滚动导航到网页，以浏览实时网页内容。最后，LMA需要处理多模态数据（如文本、视频和图像）并进行多步推理，包括从网络文章、视频报道和社交媒体更新中提取关键信息，并将这些信息整合以响应用户的查询。我们注意到，现有的LMAs研究是孤立进行的，因此有必要通过总结和比较现有的框架来进一步推动该领域的发展。存在一些与LLM驱动智能体相关的调查，但其中很少有关注多模态方面的。

本文旨在通过总结LMAs的主要发展来填补这一空白。首先，介绍了核心组件，并提出了现有研究的新分类法，进一步讨论了现有的协作框架。关于评估，概述了评估LMAs性能的现有方法，并进行了全面的总结。然后，应用部分提供了多模态智能体及其相关任务广泛的现实世界应用的详尽概述。最后，通过讨论并提出LMAs可能的未来发展方向来总结这项工作，为有用的研究指导提供支持。

LMAs的核心组件

本节详细介绍了LMAs的四个核心元素，包括感知、规划、行动和记忆。

感知。感知是一种复杂的认知过程，使人类能够收集和解释环境信息。在LMAs中，感知组件主要集中在处理来自不同环境的多模态信息上。如下表1所示，在不同任务中的LMAs涉及各种模态。它们需要从这些不同的模态中提取对任务完成最有利的关键信息，从而促进任务的更有效规划和执行。

早期的处理多模态信息的研究通常依赖于简单的相关模型或工具，将图像或音频转换为文本描述。然而，这种转换方法往往会产生大量无关和冗余信息，特别是对于复杂的模态（例如视频）。除了输入长度限制，LLMs经常面临有效提取相关信息进行规划的挑战。为解决这一问题，近期的研究引入了子任务工具的概念，旨在处理复杂的数据类型。在类似真实世界的环境（即开放世界游戏）中，[51]提出了一种处理非文本模态信息的新方法。该方法首先从环境中提取关键的视觉词汇，然后使用GPT模型进一步将这些词汇细化为一系列描述性句子。当LLMs感知环境中的视觉模态时，它们使用这些模态来检索最相关的描述性句子，从而有效增强了对环境的理解。

规划。 规划者在LMAs中起着核心作用，类似于人类大脑的功能。它们负责对当前任务进行深入推理，并制定相应的计划。与仅使用语言的智能体相比，LMAs在更复杂的环境中运行，制定合理计划更具挑战性。从四个角度（模型、格式、检查和反思、规划方法）详细介绍了规划者：

模型：如下表1所示，现有研究采用不同的模型作为规划者。其中，最流行的是GPT-3.5或GPT-4。然而，这些模型并不是公开的，因此一些研究已经开始转向使用开源模型，例如LLaMA和LLaVA，后者可以直接处理多种模态的信息，增强了它们制定更优化计划的能力。
格式：它表示规划者制定的计划的格式。如上面表1所示，有两种格式化方式。第一种是自然语言。例如，在某些研究中，获得的规划内容是“我首先使用OpenCV的openpose控制模型分析图像中男孩的姿态......”，其中制定的计划是使用“OpenCV的openpose控制模型”。第二种是以程序形式，如在某些研究中描述的“image_patch = ImagePatch(image)”，其中调用ImagePatch函数来执行规划。还有混合形式。
检查和反思：在复杂的多模态环境中，LMAs要始终制定有意义的、完成任务的规划是具有挑战性的。这个组件旨在增强鲁棒性和适应性。一些研究方法存储成功的经验在长期记忆中，包括多模态状态，以指导规划。在规划过程中，它们首先检索相关经验，帮助规划者深思熟虑以减少不确定性。此外，[12]利用人类在执行相同任务时在不同状态下制定的计划。当遇到类似的状态时，规划者可以参考这些“标准答案”进行思考，从而制定更合理的计划。此外，[71]采用了更复杂的规划方法，如蒙特卡罗，以扩大规划搜索的范围，找到最佳的规划策略。
规划方法：现有的规划策略可以分为两种类型：动态规划和静态规划，如前面表1所示。前者是指根据初始输入将目标分解为一系列子计划，类似于思维链（CoT），即使在过程中发生错误，也不会重新制定计划；后者意味着每个计划都是基于当前环境信息或反馈制定的。如果在计划中检测到错误，它将恢复到原始状态进行重新规划。

行动。 多模态智能体系统中的行动组件负责执行规划者制定的规划和决策。它将这些规划转化为具体的行动，例如使用工具、身体动作或与界面交互，从而确保智能体能够准确高效地实现其目标并与环境进行交互。讨论重点在于两个方面：类型和方法。

在前面表1中，行动被分类为三种类型：工具使用（T）、实体动作（E）和虚拟动作（V），其中工具包括视觉基础模型（VFMs）、API、Python等（如表2所列）；实体动作是由物理实体执行的，如机器人或虚拟角色；虚拟动作包括网络任务（例如，点击链接、滚动和键盘使用）。

就方法而言，如表1所示，主要有两种类型。第一种类型涉及使用提示向智能体提供有关可执行行动的信息，例如当前可用的工具及其功能；第二种类型涉及收集关于行动的数据，并利用这些信息来自我指导开源大型模型的微调过程，例如LLaVA。这些数据通常由先进的模型生成，例如GPT-4。与仅使用语言的智能体相比，与行动相关的信息和数据的复杂性需要更复杂的方法来优化学习策略。

记忆。 早期研究表明，记忆机制在通用智能体的运作中起着至关重要的作用。与人类类似，智能体的记忆可以分为长期记忆和短期记忆。在简单的环境中，短期记忆足以让智能体处理手头的任务。然而，在更复杂和更现实的环境中，长期记忆变得至关重要。在表1中，可以看到只有少数LMAs包含长期记忆。与仅使用语言的智能体不同，这些多模态智能体需要能够跨越各种模态存储信息的长期记忆。在一些研究中，所有模态都被转换为文本格式进行存储。然而，在某些研究中，提出了一种多模态长期记忆系统，专门设计用于存档以前的成功经验。具体而言，这些记忆被存储为键值对，其中键是多模态状态，值是成功的计划。在遇到新的多模态状态时，根据它们的编码相似性检索最类似的例子。

其中，代表通过CLIP模型编码的键的视觉信息，与当前由CLIP编码的视觉状态进行相似性比较。

LMAs的分类法

通过将现有研究分类为四种类型，提出了一种分类法。

类型I：闭源LLMs作为没有长期记忆的规划者。 早期的研究采用提示来利用闭源的大语言模型（如GPT-3.5）作为推理和规划的规划者，如图2(a)所示。根据特定的环境或任务要求，这些计划的执行可以通过下游工具包或通过使用鼠标或机器人手臂等物理设备直接与环境进行交互。这种类型的LMAs通常在更简单的环境中运行，承担着传统的任务，如图像编辑、视觉定位和视觉问答（VQA）。

类型II：经过微调的LLMs作为没有长期记忆的规划者。 这种类型的LMAs涉及收集多模态指令跟随数据或使用自我指导来微调开源的大语言模型（如LLaMA）或多模态模型（如LLaVA），如图2(b)所示。这种增强不仅使模型能够作为推理和规划的中心“大脑”，还使其能够执行这些计划。类型II LMAs面临的环境和任务与类型I类似，通常涉及传统的视觉或多模态任务。与相对简单的动态特性、封闭环境和基本任务的典型场景相比，在像Minecraft这样的开放世界游戏中，LMAs需要在动态背景下执行精确的规划，在高复杂性的任务中进行处理，并进行终身学习以适应新的挑战。因此，在类型I和类型II的基础上，类型III和类型IV的LMAs集成了记忆组件，展示了向人工智能领域中的通用智能体发展的巨大潜力。

类型III：具有间接长期记忆的规划者。 对于类型III的LMAs，如图2(c)所示，LLMs充当中央规划者，并配备有长期记忆。这些规划者通过调用相关工具访问和检索长期记忆，利用这些记忆来增强推理和规划。例如，在[71]中开发的多模态智能体框架专为视频处理等动态任务量身定制。该框架包括一个规划者、一个工具包和一个与任务相关的记忆库，目录了空间和时间属性。规划者使用专门的子任务工具查询记忆库，以获取与视频内容相关的时空属性，从而推断出与任务相关的时间和空间数据。存储在工具包中的每个工具都专为特定类型的时空推理而设计，并在框架内作为执行者。

类型IV：具有本地长期记忆的规划者。 与类型III不同，类型IV的LMAs具有LLMs直接与长期记忆进行交互，绕过了使用工具访问长期记忆的需要，如图2(d)所示。例如，在[51]中提出的多模态智能体展示了在Minecraft的开放世界环境中完成200多个不同任务的熟练技能。在他们的多模态智能体设计中，交互式规划者将多模态基础模型与LLM相结合，首先将环境多模态输入转换为文本。规划者进一步采用自检机制来预测和评估执行中的每个步骤，主动发现潜在缺陷，并结合环境反馈和自我解释，迅速纠正和完善计划，而无需额外信息。此外，该多模态智能体框架包括一个新颖的多模态记忆。成功的任务计划及其初始多模态状态被存储，规划者从该数据库中检索类似的状态用于新任务，利用积累的经验以实现更快、更有效的任务完成。

多智能体协作

本节进一步介绍了超出孤立智能体讨论范围的LMAs的协作框架。

如下图3(a)(b)所示，这些框架采用多个LMAs协同工作。这两种框架之间的关键区别在于是否存在记忆组件，但它们的基本原理是一致的：多个LMAs拥有不同的角色和责任，使它们能够协调行动，共同实现共同目标。这种结构减轻了单个智能体的负担，从而增强了任务性能。

例如，在[37]的多模态智能体框架中，引入了一个感知者智能体来感知多模态环境，由大型多模态模型组成。一个被指定为Patroller的智能体负责与感知者智能体进行多次交互，对感知到的环境数据进行实时检查和反馈，以确保当前计划和行动的准确性。当检测到执行失败或需要重新评估时，Patroller向规划者提供相关信息，促使重新组织或更新子目标下的动作序列。

MemoDroid框架由几个关键智能体组成，它们共同工作以自动化移动任务。探索智能体负责对目标应用程序界面进行离线分析，根据UI元素生成潜在子任务列表，然后将其存储在应用程序内存中。在在线执行阶段，选择智能体根据用户命令和当前屏幕状态从探索的集合中确定要执行的特定子任务。推断智能体进一步通过提示LLM识别并完成所选子任务所需的基础动作序列。同时，当遇到与先前学习的任务相似的任务时，Recall智能体可以直接从内存中调用和执行相应的子任务和动作序列。

评估

研究的主要焦点是增强当前LMAs的能力。然而，对于这些智能体的评估和评价方法，却付出了有限的努力。大多数研究仍然依赖于传统的性能评估指标，这清楚地说明了评估LMAs的挑战。这也强调了在这一领域开发实用的评估标准和建立基准数据集的必要性。本节总结了对LMAs的现有评估，并提供了对未来发展的展望。

主观评价

主观评价主要是指使用人类来评估这些LMAs的能力。最终目标是创建一个能够像人类一样理解世界并自主执行各种任务的LMA。因此，采用人类用户对LMAs能力的主观评估至关重要。主要的评估指标包括多功能性、用户友好性、可扩展性以及价值和安全性。

多功能性。 多功能性表示LMA灵活运用各种工具、执行物理和虚拟行动以及管理各种任务的能力。[30]提出了比较现有LMAs使用的工具的规模和类型，以及评估它们功能多样性的方法。

用户友好性。 用户友好性涉及用户对LMAs完成任务结果的满意度，包括效率、准确性和结果的丰富程度。这种评估相对较主观。在[64]中，人类对LMAs的评估对于精确评估其在解释和执行用户指令方面的有效性至关重要。

可扩展性。 可扩展性基本评估LMAs吸收新能力并应对新兴挑战的能力。鉴于人类需求的动态性，严格评估LMAs的适应性和终身学习潜力至关重要。例如，[23]中的评估侧重于智能体使用以前未见过的工具完成任务的熟练程度。

价值和安全性。 除了之前提到的指标外，“价值和安全性”指标在确定智能体对人类用户的实际意义和安全性方面起着至关重要的作用。虽然许多当前的评估忽视了这一指标，但考虑到LMAs的“价值和安全性”是至关重要的。与语言智能体相比，LMAs可以处理更广泛的任务类别，因此更重要的是让它们遵循与人类社会价值观一致的道德和伦理原则。

客观评价

客观评价与主观评估不同，依赖于定量指标全面、系统地、标准化地评估LMAs的能力。目前，这是多模态智能体研究中最广泛采用的评估方法。

指标。 指标在客观评估中发挥着至关重要的作用。在当前的多模态智能体研究中，采用了特定的与任务相关的指标，例如智能体生成答案的准确性，如视觉问答（VQA）中的准确性。然而，LLMs出现之前建立的传统任务指标在评估llm驱动的LMAs时并不足够有效。因此，越来越多的研究工作致力于确定更适合的评估指标。例如，在VisualWebArena中，设计了一种专门的评估指标，用于评估LMAs处理视觉引导任务的性能。这包括测量智能体对网页内容的视觉理解的准确性，例如识别和利用由标记集定义的可交互元素进行操作，并根据手动设计的奖励函数定义的任务目标实现状态转换的能力。此外，还包括对特定视觉场景问题的响应的准确性以及根据视觉信息执行的操作的一致性。

基准测试。 基准测试代表着一个测试环境，其中包含一系列评估标准、数据集和任务。它被用于评估和比较不同算法或系统的性能。与传统任务的基准测试相比，SmartPlay 利用精心设计的一套游戏全面衡量LMAs的各种能力，为每种能力建立了详细的评估指标和挑战级别。与使用游戏进行评估的方法相比，GAIA 开发了一个包含466个问题及其答案的测试集。这些问题要求AI系统具备一系列基本能力，例如推理、处理多模态信息、网络导航和熟练使用工具。与当前创建越来越困难的任务以测试人类能力的趋势不同，GAIA侧重于对现有高级AI系统提出概念上简单但具有挑战性的问题。这些问题涉及需要精确执行复杂操作序列的真实场景，其输出易于验证。类似地，VisualWebArena是一个基准测试套件，旨在评估和推进LMAs在处理视觉和文本理解任务上的能力，适用于真实网页。还有其他基准测试有效地测试了智能体的能力。

应用

LMAs擅长处理多种数据模态，在各种情景下的决策和响应生成方面胜过仅限于语言的智能体。它们的适应性使它们在真实世界的多感官环境中异常有用，如图4所示。

GUI自动化。 在这个应用中，LMAs的目标是理解和模拟用户界面内的人类操作，实现重复任务的执行、跨多个应用程序的导航以及简化复杂的工作流程。这种自动化有望节省用户的时间和精力，让他们可以专注于工作的更重要和更有创造性的方面。例如，GPT-4V-Act是一种先进的人工智能，将GPT-4V的能力与网络浏览相结合，以改进人机交互。它的主要目标是使用户界面更易于访问，简化工作流程自动化，并增强自动化的UI测试。这种人工智能对于残疾人或技术能力有限的人来说特别有益，帮助他们更轻松地浏览复杂的界面。

机器人技术与实体人工智能。 这个应用专注于将机器人的感知、推理和行动能力与其环境中的物理交互相结合。通过使用多模态智能体，机器人可以利用多种感官通道，如视觉、听觉和触觉，获取全面的环境数据。例如，MP5系统是一种先进的多模态实体系统，用于Minecraft，利用主动感知来智能地分解并执行广泛的、无限期的任务，使用大语言模型。

游戏开发。 游戏人工智能致力于设计和实现这些智能体，以展示智能和真实感，从而提供引人入胜和具有挑战性的玩家体验。将智能体技术成功地整合到游戏中，已经导致了更复杂和交互式的虚拟环境的创建。

自动驾驶。 传统的自动驾驶方法在有效感知和解释复杂场景方面面临困难。最近基于多模态智能体技术的进展，特别是由LLMs驱动，标志着在克服这些挑战和弥合感知差距方面取得了重大进展。GPT-Driver，这是一种先进的方法，采用OpenAI GPT-3.5模型作为自动驾驶车辆的可靠运动规划器，特别注重生成安全舒适的驾驶轨迹。利用LLMs固有的推理能力，他们的方法为新颖驾驶场景中有限的泛化问题提供了有希望的解决方案。

视频理解。 视频理解智能体是专门用于分析和理解视频内容的人工智能系统。它利用深度学习技术从视频中提取关键信息，识别对象、动作和场景，以增强对视频内容的理解。

视觉生成和编辑。 这种类型的应用旨在创建和编辑视觉内容。利用先进的技术，这个工具轻松地创建和修改图像，为用户提供了创意项目的灵活选择。例如，LLaVA-Interactive是一个开源的多模态交互系统，将预训练的AI模型的能力融合在一起，以便于与视觉线索进行多轮对话并生成编辑后的图像，从而实现了一种经济高效、灵活直观的AI辅助视觉内容创建体验。

复杂的视觉推理任务。 这个领域是多模态智能体研究的重点，主要强调多模态内容的分析。这种流行归因于LLMs在理解和推理基于知识的查询方面的优越认知能力，超越了以前模型的能力。在这些应用中，主要关注的是问答任务。这包括利用视觉模态（图像或视频）和文本模态（带有问题或附带文档的问题）进行推理响应。

音频编辑与生成。 这个应用中的LMAs集成了音频领域的基础专家模型，使音乐的编辑和创作变得高效。

结论

本调查对由LLMs驱动的多模态智能体（LMAs）的最新研究进行了彻底的概述。首先介绍了LMAs的核心组件（即感知、规划、行动和记忆），并将现有研究分类为四类。随后，整理了评估LMAs的现有方法，并设计了一个全面的评估框架。最后，重点介绍了LMAs领域内一系列当前和重要的应用场景。尽管取得了显著进展，但这个领域仍面临许多未解决的挑战，有很大的改进空间。我们最后根据审查的进展，强调了几个有前途的方向：

在框架方面：LMAs未来的框架可能会从两个不同的角度发展。从单一智能体的角度来看，发展可能朝着创建一个更统一的系统的方向发展。这涉及到规划者直接与多模态环境互动，利用全面的工具集，并直接操作记忆；从多个智能体的角度来看，推进多个多模态智能体之间的有效协调，执行集体任务，是一个关键的研究方向。这包括基本的方面，如协作机制、通信协议和战略任务分配。
在评估方面：对于这个领域，需要系统和标准的评估框架。理想的评估框架应该包含一系列评估任务，从简单到复杂不等，每个任务都具有对人类的重要相关性和效用。它应该包含清晰而明智的评估指标，经过精心设计，以全面而非重复的方式评估LMA的各种能力。此外，用于评估的数据集应该经过精心策划，以反映更贴近实际情况的场景。
在应用方面：LMAs在现实世界中的潜在应用是巨大的，为传统模型之前具有挑战性的问题提供了解决方案，例如网络浏览。此外，LMAs与人机交互领域的交叉也代表了未来应用的重要方向之一。它们处理和理解来自各种模态的信息的能力使它们能够执行更复杂、更细微的任务，从而增强了它们在实际场景中的实用性，并改善了人与机器之间的交互。