字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾｜冯佳时

编辑｜蔡芳芳

近年来，大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而，LLMs 在理解和生成自然信号（例如图像，视频）等，还处在比较早期的探索阶段。为了深入探讨这一主题，AICon 全球人工智能开发与应用大会邀请了字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时做主题演讲《大语言模型在计算机视觉领域的应用》。本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展，包括 LLMs 在图像理解与视频生成上的阶段性结果。

以下为演讲实录：

在过去三年中，大语言模型取得了显著的进展，已经发展成为一种功能强大的通用模型。这些模型已经阅读了互联网上的海量文本数据，其阅读量远远超过了我们人类一生中能够阅读的文本数据总量，因此积累了丰富的知识储备。然而，这些知识目前还局限于文本领域。如何将这些知识有效解码，并支持 AI 模型在物理世界和视觉世界中完成更复杂的任务，是我们在计算机视觉领域应用大语言模型时所面临的核心问题。

我目前就职于豆包大模型视觉基础研究团队，团队的主要职责是进行前沿技术的研究探索，同时在视觉多模态大模型的未来发展方向上进行尝试和探索。今天的分享，我将首先为大家提供一些背景知识，包括计算机视觉的定义以及我们目前关注的问题。随后，我将重点介绍豆包大模型视觉基础研究团队正在进行的两个研究项目，第一个项目是利用大语言模型帮助 AI 模型更好地理解视觉内容；第二个项目是关于 AIGC 的研究。最后会进行一个简单的总结，并对未来的研究方向进行展望。

背景介绍

计算机视觉的基本问题

计算机视觉是一个历史悠久的学科，也是人工智能研究领域中极为重要的一个分支。自 1950 年马尔出版《Vision》一书以来，视觉研究者们一直致力于解决视觉领域的核心问题。视觉问题由于其应用场景的多样性，可以抽象出多种不同的问题形式。如果我们对这些问题进行简化和抽象，可以将其归纳为三个基本能力：理解（识别）、检测和分割。

识别是最基本的能力，即给定一张图像或一段视频，要求模型能够识别并告知内容是什么。检测则在识别的基础上更进一步，要求模型能在复杂环境中定位出感兴趣的物体所在的位置。而分割则是在识别和检测的基础上的进一步深化，它要求模型不仅对图像内容进行全局理解，还要对图像中每个像素的细节进行理解，明确每个像素属于哪个物体，代表什么含义，这是视觉理解的终极问题。

除了理解能力之外，随着 AIGC 技术的发展，生成问题——即从文字描述到视觉内容的转换——也受到了广泛关注。自 2021 年以来，已经陆续有优秀的视觉 AIGC 模型发布，例如 Google 和 OpenAI 都推出了出色的图像生成模型。OpenAI 最近展示的 Sora 模型在视觉生成方面表现出色。此外，3D 生成模型也引起了人们的极大兴趣，尽管目前还处于早期阶段，但其在游戏、增强现实（AR）、虚拟现实（VR）以及构建完全虚拟的数字世界等方面具有巨大的应用潜力和想象空间。

LLM 统一模型

过去，在解决不同的视觉问题时，我们通常会开发或训练不同的专有模型，比如用于理解、分割、视频生成或 3D 生成等。然而，这种针对不同问题开发不同模型的方法已经落后于自然语言处理领域的研究进展。在自然语言理解方面，随着 GPT 等大语言模型的推出，我们已经进入了统一模型的时代。这种统一模型通过处理海量数据，理解文本数据背后的语法结构和包含的物理世界知识，能够根据用户询问和任务指定来完成各种任务。

例如，ChatGPT 和其他一些 AI 聊天软件已经能够处理各种文本工作。我们可以利用它们来修改邮件，或者撰写文章，甚至总结一本书的关键知识。这些软件的关键在于它们背后使用的是一个统一的模型，这个模型可以接受提示词，根据用户提供的不同提示词来定位任务解决方案，并给出相应的输出。

视觉基础模型：生成与理解的统一

作为计算机视觉领域的研究人员，我们认识到虽然历史上视觉领域的发展曾领先于语言领域，但过去两三年自然语言处理的发展实际上已经为视觉研究提供了很好的示范，并走在了前面。这给我们带来了两个重要的启示。首先，我们需要消耗和吸收海量的数据，这是大语言模型已经做到的，它们通过阅读大量文本数据，积累了丰富的知识。其次，我们应该追求一个统一的模型范式，即构建一个能够通过提示（prompt）来解决各种问题的模型。

如果从头开始搭建这样的视觉模型，我们面临许多挑战。例如，视觉的自监督学习问题尚未解决，同时视觉的多任务统一也还没有实现。这让我们思考是否可以采取一种中间形态的方法，充分利用已经包含丰富知识的大语言模型来解决一些视觉领域的关键核心问题，如图像理解或图像生成。

基于 LLM 的图像理解

LLM 在图像理解中的应用与问题

大语言模型在图像理解领域的应用是一个值得关注的研究方向。尽管目前存在许多优秀的多模态大模型，如 OpenAI 的 GPT-4v 或 GPT-4o，但这些模型在图像内容的理解上仍处于初级阶段。它们能够提供图像的全局描述或识别图像中的文字，但尚未达到像素级别的细节理解。人类在观察场景时，能够提出不同粒度的问题，从全局的场景描述到具体的细节问题，如场景中有多少人、他们的着装或表情等。这种多尺度的理解能力是当前多模态大模型尚未完全实现的，在这方面还有很大的发展空间。

现有的多模态模型架构存在一些局限性，主要体现在基本的架构设计上。这些模型通常以大语言模型作为基础，需要适应大语言模型的处理方式。大语言模型主要处理文本数据，因此，要让它们理解图像，就需要将图像通过编码器提取特征，然后通过映射层将视觉特征转换为语言模型能理解的文本特征。这样，当用户提出问题时，语言模型能够根据转换后的特征和问题提供文本输出。

例如，如果询问上面图片中的内容，模型可能会回答说图片中有两只动物，一只是羊驼，另一只是美洲驼。这种基本架构存在一些问题，尤其是缺少对细节的理解。在图像特征提取阶段，大量信息已经丢失，而这些信息的丢失是无法通过后续的海量数据训练、有监督的精细调整或与人类偏好对齐的强化学习来恢复的。

经过训练的模型在回答关于图像全局信息的问题时可能表现得相当不错，但当被问及更具体的细节信息时，它可能就无法给出准确的答案。这是模型面临的第一个问题。

第二个问题是幻觉现象，这在多模态大模型中尤为常见。由于这些模型以语言模型为核心，它们已经接触过大量的文本数据。虽然我们不清楚具体的内容，但模型通过分析文本数据之间的分布和涌现模式，能够根据前面的词汇推断出后续可能出现的词汇。但这种推断完全在文本空间内进行，缺乏对参考图像的实际联系或基础，因此模型可能会产生一些多余的或错误的描述，这些描述可能与图像实际展示的细节完全不符。例如，如果将同一张图片多次输入到多模态模型中，模型可能会错误地描述图像中的某些细节，如描述上图中的美洲鸵为红色，即使实际上并非如此。

带定位能力的 LLM 及相关工作

为了解决这些细节理解和幻觉问题，并进一步扩展大语言模型的能力，使其能够与物理世界进行可靠和准确的交互，我们需要让大语言模型具备一定的定位能力。这种定位能力可以是对图像上特定区域的定位，也可以是对周围 3D 环境的定位。例如，在自动驾驶或具身智能领域，我们通常将大模型视为机器人的"大脑"。在进行推理时，我们希望这个"大脑"能够参考周围实际的物理环境信息。比如，如果问它下图中水龙头或放水果的托盘在哪里，我们希望模型不仅能告诉我们具体位置，还能指导机器人去拿取或进行相应的操作。这就要求大语言模型扩展出一定的定位能力，以便更好地与物理世界互动。

在计算机视觉的研究领域，自去年以来，许多研究人员已经开始关注如何拓展大语言模型的能力，使其不再局限于文本空间，而是能够与物理世界进行可靠交互。在这一领域，有许多杰出的工作，我这里举 LISA 团队的研究为例。他们开发的方法赋予了语言模型推理和定位的能力，能够识别图像中的关键区域和物体。例如，在询问图像中哪种食物的维生素含量最高时，模型不仅能回答出是橙子，还能指出橙子在图像中的具体位置。这种定位能力不仅提高了语言模型的准确性，还有助于减少对某些问题的幻觉。

LISA 团队的基本思想是通过让大语言模型的输出不仅限于文本 token，还能输出代表图像中物体位置的特殊 token。为了实现这一目标，他们采用了图像预处理技术，通过不同尺度的分割来识别图像中的物体。他们使用的是 Meta 公司的“segment anything”模型，简称 SAM 模型。SAM 模型虽然功能强大，但处理一张图片可能需要十几到二十几秒的时间，这显著增加了模型理解图像内容的推理延迟。此外，该模型架构还存在一些限制。目前，它每次只能定位图像中的一个物体。如果需要定位图像中的多个物体，当前的模型架构就无法满足。这些挑战表明，在将大语言模型与物理世界交互的能力拓展方面，还有许多工作要做。

我们的方案：PixelLM

针对目前学术界在大语言模型与物理世界交互方面的一些方案，我们发现它们存在效率不高、实用性有限，以及能力上的缺陷，比如只能定位单个物体而无法同时定位多个物体。为了解决这些问题，我们提出了 PixelLM 模型架构，这是一个像素级别的大语言模型，它不仅高效，而且具备多物体定位的能力，能够进行推理和分割，减少幻觉回答的发生。

PixelLM 的基础模型架构关键在于物体分割码本的设计和轻量级解码器的引入。在不改变原有大语言模型架构的基础上，我们增加了这两个设计，使得模型能够实时高效地对分割结果进行解码，并在图像上提供定位和分割的结果。大语言模型的输出也经过了改造，不仅包括文本 token，还包含代表物体分割结果的特殊 token。

我们首先使用一个强大的图像编码器来解决图像特征提取时的信息损失问题，并进行多尺度特征提取，而不仅仅是全局特征。这里我们使用了 OpenAI 的 CLIP 模型来提取图像的全局特征。但为了同时识别不同尺度的物体，我们对图像进行了缩放和切分，然后通过同样的特征提取模型来提取不同尺度的特征。

接下来是分割词表的设计。为了克服之前工作只能定位单个物体的限制，我们设计了多组分割词表或分割 token，每组 token 代表不同的尺寸，组内每个 token 代表不同的物体。通过预测结果的融合，我们能够成功地定位图像中的多个物体和不同尺寸的物体，例如同时定位下图右侧日轨的托和指针。

我们提出了一个轻量化的解码器设计，这个设计特别注重效率和简洁性。在这个设计中，我们采用了一个结构简单但功能强大的自回归解码器，它内置了注意力机制（attention）。这个解码器的工作流程是逐步进行的：首先，它解码出图像中一个物体的分割结果，然后利用这个结果作为指导，继续解码下一个物体的分割。这个过程会持续进行，直到图像中所有关键物体都被成功定位和分割出来。

在训练方法上，我们采取了一种综合策略，旨在保持原有语言模型能力的同时，增强模型在分割定位方面的性能。为此，我们在训练过程中加入了一些专门针对分割定位任务的损失函数。这样的设计确保了模型在经过训练后，不仅能够准确地定位和分割出图像中的关键物体，而且还能保持大语言模型的核心能力，包括对语言的深入理解、逻辑推理能力，以及丰富的常识。

大语言模型或 AI 大模型的发展离不开算力和海量数据的支持，数据的构建对于提升模型能力至关重要。为了训练具备推理、定位和分割能力的像素级大语言模型，我们需要相应的训练数据来指导模型学习和执行这些操作。然而，目前并没有现成的数据集可以直接使用，因此我们需要探索如何构建这样的数据。

在计算机视觉领域，图像分割是一个长期研究的方向，学术界已经积累了大量的相关数据，每张图像中都包含了多个物体及其对应的分割标注。我们考虑是否可以利用这些带有分割标注的图像作为种子数据，进一步构造出针对图像内容的问答数据。这些问答数据的答案中应包含物体信息及其分割结果。

我们的具体做法是，将已有分割标注的图像输入到大语言模型中，让模型针对图像提出问题，并结合关键类别信息，如图像中包含的物体类型和场景。例如，如果图像中有一只猫、一台电脑和一张床，我们可以询问大语言模型：“这张图像里有一只猫、一台电脑和一张床，你能想到什么问题？能构造出什么样的问答？”大语言模型会根据图像中的物体信息生成问答对。

通过这种方式，我们收集并构造了一个新的数据集，称为 MUSE。我们希望 MUSE 数据集能作为一个初始数据集，帮助研究人员开展更多关于大语言模型或多模态大模型的研究，从而提升模型在物理世界中的定位能力。这样的数据集将为模型提供丰富的学习和推理材料，使其能够更好地理解和与物理世界交互。

在进行模型性能评测时，尽管涉及的数字众多，但我们可以重点关注两组关键数据：TFLOPs 和分割定位的准确率。TFLOPs 是衡量模型算力的一个指标，它反映了模型的延时和效率。在我们的模型与 LISA 模型的比较中，我们模型的能力更强，但运算量却减少了一半，显示出更高的效率。此外，我们的模型在分割定位的准确率上也有显著提升，从 LISA 模型的 9.6 提升到了 37.7。我们的模型现在已经达到了一个初步可用的状态，目前团队仍在不断地迭代数据构造和模型能力，以期进一步提升模型的表现和应用范围。

一个具备定位能力和对物理世界参考能力的大语言模型在应用层面拥有非常广阔的前景。它不仅可以进行多物体分割，还能进行推理、问答，甚至与用户进行交流和聊天。这样的模型可以应用于多种场景，具有极高的灵活性和实用性。

我们的模型和数据集已经开源，可以在网上下载并试用。用户可以利用我们的数据集进行模型的迭代和进一步的研究开发。

如果一个模型已经具备了基本的定位能力，那么我们接下来期待的是它能在物理世界中进行更深层次的交互，从物理世界中学习知识。这意味着模型将能够将其从互联网文本数据中学到的知识与现实世界的物理情况相对应，并通过不断的反馈来提升自身的能力，这也是我们下一步研究的重点方向。

基于 LLM 的图像视频生成

大语言模型（LLM）在图像和视频生成方面的应用，尤其是视频生成，已经成为一个备受关注的研究领域。许多研究团队已经发布了他们的视频生成模型，这些模型在模拟物理世界、动作和物理规律方面已经达到了非常逼真的水平，在光影效果和三维世界结构的构建上也取得了显著的成果。

视频生成模型面临的挑战

但视频生成模型目前还面临一些挑战。

首先是视频的一致性问题。尽管生成四五秒的视频看起来效果不错，但当生成更长的视频，比如一分钟时，就会出现人物和环境的一致性问题。人物的长相或环境可能会随着视频的进行而发生不自然的变化或扭曲，这是需要解决的关键问题。

其次，是用户友好程度的问题。目前的创作界面通常需要用户输入一段文字来生成视频，但如果用户希望得到一段复杂且表现力强的视频，就需要提供非常详细的文字描述。但长篇幅的描述可能会超出模型的理解能力，导致生成的视频内容与描述不匹配。此外，文字描述难以对视频进行精细控制，比如精确控制人物的姿势变化。

视频生成的另一个挑战是视频的表现力或演技。我们希望生成的视频不仅在视觉上逼真，还要具有一定的表现力，人物动作要富有变化，避免单一和刻板。

目前的视频生成方案流程可能并不完全合理。用户需要设计一段复杂的文字描述，然后依赖模型生成视频，结果往往像“抽奖”一样不确定。相比之下，专业视频制作人员在创作视频时，会首先定义角色，构思故事情节，编写剧本和分镜，然后拍摄不同场景的片段，并最终进行剪辑。这种创作过程与目前视频生成模型的工作方式存在明显差异，我们在视频生成技术的发展中，需要更多地考虑如何模拟这种专业的创作流程，以提高生成视频的质量和可用性。

如果我们根据专业视频制作的流程重新设计视频生成的范式，AI 模型是否能够胜任这一任务呢？

在角色定义阶段，我们可以利用大语言模型来定义角色的性格和形象，然后使用图像生成模型根据语言模型的描述来创建具体的形象。目前，AI 模型在这方面的能力是足够的。接下来是剧本和分镜的创作，大语言模型同样可以完成这项工作。这里关键在于如何生成角色一致的关键片段，并确保这些片段能够合成具有高表现力的长视频。这正是我们需要解决的重点问题。为了应对这一挑战，我们正在研究一个名为 StoryDiffusion 的模型。我们希望这个生成模型能够创作出具有表现力和吸引力的故事，而不是仅仅模拟一些刻板的模式，生成缺乏锐利度的视频。

我们的探索：StoryDiffusion

StoryDiffusion 模型解决了两个问题：提供了更友好的交互方式，允许用户通过定义角色、创作剧本来进行视频内容创作；同时引入了两项关键技术，一是提高角色的一致性，二是增强表现力。

以 StoryDiffusion 的效果为例，我们可以使用角色定义模型，比如图像生成模型，输入一个角色，比如 AI 领域的著名研究科学家 Yan LeCun。我们可以得到他的形象，然后定义一个主题，比如 Yan LeCun 去月球探险。将这个主题交给大语言模型，它将生成一段剧本。这个剧本和角色形象再输入到 StoryDiffusion 中，它就能生成连续的画面，进而合成视频。在这些画面中，角色的长相保持严格一致，同时表情也很丰富，从而完整地描述了剧本和故事。

StoryDiffusion 模型的设计包含两个关键点：一致性注意力和表现力。

首先，一致性注意力的设计基于一个简单的理念，即在单独生成每张图片时，随机性可能导致角色形象的变化。如果同时生成多张图像，并使用同一个随机种子，这种随机性就会减少。在多张图像同时生成的过程中，通过互相参考，可以确保生成的人物形象保持一致，包括长相和衣着，即使动作和表情有所不同。这种一致性注意力机制确保了人物形象的连贯性。

其次，表现力的提升关键在于运动的丰富性。传统视频生成模型通常在像素空间进行插帧来生成运动，但这往往导致运动幅度小和模式单一。StoryDiffusion 模型通过将关键帧送入语义空间进行插帧，然后再映射回像素空间，利用语义空间包含的丰富信息来增强运动的幅度和表现力。这样，生成的人物不仅表情丰富，动作幅度和多样性也得到提升，同时保持人物形象的严格一致性。

通过这种运动生成模式，StoryDiffusion 能够将多个短视频进行插帧和拼接，生成更长的视频，如网站上展示的一分钟或两分钟的视频。定量评估表明，StoryDiffusion 在角色一致性和视频生成质量方面，相比同期的其他模型和方法都具有更好的效果。

StoryDiffusion 背后的理念是先定义故事的角色，然后生成相应的故事。这一理念已经在即梦 AI 的故事模式中得到体现，用户可以通过图像生成模型或上传自己的图像来定义角色，再利用故事生成模型来创作连续的故事。

总结展望

在演讲前面的部分，我提到了我们在提升模型视觉理解能力和增强与物理世界交互方面的一些初步研究和探索。这些探索包括像素级别理解的大语言模型，以及利用大语言模型改造视频生成创作流程的尝试。虽然这些研究目前还处于初级阶段，但我们将继续迭代和优化模型。

我们接下来关注的问题之一是构建一个统一的理解和生成模型，模仿语言模型的统一架构。在理解方面，我们已经取得了一定的进展，生成方面也是如此。但如何将理解和生成统一起来，尤其是在不同粒度和语义级别的特征融合与模型复用方面，仍是一个重要问题。

完成这些研究后，我们的目标是实现语言模型和视觉理解或生成模型的充分融合，创建一个真正具备原生多模态能力的模型。这样的模型将能够与物理世界进行交互，并通过与环境的互动不断学习和迭代自身能力。

目前，语言模型在语言能力上可能已超过普通人，因为它们的阅读量远超人类。但在物理世界的学习效率上，例如识别物体或学习某些操作，这些模型仍然依赖于大量训练数据，而不是像人类那样学习。因此，开发更高效、更类似人类的智能学习方法，充分利用大语言模型已经从文本中学到的物理世界知识，提高对现实世界任务的学习效率，并增强交互的可靠性，将是未来计算机视觉领域研究的重点，也是我们特别关注的研究方向。

演讲嘉宾介绍

冯佳时，字节跳动研究科学家，现任字节跳动豆包大模型视觉基础研究团队负责人。曾任新加坡国立大学电子与计算机工程系助理教授，机器学习与视觉实验室负责人。研究方向包括深度学习与计算机视觉。目前主要研究多模态基础模型、生成模型、3D 建模。曾获得麻省理工科技评论 35 岁以下创新者（亚洲），ACM MM 最佳学生论文奖，ICCV TASK-CV 讨论会最佳论文奖，CVPR2021 最佳论文奖提名。曾担任 CVPR、ICML、ICLR、NeurIPS 等会议的领域主席。