2024多模态大模型发展调研

随着生成式大语言模型应用的日益广泛,其输入输出模态受限的问题日益凸显,成为制约技术进一步发展的瓶颈。为突破这一局限,本文聚焦于研究多模态信息的协同交互策略,旨在探索一种能够统一理解与生成的多模态模型构建方法。在此基础上,深入研究可控的混合多模态信息生成技术,力求揭示多模态语义层次间的隐含关系,从而实现对生成内容的精准编辑。此外,本文还致力于构建具备强时空一致性的多模态混合输出生成式模型,以期实现时序一致的长视频生成,并在复杂的音视频内容理解与生成任务中进行实践应用验证,为推动多模态大模型技术的全面发展贡献力量。

1.生成式模型输入输出模态受限

对于现有的大语言模型,一方面,其大多局限于关注于某种单一模态信息的处理,而缺乏真正「任意模态」的理解;另一方面,其都关注于多模态内容在输入端的理解,而不能以任意多种模态的灵活形式输出内容。

text -> text :GPT-3.5, LLaMa, 百川

text -> image :Dalle3,Midjourney

text -> audio :sunoAI

text + image -> video : 可灵AI

text + image -> text: GPT-4, 文心一言

NExT-GPT:实现输入到输出「模态自由」, NUS华人团队开源

What Makes Multimodal Learning Better than Single (Provably)

从泛化角度解释多模态优越性的第一个理论处理,制定了一个多模态学习框架,该框架在实证文献中得到了广泛的研究,以严格地理解为什么多模态优于单模态,因为前者可以获得更好的隐空间表示。

本文基于一种经典的多模态学习框架,即无缝进行潜空间学习(Latent Space Learning)与任务层学习(Task-specific Learning)。具体地,首先将异构数据编码到一个统一潜空间 Z \mathcal{Z} Z,对应的映射函数族为 G \mathcal{G} G,要寻找的最优的映射是 g ∗ \mathcal{g}^* g。接着,潜空间的表示再经过任务层的映射被用于指定任务中,映射的函数族为 H \mathcal{H} H,其中最优映射为 h ∗ \mathcal{h}^* h

2.多模态信息协同交互策略

深度学习中多模态的融合策略

在深度学习中,多模态(multimodal)融合策略用于集成来自不同模态的数据,以提升模型的性能和泛化能力。多模态数据可以包括文本、图像、音频、视频、传感器数据等,通过有效融合这些不同类型的数据,能够从中提取更丰富和全面的信息。以下是几种常见的多模态融合策略:

  1. 早期融合(Early Fusion)

  2. 晚期融合(Late Fusion)

  3. 中期融合(Intermediate Fusion)

  4. 混合融合(Hybrid Fusion)

  5. 基于注意力机制的融合(Attention-based Fusion)

  6. 基于图神经网络的融合(Graph Neural Networks-based Fusion)

  7. 联合学习(Joint Learning)

3.统一理解与生成的多模态模型构建方法, 探索统一理解与生成的多模态模型构建方法

LaVIT 将文本和视觉两种模态以统一的形式表示,以便复刻 LLM 的学习方法——下一个 token 预测,模型如图 所示。

给定一对图像和文本,图像被分词成离散 token,并与文本 token 连接形成多模态序列。然后,LaVIT 在统一的生成目标下进行优化

给定一对图像和文本,图像被分词成离散 token,并与文本 token 连接形成多模态序列。然后,LaVIT 在统一的生成目标下进行优化

视觉分词器:将非语言图像转换为 LLM 可以理解的输入。视觉分词器接收预训练的视觉编码器的视觉特征,并输出一系列具有类似词汇高级语义的离散视觉 token。

通过精心设计的分词器,视觉输入可以与文本 token 集成,形成一个多模态序列,然后在统一的自回归训练目标下输入到 LLM 中。

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

AnyGPT,一种 any-to-any 的多模态大语言模型。采用离散的表征统一处理语音、文本、图像和音乐等多种不同模态信号。文章构建了一个多模态,以文本为中心的数据集 AnyInstruct-108k。该数据集利用生成模型合成,是一个大规模多模态指令数据集。

使用多模态分词器 (tokenizer),将原始的多模态数据,比如图像和语音,压缩成离散语义 token 的序列。再使用多模态解分词器 (de-tokenizer),将离散语义 token 的序列转换回原始模态数据。离散表征的好处是能够过滤掉高频的,特定于模态的感知信息,同时保留基本的低频语义信息。架构层面,继承现有的 LLM 架构,无需任何修改。同时允许直接应用现有的 LLM 工具,从而提高训练和推理的效率。AnyGPT 使用 LLaMA-2-7B作为基座模型,它在 2TB 的文本标记上进行了预训练。除了重塑 embedding matrix 和预测层外,其余语言模型保持不变。
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

4.构建强时空一致性的多模态混合输出生成式模型,多模态语义层次的隐含关系

时空一致性(Spatiotemporal Coherency)指的是空间和时间上的连贯性或一致性。在多个领域,如深度学习、神经科学、计算机视觉等,这一概念都有重要的应用。

在计算机视觉领域中,时空连贯性常用于视频分析、运动检测、显著性检测等任务。例如,在显著性检测中,研究者们利用时空连贯性来识别视频中的显著区域,这些区域在时间和空间上都与周围区域存在显著差异。这有助于实现更准确的视频分析和理解。

通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

数据处理的创新:时空一致性的重要性
在数据处理方面,InternVideo2强调了时空一致性的重要性。通过语义分割视频并生成视频-音频-语音字幕,改进了视频和文本之间的对齐。

  1. 视频剪辑的语义分割

    为了保持时空一致性,使用AutoShot模型代替传统的SceneDet滤镜来分割视频剪辑。AutoShot基于时间语义变化而不是像素差异来预测边界,从而生成语义完整的剪辑,避免混入不一致的上下文。

  2. 视频、音频和语音字幕的生成与融合

在MVid数据集中,视频来自多个来源,包括YouTube和其他匿名来源,以提高数据集的多样性。对于视频数据集,首先保留超过2秒的剪辑。对于超过30秒的视频剪辑,如果剪辑中的片段来自同一镜头,则随机选择一个30秒的片段。此外,还自动为MVid的视觉、音频和语音生成字幕,然后使用LLM校正并融合它们,以便训练使用。

全面盘点多模态融合算法及应用场景

多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层:

  • 数据层融合:直接对不同模态的数据进行融合。
  • 特征层融合:提取不同模态的数据特征后进行融合。
  • 决策层融合:对不同模态的处理结果进行融合。

多模态融合的应用场景
多模态融合技术在各个领域有着广泛的应用,以下是一些典型的应用场景:

  • 图文生成与理解

    • 图像描述生成:根据图像内容生成自然语言描述。
    • 文本到图像生成:根据文本描述生成对应的图像。
  • 语音和视觉结合的情感分析
    通过结合语音和视觉数据,识别用户的情感状态,提高情感分析的准确性。

5.实现时序一致的长视频生成。在复杂音视频内容理解与生成任务中进行应用验证

大模型CoDi,具有任意输入和输出图、文、声音、视频4种模态的能力。

从声音、文字、图像到视频,所有模态被彻底打通,如同人脑一般,实现了真正意义上的任意输入,任意输出。

无论是单模态生成单模态(下图黄)、多模态生成单模态(下图红)、还是多模态生成多模态(下图紫),只要指定输入和输出的模态,CoDi就能理解并生成想要的效果:

只需告诉大模型,想要“一只玩滑板的泰迪熊”,并输入一张照片+一段声音:

在这里插入图片描述

模型设计二阶段:

阶段一:组合条件训练,给每个模态都打造一个潜在扩散模型(LDM),进行组合训练。

阶段二:进一步增加生成的模态数量。

扩散模型(Diffusion Model)是一种生成模型,最近在图像生成、视频生成、语音合成等领域取得了显著的进展。与传统的生成对抗网络(GAN)和变分自编码器(VAE)不同,扩散模型通过逐步将噪声添加到数据并反转这一过程来生成新样本。

Any-to-Any Generation via Composable Diffusion

总结

1.多模态信息处理能力:选取合适的基座模型(LaVIT,LLaMA-2)。此类模型需要能够理解和处理多种模态的信息,包括但不限于文本、图像、音频和视频。这要求模型具有跨模态的交互能力,能够解析并融合来自不同模态的数据。

2.大规模多模态数据集:构建一个包含多模态数据的大型数据集(AnyGPT AnyInstruct-108k),这些数据集应覆盖广泛的模态组合和复杂的交互场景。例如,可以构建包含多轮对话、图像描述、音频解说和视频剪辑等多种模态信息的数据集,用于模型的预训练和微调。

3.统一的多模态表示:参考AnyGPT、所采用的离散序列建模方法,需要一个统一的表示框架来整合和处理不同模态的数据。这种表示方式应能够捕获各模态之间的内在联系,并实现跨模态信息的有效转换和传递。

4.可控的混合多模态信息生成方法:设计一种能够精确控制多模态信息生成的方法(CoDi 二阶段),允许用户在生成过程中指定所需的模态和内容。这要求模型能够理解并响应用户的多模态输入,并生成相应的、符合用户期望的输出。

5.强时空一致性的生成能力:参考InternVideo2构建具有强时空一致性的生成模型,确保生成的长视频在时序和空间上保持连贯性和一致性。这要求模型能够处理复杂的时序信息和空间布局,以确保生成的视频内容在逻辑和视觉上都是合理的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1552700.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot+小程序的在线选课管理系统1(源码+sql脚本+视频导入教程+文档)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于springboot小程序的在线选课管理系统实现了管理员、教师及学生。 1、管理员实现了首页、个人中心、管理员管理、教师管理、学生管理、课程信息管理、选课信息、公告管理、论坛管理、基…

Redis哨兵模式的搭建以及配置参数简介

原理 Redis哨兵模式是一种用于在Redis主从复制环境中进行高可用性监控和故障恢复的机制。该模式引入了一个或多个哨兵节点,这些节点负责监控Redis服务器的状态,并在主节点发生故障时切换为新的主节点。 哨兵节点的工作原理如下: 1、哨兵节点…

PDF阅读器工具集萃:满足你的多样需求

现在阅读书籍大部分都喜欢电子书的形式了吧,因为小小的一个设备就能存下上万本书。从流传程度来说PDF无疑是一个使用最广的格式。除了福昕PDF阅读器阅读之外还有哪些好用的阅读工具呢/?今天我们一起来探讨一下吧。 1.福昕阅读器 链接一下>>www.f…

MongoDB微服务部署

一、安装MongoDB 1.在linux中拉去MongoDB镜像文件 docker pull mongo:4.4.18 2. 2.创建数据挂载目录 linux命令创建 命令创建目录: mkdir -p /usr/local/docker/mongodb/data 可以在sshclient工具查看是否创建成功。 进入moogodb目录,给data赋予权限777 cd …

【算法】链表:21.合并两个有序链表(easy)

系列专栏 《分治》 《模拟》 《Linux》 目录 1、题目链接 2、题目介绍 3、解法(双指针) 4、代码 1、题目链接 21. 合并两个有序链表 - 力扣(LeetCode) 2、题目介绍 3、解法(双指针) 推荐一篇题解…

计算机毕业设计Python+Spark知识图谱高考分数线预测 高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 大数据毕业设计

《PythonSpark知识图谱高考分数线预测与志愿推荐系统》开题报告 一、课题背景及意义 1. 背景 随着我国高考制度的不断完善以及大数据技术的快速发展,高考志愿推荐系统的需求日益增长。高考作为中国教育体系中的重要环节,其志愿填报直接关系到考生的未…

双指针--收尾的两道题

双指针 (封面起到吸引读者作用,和文章内容无关哈,但是文章也是用心写的) 三数之和 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums…

Arduino UNO R3自学笔记13 之 Arduino使用LM35如何测量温度?

注意:学习和写作过程中,部分资料搜集于互联网,如有侵权请联系删除。 前言:学习使用传感器测温。 1.LM35介绍 一般来讲当知道需求,就可以 通过既定要求的条件来筛选需要的器件,多方面的因素最终选定了器件…

鸿蒙开发需要学什么语言

随着物联网(IoT)技术的发展,操作系统作为连接人与智能设备的关键桥梁变得尤为重要。鸿蒙系统(HarmonyOS),作为华为推出的一款面向全场景的分布式操作系统,不仅在国内引起了广泛关注,在国际上也逐渐崭露头角。对于开发者而言&#…

全新升级的GUI: Depthai Viewer 使用指南发布

DepthAIViewer是一个 GUI 应用程序,可让您通过实时输出可视化图像来使用相机。 DepthAIViewer 是 DepthAI 和 OAK 相机的可视化工具。它在默认情况下将运行一个演示应用程序,该应用程序将可视化所有steam在设备上运行推理。它还允许您更改设备的配置。当…

CTMO时代下的营销新力量:2+1链动模式AI智能名片商城小程序

在当今这个瞬息万变的商业世界里,营销领域正经历着一场深刻的变革。传统的CMO岗位似乎在时代的浪潮中逐渐失去了它的光芒,CTMO正在悄然取代传统CMO的岗位。 随着营销丛林现象的出现,企业面临着前所未有的挑战。许多企业发现,那些传…

自动驾驶系列—深度剖析自动驾驶芯片SoC架构:选型指南与应用实战

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

Vue+NestJS项目实操(图书管理后台)

一、项目搭建 前端基于vben进行二次开发 在Github下载vben框架,搜索vben即可 下载地址:https://github.com/vbenjs/vue-vben-admin 下载完成后,进行安装依赖,使用命令: // 下载依赖 pnpm install// 运行项目 pnpm …

数据分析-30-电影死亡笔记中的数据分析思维

文章目录 1 死亡笔记简介2 推理过程中的数据分析2.1 第一个问题2.2 第二个问题2.3 第三个问题3 数据分析的发展4 参考附录1 死亡笔记简介 《死亡笔记》改编自小畑健同名日本人气漫画《Death note》,故事描述拥有一本写上姓名就能将人置于死地笔记本的高中生夜神月与天才警部搜…

构建企业数字化转型的战略基石——TOGAF框架的深度解析

数字化时代的企业变革需求 在全球范围内,数字化转型已成为企业提高竞争力、优化运营流程、提升客户体验的核心战略。数字技术的迅猛发展,不仅改变了传统行业的运作模式,也迫使企业重新思考其业务架构和技术基础设施。TOGAF(The O…

8.数据结构与算法-双向链表

双向链表的结构定义 从第二个指针找到下一个元素 从第一个指针找到上一个元素 双向循环列表 从第二个指针找到下一个元素,第二个指针可以往前循环找到链表开头 从第一个指针找到上一个元素,第一个指针可以往前循环昭侯链表结尾 双向链表的插入 双向链…

自闭症孩子快乐成长之路:选择寄宿学校的理由

在探索自闭症孩子快乐成长之路的过程中,许多家长面临着一系列的选择与挑战。如何为孩子找到一个既能提供专业教育,又能保障他们身心健康的成长环境,成为了家长们共同关注的焦点。广州的星贝育园自闭症儿童寄宿制学校,正是这样一所…

Linux 万字入门教程

0. 前言 文章已经收录到 GitHub 个人博客项目,欢迎 Star: https://github.com/chenyl8848/chenyl8848.github.io或者访问网站,进行在线浏览: https://chenyl8848.github.io/1. Linux 介绍 1.1 引言 Linux 是一套免费使用和自由…

利用Spring Boot构建足球青训管理平台

2 相关技术简介 2.1 Java技术 Java是一门伟大的纯面向对象的编程语言和编程语言。同时,它还是Java语言从嵌入式开发到企业级开发的平台。Java凭借其一次编译,任何地方执行的优点,使得盛行的web应用程序有大量的Java编译,很好地支…

无人机科普研学基地建设技术详解

无人机科普研学基地的建设技术详解涉及多个方面,包括基地建设规划、主要功能区划分、配套设备与系统、课程设计与实施等。以下是对这些方面的详细阐述: 一、基地建设规划 1. 目标定位:无人机科普研学基地旨在通过实践和学习活动,…