10分钟了解什么是多模态大模型(MM-LLMs)

1. 什么是多模态 Multimodality

多模态(Multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多模态系统的目的是利用来自多种模态的信息来提高任务的性能,提供更丰富的用户体验,或者获得更全面的数据分析结果。

请添加图片描述

2. Multimodal Large Language Models 为什么还是Language Models?

多模态大型语言模型(Multimodal Large Language Models,简称MLLMs)是一类结合了大型语言模型(Large Language Models,简称LLMs)的自然语言处理能力与对其他模态(如视觉、音频等)数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出,提供更加丰富和自然的交互体验。

MLLMs的核心优势在于它们能够处理和理解来自不同模态的信息,并将这些信息融合以完成复杂的任务。例如,MLLMs可以分析一张图片并生成描述性的文本,或者根据文本描述生成相应的图像。这种跨模态的理解和生成能力,使得MLLMs在多个领域,如自动驾驶、智能助理、内容推荐系统、教育和培训等,都有广泛的应用前景

请添加图片描述

上图中,我们可以看到MLLMs的核心组成部分,包括:

  • Modality Encoder:负责将不同模态的输入数据编码为模型可理解的表示;
  • Input Projector:将不同模态的输入数据映射到共享的语义空间;
  • LLMs:大型语言模型,用于处理文本数据;
  • Output Projector:将模型生成的输出映射回原始模态的空间;
  • Modality Generator:根据输入数据生成对应的输出数据

可以看到LLMs还是处于核心位置,多模态是在LLMs的基础上进行扩展的。扩展的方式是找到一个方法将不同模态的数据映射到LLMs可以接收的语义空间。接下来我们分别看看这几个组成部分的具体内容。

3. Modality Encoder 模态编码器

模态编码器(Modality Encoder)是多模态大模型中的一个关键组件,它的主要任务是将不同模态的输入数据转换成模型能够进一步处理的特征表示。这些输入数据可以包括图像、文本、音频、视频等多种形式,而模态编码器的作用就像是翻译官,将这些不同语言(模态)的信息转换成一种共同的“语言”,以便模型能够理解和处理。

在多模态大模型中,常见的模态编码器包括:

  • 图像编码器:负责处理视觉信息,将图像数据转换成特征向量。常用的图像编码器包括NFNet、ViT(Vision Transformer)、CLIP ViT等。

请添加图片描述

  • 音频编码器:处理声音数据,将音频信号转换成频域表示,如使用傅里叶变换或梅尔频率倒谱系数(MFCCs)。音频编码器可以帮助模型识别语音、音乐或其他声音特征。在多模态模型中,主流的音频编码器包括Whisper、CLAP等。

  • 视频编码器:更为复杂,需要同时处理图像和时间序列数据。视频编码器不仅需要提取每一帧的视觉特征,还需要理解帧与帧之间的时间变化,例如运动信息。视频编码器可能会使用类似于图像编码器的技术来处理每一帧,同时还会使用额外的技术来处理帧与帧之间的关系,如ViViT、VideoPrism等。

模态编码器的设计对于多模态大模型的性能至关重要,因为它们直接影响到模型能否准确地理解和生成跨模态的内容。通过高效的模态编码器,多模态大模型能够在各种复杂的任务中展现出更加强大和灵活的能力。

4. Input Projector 输入投影器

输入投影器(Input Projector, IP)是多模态大模型中的一种关键组件,它的主要作用是将不同模态的编码特征投影到一个共同的特征空间,以便这些特征可以被模型的其他部分,如大型语言模型(LLM Backbone)统一处理和理解。

在多模态大模型中,不同类型的输入数据,如图像、文本、音频等,首先会被相应的模态编码器(Modality Encoder, ME)处理,转换成特征表示。然而,这些特征可能存在于不同维度的空间中,直接将它们混合使用会遇到兼容性问题。输入投影器的作用就是解决这个问题,它通过特定的变换方法(如线性变换、多层感知器(MLP)、交叉注意力等),将不同模态的特征映射到一个统一的特征空间中。

输入投影器的设计对于多模态大模型的性能至关重要,因为它直接影响到模型如何处理和理解不同类型数据的语义信息。通过有效的输入投影,模型能够更好地进行跨模态的信息融合和任务执行,例如在图像描述生成、视觉问答等应用中。

请添加图片描述

5. Output Projector 输出投影器

输出投影器(Output Projector, OP)是多模态大模型中的一种关键组件,它的主要任务是将大型语言模型(LLM)的输出信号转换成适合不同模态生成器使用的特征表示。这些生成器可能是用于生成图像、视频、音频或其他模态的模型。

在多模态大模型中,LLM 负责处理和理解各种模态的输入特征,并生成对应的输出。然而,LLM 的输出通常是文本形式的,而其他模态的生成器需要特定格式的输入信号。这时,输出投影器就起到了桥梁的作用,它将 LLM 的文本输出转换为其他模态生成器能够理解和处理的特征表示。

输出投影器的实现可以采用多种技术,包括但不限于 Tiny Transformer、多层感知器(MLP)等。这些技术通过学习将 LLM 的输出映射到目标模态的特征空间,从而实现跨模态的特征转换。通过输出投影器的设计,多模态大模型能够更好地实现不同模态之间的信息交互和生成任务。

例如,在 NExT-GPT 模型中,输出投影器包括图像输出投影、音频输出投影和视频输出投影,它们共同构成了所谓的“指令跟随对齐”(Instruction-following Alignment)机制。这一机制确保了模型能够根据 LLM 的输出在多种模态之间进行无缝转换和高效生成,从而实现多模态内容的生成.

请添加图片描述

6. Modality Generator 模态生成器

模态生成器(Modality Generator, MG)是多模态学习系统中的一个关键组件,它的主要作用是生成不同模态的输出,例如图像、视频或音频。

模态生成器的具体实现可能包括但不限于以下几种技术或模型:

  • 图像生成:如 Stable Diffusion,这是一种基于扩散模型的图像生成技术;
  • 视频生成:如 Zeroscope,专注于视频内容的生成;
  • 音频生成:如 AudioLDM,用于生成音频信号。

在多模态大模型中,模态生成器是实现模态转换和内容生成的关键技术,它使得模型能够灵活地处理和生成多种类型的数据,为用户提供更加丰富和自然的交互体验。

请添加图片描述

参考

[1] A Survey on Multimodal Large Language Models

[2] MM-LLMs: Recent Advances in MultiModal Large Language Models

[3] NExT-GPT: Any-to-Any Multimodal Large Language Model

欢迎关注我的GitHub和微信公众号,来不及解释了,快上船!

GitHub: LLMForEverybody

仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543103.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

企业微信not allow to access from your ip 解决方案

正文 不用看,你可能的是本地测试企业微信接口 公司网络的对外ip是会变的,你可以去下图这里查,然后填到上图那边就可以了。 下面是废话 我知道企业微信这里坑很多,但是我也不清楚35岁的我还能做多久这行多久,只能说&a…

Kotlin 函数和变量(四)

导读大纲 1.1 基本要素: 函数和变量1.1.1 声明变量以存储数据1.1.2 将变量标记为只读或可重新赋值1.1.3 更简单的字符串格式化: 字符串模板 1.1 基本要素: 函数和变量 本节将向你介绍每个 Kotlin 程序都包含的基本元素: 函数和变量 你将编写自己的第一个 Kotlin 程序,了解 Kotl…

18_Python文件操作

计算机中的文件 文件是存储在计算机上的数据集合,它可以是文本、图片、音频、视频或其他任何类型的数据。 在计算机系统中,文件通常用来长期保存信息。 文本文件:一种以字符编码(如ASCII、UTF-8、UTF-16等)的形式存储…

高速滑环在摄像领域的应用分析

高速滑环在现代摄像技术中扮演着至关重要的角色。随着摄像设备向高速度、高精度的方向发展,传统的信号传输方式已无法满足需求。高速滑环作为连接旋转部件与固定部件的重要组件,能够有效地传递电信号和数据,为摄像设备的高效运转提供保障。 …

[arcgis插件]在批量出图时,如何把图层属性表以动态表格的形式插入到布局页面

在Arcmap,如何把图层属性表以动态表格的形式插入到布局页面? 众所周知,在属性表的左上角,有个功能是“把表添加到布局”,就可以把属性表以表格的形式添加到布局页面。 但是今天要说的是并不是这个,今天要说的是&…

神经网络(一):神经网络入门

文章目录 一、神经网络1.1神经元结构1.2单层神经网络:单层感知机1.3两层神经网络:多层感知机1.4多层神经网络 二、全连接神经网络2.1基本结构2.2激活函数、前向传播、反向传播、损失函数2.2.1激活函数的意义2.2.2前向传播2.2.3损失函数、反向传播2.2.4梯…

SSCMS 插件示例 一插件创建及插件菜单

SSCMS 插件示例下载 1、工程创建过程,如下图所示。 2、工程路径和工程命名,如下图所示。 bjxingch作者 IPluginCUDR插件名称 3、选择框架,如下图所示。 4、使用NuGet安装 SSCMS和Datory,如下图所示。

【软件工程】状态转换图 其他图形工具

状态转换图 一、定义 二、符号表示 其他图形工具 一、层次方框图 二、Warmer图 三、IPO图 例题 选择题

熟练的Java程序员:掌握核心技能,引领技术潮流

Java,作为一门成熟且广泛应用的编程语言,对于程序员来说,不仅是一种技能,更是一种职业态度的体现。一个熟练的Java程序员,应该具备哪些技术呢?本文将为您揭晓答案。 1. 扎实的Java基础 熟练掌握Java语言的…

《深入理解JAVA虚拟机(第2版)》- 第13章 - 学习笔记【终章】

第13章 线程安全与锁优化 13.1 概述 面向过程的编程思想 将数据和过程独立分开,数据是问题空间中的客体,程序代码是用来处理数据的,这种站在计算机角度来抽象和解决问题的思维方式,称为面向对象的编程思想。 面向对象的编程思想…

想从事大模型?一大波工作岗位等你选!

技术类岗位 您可从事:算法工程师,研发工程师。 管理类岗位 您可从事:AI项目经理、AI产品经理、AI销售、AI解决方案。 01 技术类岗位 算法工程师 大模型算法工程师的职位通常要求求职者具备以下几方面的能力和经验。 通用技能教育背景…

大健康管理系统|健康综合咨询问诊平台设计与实现(源码+数据库+文档)

大健康管理系统目录 目录 健康综合咨询问诊平台设计与实现 一、前言 二、系统功能设计 三、系统实现 5.1用户信息管理 5.2 医生信息管理 5.3科室信息管理 5.1新闻信息管理 四、数据库设计 1、实体ER图 2、具体的表设计如下所示: 五、核心代码 六、论文…

干货|生成式人工智能大模型备案详细办理资料清单

我以刚通过的大模型备案提交的材料清单给大家详细讲一讲 刚通过的大模型备案材料清单 1、安全评估报告 安全评估报告是大模型备案过程中的一个重要关键部分,它需由专业机构或团队完成,全面评估大模型在语料处理、模型训练、服务提供等环节中的安全性。…

vue3ScrollSeamless滚动如何给子元素添加点击事件:事件委托

页面布局如上截图 下面是方法 function parentClick(e) {if (e.target.tagName A) {router.push({path: /noticeDetails,query: {id: e.target.dataset.eid}});} }使用的时候,可以打印一下方法里面的e,加深理解

基于51单片机的电机控制和角度检测

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于51单片机,采用滑动变阻器连接ADC0832数模转换器模拟角度传感器,然后通过LCD1602显示数值,然后按键按下不动,电机正转,松开停止。第二…

红外绝缘子数据集

红外绝缘子数据集,绝缘子旋转框检测 电气工程专业研究可用 电力领域稀有红外图像数据集 红外图像总数5000多张,txt格式,可直接用于yolo训练 红外绝缘子数据集 (Infrared Insulator Dataset, IID) 数据集描述 IID是一个专为电气工程专业研究…

react中解析markdown文本

背景 产品想把从某个地方复制出来的markdown文本,保存下来,并且在前端这边展示的时候,按照对应的格式展示 工具 markedhighlight.jsmarked-highlight 原来的marked版本,是可以直接处理高亮配置,但是后续更新为了轻量…

耦合微带线单元的网络参量和等效电路公式推导

文档下载链接:耦合微带线单元的网络参量和等效电路资源-CSDN文库https://download.csdn.net/download/lu2289504634/89583027笔者水平有限,错误之处欢迎留言! 一、耦合微带线奇偶模详细推导过程 二、2,4端口开路 三、2端口短路、3端口开路 四…

Apple Intelligence预计会在iOS 18.1和iOS 18.4之间按此顺序推出

本月早些时候 iOS 18 已公开发布,但首批 Apple Intelligence 功能要等到 10 月份 iOS 18.1 发布后才可以使用。Apple Intelligence 功能将继续在 iOS 18.2 及更高版本中推出,预计路线图如下,出自 Apple 网站和传闻。 Apple Intelligence 需要…

electron-vite使用vue-i18n,ts 检查报错上不存在属性“$t”

问题: electron-vite使用vue-i18n,ts类型检查报错,但实际运行没有问题 解决方案: 1. 在electron-vite渲染端代码src目录下,增加 vue-i18n.d.ts 文件,添加如下内容: /* eslint-disable */ im…