多模态简述

多模态学习概念

【多模态简述-哔哩哔哩】 https://b23.tv/UrUyfln

定义:

模态:事物表达或感知的方式

多模态:研究异构和相互连接数据的科学,涵盖了从原始的器官信号到抽象概念的多种模态

语音和语言是理解人物交互的关键模态,而情感和图像就为我们提供了对环境和对对象的感知,通过分析模态可以更好的理解人类是如何通过不同的方式感知和表达信息 

多模态的行为和信号:

 理解和分析人类行为的重要信号

 多模态的研究发展历史:

近五年,深度学习的发展推动了多模态研究的进展,使我们深入的探索和理解不同模态的复杂关系

近两年,大模型的蓬勃发展,多模态又进行创新

多模态的研究任务:

上世纪80s-90s:语音、视觉识别

现在:如何结合语言和视觉两种模态,开发更复杂的人工智能系统;通过视觉理解场景内容,通过语言进一步理解场景中发生的事情或对象之间的关系

语言:理解世界和沟通思想的基础

视觉:感知世界的关键

多模态学习六大挑战

Representation(表示学习):

例如现在的Transformer,将文本、图像等信息都表示为一个token,这就是一个表示学习

目标:

学习能够反映不同模态之间交叉交互的表示,包括融合、协调、分裂等子挑战

分类:

融合:将不同模态的信息融合在一起

协调:确保不同模态之间的信息能够协同工作

分裂:将结合的信息重新拆分,更便于分析理解

Alignment(对齐):

将文本和图像对齐,有助于更好的了解其中的信息,确保了不同模态的信息可以被正确的关联和理解

定义:

涉及识别和建模,多个模态之间的交叉连接,将其从数据结构中构建起来

分类:

包括了连接、对齐表示、分割等子挑战,以及显式和隐式对齐,个体元素的粒度问题

Reasoning(推理):

 多模态推理结合了知识,通过多个推理步骤,利用多模态对齐和问题结构

分类:

要求不仅要了解单个模态的信息,还要理解他们如何相互作用以及如何影响整体的过程,然后对其进行内部信息推理,得到最终结果。

 Generation(生成):

定义:

关注学习生成的一个过程,反应交叉模态交互结构和一致性的原始模态

分类:

要求不仅要理解现有的信息(文本、图像),还需要创造性的理解以及生成一些新的一致性信息

Transference(迁移): 

定义:

在模态之间转换知识,通常为了帮助目标模态,这些模态可能是嘈杂的或者是资源有限的

目标:

用一个模态的知识去增强另一个模态,以此来提高另一个模态的性能或者鲁棒性

分类:

 Quantification(量化):

定义:

对多模态理论的实证或理论研究,以此来更好的理解异构性;不仅以定性的角度了解多模态学习,还要能量化和评估不同模态之间的交互和整体学习效果。

分类:

多模态领域的经典工作:

 ViLT:

一种新型的视觉-语言预训练模型,通过简化视觉输入处理,摒弃了传统的卷积神经网络和区域监督方法。ViLT使用Transformer模块直接处理像素级输入,与文本输入的线性嵌入方式一致,显著提升了模型的效率和速度。

实验证明,ViLT在视觉问答和图像-文本检索等任务上具有与现有模型相当或更优的性能,同时大幅度减少了计算量和模型参数。此外,ViLT还首次在VLP训练中采用了整词Mask和图像增强技术,进一步提升了性能。该模型为视觉-语言研究提供了一个更高效,简化的新架构。

CLIP:

 CLIP通过从互联网上收集的4亿对图像-文本对进行预训练学习而来。CLIP的核心创新在于直接利用自然语言作为监督信号,而非传统的固定类别标注数据。这种方法突破了传统计算机视觉系统对特定预定义类别的依赖,实现了在多种计算机视觉任务上的zero-shot迁移能力。

 CLIP通过对比学习框架,同时训练图像编码器和文本编码器,预测图象与其对应文本的正确配对。CLIP在超过30个不同的现有计算机视觉数据集上进行了基准测试,包括OCR、视频动作识别、地理定位和多种细粒度物体分类任务。结果显示,CLIP在大多数任务上都能平凡地迁移,并且与全监督基线相当,无需特定数据集的训练。此外,CLIP在ImageNet上的零样本准确率与原始的ResNet-50相当,且未使用其训练中使用的128万张训练样本。

ALBEF:

定义:一种强调在融合之前先对不同模态数据进行对齐的多模态学习框架

 ALBEF是一种新型的视觉-语言表示学习框架,通过对比损失在融合前对齐图像和文本表示,以实现更准确的多模态学习。该方法无需边界框注释或高分辨率图像,采用动量蒸馏(MoD)自训练方法,从噪声网络数据中学习,提高预训练和下游任务的性能。ALBEF在多项视觉-语言任务上取得了最先进的结果,如图像-文本检索、视觉问答(VQA)和NLVR等,同时具有更快的推理速度。该框架提供了从互信息最大化角度的理论分析。

ITM:二分类任务,给定一个图片和一个文本加一个分类头,判断图片和文本是否为一个对

MLM:随机Mask掉一些单词,并进行重建

BLIP:

BLIP,一种新的多模态视觉-语言预训练框架,旨在统一视觉-语言理解与生成任务。BLIP通过两个主要创新点实现性能提升:多模态混合编码器-解码器(MED)架构,它能够灵活地处理多种任务;其次是引入了标题生成和过滤(CapFlit)方法,通过生成合成标题并过滤噪声标题来优化从网络收集的噪声数据。BLIP在多项视觉-语言任务上实现了最先进的结果,包括图像-文本检索、图像字母生成和视觉问答(VQA),并且在视频语言任务上展示了强大的零样本泛化能力。

MED模型结合了图像编码器和文本编码器,通过图像-文本对比学习、匹配和条件语言建模三个目标进行联合预训练。CapFilt方法则包含一个标题生成器,用于为网络图片生成合成标题,以及一个过滤器,用于移除原始网络文本和合成文本中的噪声。

LLaVA:

LLaVA,一个经过端到端训练的大型多模态模型,一个ViT和一个LLM经MLP连接,以实现通用的视觉和语言理解。为了改善多模态领域的指令跟随能力,作者首次尝试使用语言模型GPT-4生成语言-图像指令跟随数据。

通过在这些生成的数据上进行指令调整,LLaVA在多模态对话任务上展现出卓越的能力,与GPT-4相比,在合成多模态指令跟随数据集上达到了85.1%的相对得分。此外,当在科学问答数据集上微调时,LLaVA与GPT-4的结合达到了92.53%的新的最佳准确率。

同时构建了两个具有挑战性的基准测试,以评估模型在多模态任务上的表现。

这项工作为构建能够理解和执行视觉指令的通用视觉助手铺平了道路,并为未来的多模态研究提供了有价值的资源和基准。 

基础名词:

多模态数据

视觉数据:如图像、视频。

文本数据:如自然语言描述、标题、标签。

音频数据:如语音、音乐。

传感器数据:如温度、压力等物理量。

模态融合:

早期融合:在特征提取阶段就将不同模态的数据合并。

中期融合:在特征提取后的中间表示阶段合并。

晚期融合:在决策或分类阶段合并不同模态的结果。

多模态:

模态对齐:确保不同模态数据在语义、时间或空间上保持一致。

模态交互:不同模态数据之间的相互作用和影响。

零样本学习:模型能够在没有或只有很少样本的情况下识别新类别。

跨模态检索:根据一种模态的信息检索另一种模态的相关内容,如根据文本描述检索图像。

模态增强:通过添加或增强模态来提高模型的性能或鲁棒性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/17657.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

mac2019环境 Airflow+hive+spark+hadoop本地环境安装

1 环境介绍 本地安装可分为两个部分,mac软件环境, python开发环境 ps: 安装过程参考chatgpt、csdn文章 1.1 mac软件环境 目标安装的的软件是hive、apache-spark、hadoop,但是这三个软件又依赖java(spark依赖)、ssh&#xff08…

HarmonyOS4+NEXT星河版入门与项目实战--------开发工具与环境准备

文章目录 1、熟悉鸿蒙官网1、打开官网2、下载 DevEco Studio3、HarmonyOS 资源库4、开发指南与API 2、安装 DevEco Studio1、软件安装2、配置开发工具 1、熟悉鸿蒙官网 1、打开官网 百度搜索 鸿蒙开发者官网 点击进入开发者官网,点击开发,可以看到各种…

11.16 JavaScript

什么是JavaScript? JavaScript(简称:js)是一门跨平台,面向对象的脚本语言,是用来控制网页行为的,它能使网页可交互。JavaScript和java是完全不同的语言,不论是概念还是设计。但是基…

【网络安全面经】技术性问题

1.SQL注入原理 主要基于Web应用程序对用户输入数据的合法性缺乏严格的判断或过滤 2.windows上提权的方式和linux提权方式 windows:本地溢出漏洞提权,AT(计划任务提权),SC(创建服务提权),PS(微软官方工具pstool),数据…

20241116下载中科创达的TurboX D660核心板的Android11的SDK的详细LOG

20241116下载中科创达的TurboX D660核心板的Android11的SDK的详细LOG 2024/11/16 15:28 下载速度,工作日:20MBps/周末30MBps。 【实际情况,取决于您的实际网络环境】 https://docs.thundercomm.com/turbox_doc/products/smart-modules/turbox…

计算机网络 (6)物理层的基本概念

前言 计算机网络物理层是OSI模型(开放式系统互联模型)中的第一层,也是七层中的最底层,它涉及到计算机网络中数据的物理传输。 一、物理层的主要任务和功能 物理层的主要任务是处理物理传输介质上的原始比特流,确保数据…

大模型(LLMs)微调篇

大模型(LLMs)微调篇 一、如果想要在某个模型基础上做全参数微调,究竟需要多少显存? 一般 n B的模型,最低需要 16-20 n G的显存。(cpu offload基本不开的情况下) 二、为什么SFT之后感觉LLM傻了…

企业网络链路聚合、数据抓包、远程连接访问实验

前言: 随着信息技术的飞速发展和企业业务的不断扩大,企业网络面临着越来越多的挑战。其中,网络带宽、数据安全和远程访问等问题尤为突出。为了解决这些问题,我们进行了本次企业网络链路聚合、数据抓包和远程连接访问的实验。 链路…

移除元素(leetcode 27)

给定一个数组,在数组中删除等于这个目标值的元素,然后返回新数组的大小 数组理论: 数组是一个连续的类型相近的元素的一个集合,数组上的删除是覆盖,只能由后面的元素进行覆盖,而不能进行真正意义上的地理位…

前端面试笔试(三)

目录 一、数据结构算法等综合篇 二、代码输出篇 1.yield与生成器函数 2.this指向有关 3.instanceof 与Array.isArray 4.继承class cls extends Array,调用里面的sum方法 三、css、html、JavaScript篇 1.哪项不能提高dom元素操作效率? 2.contente…

7.高可用集群架构Keepalived双主热备原理

一. 高可用集群架构Keepalived双主热备原理 (1)主机+备机keepalived配置(192.168.1.171) ! Configuration File for keepalivedglobal_defs {# 路由id:当前安装keepalived节点主机的标识符,全局唯一router_id keep_101 } #计算机节点(主机配置) vrrp_instance VI_1 {</

IntelliJ IDEA 2023.2x——图文配置

IntelliJ IDEA 2023.2——配置说明 界面如下图所示 : 绿泡泡查找 “码猿趣事” 查找【idea99】 IntelliJ IDEA 的官方下载地址 IntelliJ IDEA 官网下载地址 一路上NEXT 到结尾&#xff1a; 继续NEXT 下一步:

Linux网络:守护进程

Linux网络&#xff1a;守护进程 会话进程组会话终端 守护进程setsiddaemon 在创建一个网络服务后&#xff0c;往往这个服务进程是一直运行的。但是对于大部分进程来说&#xff0c;如果退出终端&#xff0c;这个终端上创建的所有进程都会退出&#xff0c;这就导致进程的生命周期…

Linux Android 正点原子RK3568替换开机Logo完整教程

0.这CSDN是有BUG吗?大家注意:表示路径的2个点号全都变成3个点号啦! 接下来的后文中,应该是2个点都被CSDN变成了3个点: 1.将这两个 bmp 图片文件720x1280_8bit拷贝到内核源码目录下,替换内核源码中默认的 logo 图片。注意:此时还缺少电量显示图片 2.编译内核 make d…

安卓开发作业

整体效果: 安卓小作业 [TOC](页面配置) 整体框架有4个fragment页面,聊天,朋友,发现,设置. 配置如下: bash <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android" xm…

2024-ISCTF WP

Web 25时晓山瑞希生日会 经典 HTTP 头伪造&#xff0c;伪造流程如下&#xff1a; User-Agent: Project Sekai //伪造UA头 X-Forwarded-For:127.0.0.1 //伪造本地用户 伪造日期是本题最大的坑点&#xff0c;一直在想怎么伪造 25 时&#xff0c;没想到是二刺螈 搜索得知 …

VSCode+ESP-IDF开发ESP32-S3-DevKitC-1(1)开发环境搭建

VSCodeESP-IDF开发ESP32-S3-DevKitC-1&#xff08;1&#xff09;开发环境搭建 1.开发环境搭建&#xff08;安装ESP-IDF&#xff09;2.开发环境搭建&#xff08;安装VS Code&#xff09;3.开发环境搭建&#xff08;VSCode中安装ESP-IDF插件及配置&#xff09; 1.开发环境搭建&am…

二维数组操作

代码结构 main.c #include <stdio.h> #include <stdlib.h>#define LEN 100int main() {//通过指针引用多维数组# if 1//定义多维数组int a[3][5] {{1,2,3,4}, {5,6,7,8}, {9,10,11,12}};int row sizeof(a) /sizeof(a[0]);int colum sizeof(a[0]) / sizeof(a[0…

使用Service Worker实现离线优先的Web应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Service Worker实现离线优先的Web应用 使用Service Worker实现离线优先的Web应用 使用Service Worker实现离线优先的Web应用…

算法编程题-区间最小数乘区间和的最大值,基于数组中的数字拼接可得的小于目标值的最大数

算法编程题-区间最小数乘区间和的最大值&#xff0c;基于数组中的数字拼接可得的小于目标值的最大数 区间最小数乘区间和的最大值原题描述思路简述代码实现复杂度分析 基于数组中的数字拼接可得的小于目标值的最大数原题描述思路简述代码实现复杂度分析 参考 这里分享两道字节面…