多模态学习概念
【多模态简述-哔哩哔哩】 https://b23.tv/UrUyfln
定义:
模态:事物表达或感知的方式
多模态:研究异构和相互连接数据的科学,涵盖了从原始的器官信号到抽象概念的多种模态
语音和语言是理解人物交互的关键模态,而情感和图像就为我们提供了对环境和对对象的感知,通过分析模态可以更好的理解人类是如何通过不同的方式感知和表达信息
多模态的行为和信号:
理解和分析人类行为的重要信号
多模态的研究发展历史:
近五年,深度学习的发展推动了多模态研究的进展,使我们深入的探索和理解不同模态的复杂关系
近两年,大模型的蓬勃发展,多模态又进行创新
多模态的研究任务:
上世纪80s-90s:语音、视觉识别
现在:如何结合语言和视觉两种模态,开发更复杂的人工智能系统;通过视觉理解场景内容,通过语言进一步理解场景中发生的事情或对象之间的关系
语言:理解世界和沟通思想的基础
视觉:感知世界的关键
多模态学习六大挑战
Representation(表示学习):
例如现在的Transformer,将文本、图像等信息都表示为一个token,这就是一个表示学习
目标:
学习能够反映不同模态之间交叉交互的表示,包括融合、协调、分裂等子挑战
分类:
融合:将不同模态的信息融合在一起
协调:确保不同模态之间的信息能够协同工作
分裂:将结合的信息重新拆分,更便于分析理解
Alignment(对齐):
将文本和图像对齐,有助于更好的了解其中的信息,确保了不同模态的信息可以被正确的关联和理解
定义:
涉及识别和建模,多个模态之间的交叉连接,将其从数据结构中构建起来
分类:
包括了连接、对齐表示、分割等子挑战,以及显式和隐式对齐,个体元素的粒度问题
Reasoning(推理):
多模态推理结合了知识,通过多个推理步骤,利用多模态对齐和问题结构
分类:
要求不仅要了解单个模态的信息,还要理解他们如何相互作用以及如何影响整体的过程,然后对其进行内部信息推理,得到最终结果。
Generation(生成):
定义:
关注学习生成的一个过程,反应交叉模态交互结构和一致性的原始模态
分类:
要求不仅要理解现有的信息(文本、图像),还需要创造性的理解以及生成一些新的一致性信息
Transference(迁移):
定义:
在模态之间转换知识,通常为了帮助目标模态,这些模态可能是嘈杂的或者是资源有限的
目标:
用一个模态的知识去增强另一个模态,以此来提高另一个模态的性能或者鲁棒性
分类:
Quantification(量化):
定义:
对多模态理论的实证或理论研究,以此来更好的理解异构性;不仅以定性的角度了解多模态学习,还要能量化和评估不同模态之间的交互和整体学习效果。
分类:
多模态领域的经典工作:
ViLT:
一种新型的视觉-语言预训练模型,通过简化视觉输入处理,摒弃了传统的卷积神经网络和区域监督方法。ViLT使用Transformer模块直接处理像素级输入,与文本输入的线性嵌入方式一致,显著提升了模型的效率和速度。
实验证明,ViLT在视觉问答和图像-文本检索等任务上具有与现有模型相当或更优的性能,同时大幅度减少了计算量和模型参数。此外,ViLT还首次在VLP训练中采用了整词Mask和图像增强技术,进一步提升了性能。该模型为视觉-语言研究提供了一个更高效,简化的新架构。
CLIP:
CLIP通过从互联网上收集的4亿对图像-文本对进行预训练学习而来。CLIP的核心创新在于直接利用自然语言作为监督信号,而非传统的固定类别标注数据。这种方法突破了传统计算机视觉系统对特定预定义类别的依赖,实现了在多种计算机视觉任务上的zero-shot迁移能力。
CLIP通过对比学习框架,同时训练图像编码器和文本编码器,预测图象与其对应文本的正确配对。CLIP在超过30个不同的现有计算机视觉数据集上进行了基准测试,包括OCR、视频动作识别、地理定位和多种细粒度物体分类任务。结果显示,CLIP在大多数任务上都能平凡地迁移,并且与全监督基线相当,无需特定数据集的训练。此外,CLIP在ImageNet上的零样本准确率与原始的ResNet-50相当,且未使用其训练中使用的128万张训练样本。
ALBEF:
定义:一种强调在融合之前先对不同模态数据进行对齐的多模态学习框架
ALBEF是一种新型的视觉-语言表示学习框架,通过对比损失在融合前对齐图像和文本表示,以实现更准确的多模态学习。该方法无需边界框注释或高分辨率图像,采用动量蒸馏(MoD)自训练方法,从噪声网络数据中学习,提高预训练和下游任务的性能。ALBEF在多项视觉-语言任务上取得了最先进的结果,如图像-文本检索、视觉问答(VQA)和NLVR等,同时具有更快的推理速度。该框架提供了从互信息最大化角度的理论分析。
ITM:二分类任务,给定一个图片和一个文本加一个分类头,判断图片和文本是否为一个对
MLM:随机Mask掉一些单词,并进行重建
BLIP:
BLIP,一种新的多模态视觉-语言预训练框架,旨在统一视觉-语言理解与生成任务。BLIP通过两个主要创新点实现性能提升:多模态混合编码器-解码器(MED)架构,它能够灵活地处理多种任务;其次是引入了标题生成和过滤(CapFlit)方法,通过生成合成标题并过滤噪声标题来优化从网络收集的噪声数据。BLIP在多项视觉-语言任务上实现了最先进的结果,包括图像-文本检索、图像字母生成和视觉问答(VQA),并且在视频语言任务上展示了强大的零样本泛化能力。
MED模型结合了图像编码器和文本编码器,通过图像-文本对比学习、匹配和条件语言建模三个目标进行联合预训练。CapFilt方法则包含一个标题生成器,用于为网络图片生成合成标题,以及一个过滤器,用于移除原始网络文本和合成文本中的噪声。
LLaVA:
LLaVA,一个经过端到端训练的大型多模态模型,一个ViT和一个LLM经MLP连接,以实现通用的视觉和语言理解。为了改善多模态领域的指令跟随能力,作者首次尝试使用语言模型GPT-4生成语言-图像指令跟随数据。
通过在这些生成的数据上进行指令调整,LLaVA在多模态对话任务上展现出卓越的能力,与GPT-4相比,在合成多模态指令跟随数据集上达到了85.1%的相对得分。此外,当在科学问答数据集上微调时,LLaVA与GPT-4的结合达到了92.53%的新的最佳准确率。
同时构建了两个具有挑战性的基准测试,以评估模型在多模态任务上的表现。
这项工作为构建能够理解和执行视觉指令的通用视觉助手铺平了道路,并为未来的多模态研究提供了有价值的资源和基准。
基础名词:
多模态数据:
视觉数据:如图像、视频。
文本数据:如自然语言描述、标题、标签。
音频数据:如语音、音乐。
传感器数据:如温度、压力等物理量。
模态融合:
早期融合:在特征提取阶段就将不同模态的数据合并。
中期融合:在特征提取后的中间表示阶段合并。
晚期融合:在决策或分类阶段合并不同模态的结果。
多模态:
模态对齐:确保不同模态数据在语义、时间或空间上保持一致。
模态交互:不同模态数据之间的相互作用和影响。
零样本学习:模型能够在没有或只有很少样本的情况下识别新类别。
跨模态检索:根据一种模态的信息检索另一种模态的相关内容,如根据文本描述检索图像。
模态增强:通过添加或增强模态来提高模型的性能或鲁棒性。