abstract
多模态情感分析(MSA)利用互补的多模态特征来预测情感极性,主要涉及语言、视觉和音频三种模态。现有的多模态融合方法主要考虑不同模态的互补性,而忽略了模态之间的冲突所导致的歧义(即文本模态预测积极情绪,视觉模态预测消极情绪)。为了减少这些冲突,我们开发了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。
具体来说,我们引入和过滤外部知识来增强跨模态情感极性预测的一致性。在多模态融合过程中,我们明确测量歧义,动态调整从属模态和主导模态之间的影响,同时考虑多模态的互补性和冲突。实验证明了我们提出的模型在三个公共多模态情感分析数据集CMU-MOSI、CMU-MOSEI和MELD上的优势。
intro
生物系统通过同时发生的多模态信号来感知世界。语言、视觉和语音是日常生活中最常见的三种多模态信号。与生物系统类似,多模态情感分析(MSA)处理多源信号Ou等,同时。MSA是情感分析领域的一个基本但重要的问题,引起了研究人员Zadeh等人(2017)的极大关注;Tsai et al . (2019a);Rahman等人(2020);Yu et al . (2021);Zhao et al . (2022);Yang等(2023)。现有的MSA方法可分为多模态表示中心方法和多模态融合中心方法。前一种模型精确和细粒度表示,以帮助模型预测情绪极性。后者侧重于通过跨模态交互学习跨模态语义关联,并通过跨模态信息传递增强单模态表示。
凡事都有两面性。虽然多模态融合方法通过利用互补的多模态数据有效地提高了多模态情感分析模型的性能,但它们也可能因冲突的多模态数据而误导情绪极性预测。数据收集或特征提取模型可能会产生冲突的多模态数据,导致不同的模态预测不一致的情绪极性。尽管在MSA领域取得了实质性进展,但冲突多模态数据引起的模糊性Chen等(2022b)误导了Du等(2021)的预测结果,这仍然是一项具有挑战性的任务;Fan等(2023);Zhang等(2023a)。
多模态歧义是指模态之间的冲突,如语篇模态预测积极情绪,而视觉模态预测消极情绪。单峰性能的差距是由于提取单峰特征的预训练模型和在多峰信号中使用的收集方法的差异。表现较优的情态称为主导情态,表现较差的情态称为从属情态。图1说明了多模态歧义下的决策过程。具有冲突的多模态数据(即,主导和从属模态)的联合学习可能导致歧义,随后误导模型决策。
具体来说,我们利用跨模态融合模型Tsai等人(2019a)和单模态变压器Vaswani等人(2017)来获得多模态和单模态预测。文本模态与视觉、听觉模态的预测结果不一致。文本模态预测值为+0.23,视觉和听觉模态预测值分别为-0.24和-1.01。多模态预测值为-0.13,跨模态相互作用导致位移值为-0.36。
具有跨模态相互作用的多模态预测会产生错误的预测。我们总结如下:
i)与文本情态(主导情态)相比,视觉和听觉情态(从属情态)的低表现可能导致冲突。
ii)仅考虑多模态互补性的多模态融合方法可能在冲突场景中产生错误的预测。
因此,有必要研究:
i)如何为每种模态生成一致的情绪极性预测,以减轻冲突的情况。
ii)如何动态调整互补和冲突的多模态数据的跨模态交互,生成正确的情感极性预测。
为了回答上述研究问题,我们提出了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。RMA通过引入和过滤领域知识来提高单个模态的性能,这保证了每个模态尽可能地产生一致的情感极性预测。RMA明确测量模态之间的歧义,并动态调整冲突情景中从属模态对主导模态的影响。
具体而言,我们使用外部多模态情感分析数据集预训练三个领域通用编码器,以提供外部领域通用知识。
我们使用正交损失来确保领域通用和领域特定编码器学习模态的两个不同方面。为了避免过分强调领域通用知识,我们设计了一个跨知识编码器来引入和过滤领域通用知识。
为了准确测量跨模态歧义,我们设计了一个以语言为导向的跨模态歧义学习模块,该模块明确地测量了主模态和混合模态之间的歧义。基于冲突场景下的模糊值,动态调整混合模态对主导模态的影响。多模态融合方法通常需要跨模态交互技术来增强模态。
例如,在利用视觉情态来强化文本情态时,需要将信息从视觉情态转移到文本情态。
我们的贡献如下:
•我们为每个模态引入和过滤外部域通用知识,以确保每个模态产生一致的预测结果。
•我们设计了一个语言引导的跨模态歧义学习模块,在多模态融合之前明确测量主导模态和混合模态之间的歧义。该模块根据歧义值动态控制从属情态对主导情态的影响,同时考虑多模态互补和多模态融合中的歧义。
•我们进行了大量的实验来证明以下方法的有效性:i)领域通用知识注入的有效性,它可以引入和过滤领域特定知识以增强模式。ii)语言引导歧义学习模块的有效性,该模块可以同时考虑多模态互补和多模态融合过程中的冲突。
•与多模态大型语言模型相比,我们提出的模型在公开可用的多模态情感分析数据集CMU-MOSI、MELD、CMU-MOSEI和CMU-MOSEI上仍然取得了出色的性能
related work
多模态情感分析
根据多模态情感分析的方法,我们将现有的研究大致分为两类:一类是通过损失反向传播进行多模态融合;早期的融合方法学习一个联合嵌入。TFM Zadeh et al .(2017)和LMF。刘等人(2018)从张量的角度设计了融合方法。MFN Zadeh等(2018a)提出了一种记忆融合网络,该网络学习特定视图交互和跨视图交互,然后通过多视图门通记忆随时间汇总信息。后期的融合方法是设计动态交互模块来捕获跨模态信息。RAVEN Wang等(2019)提出了一种循环参与变异嵌入网络。RAVEN利用非语言信息通过注意机制对词嵌入进调整。MAG Rahman等(2020)和MAG+ Zhao等(2022)在Bert骨干网中集成了多模态信息。MuLT Tsai等人(2019a)和PMR Lv等人(2021)采用多模态变压器捕捉跨模态相互作用。MTAG Yang等人(2021)提出了模态时间关注来分析多模态序列数据。Zhang等(2023b)利用文本模态从非文本模态中过滤信息,增强了文本模态,同时丢弃了非文本模态信息。Yu等人(2023)引入了一个预训练的光源适配器,以纳入额外的知识。后一个分支通过利用特征空间中的几何操作来定位互补的多模态信息,然后融合最终的多模态情感分析表示。蔡国强等(2019b)提出了一种多模态分解模型,该模型通过生成特征学习特定于模态的信息。ICCN Sun等(2020)提出了交互典型相关网络。ICCN通过深度典型相关分析(DCCA)学习多模态表示。SelfMM Yu等(2021)通过自监督学习策略获得独立单模监督。M3SA Zeng等人(2021)确定了模态的贡献并减少了噪声信息的影响。汉等人(2021b)提出了一个名为MultiModal InfoMax的框架,该框架最大限度地提高了成对模态之间的互信息。BBFN Han等(2021a)提出了一种端到端双双峰融合网络,对两两模态表示进行融合和分离。MISA Hazarika等人(2020)通过不同的损失函数学习模态特定和模态不变信息。Yang等人(2022)结合表征学习方法和跨模态交互方法来提高模型性能。DMD Li等人(2023)将MISA扩展到设计同质和异质蒸馏,以优化这些表示。ConFEDE Yang等人(2023a)使用对比学习对基于MISA的细粒度解耦表示进行建模
知识注入
在自然语言处理领域,预训练的语言模型通过吸收外部知识来提高性能。这些方法主要涉及引入外部知识来加强表征(i等人,2021);Fu et al . (2023);Chen et al . (2023);Onoe等人(2023);Hu et al(2023)。这些方法的主要策略是设计一个轻量级的预训练适配器,用于学习外部知识,并随后将该适配器嵌入到模型中以增强表示(u等人,2023)。例如,Wang等人(2020)为Roberta设计了不同的适配器,从多个领域引入外部知识以提高性能,Yu等人(2023)直接为每个模态引入外部知识,增强了原始表示。在本文中,我们将外部知识概念化为领域通用信息,而将原始数据集中的知识视为领域特定信息。领域通用知识包括能够增强领域特定知识的信息。我们引入领域知识,并选择性地过滤增强其相关性的组件。
方法
在本节中,我们首先描述了多模态情感分析的任务制定
图2展示了提出的框架,包括两个部分:知识注入模态内强化和语言引导的跨模态歧义学习。
通用、特定知识注入
通过领域通用和领域特定的编码器获取每个模态的领域通用和领域特定知识的细节。
为了改进单模态表示,我们为每个模态引入了来自外部多模态情感分析数据集的领域一般知识作为补充信息。图3说明了我们为每种模式学习领域通用知识和领域特定知识的方法。我们设计领域通用编码器和特定领域的编码器参数为每个模态。前者学习到领域通用知识,后者学习到领域特定知识
Q:领域通用和领域特定体现在哪里?
A:来源不同,学习方式也不同。
领域通用知识注入目的是通过外部的多模态情感分析数据集为每种模态引入通用知识。编码器是使用领域通用编码器fg来学习通用知识xg,这个编码器在训练初期已经被预训练,并且在训练过程中保持不变。
领域特定知识注入目的是同时学习每个模态的特定知识,以反映特定领域的独特性。编码器是特定编码器fs学习特定知识xs,这些编码器在模型训练时通过梯度下降法更新参数,以适应具体的应用领域。
在表示样本的特点提取由𝑓{𝑡、𝑣、𝑎}参数。继之前的工作Tsai等人(2019a)之后,知识编码器采用1层变压器Vaswani等人(2017)来学习模态的顺序信息。特定领域的知识编码器𝑓𝑠{𝑡,𝑣,𝑎}在训练过程中通过梯度下降进行更新。领域通用知识编码器𝑓𝑔{𝑡,𝑣,𝑎}使用外部多模态情感分析数据集进行预训练,其参数在训练阶段保持冻结。通用领域知识𝑥𝑔{𝑡、𝑣𝑎}和特定领域的知识𝑥{𝑡、𝑣𝑎},来自不同的形式,代表了两个截然不同的部分信息。为了加强它们的差异,我们引入了正交损失Hazarika et al(2020)来约束域通用和特定领域知识:
其中‖*‖2为2范数。由于领域通用知识编码器的参数是固定的,这种正交损失保证了领域专用编码器专注于学习领域专用知识
交叉知识注入
为了充分利用领域通用知识,我们引入了交叉知识注入编码器(CKIE)模块。图4说明了我们过滤引入的领域特定知识和增强单个模式的方法。它利用领域通用表示来加强领域特定表示,从而提高单模态的性能。
其中,表示强化的单峰表示。CKIE利用领域通用知识和领域特定知识之间的关注权重来选择领域通用知识,增强单一性。
其中,表示强化的单模表示。符号FFN和LN分别表示前馈层和LayerNorm层。
语言引导下的跨模态歧义学习
我们的目标是测量从属情态向主导情态传递补充信息时的歧义。跨模态序列包括潜在语义相关性Tsai等(2019a);Lv等人(2021)通过跨模态交互,对齐这些语义信息可以更好地利用互补的多模态数据。具体来说,我们利用主导模态向从属模态查询信息,并将查询到的信息表示为混合模态。首先在主导模态的指导下计算主从模态之间的跨模态对齐分数(CAS)。
其中,下标α和β分别表示主导模式和从属模式。分数:α→β分别表示文本模态与视觉模态和音频模态的对齐分数。CAS计算跨模态标记之间的相似性,以对齐异步跨模态序列。
根据跨模态对齐分数的定义,我们计算了基于跨模态对齐分数的混合模态表示。
其中,表示主导模态和从属模态之间对齐的混合模态表示。当主导模态和从属模态一致时,混合模态可以强化主导模态(Lv等人(2021)),当主导模态和从属模态之间存在歧义时,混合模态也可能引入额外的噪声(Zhang等人(2023b))。
Q:他究竟是如何解决当主导模态和从属模态之间存在歧义时,混合模态也可能引入额外的噪声问题的?
A:引入一个称作“混合模态表示”的概念,来动态调整信息流。
混合模态表示的计算:使用交叉模态对齐分数(Cross-modal Alignment Score, CAS)来计算不同模态之间的对齐。这一分数通过比较不同模态下的特征表示,并通过softmax函数进行归一化,以衡量不同模态之间的相似度。
语言引导的歧义度量:通过变分自编码器(Variational Autoencoder, VAE)来估计加强文本模态、混合模态以及先验分布之间的后验分布。通过这种方式,模型可以评估和量化主导模态和从属模态之间的歧义。
动态调整权重:根据歧义度量的结果,动态调整混合模态表示与加强文本模态之间的权重。这样做的目的是在保持信息丰富性的同时,减少由于模态间歧义造成的误导性噪声。
输出的计算:将调整后的混合模态表示与加强文本模态结合,通过多层感知机(Multi-layer Perceptron, MLP)进行处理,输出最终的预测结果。
为了缓解这一问题,我们基于语言引导的跨模态歧义度量动态调整混合模态表示的权重。具体来说,我们使用变分自编码器来估计强化文本模态、混合模态和的后验分布。我们假设先验分布服从高斯分布。具体而言,对于视觉文本和听觉文本的混合模态,表示变分后验分布的形成
Q:变分自编码器是什么?具体怎么做的?
A:变分自编码器是一种深度学习模型,用于学习输入数据的潜在表示。它结合了深度学习和贝叶斯推断,特别适用于处理复杂的数据分布和生成任务。
1. 模型结构
- 编码器(Encoder):将输入数据映射到一个潜在空间,不同于传统的自编码器直接输出潜在表示,VAE的编码器输出的是概率分布的参数,通常是每个潜在变量的均值(μ)和方差(σ²)。
- 解码器(Decoder):从潜在空间采样并重构输入数据,试图复原输入数据,从而确保潜在空间有意义。
2. 后验分布和先验分布
- VAE假设潜在变量遵循一定的先验分布,通常为高斯分布。编码器输出的参数定义了条件概率分布,即给定输入数据后潜在变量的分布(后验分布)。
- VAE通过训练过程调整编码器的参数,使得后验分布尽可能接近先验分布。
3. KL散度
- KL散度是一种衡量两个概率分布相似性的指标,VAE利用它来评估后验分布与先验分布之间的差异。在跨模态学习中,这可以用来度量不同模态表示的后验分布之间的差异。
- 对于主导模态和从属模态,可以计算两者的后验分布之间的KL散度,这提供了一个量化模态之间歧义的方法。
4. 歧义的评估和量化
- 在多模态学习中,通过计算主导模态的潜在表示与从属模态的潜在表示之间的KL散度,可以量化两者的一致性或差异性。较高的KL散度表示两个模态的表示差异大,即存在更多的歧义。
- 通过这种方法,可以动态调整模态之间的信息流,例如在信息融合时减少歧义较大的模态的影响,或者在模型训练中特别处理以减少这种歧义。
其中,𝑞为变量编码器,参数分别为:、。同时,我们利用Kullback-Leibler(KL)散度分别估计分布区别,指示为。基于多模态数据的𝑖-th样本分集,可以得到训练数据集的分布
其中表示混合模态表示和强化文本模态之间𝑖-sample的歧义度量。为了充分利用模糊的多模态数据,我们基于明确的模糊度量,在跨模态交互过程中动态调整从从属模态到主导模态的信息流。
Q:这一节的公式完全不懂,可以逐个讲解吗?
A:可,公式11~公式22
公式(11),就是定义了一个跨模态对齐分数,简单点说就是注意力得分。由注意力和softmax组成。
公式(12)~(14),具体讲解得分中的注意力部分,定义了QKV
公式(15),softmax算出得分
公式(16)~(17),把得分赋值给
公式(18),
这些后验分布用于捕捉各个模态数据的潜在特征,并为后续计算模态间的歧义提供基础。
公式(19),
公式(20)~(21),20示例,21相似
公式(22),
这个公式基本上在说,每个模态的贡献被其相应的歧义程度调节。歧义度量越高,该模态对最终输出的贡献就越少,这意味着如果某个模态与主模态(假设为文本)的一致性较低,它对最终决策的影响就会减少。
优化目标
我们最终的优化目标由两个部分组成。首先,我们使用交叉熵和均方误差(MSE)损失作为多模态情感分析的任务损失,它们分别处理分类(MELD)和回归(CMU-MOSI和CMU-MOSEI)任务。
其次,我们在领域通用编码器和领域特定编码器之间合并了一个正交约束损失,用于学习相同模态的两个不同部分。
experiment
dataset
我们在三个数据集(CMU-MOSI Zadeh等人(2016)、CMU-MOSEI Zadeh等人(2018b)和MELD Poria等人(2018)上评估了我们的模型。拆分规格如图5所示。
CMU-MOSI。CMU-MOSI数据集是由卡内基梅隆大学的研究团队为情感分析和情感识别创建的多模态数据集。
该数据集包括从YouTube提取的独白视频剪辑,涵盖各种情感场景,如电影评论,演讲和采访。它由2199个观点视频片段组成,每个视频片段都标注了[- 3,3]CMU-MOSEI范围内的情感分数。CMU-MOSEI数据集是CMU-MOSI数据集的扩展版本。它包含了来自1000位演讲者的3228个视频,总共包含23453个句子。与CMU-MOSI数据集类似,它涵盖了多个情感维度,采用相同的注释标记方法
MELD。MELD数据集是一个情感对话数据集,包含1433个对话片段和13708个来自电影和电视节目的话语。对话中的每句话都标有七种情绪中的一种:愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧。此外,MELD数据集为每个话语提供情绪极性(积极、消极和中性)的注释
实现细节
我们使用PyTorch框架在NVIDIA V100 gpu上优化了我们的模型。我们选择Adam作为优化器,将mini-batch大小设置为16,学习率设置为8e-5, epoch设置为150。我们报告测试集上的性能对应于验证集上的最佳性能。为了标准化领域不可知和领域特定的特征,我们使用相同的预训练模型来提取三个多模态情感分析数据集的特征。
继之前的工作Christ等人(2023)之后,多模态特征提取利用预先训练的文本模型(Bert和Electra) Clark等人(2020);Kenton & Toutanova (2019), visual (VggFace2) Cao et al(2018)和audio (Hubert) Hsu et al (2021) modes。领域不可知知识编码器和领域特定知识编码器都是单层Transformer编码器。文本、视觉和音频模式的特征维度分别为768、512和1024。超参数lambda设置为0.1。
此外,我们使用了不同的预训练语言模型Kenton & Toutanova (2019);Clark et al(2020)学习领域通用知识和领域特定知识。图8显示了我们的模型使用两种不同的预训练语言模型的性能
baseline
略
实验装置
继Tsai等人(2019a)之前的工作之后,我们采用二元精度(Acc-2)、F1-score、平均绝对误差(MAE)和相关系数(CC)作为多模态情感分析回归任务的评价指标。将回归值转化为二值分类,得到二值精度。我们使用3种分类(负面、中性和正面)的Precision、Recall和Macro-F1作为MELD的评价指标
对比实验
为了验证我们提出的RMA模型的有效性,我们将其与传统的最先进基线和多模态大语言模型在多模态情感分析任务中进行了比较。传统的多模态情感分析方法侧重于探索多模态表示和融合模式,即TFN、MFM、MulT、MTAG、PMR、MISA、MAG、MMIM、Self-MM、FDMER、CONKI、DMD、ConFEDE。大型语言模型利用给定的多模态输入和用户提示输出情感极性,即ChatGPT、LLaMA、LaVIN、LLaVA、OpenFlamingo、MiniGPT4、InstructBLIP、BLIP2、Flan-T5XXL。性能比较结果如表1、2、3所示。通过分析这些表格,我们可以得出以下结论:
•与传统的多模态情感分析和多个大型语言模型的基线相比,我们的模型显示出显著的改进。
•在外部知识方法的结合中,我们的模型优于ConKI,表明我们的模型有效地从领域一般知识中检索有价值的信息,以强化个体模式。
•我们的模型优于基于跨模态相互作用的方法,如MuLT、MAG和DMD,这些方法平等地对待每种模态,忽略了多模态歧义的实例。这一结果强调了明确学习从属和主导模式之间的歧义的重要性。
消融实验
为了深入了解其主要成分,我们逐步进行消融研究。具体来说,我们将我们提出的模型与三个不同的变体进行了比较分析:1)w/o local,去掉了语言引导的跨模态歧义学习模块;2)不包括领域一般知识,不含知识;3) w/o𝐋𝑜𝑟𝑡,消除了与领域特定知识和领域一般知识相关的正交损失。
表4报告了烧蚀实验结果。与我们的模型相比,w/o local的性能(精度)在CMU-MOSEI和CMU-MOSI上分别下降了2.1%和1.3%这一结果表明了我们提出的语言引导的跨模态歧义学习模块的有效性,因为它能够在歧义场景中用混合模态增强主导模态时减少额外的噪声。此外,我们的模型与无DG相比实现了优势性能,表明领域通用知识加强了领域特定表示以提高模型性能。此外,当w/o𝑜𝑟𝑡被去除时,模型的性能下降,这表明正交损失限制了模型学习更精确的领域特定知识。总之,我们提出的模型的性能超过了两个多模态情感分析数据集上的所有变量,验证了每个组件的有效性和互补性。最后,我们使用相同的预训练语言模型Kenton & Toutanova(2019)将我们提出的模型与ConKI进行比较,以提取文本特征。图8展示了比较结果。
结果表明我们的引入和过滤知识的有效性,它没有过分强调领域通用知识
知识可视化
除了出色的性能外,我们提出的模型的关键优势在于它能够通过结合外部领域一般知识来加强次要模式的性能。图6显示了每种模态的一般知识和特定领域知识,其中我们使用t-SNE将一般知识和特定领域知识投影到2D空间中。从图6中,我们可以观察到,对于每个模态,领域通用知识和领域特定知识都有一个明显的边界。这一结果表明,领域通用知识和领域特定知识是情感相关信息的互补部分。
领域通用知识分析
为了验证3.1节中描述的领域通用知识的有效性,我们进行了一系列实验,探索通过领域通用知识增强每种模态的性能。图7说明了通过引入外部知识对单模态性能的改进。蓝色部分表示仅使用领域特定知识的情感极性预测,而橙色部分表示通过结合领域一般知识对情感极性预测进行改进。
从图7中,我们可以得出结论,领域通用知识显著提高了从属模态(视觉和声学模态)的性能。此外,我们发现引入领域通用知识显著提高了MOSI数据集上音频模态的性能。原因是领域特定知识在MOSI数据集中的音频模态上表现相对较差,导致明显的改进。
图9说明了仅使用领域特定知识就会出现分类错误的情况,而引入领域通用知识会导致正确的预测。这些结果表明,利用领域通用知识来提高特定模态的性能是有效的
跨模态歧义分析
为了深入了解我们提出的语言引导的歧义学习,我们举例说明了几个结果。具体来说,我们分析了文本模态(𝑡)与混合模态表示(𝑣→𝑡)(参见Eq(17))之间从视觉到文本的距离𝑚𝑡,𝑣(参见Eq(20)),同时也展示了视觉模态的表现。我们引入了一个辅助任务来预测个体模态的情绪极性。在我们的实验中,我们发现辅助任务不影响MSA模型的性能。图10(a)和(b)分别显示了前5%的距离和后5%的距离,以及每种模态的相应分类结果。
从图10中我们可以观察到,随着混合模态表示从视觉模态到文本模态的距离增加,在相应的单模态中预测错误的比例也会增加。相反,当与文本的距离较小时,单模态中正确预测的比例显着增加。这一事实证实了我们的假设,即混合模态和主导模态之间的距离越大,从属模态和主导模态之间歧义的可能性就越高。因此,我们设计了语言引导的跨模态歧义学习,通过明确测量歧义来动态控制混合模态的权重,从而强化优势模态。
定性结果
两种不同模式下的预测。
使用Transformer对从属(视觉和听觉)模态的预测是不正确的。使用Transformer对主导模态的预测是正确的。
用跨模态相互作用来预测多模态是不正确的。利用本文提出的RMA对多模态的预测是正确的。符号+S表示正增益。
为了定性地验证RMA的有效性,我们在CMU-MOSI数据集上展示了几个典型的例子。图11显示了我们的模型动态调整混合模态表示从从属模态到主导模态,当从属模态和主导模态之间存在歧义时,基于距离Eq(20)和Eq(21)调整混合模态表示的融合权重Eq(22)。从图11 [(a1),(a2)]和[(b1),(b2)]可以观察到,当混合模态表示与文本模态从非文本到文本模态存在歧义时,其歧义测量值显著高于平均距离。我们通过减少混合模态的权重来强化文本模态,从而最大限度地减少从属模态对主导模态的影响,从而获得正确的预测结果。图11明确地表明,即使在存在歧义的情况下,调整融合权重仍然可以导致正确的预测。
conclusion
本文提出了一种用于多模态情感分析的跨模态歧义学习方法。具体来说,我们引入和过滤外部领域通用知识来强化每种模式并提高性能。随后,我们引入了一个明确的语言引导的跨模态歧义学习模块来量化混合模态和主导模态之间的歧义。我们基于歧义度量动态调整从从属模态到主导模态的跨模态迁移信息。实验结果证明了我们提出的模型在三个多模态情感分析基准数据集上的有效性。