【RMA】基于知识注入和模糊学习的多模态歧义分析

abstract

多模态情感分析(MSA)利用互补的多模态特征来预测情感极性,主要涉及语言、视觉和音频三种模态。现有的多模态融合方法主要考虑不同模态的互补性,而忽略了模态之间的冲突所导致的歧义(即文本模态预测积极情绪,视觉模态预测消极情绪)。为了减少这些冲突,我们开发了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。

具体来说,我们引入和过滤外部知识来增强跨模态情感极性预测的一致性。在多模态融合过程中,我们明确测量歧义,动态调整从属模态和主导模态之间的影响,同时考虑多模态的互补性和冲突。实验证明了我们提出的模型在三个公共多模态情感分析数据集CMU-MOSI、CMU-MOSEI和MELD上的优势。

intro

生物系统通过同时发生的多模态信号来感知世界。语言、视觉和语音是日常生活中最常见的三种多模态信号。与生物系统类似,多模态情感分析(MSA)处理多源信号Ou等,同时。MSA是情感分析领域的一个基本但重要的问题,引起了研究人员Zadeh等人(2017)的极大关注;Tsai et al . (2019a);Rahman等人(2020);Yu et al . (2021);Zhao et al . (2022);Yang等(2023)。现有的MSA方法可分为多模态表示中心方法和多模态融合中心方法。前一种模型精确和细粒度表示,以帮助模型预测情绪极性。后者侧重于通过跨模态交互学习跨模态语义关联,并通过跨模态信息传递增强单模态表示。

凡事都有两面性。虽然多模态融合方法通过利用互补的多模态数据有效地提高了多模态情感分析模型的性能,但它们也可能因冲突的多模态数据而误导情绪极性预测。数据收集或特征提取模型可能会产生冲突的多模态数据,导致不同的模态预测不一致的情绪极性。尽管在MSA领域取得了实质性进展,但冲突多模态数据引起的模糊性Chen等(2022b)误导了Du等(2021)的预测结果,这仍然是一项具有挑战性的任务;Fan等(2023);Zhang等(2023a)。

多模态歧义是指模态之间的冲突,如语篇模态预测积极情绪,而视觉模态预测消极情绪。单峰性能的差距是由于提取单峰特征的预训练模型和在多峰信号中使用的收集方法的差异。表现较优的情态称为主导情态,表现较差的情态称为从属情态。图1说明了多模态歧义下的决策过程。具有冲突的多模态数据(即,主导和从属模态)的联合学习可能导致歧义,随后误导模型决策。

具体来说,我们利用跨模态融合模型Tsai等人(2019a)和单模态变压器Vaswani等人(2017)来获得多模态和单模态预测。文本模态与视觉、听觉模态的预测结果不一致。文本模态预测值为+0.23,视觉和听觉模态预测值分别为-0.24和-1.01。多模态预测值为-0.13,跨模态相互作用导致位移值为-0.36。

具有跨模态相互作用的多模态预测会产生错误的预测。我们总结如下:

i)与文本情态(主导情态)相比,视觉和听觉情态(从属情态)的低表现可能导致冲突。

ii)仅考虑多模态互补性的多模态融合方法可能在冲突场景中产生错误的预测。

因此,有必要研究:

i)如何为每种模态生成一致的情绪极性预测,以减轻冲突的情况。

ii)如何动态调整互补和冲突的多模态数据的跨模态交互,生成正确的情感极性预测。

为了回答上述研究问题,我们提出了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。RMA通过引入和过滤领域知识来提高单个模态的性能,这保证了每个模态尽可能地产生一致的情感极性预测。RMA明确测量模态之间的歧义,并动态调整冲突情景中从属模态对主导模态的影响。

具体而言,我们使用外部多模态情感分析数据集预训练三个领域通用编码器,以提供外部领域通用知识。

我们使用正交损失来确保领域通用和领域特定编码器学习模态的两个不同方面。为了避免过分强调领域通用知识,我们设计了一个跨知识编码器来引入和过滤领域通用知识。

为了准确测量跨模态歧义,我们设计了一个以语言为导向的跨模态歧义学习模块,该模块明确地测量了主模态和混合模态之间的歧义。基于冲突场景下的模糊值,动态调整混合模态对主导模态的影响。多模态融合方法通常需要跨模态交互技术来增强模态。

例如,在利用视觉情态来强化文本情态时,需要将信息从视觉情态转移到文本情态。

我们的贡献如下:

•我们为每个模态引入和过滤外部域通用知识,以确保每个模态产生一致的预测结果。

•我们设计了一个语言引导的跨模态歧义学习模块,在多模态融合之前明确测量主导模态和混合模态之间的歧义。该模块根据歧义值动态控制从属情态对主导情态的影响,同时考虑多模态互补和多模态融合中的歧义。

•我们进行了大量的实验来证明以下方法的有效性:i)领域通用知识注入的有效性,它可以引入和过滤领域特定知识以增强模式。ii)语言引导歧义学习模块的有效性,该模块可以同时考虑多模态互补和多模态融合过程中的冲突。

•与多模态大型语言模型相比,我们提出的模型在公开可用的多模态情感分析数据集CMU-MOSI、MELD、CMU-MOSEI和CMU-MOSEI上仍然取得了出色的性能

related work

多模态情感分析

根据多模态情感分析的方法,我们将现有的研究大致分为两类:一类是通过损失反向传播进行多模态融合;早期的融合方法学习一个联合嵌入。TFM Zadeh et al .(2017)和LMF。刘等人(2018)从张量的角度设计了融合方法。MFN Zadeh等(2018a)提出了一种记忆融合网络,该网络学习特定视图交互和跨视图交互,然后通过多视图门通记忆随时间汇总信息。后期的融合方法是设计动态交互模块来捕获跨模态信息。RAVEN Wang等(2019)提出了一种循环参与变异嵌入网络。RAVEN利用非语言信息通过注意机制对词嵌入进调整。MAG Rahman等(2020)和MAG+ Zhao等(2022)在Bert骨干网中集成了多模态信息。MuLT Tsai等人(2019a)和PMR Lv等人(2021)采用多模态变压器捕捉跨模态相互作用。MTAG Yang等人(2021)提出了模态时间关注来分析多模态序列数据。Zhang等(2023b)利用文本模态从非文本模态中过滤信息,增强了文本模态,同时丢弃了非文本模态信息。Yu等人(2023)引入了一个预训练的光源适配器,以纳入额外的知识。后一个分支通过利用特征空间中的几何操作来定位互补的多模态信息,然后融合最终的多模态情感分析表示。蔡国强等(2019b)提出了一种多模态分解模型,该模型通过生成特征学习特定于模态的信息。ICCN Sun等(2020)提出了交互典型相关网络。ICCN通过深度典型相关分析(DCCA)学习多模态表示。SelfMM Yu等(2021)通过自监督学习策略获得独立单模监督。M3SA Zeng等人(2021)确定了模态的贡献并减少了噪声信息的影响。汉等人(2021b)提出了一个名为MultiModal InfoMax的框架,该框架最大限度地提高了成对模态之间的互信息。BBFN Han等(2021a)提出了一种端到端双双峰融合网络,对两两模态表示进行融合和分离。MISA Hazarika等人(2020)通过不同的损失函数学习模态特定和模态不变信息。Yang等人(2022)结合表征学习方法和跨模态交互方法来提高模型性能。DMD Li等人(2023)将MISA扩展到设计同质和异质蒸馏,以优化这些表示。ConFEDE Yang等人(2023a)使用对比学习对基于MISA的细粒度解耦表示进行建模

知识注入

在自然语言处理领域,预训练的语言模型通过吸收外部知识来提高性能。这些方法主要涉及引入外部知识来加强表征(i等人,2021);Fu et al . (2023);Chen et al . (2023);Onoe等人(2023);Hu et al(2023)。这些方法的主要策略是设计一个轻量级的预训练适配器,用于学习外部知识,并随后将该适配器嵌入到模型中以增强表示(u等人,2023)。例如,Wang等人(2020)为Roberta设计了不同的适配器,从多个领域引入外部知识以提高性能,Yu等人(2023)直接为每个模态引入外部知识,增强了原始表示。在本文中,我们将外部知识概念化为领域通用信息,而将原始数据集中的知识视为领域特定信息。领域通用知识包括能够增强领域特定知识的信息。我们引入领域知识,并选择性地过滤增强其相关性的组件。

方法

在本节中,我们首先描述了多模态情感分析的任务制定

图2展示了提出的框架,包括两个部分:知识注入模态内强化和语言引导的跨模态歧义学习。

通用、特定知识注入

通过领域通用和领域特定的编码器获取每个模态的领域通用和领域特定知识的细节。

为了改进单模态表示,我们为每个模态引入了来自外部多模态情感分析数据集的领域一般知识作为补充信息。图3说明了我们为每种模式学习领域通用知识和领域特定知识的方法。我们设计领域通用编码器和特定领域的编码器参数为每个模态。前者学习到领域通用知识,后者学习到领域特定知识

Q:领域通用和领域特定体现在哪里?

A:来源不同,学习方式也不同。

领域通用知识注入目的是通过外部的多模态情感分析数据集为每种模态引入通用知识。编码器是使用领域通用编码器fg来学习通用知识xg,这个编码器在训练初期已经被预训练,并且在训练过程中保持不变。

领域特定知识注入目的是同时学习每个模态的特定知识,以反映特定领域的独特性。编码器是特定编码器fs学习特定知识xs,这些编码器在模型训练时通过梯度下降法更新参数,以适应具体的应用领域。

表示样本的特点提取由𝑓{𝑡、𝑣、𝑎}参数。继之前的工作Tsai等人(2019a)之后,知识编码器采用1层变压器Vaswani等人(2017)来学习模态的顺序信息。特定领域的知识编码器𝑓𝑠{𝑡,𝑣,𝑎}在训练过程中通过梯度下降进行更新。领域通用知识编码器𝑓𝑔{𝑡,𝑣,𝑎}使用外部多模态情感分析数据集进行预训练,其参数在训练阶段保持冻结。通用领域知识𝑥𝑔{𝑡、𝑣𝑎}和特定领域的知识𝑥{𝑡、𝑣𝑎},来自不同的形式,代表了两个截然不同的部分信息。为了加强它们的差异,我们引入了正交损失Hazarika et al(2020)来约束域通用和特定领域知识:

其中‖*‖2为2范数。由于领域通用知识编码器的参数是固定的,这种正交损失保证了领域专用编码器专注于学习领域专用知识

交叉知识注入

为了充分利用领域通用知识,我们引入了交叉知识注入编码器(CKIE)模块。图4说明了我们过滤引入的领域特定知识和增强单个模式的方法。它利用领域通用表示来加强领域特定表示,从而提高单模态的性能。

其中,表示强化的单峰表示。CKIE利用领域通用知识和领域特定知识之间的关注权重来选择领域通用知识,增强单一性。

其中,表示强化的单模表示。符号FFN和LN分别表示前馈层和LayerNorm层。

语言引导下的跨模态歧义学习

我们的目标是测量从属情态向主导情态传递补充信息时的歧义。跨模态序列包括潜在语义相关性Tsai等(2019a);Lv等人(2021)通过跨模态交互,对齐这些语义信息可以更好地利用互补的多模态数据。具体来说,我们利用主导模态向从属模态查询信息,并将查询到的信息表示为混合模态。首先在主导模态的指导下计算主从模态之间的跨模态对齐分数(CAS)。

其中,下标α和β分别表示主导模式和从属模式。分数:α→β分别表示文本模态与视觉模态和音频模态的对齐分数。CAS计算跨模态标记之间的相似性,以对齐异步跨模态序列。

根据跨模态对齐分数的定义,我们计算了基于跨模态对齐分数的混合模态表示。

其中,表示主导模态和从属模态之间对齐的混合模态表示。当主导模态和从属模态一致时,混合模态可以强化主导模态(Lv等人(2021)),当主导模态和从属模态之间存在歧义时,混合模态也可能引入额外的噪声(Zhang等人(2023b))。

Q:他究竟是如何解决当主导模态和从属模态之间存在歧义时,混合模态也可能引入额外的噪声问题的?

A:引入一个称作“混合模态表示”的概念,来动态调整信息流。

  • 混合模态表示的计算:使用交叉模态对齐分数(Cross-modal Alignment Score, CAS)来计算不同模态之间的对齐。这一分数通过比较不同模态下的特征表示,并通过softmax函数进行归一化,以衡量不同模态之间的相似度。

  • 语言引导的歧义度量:通过变分自编码器(Variational Autoencoder, VAE)来估计加强文本模态、混合模态以及先验分布之间的后验分布。通过这种方式,模型可以评估和量化主导模态和从属模态之间的歧义。

  • 动态调整权重:根据歧义度量的结果,动态调整混合模态表示与加强文本模态之间的权重。这样做的目的是在保持信息丰富性的同时,减少由于模态间歧义造成的误导性噪声。

  • 输出的计算:将调整后的混合模态表示与加强文本模态结合,通过多层感知机(Multi-layer Perceptron, MLP)进行处理,输出最终的预测结果。

为了缓解这一问题,我们基于语言引导的跨模态歧义度量动态调整混合模态表示的权重。具体来说,我们使用变分自编码器来估计强化文本模态、混合模态的后验分布。我们假设先验分布服从高斯分布。具体而言,对于视觉文本和听觉文本的混合模态,表示变分后验分布的形成

Q:变分自编码器是什么?具体怎么做的?

A:变分自编码器是一种深度学习模型,用于学习输入数据的潜在表示。它结合了深度学习和贝叶斯推断,特别适用于处理复杂的数据分布和生成任务。

1. 模型结构

  • 编码器(Encoder):将输入数据映射到一个潜在空间,不同于传统的自编码器直接输出潜在表示,VAE的编码器输出的是概率分布的参数,通常是每个潜在变量的均值(μ)和方差(σ²)。
  • 解码器(Decoder):从潜在空间采样并重构输入数据,试图复原输入数据,从而确保潜在空间有意义。

2. 后验分布和先验分布

  • VAE假设潜在变量遵循一定的先验分布,通常为高斯分布。编码器输出的参数定义了条件概率分布,即给定输入数据后潜在变量的分布(后验分布)。
  • VAE通过训练过程调整编码器的参数,使得后验分布尽可能接近先验分布。

3. KL散度

  • KL散度是一种衡量两个概率分布相似性的指标,VAE利用它来评估后验分布与先验分布之间的差异。在跨模态学习中,这可以用来度量不同模态表示的后验分布之间的差异。
  • 对于主导模态和从属模态,可以计算两者的后验分布之间的KL散度,这提供了一个量化模态之间歧义的方法。

4. 歧义的评估和量化

  • 在多模态学习中,通过计算主导模态的潜在表示与从属模态的潜在表示之间的KL散度,可以量化两者的一致性或差异性。较高的KL散度表示两个模态的表示差异大,即存在更多的歧义。
  • 通过这种方法,可以动态调整模态之间的信息流,例如在信息融合时减少歧义较大的模态的影响,或者在模型训练中特别处理以减少这种歧义。

其中,𝑞为变量编码器,参数分别为:。同时,我们利用Kullback-Leibler(KL)散度分别估计分布区别,指示为。基于多模态数据的𝑖-th样本分集,可以得到训练数据集的分布

其中表示混合模态表示和强化文本模态之间𝑖-sample的歧义度量。为了充分利用模糊的多模态数据,我们基于明确的模糊度量,在跨模态交互过程中动态调整从从属模态到主导模态的信息流。

Q:这一节的公式完全不懂,可以逐个讲解吗?

A:可,公式11~公式22


公式(11),就是定义了一个跨模态对齐分数,简单点说就是注意力得分。由注意力和softmax组成。


公式(12)~(14),具体讲解得分中的注意力部分,定义了QKV


公式(15),softmax算出得分


 公式(16)~(17),把得分赋值给


公式(18),

这些后验分布用于捕捉各个模态数据的潜在特征,并为后续计算模态间的歧义提供基础。


公式(19),


公式(20)~(21),20示例,21相似


公式(22),

这个公式基本上在说,每个模态的贡献被其相应的歧义程度调节。歧义度量越高,该模态对最终输出的贡献就越少,这意味着如果某个模态与主模态(假设为文本)的一致性较低,它对最终决策的影响就会减少。

优化目标

我们最终的优化目标由两个部分组成。首先,我们使用交叉熵和均方误差(MSE)损失作为多模态情感分析的任务损失,它们分别处理分类(MELD)和回归(CMU-MOSI和CMU-MOSEI)任务。

其次,我们在领域通用编码器和领域特定编码器之间合并了一个正交约束损失,用于学习相同模态的两个不同部分。

experiment

dataset

我们在三个数据集(CMU-MOSI Zadeh等人(2016)、CMU-MOSEI Zadeh等人(2018b)和MELD Poria等人(2018)上评估了我们的模型。拆分规格如图5所示。

CMU-MOSI。CMU-MOSI数据集是由卡内基梅隆大学的研究团队为情感分析和情感识别创建的多模态数据集。

该数据集包括从YouTube提取的独白视频剪辑,涵盖各种情感场景,如电影评论,演讲和采访。它由2199个观点视频片段组成,每个视频片段都标注了[- 3,3]CMU-MOSEI范围内的情感分数。CMU-MOSEI数据集是CMU-MOSI数据集的扩展版本。它包含了来自1000位演讲者的3228个视频,总共包含23453个句子。与CMU-MOSI数据集类似,它涵盖了多个情感维度,采用相同的注释标记方法

MELD。MELD数据集是一个情感对话数据集,包含1433个对话片段和13708个来自电影和电视节目的话语。对话中的每句话都标有七种情绪中的一种:愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧。此外,MELD数据集为每个话语提供情绪极性(积极、消极和中性)的注释

实现细节

我们使用PyTorch框架在NVIDIA V100 gpu上优化了我们的模型。我们选择Adam作为优化器,将mini-batch大小设置为16,学习率设置为8e-5, epoch设置为150。我们报告测试集上的性能对应于验证集上的最佳性能。为了标准化领域不可知和领域特定的特征,我们使用相同的预训练模型来提取三个多模态情感分析数据集的特征。

继之前的工作Christ等人(2023)之后,多模态特征提取利用预先训练的文本模型(Bert和Electra) Clark等人(2020);Kenton & Toutanova (2019), visual (VggFace2) Cao et al(2018)和audio (Hubert) Hsu et al (2021) modes。领域不可知知识编码器和领域特定知识编码器都是单层Transformer编码器。文本、视觉和音频模式的特征维度分别为768、512和1024。超参数lambda设置为0.1。

此外,我们使用了不同的预训练语言模型Kenton & Toutanova (2019);Clark et al(2020)学习领域通用知识和领域特定知识。图8显示了我们的模型使用两种不同的预训练语言模型的性能

baseline

实验装置

继Tsai等人(2019a)之前的工作之后,我们采用二元精度(Acc-2)、F1-score、平均绝对误差(MAE)和相关系数(CC)作为多模态情感分析回归任务的评价指标。将回归值转化为二值分类,得到二值精度。我们使用3种分类(负面、中性和正面)的Precision、Recall和Macro-F1作为MELD的评价指标

对比实验

为了验证我们提出的RMA模型的有效性,我们将其与传统的最先进基线和多模态大语言模型在多模态情感分析任务中进行了比较。传统的多模态情感分析方法侧重于探索多模态表示和融合模式,即TFN、MFM、MulT、MTAG、PMR、MISA、MAG、MMIM、Self-MM、FDMER、CONKI、DMD、ConFEDE。大型语言模型利用给定的多模态输入和用户提示输出情感极性,即ChatGPT、LLaMA、LaVIN、LLaVA、OpenFlamingo、MiniGPT4、InstructBLIP、BLIP2、Flan-T5XXL。性能比较结果如表1、2、3所示。通过分析这些表格,我们可以得出以下结论:

•与传统的多模态情感分析和多个大型语言模型的基线相比,我们的模型显示出显著的改进。

•在外部知识方法的结合中,我们的模型优于ConKI,表明我们的模型有效地从领域一般知识中检索有价值的信息,以强化个体模式。

•我们的模型优于基于跨模态相互作用的方法,如MuLT、MAG和DMD,这些方法平等地对待每种模态,忽略了多模态歧义的实例。这一结果强调了明确学习从属和主导模式之间的歧义的重要性。

消融实验

为了深入了解其主要成分,我们逐步进行消融研究。具体来说,我们将我们提出的模型与三个不同的变体进行了比较分析:1)w/o local,去掉了语言引导的跨模态歧义学习模块;2)不包括领域一般知识,不含知识;3) w/o𝐋𝑜𝑟𝑡,消除了与领域特定知识和领域一般知识相关的正交损失。

表4报告了烧蚀实验结果。与我们的模型相比,w/o local的性能(精度)在CMU-MOSEI和CMU-MOSI上分别下降了2.1%和1.3%这一结果表明了我们提出的语言引导的跨模态歧义学习模块的有效性,因为它能够在歧义场景中用混合模态增强主导模态时减少额外的噪声。此外,我们的模型与无DG相比实现了优势性能,表明领域通用知识加强了领域特定表示以提高模型性能。此外,当w/o𝑜𝑟𝑡被去除时,模型的性能下降,这表明正交损失限制了模型学习更精确的领域特定知识。总之,我们提出的模型的性能超过了两个多模态情感分析数据集上的所有变量,验证了每个组件的有效性和互补性。最后,我们使用相同的预训练语言模型Kenton & Toutanova(2019)将我们提出的模型与ConKI进行比较,以提取文本特征。图8展示了比较结果。

结果表明我们的引入和过滤知识的有效性,它没有过分强调领域通用知识

知识可视化

除了出色的性能外,我们提出的模型的关键优势在于它能够通过结合外部领域一般知识来加强次要模式的性能。图6显示了每种模态的一般知识和特定领域知识,其中我们使用t-SNE将一般知识和特定领域知识投影到2D空间中。从图6中,我们可以观察到,对于每个模态,领域通用知识和领域特定知识都有一个明显的边界。这一结果表明,领域通用知识和领域特定知识是情感相关信息的互补部分。

领域通用知识分析

为了验证3.1节中描述的领域通用知识的有效性,我们进行了一系列实验,探索通过领域通用知识增强每种模态的性能。图7说明了通过引入外部知识对单模态性能的改进。蓝色部分表示仅使用领域特定知识的情感极性预测,而橙色部分表示通过结合领域一般知识对情感极性预测进行改进。

从图7中,我们可以得出结论,领域通用知识显著提高了从属模态(视觉和声学模态)的性能。此外,我们发现引入领域通用知识显著提高了MOSI数据集上音频模态的性能。原因是领域特定知识在MOSI数据集中的音频模态上表现相对较差,导致明显的改进。

图9说明了仅使用领域特定知识就会出现分类错误的情况,而引入领域通用知识会导致正确的预测。这些结果表明,利用领域通用知识来提高特定模态的性能是有效的

跨模态歧义分析

为了深入了解我们提出的语言引导的歧义学习,我们举例说明了几个结果。具体来说,我们分析了文本模态(𝑡)与混合模态表示(𝑣→𝑡)(参见Eq(17))之间从视觉到文本的距离𝑚𝑡,𝑣(参见Eq(20)),同时也展示了视觉模态的表现。我们引入了一个辅助任务来预测个体模态的情绪极性。在我们的实验中,我们发现辅助任务不影响MSA模型的性能。图10(a)和(b)分别显示了前5%的距离和后5%的距离,以及每种模态的相应分类结果。

从图10中我们可以观察到,随着混合模态表示从视觉模态到文本模态的距离增加,在相应的单模态中预测错误的比例也会增加。相反,当与文本的距离较小时,单模态中正确预测的比例显着增加。这一事实证实了我们的假设,即混合模态和主导模态之间的距离越大,从属模态和主导模态之间歧义的可能性就越高。因此,我们设计了语言引导的跨模态歧义学习,通过明确测量歧义来动态控制混合模态的权重,从而强化优势模态。

定性结果

两种不同模式下的预测。

使用Transformer对从属(视觉和听觉)模态的预测是不正确的。使用Transformer对主导模态的预测是正确的。

用跨模态相互作用来预测多模态是不正确的。利用本文提出的RMA对多模态的预测是正确的。符号+S表示正增益。

为了定性地验证RMA的有效性,我们在CMU-MOSI数据集上展示了几个典型的例子。图11显示了我们的模型动态调整混合模态表示从从属模态到主导模态,当从属模态和主导模态之间存在歧义时,基于距离Eq(20)和Eq(21)调整混合模态表示的融合权重Eq(22)。从图11 [(a1),(a2)]和[(b1),(b2)]可以观察到,当混合模态表示与文本模态从非文本到文本模态存在歧义时,其歧义测量值显著高于平均距离。我们通过减少混合模态的权重来强化文本模态,从而最大限度地减少从属模态对主导模态的影响,从而获得正确的预测结果。图11明确地表明,即使在存在歧义的情况下,调整融合权重仍然可以导致正确的预测。

conclusion

本文提出了一种用于多模态情感分析的跨模态歧义学习方法。具体来说,我们引入和过滤外部领域通用知识来强化每种模式并提高性能。随后,我们引入了一个明确的语言引导的跨模态歧义学习模块来量化混合模态和主导模态之间的歧义。我们基于歧义度量动态调整从从属模态到主导模态的跨模态迁移信息。实验结果证明了我们提出的模型在三个多模态情感分析基准数据集上的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/8843.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

移动取证和 Android 安全

当今的数字时代已经产生了许多技术进步,无论是智能手机还是虚拟现实、人工智能和物联网 (IoT) 等下一代基础技术。 智能手机已不再只是奢侈品,而是我们生存所必需的东西。根据各种统计数据,如今全球有超过 50% 的人使用手机。 由于数据存储…

【Linux】简易版shell

文章目录 shell的基本框架PrintCommandLineGetCommandLineParseCommandLineExecuteCommandInitEnvCheckAndExecBuildCommand代码总览运行效果总结 shell的基本框架 要写一个命令行我们首先要写出基本框架。 打印命令行获取用户输入的命令分析命令执行命令 基本框架的代码&am…

Java 枚举

目录 枚举是什么 常用方法 构造方法 枚举的优缺点 枚举和反射 实现单例模式 枚举是什么 枚举(enum):是一种特殊的类,用于定义一组常量,将其组织起来。枚举使得代码更具有可读性和可维护性,特别是在处…

【梯度下降法优化】随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam

本文理论参考王木头的视频: “随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1r64y1s7fU/?spm_id_from333.999.0.0&vd_sourceecbdfcacb078d0…

五个高质量伤感视频素材资源站,帮你快速找到完美创作素材

在制作短视频、MV或者广告时,伤感主题的视频素材往往能触动观众的情感,让作品更具共鸣。无论是表达分手、离别,还是展现孤独与失落,合适的伤感素材对情感类创作至关重要。为帮助创作者找到优质的视频素材,以下推荐5个高…

天正建筑T20V8

链接: https://pan.baidu.com/s/1k-PcXJxHWPh3-6yAIfcaPg提取码: dvyn

JavaScript 实现文本转语音功能

全篇大概2000 字(含代码),建议阅读时间10分钟。 引言 我将向大家展示如何使用 JavaScript 和 Web Speech API 快速实现一个“文本转语音”的 Web 应用。通过这个教程,你将了解如何让浏览器将输入的文本朗读出来。 预览效果 一、…

DNS域名详细解析详解

文章目录 DNS域名详细解析详解一、引言二、DNS域名解析过程1、DNS解析概述1.1、DNS解析的基本步骤 2、代码示例 三、DNS查询类型1、递归查询2、迭代查询 四、总结 DNS域名详细解析详解 一、引言 在互联网的世界里,域名和IP地址是两个不可或缺的概念。IP地址是计算…

函数计算——文档与网页数据提取工具(MinerU)应用实践

1 引言 在信息爆炸的时代,AI研究者面临着从海量文档中提取高质量数据的挑战。随着大语言模型在各个领域的广泛应用,有效地处理和整合文档信息成为了基础性的任务。这些文档形式多样,包括学术文献、行业报告、会议PPT、课本、说明书及合同单据…

【网络】应用层——HTTP协议

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:了解什么是HTTP协议。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! > 专栏选自:网络 &g…

计算生物学与生物信息学漫谈-5-mapping算法

之前的文章我们介绍了参考基因组,也介绍了一些基本概念,具体可以看之前的博客: 计算生物学与生物信息学漫谈-4-参考基因组与Mapping准备_基因组的map-CSDN博客 这次我们讲如何将read map到基因组上所用到的各种算法: 目录 1.1 …

qsqlmysql.lib的编译和使用

文章目录 打开源码 打开源码 打开qt源码安装路径 src相对路径下的文件Src\qtbase\src\plugins\sqldrivers\mysql 比如我是5.9.9版本我的路径就是:D:\Qt5.9.9\5.9.9\Src\qtbase\src\plugins\sqldrivers\mysql 可以看到待编译的mysql驱动文件 使用IDE打开pro文件进…

leetcode 693.交替位二进制数

1.题目要求&#xff1a; 2.题目代码: class Solution { public:bool hasAlternatingBits(int n) {int num n;//设置数组存入二进制位vector<int> array;while(num){array.push_back(num % 2); num num / 2;}//把数组颠倒就能得到此数真正二进制位reverse(array.begin…

IP协议知识点总结

IP协议主要分为三个 1. 地址管理 每个网络上的设备, 要能分配一个唯一的地址 2. 路由选择 小A 给小B 发消息, 具体应该走什么路线 3. 地址管理 IP 地址. 本质上是一个 32 位的整数 通常将, 32 位的整数使用点分十进制来表示, 如 192.168.1.1 一共可以表示 42 亿 9 千万个地址…

【重学 MySQL】八十二、深入探索 CASE 语句的应用

【重学 MySQL】八十二、深入探索 CASE 语句的应用 CASE语句的两种形式CASE语句的应用场景数据分类动态排序条件计算在 SELECT 子句中使用在 WHERE子句中使用在 ORDER BY 子句中使用 注意事项 在MySQL中&#xff0c;CASE 语句提供了一种强大的方式来实现条件分支逻辑&#xff0c…

机器学习1_机器学习定义——MOOC

一、机器学习定义 定义一 1959年Arthur Samuel提出机器学习的定义&#xff1a; Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed. 译文&#xff1a;机器学习是这样的领域&#xff0c;它赋予计算机学习的…

充电桩--OCPP 充电通讯协议介绍

一、OCPP协议介绍 OCPP的全称是 Open Charge Point Protocol 即开放充电点协议&#xff0c; 它是免费开放的协议&#xff0c;该协议由位于荷兰的组织 OCA&#xff08;开放充电联盟&#xff09;进行制定。Open Charge Point Protocol (OCPP) 开放充电点协议用于充电站(CS)和任何…

如何制作公司小程序

我是【码云数智】平台的黄导&#xff0c;今天分享&#xff1a;如何制作公司小程序 企业小程序怎么制作&#xff0c;企业小程序制作不仅成为了连接消费者与品牌的桥梁&#xff0c;更是企业数字化转型的重要一环。 01、小程序制作流程 02、微信小程序开发多少钱 03、微信小程…

明道云正式发布国际品牌Nocoly

在2024年明道云伙伴大会上&#xff0c;明道云正式发布了其国际品牌Nocoly以及国际版产品Nocoly HAP。这标志着公司正式开启了海外业务。明道云的海外业务由全资拥有的Nocoly.com Limited经营&#xff0c;该公司注册在香港特别行政区。总部位于上海的明道云已经将围绕HAP超级应用…

如何构建一个可扩展的测试自动化框架?

以下为作者观点&#xff1a; 假设你是测试自动化方面的新手&#xff0c;想参与构建一个框架。在这种情况下&#xff0c;重要的是要了解框架所需的组件&#xff0c;以及它们是如何组合的。思考项目的具体需求和目标&#xff0c;以及可能遇到的困难和挑战。 假如你是一个测试架…