ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

基本介绍:CVPR, 2023, CCF-A

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

        多模态情感识别(MER)旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色,但多模态固有的异质性仍然是一个挑战,不同模态的贡献差异显著。在本研究中,我们通过提出解耦的多模态蒸馏(DMD)方法来缓解这一问题,促进灵活且自适应的跨模态知识蒸馏,旨在增强每个模态的判别性特征。具体来说,每个模态的表示被解耦为两部分,即模态无关和模态专属空间,以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元(GD-Unit)来处理每个解耦的部分,从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成,其中每个节点表示一个模态,每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式,蒸馏权重可以自动学习,从而实现多样化的跨模态知识传递模式。实验结果表明,DMD在性能上持续优于最先进的MER方法。可视化结果显示,DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

        多模态情感识别(MER)旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据,例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,拥有诸多吸引人的应用,如智能辅导系统、产品反馈评估和机器人技术。

        对于MER,同一视频片段中的不同模态通常是互补的,能够提供额外的线索,用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合,即模型旨在编码和整合来自多种模态的表示,以理解原始数据背后的情感。尽管主流MER方法取得了显著成果,但不同模态之间的固有异质性仍然困扰我们,增加了稳健多模态表示学习的难度。不同的模态(如图像、语言和声音)在传递语义信息时采用不同的方式。通常,语言模态由有限的转录文本组成,其语义比非语言行为更为抽象。如图1(a)所示,语言在MER中发挥着最重要的作用,而模态之间的固有异质性导致了不同模态在性能上的显著差异。

        减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1(b)所示,然而,手动分配蒸馏方向或权重可能非常繁琐,因为存在多种潜在的组合方式。因此,模型应根据不同的示例自动学习调整蒸馏方向,例如,许多情感更容易通过语言识别,而有些情感则更容易通过视觉识别。此外,不同模态间的显著特征分布不匹配,使得直接的跨模态蒸馏效果不佳。

        为此,我们提出了一种解耦的多模态蒸馏(DMD)方法,用于学习模态间的动态蒸馏,如图1(c)所示。通常,每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦,我们设计了一种自回归机制,预测解耦后的模态特征,并对其进行自监督回归。为了巩固特征解耦,我们引入了一种边界损失,用于规范模态和情感之间表示关系的接近度。因此,解耦的图蒸馏(GD)范式减少了从异质数据中吸收知识的负担,并使每个GD能够以更专业和有效的方式执行。

        基于解耦的多模态特征空间,DMD在每个空间中使用一个图蒸馏单元(GD-Unit),以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成,其中(1)节点代表模态中的表示或分类结果,(2)边表示知识蒸馏的方向和权重。由于模态无关(同质)特征之间的分布差距被充分缩小,GD可以直接应用于捕捉模态间的语义关联。对于模态专属(异质)特征,我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示,并减少了不同模态中存在的高级语义概念之间的差异。为了简化,我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏(HomoGD)和异质图知识蒸馏(HeteroGD)。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

        本研究的贡献可以总结为以下几点:

  1. 我们提出了一种解耦的多模态蒸馏框架,即解耦的多模态蒸馏(DMD),用于学习模态间的动态蒸馏,以实现稳健的多模态情感识别。在DMD中,我们明确将多模态表示解耦为模态无关/专属空间,以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式,蒸馏的方向和权重可以自动学习,从而实现灵活的知识传递模式。
  2. 我们在公开的MER数据集上进行了全面的实验,取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性,且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1542745.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

闯关leetcode——67. Add Binary

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/add-binary/description/ 内容 Given two binary strings a and b, return their sum as a binary string. Example 1: Input: a “11”, b “1” Output: “100” Example 2: Input: a “101…

【LeetCode:116. 填充每个节点的下一个右侧节点指针 + BFS(层次遍历)】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

MFC - 常用基础控件

前言 各位师傅大家好,我是qmx_07,今天给大家讲解MFC中的基础控件 基础控件 单选按钮 绘图准备: 调整窗口大小,设置 radio button 单选按钮button 按钮 设置单选按钮变量分别为 m_BN1、 m_BN2、m_BN3 void CMFCApplication3Dlg::OnBnC…

【笔记】机器学习算法在异常网络流量监测中的应用

先从一些相对简单的综述类看起,顺便学学怎么写摘要相关工作的,边译边学 机器学习算法在异常网络流量监测中的应用 原文:Detecting Network Anomalies in NetFlow Traffic with Machine Learning Algorithms Authors: Quc Vo, Philippe Ea, Os…

C++入门——类的默认成员函数(构造函数)

文章目录 前言一、构造函数二、栈的构造函数总结 前言 ⼀个类,我们不写的情况下编译器会默认⽣成以下6个默认成员函数 默认成员函数很重要,也⽐较复杂,我们要从两个⽅⾯去学习: 第⼀:我们不写时,编译器默认…

Spring后端直接用枚举类接收参数,自定义通用枚举类反序列化器

在使用枚举类做参数时,一般会让前端传数字,后端将数字转为枚举类,当枚举类很多时,很可能不知道这个code该对应哪个枚举类。能不能后端直接使用枚举类接收参数呢,可以,但是受限。 Spring反序列默认使用的是J…

如何用Shell命令结合 正则表达式 统计文本中的ip地址数量

文章目录 简介问题回答 简介 IP 地址(Internet Protocol Address)是互联网协议地址的简称,是互联网上为联网的设备(如计算机、服务器、路由器、手机等)分配的唯一标识符。IP 地址的主要功能是实现不同网络设备之间的通…

[Python]一、Python基础编程(2)

F:\BaiduNetdiskDownload\2023人工智能开发学习路线图\1、人工智能开发入门\1、零基础Python编程 1. 文件操作 把⼀些内容 ( 数据 )存储存放起来,可以让程序下⼀次执⾏的时候直接使⽤,⽽不必重新制作⼀份,省时省⼒ 。 1.1 文件的基本操作 1. 打开文件 2. 读写操作 3. 关闭…

hive-拉链表

目录 拉链表概述缓慢变化维拉链表定义 拉链表的实现常规拉链表历史数据每日新增数据历史数据与新增数据的合并 分区拉链表 拉链表概述 缓慢变化维 通常我们用一张维度表来维护维度信息,比如用户手机号码信息。然而随着时间的变化,某些用户信息会发生改…

【软件工程】需求分析概念

一、定义 二、为什么要进行需求分析? 三、需求分析任务 四、与用户沟通获取需求的方法 五、分析建模 六、软件需求规格说明 例题 选择题

【题解】【枚举,数学】——小 Y 拼木棒

【题解】【枚举,数学】——小 Y 拼木棒 小 Y 拼木棒题目背景题目描述输入格式输出格式输入输出样例输入 #1输出 #1 提示数据规模与约定 1.题意简述2.思路解析3.AC代码 前置知识:排列组合,暴力枚举基础知识。 小 Y 拼木棒 通往洛谷的传送门 …

基于SpringBoot+Vue+MySQL的医院信息管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 在当今社会,随着医疗服务需求的不断增长和医疗信息化的快速发展,提升医院管理效率和服务质量成为了医疗行业的核心需求。传统的医院管理模式面临着效率低下、资源分配不均、患者就医体验差等问题。为了应…

图像处理基础知识点简记

简单记录一下图像处理的基础知识点 一、取样 1、释义 图像的取样就是图像在空间上的离散化处理,即使空间上连续变化的图像离散化, 决定了图像的空间分辨率。 2、过程 简单描述一下图象取样的基本过程,首先用一个网格把待处理的图像覆盖,然后把每一小格上模拟图像的各个…

一种求解无人机三维路径规划的高维多目标优化算法,MATLAB代码

在无人机三维路径规划的研究领域,高维多目标优化算法是一个重要的研究方向。这种算法能够同时考虑多个目标,如航迹距离、威胁代价、能耗代价以及多无人机协同性能等,以实现无人机路径的最优规划。 无人机路径规划算法的研究进展表明&#xf…

中国最厉害的改名大师,颜廷利教授的名字来自于国学易经元亨利贞

颜廷利教授,一位源自齐鲁大地山东济南的世界级文化名人,他的名字背后承载着深厚的家族易学传统。在颜廷利教授的童年记忆中,家族长辈常以《易经》中频繁出现的“元、亨、利、贞”四字,寓意四季之变换,将这四个字分别对…

Qt_对话框QDialog的介绍

目录 1、新建项目对话框 2、非模态对话框 3、模态对话框 4、自定义对话框 5、Qt内置对话框 5.1 消息对话框QMessageBox 5.2 颜色对话框QColorDialog 5.3 文件对话框QFileDialog 5.4 字体对话框QFontDialog 5.5 输入对话框QInputDialog 结语 前言: 在Qt中&…

使用Stream实现事件流

文章目录 1 概念介绍2 使用方法3 示例代码 我们在上一章回中介绍了Flutter中的异步操作,本章回中将介绍Flutter中的事件流.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 我们在上一章回中介绍了异步操作相关的内容,本章回中将介绍如何把…

51.字符串比较实例-用户登录

//已知正确的用户名和密码,请用程序实现模拟用户登录 //总共三次机会,登录之后给出相应的提示 import java.util.Scanner;public class 登录 {public static void main(String[] args) {//1.定义两个变量,记录正确的用户名和密码String righ…

【kaggle竞赛】毒蘑菇的二元预测题目相关信息和思路求解代码

毒蘑菇的二元预测 您提供了很多关于不同二元分类任务的资源和链接,看起来这些都是Kaggle竞赛中的参考资料和高分解决方案。为了帮助您更好地利用这些资源,这里是一些关键点的总结: Playground Season 4 Episode 8 主要关注的竞赛: 使用银行…

深入理解 JavaScript 三大作用域:全局作用域、函数作用域、块级作用域

一. 作用域 对于多数编程语言,最基本的功能就是能够存储变量当中的值、并且允许我们对这个变量的值进行访问和修改。那么有了变量之后,应该把它放在哪里、程序如何找到它们?是否需要提前约定好一套存储变量、访问变量的规则?答案…