MSA+抑郁症模型总结

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:传知代码论文复现

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​

目录

一、概述

二、论文地址

三、研究背景

四、主要贡献

五、模型结构和代码

六、数据集介绍

七、性能展示

八、复现过程

九、运行过程


本文所有资源均可在该地址处获取。

情感分析的应用

近年来社交媒体的空前发展以及配备高质量摄像头的智能手机的出现,我们见证了多模态数据的爆炸性增长,如电影、短视频等。在真实的生活中,多模态数据通常由三个渠道组成:视觉(图像)、听觉(语音)和转录文本。他们中的许多人经常表达某种情绪,这是一种长期的倾向,当一个人遇到一个特定的话题,他们会生成不同的反应和情绪。从多模态数据中挖掘和理解这些情感元素,即多模态情感分析(MSA),已经成为热门的研究主题,这是因为有许多吸引人的应用,例如从客户获得整体产品反馈或从潜在投票者中衡量投票意向的报告。一般而言,同一数据段中的不同模态通常彼此互补,从而为语义和情感歧义消除提供额外的线索的报告。MSA的关键部分是多模态融合,旨在从所有输入模态中提取和集成信息,以理解所见数据背后的情感。

此外,抑郁症对世界各地的个人和社会都有严重的负面影响。目前,抑郁症的诊断主要依靠问卷调查,辅以医学专业评估。但问卷调查的准确性在很大程度上取决于参与者的合作和操作人员的专业知识。近年来,基于人工智能的自动抑郁检测技术越来越突出。这些基于人工智能的抑郁检测技术通常涉及使用各种类型的生理或行为数据,例如面部表情,语音记录,文本和脑电图,通常在参与者的访谈期间记录。在这些数据形式中,音频和文本都很容易访问,并且包含有关抑郁症状的丰富信息。

我致力于对情感计算领域的经典模型进行分析、解读和总结,此外,由于现如今大多数的情感计算数据集都是基于英文语言开发的,我们计划在之后的整个系列文章中将中文数据集(SIMS, SIMSv2)应用在模型中,以开发适用于国人的情感计算分析模型,并应用在情感疾病(如抑郁症、自闭症)检测任务,为医学心理学等领域提供帮助,此外还加入了幽默检测数据集,在未来,我也计划加入更多小众数据集,以便检测更隐匿的情感,如嫉妒、嘲讽等,使得AI可以更好的服务于社会。

一、概述

这篇文章,我将介绍第二篇情感计算经典论文模型,他是EMNLP 2021的一篇经典MSA论文中的模型–Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis(MMIM) 此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及SIMS数据集和SIMV2数据集。

二、论文地址

Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis

三、研究背景

最近几年,多模态情感分析(MSA)和抑郁症检测(DD)引起了越来越多的关注。在多模态情感分析(MSA)中,模型的性能在很大程度上取决于合成嵌入的质量。这些嵌入是从称为多模态融合的上游过程中生成的,该过程旨在提取并联合收割机输入的单峰原始数据,以产生更丰富的多模态表示。以往的研究要么反向传播任务丢失,要么通过调整特征空间的几何属性来获得较好的融合结果,而忽略了从输入到融合结果的关键任务相关信息的保存。本文提出了一个多模态信息最大化框架MMIM,该框架通过分层最大化单模态输入对(模态间)之间以及多模态融合结果与单模态输入之间的互信息,从而在多模态融合中保持与任务相关的信息。该框架与主任务(MSA)联合训练,以提高下游MSA任务的性能。为了解决难以解决的MI界问题,进一步建立了一套计算简单的参数和非参数方法来逼近它们的真值。

四、主要贡献

提出了一种用于多模态情感分析层次化MI最大化框架。MI最大化发生在输入级和融合级,以减少有价值的任务相关信息的损失。据我们所知,这是第一次尝试在MI和MSA之间建立桥梁; 作者制定了我们的框架中的计算细节,以解决棘手的问题。该公式包括参数学习和非参数GMM稳定和光滑的参数估计; 在两个公开的数据集上进行全面的实验,并获得上级或与最先进的模型相当的结果。

五、模型结构和代码

  1. 总体框架 如下图所示,MMIM模型首先使用特征提取器(用于视觉和声学的固件,没有参数可供训练)和标记器(用于文本)将原始输入处理为数字序列向量。然后,将它们编码为单个单位长度表示。然后,该模型在两个协作部分中parts-fusion和MI最大化,分别由下图中的实线和虚线标记。在融合部分,堆叠的线性激活层的融合网络F将单峰表示转换为融合结果Z,然后将其通过回归多层感知器(MLP)进行最终预测。这两个部分同时工作,以产生用于反向传播的任务和MI相关损失,通过该模型学习将任务相关信息注入融合结果,并提高主任务中预测的准确性。

  2. 模态编码器 我们首先将多模态顺序输入Xm编码成单位长度表示h m 。具体地,我们使用BERT对输入句子进行编码,并从最后一层的输出中提取头部嵌入作为h t 。对于视觉和声学,遵循之前的成果,采用了两个特定于模态的单向LSTM来捕获这些模态的时间特征: 在这里插入图片描述

  3. 模态间MI最大化 通过以上分析,我们希望通过在多模态输入之间提示MI,可以过滤掉与任务无关的模态特定随机噪声,并尽可能多地保留跨所有模态的模态不变内容。如前所述,作者提高了一个易于处理的下限,而不是为此直接计算MI。利用了Barber和Agakov中引入的精确和直接的MI下界。

  4. 融合的MI最大化 为了加强中间融合结果以捕获模态之间的模态不变线索,在融合结果和输入模态之间重复MI最大化。优化目标是产生融合结 的融合网络F。因为我们已经有了一条从Z的生成路径,所以我们期望有一条相反的路径,即从构造m∈t,v,a。受Oord等人的启发但与之不同,作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性;

因为作者发现模型打算拉伸两个向量以最大化中的得分,而不进行这种归一化。然后,与Oord等人所做的相同,将此评分函数纳入噪声对比估计框架,将同一批次中该模态的所有其他表示处理为负样本;

以下是对这种提法的合理性的简短解释。对比预测编码(CPC)“在时间范围内”对上下文和未来元素之间的MI进行评分,以保持跨越许多时间步长的“慢功能”部分。类似地,在MMIM的模型中,要求融合结果Z反向预测“跨模态”的表示,以便可以将更多的模态不变信息传递给Z。此外,通过将预测与每一种模态对齐,使模型能够确定它应该从每一种模态接收多少信息。

六、数据集介绍

  1. CMU-MOSI: 它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。

  2. CMU-MOSEI: 它类似于CMU-MOSI,但规模更大。它包含了来自在线视频网站的23,453个注释视频片段,涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为[-3,3]范围内的情感强度和6种基本情绪。因此,CMU-MOSEI可用于情感分析和情感识别任务。

  3. AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行,以排除人为干扰。与上述两个数据集不同的是,AVEC2019中的每种模态都提供了几种不同的特征。例如,声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中,发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此,为了简单和高效的目的,我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0,24]内的PHQ-8评分进行注释,PHQ-8评分越大,抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

  4. SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面)

七、性能展示

  • 在情感计算任务中,可以看到MMIN模型性能超越其他模型,证明了其有效性;

在这里插入图片描述

  • 抑郁症检测任务中,MMIN在我们的数据集AVEC2019中依旧亮眼:在这里插入图片描述

  • SIMS数据集 在这里插入图片描述

八、复现过程

在准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;

  1. 下载多模态情感分析集成包

<span style="background-color:#f8f8f8"><span style="color:#333333">pip install MMSA</span></span>
  1. 进行训练

<span style="background-color:#f8f8f8"><span style="color:#333333"><span style="color:#0000ff">$ python</span> <span style="color:#0000cc">-m</span> MMSA <span style="color:#0000cc">-d</span> mosi/dosei/avec <span style="color:#0000cc">-m</span> mmim <span style="color:#0000cc">-s</span> <span style="color:#116644">1111</span> <span style="color:#0000cc">-s</span> <span style="color:#116644">1112</span></span></span>

九、运行过程

在这里插入图片描述 总结

  1. 适用场景

  • 情感驱动的内容生成: 该模型可以应用于情感驱动的内容生成任务,如根据用户的情感状态生成符合其情绪的音频、图像或文本内容。这在个性化推荐系统和广告定制中具有潜在的应用。

  • 心理健康监测与干预: 在心理健康领域,MMIM模型可以用于抑郁倾向监测和情绪干预。通过分析用户的语音、面部表情和文字信息,可以早期发现和处理心理健康问题,提供个性化的支持和建议。 情感教育和人际关系:

  • 在教育和培训领域: MMIM模型可以用于情感教育和人际关系技能培训。通过模拟多模态情境并提供实时反馈,帮助个体提高情感表达和沟通能力。

  1. 项目特点

  • 多模态整合: MMIM模型能够有效地整合文本、图像和音频等多模态数据,充分利用不同模态之间的相关性,提升情感分析的准确性和全面性。

  • 自适应情感建模: 采用先进的自适应学习技术,MMIM模型能够根据具体任务和用户需求动态调整情感建模策略,提高模型的灵活性和适应性。

  • 跨领域适用性: MMIM模型具有较强的跨领域适用性,不仅适用于社交媒体分析和心理健康监测,还能扩展至教育、电商推荐和人机交互等多个应用领域。

  • 高效的情感表示学习: 通过深度学习技术,MMIM模型能够高效地学习和表示复杂的情感信息,实现对多模态数据的深度理解和情感分析。

  • 本文所有资源均可在该地址处获取。

 ​​

希望对你有帮助!加油!

若您认为本文内容有益,请不吝赐予赞同并订阅,以便持续接收有价值的信息。衷心感谢您的关注和支持!  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/14103.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

解决Jenkins使用 Git 参数插件拉取 commit 列表缓慢问题

Jenkins使用 Git 参数插件拉取 commit 列表缓慢问题 项目问题问题描述解决方案具体实现 项目问题 在 Jenkins 中使用 Git 参数插件 进行参数化构建&#xff0c;具有多方面的重要性和好处。这不仅提高了构建的灵活性和透明度&#xff0c;还能大大提升开发和运维效率。以下是使用…

黑马智数Day7

获取行车管理计费规则列表 封装接口 export function getRuleListAPI(params) {return request({url: parking/rule/list,params}) } 获取并渲染数据 import { getRuleListAPI } from /apis/carmounted() {this.getRuleList() }methods: {// 获取规则列表async getRuleList(…

员工电脑怎么监控?这些电脑监控软件必备

在当今远程办公、灵活工时盛行的时代&#xff0c;如何掌握员工的在线活动、确保工作效率和数据安全成为许多企业关注的焦点。电脑监控软件作为管理工具中的关键一环&#xff0c;可以有效帮助企业了解员工的在线行为&#xff0c;避免效率低下和数据泄露等风险。今天我们就来介绍…

学习干货|实战学习应急响应之Windows日志分析,网络安全零基础入门到精通教程!

前言 本次环境将从大赛内与实战环境相结合去了解在应急响应中Windows日志分析的几个关键点&#xff0c;符合大赛及真实环境案例&#xff0c;本次环境将从WEB层面的日志分析到主机内的几种关键日志分析和重点功能进行排查 题目描述&#xff1a;某台Windows服务器遭到攻击者入侵…

零基础光伏人,数据计算轻松拿捏

在可再生能源领域&#xff0c;光伏产业以其清洁、可再生的特点日益受到全球关注。然而&#xff0c;对于初学者或“零基础光伏人”而言&#xff0c;光伏项目涉及的一系列数据计算和专业知识往往显得复杂而难以入手。幸运的是&#xff0c;随着技术的进步&#xff0c;一系列光伏计…

一文搞懂链表相关算法

目录 链表的逆序和截断 逆序 截断 查找链表的中间节点 力扣题 博主主页&#xff1a;东洛的克莱斯韦克-CSDN博客 链表的逆序和截断 逆序 推荐使用头插法逆序&#xff0c;首先要 new 一个虚拟头节点——newNode。如下图 链表的头节点为head&#xff0c;由cur指针指向head&a…

红外热成像技术开启光伏检测新视界

随着全球对可再生能源需求的不断增加&#xff0c;光伏发电系统的应用日益广泛。然而&#xff0c;光伏组件在长期运行中可能会出现各种故障&#xff0c;如热斑效应、隐裂、接线盒故障等&#xff0c;这些问题不仅影响光伏系统的发电效率&#xff0c;还可能引发安全隐患。 红外热成…

基于vue框架的的社区智慧养老系统1mo30(程序+源码+数据库+调试部署+开发环境)

系统程序文件列表 项目功能&#xff1a;老人,员工,老人档案,养生视频,社区医生,就医信息,在线咨询,咨询回复,菜品信息,点餐订单,服务预约,通知信息,服务评价,健康关爱,新闻公告,监控日志 开题报告内容 以下是一份基于Vue框架的社区智慧养老系统的开题报告&#xff0c;详细阐述…

龙蜥8.6 配置用户登录次数和锁定策略(已亲测)

操作系统&#xff1a;龙蜥8.6 x86_64 查看是否安装pam模块 rpm -qa | grep pam 查看可以使用的认证模块&#xff0c;因为有的系统是pam_tally2. cd /etc/pam.d ls 经过查看&#xff0c;该服务器是使用的pam_faillock 模块 打开/etc/pam.d/password-auth 的 PAM 配置文件…

【6.4】位运算-判断是否存在重复元素

一、题目 给定一个整数数组&#xff0c;判断 是否存在重复元素 。如果存在一值在数组中 出现至少两次 &#xff0c;函数返回 true 。如果数组中每个元素都不相同&#xff0c;则返回 false 。 示例 1: 输入: [ 1 , 2 , 3 , 1 ] 输出: true 示例 2: 输入: [ 1 , 2 , 3 , 4 ] 输出…

PCB打样下单流程

PCB打样下单流程 一、PCB打样在线下单流程1&#xff0e;平台登录2&#xff0e;PCB打样领券3&#xff0e;进入下单系统4&#xff0e;上传PCB文件5&#xff0e;PCB订单界面 PCB&#xff08;印刷电路板&#xff09;打样是验证设计、优化性能和推进项目进度的关键环节。随着互联网的…

Python爬虫知识体系-----正则表达式-----持续更新

数据科学、数据分析、人工智能必备知识汇总-----Python爬虫-----持续更新&#xff1a;https://blog.csdn.net/grd_java/article/details/140574349 文章目录 一、正则基础1. 为什么使用正则2. 正则与re模块简介 二、正则表达式1. 匹配单个字符与数字2. 限定符3. 定位符4. 选择匹…

yolo标签自动标注(使用python和yolo方法)

yolo代码自动标注 1.引言1.初阶“自动标注”&#xff0c;给每个图像都生成一个固定的标注文件&#xff0c;进而在labglimg中对矩形框进行微调&#xff0c;减少标注的工作量2.高阶自动标注&#xff0c;利用我们训练好的&#xff08;但是没有特别精准的&#xff09;yolo文件先对每…

在 WPF 中,如何使用命令来替代事件处理?

在 WPF&#xff08;Windows Presentation Foundation&#xff09;中&#xff0c;命令是一种非常强大的替代传统事件处理的方法&#xff0c;特别适用于 MVVM&#xff08;Model-View-ViewModel&#xff09;架构。命令可以实现界面&#xff08;View&#xff09;和逻辑&#xff08;…

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

「未来&#xff0c;消费者更可能倾向于与 AI 沟通&#xff0c;而非人工客服&#xff0c;因为这将成为解决问题的最高效途径。」 这篇来自 Bessemer Venture Partners 的报告&#xff0c;是目前为止对语音 AI 在企业应用上最完整清晰的一次梳理。 核心要点&#xff1a; 尽管市…

过去几年电子学习的趋势

近年来&#xff0c;在技术和不断变化的学习者期望的推动下&#xff0c;电子学习已经发展成为一种适应性强、沉浸式和社会化的教育形式。个性化已成为最具影响力的趋势之一&#xff0c;Coursera和LinkedIn Learning等平台为个人量身定制内容。这些平台使用人工智能来建议课程、跟…

Java基础-Java多线程机制

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 一、引言 二、多线程的基本概念 1. 线程与进程 2. 多线程与并发 3. 多线程的优势 三、Java多线程的实…

springboot 之 整合springdoc2.6 (swagger 3)

版本 springboot 3.3.5 jdk 17 springdoc 2.6.0 依赖pom <dependency><groupId>org.springdoc</groupId><artifactId>springdoc-openapi-starter-webmvc-ui</artifactId><version>2.6.0</version> </dependency>注解对比…

Zabbix部署

1.集群规划 进程虚拟机节点1虚拟机节点2虚拟机节点3zabbix-agent√√√zabbix-server√PostgreSQL√zabbix-web√ 2.准备工作 默认在虚拟机节点2安装kafka、在虚拟机节点3安装redis 2.1关闭3台节点防火墙 sudo systemctl stop firewalld.service sudo systemctl disable fi…

如何优化锚文本来提升关键词排名?

锚文本在SEO中是个小细节&#xff0c;但作用可不小。它不仅能影响外链的质量&#xff0c;还直接影响你的目标关键词排名。你要知道&#xff0c;锚文本并不是随便加上就行&#xff0c;它得讲究技巧和策略。 锚文本的关键词选择一定要精准&#xff0c;且与页面内容高度相关。比如…