自监督学习在言语障碍及老年语音识别中的应用

          近几十年来针对正常言语的自动语音识别(ASR)技术取得了快速进展,但准确识别障碍(dysarthric)和老年仍然是一项极具挑战性的任务。障碍是一种由多种运动控制疾病引起的常见言语障碍类型,包括脑瘫、肌萎缩侧索硬化、中风和脑损伤。此外,诸如阿尔茨海默病(Alzheimer's disease, AD)之类的神经认知障碍也常常出现在有言语和语言障碍的老年人中

        针对言语障碍和老年用户需求定制的ASR技术不仅可以改善他们的生活质量,还可以实现大规模的神经认知障碍(例如AD)的自动早期诊断。

      本文通过探索一系列技术,将最新的单语言和多语言SSL预训练语音基础模型及其特征整合到混合TDNN和Conformer ASR系统中,以提高对言语障碍和老年语音的识别能力。这些技术旨在利用这些模型的多样性和互补性,提高对未见和覆盖不足单词的泛化性能,以及对非常低可懂度的最具挑战性的言语障碍语音数据的性能。

1 相关背景

1.1 失语症和老年语音识别的挑战

  • 与正常语音的差异性: 失语症和老年语音由于运动控制和衰老的原因,与正常语音存在较大差异,例如发音不精确、语音量和清晰度下降、流利度增加等。
  • 数据稀缺: 由于难以从有身体残疾和行动不便的说话者中收集数据,导致失语症和老年语音数据稀缺。
  • 说话者多样性: 失语症和老年说话者之间存在着巨大的差异,这使得 ASR 系统难以泛化到不同的说话者。

1.2 基于传统 ASR 技术的解决方案

  • 数据增强: 为了解决数据稀缺问题,研究人员开发了一系列数据增强技术,例如速度扰动和时间扰动等。
  • 领域自适应: 研究人员还研究了如何将通用的 ASR 系统进行领域自适应,以更好地处理失语症和老年语音。
  • 说话者自适应: 为了解决说话者多样性问题,研究人员研究了各种说话者自适应技术,例如直接参数微调和基于 LHUC 的说话者自适应等。
  • 多模态融合: 研究人员还探索了将视觉和语音运动特征等融入 ASR 系统的方法。

2 SSL模型在ASR中应用

自监督学习是一种无监督学习方法,它尝试从未标记的数据中学习表示,通过预测数据本身的某些属性或结构来作为监督信号。在语音识别的上下文中,SSL模型试图从原始语音信号中学习有用的特征表示,而不依赖于人工标注的转录文本。

2.1 SSL 预训练模型的选择

  • Wav2vec2.0: 一种基于对比学习的 SSL 预训练模型,可以学习语音表示和离散语音单元。
  • HuBERT: 一种基于聚类和预测的 SSL 预训练模型,可以学习语音表示和离散语音单元。
  • WavLM: 与 HuBERT 类似,但使用了门控相对位置偏置和混合语音输入。
  • Data2vec: 与 Wav2vec2.0 类似,但学习预测完整输入音频序列的潜在语音表示。
  • XLSR: 一种多语 SSL 预训练模型,可以学习跨语言的语音表示。

2.2 基于自监督学习 (SSL) 的 ASR 技术的优势

  • 自监督学习: SSL 技术可以训练出强大的语音表示,并且对领域不匹配具有鲁棒性。
  • 数据利用: SSL 模型可以有效地利用大量的未标记数据,这有助于解决数据稀缺问题。
  • 泛化能力: SSL 模型在处理未见过的或覆盖不足的词汇时具有更好的泛化能力。

3 ASR系统构建和组合

   本文将自监督学习 (SSL) 预训练的语音模型及其特征与传统的 ASR 系统进行组合和构建的方法,以应对失语症和老年语音识别的挑战。

3.1 ASR 系统组合

  • 帧级联合解码: 将使用不同特征训练的 TDNN 系统进行帧级联合解码,将每个系统的输出概率进行加权平均,以提高模型的鲁棒性。例如,可以将仅使用标准语音特征的 TDNN 系统与使用 SSL 特征的 TDNN 系统进行联合解码,利用两者在特征表示方面的互补性。
  • 跨系统多遍解码: 使用域内微调的 SSL 模型对 TDNN 或 Conformer 系统的 N-best 输出进行重新评分,进一步提高模型的准确率。例如,可以将 TDNN 系统的 N-best 输出使用域内微调的 HuBERT 模型进行重新评分,利用 HuBERT 模型在语言建模方面的优势。

3.2 ASR 系统构建

微调后的Wav2vec2.0/HuBERT模型及其特征整合到TDNN/Conformer ASR系统

3.2.1 TDNN 系统

  • 使用 TDNN 架构构建 ASR 系统,该架构由多个时间延迟层组成,可以有效地处理长时程依赖关系。
  • 使用 LHUC 技术进行说话者自适应,根据不同说话者的特征进行参数调整,以提高模型的泛化能力。
  • 使用标准语音特征(例如滤波器组)作为输入,并使用外部语言模型进行解码。

3.2.2 Conformer 系统

  • 使用 Conformer 架构构建 ASR 系统,该架构结合了卷积神经网络和 Transformer 模型,可以有效地提取语音特征并进行序列建模。
  • 使用标准语音特征(例如梅尔频率倒谱系数)作为输入,并使用外部语言模型进行解码。

3.2.3 多模态融合

  • 将 SSL 特征与 A2A 反转生成的语音运动特征进行融合,以构建多模态 ASR 系统。例如,可以使用 HuBERT 模型生成的语音表示作为 A2A 反转的输入,生成更通用的语音运动特征,并将其与标准语音特征进行融合。

4 实验

4.1 实验设置

4.1.1 数据集

  • UASpeech 数据集: 是一个公开可用的失语症语音数据集,包含 29 名说话者的 148,912 个句子,词汇量为 455 个。数据集被分为三个块,每个块包含一组常见的单词和一组不常见的单词。
  • TORGO 数据集: 是另一个公开可用的失语症语音数据集,包含 8 名失语症说话者和 7 名健康说话者的 13.5 小时语音数据。
  • DementiaBank Pitt 数据集: 是一个公开可用的老年语音数据集,包含 292 名老年参与者与临床调查员之间的 33 小时语音数据。数据集被分为训练集、开发集和评估集。
  • JCCOCC MoCA 数据集: 是一个公开可用的老年语音数据集,包含 256 名老年参与者与临床调查员之间的 32.4 小时语音数据。数据集被分为训练集、开发集和评估集。

4.1.2 基线模型

  • TDNN 系统: 使用 Kaldi 工具箱进行训练,包含 7 个上下文切片层,使用 40 维 Mel 频率倒谱系数作为输入,并使用外部语言模型进行解码。
  • Conformer 系统: 使用 ESPNet 工具箱进行训练,包含 12 个 Transformer 块,使用 40 维 Mel 频率倒谱系数作为输入,并使用外部语言模型进行解码。

4.1.3 SSL 模型微调

  • 单阶段微调: 仅使用域外正常语音数据或域内失语症或老年语音数据对 SSL 模型进行微调。
  • 双阶段微调: 首先使用域外正常语音数据对 SSL 模型进行微调,然后使用域内失语症或老年语音数据再次微调。
  • 多任务学习: 将 CTC 损失和注意力损失结合起来进行微调,以提高模型性能。

4.1.4  特征融合

  • 瓶颈模块: 将 SSL 模型的输出通过瓶颈模块进行压缩,以生成更紧凑的语音表示。
  • 特征融合: 将 SSL 特征与标准语音特征(例如滤波器组)进行融合,以利用两者的优势。

4.1.5 A2A 反转

使用基于 MDN 的 A2A 反转模型,将 SSL 特征转换为语音运动特征。

4.2 评估指标

4.2.1 词错误率 (Word Error Rate, WER)

  • WER 是衡量 ASR 系统识别准确率的指标。
  • WER 越低,说明 ASR 系统的识别准确率越高。

4.2.2 字符错误率 (Character Error Rate, CER)

  • CER 是衡量 ASR 系统识别准确率的另一个指标。
  • CER 越低,说明 ASR 系统的识别准确率越高。

4.2.3 隐蔽语言模型 (Masked Language Model, MLM)

  • MLM 是一种评估语言模型性能的指标。
  • MLM 越高,说明语言模型的预测能力越强。

4.2.4 下一句预测 (Next Sentence Prediction, NSP)

  • NSP 是一种评估语言模型理解能力的指标。
  • NSP 越高,说明语言模型对句子之间关系的理解能力越强。

4.2.5 AD 诊断准确率

  • 使用 BERT 或 Roberta 模型进行 AD 诊断,评估 ASR 系统对 AD 诊断的支持。
  •  准确率 (Accuracy)、灵敏度 (Sensitivity) 和特异性 (Specificity)。

4.3 实验结论

4.3.1 失语症语音识别

4.3.1.1 UASpeech 数据集

  • 基于域内微调的 HuBERT 模型,使用输入特征融合、帧级联合解码和多遍解码的方法,取得了 20.56% 的 WER,优于其他基线系统,包括单独微调的 HuBERT 模型和 Conformer 系统。
  • 将 HuBERT 特征与 A2A 反转生成的语音运动特征进行融合,进一步提高性能。

4.3.1.2 TORGO 数据集

  • 与 UASpeech 数据集的结果类似,域内微调的 HuBERT 模型结合了多种技术,取得了 18.07% 的 WER,优于其他基线系统。
  • 将 HuBERT 特征与 A2A 反转生成的语音运动特征进行融合,进一步提高性能。

4.3.2 老年语音识别

4.3.2.1 DementiaBank Pitt 数据集

  • 基于域内微调的 wav2vec2-conformer 模型,使用输入特征融合、帧级联合解码和多遍解码的方法,取得了 18.07% 的 WER,优于其他基线系统,包括单独微调的 wav2vec2-conformer 模型和 Conformer 系统。
  • 将 wav2vec2-conformer 特征与 A2A 反转生成的语音运动特征进行融合,进一步提高性能。

4.3.2.2 JCCOCC MoCA 数据集

  • 基于域内微调的 XLSR-128 模型,使用输入特征融合、帧级联合解码和多遍解码的方法,取得了 7.97% 的 CER,优于其他基线系统,包括单独微调的 XLSR-128 模型和 Conformer 系统。
  • 将 XLSR-128 特征与 A2A 反转生成的语音运动特征进行融合,进一步提高性能。

4.3.3  AD 诊断

  • 使用 ASR 系统输出的语音转录,提取文本特征,并使用 BERT 或 Roberta 模型进行 AD 诊断。
  • 基于 TDNN 系统的 ASR 模型,包括域内微调的 wav2vec2-conformer 或 XLSR-128 模型,取得了 83.94% 的 AD 诊断准确率,优于其他基线系统。

主要内容参考:Shujie.H et al., "Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1486098.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

android studio中svn的使用

第一步,建立一个项目。 第二步,share project。 第三步,选择存放的位置,然后添加提交信息,最后点击share。这样就可以在svn上面看到一个空的项目名称。 第四步,看到文件变成了绿色,点击commit图…

高翔【自动驾驶与机器人中的SLAM技术】学习笔记(三)基变换与坐标变换;微分方程;李群和李代数;雅可比矩阵

一、基变换与坐标变换 字小,事不小。 因为第一反应:坐标咋变,坐标轴就咋变呀。事实却与我们想象的相反。这俩互为逆矩阵。 第一次读没有读明白,后面到事上才明白。 起因是多传感器标定:多传感器,就代表了多个坐标系,多个基底。激光雷达和imu标定。这个标定程序,网上,…

Python机器学习入门:从理论到实践

文章目录 前言一、机器学习是什么?二、机器学习基本流程三、使用Python进行机器学习1.数据读取2.数据规范化3. 数据降维(主成分分析)4. 机器学习模型的选择5. 线性回归模型的实现6. 可视化结果 总结 前言 机器学习是人工智能的一个重要分支&…

pytorch 笔记:torch.optim.Adam

torch.optim.Adam 是一个实现 Adam 优化算法的类。Adam 是一个常用的梯度下降优化方法,特别适合处理大规模数据集和参数的深度学习模型 torch.optim.Adam(params, lr0.001, betas(0.9, 0.999), eps1e-08, weight_decay0, amsgradFalse, *, foreachNone, maximizeFa…

1小时上手Alibaba Sentinel流控安全组件

微服务的雪崩效应 假如我们开发了一套分布式应用系统,前端应用分别向A/H/I/P四个服务发起调用请求: 但随着时间推移,假如服务 I 因为优化问题,导致需要 20 秒才能返回响应,这就必然会导致20秒内该请求线程会一直处于阻…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第三十八章 驱动模块编译进内核

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

OpenAI从GPT-4V到GPT-4O,再到GPT-4OMini简介

OpenAI从GPT-4V到GPT-4O,再到GPT-4OMini简介 一、引言 在人工智能领域,OpenAI的GPT系列模型一直是自然语言处理的标杆。随着技术的不断进步,OpenAI推出了多个版本的GPT模型,包括视觉增强的GPT-4V(GPT-4 with Vision&…

Sokit(TCP/UDP调试工具)

下载:http://www.winwin7.com/soft/56522.html#xiazai Sokit中文版是一款免费开源的TCP / UDP 测试(调试)工具,它主要可以用于接收和发送TCP/UDP数据包,让你更深的了解网络状况,能够有效地接收、发送、转…

Adobe国际认证详解-从零开始学做视频剪辑

从零开始学做视频剪辑,是许多初学者面临的挑战。在这个数字媒体时代,视频剪辑已经成为一种重要的技能,无论是个人爱好还是职业发展,掌握视频剪辑技能都是非常有价值的。 视频剪辑,简称“剪辑”,是视频制作过…

创建vue3项目,以及使用示例

1.在根目录下cmd:vue create myobj(没有切换淘宝镜像记得切换,这样创建项目运行快) 2. 3.(按空格键选中,选好回撤就到下一步了) 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.然后输入执行以下两步就已经运行项目了 以…

SpringMVC实现文件上传

导入文件上传相关依赖 <!--文件上传--> <dependency><groupId>commons-fileupload</groupId><artifactId>commons-fileupload</artifactId><version>1.3.1</version> </dependency> <dependency><groupId>…

鱼眼摄像头-opencv校准(基于棋盘+畸变表)

一&#xff1a;主要参数说明 1&#xff1a;内参矩阵K 是3*3的矩阵&#xff0c;其类似格式 Knp.array([ [389.2109574522624, 0.0, 630.2525667489842], [0.0, 388.505701978078, 360.7886749292513], [0.0, 0.0, 1.0]]) 2&#xff1a;畸变系数 针对鱼眼相机&#xff1a;…

粘包问题、mmap和分片上传

一、粘包问题&#xff1a; 如果一端要把文件发给另一端&#xff0c;要发送两个部分的数据&#xff1a;其一是文件名&#xff0c;用于对端创建文件&#xff1b;另一个部分是文件内容。服务端在接收文件名&#xff0c;实际上并不知道有多长&#xff0c; 所以它会试图把网络缓冲区…

v-for 进行列表的 增删改查

通过对象下标替换属性值 但是通过实践此方法是错误的&#xff0c;Vue监听的是students这个对象&#xff0c;而不是这个对象里面的数组信息&#xff0c;也就是说&#xff0c;改变里面的值&#xff0c;并不能在页面上实现更新的功能 <!DOCTYPE html> <html lang"en…

Adobe国际认证详解-动漫制作专业就业方向和前景

动漫制作专业的就业方向和前景随着创意产业的蓬勃发展而愈发广阔。这一专业涵盖了从角色设计、场景绘制到动画制作、特效合成等多个环节&#xff0c;是创意与技术相结合的典型代表。随着数字媒体和互联网的普及&#xff0c;动漫制作专业人才的需求正不断增长&#xff0c;为该专…

c++ primer plus 第16章string 类和标准模板库, 16.3.3 对矢量可执行的其他操作

c primer plus 第16章string 类和标准模板库, 16.3.3 对矢量可执行的其他操作 c primer plus 第16章string 类和标准模板库, 16.3.3 对矢量可执行的其他操作 文章目录 c primer plus 第16章string 类和标准模板库, 16.3.3 对矢量可执行的其他操作16.3.3 对矢量可执行的其他操作…

计算机毕业设计python+neo4j知识图谱中医问答系统 中医中药方剂大数据可视化 vue.js 前后端分离 大数据毕业设计 机器学习 深度学习 人工智能

背景介绍 中医问答系统开题报告 一、项目背景与意义 随着科技的飞速发展和人们生活水平的提高&#xff0c;人们对健康管理的需求日益增强。中医作为中国传统医学的瑰宝&#xff0c;其独特的理论体系、诊疗方法和养生观念在现代社会依然发挥着不可替代的作用。然而&#xff0…

华为云技术精髓笔记(四)-CES基础入门实战

华为云技术精髓笔记(四) CES基础入门实战 一、监控ECS性能 1、 远程登录ECS 步骤一 双击实验桌面的“Xfce终端”打开Terminal&#xff0c;输入以下命令登录云服务器。注意&#xff1a;请使用云服务器的公网IP替换命令中的【EIP】。 LANGen_us.UTF-8 ssh rootEIP说明&#x…

机械学习—零基础学习日志(高数09——函数图形)

零基础为了学人工智能&#xff0c;真的开始复习高数 函数图像&#xff0c;开始新的学习&#xff01; 幂函数 利用函数的性质&#xff0c;以幂函数为例&#xff0c;因为单调性相同&#xff0c;利用图中的2和3公式&#xff0c;求最值问题&#xff0c;可以直接将式子进行简化。这…

东京裸机云多IP服务器全面分析

东京裸机云多IP服务器是一种提供多IP地址分配和高性能网络服务的云计算解决方案&#xff0c;广泛应用于需要多IP管理和高稳定性的网络应用。下面将从几个方面具体介绍东京裸机云多IP服务器&#xff0c;rak部落为您整理发布东京裸机云多IP服务器的全面分析。 在数字化时代&#…