深度伪造语音检测(Deepfake Speech Detection, DSD)全面概述

     近期,深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今,关键的通信媒介,如音频、图像、视频和文本,均能实现自动生成,并广泛应用于诸多领域,包括聊天机器人系统(如ChatGPT)、电影制作、代码编写及音频合成等。然而,若AI合成数据被用于不法目的,给社会安全带来极大隐患。

     为了解决这一问题,研究社区提出了检测由基于深度学习的方法生成的合成数据(例如,假数据)的任务,这些任务被称为深度伪造检测。本文专注于人类语音,提供了深度伪造语音检测(DSD)任务全面概述

1 DSD任务挑战赛

深度伪造语音检测(DSD)挑战赛

  • 2015年:首个针对英语语音的挑战(ASVspoof 2015-LA任务)。
  • 2020年:首个针对英语视频深度伪造检测的挑战(DFDC)。
  • 2021年:首个日语数据集、首个韩语数据集、首个中文挑战。
  • 2022年:首个针对歌唱的挑战(SVDD 2024,6种语言)、首个多语言数据集(MLAAD,23种语言)。
  • 2023年:首个针对多语言会话的挑战(MLAAD)、首个针对歌唱的数据集(SVDD)。
  • 2024年:发布了包括MLAAD用于会话语音和SVDD用于歌唱的多语言数据集。

1.1挑战赛的作用和重要性

  • 推动 DSD 技术发展: 挑战赛吸引了大量研究人员参与,促进了 DSD 技术的创新和发展。
  • 促进数据集和技术的共享: 挑战赛通常伴随着新的数据集发布,并鼓励研究人员分享他们的技术和方法。
  • 建立基准: 挑战赛为 DSD 技术提供了客观的评估标准,帮助研究人员比较不同方法的效果。
  • 促进合作: 挑战赛为来自不同机构的研究人员提供了一个合作平台,促进了知识交流和合作研究。

1.2 挑战赛的统计数据和分析

  • 语言多样性: 目前,大多数挑战赛专注于检测英语语音中的深度伪造,缺乏对多语言的支持。
  • 数据类型: 挑战赛主要针对语音数据,但也有一些挑战赛开始探索视频深度伪造检测。
  • 参与度和影响力: 随着深度学习技术的进步,参与 DSD 挑战赛的研究团队数量和规模在近年来显著增加,表明该领域越来越受到重视。

1.3 挑战赛存在的不足

  • 语言多样性不足: 现有的挑战赛主要集中在英语语音,缺乏对其他语言的探索,限制了模型的泛化能力。
  • 数据集不平衡: 一些挑战赛的数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些挑战赛没有发布数据集,这限制了其他研究人员的研究和比较。
  • 技术局限性: 一些挑战赛的技术要求可能过于严格,限制了模型的实时性和可扩展性。

2 数据集

数据集

年份

语言

说话者(男性/女性)

话语数量(假/真)

假语音生成系统的数量

真实语音资源

话语长度(秒)

评估指标

ASVspoof 2015 (音频)

2015

英语

45/61

16,651/246,500

10

清洁的说话者志愿者

1至2

EER

FoR (音频)

2019

英语

140

-/195,541

7

清洁的Kaggle

2.35

Acc

ASVspoof 2019 (LA任务) (音频)

2019

英语

46/61

12,483/108,978

19

清洁的说话者志愿者

未提供

EER

DFDC (视频)

2020

英语

3,426

128,154/104,500

1

清洁的 & 嘈杂的说话者志愿者

68.8

Pre., Rec.

ASVspoof 2021 (LA任务) (音频)

2021

英语

21/27

18,452/163,114

13

清洁的 & 嘈杂的说话者志愿者

未提供

EER

ASVspoof 2021 (DF任务)(音频)

2021

英语

21/27

22,617/589,212

100+

清洁的 & 嘈杂的说话者志愿者

未提供

EER

WaveFake (音频)

2021

英语、日语

0/2

-/117,985

6

清洁的LJSPEECH , JSUT

6/4.8

EER

KoDF (视频)

2021

韩语

198/205

62,116/175,776

2

清洁的说话者志愿者

90/15(真/假)

Acc, AuC

ADD 2022

2022

中文

40/40

3,012/24,072

2

清洁的AISHELL-3

1至10

EER

FakeAVCeleb (视频)

2022

英语

250/250

570/25,000

2

清洁的 & 嘈杂的Vox-Celeb2

7

AuC

In-the-Wild (视频)

2022

英语

58

19,963/11,816

0

清洁的 & 嘈杂的自收集

4.3

EER

LAV-DF (视频)

2022

英语

153

36,431/99,873

1

清洁的 & 嘈杂的Vox-Celeb2

3至20

AP

Voc.v (音频)

2023

英语

46/61

14,250/41,280

5

清洁的 & 嘈杂的ASVspoof 2019

未提供

EER

PartialSpoof(音频)

2023

英语

46/61

12,483/108,978

19

清洁的 & 嘈杂的ASVspoof 2019

0.2至6.4

EER

LibriSeVoc (音频)

2023

英语

未提供

13,201/79,206

6

清洁的 & 嘈杂的Librispeech

5至34

EER

AV-Deepfake1M [25], (视频)

2023

英语

2,068

286,721/860,039

2

清洁的 & 嘈杂的Voxceleb2

5至35

Acc, AuC

CFAD (音频)

2024

中文

1,023

-/374,000

11

清洁的 & 嘈杂的AISHELL1-3 [44], [45] & Codecs MAGICDATA

未提供

EER

MLAAD (音频)

2024

多语言(23种语言)

未提供

-/76,000

54

清洁的 & 嘈杂的M-AILABS

未提供

Acc

ASVspoof 2024 (音频)

2024

英语

未提供

188,819/815,262

28

清洁的 & 嘈杂的MLS

未提供

EER

SVDD2024 (音频)

2024

多语言(6种语言)

59

12,169/72,235

48

清洁的普通话,日语

未提供

EER

2.1 数据集的作用和重要性

  • 评估模型性能: 数据集用于评估 DSD 模型的性能,包括准确率、召回率、F1 分数和错误接受率 (EER) 等。
  • 比较不同方法: 数据集允许研究人员比较不同 DSD 方法的性能,并选择最佳方法。
  • 促进技术共享: 数据集的发布促进了 DSD 技术的共享和发展。
  • 推动研究进展: 数据集的发布推动了 DSD 研究的进展,并为新的研究方向提供了灵感。

2.2 数据集的统计数据和分析

  • 语言多样性: 目前,大多数数据集主要支持英语,缺乏对其他语言的覆盖。例如,MLAAD 数据集提供了 23 种语言的对话式语音数据,而 SVDD 数据集则专注于六种语言的歌唱语音数据。
  • 数据类型: 大多数数据集包含干净和噪声语音,但也有一些数据集专注于特定类型的语音,例如电话通话、视频会议或公共演讲。
  • 生成方法: 数据集通常使用不同的深度伪造语音生成系统生成假语音,例如文本到语音 (TTS)、语音转换 (VC) 和对抗攻击 (AT)。
  • 数据规模: 数据集的大小不一,一些数据集包含数万个样本,而另一些数据集则包含数百万个样本。
  • 数据来源: 数据集可以使用志愿者语音或现有语音数据集构建。志愿者语音可以提供更好的控制,但需要时间和成本,并且可能无法扩展。现有语音数据集则更容易获取,但可能存在偏差。

2.3 数据集存在的不足

  • 语言多样性不足: 大多数数据集缺乏对其他语言的覆盖,限制了模型的泛化能力。
  • 数据不平衡: 一些数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些数据集没有公开发布,限制了其他研究人员的研究和比较。
  • 数据质量: 一些数据集可能存在数据质量的问题,例如噪声、回声或其他干扰。
  • 伦理和法律问题: 使用志愿者语音数据集需要考虑伦理和法律问题,例如隐私保护和知情同意。

3 深度伪造语音检测(DSD)系统架构

  • 离线数据增强:在训练过程之前,对原始音频话语进行压缩和解压缩算法处理,以生成数据的变体,从而增加数据集的大小并提高模型的鲁棒性和泛化能力。
  • 特征提取:将原始音频话语转换为时频特征,如梅尔频谱图(Mel-spectrogram)、线性频谱图(Linear spectrogram)或其他类型的频谱图。这些特征图代表了音频信号的时频特性。
  • 分类模型:使用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、或它们的组合(CRNN),来分析特征图并学习区分真实和伪造语音的能力。
  • 损失函数和训练策略:定义损失函数来评估模型预测与真实标签之间的差异,并使用这些信息来更新和优化模型的权重。训练策略包括如何选择训练数据、如何配置模型的学习率和优化器等。

3.1 离线数据增强

增加训练数据集的大小,以提高模型的鲁棒性和泛化能力。

3.1.1 方法

  • 压缩: 使用音频编解码器 (codec) 对原始语音信号进行压缩和解压缩,例如 MP3、AAC 和 WAV。
  • 扭曲: 通过添加噪声、回声或改变语音的音调、音量和节奏等来修改原始语音信号。

3.1.2 挑战

需要评估不同数据增强方法的效果,并选择最合适的组合。

3.2 特征提取

将原始语音信号转换为可用于分类的特征表示。

3.2.1 方法

3.2.1.1 非参数方法

  • 时频特征: 使用短时傅里叶变换 (STFT)、梅尔频率倒谱系数 (MFCC) 和线性频率倒谱系数 (LFCC) 等方法将原始语音信号转换为时频特征。
  • 基于听觉滤波器的特征: 使用梅尔滤波器、线性滤波器和伽马滤波器等听觉滤波器来提取与人类听觉感知相关的特征。
  • 基于统计的特征: 使用语音声学统计方法,例如梅尔倒谱系数 (PLP) 和线性预测系数 (LPC) 来提取语音信号的统计特征。
  • 基于预训练模型的特征: 使用预训练的语音表示模型,例如 XLSR、Hubert 和 WavLM,来提取语音嵌入特征。

3.2.1.2 可训练参数方法

使用可训练的神经网络层,例如 SincNet 和 LEAF 层,来直接从原始语音信号中学习特征。

3.2.2 挑战

需要评估不同特征提取方法的效果,并选择最合适的特征组合。

3.3 分类模型

根据提取的特征对语音信号进行分类,判断其是否为深度伪造语音。

3.3.1 方法

3.3.1.1 机器学习模型

使用机器学习算法,例如支持向量机 (SVM) 和 K 近邻 (KNN) 来进行分类。

3.3.1.2 深度学习模型

  • 卷积神经网络 (CNN): 使用 CNN 来提取语音信号的局部特征,例如 ResNet 和 LCNN。
  • 循环神经网络 (RNN): 使用 RNN 来提取语音信号的时序特征,例如 LSTM 和 TDNN。
  • 混合网络架构: 结合 CNN 和 RNN 的优点,例如 CRNN。
  • 编码器-解码器网络架构: 使用编码器-解码器网络架构,例如 Transformer,来提取语音信号的深层次特征。
  • 集成模型: 结合多个模型或特征来提高模型的鲁棒性和泛化能力。

3.3.2 挑战

需要评估不同分类模型的效果,并选择最合适的模型。

3.4 损失函数和训练策略

指导模型的训练过程,使其能够更好地学习真实语音和伪造语音之间的差异。

3.4.1 方法

  • 损失函数: 选择合适的损失函数,例如交叉熵损失 (CE) 和 Softmax 损失,来衡量预测结果和真实标签之间的差异。
  • 训练策略: 使用不同的训练策略,例如数据增强、迁移学习和微调,来提高模型的性能和泛化能力。

3.4.2 挑战

需要评估不同损失函数和训练策略的效果,并选择最合适的组合。

4 新DSD集成系统

4.1 目标

  • 评估离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)的效果。
  • 评估不同输入特征和网络架构的优劣。
  • 评估模型在真实世界场景中的鲁棒性和泛化能力。
  • 提出一个具有竞争力的 DSD 集成系统。

4.2 数据集和评估指标

  • 使用 ASVspoof 2019 (LA Task) 数据集进行评估。
  • 主要评估指标为 Equal Error Rate (ERR)。
  • 补充指标包括 Accuracy、F1 score 和 AUC score。

4.3 系统设计

4.3.1 数据增强

  • 离线数据增强:使用 MP3、OPUS、OGG、GSM、G722 和 M4A 六种编解码器进行压缩和解压缩。
  • 在线数据增强:使用 Mixup 和 SpecAugment 对 Mel spectrogram 进行处理。

4.3.2 输入特征

  • 原始音频
  • 六种不同的 spectrogram:STFT、CQT、WT、Mel、LF、Gammatone

4.3.3 分类模型

  • 端到端深度学习模型:CNN、SinC-CNN、RNN、C-RNN
  • 传输学习模型:ResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、ShuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASnet、RegNet
  • 音频嵌入深度学习模型:Whisper、Seamless、Speechbrain、Pyanote + MLP

4.3.4 集成方法

使用 MEAN 模型融合技术将多个模型的结果进行融合。

4.4 实验结果

4.4.1 数据增强

  • 离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)都有效。
  • 组合两种数据增强方法没有提升性能。

4.4.2 输入特征

STFT 和 Linear Filter (LF) 组合在 CNN 模型中表现最佳。

4.4.3 深度学习方法

  • CNN 模型优于 RNN 或 C-RNN 模型。
  • Finetuning 的 Convnext-Tiny 模型表现最佳。
  • 音频嵌入模型(Whisper + MLP)表现优于 Finetuning 模型。

4.4.4 集成模型

  • CQT、STFT & LF、STFT & GAM 的组合表现最佳。
  • CNN + ConvNeXt-Tiny 组合表现最佳。
  • Whisper + MLP + ConvNeXt-Tiny 组合表现最佳。

不同的输入特征和网络架构对 DSD 任务有显著影响。

集成模型可以显著提升 DSD 任务性能。

音频嵌入模型和 Finetuning 模型在 DSD 任务中具有潜力。

需要进一步探索轻量级模型和实时 DSD 系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548112.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

漏洞挖掘 | 发现隐藏子域的虚拟主机

高效虚拟主机发现的工具和技术 在进行外部渗透测试或漏洞赏金狩猎时,我们从各个角度探索目标系统,收集尽可能多的信息来识别潜在的攻击向量。这涉及识别所有可用的资产、域和子域。 在这个过程中,我们关注的事情之一就是枚举虚拟主机。通过…

阿里云服务器挖矿木马清除

这里写自定义目录标题 阿里云服务器挖矿木马清除清除步骤: 阿里云服务器挖矿木马清除 直接看图: 清除步骤: 是的,根据您提供的 systemctl 输出,c3pool_miner.service 看起来非常可疑,因为它的描述是 “…

VLM系列文章7-Molmo and PixMo

近期涌入了大量的MLLM模型,包括Llama-3.2-11B-Vision-Instruct、Qwen2-VL、mPLUG-Owl3、Ovis1.6-Gemma2-9B、InternVL2、MiniCPM-V 2.6 等工作。笔者看来,多模态模型可能不仅仅在刷榜上,可能更多的需要解决实际任务。因此,更能衡量…

倾斜传感器倾斜仪的工作原理

倾斜仪是一种用来测量物体倾斜角度的仪器,广泛应用于工程、建筑、地质等领域。以下是关于倾斜仪工作原理的文章: 倾斜仪工作原理详解 倾斜仪是一种高精度的测量仪器,用于检测和记录物体或结构的倾斜角度。它在许多领域,如建筑工程…

SpringBoot养老院管理系统—计算机毕业设计源码36270

摘 要 随着我国老年人口数量的逐年增加,人口抚养比也在迅速攀升,越来越多的老年人将走出家门进入养老院安度自己的晚年。同时国家和地方也相继出台了加快发展老龄事业的政策方针,作为机构养老主要组成部分的养老院将迅猛发展。在养老院规模扩…

这样做快速除甲醛入住新家 科学分解甲醛的产品哪个好

这样做快速除甲醛入住新家 科学分解甲醛的产品哪个好 在新房装修的喜悦之余,业主们不得不面对一个常见却又棘手的问题——甲醛污染。甲醛,这种无形的敌人,以其难以察觉的存在,对家人和孩子的健康造成潜在威胁。很多业主们在装修期…

OJ在线评测系统 原生Java代码沙箱程序漏洞讲解 原生超时资源权限控制

核心流程实现四 原生实现Java程序漏洞讲解 我们的程序并不安全 到目前为止 核心流程已经实现 但是想要上线 安全么 首先如果用户提交恶意代码怎么办 执行阻塞 占用资源不释放 程序卡死 注意类名要改为Main 包名一定要去掉 如果这种代码放到服务器中 会无限占用时间 pac…

在GPU计算型实例中安装Tesla驱动超详细过程

摘要:在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下,安装了Tesla驱动的GPU才可以发挥高性能计算能力,或提供更流畅的图形显示效果。如果您在创建GPU计算型实例(Linux)时未同时安装Te…

[深度学习]循环神经网络

1 自然语言处理概述 语料:一个样本,句子/文章语料库:由语料组成词表:分词之后的词语去重保存成为词表 2 词嵌入层 import jieba import torch.nn as nn import torch # 文本数据 text北京东奥的进度条已经过半,不少外…

错误解决 ---- Unexpected lexical declaration in case block no-case-declarations

1. 报错提示 154:15 error Unexpected lexical declaration in case block no-case-declarations154:21 error resId is assigned a value but never used no-unused-vars158:15 error Unexpected lexical declaration in case block no-case-declarations158:21 e…

Java 使用 Graham 扫描的凸包(Convex Hull using Graham Scan)

先决条件: 如何检查两个给定的线段是否相交? c https://blog.csdn.net/hefeng_aspnet/article/details/141713655 java https://blog.csdn.net/hefeng_aspnet/article/details/141713762 python https://blog.csdn.net/hefeng_aspnet/article/details/…

C语言进阶【6】---结构体【1】(结构体的本质你不想了解吗?)

本章概述 结构体类型的声明结构体变量的创建和初始化结构体成员访问操作符彩蛋时刻!!! 结构体类型的声明 咱们在讲操作符那个章节中,对于结构体类型的声明进行了讲解,咱们先来回忆一下,为后面的讲解作准备…

mac怎么设置ip地址映射

最近开发的项目分为了两种版本,一个自己用的,一个是卖出去的。 卖出的域名是和自己的不一样的,系统中有一些功能是只有卖出去的版本有的,但我们开发完之后还得测试,那就需要给自己的电脑配置一个IP地址映射了&#xf…

【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版

文章目录 一、算法概念二、算法原理(一)感知机(二)多层感知机1、隐藏层2、激活函数sigma函数tanh函数ReLU函数 3、反向传播算法 三、算法优缺点(一)优点(二)缺点 四、MLP分类任务实现…

JAVA毕业设计183—基于Java+Springboot+vue的旅游小程序系统(源代码+数据库)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue的旅游小程序系统(源代码数据库)183 一、系统介绍 本项目前后端不分离,分为用户、管理员两种角色 1、用户: 注册、登录、公告信息(…

解读: 火山引擎自研vSwitch技术

最近看到一篇文章介绍火山云的网络vSwitch技术,虽然是2022年的比较老的介绍,但是对于我们看到vSwitch技术的发展还是有些参考的。下面就截取了当时火山vSwitch关心的几个问题,做了一下梳理。 背景 在云计算发展过程中,虚拟网络的…

虚拟环境默认安装到C盘的修改办法

问题: 创建的虚拟环境默认安装到了C盘。 将路径改成D盘下。 解决办法: 我是按照博客w11下载anaconda在d盘,新建的虚拟环境总是在c盘怎么解决_如何保证anaconda的全在e盘-CSDN博客 中的方法1解决的。 用记事本打开.condarc文档&#xff0…

C++之STL—函数对象谓词

函数对象(仿函数) 函数对象(仿函数)是一个**类**,不是一个函数 类名() 仿函数 直接调用: 、 谓词 定义:返回类型为bool 类型的仿函数 一元谓词:operator()接受一个参数 二元谓词&a…

JavaScript高级——事件循环模型

1、 2、所有代码分类 ① 初始化执行代码(同步代码):包含绑定 dom 事件监听,设置定时器,发送 ajax 请求的代码 ② 回调执行代码(异步代码):处理回调逻辑 3、js 引擎执行代码的基本流…

ubuntu系统下mamba-yolo模型的深度学习环境搭建

本文将介绍如何在ubuntu系统下配置目标检测模型mamba-yolo的深度学习环境 1. 环境要求 Python > 3.9 (本文使用python-3.11) CUDA > 11.6 (本文使用CUDA-11.8) Pytorch > 1.12.1 (本文使用torch-2.4.0&…