深度伪造语音检测（Deepfake Speech Detection, DSD）全面概述

近期，深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今，关键的通信媒介，如音频、图像、视频和文本，均能实现自动生成，并广泛应用于诸多领域，包括聊天机器人系统（如ChatGPT）、电影制作、代码编写及音频合成等。然而，若AI合成数据被用于不法目的，给社会安全带来极大隐患。

为了解决这一问题，研究社区提出了检测由基于深度学习的方法生成的合成数据（例如，假数据）的任务，这些任务被称为深度伪造检测。本文专注于人类语音，提供了深度伪造语音检测（DSD）任务全面概述。

1 DSD任务挑战赛

深度伪造语音检测（DSD）挑战赛

2015年：首个针对英语语音的挑战（ASVspoof 2015-LA任务）。
2020年：首个针对英语视频深度伪造检测的挑战（DFDC）。
2021年：首个日语数据集、首个韩语数据集、首个中文挑战。
2022年：首个针对歌唱的挑战（SVDD 2024，6种语言）、首个多语言数据集（MLAAD，23种语言）。
2023年：首个针对多语言会话的挑战（MLAAD）、首个针对歌唱的数据集（SVDD）。
2024年：发布了包括MLAAD用于会话语音和SVDD用于歌唱的多语言数据集。

1.1挑战赛的作用和重要性

推动 DSD 技术发展：挑战赛吸引了大量研究人员参与，促进了 DSD 技术的创新和发展。
促进数据集和技术的共享：挑战赛通常伴随着新的数据集发布，并鼓励研究人员分享他们的技术和方法。
建立基准：挑战赛为 DSD 技术提供了客观的评估标准，帮助研究人员比较不同方法的效果。
促进合作：挑战赛为来自不同机构的研究人员提供了一个合作平台，促进了知识交流和合作研究。

1.2 挑战赛的统计数据和分析

语言多样性：目前，大多数挑战赛专注于检测英语语音中的深度伪造，缺乏对多语言的支持。
数据类型：挑战赛主要针对语音数据，但也有一些挑战赛开始探索视频深度伪造检测。
参与度和影响力：随着深度学习技术的进步，参与 DSD 挑战赛的研究团队数量和规模在近年来显著增加，表明该领域越来越受到重视。

1.3 挑战赛存在的不足

语言多样性不足：现有的挑战赛主要集中在英语语音，缺乏对其他语言的探索，限制了模型的泛化能力。
数据集不平衡：一些挑战赛的数据集可能存在类别不平衡的问题，这会影响模型的泛化能力和鲁棒性。
数据集可用性：一些挑战赛没有发布数据集，这限制了其他研究人员的研究和比较。
技术局限性：一些挑战赛的技术要求可能过于严格，限制了模型的实时性和可扩展性。

2 数据集

数据集	年份	语言	说话者（男性/女性）	话语数量（假/真）	假语音生成系统的数量	真实语音资源	话语长度（秒）	评估指标
ASVspoof 2015 （音频）	2015	英语	45/61	16,651/246,500	10	清洁的说话者志愿者	1至2	EER
FoR （音频）	2019	英语	140	-/195,541	7	清洁的Kaggle	2.35	Acc
ASVspoof 2019 (LA任务) （音频）	2019	英语	46/61	12,483/108,978	19	清洁的说话者志愿者	未提供	EER
DFDC （视频）	2020	英语	3,426	128,154/104,500	1	清洁的 & 嘈杂的说话者志愿者	68.8	Pre., Rec.
ASVspoof 2021 (LA任务) （音频）	2021	英语	21/27	18,452/163,114	13	清洁的 & 嘈杂的说话者志愿者	未提供	EER
ASVspoof 2021 (DF任务)（音频）	2021	英语	21/27	22,617/589,212	100+	清洁的 & 嘈杂的说话者志愿者	未提供	EER
WaveFake （音频）	2021	英语、日语	0/2	-/117,985	6	清洁的LJSPEECH , JSUT	6/4.8	EER
KoDF （视频）	2021	韩语	198/205	62,116/175,776	2	清洁的说话者志愿者	90/15（真/假）	Acc, AuC
ADD 2022	2022	中文	40/40	3,012/24,072	2	清洁的AISHELL-3	1至10	EER
FakeAVCeleb （视频）	2022	英语	250/250	570/25,000	2	清洁的 & 嘈杂的Vox-Celeb2	7	AuC
In-the-Wild （视频）	2022	英语	58	19,963/11,816	0	清洁的 & 嘈杂的自收集	4.3	EER
LAV-DF （视频）	2022	英语	153	36,431/99,873	1	清洁的 & 嘈杂的Vox-Celeb2	3至20	AP
Voc.v （音频）	2023	英语	46/61	14,250/41,280	5	清洁的 & 嘈杂的ASVspoof 2019	未提供	EER
PartialSpoof（音频）	2023	英语	46/61	12,483/108,978	19	清洁的 & 嘈杂的ASVspoof 2019	0.2至6.4	EER
LibriSeVoc （音频）	2023	英语	未提供	13,201/79,206	6	清洁的 & 嘈杂的Librispeech	5至34	EER
AV-Deepfake1M [25], （视频）	2023	英语	2,068	286,721/860,039	2	清洁的 & 嘈杂的Voxceleb2	5至35	Acc, AuC
CFAD （音频）	2024	中文	1,023	-/374,000	11	清洁的 & 嘈杂的AISHELL1-3 [44], [45] & Codecs MAGICDATA	未提供	EER
MLAAD （音频）	2024	多语言（23种语言）	未提供	-/76,000	54	清洁的 & 嘈杂的M-AILABS	未提供	Acc
ASVspoof 2024 （音频）	2024	英语	未提供	188,819/815,262	28	清洁的 & 嘈杂的MLS	未提供	EER
SVDD2024 （音频）	2024	多语言（6种语言）	59	12,169/72,235	48	清洁的普通话，日语	未提供	EER

2.1 数据集的作用和重要性

评估模型性能：数据集用于评估 DSD 模型的性能，包括准确率、召回率、F1 分数和错误接受率 (EER) 等。
比较不同方法：数据集允许研究人员比较不同 DSD 方法的性能，并选择最佳方法。
促进技术共享：数据集的发布促进了 DSD 技术的共享和发展。
推动研究进展：数据集的发布推动了 DSD 研究的进展，并为新的研究方向提供了灵感。

2.2 数据集的统计数据和分析

语言多样性：目前，大多数数据集主要支持英语，缺乏对其他语言的覆盖。例如，MLAAD 数据集提供了 23 种语言的对话式语音数据，而 SVDD 数据集则专注于六种语言的歌唱语音数据。
数据类型：大多数数据集包含干净和噪声语音，但也有一些数据集专注于特定类型的语音，例如电话通话、视频会议或公共演讲。
生成方法：数据集通常使用不同的深度伪造语音生成系统生成假语音，例如文本到语音 (TTS)、语音转换 (VC) 和对抗攻击 (AT)。
数据规模：数据集的大小不一，一些数据集包含数万个样本，而另一些数据集则包含数百万个样本。
数据来源：数据集可以使用志愿者语音或现有语音数据集构建。志愿者语音可以提供更好的控制，但需要时间和成本，并且可能无法扩展。现有语音数据集则更容易获取，但可能存在偏差。

2.3 数据集存在的不足

语言多样性不足：大多数数据集缺乏对其他语言的覆盖，限制了模型的泛化能力。
数据不平衡：一些数据集可能存在类别不平衡的问题，这会影响模型的泛化能力和鲁棒性。
数据集可用性：一些数据集没有公开发布，限制了其他研究人员的研究和比较。
数据质量：一些数据集可能存在数据质量的问题，例如噪声、回声或其他干扰。
伦理和法律问题：使用志愿者语音数据集需要考虑伦理和法律问题，例如隐私保护和知情同意。

3 深度伪造语音检测（DSD）系统架构

离线数据增强：在训练过程之前，对原始音频话语进行压缩和解压缩算法处理，以生成数据的变体，从而增加数据集的大小并提高模型的鲁棒性和泛化能力。
特征提取：将原始音频话语转换为时频特征，如梅尔频谱图（Mel-spectrogram）、线性频谱图（Linear spectrogram）或其他类型的频谱图。这些特征图代表了音频信号的时频特性。
分类模型：使用深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）、或它们的组合（CRNN），来分析特征图并学习区分真实和伪造语音的能力。
损失函数和训练策略：定义损失函数来评估模型预测与真实标签之间的差异，并使用这些信息来更新和优化模型的权重。训练策略包括如何选择训练数据、如何配置模型的学习率和优化器等。

3.1 离线数据增强

增加训练数据集的大小，以提高模型的鲁棒性和泛化能力。

3.1.1 方法

压缩：使用音频编解码器 (codec) 对原始语音信号进行压缩和解压缩，例如 MP3、AAC 和 WAV。
扭曲：通过添加噪声、回声或改变语音的音调、音量和节奏等来修改原始语音信号。

3.1.2 挑战

需要评估不同数据增强方法的效果，并选择最合适的组合。

3.2 特征提取

将原始语音信号转换为可用于分类的特征表示。

3.2.1 方法

3.2.1.1 非参数方法

时频特征：使用短时傅里叶变换 (STFT)、梅尔频率倒谱系数 (MFCC) 和线性频率倒谱系数 (LFCC) 等方法将原始语音信号转换为时频特征。
基于听觉滤波器的特征：使用梅尔滤波器、线性滤波器和伽马滤波器等听觉滤波器来提取与人类听觉感知相关的特征。
基于统计的特征：使用语音声学统计方法，例如梅尔倒谱系数 (PLP) 和线性预测系数 (LPC) 来提取语音信号的统计特征。
基于预训练模型的特征：使用预训练的语音表示模型，例如 XLSR、Hubert 和 WavLM，来提取语音嵌入特征。

3.2.1.2 可训练参数方法

使用可训练的神经网络层，例如 SincNet 和 LEAF 层，来直接从原始语音信号中学习特征。

3.2.2 挑战

需要评估不同特征提取方法的效果，并选择最合适的特征组合。

3.3 分类模型

根据提取的特征对语音信号进行分类，判断其是否为深度伪造语音。

3.3.1 方法

3.3.1.1 机器学习模型

使用机器学习算法，例如支持向量机 (SVM) 和 K 近邻 (KNN) 来进行分类。

3.3.1.2 深度学习模型

卷积神经网络 (CNN)：使用 CNN 来提取语音信号的局部特征，例如 ResNet 和 LCNN。
循环神经网络 (RNN)：使用 RNN 来提取语音信号的时序特征，例如 LSTM 和 TDNN。
混合网络架构：结合 CNN 和 RNN 的优点，例如 CRNN。
编码器-解码器网络架构：使用编码器-解码器网络架构，例如 Transformer，来提取语音信号的深层次特征。
集成模型：结合多个模型或特征来提高模型的鲁棒性和泛化能力。

3.3.2 挑战

需要评估不同分类模型的效果，并选择最合适的模型。

3.4 损失函数和训练策略

指导模型的训练过程，使其能够更好地学习真实语音和伪造语音之间的差异。

3.4.1 方法

损失函数：选择合适的损失函数，例如交叉熵损失 (CE) 和 Softmax 损失，来衡量预测结果和真实标签之间的差异。
训练策略：使用不同的训练策略，例如数据增强、迁移学习和微调，来提高模型的性能和泛化能力。

3.4.2 挑战

需要评估不同损失函数和训练策略的效果，并选择最合适的组合。

4 新DSD集成系统

4.1 目标

评估离线数据增强（编解码器）和在线数据增强（Mixup 和 SpecAugment）的效果。
评估不同输入特征和网络架构的优劣。
评估模型在真实世界场景中的鲁棒性和泛化能力。
提出一个具有竞争力的 DSD 集成系统。

4.2 数据集和评估指标

使用 ASVspoof 2019 (LA Task) 数据集进行评估。
主要评估指标为 Equal Error Rate (ERR)。
补充指标包括 Accuracy、F1 score 和 AUC score。

4.3 系统设计

4.3.1 数据增强

离线数据增强：使用 MP3、OPUS、OGG、GSM、G722 和 M4A 六种编解码器进行压缩和解压缩。
在线数据增强：使用 Mixup 和 SpecAugment 对 Mel spectrogram 进行处理。

4.3.2 输入特征

原始音频
六种不同的 spectrogram：STFT、CQT、WT、Mel、LF、Gammatone

4.3.3 分类模型

端到端深度学习模型：CNN、SinC-CNN、RNN、C-RNN
传输学习模型：ResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、ShuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASnet、RegNet
音频嵌入深度学习模型：Whisper、Seamless、Speechbrain、Pyanote + MLP

4.3.4 集成方法

使用 MEAN 模型融合技术将多个模型的结果进行融合。