AI大模型
开源语音克隆大模型
一、趣丸科技与港中大(深圳)联合的MaskGCT
- 特点与优势
- 采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果,在三个TTS基准数据集上都达到了SOTA效果,某些指标甚至超过人类水平。
- 秒级超逼真的声音克隆,仅需3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。
- 更精细可控的语音生成,可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
- 基于10万小时数据集Emilia(全球最大且最为多样的高质量多语种语音数据集之一)进行训练,精通中英日韩法德6种语言的跨语种合成。
- 是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。
- 应用场景示例
- 可以用于语音内容创作,创作者能够快速克隆出想要的音色用于音频作品,如制作有声读物等。
- 在多语言交流场景下,能够实现不同语种之间的语音转换,便于国际交流或者语言学习等。
二、阿里的CosyVoice
- 特点与优势
- 专注自然语音生成,支持多语言(中英日粤韩5种语言)、音色和情感控制,效果显著优于传统语音生成模型。
- 仅需要3 - 10s的原始音频,即可生成模拟音色,包括韵律、情感等细节,还支持跨语种语音生成。
- 以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,使生音频在情感表现力上得到明显提升。
- 提供了基模型CosyVoice - 300M、经过SFT微调后的模型CosyVoice - 300M - SFT、以及支持细粒度控制的模型CosyVoice - 300M - Instruct,满足不同场景需求。
- CosyVoice - 300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice - 300M - Instruct在情感分类中的得分更高,具备更强的情感控制能力。
- 很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。
- 应用场景示例
- 在语音助手场景中,可以根据用户需求生成不同情感和语调的语音回答,提升用户体验。
- 对于需要多语言语音转换的场景,如跨国客服等,能够方便地提供不同语种的语音服务。
三、基于SV2TTS的MockingBird
- 特点与优势
- 基于谷歌2017年发布的论文SV2TTS的技术原理,将克隆工作分成三个模块(Encoder、Synthesizer、Vocoder)进行语音合成。
- 安装相对简单,按照说明安装好Python环境(3.7及以上版本)、PyTorch框架、FFmpeg(简单训练时可能不需要)后,用pip安装依赖库即可。
- 在本地提供B/S使用环境,运行web.py 用浏览器访问本地8080端口即可操作,输入要合成的话术,可以当场录音或者上传已录好的声音(需wav格式),还可使用作者提供的训练好的模型。
- 应用场景示例
- 适合开发人员进行语音克隆技术的学习和初步试验。
- 对于有个性化语音克隆需求且愿意自行进行一定数据处理和模型训练的用户,可以通过收集目标人物语音进一步训练模型来满足需求。