开源语音克隆大模型

AI大模型

开源语音克隆大模型

一、趣丸科技与港中大(深圳)联合的MaskGCT

  • 特点与优势
    • 采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果,在三个TTS基准数据集上都达到了SOTA效果,某些指标甚至超过人类水平。
    • 秒级超逼真的声音克隆,仅需3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。
    • 更精细可控的语音生成,可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
    • 基于10万小时数据集Emilia(全球最大且最为多样的高质量多语种语音数据集之一)进行训练,精通中英日韩法德6种语言的跨语种合成。
    • 是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。
  • 应用场景示例
    • 可以用于语音内容创作,创作者能够快速克隆出想要的音色用于音频作品,如制作有声读物等。
    • 在多语言交流场景下,能够实现不同语种之间的语音转换,便于国际交流或者语言学习等。

二、阿里的CosyVoice

  • 特点与优势
    • 专注自然语音生成,支持多语言(中英日粤韩5种语言)、音色和情感控制,效果显著优于传统语音生成模型。
    • 仅需要3 - 10s的原始音频,即可生成模拟音色,包括韵律、情感等细节,还支持跨语种语音生成。
    • 以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,使生音频在情感表现力上得到明显提升。
    • 提供了基模型CosyVoice - 300M、经过SFT微调后的模型CosyVoice - 300M - SFT、以及支持细粒度控制的模型CosyVoice - 300M - Instruct,满足不同场景需求。
    • CosyVoice - 300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice - 300M - Instruct在情感分类中的得分更高,具备更强的情感控制能力。
    • 很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。
  • 应用场景示例
    • 在语音助手场景中,可以根据用户需求生成不同情感和语调的语音回答,提升用户体验。
    • 对于需要多语言语音转换的场景,如跨国客服等,能够方便地提供不同语种的语音服务。

三、基于SV2TTS的MockingBird

  • 特点与优势
    • 基于谷歌2017年发布的论文SV2TTS的技术原理,将克隆工作分成三个模块(Encoder、Synthesizer、Vocoder)进行语音合成。
    • 安装相对简单,按照说明安装好Python环境(3.7及以上版本)、PyTorch框架、FFmpeg(简单训练时可能不需要)后,用pip安装依赖库即可。
    • 在本地提供B/S使用环境,运行web.py 用浏览器访问本地8080端口即可操作,输入要合成的话术,可以当场录音或者上传已录好的声音(需wav格式),还可使用作者提供的训练好的模型。
  • 应用场景示例
    • 适合开发人员进行语音克隆技术的学习和初步试验。
    • 对于有个性化语音克隆需求且愿意自行进行一定数据处理和模型训练的用户,可以通过收集目标人物语音进一步训练模型来满足需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35728.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Unity高级】如何动态调整物体透明度

本文介绍了如何设置及动态调整物体的透明度。 一、手动设置的方法 我们先来看下如何手动设置物体的透明度。 物体的透明与否是通过材质来设置的。只有我们把具有透明度的材质指给物体的渲染器(Render),物体就被设置成相应的透明度了。 看一…

相机动态/在线标定

图1 图2 基本原理 【原理1】平行线在射影变换后会交于一点。如图所示,A为相机光心,蓝色矩形框为归一化平面,O为平面中心。地面四条黄色直线为平行且等距的车道线。HI交其中两条车道线于H、I, 过G作HI的平行线GM交车道线于M。HI、GM在归一化平面上的投影分别为JK、PN,二者会…

通俗易懂理解:网络安全恶意节点的检测与哨兵节点的激活【论文+代码】

以下资料参考来自本文末尾的参考资料与代码: 在网络安全中,恶意节点检测和哨兵节点激活是确保网络稳定性、可靠性和安全性的关键技术,尤其是在分布式系统、物联网 (IoT)、区块链网络等环境中。下面将详细介绍这两个概念及其应用。 一、恶意…

python作业

1.D 2.B 3.D 4.C 5.B 6.D 7.D 8.B 9.D 10. A 11.D 12.C 13.√ 14.√ 16.√ 17.√ 18.None 19.([1,3],[2]) 20. 列表思维导图

Redis(上)

Redis 基础 什么是 Redis? Redis (REmote DIctionary Server)是一个基于 C 语言开发的开源 NoSQL 数据库(BSD 许可)。与传统数据库不同的是,Redis 的数据是保存在内存中的(内存数据库&#xf…

LabVIEW气缸摩擦力测试系统

基于LabVIEW的气缸摩擦力测试系统实现了气缸在不同工作状态下摩擦力的快速、准确测试。系统由硬件平台和软件两大部分组成,具有高自动化、精确测量和用户友好等特点,可广泛应用于精密机械和自动化领域。 ​ 项目背景: 气缸作为舵机关键部件…

CentOS7.X 安装RustDesk自建服务器实现远程桌面控制

参照文章CentOS安装RustDesk自建服务器中间总有几个位置出错,经实践做个记录防止遗忘 一 环境&工具准备 1.1 阿里云轻量服务器、Centos7系统、目前最高1.1.11版本rustdesk-server-linux-amd64.zip 1.2 阿里云轻量服务器–安全组–开放端口:TCP(21…

工具篇:IDEA VFS 损害启动报错 com.intellij.util.io.CorruptedException 处理

文章目录 前言一、 idea 的 VFS是什么?二、解决方式:2.1 退出Idea 然后重新打开:2.2 手动清除Idea 缓存,让Idea 重新建立缓存:2.2.1 打开 Invalidate Caches / Restart 对话框:2.2.2 勾选要清除的缓存: 总结…

2.linux中调度kettle

一.准备转换,等会在linux中用 1.添加excel输入组件,并添加对应的文件 2.添加列拆分为多行组件 3.添加文本文件输出组件 4.保存转换 二.linux安装java 1.把jdk-8u144-linux-x64.tar.gz上传到linux的/lx目录下 2. 解压jdk包,然后配置环境变量…

第四节、电机定角度转动【51单片机-TB6600驱动器-步进电机教程】

摘要:本节介绍用电机转动角度计算步骤,从而控制步进电机转角 一、 计算过程 1.1 驱动器接收一个脉冲后,步进电机转动一步,根据驱动器设置的细分值 计算一个脉冲对应电机转动的角度step_x s t e p x s t e p X … … ① step_{x…

如何终身使用 100% 免费的服务器

作为开发人员,我们需要在云服务上运行和托管后端。有许多 BaaS(后端即服务)可用,但它们有一些限制。 如果我说我已经免费使用基于 Linux 的服务器超过 4-5 年了,那会怎样?是的,你没听错。我正在使用这台安装了 Ubuntu 20、24 GB RAM、4 个 CPU 和 200 GB 存储空间的 Lin…

【计算机组成原理】期末复习题库

5.主存储器和CPU之间增加cache的目的是 。 A.解决CPU和主存之间的速度匹配问题 B.扩大主存储器的容量 C.扩大CPU中通用寄存器的数量 D.既扩大主存容量又扩大CPU中通用寄存器的数量 在计算机系统中,CPU的速…

SAP中Smartforms 翻译越南语

点击打印预览 打印预览中确实是越南语 转出成PDF 成了乱码 SPAD中查询LP01其实是简体中文 换成LP02试试 显示看上去正常的 SPAD中的LP02 SU3可以设置自己的默认打印参数 查查Smartforms中的字体样式 是宋体,看上去不用为了越南文刻意改字体样式成TIMES 看这篇文章…

26.删除有序数组中的重复项 python

删除有序数组中的重复项 题目题目描述示例 1:示例 2:提示:题目链接 题解解题思路python实现代码解释提交结果 题目 题目描述 给你一个 非严格递增排列 的数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现…

R语言 | 峰峦图 / 山脊图

目的:为展示不同数据分布的差异。 1. ggplot2 实现 # 准备数据 datmtcars[, c("mpg", "cyl")] colnames(dat)c("value", "type") head(dat) # value type #Mazda RX4 21.0 6 #Mazda RX4 Wag …

四川创新志成健康管理有限公司

四川创新志成健康管理有限公司 成都市青羊区广富路168号 公司简介 四川创新志成健康管理有限公司成立于2021年,公司专注体外诊断领域,致力为医学实验室、生产厂家、 经销商提供专业的学术、技术增值服务,涵盖免疫、生化、输血等检测领域&a…

系统级 I/O

Unix I/O **了解 Unix I/O 将帮助你理解其他的系统概念。**I/O 是系统操作不可或缺的一部分。我们经常遇到 I/O 和其他系统概念之间的循环依赖。例如,I/O 在进程的创建和执行中扮演着关键的角色。反过来,进程创建又在不同进程间的文件共享中扮演着关键角…

Elasticsearch:使用阿里 infererence API 及 semantic text 进行向量搜索

在之前的文章 “Elasticsearch 开放推理 API 新增阿里云 AI 搜索支持”,它详细描述了如何使用 Elastic inference API 来针对阿里的密集向量模型,稀疏向量模型, 重新排名及 completion 进行展示。在那篇文章里,它使用了很多的英文…

基于公网的无线全双工内部通话系统在演出行业可以用吗?

文旅名城再出发,更待“烟花”绽繁花 2024年4月将开业的扬州首个大型沉浸式剧场-《运河密城》 以运河为原点 追随河的记忆 从春秋时代的吴王夫差 到贯通南北的大运河成形 穿梭时空 探索扬州的前世今生 「运河第一锹」古运河旁 有一处新地标正在悄然兴起 如…

POSTGRESQL跟ORACLE语法区别和相同之处

跟ORACLE语法区别之处 1. Update和delete语法区别 Pg 和MySQL Update和delete的时候表名不能加别名 2. 插入数字类型不一样 ORACLE 对number类型的数据可以用’’ 字符串标记插入,但是PG不行,必须要进行正确的数据类型 3. SEQ使用不同 ORACEL的SEQ…