语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨RTE2024 音频技术和 Voice AI 专场

在这里插入图片描述

在人工智能快速发展的今天,语音交互技术正经历一场革命性的变革。从语音识别到语音合成,再到端到端的语音对话系统,这一领域的创新正以前所未有的速度推进。这些进步不仅提升了技术指标,更为实时翻译、虚拟数字人、智能客服等实时互动场景带来了新的可能。

本届 RTE2024 大会上,来自学界和业界的多位专家深入探讨了语音 AI 的最新进展。阿里巴巴通义实验室语音算法专家吕翔、声网音频算法工程师李嵩、香港中文大学(深圳)教授武执政、标贝科技联合创始人兼 CTO 李秀林、SpeechGPT 的作者张栋等行业专家分享了他们的研究成果和洞见。

声网音频技术负责人陈若非和海外独角兽的 AI Research Lead 钟凯祺分别主持了主题分享和圆桌讨论环节。

吕翔:CosyVoice 语音生成大模型的突破与挑战

在这里插入图片描述

阿里巴巴通义实验室的语音算法专家吕翔介绍了 CosyVoice 的三大核心模块:自回归 Transformer、Flow Matching 和声码器。「自回归 Transformer 主要用于预测 Next Token,Flow Matching 则负责从噪声分布到目标分布的转换,」他说:「而声码器也做了一些改进,比如结合了 Filter 和 Vocal 技术。」

CosyVoice 的应用场景令人印象深刻。吕翔举例说:「零样本语音克隆是大家特别感兴趣的功能,最短只需 3 秒的音频就能模仿说话人的音色与风格。」CosyVoice 甚至能让一个不会说英语和日语的人「说出」流利的外语。
CosyVoice 的开源也为更多开发者提供了机会。「代码库结构非常简单,一个指令就可以自行训练。」

在这里插入图片描述

李嵩:低延迟流式语音识别系统的突破与应用

在这里插入图片描述

「在人与人的交流过程中,我在说话的时候你们已经听到我在说什么了,但现在的系统都是我说以后你们才开始理解我说的是什么,然后再进行反馈,」声网音频算法工程师李嵩如此描述当前技术的局限性。

为了应对这一挑战,李嵩和他的团队开发了一套低延迟流式语音识别系统。这个系统能够支持各种实时性要求高的任务。李嵩举例说明:「实时字幕、实时翻译、实时人机交互,这些场景对 ASR 实时性的要求都非常高。」
在技术层面,李嵩介绍了他们的创新方案,包括前处理、ASR 和后处理三个关键环节。其中,前处理阶段使用了凤鸣 AI 引擎,包括 AINS(噪声抑制)、AIAEC(回声消除)和 AIVAD(低延迟人声检测)等技术,显著提升了识别性能。

在这里插入图片描述

「适配线上真实音频环境,数据永远是最重要的,尤其是开源框架或者模型效果都差不多时。我们在做训练数据增加了 RTE 环境适配,包括噪声+混响环境,配置不同等级的 3A 处理,让 ASR 识别引擎了解 RTE 真实环境,让适配率更好。」李嵩声网音频算法工程师

武执政:语音生成大模型研究进展与未来趋势

以电影《Her》为引子,香港中文大学(深圳)的武执政教授指出当前语音交互技术与理想状态仍有差距,特别是在理解和表达复杂情感方面。

武教授强调,真正的语音交互不仅涉及语义内容,还包括情感、语气、口音等多维度信息。他举例说明同样的文字在不同情境下可能表达截然不同的含义,这对 AI 系统是巨大挑战。

在这里插入图片描述

李秀林:语音合成大模型与高质量数据的融合之路

在这里插入图片描述

标贝科技联合创始人兼 CTO 李秀林强调:「Transformer 之后,大家可能会在这种框架下做更精致、更巧妙的设计,数据的需求量也是非常大的,数据占比或者对整个效果的影响非常大。」

为了满足大模型对数据的需求,标贝科技开发了一整套数据处理 Pipeline 工具链,包括数据获取、降噪、片段切分、质量筛选、ASR 转写等步骤。李秀林指出,高质量数据的定义会因应不同任务和环节而有所不同,可能是大规模但质量一般的数据,也可能是中等规模但音质和风格把控更好的数据。

标贝科技在过去八年积累了大量合成方向的数据库,涵盖各种年龄、性别、风格和情绪的语音数据。最近,他们还制作了数千小时的对话数据库,以满足自然聊天风格的需求。

在这里插入图片描述

张栋:通向端到端拟人化语音对话的智能体探索

在这里插入图片描述

SpeechGPT 作者、复旦大学的张栋分享了团队在端到端语音对话方面的最新研究成果,重点介绍了 SpeechGPT 系列的发展历程。张栋描绘了一个理想的语音对话 chatbot 应具备的特点:Human-like、Conversational Toolbox 和Real-time。

在 SpeechGPT 的开发过程中,团队发现了一些局限性。「SpeechGPT 不能支持和副语言学习相关的任务,包括情绪、环境、年龄、口音,这些任务基本上都不能产生。」为了解决这个问题,他们开发了自己的 Speech Tokenizer 和 SpeechGPT2。

张栋还介绍了 SpeechGPT2 的训练数据特点:「我们采用 10 万小时的语音文本配置数据集,但区别就是会给所有语音加上 Caption 或者 Description,就是用一段文字描述语音特性,副语言也用文本形式描述起来。」

在这里插入图片描述

圆桌讨论:VoiceAI ,下一代人机交互界面?

在这里插入图片描述

在主题是「Voice AI,下一代人机交互界面?」的圆桌讨论中,来自「海外独角兽」的钟凯祺担任主持人,参与讨论的嘉宾包括张栋、李秀林、武执政和王芷,他们分别来自学界和业界的不同领域。

  • 语音 AI 领域中被低估的方向

讨论伊始,张栋就指出了语音 AI 领域中被低估的两个重要方向:合成数据和强化学习。他强调了预训练数据的重要性,指出即使有 1000 万小时的预训练数据,与文本大模型相比仍有数百倍的差距。张栋还提到了双通道对话数据的稀缺性,以及如何利用人类反馈来提升语音大模型的质量。

李秀林则从数据建设的角度补充道,中英混合的数据或者中粤混合的数据在真实数据中的占比是非常低的,但这种数据在一些场合下又需要,包括方言和口音等等。他呼吁业界合作,共同建设超大规模、低成本的数据资源。
在语音 AI 模型评估的问题上,武执政指出了现有评估方法的局限性。他说:「我们内部做产品的时候希望定义一个比较客观的指标,但这个客观指标很难定下来。」他举例说明,即使在准确率达到 100%的情况下,情感和语气等细微差别仍难以评估。

  • 语音能否成为下一代人机交互界面?

在这里插入图片描述

王芷则分享了微软在 Voice AI 方面的洞察,她认为教育和泛娱乐是 Voice AI 的下一个爆发点。「不管是重交互场景还是重内容场景,都是现在我们可以看到各行各业快速迭代的场景。」

张栋认为最大的难点在于模型能力。他解释道:「语音到语音的模型几乎完美,但不需要任何调整地适配到所有的 Agent 框架或者是文本技术相结合是比较难的。」

李秀林则指出了语音交互效率的局限性:「我们看到一页纸可以一目十行地看过去,要是听和说的话,码率信息含量密度是不够的。」

王芷还表达了对声音复刻技术的期待:「我很期待声音特征能够让数字分身更加智能化,也会维系家庭关系,就是把气都撒在老公的智能分身上面,可以很好地维系自己的夫妻关系。」

在这里插入图片描述

加入 RTE 开发者社区,一同探索人和 AI 的实时互动新范式

在语音 AI 技术的快速发展下,一个更加智能、自然的人机交互时代正在加速到来。我们期待与各领域的研究者和开发者一起,携手迎接这个更具表现力的语音 AI 新纪元,为更多实时互动应场景开启无限可能。

RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup),欢迎加入我们的社区(加微信 bob_fu),一同探索人和 AI 的实时互动新范式。

「重塑语音交互:音频技术和 Voice AI」技术专场由 RTE 开发者社区和海外独角兽联合出品。
在这里插入图片描述

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。

在这里插入图片描述

「海外独角兽」是拾象旗下的开源研究平台,专注于研究全球范围最优秀的创新公司,致力于用开源精神重塑投资信息分发网络。创立以来拾象团队积极输出高质量的行业与公司认知,已经输出了近 300 篇针对全球头部科技公司和前沿科技趋势的文章。在全球 AI 社区中积累了行业影响力,全网拥有 20万+订阅,覆盖头部互联网企业界、硅谷 AI 科学家、以及全球科技公司一线从业者等。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/6705.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

vue3 + ts + element-plus 二次封装 el-table

一、实现效果: (1)数据为空时: (2)有数据时:存在数据合并;可自定义表头和列的内容 (3)新增行: (4)删除行: &a…

6 张图带你深入了解 kube-scheduler

本文目录: kube-scheduler 用途Scheduler Pod 调度流程源码调用链路Scheduler Framework如何扩展 kube-scheduler 用途 顾名思义:负责将 Pod 调度到 Node 上。 Pod 创建流程: 说明: 所有的组件只与 Apiserver 做交互&#xff0…

数据结构(8.7_1)——外部排序

知识总览 外存、内存之间的数据交换 外部排序原理 构造初始“归并段” 第一趟归并 第二趟归并 输出缓冲区1空了用归并段1的下一块元素补上 ..... 顺序的两个归并段方法一样..... 第三趟归并 时间开销分析 对外部排序进行优化 由于文件总块数无法改变,所以…

“方块兽神仙猿点石成金”游戏搭建开发

“方块兽神仙猿点石成金”是一款结合了策略和运气的休闲游戏。玩家需在规定时间内向不同的山头投入矿石,等待神仙猿降临并随机选择一座山进行“点石成金”。根据神仙猿的选择,玩家将获得不同的奖励。 游戏核心机制 矿石投入:玩家在游戏开始…

【压力测试】如何确定系统最大并发用户数?

一、明确测试目的与了解需求 明确测试目的:首先需要明确测试的目的,即为什么要确定系统的最大并发用户数。这通常与业务需求、系统预期的最大用户负载以及系统的稳定性要求相关。 了解业务需求:深入了解系统的业务特性,包括用户行…

达梦数据库DM管理工具增删改不生效怎么办?如何设置事务自动提交?

前言 我在使用达梦数据库DM时,一开始使用的是达梦数据库自带的连接工具DM管理工具。自带的有它自己的好处,起码对于修改新增字段等是比较兼容的。后面我发现DBeaver也是支持连接达梦数据库的,所以后面用DBeaver也在连接达梦数据库。 我在一…

JVM出现OOM错误排查

前言 对应线程出现的OOM错误,其实分好几类:堆内存溢出、栈溢出、方法区溢出,下面我们要区分两个概念 内存泄漏: 内存泄漏是指GC垃圾回收的速度跟不上内存消耗的速度,造成OOM的情况 内存溢出: 内存溢出是指程序员在申请内存时&…

WinForms 中使用 MVVM 模式构建应用:实现登录页面、页面导航及 SQLite 数据库连接完整框架搭建过程

前言 在传统的 WinForms 应用程序开发中,很多开发者使用事件驱动的设计模式,直接将业务逻辑编写在界面代码中。然而,随着应用程序的复杂性增加,单一的界面文件变得臃肿,难以测试和维护。借鉴 WPF 中 MVVM(…

windows系统编程 - 静态库和动态库

文章目录 前言一、使用obj保护源码生成obj文件导入并使用obj文件方式一 拖入解决方案方式二 附加依赖项适配C语言文件 二、静态库的概述三、静态库的创建与使用四、动态库的概述五、动态库的创建六、动态库的两种调用方式七、动态链接库的隐式加载__declspec(dllimport) 声明外…

数据结构 ——— 查找链式二叉树中值为X的节点

目录 链式二叉树示意图 手搓一个链式二叉树 查找链式二叉树中值为X的节点 链式二叉树示意图 手搓一个链式二叉树 代码演示: // 数据类型 typedef int BTDataType;// 二叉树节点的结构 typedef struct BinaryTreeNode {BTDataType data; //每个节点的数据struc…

基于SSM的BBS社区论坛系统源码

1.项目介绍 系统角色:管理员、业主(普通用户)功能模块:管理员(用户管理、二手置换管理、报修管理、缴费管理、公告管理)、普通用户(登录注册、二手置换、生活缴费、信息采集、报事报修&#xf…

python的安装环境Miniconda(Conda 命令管理依赖配置)

这一段时间,对AI大模型 有了兴趣就想研究一下。 在研究之前肯定要先把需要的编程技能掌握了。经过我查阅资料,今天就先学一下 python的 环境安装。 Node.js 包管理工具:npm 依赖配置文件:package.json 环境管理:nvm&am…

出租房管理系统有哪些?

出租房管理系统在现代房产租赁市场中发挥着至关重要的作用,其供应商众多,各具特色。以下是对易收租、寓小二、全房通、水滴管家以及悟空租房管理系统等供应商的详细介绍。 一、深圳合众致达科技有限公司的易收租 深圳合众致达科技有限公司是一家专注于…

【在Linux世界中追寻伟大的One Piece】Socket编程TCP

目录 1 -> TCP socket API 2 -> V1 -Echo Server 2.1 -> 测试多个连接的情况 1 -> TCP socket API socket(): socket()打开一个网络通讯端口,如果成功的话,就像open()一样返回一个文件描述符。应用程序可以像读写文件一样用r…

【spring】IOC与DI

💐个人主页:初晴~ 📚相关专栏:程序猿的春天 一、IOC(Inversion of Control) 1、概念 IOC(Inversion of Control,控制反转)是一种设计原则,它将对象的控制权…

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-16

文件下载与邀请翻译者 学习英特尔开发手册,最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册,会是一件耗时费力的工作。如果有愿意和我一起来做这件事的,那么&#xff…

​​​​​​​PHP类型比较

在php中符号分为两种,一种是,还是一种是 松散比较:使用两个等号 比较,只比较值,不比较类型。 严格比较:用三个等号 比较,除了比较值,也比较类型。 注意,当一个号时&…

Mysql、Dm8达梦数据库通过脚本导出指定库所有表的结构详情信息到

目录 前言二、Mysql三、达梦8 前言 在当今复杂多变的数据环境中,数据库作为信息存储与管理的核心,其重要性不言而喻。随着业务的不断拓展和深化,对于数据库表结构的理解与管理成为了确保数据一致性和准确性的关键。特别是在跨数据库系统的场…

yelp数据集上识别潜在的热门商家

yelp数据集是研究B2C业态的一个很好的数据集,要识别潜在的热门商家是一个多维度的分析过程,涉及用户行为、商家特征和社区结构等多个因素。从yelp数据集里我们可以挖掘到下面信息有助于识别热门商家 用户评分和评论分析 评分均值: 商家的平均评分是反映其…

文献阅读记录6-Toward computer-made artificial antibiotics

摘要 将合成生物学和计算生物学的概念结合起来,可能会产生比现有药物更不容易产生耐药性的抗生素,而且还能对抗耐药感染。事实上,计算机引导策略与大规模并行高通量实验方法相结合,代表了抗生素发现的新范式。耐多药微生物引起的…