【AI视野·今日Sound 声学论文速览 第十七期】Tue, 3 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 3 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
Authors Roi Benita, Michael Elad, Joseph Keshet
最近已证明扩散模型与高质量语音生成相关。大多数工作都集中在生成频谱图,因此,他们进一步需要后续模型将频谱图转换为波形,即声码器。这项工作提出了一种用于生成原始语音波形的扩散概率端到端模型。所提出的模型是自回归的,顺序生成重叠帧,其中每个帧都以先前生成的帧的一部分为条件。因此,我们的模型可以有效地合成无限的语音持续时间,同时保持高保真合成和时间相干性。我们实现了所提出的无条件和条件语音生成模型,其中后者可以由音素、幅度和音调值的输入序列驱动。直接处理波形具有一些经验优势。具体来说,它允许创建局部声学行为,例如声音炸裂,这使得整体波形听起来更自然。此外,所提出的扩散模型是随机的而不是确定性的,因此,每个推论都会生成略有不同的波形变化,从而实现丰富的有效实现。

uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models
Authors Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang, Bhiksha Raj, Dong Yu
语音增强旨在提高语音信号的质量和清晰度,而语音编辑是指根据特定用户需求对语音进行编辑的过程。在本文中,我们提出了一种带有条件扩散模型的统一语音增强和编辑 uSee 模型,以生成的方式同时处理各种任务。具体来说,通过向基于分数的扩散模型提供包括自监督学习嵌入和适当的文本提示在内的多种类型的条件,我们可以实现统一语音增强和编辑模型的可控生成,以对源语音执行相应的操作。我们的实验表明,与其他相关的生成语音增强模型相比,我们提出的 uSee 模型可以在语音去噪和去混响方面实现优异的性能,并且可以在给定所需的环境声音文本描述、信噪比 SNR 和房间脉冲响应 RIR 的情况下执行语音编辑。

F0 analysis of Ghanaian pop singing reveals progressive alignment with equal temperament over the past three decades: a case study
Authors Iran R. Roman, Daniel Faronbi, Isabelle Burger Weiser, Leila Adu Gilmore
当代加纳流行歌曲融合了欧洲和加纳传统的影响。我们假设,随着时间的推移,获得嵌入平等律的技术促进了加纳歌唱与平等律音阶的逐步结合。为了验证这一点,我们研究了加纳歌手 Daddy Lumba,他的作品涵盖了从 20 世纪 80 年代末最早的加纳电子风格至今。将一位音乐家作为案例研究可以让我们在不过度解释研究结果的情况下完善我们的分析。我们整理了他的歌曲集,在 1989 年至 2016 年间发行,以从孤立的人声中提取 F0 值。我们使用高斯混合建模 GMM 来近似每首歌曲的音阶,发现音高方差随着时间的推移而减小。我们还确定了 GMM 分量是否遵循等律音阶中观察到的算术关系,并观察到近年来 Daddy Lumba 的演唱更符合等律音阶。总之,结果揭示了暴露于等律音阶的影响,导致伦巴爸爸的歌唱中微音调内容减少。

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Authors Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Helen Meng
语言模型 LM 已经展示了处理各种生成任务的能力。本文介绍了 UniAudio 系统,与之前的特定于任务的方法不同,该系统利用 LM 技术在给定的输入条件下生成多种类型的音频,包括语音、声音、音乐和歌唱。 UniAudio 1 首先将所有类型的目标音频以及其他条件模态标记化,2 将源目标对连接为单个序列,3 使用 LM 执行下一个标记预测。此外,还提出了多尺度 Transformer 模型来处理标记化中基于残差矢量量化的神经编解码器引起的过长序列。 UniAudio 的训练扩展到 165K 小时的音频和 1B 参数,基于所有生成任务,旨在获得足够的先验知识,不仅在音频的内在属性上,而且在音频与其他模态之间的相互关系上。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型,它在所有经过训练的任务中表现出强大的能力,并且在简单的微调后可以无缝支持新的音频生成任务。实验表明,UniAudio 在 11 项任务中的大多数任务上都取得了最先进的结果,或者至少取得了有竞争力的结果。

Pianist Identification Using Convolutional Neural Networks
Authors Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas
本文使用卷积神经网络 CNN 和表达特征对富有表现力的钢琴演奏中的自动表演者识别进行了全面的研究。我们的工作解决了识别钢琴演奏家这一具有挑战性的多类别分类任务,这对于构建具有智能和智能音乐系统的动态乐器具有重大意义。结合最新的进展,我们利用了大规模富有表现力的钢琴演奏数据集和深度学习技术。我们通过扩大重复和修饰来改进分数,以实现更准确的特征提取。我们展示了一维 CNN 根据表达特征识别钢琴家的能力,并分析了输入序列长度和不同特征的影响。所提出的模型优于基线,在 6 路识别任务中达到 85.3 的准确率。事实证明,我们精炼的数据集更适合训练强大的钢琴家识别器,为自动演奏者识别领域做出了重大贡献。

Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition
Authors Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
语音情感识别SER因其在人机交互中的应用而受到越来越多的关注。然而,现有的SER方法忽略了预训练语音识别任务和下游SER任务之间的信息差距,导致性能次佳。此外,它们需要大量时间来微调每个特定的语音数据集,从而限制了它们在具有大规模噪声数据的现实场景中的有效性。为了解决这些问题,我们提出了一种基于主动学习 AL 的 SER 微调框架,该框架利用任务适应预训练 TAPT 和 AL 方法来提高性能和效率。具体来说,我们首先使用 TAPT 来最小化预训练和下游任务之间的信息差距。然后,使用 AL 方法迭代选择信息最丰富且多样化的样本子集进行微调,从而减少时间消耗。实验证明仅使用 20 pt。样本提高了 8.45 点。准确率降低 79 分。

GASS: Generalizing Audio Source Separation with Large-scale Data
Authors Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr
通用源分离的目标是分离任意混合的音频源,消除对语音或音乐等特定领域进行操作的限制。然而,通用源分离的潜力是有限的,因为大多数现有工作都集中于以声音事件为主的混合,并且小型训练数据集也限制了其监督学习的潜力。在这里,我们研究了一个通用音频源分离 GASS 模型,该模型经过训练,可以使用大规模数据集以监督方式分离语音、音乐和声音事件。我们在不同的任务集上评估 GASS 模型。我们强大的分布结果表明了 GASS 模型的可行性,并且在声音事件和语音分离方面的竞争性分布性能显示了其泛化能力。然而,对于 GASS 模型来说,推广分离发行的电影和音乐内容是一项挑战。我们还在每个数据集上微调 GASS 模型,并始终优于未经预训练的模型。

Fewer-token Neural Speech Codec with Time-invariant Codes
Authors Yong Ren, Tao Wang, Jiangyan Yi, Le Xu, Jianhua Tao, Chuyuan Zhang, Junzuo Zhou
基于语言模型的文本转语音 TTS 模型(如 VALL E)因其在零样本场景下出色的上下文学习能力而受到关注。神经语音编解码器是这些模型的关键组件,它可以将语音转换为离散的标记表示。然而,来自编解码器的过多标记序列可能会对预测准确性产生负面影响,并限制基于语言模型的 TTS 模型的进展。为了解决这个问题,本文提出了一种新颖的时不变代码神经语音编解码器,名为 TiCodec。通过将时不变信息编码和量化为单独的代码,TiCodec 可以减少需要编码的帧级信息量,从而有效减少作为语音代码的令牌数量。此外,本文引入了时不变编码一致性损失,以增强话语内时不变代码的一致性,并迫使其捕获更多全局信息,这有利于零样本 TTS 任务。

Scaling Up Music Information Retrieval Training with Semi-Supervised Learning
Authors Yun Ning Hung, Ju Chiang Wang, Minz Won, Duc Le
在数据驱动的音乐信息检索 MIR 时代,标记数据的稀缺性一直是 MIR 任务成功的主要问题之一。在这项工作中,我们利用半监督师生培训方法来改进 MIR 任务。为了进行训练,我们将未标记的音乐数据扩展到 24 万小时,这比任何公共 MIR 数据集都要大得多。我们在嘈杂的师生训练过程中迭代地创建和完善伪标签。还探索了知识扩展,以迭代方式将模型大小从小于 3M 的参数扩展到近 100M 的参数。我们在实验中研究数据大小和模型大小之间的性能相关性。通过扩大模型大小和训练数据,与以监督方式训练或基于自监督预训练模型的模型相比,我们的模型在多个 MIR 任务上取得了最先进的结果。

Towards human-like spoken dialogue generation between AI agents from written dialogue
Authors Kentaro Mitsui, Yukiya Hono, Kei Sawada
大型语言模型法学硕士的出现使得在两个代理之间生成自然的书面对话成为可能。然而,从这些书面对话中生成类似人类的口头对话仍然具有挑战性。口语对话有几个独特的特征,它们经常包括私下谈话和笑声,轮流的流畅程度显着影响对话的流畅性。本研究提出 CHATS CHatty Agents Text to Speech 是一种基于离散令牌的系统,旨在根据书面对话生成口头对话。我们的系统可以同时为说话者侧和听者侧生成语音,仅使用说话者侧的转录,从而消除了对反向通道或笑声转录的需要。此外,CHATS 有助于自然轮流,在没有重叠的情况下,它确定每次话语后适当的沉默持续时间,并且在重叠的情况下,它根据下一个话语的音素序列启动重叠语音的生成。

Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech
Authors Dareen Alharthi, Roshan Sharma, Hira Dhamyal, Soumi Maiti, Bhiksha Raj, Rita Singh
现代语音合成系统已得到显着改进,合成语音与真实语音无法区分。然而,对合成语音的有效和全面的评估仍然是一个重大挑战。使用平均意见分数 MOS 进行人工评估是理想的,但由于成本高而效率低下。因此,研究人员开发了诸如单词错误率 WER 之类的辅助自动指标来衡量清晰度。先前的工作重点是基于预先训练的语音识别模型来评估合成语音,然而,这可能是有限的,因为这种方法主要测量语音清晰度。在本文中,我们提出了一种评估技术,涉及在合成语音上训练 ASR 模型并评估其在真实语音上的性能。我们的主要假设是,通过在合成语音上训练 ASR 模型,真实语音的 WER 反映了分布之间的相似性,这是对超出可理解性的合成语音质量的更广泛的评估。

Music- and Lyrics-driven Dance Synthesis
Authors Wenjie Yin, Qingyuan Yao, Yi Yu, Hang Yin, Danica Kragic, M rten Bj rkman
歌词常常传达超出听觉维度的歌曲信息,丰富动作和音乐主题的语义。这些见解在舞蹈编排领域非常重要。然而,大多数现有的舞蹈合成方法主要关注音乐到舞蹈的生成,而没有考虑语义信息。为了补充它,我们引入了 JustLMD,这是一个包含音乐和歌词的 3D 舞蹈动作的新多模态数据集。据我们所知,这是第一个包含三元组信息的数据集,包括舞蹈动作、音乐和歌词。此外,我们还展示了一个基于跨模式扩散的网络,旨在根据音乐和歌词生成 3D 舞蹈动作。

Time-Variant Overlap-Add in Partitions
Authors Hagen Jaeger, Uwe Simmer, J rg Bitzer, Matthias Blau
虚拟现实和增强现实在建筑、生产、培训和教育、心理治疗、游戏等许多领域日益流行。为了在虚拟和增强环境中呈现令人信服的声音,音频信号必须与从一个时刻到另一个时刻变化的脉冲响应进行实时卷积。实现此类时变实时卷积算法的关键要求是短延迟、适中的计算成本和内存占用以及没有可察觉的切换伪影。在这份工程报告中,我们介绍了一种分区卷积算法,该算法能够在脉冲响应之间快速切换,而不会引入可察觉的伪影,同时保持恒定的计算负载和较低的内存使用量。

SLM: Bridge the thin gap between speech and text foundation models
Authors Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu
我们提出了联合语音和语言模型 SLM,这是一种多任务、多语言和双模态模型,它利用了预训练的基础语音和语言模型。 SLM冻结预训练的基础模型以最大程度地保留其能力,并且仅训练具有仅1 156M基础模型参数的简单适配器。这种适应不仅使 SLM 在语音识别 ASR 和语音翻译 AST 等传统任务上取得了强大的性能,而且还引入了零样本指令跟踪的新颖功能,可以在给定语音输入和文本指令的情况下执行更多样化的任务,SLM 能够执行看不见的生成任务,包括使用实时上下文的上下文偏置 ASR、对话生成、语音延续和问题回答等。我们的方法表明,预训练语音和语言模型之间的表征差距可能比人们预期的要窄,并且可以通过简单的适应机制桥接。

A Novel U-Net Architecture for Denoising of Real-world Noise Corrupted Phonocardiogram Signal
Authors Ayan Mukherjee, Rohan Banerjee, Avik Ghose
心音信号中包含的生物声学信息被世界各地的医生用于听诊目的。然而,心音本质上容易受到噪声污染。各种噪音源,如肺音、咳嗽、打喷嚏和其他背景噪音都与此类污染有关。心音信号的这种损坏常常导致不确定的或错误的诊断。为了解决这个问题,我们在本文中提出了一种基于 U Net 的深度神经网络架构,用于心音图 PCG 信号的去噪。为了设计、开发和验证所提出的架构,提出了一种合成现实世界噪声破坏的 PCG 信号的新方法。为此,使用了开放获取的现实世界噪声样本数据集和开放获取的 PCG 数据集。所提出的去噪方法的性能已在合成的噪声 PCG 数据集上进行了评估。所提出算法的性能与现有最先进的 SoA 去噪算法进行了定性和定量比较。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148030.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

大数据-玩转数据-Flink 海量数据实时去重

一、海量数据实时去重说明 借助redis的Set,需要频繁连接Redis,如果数据量过大, 对redis的内存也是一种压力;使用Flink的MapState,如果数据量过大, 状态后端最好选择 RocksDBStateBackend; 使用布隆过滤器,…

结构型设计模式——桥接模式

摘要 桥接模式(Bridge pattern): 使用桥接模式通过将实现和抽象放在两个不同的类层次中而使它们可以独立改变。 一、桥接模式的意图 将抽象与实现分离开来,使它们可以独立变化。 二、桥接模式的类图 Abstraction: 定义抽象类的接口Implementor: 定义实现类接口 …

【Pytorch笔记】4.梯度计算

深度之眼官方账号 - 01-04-mp4-计算图与动态图机制 前置知识:计算图 可以参考我的笔记: 【学习笔记】计算机视觉与深度学习(2.全连接神经网络) 计算图 以这棵计算图为例。这个计算图中,叶子节点为x和w。 import torchw torch.tensor([1.]…

使用关键字interface来声明使用接口-PHP8知识详解

继承特性简化了对象、类的创建,增加了代码的可重用性。但是php8只支持单继承,如果想实现多继承,就需要使用接口。PHP8可以实现多个接口。 接口类通过关键字interface来声明,接口中不能声明变量,只能使用关键字const声明…

机器人中的数值优化|【六】线性共轭梯度法,牛顿共轭梯度法

机器人中的数值优化|【六】线性共轭梯度法,牛顿共轭梯度法 往期回顾 机器人中的数值优化|【一】数值优化基础 机器人中的数值优化|【二】最速下降法,可行牛顿法的python实现,以Rosenbrock function为例 机器人中的数值优化|【三】无约束优化…

stm32 - 中断

stm32 - 中断 概念中断向量表NVIC 嵌套中断向量控制器优先级 中断EXTI概念基本结构例子- 对射式红外传感器计次例子 - 旋转编码器 概念 stm32 支持的中断资源(都属于外设) EXTITIMADCUSARtSPII2C stm32支持的中断 内核中断 外设中断 中断通道与优先级 一…

C# 读取Execl文件3种方法

方法 1,使用OLEDB可以对excel文件进行读取 1.1C#提供的数据连接有哪些 对于不同的.net数据提供者,ADO.NET采用不同的Connection对象连接数据库。这些Connection对我们屏蔽了具体的实现细节,并提供了一种统一的实现方法。 Connection类有四…

【Linux】线程池

目录 一、线程池1.什么是线程池2.线程池图解3.实现代码 二、单例模式1.单例模式的概念2.饿汉方式实现单例模式3.懒汉方式实现单例模式4.懒汉方式实现单例模式的线程池 一、线程池 1.什么是线程池 线程虽然比进程轻量了很多,但是每创建一个线程时,需要向…

UCOS的任务创建和删除

一、任务创建和删除的API函数 1、任务创建和删除本质就是调用uC/OS的函数 API函数 描述 OSTaskCreate() 创建任务 OSTaskDel() 删除任务 注意: 1,使用OSTaskCreate() 创建任务,任务的任务控制块以及任务栈空间所需的内存&#xff0c…

算法——买卖股票问题

309. 买卖股票的最佳时机含冷冻期 - 力扣(LeetCode) 一、 究其就是个动态规划的问题 算法实现图 初始化 由于有三个阶段,买入,可交易,冷冻期,那么用dp表表示现在为止的最大利润,则有 dp[0][…

asp.net core 远程调试

大概说下过程: 1、站点发布使用Debug模式 2、拷贝到远程服务器,以及iis创建站点。 3、本地的VS2022的安装目录:C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\IDE下找Remote Debugger 你的服务器是64位就拷贝x64的目…

详解Linux的系统调用fork()函数

在Linux系统中,fork()是一个非常重要的系统调用,它的作用是创建一个新的进程。具体来说,fork()函数会在当前进程的地址空间中复制一份子进程,并且这个子进程几乎完全与父进程相同,包括进程代码、数据、堆栈以及打开的文…

WebSocket实战之四WSS配置

一、前言 上一篇文章WebSocket实战之三遇上PAC ,碰到的问题只能上安全的WebSocket(WSS)才能解决,配置证书还是挺麻烦的,主要是每年都需要重新更新证书,我配置过的证书最长有效期也只有两年,搞不…

ElasticSearch第四讲:ES详解:ElasticSearch和Kibana安装

ElasticSearch第四讲:ES详解:ElasticSearch和Kibana安装 本文是ElasticSearch第四讲:ElasticSearch和Kibana安装,主要介绍ElasticSearch和Kibana的安装。了解完ElasticSearch基础和Elastic Stack生态后,我们便可以开始…

ctfshow—1024系列练习

1024 柏拉图 有点像rce远程执行,有四个按钮,分别对应四份php文件,开始搞一下。一开始,先要试探出 文件上传到哪里? 怎么读取上传的文件? 第一步:试探上传文件位置 直接用burp抓包,…

力扣练习——链表在线OJ

目录 提示: 一、移除链表元素 题目: 解答: 二、反转链表 题目: 解答: 三、找到链表的中间结点 题目: 解答: 四、合并两个有序链表(经典) 题目: 解…

【数据结构---排序】很详细的哦

本篇文章介绍数据结构中的几种排序哦~ 文章目录 前言一、排序是什么?二、排序的分类 1.直接插入排序2.希尔排序3.选择排序4.冒泡排序5.快速排序6.归并排序总结 前言 排序在我们的生活当中无处不在,当然,它在计算机程序当中也是一种很重要的操…

聊聊常见的IO模型 BIO/NIO/AIO 、DIO、多路复用等IO模型

聊聊常见的IO模型 BIO/NIO/AIO/DIO、IO多路复用等IO模型 文章目录 一、前言1. 什么是IO模型2. 为什么需要IO模型 二、常见的IO模型1. 同步阻塞IO(Blocking IO,BIO)2. 同步非阻塞IO(Non-blocking IO,NIO)3.…

排序算法之【希尔排序】

📙作者简介: 清水加冰,目前大二在读,正在学习C/C、Python、操作系统、数据库等。 📘相关专栏:C语言初阶、C语言进阶、C语言刷题训练营、数据结构刷题训练营、有感兴趣的可以看一看。 欢迎点赞 &#x1f44d…

八大排序源码(含优化)

文章目录 1、直接插入排序2、希尔排序3、选择排序4、冒泡排序5、堆排序6、快速排序快速排序递归实现霍尔法挖坑法前后指针法快速排序小区间优化 快速排序非递归实现 7、归并排序归并排序递归实现归并排序非递归 8、计数排序 大家好,我是纪宁,这篇文章是关…