【AI视野·今日Sound 声学论文速览第十七期】Tue, 3 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 3 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
Authors Roi Benita, Michael Elad, Joseph Keshet
最近已证明扩散模型与高质量语音生成相关。大多数工作都集中在生成频谱图，因此，他们进一步需要后续模型将频谱图转换为波形，即声码器。这项工作提出了一种用于生成原始语音波形的扩散概率端到端模型。所提出的模型是自回归的，顺序生成重叠帧，其中每个帧都以先前生成的帧的一部分为条件。因此，我们的模型可以有效地合成无限的语音持续时间，同时保持高保真合成和时间相干性。我们实现了所提出的无条件和条件语音生成模型，其中后者可以由音素、幅度和音调值的输入序列驱动。直接处理波形具有一些经验优势。具体来说，它允许创建局部声学行为，例如声音炸裂，这使得整体波形听起来更自然。此外，所提出的扩散模型是随机的而不是确定性的，因此，每个推论都会生成略有不同的波形变化，从而实现丰富的有效实现。

uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models
Authors Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang, Bhiksha Raj, Dong Yu
语音增强旨在提高语音信号的质量和清晰度，而语音编辑是指根据特定用户需求对语音进行编辑的过程。在本文中，我们提出了一种带有条件扩散模型的统一语音增强和编辑 uSee 模型，以生成的方式同时处理各种任务。具体来说，通过向基于分数的扩散模型提供包括自监督学习嵌入和适当的文本提示在内的多种类型的条件，我们可以实现统一语音增强和编辑模型的可控生成，以对源语音执行相应的操作。我们的实验表明，与其他相关的生成语音增强模型相比，我们提出的 uSee 模型可以在语音去噪和去混响方面实现优异的性能，并且可以在给定所需的环境声音文本描述、信噪比 SNR 和房间脉冲响应 RIR 的情况下执行语音编辑。

F0 analysis of Ghanaian pop singing reveals progressive alignment with equal temperament over the past three decades: a case study
Authors Iran R. Roman, Daniel Faronbi, Isabelle Burger Weiser, Leila Adu Gilmore
当代加纳流行歌曲融合了欧洲和加纳传统的影响。我们假设，随着时间的推移，获得嵌入平等律的技术促进了加纳歌唱与平等律音阶的逐步结合。为了验证这一点，我们研究了加纳歌手 Daddy Lumba，他的作品涵盖了从 20 世纪 80 年代末最早的加纳电子风格至今。将一位音乐家作为案例研究可以让我们在不过度解释研究结果的情况下完善我们的分析。我们整理了他的歌曲集，在 1989 年至 2016 年间发行，以从孤立的人声中提取 F0 值。我们使用高斯混合建模 GMM 来近似每首歌曲的音阶，发现音高方差随着时间的推移而减小。我们还确定了 GMM 分量是否遵循等律音阶中观察到的算术关系，并观察到近年来 Daddy Lumba 的演唱更符合等律音阶。总之，结果揭示了暴露于等律音阶的影响，导致伦巴爸爸的歌唱中微音调内容减少。

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Authors Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Helen Meng
语言模型 LM 已经展示了处理各种生成任务的能力。本文介绍了 UniAudio 系统，与之前的特定于任务的方法不同，该系统利用 LM 技术在给定的输入条件下生成多种类型的音频，包括语音、声音、音乐和歌唱。 UniAudio 1 首先将所有类型的目标音频以及其他条件模态标记化，2 将源目标对连接为单个序列，3 使用 LM 执行下一个标记预测。此外，还提出了多尺度 Transformer 模型来处理标记化中基于残差矢量量化的神经编解码器引起的过长序列。 UniAudio 的训练扩展到 165K 小时的音频和 1B 参数，基于所有生成任务，旨在获得足够的先验知识，不仅在音频的内在属性上，而且在音频与其他模态之间的相互关系上。因此，经过训练的UniAudio模型有潜力成为通用音频生成的基础模型，它在所有经过训练的任务中表现出强大的能力，并且在简单的微调后可以无缝支持新的音频生成任务。实验表明，UniAudio 在 11 项任务中的大多数任务上都取得了最先进的结果，或者至少取得了有竞争力的结果。

Pianist Identification Using Convolutional Neural Networks
Authors Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas
本文使用卷积神经网络 CNN 和表达特征对富有表现力的钢琴演奏中的自动表演者识别进行了全面的研究。我们的工作解决了识别钢琴演奏家这一具有挑战性的多类别分类任务，这对于构建具有智能和智能音乐系统的动态乐器具有重大意义。结合最新的进展，我们利用了大规模富有表现力的钢琴演奏数据集和深度学习技术。我们通过扩大重复和修饰来改进分数，以实现更准确的特征提取。我们展示了一维 CNN 根据表达特征识别钢琴家的能力，并分析了输入序列长度和不同特征的影响。所提出的模型优于基线，在 6 路识别任务中达到 85.3 的准确率。事实证明，我们精炼的数据集更适合训练强大的钢琴家识别器，为自动演奏者识别领域做出了重大贡献。

Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition
Authors Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
语音情感识别SER因其在人机交互中的应用而受到越来越多的关注。然而，现有的SER方法忽略了预训练语音识别任务和下游SER任务之间的信息差距，导致性能次佳。此外，它们需要大量时间来微调每个特定的语音数据集，从而限制了它们在具有大规模噪声数据的现实场景中的有效性。为了解决这些问题，我们提出了一种基于主动学习 AL 的 SER 微调框架，该框架利用任务适应预训练 TAPT 和 AL 方法来提高性能和效率。具体来说，我们首先使用 TAPT 来最小化预训练和下游任务之间的信息差距。然后，使用 AL 方法迭代选择信息最丰富且多样化的样本子集进行微调，从而减少时间消耗。实验证明仅使用 20 pt。样本提高了 8.45 点。准确率降低 79 分。

GASS: Generalizing Audio Source Separation with Large-scale Data
Authors Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr
通用源分离的目标是分离任意混合的音频源，消除对语音或音乐等特定领域进行操作的限制。然而，通用源分离的潜力是有限的，因为大多数现有工作都集中于以声音事件为主的混合，并且小型训练数据集也限制了其监督学习的潜力。在这里，我们研究了一个通用音频源分离 GASS 模型，该模型经过训练，可以使用大规模数据集以监督方式分离语音、音乐和声音事件。我们在不同的任务集上评估 GASS 模型。我们强大的分布结果表明了 GASS 模型的可行性，并且在声音事件和语音分离方面的竞争性分布性能显示了其泛化能力。然而，对于 GASS 模型来说，推广分离发行的电影和音乐内容是一项挑战。我们还在每个数据集上微调 GASS 模型，并始终优于未经预训练的模型。

Fewer-token Neural Speech Codec with Time-invariant Codes
Authors Yong Ren, Tao Wang, Jiangyan Yi, Le Xu, Jianhua Tao, Chuyuan Zhang, Junzuo Zhou
基于语言模型的文本转语音 TTS 模型（如 VALL E）因其在零样本场景下出色的上下文学习能力而受到关注。神经语音编解码器是这些模型的关键组件，它可以将语音转换为离散的标记表示。然而，来自编解码器的过多标记序列可能会对预测准确性产生负面影响，并限制基于语言模型的 TTS 模型的进展。为了解决这个问题，本文提出了一种新颖的时不变代码神经语音编解码器，名为 TiCodec。通过将时不变信息编码和量化为单独的代码，TiCodec 可以减少需要编码的帧级信息量，从而有效减少作为语音代码的令牌数量。此外，本文引入了时不变编码一致性损失，以增强话语内时不变代码的一致性，并迫使其捕获更多全局信息，这有利于零样本 TTS 任务。

Scaling Up Music Information Retrieval Training with Semi-Supervised Learning
Authors Yun Ning Hung, Ju Chiang Wang, Minz Won, Duc Le
在数据驱动的音乐信息检索 MIR 时代，标记数据的稀缺性一直是 MIR 任务成功的主要问题之一。在这项工作中，我们利用半监督师生培训方法来改进 MIR 任务。为了进行训练，我们将未标记的音乐数据扩展到 24 万小时，这比任何公共 MIR 数据集都要大得多。我们在嘈杂的师生训练过程中迭代地创建和完善伪标签。还探索了知识扩展，以迭代方式将模型大小从小于 3M 的参数扩展到近 100M 的参数。我们在实验中研究数据大小和模型大小之间的性能相关性。通过扩大模型大小和训练数据，与以监督方式训练或基于自监督预训练模型的模型相比，我们的模型在多个 MIR 任务上取得了最先进的结果。

Towards human-like spoken dialogue generation between AI agents from written dialogue
Authors Kentaro Mitsui, Yukiya Hono, Kei Sawada
大型语言模型法学硕士的出现使得在两个代理之间生成自然的书面对话成为可能。然而，从这些书面对话中生成类似人类的口头对话仍然具有挑战性。口语对话有几个独特的特征，它们经常包括私下谈话和笑声，轮流的流畅程度显着影响对话的流畅性。本研究提出 CHATS CHatty Agents Text to Speech 是一种基于离散令牌的系统，旨在根据书面对话生成口头对话。我们的系统可以同时为说话者侧和听者侧生成语音，仅使用说话者侧的转录，从而消除了对反向通道或笑声转录的需要。此外，CHATS 有助于自然轮流，在没有重叠的情况下，它确定每次话语后适当的沉默持续时间，并且在重叠的情况下，它根据下一个话语的音素序列启动重叠语音的生成。

Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech
Authors Dareen Alharthi, Roshan Sharma, Hira Dhamyal, Soumi Maiti, Bhiksha Raj, Rita Singh
现代语音合成系统已得到显着改进，合成语音与真实语音无法区分。然而，对合成语音的有效和全面的评估仍然是一个重大挑战。使用平均意见分数 MOS 进行人工评估是理想的，但由于成本高而效率低下。因此，研究人员开发了诸如单词错误率 WER 之类的辅助自动指标来衡量清晰度。先前的工作重点是基于预先训练的语音识别模型来评估合成语音，然而，这可能是有限的，因为这种方法主要测量语音清晰度。在本文中，我们提出了一种评估技术，涉及在合成语音上训练 ASR 模型并评估其在真实语音上的性能。我们的主要假设是，通过在合成语音上训练 ASR 模型，真实语音的 WER 反映了分布之间的相似性，这是对超出可理解性的合成语音质量的更广泛的评估。

Music- and Lyrics-driven Dance Synthesis
Authors Wenjie Yin, Qingyuan Yao, Yi Yu, Hang Yin, Danica Kragic, M rten Bj rkman
歌词常常传达超出听觉维度的歌曲信息，丰富动作和音乐主题的语义。这些见解在舞蹈编排领域非常重要。然而，大多数现有的舞蹈合成方法主要关注音乐到舞蹈的生成，而没有考虑语义信息。为了补充它，我们引入了 JustLMD，这是一个包含音乐和歌词的 3D 舞蹈动作的新多模态数据集。据我们所知，这是第一个包含三元组信息的数据集，包括舞蹈动作、音乐和歌词。此外，我们还展示了一个基于跨模式扩散的网络，旨在根据音乐和歌词生成 3D 舞蹈动作。

Time-Variant Overlap-Add in Partitions
Authors Hagen Jaeger, Uwe Simmer, J rg Bitzer, Matthias Blau
虚拟现实和增强现实在建筑、生产、培训和教育、心理治疗、游戏等许多领域日益流行。为了在虚拟和增强环境中呈现令人信服的声音，音频信号必须与从一个时刻到另一个时刻变化的脉冲响应进行实时卷积。实现此类时变实时卷积算法的关键要求是短延迟、适中的计算成本和内存占用以及没有可察觉的切换伪影。在这份工程报告中，我们介绍了一种分区卷积算法，该算法能够在脉冲响应之间快速切换，而不会引入可察觉的伪影，同时保持恒定的计算负载和较低的内存使用量。

SLM: Bridge the thin gap between speech and text foundation models
Authors Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu
我们提出了联合语音和语言模型 SLM，这是一种多任务、多语言和双模态模型，它利用了预训练的基础语音和语言模型。 SLM冻结预训练的基础模型以最大程度地保留其能力，并且仅训练具有仅1 156M基础模型参数的简单适配器。这种适应不仅使 SLM 在语音识别 ASR 和语音翻译 AST 等传统任务上取得了强大的性能，而且还引入了零样本指令跟踪的新颖功能，可以在给定语音输入和文本指令的情况下执行更多样化的任务，SLM 能够执行看不见的生成任务，包括使用实时上下文的上下文偏置 ASR、对话生成、语音延续和问题回答等。我们的方法表明，预训练语音和语言模型之间的表征差距可能比人们预期的要窄，并且可以通过简单的适应机制桥接。

A Novel U-Net Architecture for Denoising of Real-world Noise Corrupted Phonocardiogram Signal
Authors Ayan Mukherjee, Rohan Banerjee, Avik Ghose
心音信号中包含的生物声学信息被世界各地的医生用于听诊目的。然而，心音本质上容易受到噪声污染。各种噪音源，如肺音、咳嗽、打喷嚏和其他背景噪音都与此类污染有关。心音信号的这种损坏常常导致不确定的或错误的诊断。为了解决这个问题，我们在本文中提出了一种基于 U Net 的深度神经网络架构，用于心音图 PCG 信号的去噪。为了设计、开发和验证所提出的架构，提出了一种合成现实世界噪声破坏的 PCG 信号的新方法。为此，使用了开放获取的现实世界噪声样本数据集和开放获取的 PCG 数据集。所提出的去噪方法的性能已在合成的噪声 PCG 数据集上进行了评估。所提出算法的性能与现有最先进的 SoA 去噪算法进行了定性和定量比较。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com