【AI视野·今日Sound 声学论文速览 第十八期】Wed, 4 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Wed, 4 Oct 2023
Totally 4 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Mel-Band RoFormer for Music Source Separation
Authors Ju Chiang Wang, Wei Tsung Lu, Minz Won
最近,基于多频段频谱图的方法(例如频段分割 RNN BSRNN)已经证明了音乐源分离的良好结果。在我们最近的工作中,我们引入了 BS RoFormer 模型,该模型继承了前端 BSRNN 中频带分割方案的思想,然后使用具有旋转位置嵌入 RoPE 的分层 Transformer 对多频带掩模的内带和带间序列进行建模估计。该模型已实现最先进的性能,但频带分割方案是根据经验定义的,没有文献的分析支持。在本文中,我们提出了 Mel RoFormer,它采用 Mel 带方案,根据 Mel 尺度将频率仓映射到重叠的子带。合同中,BSRNN 和 BS RoFormer 中的频带分割映射是不重叠的,并且是基于启发式设计的。

Audio-visual child-adult speaker classification in dyadic interactions
Authors Anfeng Xu, Kevin Huang, Tiantian Feng, Helen Tager Flusberg, Shrikanth Narayanan
涉及儿童的互动涵盖了从学习到临床诊断和治疗背景的广泛重要领域。对此类交互的自动分析的动机是寻求准确的见解并在不同和广泛的条件下提供规模和稳健性。识别属于孩子的语音片段是此类建模的关键步骤。传统的儿童成人说话者分类通常依赖于音频建模方法,忽略了传达语音清晰度信息(例如嘴唇运动)的视觉信号。在纯音频儿童成人说话者分类管道的基础上,我们建议通过主动说话者检测和视觉处理模型合并视觉线索。我们的框架涉及视频预处理、话语级别的儿童成人说话人检测以及模态特定预测的后期融合。我们通过大量实验证明,视觉辅助分类管道可以提高分类的准确性和鲁棒性。

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
Authors Bi Cheng Yan, Hsin Wei Wang, Yi Cheng Wang, Jiun Ting Li, Chi Han Lin, Berlin Chen
自动发音评估 APA 能够量化第二语言 L2 学习者的语言发音水平。流行的 APA 方法通常利用经过回归损失函数(例如均方误差 MSE 损失)训练的神经模型来进行熟练程度预测。尽管大多数回归模型可以有效地捕获特征空间中熟练程度的序数,但它们面临的主要障碍是具有相同熟练程度的不同音素类别不可避免地被迫彼此接近,保留较少的音素区分信息。鉴于此,我们设计了一种音素对比序数 PCO 损失,用于训练基于 APA 模型的回归,其目的是在考虑回归目标输出的序数关系的同时,保留音素类别之间更好的音素区别。具体来说,我们在 MSE 损失中引入了音素不同正则化器,它鼓励不同音素类别的特征表示相距较远,同时通过加权距离拉近属于同一音素类别的表示。

One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition
Authors Samuele Cornell, Jee weon Jung, Shinji Watanabe, Stefano Squartini
本文提出了一种联合说话人二值化SD和自动语音识别ASR的新框架,称为SLIDAR滑动窗口二值化增强识别。 SLIDAR 可以处理任意长度的输入,并且可以处理任意数量的发言者,有效解决谁同时发言的问题。 SLIDAR 利用滑动窗口方法,由端到端二值化增强语音转录 E2E DAST 模型组成,该模型在本地为每个窗口转录、二值化和说话者嵌入提供服务。 E2E DAST 模型基于编码器解码器架构,并利用序列化输出训练和 Whisper 风格提示等最新技术。然后,通过对说话人嵌入进行聚类以获得全局说话人身份,组合本地输出以获得最终的 SD ASR 结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149051.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

windows server 2012 服务器打开系统远程功能

服务器上开启远程功能 进入服务器,选择“添加角色和功能” 需要选择安装的服务器类型,如图所示 然后在服务器池中选择你需要使用的服务器。 选择完成后,在图示列表下勾选“远程桌面服务” 再选择需要安装的功能和角色服务。 选择完成确认内容…

大模型部署手记(4)MOSS+Jetson AGX Orin

1.简介 组织机构:复旦大学 代码仓:GitHub - OpenLMLab/MOSS: An open-source tool-augmented conversational language model from Fudan University 模型:fnlp/moss-moon-003-sft-int4 下载:https://huggingface.co/fnlp/mos…

C++_pen_友元

友元&#xff08;破坏封装&#xff09; 我故意让别人能使用我的私有成员 友元类 friend class B;友元函数 friend void func();友元成员函数 friend void A::func();例 #include <stdio.h>class A;class C{ public:void CprintA(A &c); };class B{ public:void Bpri…

qt 5.15.2 安卓 macos

macos环境安卓配置 我的系统是monterey12.5.1 打开qt的配置界面 这里版本是java1.8&#xff0c;注意修改这个json文件&#xff0c;显示包内容 {"common": {"sdk_tools_url": {"linux": "https://dl.google.com/android/repository/comm…

lv7 嵌入式开发-网络编程开发 07 TCP服务器实现

目录 1 函数介绍 1.1 socket函数 与 通信域 1.2 bind函数 与 通信结构体 1.3 listen函数 与 accept函数 2 TCP服务端代码实现 3 TCP客户端代码实现 4 代码优化 5 练习 1 函数介绍 其中read、write、close在IO中已经介绍过&#xff0c;只需了解socket、bind、listen、acc…

Python爬虫案例入门教程(纯小白向)——夜读书屋小说

Python爬虫案例——夜读书屋小说 前言 如果你是python小白并且对爬虫有着浓厚的兴趣&#xff0c;但是面对网上错综复杂的实战案例看也看不懂&#xff0c;那么你可以尝试阅读我的文章&#xff0c;我也是从零基础python开始学习爬虫&#xff0c;非常清楚在过程中所遇到的困难&am…

简单查找重复文本文件

声明这是最初 我的提问给个文本分类清单input查找文件夹下 .py .txt .excel .word 一模一样的文本不是找文件名 找相同格式下的文件文本是否一样 文件单独复制到文件夹下两个文件全部复制到文件夹下 print 打印相同文本文件的名字 比如查找到了3.py与4.5.是.py文件中的文本文件…

Scala第一章节

Scala第一章节 scala总目录 章节目标 理解Scala的相关概述掌握Scala的环境搭建掌握Scala小案例: 做最好的自己 1. Scala简介 1.1 概述 ​ Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)", 它是一门基于JVM的多范式编程语言, 通俗的说: Scala是一…

JAVAWeb业务层开发->普通和基于MP

普通方式业务层开发 service定义接口&#xff08;主要实现逻辑层面的业务功能&#xff09; serviceImpl实现该接口 注意事项&#xff1a; 逻辑判断的代码可以使用&#xff1e;号&#xff0c;使得返回结果为布尔类型。 小结&#xff1a;每一个接口写完都要写测试类去检测&#…

JMeter的详细使用及相关问题

一、中文乱码问题 如果出现乱码&#xff0c;需要修改编码集&#xff0c;&#xff08;版本问题有的不需要修改&#xff0c;就不用管&#xff09; 修改后保存重启就好了。 JMeter5.5版本的按照如下修改&#xff1a; 二、JMeter的启动 ①建议直接用ApacheJMeter.jar双击启动…

<一>Qt斗地主游戏开发:开发环境搭建--VS2019+Qt5.15.2

1. 开发环境概述 对于Qt的开发环境来说&#xff0c;主流编码IDE界面一般有两种&#xff1a;Qt Creator或VSQt。为了简单起见&#xff0c;这里的操作系统限定为windows&#xff0c;编译器也通用VS了。Qt版本的话自己选择就可以了&#xff0c;当然VS的版本也是依据Qt版本来选定的…

QT4.8.7安装详细教程

QT4.8.7安装详细教程&#xff08;MinGW 4.8.2和QTCreator4.2.0&#xff09; 1.下载及安装2.配置环境 此文是在下方链接博文的基础上&#xff0c;按自己的理解整理的https://blog.csdn.net/xiaowanzi199009/article/details/104119265 1.下载及安装 这三个文件&#xff0c;顺序是…

Swift SwiftUI CoreData 过滤数据 1

Xcode: Version 14.3.1 (14E300c) iOS: 16 预览&#xff1a; Code: import SwiftUI import CoreDatastruct TodosSearch: View {State private var search_title "测试"FetchRequest var todos_search: FetchedResults<Todo>init() {let request: NSFetchReq…

Cortex-A9 架构

一、Cortex-A 处理器运行模式 Cortex-A9处理器有 9中处理模式&#xff0c;如下表所示&#xff1a; 九种运行模式 在上表中&#xff0c;除了User(USR)用户模式以外&#xff0c;其它8种运行模式都是特权模式&#xff0c;在特权模式下&#xff0c;程序可以访问所有的系统资源。这…

在openwrt dnsmasq DHCP中为客户端分配不同的网关和DNS | 旁路由 禁止上网

环境&#xff1a;openwrt dnsmasq PS4/Switch 问题&#xff1a;为路由器下的设备分配不同的网关和DNS&#xff0c;禁止局域网设备上网 解决办法&#xff1a;修改dnsmasq配置文件 背景&#xff1a;Openwrt 的DHCP服务是使用dnsmasq实现的&#xff0c;他可以给内网的客户端设备…

网络安全工程师考证指南,不看就亏了!!

目前网络安全行业&#xff0c;国内都有哪些证书可以考&#xff1f; 一、CISP-PTE &#xff08;国家注册渗透测试工程师&#xff09; CISP-PTE即注册信息安全渗透测试工程师&#xff0c;该证书由中国信息安全测评中心颁发&#xff0c;证书是国内唯一认可的渗透测试认证&#x…

el-menu 导航栏学习(1)

最简单的导航栏学习跳转实例效果&#xff1a; &#xff08;1&#xff09;index.js路由配置&#xff1a; import Vue from vue import Router from vue-router import NavMenuDemo from /components/NavMenuDemo import test1 from /components/test1 import test2 from /c…

Redis中Hash类的操作

Redis中Hash类型是键值对的形式保存数据&#xff0c;其中键被称为字段&#xff08;field&#xff09;&#xff0c;值称为字段值&#xff08;value&#xff09;。在一个key中&#xff0c;字段不能重复&#xff0c;而值可以重复。无论是字段还是值都是无序的&#xff08;保存的次…

mysql双主+双从集群连接模式

架构图&#xff1a; 详细内容参考&#xff1a; 结果展示&#xff1a; 178.119.30.14(主) 178.119.30.15(主) 178.119.30.16(从) 178.119.30.17(从)

添加驱动模块到内核的两种方法

添加驱动模块到内核的两种方法 1. 放在内核源代码树中 步骤总结&#xff1a; 新建文件夹编写Makefile、编写Kconfig修改上层Kconfig执行make menuconfig执行make zImage 或 make modules 1.1 源码放入文件夹 例如&#xff1a;添加一个按键字符设备模块 在内核目录下的 dri…