对接阿里asr和Azure asr

1:对接阿里asr

1.1:pom

<dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version>
</dependency>

1.2:生成token

package com.dahuyou.ali.asr.generatetoken;import com.alibaba.nls.client.AccessToken;import java.io.IOException;/*** 生成token* program argument参数配置:"LTAI5tNg9N*****R28Zazv" "bAgAvjZwc5HVr******ADEAa"** Token: 6599217b19214759*****42ddf0f8016, expire time: 1726774011*/
public class GenerateToken {public static void main(String[] args) {if (args.length < 2) {System.err.println("CreateTokenDemo need params: <accessKeyId> <accessKeySecret>");System.exit(-1);}String accessKeyId = args[0];String accessKeySecret = args[1];System.out.println("accessKeyId="+accessKeyId+"; accessKeySecret="+accessKeySecret);AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);try {accessToken.apply();System.out.println("Token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());} catch (IOException e) {e.printStackTrace();}}
}

其中accessKeyId和accessKeySecret通过阿里云后台获取:
在这里插入图片描述

1.3:在线asr

package com.dahuyou.ali.asr;import java.io.File;
import java.io.FileInputStream;import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizer;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerListener;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerResponse;import org.slf4j.Logger;
import org.slf4j.LoggerFactory;/*** 此示例演示了*      ASR一句话识别API调用*      通过本地文件模拟实时流发送*      识别耗时计算* (仅作演示,需用户根据实际情况实现)*/
public class SpeechRecognizerDemo {private static final Logger logger = LoggerFactory.getLogger(SpeechRecognizerDemo.class);private String appKey;NlsClient client;public SpeechRecognizerDemo(String appKey, String token, String url) {this.appKey = appKey;//TODO 重要提示 创建NlsClient实例,应用全局创建一个即可,生命周期可和整个应用保持一致,默认服务地址为阿里云线上服务地址if(url.isEmpty()) {client = new NlsClient(token);}else {client = new NlsClient(url, token);}}// 传入自定义参数private static SpeechRecognizerListener getRecognizerListener(int myOrder, String userParam) {SpeechRecognizerListener listener = new SpeechRecognizerListener() {//识别出中间结果.服务端识别出一个字或词时会返回此消息.仅当setEnableIntermediateResult(true)时,才会有此类消息返回@Overridepublic void onRecognitionResultChanged(SpeechRecognizerResponse response) {//事件名称 RecognitionResultChanged、 状态码(20000000 表示识别成功)、语音识别文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}//识别完毕@Overridepublic void onRecognitionCompleted(SpeechRecognizerResponse response) {//事件名称 RecognitionCompleted, 状态码 20000000 表示识别成功, getRecognizedText是识别结果文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}@Overridepublic void onStarted(SpeechRecognizerResponse response) {System.out.println("myOrder: " + myOrder + "; myParam: " + userParam + "; task_id: " + response.getTaskId());}@Overridepublic void onFail(SpeechRecognizerResponse response) {// TODO 重要提示: task_id很重要,是调用方和服务端通信的唯一ID标识,当遇到问题时,需要提供此task_id以便排查System.out.println("task_id: " + response.getTaskId() + ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());}};return listener;}/// 根据二进制数据大小计算对应的同等语音长度/// sampleRate 仅支持8000或16000public static int getSleepDelta(int dataSize, int sampleRate) {// 仅支持16位采样int sampleBytes = 16;// 仅支持单通道int soundChannel = 1;return (dataSize * 10 * 8000) / (160 * sampleRate);}public void process(String filepath, int sampleRate) {SpeechRecognizer recognizer = null;try {// 传递用户自定义参数String myParam = "user-param";int myOrder = 1234;SpeechRecognizerListener listener = getRecognizerListener(myOrder, myParam);recognizer = new SpeechRecognizer(client, listener);recognizer.setAppKey(appKey);//设置音频编码格式 TODO 如果是opus文件,请设置为 InputFormatEnum.OPUSrecognizer.setFormat(InputFormatEnum.PCM);//设置音频采样率if(sampleRate == 16000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);} else if(sampleRate == 8000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_8K);}//设置是否返回中间识别结果recognizer.setEnableIntermediateResult(true);//此方法将以上参数设置序列化为json发送给服务端,并等待服务端确认long now = System.currentTimeMillis();recognizer.start();logger.info("ASR start latency : " + (System.currentTimeMillis() - now) + " ms");File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {logger.info("send data pack length: " + len);recognizer.send(b, len);// TODO  重要提示:这里是用读取本地文件的形式模拟实时获取语音流并发送的,因为read很快,所以这里需要sleep// TODO  如果是真正的实时获取语音,则无需sleep, 如果是8k采样率语音,第二个参数改为8000// 8000采样率情况下,3200byte字节建议 sleep 200ms,16000采样率情况下,3200byte字节建议 sleep 100msint deltaSleep = getSleepDelta(len, sampleRate);Thread.sleep(deltaSleep);}//通知服务端语音数据发送完毕,等待服务端处理完成now = System.currentTimeMillis();// TODO 计算实际延迟: stop返回之后一般即是识别结果返回时间logger.info("ASR wait for complete");recognizer.stop();logger.info("ASR stop latency : " + (System.currentTimeMillis() - now) + " ms");fis.close();} catch (Exception e) {System.err.println(e.getMessage());} finally {//关闭连接if (null != recognizer) {recognizer.close();}}}public void shutdown() {client.shutdown();}// "e6hRW********ho" "659*************42ddf0f8016" "wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1"public static void main(String[] args) throws Exception {String appKey = "你的appkey,在asr应用列表获取";String token = "你的token,上一步生成的,也支持在asr后台获取临时的";String url = ""; // 默认即可,默认值:wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1if (args.length == 2) {appKey   = args[0];token       = args[1];} else if (args.length == 3) {appKey   = args[0];token       = args[1];url      = args[2];} else {System.err.println("run error, need params(url is optional): " + "<app-key> <token> [url]");System.exit(-1);}SpeechRecognizerDemo demo = new SpeechRecognizerDemo(appKey, token, url);// TODO 重要提示: 这里用一个本地文件来模拟发送实时流数据,实际使用时,用户可以从某处实时采集或接收语音流并发送到ASR服务端demo.process("./nls-sample-16k.wav", 16000);//demo.process("./nls-sample.opus", 16000);demo.shutdown();}
}

运行:
在这里插入图片描述
nls-sample-16k.wav 。

2:对接azure asr

2.1:pom

<dependency><groupId>com.microsoft.cognitiveservices.speech</groupId><artifactId>client-sdk</artifactId><version>1.40.0</version>
</dependency>

2.2:在线asr

package com.dahuyou.azure.asr.A;import com.microsoft.cognitiveservices.speech.CancellationReason;
import com.microsoft.cognitiveservices.speech.ResultReason;
import com.microsoft.cognitiveservices.speech.SpeechConfig;
import com.microsoft.cognitiveservices.speech.SpeechRecognizer;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.audio.PushAudioInputStream;import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;public class AzureSpeechRecognition {  public static void main(String[] args) {  try {  // 替换为你的订阅密钥和区域  String speechSubscriptionKey = "你的订阅密钥";String region = "你的区域";SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechSubscriptionKey, region);// 设置中文speechConfig.setSpeechRecognitionLanguage("zh-CN");
//            PushAudioInputStream pushAudioInputStream = new PushAudioInputStream();PushAudioInputStream pushAudioInputStream = PushAudioInputStream.create();// 使用默认麦克风  
//            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();// Recognized: 北京的天气。
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\xiaofuge_sourcecode\\interview-master\\aliasr\\nls-sample-16k.wav");
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\test\\ttsmaker-file-2024-9-19-17-35-30.wav");AudioConfig audioConfig = AudioConfig.fromStreamInput(pushAudioInputStream);// 假设你有一个方法可以从网络接收音频流
//            InputStream audioStream = receiveAudioStreamFromNetwork();
//
//            // 准备AudioConfig(这里需要你自己实现转换逻辑)
//            AudioConfig audioConfig = prepareAudioConfig(audioStream);SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioConfig);  // 订阅事件  recognizer.recognized.addEventListener((s, e) -> {  if (e.getResult().getReason() == ResultReason.RecognizedSpeech) {System.out.println("Recognized: " + e.getResult().getText());  }  });recognizer.recognizing.addEventListener((s, e) -> {if (e.getResult().getReason() == ResultReason.RecognizingSpeech) {System.out.println("RecognizingSpeech: " + e.getResult().getText());}});recognizer.canceled.addEventListener((s, e) -> {  System.out.println("Canceled " + e.getReason());  if (e.getReason() == CancellationReason.Error) {System.out.println("Error details: " + e.getErrorDetails());  }  });  // 开始识别  recognizer.startContinuousRecognitionAsync().get();String filepath = "d:\\test\\ttsmaker-file-2024-9-19-18-51-21.wav";File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {
//                recognizer.send(b, len);byte[] usedByte = new byte[len];if (len < 3200) {System.arraycopy(b, 0, usedByte, 0, len);} else {usedByte = b;}System.out.println(" usedByte send data pack length: " + usedByte.length);//                pushAudioInputStream.write(b);pushAudioInputStream.write(usedByte);// TODO  重要提示:这里是用读取本地文件的形式模拟实时获取语音流并发送的,因为read很快,所以这里需要sleep// TODO  如果是真正的实时获取语音,则无需sleep, 如果是8k采样率语音,第二个参数改为8000// 8000采样率情况下,3200byte字节建议 sleep 200ms,16000采样率情况下,3200byte字节建议 sleep 100ms
//                int deltaSleep = getSleepDelta(len, sampleRate);int deltaSleep = 200;Thread.sleep(deltaSleep);usedByte = null;}pushAudioInputStream.close();// 保持程序运行,等待用户输入或其他方式停止  System.in.read();  // 停止识别  recognizer.stopContinuousRecognitionAsync().get();  } catch (Exception ex) {  ex.printStackTrace();  }  }//    // 假设你有一个方法来接收网络上的音频流(这里用伪代码表示)
//    static InputStream receiveAudioStreamFromNetwork() {
//        // 使用HTTP、WebSocket等接收音频流
//        // 这里返回一个InputStream,但实际上你可能需要更复杂的处理
//        return new InputStream() {
//            // 实现InputStream的read等方法来从网络读取数据
//        };
//    }//    // 将InputStream转换为Azure Speech SDK可以处理的格式(这里简化为直接返回)
 在实际中,你可能需要将其写入WAV文件或使用内存中的流
//    static AudioConfig prepareAudioConfig(InputStream inputStream) {
//        // 注意:Azure Speech SDK的Java版本通常不直接从InputStream读取
//        // 你可能需要将inputStream写入到WAV文件,并使用AudioConfig.fromWavFileInput
//        // 但这里我们假设有一个方法可以直接处理
//        // return AudioConfig.fromCustomStream(inputStream); // 这是一个假设的方法
//        return null; // 实际上你需要实现这个转换
//    }}

运行:

RecognizingSpeech: 你好啊我usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是张三usedByte send data pack length: 2894
Recognized: 你好啊,我是张三。
Recognized: 
Canceled EndOfStream

ttsmaker-file-2024-9-19-18-51-21.wav 。

写在后面

参考文章列表

Java SDK 。

azure 。

在线配音工具 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146413.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot 文件上传下载相关问题

文章目录 关于Springboot 文件上传下载问题解决方案注意事项文件上传文件下载文件删除文件在线打开在写练习的时候&#xff0c;发现了一些小小的问题&#xff0c;已经在 上述代码中体现。① 代码路径碰到中文的时候&#xff0c;会有乱码&#xff0c;需要转换&#xff08;内容中…

fanuc添加地轨步骤图

机器人选项J518 法兰盘选择 FLANGE TYPE SELECT1 一般 机器人类型选择 TYPE SETTING2 J1运动范围设置 机器人->控制启动

鸿蒙开发的基本技术栈及学习路线

随着智能终端设备的不断普及与技术的进步&#xff0c;华为推出的鸿蒙操作系统&#xff08;HarmonyOS&#xff09;迅速引起了全球的关注。作为一个面向多种设备的分布式操作系统&#xff0c;鸿蒙不仅支持手机、平板、智能穿戴设备等&#xff0c;还支持IoT&#xff08;物联网&…

Java 每日一刊(第13期):this super static

“优秀的代码不仅仅是给机器看的&#xff0c;更是给人看的。” 前言 这里是分享 Java 相关内容的专刊&#xff0c;每日一更。 本期将为大家带来以下内容&#xff1a; this 关键字super 关键字static 关键字 this 关键字 this 关键字是 Java 中最常见的关键字之一&#xf…

科技赋能安全,财谷通助力抖音小店腾飞!

在数字经济的浪潮中&#xff0c;短视频与直播带货已成为新时代的商业风口&#xff0c;抖音小店作为这一领域的佼佼者&#xff0c;正引领着无数小微商家踏上创业与转型的快车道。然而&#xff0c;随着市场的日益繁荣&#xff0c;如何有效管理店铺、提升运营效率、保障交易安全成…

Hadoop-MapReduce的 原理 | 块和片 | Shuffle 过程 | Combiner

MapReduce的原理 简单版本&#xff1a; AppMaster: 整个Job任务的核心协调工具 MapTask: 主要用于Map任务的执行 ReduceTask: 主要用于Reduce任务的执行 一个任务提交Job --> AppMaster(项目经理)--> 根据切片的数量统计出需要多少个MapTask任务 --> 向ResourceMan…

伊犁-linux root 密码忘记咋办

1 root 密码忘记了 或者reboot 重启之后在引导界面 按住 e 进入如下界面 然后按住ctrlx 进入这个界面 root 修改成功

【机器学习(九)】分类和回归任务-多层感知机 (MLP) -Sentosa_DSML社区版

文章目录 一、算法概念二、算法原理&#xff08;一&#xff09;感知机&#xff08;二&#xff09;多层感知机1、隐藏层2、激活函数sigma函数tanh函数ReLU函数 3、反向传播算法 三、算法优缺点&#xff08;一&#xff09;优点&#xff08;二&#xff09;缺点 四、MLP分类任务实现…

Hive企业级调优[3]—— Explain 查看执行计划

Explain 查看执行计划 Explain 执行计划概述 EXPLAIN 命令呈现的执行计划由一系列 Stage 组成。这些 Stage 之间存在依赖关系&#xff0c;每一个 Stage 可能对应一个 MapReduce Job 或者一个文件系统的操作等。如果某 Stage 对应了一个 MapReduce Job&#xff0c;则该 Job 在 …

机器翻译之Bahdanau注意力机制在Seq2Seq中的应用

目录 1.创建 添加了Bahdanau的decoder 2. 训练 3.定义评估函数BLEU 4.预测 5.知识点个人理解 1.创建 添加了Bahdanau的decoder import torch from torch import nn import dltools#定义注意力解码器基类 class AttentionDecoder(dltools.Decoder): #继承dltools.Decoder写…

动手学深度学习(五)循环神经网络RNN

一、序列模型 1、统计工具 ①联合概率分布 假设有一个序列 x[x1,x2,…,xT]&#xff0c;我们可以把序列的联合概率分解为多个条件概率的乘积。 ②建模 f(x1​,…,xt−1​) 是一个函数&#xff0c;用于提取前 t−1个序列元素的信息。这意味着我们不需要存储每一个之前的序列元…

关于群里脱敏系统的讨论2024-09-20

群里大家讨论脱敏系统&#xff0c;傅同学&#xff1a;秦老师&#xff0c;银行数据脱敏怎么做的&#xff0c;怎么存储的&#xff1f; 采购了脱敏系统&#xff0c;一般是硬件&#xff08;厂商直接卖的一体机&#xff09;。这个系统很复杂&#xff0c;大概卖50-100万一台。 最核…

Springboot常见问题(bean找不到)

如图错误显示userMapper bean没有找到。 解决方案&#xff1a; mapper包位置有问题&#xff1a;因为SpringBoot默认的包扫描机制会扫描启动类所在的包同级文件和子包下的文件。注解问题&#xff1a; 比如没有加mapper注解 然而无论是UserMapper所在的包位置还是Mapper注解都是…

HelpLook VS GitBook,在线文档管理工具对比

在线文档管理工具在当今时代非常重要。随着数字化时代的到来&#xff0c;人们越来越依赖于电子文档来存储、共享和管理信息。无论是与团队合作还是与客户分享&#xff0c;人们都可以轻松地共享文档链接或通过设置权限来控制访问。在线文档管理工具的出现大大提高了工作效率和协…

echarts 散点图tooltip显示一个点对应多个y值

tooltip&#xff1a;显示 tooltip: {trigger: "axis",extraCssText: max-width:50px; white-space:pre-wrap,formatter: function (params) {let arr []params.forEach(v > {arr.push(v.data[1])});return params[0].data[0]":<br>["arr.toStr…

leetcode刷题3

文章目录 前言回文数1️⃣ 转成字符串2️⃣ 求出倒序数再比对 正则表达式匹配[hard]1️⃣ 动态规划 盛最多水的容器1️⃣ 遍历分类2️⃣ 双指针贪心 最长公共前缀1️⃣ 遍历&#xff08;zip解包&#xff09; 三数之和1️⃣ 双指针递归 最接近的三数之和1️⃣ 迭代一次双指针 电…

PCL addLine可视化K近邻

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接&#xff1a; PCL点云算法与项目实战案例汇总&#xff08;长期更新&#xff09; 一、概述 本文将介绍如何使用PCL库中…

Unreal Engine 5 C++: 编辑器工具编写入门(中文解释)

目录 准备工作 1.创建插件 2.修改插件设置 快速资产操作&#xff08;quick asset action) 自定义编辑器功能 0.创建编辑器button&#xff0c;测试debug message功能 大致流程 详细步骤 1.ctrlF5 launch editor 2.创建新的cpp class&#xff0c;derived from AssetAction…

基于PHP的CRM管理系统源码/客户关系管理CRM系统源码/php源码/附安装教程

源码简介&#xff1a; 这是一款基于PHP开发的CRM管理系统源码&#xff0c;全称客户关系管理CRM系统源码&#xff0c;它是由php源码开发的&#xff0c;还附带了一整套详细的安装教程哦&#xff01; 功能亮点&#xff1a; 1、公海管理神器&#xff1a;不仅能搞定公海类型&…

【自然语言处理】补充:布尔模型

【自然语言处理】补充:布尔模型 布尔检索是指针对查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询,例如:信息AND检索、信息OR检索、信息AND检索AND NOT教材 Google的高级搜索/布尔查询 Google的AND—百度 “ 手机 报价 ”Google的NOT—百度 “ 手机…