IOS微软语音转文本,lame压缩音频

在IOS开发中,用微软进行语音转文本操作,并将录音文件压缩后返回

项目中遇到了利用微软SDK进行实时录音转文本操作,如果操作失败,那么就利用原始音频文件通过网络请求操作,最终这份文件上传到阿里云保存,考虑到传输速率,对文件压缩成mp3再上传

遇到的难点

  • 微软的示例中只能转文本,微软并不保存这份音频文件,需要自己实现从录音到推流,到获取结果
  • 项目是uniapp项目,非原生工程项目,录音管理器需要激活后才能使用
  • 关于压缩代码,采用Lame库压缩,网上大部分都是通过文件提取压缩再保存,直接录制音频压缩较少,记录下来以便后续使用

流程图

请添加图片描述

实现步骤

录音的实现

// 每个缓冲区的大小
#define kBufferSize 2048
// 缓冲区数量
#define kNumberBuffers 3// 定义结构体,里面保存录音队列ID,录音格式
typedef struct {AudioStreamBasicDescription dataFormat;AudioQueueRef               queue;AudioQueueBufferRef         buffers[kNumberBuffers];UInt32                      bufferByteSize;__unsafe_unretained id      selfRef;
} AQRecorderState;AQRecorderState recorderState = {0};- (instancetype)init {self = [super init];if (self) {// 设置音频格式recorderState.dataFormat.mFormatID = kAudioFormatLinearPCM;recorderState.dataFormat.mSampleRate = 16000.0;recorderState.dataFormat.mChannelsPerFrame = 1;recorderState.dataFormat.mBitsPerChannel = 16;recorderState.dataFormat.mBytesPerPacket = recorderState.dataFormat.mBytesPerFrame = recorderState.dataFormat.mChannelsPerFrame * sizeof(SInt16);recorderState.dataFormat.mFramesPerPacket = 1;recorderState.dataFormat.mFormatFlags = kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;}return self;
}- (void)configureAudioSession {AVAudioSession *session = [AVAudioSession sharedInstance];NSError *error = nil;// 设置音频会话类别和模式[session setCategory:AVAudioSessionCategoryPlayAndRecord  error:&error];if (error) {NSLog(@"Error setting category: %@", error.localizedDescription);}// 激活音频会话[session setActive:YES error:&error];if (error) {NSLog(@"Error activating session: %@", error.localizedDescription);}
}
// 开始录音
- (void)startRecording{// 激活录音文件[self configureAudioSession];// 创建录音队列AudioQueueNewInput(&recorderState.dataFormat, HandleInputBuffer, &recorderState, NULL, kCFRunLoopCommonModes, 0, &recorderState.queue);// 设置录音增益AudioQueueSetParameter(recorderState.queue, kAudioQueueParam_Volume, 1.0);// 计算缓冲区大小DeriveBufferSize(recorderState.queue, &recorderState.dataFormat, 0.5, &recorderState.bufferByteSize);// 分配和分配缓冲区for (int i = 0; i < kNumberBuffers; i++) {AudioQueueAllocateBuffer(recorderState.queue, recorderState.bufferByteSize, &recorderState.buffers[i]);AudioQueueEnqueueBuffer(recorderState.queue, recorderState.buffers[i], 0, NULL);}OSStatus status = AudioQueueStart(recorderState.queue, NULL);if (status != noErr) {NSLog(@"AudioQueueNewInput failed with error: %d", (int)status);}
}
// 结束录音
- (void)stopRecording{// 停止录音AudioQueueStop(recorderState.queue, true);AudioQueueDispose(recorderState.queue, true);
};
// 计算缓冲区大小
void DeriveBufferSize(AudioQueueRef audioQueue, AudioStreamBasicDescription *ASBDesc, Float64 seconds, UInt32 *outBufferSize) {static const int maxBufferSize = 0x50000; // 限制缓冲区的最大值int maxPacketSize = ASBDesc->mBytesPerPacket;if (maxPacketSize == 0) {UInt32 maxVBRPacketSize = sizeof(maxPacketSize);AudioQueueGetProperty(audioQueue, kAudioQueueProperty_MaximumOutputPacketSize, &maxPacketSize, &maxVBRPacketSize);}Float64 numBytesForTime = ASBDesc->mSampleRate * maxPacketSize * seconds;*outBufferSize = (UInt32)(numBytesForTime < maxBufferSize ? numBytesForTime : maxBufferSize);
}
// 数据处理回调函数 这个里面有个录音回掉的PCM数据
void HandleInputBuffer(void *aqData, AudioQueueRef inAQ, AudioQueueBufferRef inBuffer, const AudioTimeStamp *inStartTime, UInt32 inNumPackets, const AudioStreamPacketDescription *inPacketDesc) {AQRecorderState *pAqData = (AQRecorderState *)aqData;// 如果有数据,就处理if (inNumPackets > 0) {// 创建NSData对象NSData *audioData = [NSData dataWithBytes:inBuffer->mAudioData length:inBuffer->mAudioDataByteSize];// 打印NSData对象内容NSLog(@"Audio Data: %@", audioData);// 这儿将进行保存文件// 编码文件// 推送数据到微软SDK}// 将缓冲区重新加入到队列中AudioQueueEnqueueBuffer(pAqData->queue, inBuffer, 0, NULL);
}

微软SDK初始化和推流

这个大部分和微软示例差不多,需要注意的是获取微软示例时候传入的是自定义的录音设置,并将自定义录音设置保存起来,在录音回掉中将数据推入流中

- (void)setUpKey:(NSString *)token service:(NSString *)service lang:(NSString *) lang { // 这里将通过token和区域初始化配置类,微软还有其他获取配置类的方法,其他方法示例化也可以SPXSpeechConfiguration *speechConfig = nil;speechConfig = [[SPXSpeechConfiguration alloc] initWithAuthorizationToken:token region:service];// 这个是通过token实例化配置类的方式
//    speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:token region:service];// 设置语言 en-US格式[speechConfig setSpeechRecognitionLanguage:lang];// 设置微软接收到的数据的格式 16000HZ 16位深 单通道SPXAudioStreamFormat *audioFormat = [[SPXAudioStreamFormat alloc] initUsingPCMWithSampleRate: 16000 bitsPerSample:16 channels:1];// 获取推流的类,并保存起来,后面就通过它推送数据到SDKself.audioInputStream = [[SPXPushAudioInputStream alloc] initWithAudioFormat:audioFormat];// 获取录音配置SPXAudioConfiguration* audioConfig = [[SPXAudioConfiguration alloc] initWithStreamInput:self.audioInputStream];// 通过配置类和录音类信息获取微软识别器self.recognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig audioConfiguration:audioConfig];// 定义已识别事件的处理函数[self.recognizer addRecognizedEventHandler:^(SPXSpeechRecognizer *recognizer, SPXSpeechRecognitionEventArgs *eventArgs) {NSString *recognizedText = eventArgs.result.text;NSLog(@"Final recognized text: %@", recognizedText);// 在这里处理最终识别结果[self.speechToTextResult appendFormat:recognizedText];}];// 定义识别中事件的处理函数[self.recognizer addRecognizingEventHandler:^(SPXSpeechRecognizer *recognizer, SPXSpeechRecognitionEventArgs *eventArgs) {NSString *intermediateText = eventArgs.result.text;NSLog(@"Intermediate recognized text: %@", intermediateText);// 在这里处理中间识别结果}];// 定义取消事件的处理函数[self.recognizer addCanceledEventHandler:^(SPXSpeechRecognizer *recognizer, SPXSpeechRecognitionCanceledEventArgs *eventArgs) {NSLog(@"Recognition canceled. Reason: %ld", (long)eventArgs.reason);if (eventArgs.errorDetails != nil) {NSLog(@"Error details: %@", eventArgs.errorDetails);}}];}
- (void)startRecording{ [self.recognizer startContinuousRecognition];
}
- (void)stopRecording{ [self.recognizer stopContinuousRecognition];
}
// 
// 数据处理回调函数
void HandleInputBuffer(void *aqData, AudioQueueRef inAQ, AudioQueueBufferRef inBuffer, const AudioTimeStamp *inStartTime, UInt32 inNumPackets, const AudioStreamPacketDescription *inPacketDesc) {// 在回掉函数中,将数据传递给微软,上面的回掉函数中就能拿到数据了[self.audioInputStream write:audioData];
}

保存文件

  • 保存文件相对简单,录音开始清除上一次的音频文件,创建新的音频文件
  • WAV文件需要添加头文件,才能正常播放

#import "SaveAudioFile.h"#define isValidString(string)               (string && [string isEqualToString:@""] == NO)
// WAV 文件头结构
typedef struct {char riff[4];UInt32 fileSize;char wave[4];char fmt[4];UInt32 fmtSize;UInt16 formatTag;UInt16 channels;UInt32 samplesPerSec;UInt32 avgBytesPerSec;UInt16 blockAlign;UInt16 bitsPerSample;char data[4];UInt32 dataSize;
} WAVHeader;@implementation SaveAudioFile
/*** 清理文件*/
- (void)cleanFile {if (isValidString(self.mp3Path)) {NSFileManager *fileManager = [NSFileManager defaultManager];BOOL isDir = FALSE;BOOL isDirExist = [fileManager fileExistsAtPath:self.mp3Path isDirectory:&isDir];if (isDirExist) {[fileManager removeItemAtPath:self.mp3Path error:nil];NSLog(@"  xxx.mp3  file   already delete");}}if (isValidString(self.wavPath)) {NSFileManager *fileManager = [NSFileManager defaultManager];BOOL isDir = FALSE;BOOL isDirExist = [fileManager fileExistsAtPath:self.wavPath isDirectory:&isDir];if (isDirExist) {[fileManager removeItemAtPath:self.wavPath error:nil];NSLog(@"  xxx.caf  file   already delete");}}
}
/***  取得录音文件保存路径**  @return 录音文件路径*/
-(NSURL *)getSavePath{//  在Documents目录下创建一个名为FileData的文件夹NSString *path = [[NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES)lastObject] stringByAppendingPathComponent:@"AudioData"];NSLog(@"%@",path);NSFileManager *fileManager = [NSFileManager defaultManager];BOOL isDir = FALSE;BOOL isDirExist = [fileManager fileExistsAtPath:path isDirectory:&isDir];if(!(isDirExist && isDir)){BOOL bCreateDir = [fileManager createDirectoryAtPath:path withIntermediateDirectories:YES attributes:nil error:nil];if(!bCreateDir){NSLog(@"创建文件夹失败!");}NSLog(@"创建文件夹成功,文件路径%@",path);}NSString *fileName = @"record";NSString *wavFileName = [NSString stringWithFormat:@"%@.wav", fileName];NSString *mp3FileName = [NSString stringWithFormat:@"%@.mp3", fileName];NSString *wavPath = [path stringByAppendingPathComponent:wavFileName];NSString *mp3Path = [path stringByAppendingPathComponent:mp3FileName];self.wavPath = wavPath;self.mp3Path = mp3Path;NSLog(@"file path:%@",mp3Path);NSURL *url=[NSURL fileURLWithPath:mp3Path];return url;
}-(void) startWritingHeaders {[self cleanFile];[self getSavePath];// 写入 WAV 头部WAVHeader header;memcpy(header.riff, "RIFF", 4);header.fileSize = 0;  // 将在录音结束时填充memcpy(header.wave, "WAVE", 4);memcpy(header.fmt, "fmt ", 4);header.fmtSize = 16;header.formatTag = 1;  // PCMheader.channels = 1;header.samplesPerSec = 16000;header.avgBytesPerSec = 16000 * 2;header.blockAlign = 2;header.bitsPerSample = 16;memcpy(header.data, "data", 4);header.dataSize = 0;  // 将在录音结束时填充// 创建 WAV 文件API[[NSFileManager defaultManager] createFileAtPath:self.wavPath contents:nil attributes:nil];self.audioFileHandle = [NSFileHandle fileHandleForWritingAtPath:self.wavPath];[self.audioFileHandle writeData:[NSData dataWithBytes:&header length:sizeof(header)]];// 创建 mp3 文件API[[NSFileManager defaultManager] createFileAtPath:self.mp3Path contents:nil attributes:nil];self.audioFileHandle2 = [NSFileHandle fileHandleForWritingAtPath:self.mp3Path];
}
- (void) saveAudioFile: (NSData *) data type:(NSString *) type{if([type isEqualToString:@"wav"]){// 写入音频数据到 WAV 文件[self.audioFileHandle writeData:data];}else{// 拿到编码过后的数据,保存到本地[self.audioFileHandle2 writeData:data];}
}
@end

利用Lame库编码PCM数据

  • 下载Lame库并导入项目中操作,参考网上文章https://www.cnblogs.com/XYQ-208910/p/7650759.html
  • lame库的使用主要分成3部分
    • 初始化Lame 并设置比特率,位深,通道数,压缩程度
    • 传入原始的音频数据,得到编码过后的mp3音频数据
    • 结束时刷新lame中还剩的数据,关闭Lame
//
//  LameEncoderMp3.m
//  SpeechUntil
//
//  Created by 肖鹏程 on 2024/7/25.
//#import "LameEncoderMp3.h"@implementation LameEncoderMp3- (void) settingFormat:(int)sampleRate channels:(int)channels{// 初始化lame编码器 设置格式self.lame = lame_init();lame_set_in_samplerate(self.lame, sampleRate);lame_set_num_channels(self.lame, channels);lame_set_brate(self.lame, 16); // 比特率128 kbpslame_set_mode(self.lame, channels == 1 ? MONO : STEREO);lame_set_quality(self.lame, 7); // 0 = 最高质量(最慢),9 = 最低质量(最快)lame_init_params(self.lame);self.channels = channels;};
- (NSData *)encodePCMToMP3:(NSData *)pcmData{// PCM数据的指针和长度const short *pcmBuffer = (const short *)[pcmData bytes];int pcmLength = (int)[pcmData length] / sizeof(short);NSLog(@"pcmLength %lu", [pcmData length]);// 分配MP3缓冲区int mp3BufferSize = (int)(1.25 * pcmLength) + 7200;unsigned char *mp3Buffer = (unsigned char *)malloc(mp3BufferSize);// 确保mp3Buffer分配成功if (mp3Buffer == NULL) {NSLog(@"Failed to allocate memory for MP3 buffer");return nil;}// PCM编码为MP3// 注意这个是单通道的方法,如果是双通道调用这个lame_encode_buffer_interleaved(//   lame,//   recordingData,//   numSamples / 2,  // 双声道//   mp3Buffer,//   mp3BufferSize);int mp3Length = lame_encode_buffer(self.lame, (short *)pcmBuffer, (short *)pcmBuffer,pcmLength, mp3Buffer, mp3BufferSize);if (mp3Length < 0) {NSLog(@"LAME encoding error: %d", mp3Length);free(mp3Buffer);return nil;}// 创建MP3数据NSData *mp3Data = [NSData dataWithBytes:mp3Buffer length:mp3Length];NSLog(@"mp3Length %lu", [mp3Data length]);// 清理free(mp3Buffer);return mp3Data;
}- (NSData *) closeLame{// 刷新LAME缓冲区unsigned char mp3Buffer[7200];int flushLength = lame_encode_flush(self.lame, mp3Buffer, sizeof(mp3Buffer));NSData *flushData;if (flushLength > 0) {// 将刷新后的数据追加到已有的MP3数据flushData = [NSData dataWithBytes:mp3Buffer length:flushLength];} else if (flushLength < 0) {NSLog(@"LAME flushing error: %d", flushLength);}// 关闭lame_close(self.lame);return flushData;
}@end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1488511.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

学习测试14-实战2-介绍CANoe工具

功能&#xff1a; 1&#xff0c;半仿真测试&#xff08;台架测试&#xff09;&#xff1a;台架上做测试 2&#xff0c;全仿真测试&#xff1a;无实体测试&#xff0c;全模拟 3&#xff0c;截取实车日志&#xff1a;故障报告&#xff0c;对照诊断说明 4&#xff0c;诊断测试组成…

机器学习笔记-01-初识基础(问题-解答自查版)

前言 以下问题以Q&A形式记录&#xff0c;基本上都是笔者在初学一轮后&#xff0c;掌握不牢或者频繁忘记的点 Q&A的形式有助于学习过程中时刻关注自己的输入与输出关系&#xff0c;也适合做查漏补缺和复盘。 本文对读者可以用作自查&#xff0c;答案在后面&#xff0…

使用 Visual Studio 2022 自带的 cl.exe 编译 tensorRT自带测试样例 sampleOnnxMNIST

1. 新建任意文件夹&#xff0c;将 D:\install\tensorRT\TensorRT-8.6.1.6\samples\sampleOnnxMNIST 下面的 sampleOnnxMNIST.cpp 文件复制进来&#xff0c;同时 D:\install\tensorRT\TensorRT-8.6.1.6\samples\sampleOnnxMNIST 下面的 sample_onnx_mnist.vcxproj 中的内容&…

江科大/江协科技 STM32学习笔记P13

文章目录 TIM定时中断1、TIM简介计数器预分频器自动重装寄存器 2、定时器类型基本定时器主模式触发DAC 通用定时器高级定时器 3、定时器原理定时中断基本结构预分频器时序计数器时序RCC时钟树 TIM定时中断 1、TIM简介 定时器的基准时钟一般都是主频72MHz&#xff0c;如果对72M…

IPD推行成功的核心要素(十五)项目管理提升IPD相关项目交付效率和用户体验

研发项目往往包含很多复杂的流程和具体的细节。因此&#xff0c;一套完整且标准的研发项目管理制度和流程对项目的推进至关重要。研发项目管理是成功推动创新和技术发展的关键因素。然而在实际管理中&#xff0c;研发项目管理常常面临着需求不确定、技术风险、人员素质、成本和…

分享一个好用的音频解码工具——音乐解锁

在酷狗、网易云、虾米、酷我等平台下载的音乐只能在各自平台的播放上播放。比如&#xff0c;kgm转MP3的方法想必大家在网上也寻找了各种解决方法&#xff0c;方法也不少&#xff0c;但大多数都是不好用或者需要充米。有没有白嫖的工具呢&#xff1f;当然有了&#xff0c;白嫖是…

如何使用 DSPy 构建多步骤推理的 RAG 系统

一、前言 检索增强生成 (RAG) 系统已经成为构建基于大语言模型 (LLM) 应用的强大方法。RAG 系统的工作原理是&#xff1a;首先使用检索模型从外部知识源检索相关信息&#xff0c;然后使用这些信息来提示 LLM 生成最终的响应。 然而&#xff0c;基本的 RAG 系统&#xff08;也…

河南萌新联赛2024第(二)场:南阳理工学院(部分题解)

题目D&#xff1a; A*BBBB 题目链接 题意描述&#xff1a; t组输入&#xff0c;每组输入两个整数a&#xff0c;b&#xff0c;其中b的每位数字都相等&#xff0c;a&#xff0c;b非常大&#xff0c;0<a,b<101000000 ,并且a&#xff0c;b都不含前导0. 解题思路&#xff…

[Spring] MyBatis操作数据库(基础)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

LINUX -exec函数族

1、功能&#xff1a; *让父子进程来执行不相干的操作 *能够替换进程地址空间的代码.text段 *执行另外的程序&#xff0c;不需要创建额外的的地址空间 *当前程序中调用另外一个应用程序 2、执行目录下的程序&#xff1a; *指定执行目录下的程序 int execl(const char *path,…

「12月·长沙」第四届机器人、自动化与智能控制国际会议(ICRAIC 2024)

随着科技的飞速发展&#xff0c;智能机器人在当今社会的重要性愈发凸显。从制造业的自动化生产线&#xff0c;到医疗领域的手术机器人&#xff0c;再到家庭生活中的智能助手&#xff0c;机器人与人工智能的融合正在改变着我们的生产和生活方式。第四届机器人、自动化与智能控制…

How can I fix my Flask server‘s 405 error that includes OpenAi api?

题意&#xff1a;解决包含OpenAI API的Flask服务器中出现的405错误&#xff08;Method Not Allowed&#xff0c;即方法不允许&#xff09; 问题背景&#xff1a; Im trying to add an API to my webpage and have never used any Flask server before, I have never used Java…

自定义协议(应用层协议)——网络版计算机基于TCP传输协议

应用层&#xff1a;自定义网络协议&#xff1a;序列化和反序列化&#xff0c;如果是TCP传输的&#xff1a;还要关心区分报文边界&#xff08;在序列化设计的时候设计好&#xff09;——粘包问题 1、首先想要使用TCP协议传输的网络&#xff0c;服务器和客户端都应该要创建自己…

友思特应用 | 硅片上的光影贴合:UV-LED曝光系统在晶圆边缘曝光中的高效应用

导读 晶圆边缘曝光是帮助减少晶圆涂布过程中多余的光刻胶对电子器件影响的重要步骤。友思特 ALE/1 和 ALE/3 UV-LED 高性能点光源&#xff0c;作为唯一可用于宽带晶圆边缘曝光的 i、h 和 g 线的 LED 解决方案&#xff0c;可高效实现WEE系统设计和曝光需求。 晶圆边缘曝光及处…

<数据集>棉花开花程度识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;13765张 标注数量(xml文件个数)&#xff1a;13765 标注数量(txt文件个数)&#xff1a;13765 标注类别数&#xff1a;4 标注类别名称&#xff1a;[Partially opened, Fully opened boll, Defected boll, Flower] 序…

【Android】大喇叭——广播

广播机制介绍 Android中的广播分为两种类型&#xff1a;标准广播和有序广播 标准广播&#xff1a;是一种完全异步执行的广播&#xff0c;在广播发出之后&#xff0c;所有的广播接收器几乎都会在同一时刻接受到这条广播信息&#xff0c;它们之间没有先后顺序。这种广播的效率会…

ARTMO Table ‘db1.test_mla_result‘ doesn‘t exist解决方案

com.mysql.jdbc.JDBC4PreparedStatement3f3c966c: describe test_mla_result; Java exception occurred: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table db1.test_mla_result doesnt exist解决方案&#xff1a; 打开MySQL的command Line, 输入SHOW TABLES…

Eclipse 生成 jar 包

打开 Jar 文件向导 Jar 文件向导可用于将项目导出为可运行的 jar 包。 打开向导的步骤为: 在 Package Explorer 中选择你要导出的项目内容。如果你要导出项目中所有的类和资源&#xff0c;只需选择整个项目即可。点击 File 菜单并选择 Export。在输入框中输入"JAR"…

谷粒商城实战笔记-55-商品服务-API-三级分类-修改-拖拽数据收集

文章目录 一&#xff0c;拖拽后结点的parentCid的更新二&#xff0c;拖拽后结点的父节点下所有结点的sort排序属性的变化更新排序的逻辑代码分析 三&#xff0c;拖拽后结点及其子节点catLevel的变化判断是否需要更新 catLevel获取拖动后的新节点 更新 catLevel完整代码 这一节的…

Apache ShardingSphere Proxy5.5.0实现MySQL分库分表与读写分离

1. 前提准备 1.1 主机IP:192.168.186.77 version: 3.8services:mysql-master:image: mysql:latestcontainer_name: mysql-masterenvironment:MYSQL_ROOT_PASSWORD: 123456MYSQL_USER: masterMYSQL_PASSWORD: 123456MYSQL_DATABASE: db1 ports:- "3306:3306&quo…