Fish Agent：集成 ASR 和 TTS 的端到端语音处理模型，支持多语言转换

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

Fish Agent 是 FishAudio 推出的端到端语音处理模型，支持多语言的语音到语音转换。
该模型集成 ASR 和 TTS 功能，无需传统编解码器，实现从语音输入到语音输出的完整流程。
Fish Agent 目前处于测试阶段，适用于内容创作、娱乐游戏、教育和培训等多个场景。

正文（附运行示例）

Fish Agent 是什么

在这里插入图片描述

Fish Agent 是 FishAudio 推出的创新的端到端语音处理模型，集成自动语音识别（ASR）和文本到语音（TTS）技术，无需传统的语义编码器/解码器，实现语音到语音的直接转换。模型经过 700,000 小时的多语言音频内容训练，支持包括英语、中文在内的多种语言，精准捕捉和生成环境音频信息。Fish Agent 目前正处于测试阶段，基于不断的优化和改进，为用户提供更准确、更自然的语音交互体验。

Fish Agent 的主要功能

语音到语音转换：Fish Agent 能直接将输入的语音转换成另一种语音，无需先将语音转换为文本，再将文本转换为语音。
多语言支持：模型支持多种语言，处理不同语言的语音输入和输出。
环境音频信息捕捉：捕捉和生成环境音频信息，适于多种音频处理场景。
无需传统编解码器：与传统的语音处理模型不同，Fish Agent 不依赖于语义编码器/解码器，用不同的架构处理语音数据。
端到端处理：集成 ASR 和 TTS 功能，实现从语音输入到语音输出的完整流程。

Fish Agent 的技术原理

深度学习：Fish Agent 基于深度学习技术，特别是神经网络，学习和模拟语音信号的复杂模式。
数据驱动：模型的训练基于大量的多语言音频数据，理解和生成不同语言的语音。
特征提取：模型包含特征提取机制，从原始音频中提取关键信息，以便进行处理。
声码器技术：Fish Agent 用声码器技术，将语音信号转换为另一种声音的技术，用于语音合成。
优化算法：为提高模型的性能和效率，Fish Agent 用特定的优化算法，如注意力机制、卷积神经网络（CNN）和循环神经网络（RNN）等。

如何运行 Fish Agent

下载模型

你可以通过以下命令下载 Fish Agent 模型：

huggingface-cli download fishaudio/fish-agent-v0.1-3b --local-dir checkpoints/fish-agent-v0.1-3b

将下载的模型文件放入 checkpoints 文件夹中。你还需要 fish-speech-1.4 仓库中的 VQGAN 权重文件。最终 checkpoints 文件夹中应包含两个子文件夹：checkpoints/fish-speech-1.4 和 checkpoints/fish-agent-v0.1-3b。

环境准备

如果你还没有安装 Fish-speech 的环境，请使用以下命令进行安装：

pip install -e .[stable]

启动 Agent 演示

在主文件夹下使用以下命令启动 Agent 演示：

python -m tools.api --llama-checkpoint-path checkpoints/fish-agent-v0.1-3b/ --mode agent --compile

--compile 参数仅支持 Python < 3.12，这将大幅加速令牌生成。首次启动时，模型将进行编译（如果 --compile 为 True），这可能需要一些时间，请耐心等待。

接下来，使用以下命令启动 Gradio WebUI：

python -m tools.e2e_webui

这将在设备上创建一个 Gradio WebUI。

运行示例

以下是一个简单的示例，展示如何使用 Fish Agent 进行语音到语音转换：

from fish_agent import FishAgent# 初始化模型
agent = FishAgent(checkpoint_path='checkpoints/fish-agent-v0.1-3b/', mode='agent', compile=True)# 输入语音文件路径
input_audio = 'path/to/input/audio.wav'# 处理语音
output_audio = agent.process_audio(input_audio)# 保存输出语音文件
output_audio.save('path/to/output/audio.wav')