AI生成字幕模型whisper介绍与使用

文章目录

  • 前言
  • 一、whisper介绍
  • 二、预训练模型下载与环境配置
  • 三、推理


前言

随着人工智能技术的飞速发展,AI生成字幕模型已成为视频内容创作和传播领域的重要工具。其中,OpenAI推出的Whisper模型以其卓越的性能和广泛的应用场景,受到了广大用户和研究者的关注。本文将详细介绍Whisper模型的基本原理、特点、应用场景以及使用方法,旨在帮助读者更好地了解和运用这一先进技术。

一、whisper介绍

Whisper是端到端的语音系统,相比于之前的端到端语音识别,其特点主要是:

  1. 多语种:英语为主,支持99种语言,包括中文。
  2. 多任务:语音识别为主,支持VAD、语种识别、说话人日志、语音翻译、对齐等。
  3. 数据量:68万小时语音数据用于训练,从公开数据集或者网络上获取的多种语言语音数据,远超之前语音识别几百、几千、最多1万小时的数据量。下面会展开介绍。
  4. 鲁棒性:主要还是源于海量的训练数据,并在语音数据上进行了常见的增强操作,例如变速[1]、加噪、谱增强[2]等。
  5. 多模型:提供了从tiny到Turbo,适合不同场景。其中Turbo 模型是 Large-V3 的优化版本,可提供更快的转录速度,同时将准确性的下降降至最低。如下图所示:在这里插入图片描述

Whisper模型的性能因语言而异。下表展示了大型-v3和大型-v2模型在不同语言上的性能分解,使用的是在Common Voice 15和Fleurs数据集上评估的WER(单词错误率)或CER(字符错误率,以斜体显示)。
在这里插入图片描述
模型采用了经典的基于Transformer的Encoder-Decoder的结构。模型输入的特征是80维Fbank特征,输出的label是文本ID,在文本ID之前是语种ID、任务类型、时间戳三个特殊标记。如下图所示。
在这里插入图片描述

二、预训练模型下载与环境配置

本文作者利用CT-Transformer标点模型 对中文开源数据(AISHELL1 AISHELL2 WENETSPEECH HKUST)加标点,基于Belle-whisper-large-v3-zh进行了Lora微调,得到标点能力提升的Belle-whisper-large-v3-zh-punct,在复杂场景下(wenetspeech_meeting)上有进一步提升。模型已经开源到Huggingface,欢迎下载:在这里插入图片描述
点进想要下载的模型界面点击
在这里插入图片描述

可以将下面的文件全部下载并移动到一个文件夹下在这里插入图片描述
在这里插入图片描述
环境配置:
创建虚拟环境并安装pytorch:

conda create -n whisper python=3.9
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

下载whisper项目:
cd到下载好的项目路径中
执行:

pip install -r requirement.txt

三、推理

运行下面代码:
model的路径就是刚才下载好的文件夹,transcriber是你准备识别的音频文件

from transformers import pipelinetranscriber = pipeline("automatic-speech-recognition",model=r"F:\whisper-main\cccc/",return_timestamps=True
)transcriber.model.config.forced_decoder_ids = (transcriber.tokenizer.get_decoder_prompt_ids(language="zh",task="transcribe")
)transcription = transcriber("D:\ApowerREC/1~1.mp3")
print(transcription)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15116.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计 | SpringBoot社区物业管理系统 小区管理(附源码)

1, 概述 1.1 课题背景 近几年来,随着物业相关的各种信息越来越多,比如报修维修、缴费、车位、访客等信息,对物业管理方面的需求越来越高,我们在工作中越来越多方面需要利用网页端管理系统来进行管理,我们…

4G与lora DTU农业监测应用数字化管理升级

农业监测的数字化管理升级,通过采用4G和LoRa等无线技术,解决渔业养殖、畜牧管理、农业灌溉以及远程监测等领域的互联互通。 渔业养殖水质监测 在渔业养殖中4G DTU通过采集各种水质传感器进行水质监测,4G DTU能够实时监测养殖水体的温度、pH值…

GA/T1400视图库平台EasyCVR视频融合平台HLS视频协议是什么?

在数字化时代,视频监控系统已成为保障安全、提升效率的关键技术。EasyCVR视频融合云平台,作为TSINGSEE青犀视频在“云边端”架构体系中的重要一环,专为大中型项目设计,提供了一个跨区域、网络化的视频监控综合管理系统平台。它不仅…

maven工程修改jdk编译版本的几种方法

一.背景 maven工程修改jdk编译版本的几种方法,以前这些小细节处理了就处理了,没有去记录,现在带徒弟,就写下吧!可能不全面,不喜勿喷。哦,说下,本文的例子是在eclipse中开发截图的。 …

详细介绍Transformer!

🤗Transformer是一种神经网络架构,核心思想是利用自注意力机制来捕捉序列中元素之间的关系。从而避免了传统RNN难以处理长序列依赖的问题。 Transformer的主要组件和流程 💫Encoder-Decoder结构 Transformer包含编码器和解码器两个主要部分…

中国车牌分类

从颜色和单双层分类(不考虑临时车牌) 黄单黄双黄绿单蓝单蓝双绿单绿双黑单黑双白单白双 #特殊文字 挂使港澳学警领临

【4060显卡也能跑高质量的Flux模型了吗】MIT Han 实验室开源了一个Flux的量化项目——SVDQuant

麻省理工学院(MIT)Han 实验室一直在积极开展一系列项目,包括微小机器学习(Tiny Machine Learning)、SANA、SVDQuant 和 QServe,这些项目旨在提高人工智能计算的效率,并实现在边缘设备上的高效部…

基于Java Springboot学生管理系统

一、作品包含 源码数据库全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA 数据库:MySQL5.7 数据库管理…

DELL Precision 系列默认用的都是非ECC内存

文章目录 DELL Precision 系列默认用的都是非ECC内存概述SSD升级SSD1SSD2 笔记DELL Precision 系列默认用的都是非ECC内存可以选非ECC的内存 备注备注如果不差钱备注END DELL Precision 系列默认用的都是非ECC内存 概述 去了一次DELL维修中心,清了一次灰。人工真贵…

Linux基础(2)以及资源耗尽病毒的编写(详见B站泷羽sec)

免责声明:本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害,包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等,不承担任何责任。所有使用本教程内容的个人或组织应自行承担全部风险。 Linux…

20241114软考架构-------软考案例15答案

每日打卡题案例15答案 15.【2016年真题】 难度:一般 阅读以下关于应用服务器的叙述,在答题纸上回答问题1至问题3。(25分) 【说明】 某电子产品制造公司,几年前开发建设了企业网站系统,实现了企业宣传、产品…

【LeetCode】每日一题 2024_11_14 统计好节点的数目(图/树的 DFS)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:统计好节点的数目 代码与解题思路 先读题:题目要求我们找出好节点的数量,什么是好节点?“好节点的所有子节点的数量都是相同的”,拿示例一…

HarmonyOs DevEco Studio小技巧29--ArkTS文字如何渐变

这是需求 昨天想了老多方法 一开始以为加上线性渐变这个属性就好了 Entry Component struct TextTest {State message: string 中华人民共和国万岁;build() {RelativeContainer() {Text(this.message).id(TextTestHelloWorld).fontSize(33).fontWeight(FontWeight.Bold).alig…

块设备 - 想进阶的必经之路!

在Linux内核开发的世界中,块设备(Block Device)是一块不可忽视的领域。它承载了文件系统的运行,管理着磁盘存储的核心逻辑,是初学者迈向内核进阶的重要知识点。本篇文章将用通俗易懂的语言,为你揭开块设备的…

高鑫零售实现扭亏为盈,逆市增长的高鑫零售未来何在?

大润发母公司高鑫零售发布截至9月30日的2025财年中期业绩报告:营收347.08亿元人民币,税后溢利1.86亿元,同比增加5.64亿元,实现扭亏为盈,高鑫零售的成绩单我们该如何分析? 首先,整体来看&#x…

AI绘画如何赚钱?分享5个简单,易上手的实用性案例

近年来,人工智能(AI)技术在各个领域都取得了巨大的突破,其中之一就是AI绘画。通过分享一些令人兴奋的应用与变现案例,我们可以深入了解AI绘画的实际应用,以及它如何改变了传统艺术创作和商业模式。 在接下…

如何在 Ubuntu 上安装 RStudio IDE(R语言集成开发环境) ?

RStudio 是一个功能强大的 R 语言集成开发环境(IDE),R 是一种主要用于统计计算和数据分析的编程语言。任何从事数据科学项目或任何其他涉及 R 的类似任务的人,RStudio 都可以使您的工作更轻松。 本指南将引导您完成在 Ubuntu 系统上安装 RStudio 的过程…

C++玩转物联网:认识树莓派Pico

在嵌入式编程的领域中,树莓派Pico、Arduino和ESP32都是广受欢迎的微控制器开发板,但它们在性能、功能和编程语言支持上各有特点。树莓派Pico是树莓派基金会推出的一款高性价比开发板,搭载了RP2040微控制器,支持标准的C库&#xff…

网络基础 - 网段划分篇

我们知道,IP 地址(IPv4 地址)由 “网络标识(网络地址)” 和 “主机标识(主机地址)” 两部分组成,例如 192.168.128.10/24,其中的 “/24” 表示从第 1 位开始到多少位属于网络标识,那么,剩余位就属于主机标识了&#xf…

当微软windows的记事本被AI加持

1985年,微软发布了Windows 1.0,推出了一款革命性的产品:记事本(Notepad)。这款软件旨在鼓励使用一种未来主义的新设备——鼠标,并让人们可以不依赖VI等键盘工具就能书写文本和编写代码。记事本因其简洁和高…