清华大学开源视频转文本模型——CogVLM2-Llama3-Caption

在这里插入图片描述
通常情况下,大多数视频数据并不附带相应的描述性文本,因此有必要将视频数据转换为文本描述,为文本到视频模型提供必要的训练数据。 CogVLM2-Caption 是一个视频字幕模型,用于为 CogVideoX 模型生成训练数据。

在这里插入图片描述
文件

在这里插入图片描述

使用

import ioimport argparse
import numpy as np
import torch
from decord import cpu, VideoReader, bridge
from transformers import AutoModelForCausalLM, AutoTokenizerMODEL_PATH = "THUDM/cogvlm2-llama3-caption"DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
TORCH_TYPE = torch.bfloat16 if torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 8 else torch.float16parser = argparse.ArgumentParser(description="CogVLM2-Video CLI Demo")
parser.add_argument('--quant', type=int, choices=[4, 8], help='Enable 4-bit or 8-bit precision loading', default=0)
args = parser.parse_args([])def load_video(video_data, strategy='chat'):bridge.set_bridge('torch')mp4_stream = video_datanum_frames = 24decord_vr = VideoReader(io.BytesIO(mp4_stream), ctx=cpu(0))frame_id_list = Nonetotal_frames = len(decord_vr)if strategy == 'base':clip_end_sec = 60clip_start_sec = 0start_frame = int(clip_start_sec * decord_vr.get_avg_fps())end_frame = min(total_frames,int(clip_end_sec * decord_vr.get_avg_fps())) if clip_end_sec is not None else total_framesframe_id_list = np.linspace(start_frame, end_frame - 1, num_frames, dtype=int)elif strategy == 'chat':timestamps = decord_vr.get_frame_timestamp(np.arange(total_frames))timestamps = [i[0] for i in timestamps]max_second = round(max(timestamps)) + 1frame_id_list = []for second in range(max_second):closest_num = min(timestamps, key=lambda x: abs(x - second))index = timestamps.index(closest_num)frame_id_list.append(index)if len(frame_id_list) >= num_frames:breakvideo_data = decord_vr.get_batch(frame_id_list)video_data = video_data.permute(3, 0, 1, 2)return video_datatokenizer = AutoTokenizer.from_pretrained(MODEL_PATH,trust_remote_code=True,
)model = AutoModelForCausalLM.from_pretrained(MODEL_PATH,torch_dtype=TORCH_TYPE,trust_remote_code=True
).eval().to(DEVICE)def predict(prompt, video_data, temperature):strategy = 'chat'video = load_video(video_data, strategy=strategy)history = []query = promptinputs = model.build_conversation_input_ids(tokenizer=tokenizer,query=query,images=[video],history=history,template_version=strategy)inputs = {'input_ids': inputs['input_ids'].unsqueeze(0).to('cuda'),'token_type_ids': inputs['token_type_ids'].unsqueeze(0).to('cuda'),'attention_mask': inputs['attention_mask'].unsqueeze(0).to('cuda'),'images': [[inputs['images'][0].to('cuda').to(TORCH_TYPE)]],}gen_kwargs = {"max_new_tokens": 2048,"pad_token_id": 128002,"top_k": 1,"do_sample": False,"top_p": 0.1,"temperature": temperature,}with torch.no_grad():outputs = model.generate(**inputs, **gen_kwargs)outputs = outputs[:, inputs['input_ids'].shape[1]:]response = tokenizer.decode(outputs[0], skip_special_tokens=True)return responsedef test():prompt = "Please describe this video in detail."temperature = 0.1video_data = open('test.mp4', 'rb').read()response = predict(prompt, video_data, temperature)print(response)if __name__ == '__main__':test()

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148733.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C语言编程中的小数(double,float)

最近看电路基础,第一个知识就是欧姆定律。 一、欧姆本人介绍 欧姆(Georg Simon Ohm)‌,1789年3月16日出生于德国巴伐利亚州的‌埃尔朗根,是一位杰出的物理学家和数学家。他最为人知的是在‌电学领域的贡献&#xff0…

动态倒计时在 Vue 3 中的实现

目录 1. Demo2. 实战Demo3. 拓展Demo 1. Demo 给一版初始的Demo,在给一版实战中的Demo 基本知识点: Vue 3 的响应式原理:Vue 3 使用 reactive 和 ref 创建响应式数据,数据的变化会自动触发视图更新setup 函数:Vue 3…

​智慧铜矿厂综合管控平台,智慧矿山数字孪生

随着矿山行业的不断发展,传统的管理方式已经无法满足现代铜矿高效、安全、环保和精细化管理的需求,因此,构建一个综合管控平台变得尤为必要。HT 铜矿综合管控平台应运而生,通过信息化和智能化手段,整合采矿、选矿、冶炼…

【包教包会】CocosCreator3.x框架——音频模块(无需导入、无需常驻节点)

下载地址:AudioDemo3.x: CocosCreator3.x框架——音频模块 注意事项: 1、gi.musicPlay、gi.soundPlay是同步函数,使用前必须先将音频加载到缓存 Demo通过SceneLoading实现了一个极简的Loading页面,将音频全部加载后进入游戏&…

Vue学习文档

文章目录 一、Vue 简介1、官网2、作者和版本3、定义4、特点5、Vue 的周边库二、Vue 安装使用1、CDN 引入2、下载后引入3、命令行工具 (CLI)三、入门案例四、MVVM模型1、MVVM 模型2、Vue 与 MVVM 模型五、Vue 基本使用1、文本插值(掌握)-text2、属性插值(掌握 )-bind3、Clas…

【Python】Spyder:科学 Python 开发环境

在数据科学和科学计算领域,Python 已经成为了一个不可或缺的工具。为了提高开发效率和改善编程体验,一个功能强大且用户友好的开发环境是必需的。Spyder(Scientific Python Development Environment)正是这样一个为科学计算和数据…

数据结构-线性表的单链式存储结构图解及C语言实现

概念 链式存储:结点在存储器中的位置是任意的,即逻辑相邻的数据元素在物理上不一定相邻 链式存储结构也称非顺序映像或链式映像 图解 链式存储结构中结点一般有两个部分组成,即数据域(data)和指针域,数据域是用于存放数据的&…

振弦式轴力计 轴向力仪器钢支撑轴力计 清易让选择不再迷路

产品概述 振弦式轴力计是一种用于测量轴向力的仪器。它通过测量振弦的频率变化来计算轴向力的大小。当轴向力作用在弹性元件上时,振弦的张力会发生变化,从而导致振弦的频率发生变化。电磁线圈用于驱动振弦并测量其频率。信号处理单元则用于将频率信号转…

Anthropic谋求新一轮融资 估值或达400亿美元

🦉 AI新闻 🚀 Anthropic谋求新一轮融资 估值或达400亿美元 摘要:美国AI初创公司Anthropic正在与投资者洽谈新一轮融资,估值可能达到300至400亿美元,约为今年初融资估值的两倍。Anthropic依靠其生成式AI聊天机器人Cla…

LNK2019:无法解析的外部符号 “class std::basic_ostream ...(template 的声明)

文章目录 一、问题&#xff1a;二、解决&#xff1a;1. 问题2. 解释① 类模板② 函数模板 一、问题&#xff1a; 今天在实现 vector 时&#xff0c;发现出现了一个错误&#xff1a; 它说&#xff0c;不认识 ostream&#xff0c;我在重载<< 符号时&#xff0c;使用了 ost…

7.ChatGPT与SEO - 优化内容策略【7/10】

引言 在当今的数字化时代&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;已成为数字营销中不可或缺的一部分。它不仅帮助企业提高在线可见性&#xff0c;还直接影响着网站的流量、品牌知名度和最终的销售转化。SEO通过优化网站内容和结构&#xff0c;使其在搜索引擎结果…

【Python】多个dataframe存入excel的不同的sheet表里,而不会被覆盖的方法

我发现&#xff0c;我原来用的多个工作簿存入的方法&#xff0c;发现不太可行了。当使用for循环的时候&#xff0c;原来的sheet 会被新的表给覆盖&#xff0c;后来我找到一种新的方法&#xff1a; with pd.ExcelWriter(file_name ) as writer:Table.to_excel(writer, sheet_na…

JAVA无缝沟通全球国际版多语言语聊系统小程序源码

无缝沟通全球 —— 国际版多语言语聊系统 &#x1f30d;【开篇&#xff1a;跨越语言障碍&#xff0c;与世界无缝对话】&#x1f30d; 在这个全球化的时代&#xff0c;你是否渴望与世界各地的朋友无缝交流&#xff0c;却常常被语言的隔阂所困扰&#xff1f;别担心&#xff0c;今…

振弦式渗压计智慧水利工程 适用恶劣环境有保障

产品概述 振弦式渗压计适合埋设在水工建筑物和基岩内&#xff0c;或安装在测压管、钻孔、堤坝、管道或压力容器中&#xff0c;以测量孔隙水压力或液位。主要部件均采用特殊钢材制造&#xff0c;适合在各种恶劣环境中使用。特殊的稳定补偿技术使传感器具有极小的温度补偿系数。…

Adobe Photoshop 2024 v25.12 (macOS, Windows) 发布下载 - 照片和设计软件

Adobe Photoshop 2024 v25.12 (macOS, Windows) - 照片和设计软件 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom Classic、Media Encoder、Photoshop、Premiere Pro、Adobe XD…

CSS02-字体属性、文本属性

一、字体属性 CSS Fonts(字体)属性用于定义字体系列、大小、粗细、和文字样式(如斜体)。 1-1、font-family属性 当font-family有多个值的时候&#xff0c;代码会依次查找当前系统中存在哪种字体&#xff0c;有则使用&#xff0c;没有则查找下一个字体。 1-2、font-size属性 1-3…

wpf中如何访问控件和生成使用事件?

实际上对于初次使用wpf的同学来说&#xff0c;尤其是有winform编程经验的童鞋来说&#xff0c;最需要解决的就是快速掌握访问控件的方法以及生成和使用事件。这样才能让页面具有最起码的交互性。下面我们来分别讲述。 文章原出处&#xff1a;https://blog.csdn.net/haigear/ar…

双链表和循环链表的各种基本运算的算法(数据结构作业03)

双链表 目的&#xff1a;双链表的存储结构和掌握双链表中各种基本运算算法的设计 内容&#xff1a;编写一个程序dlinkst.cpp,实现双链表的各种基本运算和整体建表算法&#xff0c;双链表的元素类型Elem Type为int并在此基础上设计一个程序。 (1)初始化双链表h。 (2)依次采用尾…

电动车无钥匙一键启动‌系统应用

电动车无钥匙一键启动‌是一种便捷的启动方式&#xff0c;它允许车主在不使用传统钥匙的情况下启动车辆。这种启动方式通常依赖于无线射频识别&#xff08;RFID&#xff09;技术&#xff0c;通过车主随身携带的智能卡里的芯片感应自动开关门锁。当车主走近车辆时&#xff0c;门…

日志系统扩展一:日志落地数据库:MySQL、SQLite3

日志系统扩展一&#xff1a;日志落地数据库&#xff1a;MySQL、SQLite3 一、设计1.怎么落地2.落地的具体设计3.表的设计1.MySQL2.SQLite3 二、数据库访问Helper的实现1.需要事务&#xff0c;但是无需回滚&#xff0c;如何理解&#xff1f;1.需要事务2.无需回滚 2.SqliteHelper1…