丹摩征文活动|快速上手 CogVideoX-2b:智谱清影 6 秒视频生成部署教程

在这里插入图片描述

文章目录

  • 一、生成视频效果
  • 二、CogVideoX 技术新起点
  • 三、CogVideoX 上手部署
    • 3.1 创建丹摩实例
    • 3.2 配置环境和依赖
    • 3.3 模型与配置文件
    • 3.4 运行
    • 3.5 问题与处理方法
  • 四、CogVideoX-2b 用创新点燃未来

一、生成视频效果

A street artist, clad in a worn-out denim jacket and a colorful bandana, stands before a vast concrete wall in the heart, holding a can of spray paint, spray-painting a colorful bird on a mottled wall(一位街头艺术家,身穿破旧的牛仔夹克,系着一条色彩斑斓的头巾,站在城市中心一面宽大的水泥墙前,手握喷漆罐,在斑驳的墙面上喷绘出一只色彩鲜艳的鸟。).

在这里插入图片描述

二、CogVideoX 技术新起点

CogVideoX 的出现被誉为视频生成领域的重大突破,特别是在短视频生成和内容创意方面展现出了强大的潜力。相比传统的视频生成工具,CogVideoX 不仅提升了生成速度,还显著提高了生成内容的质量和细节表现力,使得 AI 在视频生成领域的应用更加广泛和便捷。对于创作者来说,这意味着他们可以更快地制作高质量的视频内容,从而推动整个行业向前迈出一大步。

引入的 3D 旋转位置编码技术 是视频生成领域的一项创新突破。这项技术通过在三维空间中编码物体的旋转位置,为生成的视频提供了更加准确和自然的视觉效果。相比传统的二维位置编码,3D 旋转位置编码能够更精准地捕捉物体在空间中的方位变化,使视频中的动态效果更加逼真流畅,特别是在涉及旋转和视角变化的场景中尤为显著。这种编码技术不仅增强了视频生成的真实感,还为复杂的场景创作提供了新的可能性。

在这里插入图片描述
这一创新显著提升了 CogVideoX 对文本的深层理解和对用户指令的精确遵循能力。通过这一改进,生成的视频不仅能高度契合用户的输入要求,还能轻松应对超长、复杂的文本提示,使视频内容更加符合用户的创意意图。这种能力让 CogVideoX 在处理多层次文本需求时表现出色,确保生成的视频在细节和连贯性上达到新高度,为创意生成提供了更高的灵活性和准确性。

  • 【CogVideoX代码仓库】:https://github.com/THUDM/CogVideo
  • 【模型下载】:https://huggingface.co/THUDM/CogVideoX-2b
  • 【技术报告】:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
  • 【丹摩智算平台】:https://damodel.com/register?source=C4FB0342

三、CogVideoX 上手部署

本次实践流程在丹摩服务器上进行部署和初步使用 CogVideoX。

3.1 创建丹摩实例

(1)进入控制台,选择 GPU 云实例,点击创建实例。(实名认证有抵扣卷)

在这里插入图片描述

(2)CogVideoX 在 FP-16 精度下的推理至少需 18GB 显存,微调则需要 40GB 显存 。

(2.1)选择L40S 显卡(推荐)或者4090 显卡,硬盘可以选择默认的 100GB 系统盘和 50GB 数据盘。

在这里插入图片描述

(2.2)镜像选择 PyTorch2.3.0、Ubuntu-22.04,CUDA12.1 镜像。

在这里插入图片描述

(2.3)创建登录实例。(点击创建密钥对,输入个名称即可创建)

在这里插入图片描述

(2.4)实例创建成功。

在这里插入图片描述

3.2 配置环境和依赖

丹摩平台已预置了调试好的代码库,可开箱即用。

(1)进入 JupyterLab 后,打开终端,首先拉取 CogVideo 代码的仓库。

wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar

在这里插入图片描述

(2) 下载完成后解压缩CogVideo-main.tar,完成后进入 CogVideo-main 文件夹,输入安装对应依赖。

在这里插入图片描述

(3)依赖安装好后,可以在终端输入 python,进入python环境。

输入代码进行测试:

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

没有报错就说明依赖安装成功!输入quit()可退出 python。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.3 模型与配置文件

除了配置代码文件和项目依赖,还需要上传 CogVideoX 模型文件和对应的配置文件。

(1)平台已为您预置了 CogVideoX 模型,您可内网高速下载。

cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar

在这里插入图片描述

(2)下载完成后解压缩CogVideoX-2b.tar

tar -xf CogVideoX-2b.tar

解压后的效果图:

在这里插入图片描述

3.4 运行

(1)进入CogVideo-main文件夹,运行test.py文件。

cd /root/workspace/CogVideo-main
python test.py

在这里插入图片描述

(2)test.py 代码内容如下,主要使用diffusers库中的CogVideoXPipeline模型,加载了一个预训练的 CogVideo 模型,然后根据一个详细的文本描述(prompt),生成对应视频。

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video# prompt里写自定义想要生成的视频内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."pipe = CogVideoXPipeline.from_pretrained("/root/workspace/CogVideoX-2b", # 这里填CogVideo模型存放的位置,此处是放在了数据盘中torch_dtype=torch.float16
).to("cuda")# 参数do_classifier_free_guidance设置为True可以启用无分类器指导,增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=True,num_videos_per_prompt=1,max_sequence_length=226,device="cuda",dtype=torch.float16,
)video = pipe(num_inference_steps=50,guidance_scale=6,prompt_embeds=prompt_embeds,
).frames[0]export_to_video(video, "output.mp4", fps=8)

(3)运行成功后,可以在 CogVideo-main 文件夹中找到对应 prompt 生成的 output.mp4 视频。

在这里插入图片描述

(4)模型官方也提供了 webUIDemo,进入CogVideo-main文件夹,运行gradio_demo.py文件。

cd /root/workspace/CogVideo-main
python gradio_demo.py

在这里插入图片描述

(5)通过丹摩平台提供的端口映射能力,把内网端口映射到公网,进入GPU 云实例页面,点击操作-更多-访问控制。

在这里插入图片描述

(6)点击添加端口,添加7870端口。

在这里插入图片描述

(7)添加成功后,通过访问链接即可访问到刚刚启动的 gradio 页面。

)

3.5 问题与处理方法

端口号被占用。

安装 lsof

apt-get update
apt-get install lsof
# 查占用端口
lsof -i :7870
# 杀进程
kill -9 <PID>

在这里插入图片描述

四、CogVideoX-2b 用创新点燃未来

CogVideoX-2b的出现,标志着视频生成技术的一次重大跨越。凭借强大的3D变分自编码器和3D旋转位置编码技术,CogVideoX-2b不仅优化了资源消耗,还显著提升了生成视频的连贯性和质量。同时,通过智谱AI的端到端视频理解模型,CogVideoX-2b实现了更加智能的内容生成,精准响应用户的需求。

未来,CogVideoX-2b将在视频创作、虚拟现实、教育、广告等领域展现更多潜力。其创新技术不仅为创作者提供了更高效的工具,也将推动视频生成应用走向更加多样化和个性化的方向。CogVideoX-2b用前沿的技术点燃了视频生成的未来,必将引领行业向全新的高度迈进。

推荐平台:丹摩智算平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11604.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

仓库管理系统的实施流程超全解析!

现在我们都能很清楚地知道&#xff0c;在企业管理中仓库管理系统&#xff08;WMS&#xff09;扮演着非常重要的角色。而且随着电子商务的迅猛发展和供应链管理的复杂化&#xff0c;企业对仓库管理的要求越来越高。那么&#xff0c;如何有效地实施一个仓库管理系统&#xff0c;成…

【K8S问题系列 | 10】在K8S集群怎么查看各个pod占用的资源大小?【已解决】

要查看 Kubernetes 集群中各个 Pod 占用的资源大小&#xff08;包括 CPU 和内存&#xff09;&#xff0c;可以使用以下几种方法&#xff1a; 1. 使用 kubectl top 命令 kubectl top 命令可以快速查看当前 Pod 的 CPU 和内存使用情况。需要确保已安装并配置了 Metrics Server。…

YOLO即插即用模块---MEGANet

MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation 论文地址&#xff1a; 解决问题&#xff1a; 解决方案细节&#xff1a; 解决方案用于目标检测&#xff1a; 即插即用代码&#xff1a; 论文地址&#xff1a; https://arxiv.org…

测试求职个人简历案例参考

当涉及到测试求职个人简历时&#xff0c;关键是突出你在测试领域的技能和经验。以下是一个例子&#xff0c;它包含了简历的常见部分&#xff0c;以突出测试方面的专业知识和个人成就。 基本信息 姓名&#xff1a;XXX 电话&#xff1a;123456789 邮箱&#xff1a;jianli100chui.…

Chromium Mojo(IPC)进程通信演示 c++(3)

122版本自带的mojom通信例子channel-associated-interface 仅供学习参考&#xff1a; codelabs\mojo_examples\03-channel-associated-interface-freezing 其余定义参考上一篇文章&#xff1a; Chromium Mojo(IPC)进程通信演示 c&#xff08;2&#xff09;-CSDN博客​​​​…

如何使用SparkSQL在hive中使用Spark的引擎计算

在hive中&#xff0c;由于hive自带的计算引擎计算比较慢&#xff0c;这个时候可以使用spark替换hive的计算引擎&#xff0c;可以增加hive的计算速度。 在替换之前&#xff0c;首先虚拟机上要有spark的集群模式&#xff0c;spark 的yarn集群模式&#xff0c;需要hdfs&#xff0…

MySQL数据库: 初始MySQL +Navicat (学习笔记)

目录 一&#xff0c;MySQL数据库基本概念 1&#xff0c;数据 2&#xff0c;数据库 3&#xff0c;数据库管理系统 4&#xff0c;数据库应用程序 5&#xff0c;数据库管理员 6&#xff0c;最终用户 7&#xff0c;数据库系统 二&#xff0c;MySQL数据库的分类 1&#xf…

22.04Ubuntu---ROS2创建python节点

创建工作空间 mkdir -p 02_ros_ws/src 然后cd到该目录 创建功能包 在这条命令里&#xff0c;tom就是你的功能包 ros2 pkg create tom --build-type ament_python --dependencies rclpy 可以看到tom功能包已经被创建成功了。 使用tree命令&#xff0c;得到如下文件结构 此时…

多模态大模型技术方向和应用场景

多模态大模型&#xff08;Multimodal Large Language Models&#xff0c;MLLM&#xff09;是一种结合了大型语言模型&#xff08;LLM&#xff09;和大型视觉模型&#xff08;LVM&#xff09;的深度学习模型&#xff0c;它们能够处理和理解多种类型的数据&#xff0c;如文本、图…

力扣 LeetCode 977. 有序数组的平方

解题思路&#xff1a; 方法一&#xff1a;先平方再快排 方法二&#xff1a;双指针 因为可能有负数&#xff0c;所以对于一个数组 [ -5 , -3 , 0 , 2 , 4 ] 可以从两边向内靠拢&#xff0c;最大值一定出现在两端 设置指针 i 和指针 j 分别从左右两边靠拢 因为要从小到大排序…

程序员必备的几款爬虫软件,搞定复杂数据抓取任务

作为一名数据工程师&#xff0c;三天两头要采集数据&#xff0c;用过十几种爬虫软件&#xff0c;也用过Python爬虫库&#xff0c;还是建议新手使用现成的软件比较方便。 这里推荐3款不错的自动化爬虫工具&#xff0c;八爪鱼、亮数据、Web Scraper 1. 八爪鱼爬虫 八爪鱼爬虫是一…

008_SSH_Sqlserverl图书管理系统(学生注册 借书 还书)_lwplus87(免费送)

目 录 Abstract IV 第1章 概述... 1 1.1 课题背景... 1 1.2 课题意义... 1 1.3 文献综述... 2 1.3.1 技术综述... 2 1.4 总体设计原则... 2 第2章 系统分析... 4 2.1 系统的需求分析... 4 2.2 业务流程分析... 5 2.2.1 系统管理员业务流程分析... 5 2.3 数据流程分析... 7 2…

EM是什么?如何修复EM violation?

芯冰乐知识星球入口:芯冰乐 EM就electric-migration,即电迁移。电子在金属导体内迁移时,会与金属原子发生碰撞。时间久了,金属原子便会往电子方向进行移动,导致金属导体发生断裂的现象,我们称之为电迁移现象。 如果金属导体内的电流越大,意味着移动的电子数也就越多。…

SQL面试题——连续出现次数

SQL面试题——连续出现次数 其实前面关于连续问题&#xff0c;我们遇到过&#xff0c;就是最大连续登陆天数&#xff0c;或者是连续登陆天数的计算&#xff0c;可以参考我们之前的文章 SQL面试题——最大连续登陆问题 最大连续登陆问题 最大连续登陆问题的难点在于如何判断…

【LLM】3:从零开始训练大语言模型(预训练、微调、RLHF)

一、 大语言模型的训练过程 预训练阶段&#xff1a;PT&#xff08;Pre training&#xff09;。使用公开数据经过预训练得到预训练模型&#xff0c;预训练模型具备语言的初步理解&#xff1b;训练周期比较长&#xff1b;微调阶段1&#xff1a;SFT&#xff08;指令微调/有监督微调…

腾讯云双11优惠大揭秘:省钱攻略不容错过!

文章目录 1 云服务来袭2 新手大礼包3 轻量应用服务器来袭4 腾讯云福利来袭5 福利代金券来袭 1 云服务来袭 云服务器能够灵活地提供计算和存储资源&#xff0c;帮助用户高效地应对信息技术需求&#xff0c;并保障数据的安全性。各大云服务商也因此纷纷推出多样化的优惠活动&…

皮卡超级壁纸 1.4.1 | 解锁会员版的全景壁纸、动态壁纸和超级壁纸

皮卡超级壁纸是一款提供海量壁纸的应用&#xff0c;不仅包含静态的精美壁纸&#xff0c;还提供了独特的超级壁纸。这些超级壁纸不仅仅是动态效果&#xff0c;还能自动匹配用户的手机UI&#xff0c;提供更加个性化的体验。解锁会员版后&#xff0c;用户可以享受更多高级功能和壁…

“绽放艺术风采、激发强国力量” 海南省第十一届中小学生艺术展演活动圆满开展

2024年11月1日&#xff0c;由省教育厅主办、琼台师范学院承办的海南省第十一届中小学生艺术展演省级展演活动在海口正式拉开帷幕。来自全省各市县、省属学校等共计4000余名师生参加本届中小学生艺术展演现场展演活动。 本届展演活动以“绽放艺术风采、激发强国力量”为主题&…

如何挑选靠谱的IP代理池?

嘿&#xff0c;寻觅一个靠谱的IP代理池就好比找到一双合脚的跑鞋&#xff0c;舒适性和耐用性缺一不可。IP代理池同样要支撑您在网络世界中“跑”得更快更远。所以&#xff0c;别急&#xff0c;我们来看看有哪些小妙招&#xff0c;教您挑选出最合适的IP代理池吧&#xff01; 看…

2024/11/10周报

文章目录 摘要GCNCNNGA混合模型预测进水水质代码运行结果 文献阅读题目研究背景与意义研究方法数据采集与预处理GCN–CNNGA混合深度学习框架的构建 模型优化与实验邻接矩阵的构建与效果分析模型预测效果对比多步预测性能 模型优势与应用前景精度提升与处理效率运营决策的优化支…