[大模型]视频生成-Sora简析

 参考资料:

Sora技术报告icon-default.png?t=O83Ahttps://openai.com/index/video-generation-models-as-world-simulators/4分钟详细揭密!Sora视频生成模型原理icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1AW421K7Ut

一、概述

        相较于Gen-2、Stable Diffusion、Pika等生成模型的前辈,Sora有更出众的一镜到底能力(超过60s)。一镜到底的实现中,难点在于让模型正确的理解两帧之间的逻辑性,使生成的视频具备连贯性。

二、Diffusion模型

        Diffusion(扩散模型),会基于随机过程,从噪声图像中逐步祛除噪声来满足生成满足要求的图像。分为两个部分:前向扩散反向扩散

        前向扩散会将一张清晰的图像逐步添加噪声,生成一张充满噪声的图像。而反向扩散则会从一堆噪声中逐步生成一张符合要求的清晰图片。通过反复迭代训练,模型能更好的从噪声中重建高质量的图像数据。

三、Transformer模型

        这里的Transformer主要用于进行文本生成,而非图像识别领域的特征提取。当使用文本作为输入时,连续的文本会被token化,拆分为数个单词并附加位置信息。

         接下来token会被编码器(Encoder)转换为更抽象的特征向量,而解码器(Decoder)则会根据特征向量来生成目标序列。需要注意的是,解码器会同时将特征向量已生成的文本作为输入以保证上下文的连贯性

四、Diffusion Transformer模型

        Diffusion Transformer(DiT)模型借鉴了二、三的优势,为了保证生成内容的连贯性和一致性,Sora引入了时空patch的概念。类似于Transformer中的token,将原始视频通过视觉编码器被压缩为一组低维度特征向量。

         通过这种方式,模型可以同时关注视频中对象在当前帧中的空间位置整个视频中的时间位置

         得益于视觉编码器的压缩,Sora可以很简单的在低维空间中进行训练。经过训练后,Sora会根据噪声patch提示词生成清晰的patch。但这个patch实际上也是一个无法被人理解的低维表示。需要解码器将其还原成视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/3960.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

linux中级(防火墙firewalld)

一。firewalld与iptables区别1.firewalld可以动态修改单条规则,不需要像iptables那样,修改规则后必须全部刷新才可生效。firewalld默认动作是拒绝,则每个服务都需要去设置才能放行,而iptables里默认是每个服务是允许,需…

【C/C++】memcpy函数的使用

零.导言 当我们学习了strcpy和strncpy函数后,也许会疑惑整形数组要如何拷贝,而今天我将讲解的memcpy函数便可以拷贝整形数组。 一.memcpy函数的使用 memcpy函数是一种C语言内存函数,可以按字节拷贝任意类型的数组,比如整形数组。 …

软件测试用例设计:从功能测试到边界值分析

功能测试介绍 功能测试是软件测试的一种重要方式,通过对软件的功能进行测试,来验证软件是否满足需求规格说明书中的各项功能要求。例如,对于一个简单的计算器软件,功能测试的用例可能包括加减乘除等基本运算,以及各种特…

[论文阅读]BERT-based Lexical Substitution

BERT-based Lexical Substitution 基于BERT的词汇替换 ACL2019 BERT-based Lexical Substitution - ACL Anthology 以前关于词汇替换的研究倾向于通过从词汇资源(例如 WordNet)中找到目标词的同义词来获得替代候选词,然后根据其上下文对候…

【Java SE 】特殊报错机制 ---> 异常 !

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 异常概念 1.1 算术异常 1.2. 空指针异常 1.3 数组越界异常 2. 异常的分类 2.1 编译时产生的异常 2.2 运行时产生的异常 3. 如何处理异常 3.1 异常…

使用kettle同步数据流程

使用kettle同步数据流程 一.Kettle软件安装(解压即可使用) 1.windows安装解压 pdi-ce-8.2.0.0-342.zip,点Spoon.bat启动kettle 2.Linux安装 把data-integration目录所有文件上传到服务器 二.安装数据库驱动把需要的…

两级运放的电路版图设计

电路版图文件PDK,88出,点击此处获取,24h秒发 PDF文件免费,已绑定 《集成电路版图设计课程》 课程设计(大作业)报告 2023 - 2024 学年第 1 学期 题 目 CMOS运算放大器的电路设计 专 业 …

Windows不支持配置NFS?还有什么注意事项?

我们前面介绍了如果配置Windows Server的NFS共享(Windows Server2012 R2搭建NFS服务器),也介绍了Linux如何配置NFS共享(CentOS 7搭建NFS服务器)。但是,我最近发现一个问题,那就是桌面版的Window…

解锁测试能力密码:直击三问,成就卓越测试

在测试人眼中真的是“万物皆可测”,不管是物体(铅笔,桌子)、终端(手机,电脑)、软件代码、硬件设备等等。那是因为在底层逻辑中,我们搞清楚了其核心本质,总结起来有三个方…

AutoCAD2021

链接: https://pan.baidu.com/s/1GG93ZFRfV_30xTWtDiv3Ew 提取码: dx8i 简介:一键安装,已经破解。支持W7-w10-w11系统64位

伍光和《自然地理学》电子书(含考研真题、课后习题、章节题库、模拟试题)

《自然地理学》(第4版)由伍光和、王乃昂、胡双熙、田连恕、张建明合著,于2018年11月出版。作为普通高等教育“十一五”国家级规划教材,本书不仅适用于高校地球科学各专业的基础课程,还可供环境、生态等有关科研、教学人…

奥数与C++小学四年级(第十七题 弹跳板)

参考程序代码&#xff1a; #include <iostream> bool visited[101] {false}; // 标记1-100是否被访问过int main() {int step 1; // 初始步数int i 2; // 步长visited[1] true; // 标记位置1已访问while (true) {step i; // 跳到下一个位置if (step >…

206面试题(28~46)

206道Java面试题&#xff08;28~46&#xff09; 28.Array和ArrayList有什么区别&#xff1f; 一、基本性质 Array(数组) Array是一种固定大小的数据结构。 用于存储多个相同类型的元素。 创建时需要指定数组的大小&#xff0c;且长度定义完后不能改变。 ArrayList(动态数组)…

“大跳水”的全新奥迪A3,精准狙击年轻人的心

文/王俣祺 导语&#xff1a;随着传统豪华品牌在国内市场的全面崩盘&#xff0c;奥迪再一次坐不住了。这次&#xff0c;奥迪“割肉”的目标瞄准了被称为“年轻人第一台豪车”的奥迪A3&#xff0c;这款车问世以来&#xff0c;就凭借出色的性能与品质收获了一大批年轻粉丝。如今&a…

网站建设公司怎么选?网站制作公司怎么选才不会出错?

寻找适合靠谱的网站设计公司&#xff0c;不要盲目选广告推最多的几家&#xff0c;毕竟要实现自身品牌营销&#xff0c;还是需要多方面考量。以下几个方面可以作为选择的参考&#xff1a; 1. 专业能力如何&#xff1f; 一个公司的专业能力&#xff0c;决定了最后网站设计的成果…

【IEEE出版 | EI稳定检索】2024智能机器人与自动控制国际学术会议 (IRAC 2024,11月29-12月1日)

2024智能机器人与自动控制国际学术会议 &#xff08;IRAC 2024&#xff09; 2024 International Conference on Intelligent Robotics and Automatic Control 官方信息 会议官网&#xff1a;www.icirac.org 2024 International Conference on Intelligent Robotics and Autom…

【力扣热题100】[Java版] 刷题笔记-104. 二叉树的最大深度

题目&#xff1a;104. 二叉树的最大深度 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 解题思路 有关二叉树的题&#xff0c;最先想到的就是利用递归方法遍历。 解题过程 分别计算左右子树的最大…

【OJ题解】C++实现字符串大数相乘:无BigInteger库的字符串乘积解决方案

&#x1f984;个人主页: 起名字真南 &#x1f984;个人专栏:【数据结构初阶】 【C语言】 【C】 【OJ题解】 目录 1. 引言2. 题目分析示例&#xff1a; 3. 解题思路4. C代码实现5. 代码详解6. 时间和空间复杂度分析7. 边界情况分析8. 总结 1. 引言 在开发中&#xff0c;有时我们…

Rust闭包(能够捕获周围作用域变量的匿名函数,广泛应用于迭代、过滤和映射)闭包变量三种捕获方式:通过引用(不可变引用)、通过可变引用和通过值(取得所有权)

文章目录 Rust 闭包详解闭包的定义与语法基本语法 闭包的特性- 环境捕获&#xff08;三种捕获方式&#xff1a;通过引用、通过可变引用和通过值&#xff08;取得所有权&#xff09;&#xff09;示例代码 - 内存安全与生命周期示例代码1 示例代码2&#xff1a;闭包所有权转移示例…

【xxl-job总结】

文章目录 xxl-job介绍系统组成为什么不使用quartz过期处理策略避免任务重复执行源码分析 xxl-job介绍 XXL-JOB是一个轻量级分布式任务调度平台&#xff0c;它的核心设计目标是开发迅速、学习简单、轻量级、易扩展。 1.简单易用&#xff1a;XXL-JOB提供了友好的Web界面&#xf…