【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

note

  • 现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
  • 这篇综述将现有研究按照三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)、现实全景(Realistic Panorama)。

文章目录

  • note
  • 一、相关背景
    • 扩散模型
    • 论文简介
  • 二、三种大分类
    • 进化的生成器(Evolutionary Generators)
      • 1. GAN/VAE-Based
      • 2. Diffusion-based 基于扩散模型的方法
      • 3. Autoregressive-based 基于自回归的方法
    • 卓越追求(Excellent Pursuit)
    • 现实全景(Realistic Panorama)
  • 三、实验数据
  • Reference

一、相关背景

论文:From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

扩散模型

待补充。

论文简介

Q: 这篇论文试图解决什么问题?
A: 这篇论文是关于文本到视频生成(Text-to-Video Generation, T2V)领域的综述,它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说,论文从以下几个方面展开:

  1. 技术概览:提供了文本到视频生成技术的基础知识和预备概念,帮助读者理解这一领域的技术背景。
  2. 文献分类:将现有的文献从三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)和现实全景(Realistic Panorama),以系统地审视不同研究方向和方法。
  3. 数据集和评估指标:详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标,为研究者提供了基准和评价标准。
  4. 挑战与开放问题:识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题,如物体间的一致性运动、长时间视频生成的连贯性等。
  5. 未来研究方向:基于对现有研究和Sora模型的深入分析,提出了未来研究的潜在方向,为该领域的研究者提供了前瞻性的指导。
  6. Sora模型分析:特别关注了由OpenAI开发的Sora模型,这是一个具有分钟级世界模拟能力的视频生成模型,论文尝试从Sora的角度出发,探讨其在文本到视频生成方面的成就和遇到的障碍。

二、三种大分类

截止2024年年中的文生视频大模型:
在这里插入图片描述

进化的生成器(Evolutionary Generators)

1. GAN/VAE-Based

  1. GAN/VAE-Based: 基于生成对抗网络(GAN)和变分自编码器(VAE)的方法,如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

(1)基于VAE的方法 :

  • 初期创新:[55]提出结合 VAE 和递归注意机制的方法,以生成时间序列帧,并通过文本输入指导。
  • VQ-VAE 的引入:[56]提出 VQ-VAE 模型,通过向量量化结合离散和连续表示的优势,在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE,展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

(2)基于GAN的方法 :

  • TGANs-C:[60]提出了一种从文本字幕生成视频的方法,通过3D卷积和多组件损失函数,确保视频在时间上的连贯性和语义上的一致性。
  • 混合模型:[58]提出将 VAE 和 GAN 结合的模型,能够捕捉文本中的静态和动态属性,从而提升基于文本生成视频的复杂性和细致度。
  • 结合 LSTM 的创新:[59]将 GAN 与长短期记忆(LSTM)网络结合,提高了生成视频的视觉质量和语义连贯性,确保生成内容与文本描述的紧密对齐。

2. Diffusion-based 基于扩散模型的方法

在这里插入图片描述

  1. Diffusion-based: 基于扩散模型的方法,如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。
  • 视频扩散模型(VDM) 是这一领域的重要突破,通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地,MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本,生成高质量的视频。
  • LVDM 模型引入层次化潜在视频扩散,实现长视频的高效生成,并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出,而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
  • Tune-A-Video 扩展了2D潜在扩散模型到时空领域,通过稀疏时空注意机制优化计算效率,实现视频生成的时间一致性。
  • VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率,VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
  • Make-A-Video 模型和 Imagen Video 采用文本生成图像技术,拓展至视频领域,结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成,细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计,确保跨帧时间一致性。
  • NUWA-XL 利用“多层次扩散”架构生成极长视频,采用“粗到细”策略生成全局一致且细致的视频内容。

3. Autoregressive-based 基于自回归的方法

  1. Autoregressive-based: 基于自回归模型的方法,如NUWA、NUWA-Infinity、Phenaki、VideoGPT等。

  2. NUWA 系列

  • NUWA 采用3D变换器编码器-解码器框架,通过3D临近注意机制实现高质量图像和视频合成,展现了零样本能力。
  • NUWA-Infinity 引入创新的自回归与自回归框架,能够生成可变大小的高分辨率视觉效果,以灵活且高效的方式创建视觉内容。
  1. Phenaki
  • 采用C-ViViT编码器-解码器结构,实现从文本输入生成可变长度的视频,高效地将视频数据压缩成紧凑的令牌化表示,生成连贯且时间一致的视频。
  1. VideoGPT
  • 结合VQ-VAE和变换器架构,通过3D卷积和轴向注意力学习视频的降采样离散潜在表示,捕捉视频序列的复杂时间和空间动态。
  1. Large World Model (LWM)
  • 设计为处理长上下文序列的自回归变换器,融合视频和语言数据,并通过RingAttention机制高效处理大量令牌,最大化上下文意识。
  1. Genie
  • 生成性交互工具,利用时空(ST)变换器进行视频令牌化和动作模型的提取,自回归预测下一帧,生成可控和交互的视频环境。
  1. TATS
  • 设计用于生成长时视频,结合时间无关的VQGAN和时间敏感的变换器,确保视频质量和长时间依赖性的平衡,生成连贯的长视频。
  1. CogVideo
  • 继承CogView2预训练模型的文本-图像对齐知识,通过多帧率分层训练生成关键帧并插补中间帧,采用双通道注意机制和递归插值过程,生成详细且语义一致的视频。

卓越追求(Excellent Pursuit)

  1. Extended Duration: 研究如何生成更长时序的视频,例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
  2. Superior Resolution: 专注于生成高分辨率视频的研究,如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
  3. Seamless Quality: 研究如何生成无缝质量的视频,提高视频的流畅性和观感。

现实全景(Realistic Panorama)

  1. Dynamic Motion: 研究如何处理视频中的动态运动,如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
  2. Complex Scene: 研究如何生成复杂的场景,如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

三、实验数据

在这里插入图片描述

数据集和评估指标(Datasets & Metrics)

  • 数据集包括但不限于:UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
  • 评估指标包括:PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。

Reference

[1] From Sora What We Can See: A Survey of Text-to-Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149310.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

在IntelliJ IDEA中设置文件自动定位

当然,以下是一个整理成博客格式的内容,关于如何在IntelliJ IDEA中设置文件自动定位功能。 在IntelliJ IDEA中设置文件自动定位 背景 最近由于公司项目开发的需求,我从VSCode转到了IntelliJ IDEA。虽然IDEA提供了许多强大的功能,…

【机器学习】——支持向量机

文章目录 支持向量机(Support Vector Machine, SVM)概述SVM 的工作原理线性不可分数据:软间隔与核技巧SVM 的数学形式SVM 的优势SVM 的缺点SVM 的应用 支持向量机(Support Vector Machine, SVM)概述 支持向量机&#…

Linux基本命令总结(佛系更)

目录 前言 一、Linux的基本目录 目录: 前缀: 二、Linux基本命令 文件相关 1.pwd: 2.ls [option] [file]: 3.cd [xxx]: 4.mkdir [option] directory: 5.rmdir [option] directory: rm 6.touch file: 7.cp: 8.mv&…

0-1开发自己的obsidian plugin DAY 1

官网教程有点mismatch,而且从0-100跨度较大,📝记录一下自己的踩坑过程 首先,官网给的example里只有main.ts,需要自己编译成main.js 在视频教程(https://www.youtube.com/watch?v9lA-jaMNS0k)里…

同一网络下两台电脑IP一样吗?探究局域网内的IP分配机制

在日常生活和工作中,我们经常会在同一网络环境下使用多台电脑。这时,一个常见的问题就会浮现:同一网络下两台电脑IP一样吗?这个问题看似简单,但实际上涉及到局域网内的IP分配机制。本文将深入探讨这一问题,…

付费电表系统的通用功能和应用过程参考模型(上)

Generic functions and application process reference model for the Payment Metering System 付费电表系统的通用功能和应用过程参考模型 1. 参考模型 Reference model 1.1 在参考模型中的符号的说明 Legend of symbols used in the reference model 功能框 (function bo…

c++9月23日

1.My_string 头文件 #ifndef MY_STRINGHEAD_H #define MY_STRINGHEAD_H#include <iostream> #include <cstring> using namespace std;class My_string { private:char *ptr;//指向字符数组的指针int size;//字符数组的最大容量int len ;//当前字符串的长度 publ…

IMX6UL开发板中断实验(三)

在上一节我们编写完成了中断驱动文件和中断驱动头文件&#xff0c;那么这一讲我们将继续中断实验 下面就是GPIO的中断设置&#xff0c;第一步要设置中断GPIO的触发方式&#xff0c;首先我们先看到寄存器&#xff0c;一共有GPIOx_ICR1和ICR2&#xff0c; 图如上&#xff0c;ICR1…

【采集软件】小红书评论高级爬取工具

用python开发了一个爬虫采集软件&#xff0c;叫【爬小红书搜索评论软件】&#xff0c;支持2种模式的评论采集&#xff1a; 1. 根据关键词采集评论&#xff0c;爬取思路&#xff1a;笔记关键词->笔记链接->评论 2. 根据笔记链接采集评论&#xff0c;爬取思路&#xff1a;…

每日一练:翻转二叉树

226. 翻转二叉树 - 力扣&#xff08;LeetCode&#xff09; 一、题目要求 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1]示例 2&#xff…

MATLAB Function模块用法案例

Simulink中的MATLAB Function模块是一个非常灵活的工具&#xff0c;允许用户直接在Simulink模型中嵌入MATLAB代码&#xff0c;以实现自定义的算法或功能 MATLAB Function模块的基本用法 添加模块&#xff1a; 在Simulink的模型窗口中&#xff0c;通过搜索“MATLAB Function”…

大数据新视界 --大数据大厂之 Reactjs 在大数据应用开发中的优势与实践

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

2024 年最新前端工程师 Vue3 框架详细教程(更新中)

vue3 前端框架概述 vue 3 是 Vue.js 的最新版本&#xff0c;是一个用于构建用户界面的渐进式 JavaScript 框架。和 vue 2 相比&#xff0c;vue 3 引入了组合式 API&#xff0c;使开发者可以通过函数组织代码逻辑&#xff0c;适合处理复杂功能。vue 3 在性能上也有显著提升&…

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

大模型微调实战&#xff1a;精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战&#xff0c;人工智能视频课程-多模态大模型&#xff0c;微调技术训练营&#xff0c;大模型多场景实战&#xff0c;AI图像处理&#xff0c;AI量化投资&#xff0c;OPenC…

使用Charles抓包Android App数据

版权归作者所有&#xff0c;如有转发&#xff0c;请注明文章出处&#xff1a;https://cyrus-studio.github.io/blog/ 抓包环境准备 1. 下载安装charles charles下载地址&#xff1a;https://www.charlesproxy.com/latest-release/download.do 2. SSL代理设置 3. http代理和…

【计算机网络强化】计网强化笔记

第一章 计算机网络体系结构 1.1 计算机网络概述 1.计算机网络由若干个节点和连接这些节点的链路组成 2. 3.计算机网络的组成 ①硬件、软件、协议 ②边缘部分和核心部分 ③通信子网和资源子网 4.电路交换、报文交换和分组交换 ①电路交换 分为三步&#xff1a;建立连接、…

使用SBP打AssetBundle时脚本引用丢失

1&#xff09;使用SBP打AssetBundle时脚本引用丢失 2&#xff09;在UE 5.3中连接Power节点为何10的3次幂等于1009 3&#xff09;如何在Widget中倾斜一张纹理贴图 4&#xff09;如何在打开关卡蓝图时更改游戏模式 这是第401篇UWA技术知识分享的推送&#xff0c;精选了UWA社区的热…

.NET 6.0 WebAPI 使用JWT生成Token的验证授权

1.引入相关程序包JwtBearer注意版本: 2.配置文件appsettings.json写相关配置参数(也可不写&#xff0c;写在程序里面&#xff0c;数据库读取也是一样的) , //JWT加密"JWTToken": {"SecretKey": "jsaduwqe6asdjewejdue7dfmsdfu0sdfmwmsd8wfsd6",…

Postman导出报告

一、下载node.js 导出测试报告我们需要用到一个工具叫做newman&#xff0c;它是node.js开发的一个插件&#xff0c;要使用他需要先下载node.js&#xff0c;安装包可以去官网下载&#xff0c;这里我分享一个 链接: https://pan.baidu.com/s/179yLzwTtLH3eihYs_yxrZA?pwd7bqt 提…

数据分析:主成分以及贡献变量解析

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍分析目的变量的loadings的含义加载依赖包导入数据数据预处理PCA计算PCA图主成分分布系统信息介绍 PCA分析,即主成分分析(Principal Component Analysis),是一种统计方法,用于…