【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

note

现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
这篇综述将现有研究按照三个维度进行分类：进化生成器（Evolutionary Generators）、卓越追求（Excellent Pursuit）、现实全景（Realistic Panorama）。

论文：From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

待补充。

Q: 这篇论文试图解决什么问题？
A: 这篇论文是关于文本到视频生成（Text-to-Video Generation, T2V）领域的综述，它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说，论文从以下几个方面展开：

技术概览：提供了文本到视频生成技术的基础知识和预备概念，帮助读者理解这一领域的技术背景。
文献分类：将现有的文献从三个维度进行分类：进化生成器（Evolutionary Generators）、卓越追求（Excellent Pursuit）和现实全景（Realistic Panorama），以系统地审视不同研究方向和方法。
数据集和评估指标：详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标，为研究者提供了基准和评价标准。
挑战与开放问题：识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题，如物体间的一致性运动、长时间视频生成的连贯性等。
未来研究方向：基于对现有研究和Sora模型的深入分析，提出了未来研究的潜在方向，为该领域的研究者提供了前瞻性的指导。
Sora模型分析：特别关注了由OpenAI开发的Sora模型，这是一个具有分钟级世界模拟能力的视频生成模型，论文尝试从Sora的角度出发，探讨其在文本到视频生成方面的成就和遇到的障碍。

截止2024年年中的文生视频大模型：
在这里插入图片描述

GAN/VAE-Based: 基于生成对抗网络（GAN）和变分自编码器（VAE）的方法，如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

（1）基于VAE的方法：

初期创新：[55]提出结合 VAE 和递归注意机制的方法，以生成时间序列帧，并通过文本输入指导。
VQ-VAE 的引入：[56]提出 VQ-VAE 模型，通过向量量化结合离散和连续表示的优势，在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE，展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

（2）基于GAN的方法：

在这里插入图片描述

视频扩散模型（VDM）是这一领域的重要突破，通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地，MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本，生成高质量的视频。
LVDM 模型引入层次化潜在视频扩散，实现长视频的高效生成，并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出，而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
Tune-A-Video 扩展了2D潜在扩散模型到时空领域，通过稀疏时空注意机制优化计算效率，实现视频生成的时间一致性。
VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率，VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
Make-A-Video 模型和 Imagen Video 采用文本生成图像技术，拓展至视频领域，结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成，细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计，确保跨帧时间一致性。
NUWA-XL 利用“多层次扩散”架构生成极长视频，采用“粗到细”策略生成全局一致且细致的视频内容。

Extended Duration: 研究如何生成更长时序的视频，例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
Superior Resolution: 专注于生成高分辨率视频的研究，如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
Seamless Quality: 研究如何生成无缝质量的视频，提高视频的流畅性和观感。

Dynamic Motion: 研究如何处理视频中的动态运动，如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
Complex Scene: 研究如何生成复杂的场景，如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

在这里插入图片描述

数据集和评估指标（Datasets & Metrics）

数据集包括但不限于：UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
评估指标包括：PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。