一波视频生成模型突然出现

ditikhatun15 · 发表于 2024-5-2 17:25:05

最近，在许多情况下展示了令人惊叹的如画质量。当前视频生成的瓶颈之一是产生连贯大运动的能力。在许多情况下，即使是当前领先的模型也会产生较小的运动，或者当产生较大的运动时，会表现出明显的伪影。为了探索语言模型在视频生成中的应用，我们引入（网站，研究论文），这是一种大型语言模型能够执行各种视频生成任务，包括文本到视频、图像到视频-视频、视频风格化、视频修复和修复以及视频转音频。一项值得注意的观察是，领先的视频生成模型几乎完全是基于扩散的。另一方面，法学硕士因其跨各种模式（包括语言、代码和音频的卓越学习能力而被广泛认为是事实上的标准。

与该领域的替代模型相比，我们的方法将许多视频生成功能无缝集成在单个法学硕士中，而不是依赖于专门针对每个任务的单独训练的组件。概述下图说明了的功能。输入图像可以被动画化以产生运动，并且（可以 阿富汗电话号码数据 选择裁剪或遮罩）视频可以被编辑以进行修复或修复。对于风格化，该模型接收代表深度和光流（代表运动）的视频，并在顶部绘制内容以产生文本引导的风格概述，能够在各种以视频为中心的输入和输出上执行多任务处理。法学硕士可以选择将文本作为输入来指导文本到视频、图像到视频、视频到音频、风格化和绘制任务的生成。使用的资源：维基共享资源和戴维斯。作为视频生成器的语言模型使用法学硕士进行培训的一个关键优势是，可以重复使用现有法学硕士培训基础设施中引入的许多可扩展的效率改进。然而，法学硕士在离散令牌上运行，这可能使视频生成具有挑战性。

幸运的是，存在视频和音频标记器，它们用于将视频和音频剪辑编码为离散标记序列并且也可以转换回原始表示形式。训练自回归语言模型，通过使用多个标记器（用于视频和图像的用于音频的来学习视频、图像、音频和文本模式。一旦模型生成以某些上下文为条件的标记，就可以使用标记器解码器将它们转换回可查看的表示形式。详细了解任务设计，显示各种任务的训练和推理输入和输出。使用标记器编码器和解码器将模态与标记进行转换。每个模态都被边界标记包围，任务标记指示要执行的任务类型。生成的示例我们的模型生成的一些示例如下所示。根据各种文本提示生成的视频。具体文字提示请参考网站。对于文本到视频，视频输出的长度是可变的，并且可以根据文本内容应用一系列动作和样式。为了确保负责任的做法，我们参考公共领域的艺术作品和风格，例如梵高的“星夜”。

		自动登录	找回密码
密码			立即注册