Phenaki

访问官方

一种从文本生成视频的模型

Phenaki，一种能够在给定一系列文本提示的情况下进行逼真视频合成的模型。由于计算成本、高质量文本视频数据数量有限和视频长度可变，从文本生成视频尤其具有挑战性。为了解决这些问题，我们引入了一种新的因果模型来学习视频表示，它将视频压缩为离散标记的小表示。此标记器及时使用因果注意，这使其可以处理可变长度的视频。为了从文本中生成视频标记，我们使用了一个以预先计算的文本标记为条件的双向掩码转换器。随后对生成的视频令牌进行去令牌化以创建实际视频。为了解决数据问题，我们展示了对大量图像-文本对以及少量视频-文本示例的联合训练如何导致超出视频数据集中可用的泛化。与以前的视频生成方法相比，Phenaki 可以在开放域中生成以一系列提示（即时间变量文本或故事）为条件的任意长视频。