Phenaki:创新的视频生成模型
Phenaki 是一款具有开创性的模型,能够根据一系列文本提示生成逼真的视频。该模型在处理生成视频这一具有挑战性的任务时,展现出了独特的优势。
生成视频从文本的过程面临着诸多难题,如计算成本高、高质量文本 - 视频数据有限以及视频长度的可变性。为了解决这些问题,Phenaki 引入了一种新的因果模型用于学习视频表示,它将视频压缩为离散标记的小表示。这种标记器在时间上使用因果注意力,使其能够处理可变长度的视频。
在从文本生成视频标记的过程中,Phenaki 使用了基于预计算文本标记的双向掩码转换器。生成的视频标记随后被去标记化,以创建实际的视频。为了解决数据问题,该模型展示了如何在大量图像 - 文本对的语料库以及较少数量的视频 - 文本示例上进行联合训练,从而实现超越视频数据集中可用内容的泛化。
与以前的视频生成方法相比,Phenaki 能够根据开放域中的一系列提示(即时间变量文本或故事)生成任意长度的视频。据我们所知,这是首次有论文研究从时间变量提示生成视频。此外,所提出的视频编码器 - 解码器在时空质量和每个视频的标记数量方面,优于目前文献中使用的所有逐帧基线。
总的来说,Phenaki 为视频生成领域带来了新的可能性,为解决相关问题提供了有价值的思路和方法。