Parti: Pathways Autoregressive Text-to-Image Model
简介
Parti(Pathways Autoregressive Text-to-Image Model)是一种自回归文本到图像生成模型,旨在实现高保真度的照片级图像生成,并支持涉及复杂构图和世界知识的内容丰富合成。近年来,基于扩散模型的文本到图像生成技术(如Google的Imagen)也展现了令人印象深刻的能力和在研究基准上的最先进性能。Parti与Imagen互为补充,探索了两种不同类型的生成模型——自回归和扩散,开启了结合这两种强大模型的激动人心的机会。
核心功能
Parti将文本到图像生成视为一个序列到序列的建模问题,类似于机器翻译。这使得它能够受益于大型语言模型的进展,尤其是通过扩展数据和模型规模所解锁的能力。在这种情况下,目标输出是图像令牌的序列,而不是另一种语言中的文本令牌。Parti使用强大的图像标记器ViT-VQGAN,将图像编码为离散令牌的序列,并利用其重建这些图像令牌序列为高质量、视觉多样化图像的能力。
使用方法
Parti的实现基于Lingvo,并在TPU v4硬件上使用GSPMD进行扩展训练和推理,使我们能够训练出一个具有200亿参数的模型,在多个基准上实现记录性能。我们对四个规模的Parti模型(350M、750M、3B和20B)进行了详细比较,观察到:
- 模型能力和输出图像质量的一致且显著的提升。
- 在比较3B和20B模型时,人类评估者大多数时间更喜欢后者,具体表现为:63.2%的图像真实感/质量,75.9%的图像-文本匹配。
定价策略
Parti目前尚未公开发布其模型、代码或数据,因而没有具体的定价信息。建议用户关注相关的官方渠道以获取最新动态。
实用技巧
- 复杂提示的管理:Parti能够处理长且复杂的提示,准确反映世界知识,组合多个参与者和对象,并遵循特定的图像格式和风格。
- 生成多样化图像:通过不同的提示,Parti能够生成多种风格的图像,从油画到像素艺术,展现出其强大的适应能力。
竞品对比
与其他文本到图像生成工具相比,Parti在处理复杂场景和高质量输出方面表现出色。虽然像DALL-E和Imagen等工具也具备强大的生成能力,但Parti在处理需要世界知识和特定视角的提示时表现尤为突出。
常见问题
- Parti是否会产生偏见? 是的,Parti可能会编码有害的刻板印象和表现,尤其是在训练数据中存在偏见的情况下。
- 如何使用Parti生成图像? 用户可以通过提供详细的文本提示来生成图像,Parti将根据提示生成相应的视觉内容。
结论
Parti为文本到图像生成领域带来了新的可能性,尽管存在一些局限性,但其在创造独特和美学图像方面的潜力不容小觑。我们鼓励用户关注Parti的最新动态,并尝试使用该工具来增强他们的创造力和生产力。