Parti:高保真文本到图像生成模型

Parti

Parti 是强大的文本到图像模型,实现高保真图像生成,虽有成果但也存在诸多限制

Parti:高保真文本到图像生成模型

Parti:路径自回归文本到图像模型

Parti 路径自回归文本到图像模型是一种能够实现高保真逼真图像生成的自回归文本到图像生成模型,它支持涉及复杂构图和世界知识的内容丰富的合成。

近期,像谷歌的 Imagen 这样的基于扩散模型的文本到图像生成技术也展示出了令人印象深刻的能力和在研究基准上的最先进性能。Parti 和 Imagen 分别探索了两种不同的生成模型家族——自回归和扩散,为这两种强大模型的结合带来了令人兴奋的机会。

Parti 将文本到图像生成视为一个序列到序列的建模问题,类似于机器翻译。这使得它能够受益于大型语言模型的进步,特别是通过扩展数据和模型大小所释放的能力。在这种情况下,目标输出是图像标记的序列,而不是另一种语言的文本标记。

Parti 使用强大的图像标记器 ViT-VQGAN 将图像编码为离散标记的序列,并利用其能够将这样的图像标记序列重建为高质量、视觉多样化的图像的能力。我们观察到了以下结果:

通过将 Parti 的编码器 - 解码器扩展到 200 亿参数,实现了一致的质量改进。在 MS-COCO 上实现了最先进的零样本 FID 分数 7.23 和微调 FID 分数 3.22。在我们对 Localized Narratives 和 PartiPrompts(我们作为这项工作的一部分发布的包含 1600 多个英语提示的新整体基准)的分析中,在各种类别和难度方面都显示出了有效性。

我们还对从 3.5 亿到 200 亿参数的四种规模的 Parti 模型进行了详细的比较,并观察到:模型能力和输出图像质量的一致且实质性的改进。当比较 30 亿和 200 亿模型时,人类评估者在大多数时候更喜欢后者,特别是在图像真实性/质量方面为 63.2%,在图像 - 文本匹配方面为 75.9%。200 亿模型在抽象、需要世界知识、特定视角或书写和符号渲染的提示方面表现尤为出色。

PartiPrompts(P2)是我们作为这项工作的一部分发布的超过 1600 个英语提示的丰富集合。P2 可用于测量各种类别和挑战方面的模型能力。P2 提示可以很简单,允许我们衡量从扩展中取得的进展。它们也可以很复杂。

虽然 Parti 为广泛的提示产生高质量的输出,但该模型仍然存在许多限制。在论文中,我们通过示例讨论了这些挑战、当前的失败模式以及未来工作的机会。

文本到图像模型带来了许多机会和风险,对偏见和安全、视觉传达、虚假信息以及创造力和艺术都有潜在的影响。与 Imagen 类似,我们认识到 Parti 可能会编码有害的刻板印象和表现。一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。当前像 Parti 这样的模型是在大型、通常嘈杂的图像 - 文本数据集上进行训练的,这些数据集已知包含对不同背景的人的偏见。这导致这些模型,包括 Parti,产生对例如律师、空乘人员、家庭主妇等的刻板印象,并反映出西方对婚礼等事件的偏见。对于背景和兴趣在数据和模型中没有得到很好体现的人来说,这尤其会带来问题,特别是如果这些模型应用于视觉传达等用途,例如帮助低识字社会群体。产生逼真输出的模型,特别是人的模型,围绕深度伪造的创建带来了额外的风险和担忧。这在可能传播以视觉为导向的错误信息以及包含或参考其相似性的个人和实体方面产生了风险。

文本到图像模型为人们创造独特且美学上令人愉悦的图像开辟了许多新的可能性——本质上,它就像一支画笔,可以增强人类的创造力和生产力。然而,在评估设计或艺术价值时,重要的是要对多年来基于算法的艺术、模型本身、涉及的人员和更广泛的艺术环境有一个细致的理解。偏见在这里也很重要,因为模型的输出范围取决于训练数据,这可能对西方图像有偏见,并进一步阻止模型展示出全新的艺术风格——就像人类艺术家可以做到的那样。出于这些原因,我们决定在没有进一步的保障措施的情况下,不向公众发布我们的 Parti 模型、代码或数据。同时,我们在我们发布的所有图像上提供了 Parti 水印。我们将专注于通过进一步仔细的模型偏差测量和缓解策略,如提示过滤、输出过滤和模型重新校准,来跟进这项工作。我们相信,通过明确探测一系列已知的偏差类型,并可能发现其他形式的隐藏偏差,有可能使用文本到图像生成模型来大规模地理解大型图像 - 文本数据集中的偏差。我们还计划与艺术家协调,将高性能的文本到图像生成模型的能力适应到他们的工作中。

Parti的最佳替代品

NocodeBooth

NocodeBooth

NocodeBooth是一个无代码平台,帮助您快速启动AI图像生成应用程序。

ThumbSnap

ThumbSnap

ThumbSnap 是免费的照片和视频分享平台,助您轻松创作

dreamlike.art

dreamlike.art

dreamlike.art 是 AI 驱动的艺术创作工具,助您快速生成精美原创艺术

neural.love

neural.love

neural.love 是多功能 AI 工具,助力创作者实现多种需求

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI 助您秒速设计独特纹身图案

DiffusionBee

DiffusionBee

DiffusionBee 是运行本地 AI 应用的便捷工具,助您轻松创作

ARTSIO

ARTSIO

ARTSIO 助力艺术家和创作者获取灵感并创作

BlueWillow

BlueWillow

BlueWillow 是一款免费的 AI 艺术生成器,助您轻松创作

Scenario

Scenario

Scenario是一款强大的AI工具,助您高效生成视觉内容

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator 助您快速生成个性化纹身设计

Stability World AI

Stability World AI

Stability World AI 是一站式生成式 AI 平台,助力多样创作

JocondeAI

JocondeAI

JocondeAI 是一款AI驱动的图像生成器,帮助用户创造令人惊叹的艺术作品。

Caricaturer.io

Caricaturer.io

Caricaturer.io 是一款在线AI漫画制作工具,能够将您的肖像转换成夸张有趣的漫画风格,操作简单,效果独特。

AI Stickr

AI Stickr

AI Stickr 是一款利用人工智能技术生成独特且吸引人的贴纸的工具,满足各种主题和风格的需求。

AI Sticker Generator

AI Sticker Generator

AI Sticker Generator 是一款利用人工智能技术帮助用户创造独特贴纸的在线工具。

Face to Many

Face to Many

Face to Many 是一款 AI 工具,通过简单的文本提示将人脸图像转换为多种风格的艺术作品。

FLUX.1

FLUX.1

FLUX.1 是一款先进的AI图像生成模型,提供高质量的图像生成和多样化的风格选择。

getimg.ai

getimg.ai

getimg.ai 是一个AI驱动的创意工具包,帮助用户通过文本生成和编辑图像。

Deep Dream Generator

Deep Dream Generator

Deep Dream Generator 是一款免费的AI图像生成器,帮助用户创建AI艺术照片和动画。

AI Gallery

AI Gallery

AI Gallery 是一个AI驱动的艺术生成器,帮助用户快速创建令人惊叹的艺术作品。

HappyAccidents

HappyAccidents

HappyAccidents 是一个AI驱动的云平台,帮助用户管理模型、嵌入和数据集,让创作更简单。

精选AI工具

TrainEngine.ai

TrainEngine.ai

TrainEngine.ai 是一个AI驱动的平台,专注于Stable Diffusion XL的微调和Dreambooth模型的训练,帮助用户生成无限的AI资产。

查看详情
MIRR

MIRR

MIRR 是 AI 驱动的艺术助手,提供多种艺术服务

查看详情
Bashable.art

Bashable.art

Bashable.art 是一个AI驱动的艺术生成平台,帮助用户以更低的成本创作艺术作品。

查看详情
ArtiverseHub

ArtiverseHub

ArtiverseHub 是一个多平台AI艺术图像中心和生成器,支持MidJourney、DALL-E 3、Leonardo等AI平台。

查看详情
AI Art Generator

AI Art Generator

AI Art Generator 是一款利用先进稳定扩散技术,通过简单文本提示快速将用户想象力转化为惊人艺术创作的在线工具。

查看详情
Kidgeni

Kidgeni

Kidgeni是一个AI驱动的创意空间,助力孩子将灵感转化为艺术、故事等。

查看详情
B^ DISCOVER

B^ DISCOVER

B^ DISCOVER 是 AI 生成模型助力的图像思维工具,提供新体验

查看详情
ImagineArt

ImagineArt

ImagineArt 是一款 AI 艺术生成工具,助您实现创意想象

查看详情