Parti: Высококачественная авторегрессионная модель текста в изображение

Parti:.Pathways.Autoregressive.Text-to-Image.Model

Parti - это авторегрессионная модель текста в изображение, которая достигает высокой степени верности в создании фотореалистичных изображений и поддерживает создание содержательно богатых композиций, включающих сложные структуры и мировые знания.

Современные достижения в области генерации текста в изображение с помощью диффузионных моделей, таких как Google's Imagen, также демонстрируют впечатляющие возможности и достижения на современных исследовательских стандартах. Parti и Imagen дополняют друг друга, исследуя две различные семьи генеративных моделей - авторегрессивные и диффузионные соответственно, открывая захватывающие возможности для комбинации этих двух мощных моделей.

Parti рассматривает генерацию текста в изображение как проблему моделирования последовательности в последовательность, аналогичную машинному переводу. Это позволяет ей извлечь выгоду из достижений в больших языковых моделях, особенно из возможностей, которые открываются за счет масштабирования данных и размеров модели. В этом случае целевыми выходами являются последовательности изображений в виде дискретных токенов вместо текстовых токенов на другом языке. Parti использует мощный токенизатор изображений, ViT-VQGAN, для кодирования изображений в виде последовательностей дискретных токенов и использует его способность восстанавливать такие последовательности изображений в виде высококачественных, визуально разнообразных изображений.

Были получены следующие результаты:

Постоянное улучшение качества за счет масштабирования кодировщика-декодировщика Parti до 20 миллиардов параметров.
Современный нулевой балл FID 7.23 и настроенный балл FID 3.22 на MS-COCO.
Эффективность в широком спектре категорий и трудных аспектов в нашем анализе на Localized Narratives и PartiPrompts, новом комплексном эталоне из более чем 1600 английских подсказок, который мы выпускаем в рамках этой работы.

Также исследованы и выделены ограничения наших моделей, указаны ключевые области для дальнейшего улучшения.

Parti реализована в Lingvo и масштабируется с GSPMD на оборудовании TPU v4 для обучения и вывода, что позволило нам обучить модель с 20 миллиардами параметров, которая достигает рекордных показателей на нескольких эталонах. Проводились подробные сравнения четырех масштабов моделей Parti - 350M, 750M, 3B и 20B, и было замечено:

Постоянное и существенное улучшение возможностей модели и качества выходных изображений.
При сравнении моделей 3B и 20B, человеческие оценщики предпочитали последнюю большую часть времени, в частности:
- 63.2% за реалистичность/качество изображения
- 75.9% за соответствие изображения и текста

Модель 20B особенно выделяется при создании абстрактных подсказок, требующих мировых знаний, специфических перспектив, написания и отображения символов.

PartiPrompts (P2) - это богатый набор из более чем 1600 подсказок на английском языке, который мы выпускаем в рамках этой работы. P2 может использоваться для измерения возможностей модели в различных категориях и аспектах сложности. Подсказки P2 могут быть простыми, позволяющими оценить прогресс от масштабирования, а также сложными.

Хотя Parti производит высококачественные результаты для широкого спектра подсказок, модель все же имеет ряд ограничений. В статье обсуждаются эти проблемы с примерами, текущими режимами отказа и возможностями для будущей работы.

Как и в случае с Imagen, признается, что существует риск, что Parti может кодировать вредные стереотипы и представления. Некоторые потенциальные риски связаны с самим процессом разработки моделей, особенно с данными для обучения. Текущие модели, такие как Parti, обучаются на больших, часто шумных, наборах данных изображений и текста, которые, как известно, содержат предубеждения в отношении людей с различным происхождением. Это приводит к тому, что такие модели, включая Parti, производят стереотипные представления, например, людей, описанных как юристы, стюардессы, домохозяйки и т.д., и отражают западные предубеждения в отношении таких событий, как свадьбы. Это представляет особые проблемы для людей, чьи интересы и происхождение недостаточно представлены в данных и модели, особенно если такие модели применяются к таким областям, как визуальная коммуникация, например, для помощи социальным группам с низким уровнем грамотности.

Модели, которые производят фотореалистичные результаты, особенно изображения людей, создают дополнительные риски и проблемы, связанные с созданием deepfakes. Это создает риски в отношении возможного распространения визуально ориентированной дезинформации и для индивидов и организаций, чьи сходства включены или упоминаются.

Текст-в-изображение модели открывают много новых возможностей для людей создавать уникальные и эстетически приятные изображения - по сути, действуя как кисть, чтобы повысить человеческую креативность и производительность. Однако при оценке дизайна или художественной ценности важно иметь тонкое понимание алгоритмически основанного искусства на протяжении многих лет, самой модели, вовлеченных людей и более широкого художественного окружения. Предубеждения также имеют значение здесь, поскольку диапазон результатов модели зависит от данных обучения, и это может привести к предубеждениям в отношении западных изображений и препятствовать моделям демонстрировать радикально новые художественные стили - как это могут делать человеческие художники.

По этим причинам было решено не выпускать наши модели Parti, код или данные для публичного использования без дополнительных мер безопасности. В то же время, мы предоставляем водяной знак Parti на всех изображениях, которые мы выпускаем. Мы будем фокусироваться на дальнейшем тщательном измерении и смягчении предубеждений модели, таких как фильтрация подсказок, фильтрация результатов и перекалибровка модели. Мы считаем, что возможно использовать модели генерации текста в изображение для понимания предубеждений в больших наборах данных изображений и текста в масштабе, явно исследуя их на наличие набора известных типов предубеждений и потенциально выявляя другие формы скрытых предубеждений. Мы также планируем сотрудничать с художниками, чтобы адаптировать возможности высокоэффективных моделей генерации текста в изображение к их работе. Это особенно важно, учитывая большой интерес многих исследовательских групп и быстрое развитие моделей и данных для их обучения. В идеале мы надеемся, что эти модели будут увеличивать человеческую креативность и производительность, а не заменять ее, чтобы мы все могли наслаждаться миром, заполненным новыми, разнообразными и ответственными эстетическими визуальными переживаниями.

Parti

Parti - модель создания текста в изображение с высокой верностью и поддержкой сложных композиций. Исследуются результаты, масштабирование, ограничения и влияние.

Лучшие альтернативы Parti

Clipdrop

Colourlab AI

Krita

DreamStudio

Scribble Diffusion

B^ DISCOVER

Design of Perception

Генератор AI Раскрасок

Image AI Generator

funfun.art

Omni

Neural Canvas

ThumbSnap

dreamlike.art

neural.love

BlackInk AI Tattoo Generator

DiffusionBee

ARTSIO

BlueWillow

Scenario

AI Tattoo Generator

Избранные ИИ инструменты

TrainEngine.ai

MIRR

Bashable.art

ArtiverseHub.AI

AI Art Generator

Kidgeni

B^ DISCOVER

ImagineArt

Лучшие альтернативы Parti

Clipdrop

Colourlab AI

Krita

DreamStudio

Scribble Diffusion

B^ DISCOVER

Design of Perception

Генератор AI Раскрасок

Image AI Generator

funfun.art

Omni

Neural Canvas

ThumbSnap

dreamlike.art

neural.love

BlackInk AI Tattoo Generator

DiffusionBee

ARTSIO

BlueWillow

Scenario

AI Tattoo Generator

Избранные ИИ инструменты

TrainEngine.ai

MIRR

Bashable.art

ArtiverseHub.AI

AI Art Generator

Kidgeni

B^ DISCOVER

ImagineArt

Связанные категории Parti

Генератор искусственного искусства

Инструменты для исследований в области ИИ