Parti: Высококачественная авторегрессионная модель текста в изображение

Parti

Parti - модель создания текста в изображение с высокой верностью и поддержкой сложных композиций. Исследуются результаты, масштабирование, ограничения и влияние.

Parti: Высококачественная авторегрессионная модель текста в изображение

Parti:.Pathways.Autoregressive.Text-to-Image.Model

Parti - это авторегрессионная модель текста в изображение, которая достигает высокой степени верности в создании фотореалистичных изображений и поддерживает создание содержательно богатых композиций, включающих сложные структуры и мировые знания.

Современные достижения в области генерации текста в изображение с помощью диффузионных моделей, таких как Google's Imagen, также демонстрируют впечатляющие возможности и достижения на современных исследовательских стандартах. Parti и Imagen дополняют друг друга, исследуя две различные семьи генеративных моделей - авторегрессивные и диффузионные соответственно, открывая захватывающие возможности для комбинации этих двух мощных моделей.

Parti рассматривает генерацию текста в изображение как проблему моделирования последовательности в последовательность, аналогичную машинному переводу. Это позволяет ей извлечь выгоду из достижений в больших языковых моделях, особенно из возможностей, которые открываются за счет масштабирования данных и размеров модели. В этом случае целевыми выходами являются последовательности изображений в виде дискретных токенов вместо текстовых токенов на другом языке. Parti использует мощный токенизатор изображений, ViT-VQGAN, для кодирования изображений в виде последовательностей дискретных токенов и использует его способность восстанавливать такие последовательности изображений в виде высококачественных, визуально разнообразных изображений.

Были получены следующие результаты:

  • Постоянное улучшение качества за счет масштабирования кодировщика-декодировщика Parti до 20 миллиардов параметров.
  • Современный нулевой балл FID 7.23 и настроенный балл FID 3.22 на MS-COCO.
  • Эффективность в широком спектре категорий и трудных аспектов в нашем анализе на Localized Narratives и PartiPrompts, новом комплексном эталоне из более чем 1600 английских подсказок, который мы выпускаем в рамках этой работы.

Также исследованы и выделены ограничения наших моделей, указаны ключевые области для дальнейшего улучшения.

Parti реализована в Lingvo и масштабируется с GSPMD на оборудовании TPU v4 для обучения и вывода, что позволило нам обучить модель с 20 миллиардами параметров, которая достигает рекордных показателей на нескольких эталонах. Проводились подробные сравнения четырех масштабов моделей Parti - 350M, 750M, 3B и 20B, и было замечено:

  • Постоянное и существенное улучшение возможностей модели и качества выходных изображений.
  • При сравнении моделей 3B и 20B, человеческие оценщики предпочитали последнюю большую часть времени, в частности:
    • 63.2% за реалистичность/качество изображения
    • 75.9% за соответствие изображения и текста

Модель 20B особенно выделяется при создании абстрактных подсказок, требующих мировых знаний, специфических перспектив, написания и отображения символов.

PartiPrompts (P2) - это богатый набор из более чем 1600 подсказок на английском языке, который мы выпускаем в рамках этой работы. P2 может использоваться для измерения возможностей модели в различных категориях и аспектах сложности. Подсказки P2 могут быть простыми, позволяющими оценить прогресс от масштабирования, а также сложными.

Хотя Parti производит высококачественные результаты для широкого спектра подсказок, модель все же имеет ряд ограничений. В статье обсуждаются эти проблемы с примерами, текущими режимами отказа и возможностями для будущей работы.

Как и в случае с Imagen, признается, что существует риск, что Parti может кодировать вредные стереотипы и представления. Некоторые потенциальные риски связаны с самим процессом разработки моделей, особенно с данными для обучения. Текущие модели, такие как Parti, обучаются на больших, часто шумных, наборах данных изображений и текста, которые, как известно, содержат предубеждения в отношении людей с различным происхождением. Это приводит к тому, что такие модели, включая Parti, производят стереотипные представления, например, людей, описанных как юристы, стюардессы, домохозяйки и т.д., и отражают западные предубеждения в отношении таких событий, как свадьбы. Это представляет особые проблемы для людей, чьи интересы и происхождение недостаточно представлены в данных и модели, особенно если такие модели применяются к таким областям, как визуальная коммуникация, например, для помощи социальным группам с низким уровнем грамотности.

Модели, которые производят фотореалистичные результаты, особенно изображения людей, создают дополнительные риски и проблемы, связанные с созданием deepfakes. Это создает риски в отношении возможного распространения визуально ориентированной дезинформации и для индивидов и организаций, чьи сходства включены или упоминаются.

Текст-в-изображение модели открывают много новых возможностей для людей создавать уникальные и эстетически приятные изображения - по сути, действуя как кисть, чтобы повысить человеческую креативность и производительность. Однако при оценке дизайна или художественной ценности важно иметь тонкое понимание алгоритмически основанного искусства на протяжении многих лет, самой модели, вовлеченных людей и более широкого художественного окружения. Предубеждения также имеют значение здесь, поскольку диапазон результатов модели зависит от данных обучения, и это может привести к предубеждениям в отношении западных изображений и препятствовать моделям демонстрировать радикально новые художественные стили - как это могут делать человеческие художники.

По этим причинам было решено не выпускать наши модели Parti, код или данные для публичного использования без дополнительных мер безопасности. В то же время, мы предоставляем водяной знак Parti на всех изображениях, которые мы выпускаем. Мы будем фокусироваться на дальнейшем тщательном измерении и смягчении предубеждений модели, таких как фильтрация подсказок, фильтрация результатов и перекалибровка модели. Мы считаем, что возможно использовать модели генерации текста в изображение для понимания предубеждений в больших наборах данных изображений и текста в масштабе, явно исследуя их на наличие набора известных типов предубеждений и потенциально выявляя другие формы скрытых предубеждений. Мы также планируем сотрудничать с художниками, чтобы адаптировать возможности высокоэффективных моделей генерации текста в изображение к их работе. Это особенно важно, учитывая большой интерес многих исследовательских групп и быстрое развитие моделей и данных для их обучения. В идеале мы надеемся, что эти модели будут увеличивать человеческую креативность и производительность, а не заменять ее, чтобы мы все могли наслаждаться миром, заполненным новыми, разнообразными и ответственными эстетическими визуальными переживаниями.

Лучшие альтернативы Parti

Colourlab AI

Colourlab AI

Colourlab AI — это мощное приложение для цветокоррекции, которое упрощает процесс обработки видео.

Krita

Krita

Krita — бесплатное и открытое программное обеспечение для цифровой живописи.

DreamStudio

DreamStudio

DreamStudio — мощный инструмент для генерации изображений.

Scribble Diffusion

Scribble Diffusion

Инструмент для превращения эскизов в изображения с помощью ИИ.

B^ DISCOVER

B^ DISCOVER

B^ DISCOVER помогает развивать визуальное мышление с помощью генерации креативных изображений.

Design of Perception

Design of Perception

Design of Perception - крутая платформа с ИИ для творческих открытий

Генератор AI Раскрасок

Генератор AI Раскрасок

Генератор AI Раскрасок - создаёт крутые кастомные рисунки для всех

Image AI Generator

Image AI Generator

Image AI Generator - создает крутые ИИ-изображения

funfun.art

funfun.art

funfun.art - Простой способ создания AI-изображений и видео

Omni

Omni

Omni-Zero - AI преобразует фото в стильные портреты

Neural Canvas

Neural Canvas

Neural Canvas - AI 生成独特漫画,多种风格可选

ThumbSnap

ThumbSnap

ThumbSnap - бесплатный сервис для обмена фото и видео

dreamlike.art

dreamlike.art

dreamlike.art - Создавайте потрясающее искусство с помощью ИИ

neural.love

neural.love

neural.love - Множество бесплатных AI-инструментов для творчества

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI - Генерирует уникальные татуировки за секунды

DiffusionBee

DiffusionBee

DiffusionBee - локальный инструмент для создания AI-арта

ARTSIO

ARTSIO

ARTSIO - Помогает художникам и творцам находить вдохновение

BlueWillow

BlueWillow

BlueWillow - это бесплатный генератор AI-изображений, помогающий создавать графику

Scenario

Scenario

Scenario - 加速生成视觉内容,掌控 AI 工作流程

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator creates custom tattoo designs for users

Stability World AI

Stability World AI

Stability World AI - крутая генерирующая ИИ-платформа с кучей плюшек

Избранные ИИ инструменты

Playbook AI

Playbook AI

Playbook AI — это платформа для создания, хранения и управления искусством, созданным с помощью ИИ, с использованием DALL-E и Stable Diffusion.

Подробнее
AlterEgo

AlterEgo

AlterEgo позволяет генерировать уникальные изображения в различных стилях.

Подробнее
OpenDream

OpenDream

OpenDream — это генератор AI-арта, который позволяет создавать уникальные изображения за считанные секунды.

Подробнее
AI Anime Girlfriend

AI Anime Girlfriend

AI Anime Girlfriend - это крутая штука для создания и общения с аниме-подругами!

Подробнее
ThumbSnap

ThumbSnap

ThumbSnap - бесплатный сервис для обмена фото и видео

Подробнее
Сilly Robot Cards

Сilly Robot Cards

Сilly Robot Cards - крутой AI-порошенный генератор каpточек с уникальным дизайном

Подробнее
EYEFORAI

EYEFORAI

EYEFORAI - Быстро создавайте изображения с помощью шаблонов

Подробнее
Scenario

Scenario

Scenario - 加速生成视觉内容,掌控 AI 工作流程

Подробнее