Parti: Модель генерации изображений из текста
Parti

Изучите возможности модели Parti для генерации фотореалистичных изображений из текста с помощью передовых технологий.

Перейти на сайт
Parti: Модель генерации изображений из текста

Parti: Pathways Autoregressive Text-to-Image Model

Введение

Мы представляем модель генерации изображений из текста Pathways Autoregressive (Parti), которая достигает высокой степени фотореалистичности и поддерживает синтез контента, включающего сложные композиции и мировые знания. Недавние достижения в области диффузионных моделей, таких как Imagen от Google, также продемонстрировали впечатляющие возможности и передовые результаты на исследовательских бенчмарках. Parti и Imagen дополняют друг друга, исследуя две разные семьи генеративных моделей — авторегрессионные и диффузионные, соответственно, открывая захватывающие возможности для комбинации этих двух мощных моделей.

Как работает Parti

Parti рассматривает генерацию изображений из текста как задачу моделирования последовательностей, аналогичную машинному переводу. Это позволяет ему извлекать выгоду из достижений в области больших языковых моделей, особенно возможностей, которые открываются при увеличении объема данных и размеров моделей. В этом случае целевые выходные данные — это последовательности токенов изображений вместо текстовых токенов на другом языке. Parti использует мощный токенизатор изображений ViT-VQGAN для кодирования изображений в последовательности дискретных токенов и использует его способность восстанавливать такие последовательности токенов изображений в высококачественные, визуально разнообразные изображения.

Основные результаты

Мы наблюдали следующие результаты:

  • Последовательные улучшения качества при масштабировании кодера-декодера Parti до 20 миллиардов параметров.
  • Передовой нулевой FID-скор 7.23 и тонко настроенный FID-скор 3.22 на MS-COCO.
  • Эффективность в широком спектре категорий и аспектов сложности в нашем анализе на Localized Narratives и PartiPrompts — нашем новом целостном бенчмарке из более чем 1600 английских подсказок, который мы выпускаем в рамках этой работы.

Масштабирование модели

Parti реализован в Lingvo и масштабирован с помощью GSPMD на аппаратном обеспечении TPU v4 как для обучения, так и для вывода, что позволило нам обучить модель с 20 миллиардами параметров, которая достигает рекордных результатов на нескольких бенчмарках. Мы проводим детальные сравнения четырех масштабов моделей Parti — 350M, 750M, 3B и 20B — и наблюдаем:

  • Последовательные и значительные улучшения в возможностях модели и качестве выходных изображений.
  • При сравнении моделей 3B и 20B, человеческие оценщики чаще предпочитали последнюю:
    • 63.2% за реализм/качество изображения
    • 75.9% за соответствие изображения и текста

Примеры подсказок

Генерация изображений из текста наиболее интересна, когда она позволяет создавать сцены, которые никогда не были видны. Мы обнаружили, что Parti может управлять длинными, сложными подсказками, которые требуют:

  • Точного отражения мировых знаний
  • Композиции множества участников и объектов с детализированными взаимодействиями
  • Соблюдения конкретного формата и стиля изображения

Примеры подсказок:

  • Портрет кенгуру в оранжевом худи и синих солнечных очках, стоящего на траве перед Сиднейским оперным театром с табличкой на груди, на которой написано "Добро пожаловать, друзья!"
  • Зеленая табличка с надписью "Очень глубокое обучение" на краю Большого каньона.
  • Фотография астронавта, едущего на лошади в лесу.

Ограничения и обсуждение

Несмотря на то, что Parti производит высококачественные выходные данные для широкого спектра подсказок, модель тем не менее имеет множество ограничений. В статье мы обсуждаем эти проблемы с примерами, текущими режимами сбоев и возможностями для будущей работы.

Ответственность и более широкий эффект

Модели генерации изображений из текста открывают множество новых возможностей для создания уникальных и эстетически приятных изображений. Однако важно иметь нюансированное понимание алгоритмически основанного искусства и более широкого художественного контекста.

Заключение

Мы призываем вас попробовать Parti и исследовать его возможности, чтобы создать свои уникальные визуальные произведения искусства. Для получения дополнительной информации и доступа к инструменту, пожалуйста, посетите .

Лучшие альтернативы Parti

Alpaca

Alpaca

Alpaca - это искусственный интеллект для художников, помогающий стилизовать и рендерить эскизы.

Waterlily

Waterlily

Waterlily - этичный ИИ для художников, создающий большую ценность

Penly AI

Penly AI

Penly AI - Создавайте удивительные изображения с помощью текста

Stability World AI

Stability World AI

Stability World AI - генеративная платформа для Web3, помогающая создавать цифровое искусство.

Dreampix

Dreampix

Dreampix - творческое сообщество с AI-обоями, раскрывающее возможности

Synapses studio

Synapses studio

Synapses studio - это штука на основе ИИ, которая раскрывает новые горизонты в мире искусства.

Colorjoy

Colorjoy

Colorjoy - Генерирует высококачественные раскраски, доступно всем

MyQRCode.com AI QR Code Generator

MyQRCode.com AI QR Code Generator

MyQRCode.com - Генерирует AI QR-коды для творчества и бизнеса.

MusesAI.io

MusesAI.io

MusesAI.io - это крутой инструмент на основе ИИ, который позволяет легко исследовать и использовать промпты для Midjourney и коды стилей совершенно бесплатно.

PixarAI

PixarAI

PixarAI - это крутой AI-генератор для кастомных постеров в стиле Pixar и арт с собаками.

DaVinci AI Art Generator

DaVinci AI Art Generator

DaVinci AI Art Generator - создайте уникальные произведения искусства с помощью AI за считанные секунды.

Midjourney

Midjourney

Midjourney 是一款提供多种风格参考的 AI 工具,助力创意实现

Colorway AI

Colorway AI

Colorway AI - генератор цветовых книг, помогающий пользователям создавать разнообразные рисунки.

AI Wallpaper Generator

AI Wallpaper Generator

AI Wallpaper Generator - создает прекрасные обои с использованием ИИ.

AI Icon Generator

AI Icon Generator

AI Icon Generator - быстрый и эффективный способ создания иконок для сайтов и приложений.

AI QR Codes

AI QR Codes

AI QR Codes - онлайн-генератор уникальных и арт-стилизованных QR-кодов для бизнеса и личных нужд.

Roast Your Desk

Roast Your Desk

Roast Your Desk - AI генерирует веселые комментарии о вашем рабочем столе

RunComfy

RunComfy

RunComfy - это платформа ComfyUI, помогающая сосредоточиться на искусстве, а не на технических проблемах.

Midlibrary

Midlibrary

Midlibrary - это передовая библиотека стилей для Midjourney AI

Heurist Imagine

Heurist Imagine

Heurist Imagine - создавайте ИИ-арты и зарабатывайте HEU токены

Pigment Sketch

Pigment Sketch

Pigment Sketch – это крутой ИИ-генератор, который без проблем создаёт уникальные раскрашиваемые страницы.

Airbrush

Airbrush

Airbrush - это AI-инструмент, который помогает создавать изображения быстро и легко.

Stable Diffusion 3 Medium

Stable Diffusion 3 Medium

Stable Diffusion 3 Medium - создаёт реалистичные изображения с помощью текста

PicTrix

PicTrix

PicTrix - это AI-генератор изображений и SVG, помогающий пользователям создавать разнообразные картинки.

Связанные категории Parti