Parti: Pathways Autoregressive Text-to-Image Model
Введение
Мы представляем модель генерации изображений из текста Pathways Autoregressive (Parti), которая достигает высокой степени фотореалистичности и поддерживает синтез контента, включающего сложные композиции и мировые знания. Недавние достижения в области диффузионных моделей, таких как Imagen от Google, также продемонстрировали впечатляющие возможности и передовые результаты на исследовательских бенчмарках. Parti и Imagen дополняют друг друга, исследуя две разные семьи генеративных моделей — авторегрессионные и диффузионные, соответственно, открывая захватывающие возможности для комбинации этих двух мощных моделей.
Как работает Parti
Parti рассматривает генерацию изображений из текста как задачу моделирования последовательностей, аналогичную машинному переводу. Это позволяет ему извлекать выгоду из достижений в области больших языковых моделей, особенно возможностей, которые открываются при увеличении объема данных и размеров моделей. В этом случае целевые выходные данные — это последовательности токенов изображений вместо текстовых токенов на другом языке. Parti использует мощный токенизатор изображений ViT-VQGAN для кодирования изображений в последовательности дискретных токенов и использует его способность восстанавливать такие последовательности токенов изображений в высококачественные, визуально разнообразные изображения.
Основные результаты
Мы наблюдали следующие результаты:
- Последовательные улучшения качества при масштабировании кодера-декодера Parti до 20 миллиардов параметров.
- Передовой нулевой FID-скор 7.23 и тонко настроенный FID-скор 3.22 на MS-COCO.
- Эффективность в широком спектре категорий и аспектов сложности в нашем анализе на Localized Narratives и PartiPrompts — нашем новом целостном бенчмарке из более чем 1600 английских подсказок, который мы выпускаем в рамках этой работы.
Масштабирование модели
Parti реализован в Lingvo и масштабирован с помощью GSPMD на аппаратном обеспечении TPU v4 как для обучения, так и для вывода, что позволило нам обучить модель с 20 миллиардами параметров, которая достигает рекордных результатов на нескольких бенчмарках. Мы проводим детальные сравнения четырех масштабов моделей Parti — 350M, 750M, 3B и 20B — и наблюдаем:
- Последовательные и значительные улучшения в возможностях модели и качестве выходных изображений.
- При сравнении моделей 3B и 20B, человеческие оценщики чаще предпочитали последнюю:
- 63.2% за реализм/качество изображения
- 75.9% за соответствие изображения и текста
Примеры подсказок
Генерация изображений из текста наиболее интересна, когда она позволяет создавать сцены, которые никогда не были видны. Мы обнаружили, что Parti может управлять длинными, сложными подсказками, которые требуют:
- Точного отражения мировых знаний
- Композиции множества участников и объектов с детализированными взаимодействиями
- Соблюдения конкретного формата и стиля изображения
Примеры подсказок:
- Портрет кенгуру в оранжевом худи и синих солнечных очках, стоящего на траве перед Сиднейским оперным театром с табличкой на груди, на которой написано "Добро пожаловать, друзья!"
- Зеленая табличка с надписью "Очень глубокое обучение" на краю Большого каньона.
- Фотография астронавта, едущего на лошади в лесу.
Ограничения и обсуждение
Несмотря на то, что Parti производит высококачественные выходные данные для широкого спектра подсказок, модель тем не менее имеет множество ограничений. В статье мы обсуждаем эти проблемы с примерами, текущими режимами сбоев и возможностями для будущей работы.
Ответственность и более широкий эффект
Модели генерации изображений из текста открывают множество новых возможностей для создания уникальных и эстетически приятных изображений. Однако важно иметь нюансированное понимание алгоритмически основанного искусства и более широкого художественного контекста.
Заключение
Мы призываем вас попробовать Parti и исследовать его возможности, чтобы создать свои уникальные визуальные произведения искусства. Для получения дополнительной информации и доступа к инструменту, пожалуйста, посетите .