Parti:.Pathways.Autoregressive.Text-to-Image.Model
Parti - это авторегрессионная модель текста в изображение, которая достигает высокой степени верности в создании фотореалистичных изображений и поддерживает создание содержательно богатых композиций, включающих сложные структуры и мировые знания.
Современные достижения в области генерации текста в изображение с помощью диффузионных моделей, таких как Google's Imagen, также демонстрируют впечатляющие возможности и достижения на современных исследовательских стандартах. Parti и Imagen дополняют друг друга, исследуя две различные семьи генеративных моделей - авторегрессивные и диффузионные соответственно, открывая захватывающие возможности для комбинации этих двух мощных моделей.
Parti рассматривает генерацию текста в изображение как проблему моделирования последовательности в последовательность, аналогичную машинному переводу. Это позволяет ей извлечь выгоду из достижений в больших языковых моделях, особенно из возможностей, которые открываются за счет масштабирования данных и размеров модели. В этом случае целевыми выходами являются последовательности изображений в виде дискретных токенов вместо текстовых токенов на другом языке. Parti использует мощный токенизатор изображений, ViT-VQGAN, для кодирования изображений в виде последовательностей дискретных токенов и использует его способность восстанавливать такие последовательности изображений в виде высококачественных, визуально разнообразных изображений.
Были получены следующие результаты:
- Постоянное улучшение качества за счет масштабирования кодировщика-декодировщика Parti до 20 миллиардов параметров.
- Современный нулевой балл FID 7.23 и настроенный балл FID 3.22 на MS-COCO.
- Эффективность в широком спектре категорий и трудных аспектов в нашем анализе на Localized Narratives и PartiPrompts, новом комплексном эталоне из более чем 1600 английских подсказок, который мы выпускаем в рамках этой работы.
Также исследованы и выделены ограничения наших моделей, указаны ключевые области для дальнейшего улучшения.
Parti реализована в Lingvo и масштабируется с GSPMD на оборудовании TPU v4 для обучения и вывода, что позволило нам обучить модель с 20 миллиардами параметров, которая достигает рекордных показателей на нескольких эталонах. Проводились подробные сравнения четырех масштабов моделей Parti - 350M, 750M, 3B и 20B, и было замечено:
- Постоянное и существенное улучшение возможностей модели и качества выходных изображений.
- При сравнении моделей 3B и 20B, человеческие оценщики предпочитали последнюю большую часть времени, в частности:
- 63.2% за реалистичность/качество изображения
- 75.9% за соответствие изображения и текста
Модель 20B особенно выделяется при создании абстрактных подсказок, требующих мировых знаний, специфических перспектив, написания и отображения символов.
PartiPrompts (P2) - это богатый набор из более чем 1600 подсказок на английском языке, который мы выпускаем в рамках этой работы. P2 может использоваться для измерения возможностей модели в различных категориях и аспектах сложности. Подсказки P2 могут быть простыми, позволяющими оценить прогресс от масштабирования, а также сложными.
Хотя Parti производит высококачественные результаты для широкого спектра подсказок, модель все же имеет ряд ограничений. В статье обсуждаются эти проблемы с примерами, текущими режимами отказа и возможностями для будущей работы.
Как и в случае с Imagen, признается, что существует риск, что Parti может кодировать вредные стереотипы и представления. Некоторые потенциальные риски связаны с самим процессом разработки моделей, особенно с данными для обучения. Текущие модели, такие как Parti, обучаются на больших, часто шумных, наборах данных изображений и текста, которые, как известно, содержат предубеждения в отношении людей с различным происхождением. Это приводит к тому, что такие модели, включая Parti, производят стереотипные представления, например, людей, описанных как юристы, стюардессы, домохозяйки и т.д., и отражают западные предубеждения в отношении таких событий, как свадьбы. Это представляет особые проблемы для людей, чьи интересы и происхождение недостаточно представлены в данных и модели, особенно если такие модели применяются к таким областям, как визуальная коммуникация, например, для помощи социальным группам с низким уровнем грамотности.
Модели, которые производят фотореалистичные результаты, особенно изображения людей, создают дополнительные риски и проблемы, связанные с созданием deepfakes. Это создает риски в отношении возможного распространения визуально ориентированной дезинформации и для индивидов и организаций, чьи сходства включены или упоминаются.
Текст-в-изображение модели открывают много новых возможностей для людей создавать уникальные и эстетически приятные изображения - по сути, действуя как кисть, чтобы повысить человеческую креативность и производительность. Однако при оценке дизайна или художественной ценности важно иметь тонкое понимание алгоритмически основанного искусства на протяжении многих лет, самой модели, вовлеченных людей и более широкого художественного окружения. Предубеждения также имеют значение здесь, поскольку диапазон результатов модели зависит от данных обучения, и это может привести к предубеждениям в отношении западных изображений и препятствовать моделям демонстрировать радикально новые художественные стили - как это могут делать человеческие художники.
По этим причинам было решено не выпускать наши модели Parti, код или данные для публичного использования без дополнительных мер безопасности. В то же время, мы предоставляем водяной знак Parti на всех изображениях, которые мы выпускаем. Мы будем фокусироваться на дальнейшем тщательном измерении и смягчении предубеждений модели, таких как фильтрация подсказок, фильтрация результатов и перекалибровка модели. Мы считаем, что возможно использовать модели генерации текста в изображение для понимания предубеждений в больших наборах данных изображений и текста в масштабе, явно исследуя их на наличие набора известных типов предубеждений и потенциально выявляя другие формы скрытых предубеждений. Мы также планируем сотрудничать с художниками, чтобы адаптировать возможности высокоэффективных моделей генерации текста в изображение к их работе. Это особенно важно, учитывая большой интерес многих исследовательских групп и быстрое развитие моделей и данных для их обучения. В идеале мы надеемся, что эти модели будут увеличивать человеческую креативность и производительность, а не заменять ее, чтобы мы все могли наслаждаться миром, заполненным новыми, разнообразными и ответственными эстетическими визуальными переживаниями.