Parti: Modèle Autoregressif de Génération d'Images à partir de Texte

Parti

Découvrez Parti, un modèle innovant pour générer des images photoréalistes à partir de descriptions textuelles complexes.

Visiter le Site
Parti: Modèle Autoregressif de Génération d'Images à partir de Texte

Parti: Modèle Autoregressif de Génération d'Images à partir de Texte

Introduction

Nous vous présentons le modèle de génération d'images à partir de texte, Parti, qui utilise une approche autoregressive pour produire des images photoréalistes de haute fidélité. Ce modèle est capable de synthétiser des contenus riches impliquant des compositions complexes et des connaissances du monde réel.

Fonctionnalités Clés

1. Modèle Autoregressif

Parti traite la génération d'images à partir de texte comme un problème de modélisation séquence-à-séquence, similaire à la traduction automatique. Cela lui permet de bénéficier des avancées des grands modèles de langage, en générant des séquences de tokens d'image au lieu de tokens de texte.

2. Tokenisation d'Images

Utilisant le puissant tokenizer d'images ViT-VQGAN, Parti encode les images en séquences de tokens discrets, ce qui lui permet de reconstruire ces séquences en images de haute qualité et visuellement diversifiées.

3. Améliorations de Qualité

Nous avons observé des améliorations de qualité constantes en augmentant la taille du modèle jusqu'à 20 milliards de paramètres, atteignant un score FID de 7.23 en zero-shot et 3.22 en fine-tuning sur MS-COCO.

Comparaison des Modèles

Nous avons comparé quatre échelles de modèles Parti (350M, 750M, 3B et 20B) et constaté des améliorations substantielles en termes de capacités et de qualité d'image. Les évaluateurs humains ont préféré le modèle 20B dans 63.2% des cas pour le réalisme et 75.9% pour la correspondance image-texte.

Exemples de Prompts

Parti excelle dans la gestion de prompts longs et complexes, tels que :

  • Un kangourou portant un sweat à capuche orange et des lunettes de soleil bleues devant l'Opéra de Sydney.
  • Une photo d'un astronaute chevauchant un cheval dans une forêt.

Limitations

Bien que Parti produise des sorties de haute qualité, il présente des limitations, notamment dans la gestion de la négation et des représentations biaisées. Nous discutons de ces défis dans notre article, en fournissant des exemples et des modes de défaillance actuels.

Responsabilité et Impact

Les modèles de génération d'images à partir de texte, comme Parti, offrent de nombreuses opportunités mais comportent également des risques, notamment en matière de biais et de désinformation. Nous avons décidé de ne pas publier nos modèles sans mesures de sécurité supplémentaires.

Conclusion

Parti représente une avancée significative dans la génération d'images à partir de texte, ouvrant la voie à de nouvelles possibilités créatives. Nous encourageons les utilisateurs à explorer ce modèle tout en restant conscients des enjeux éthiques et des biais potentiels.

Appel à l'Action

Pour en savoir plus sur Parti et explorer ses capacités, visitez notre dépôt GitHub et commencez à créer vos propres images à partir de texte !

Meilleures Alternatives à Parti