Parti : Le modèle autoregressif de génération d'images à partir de texte
Parti, c'est le nouveau truc en ville dans le domaine de la génération d'images à partir de texte. Ce modèle est capable de produire des images hyper réalistes et de soutenir la création de contenus riches et complexes, avec des trucs du genre des compositions complexes et des connaissances du monde.
Les avancées récentes avec les modèles de diffusion pour la génération d'images à partir de texte, genre Google's Imagen, ont montré des trucs de ouf et des performances de malade sur les benchmarks de recherche. Parti et Imagen, c'est comme si c'était complémentaire, en explorant deux familles de modèles génératifs différentes - l'autoregressif et la diffusion - et en ouvrant des possibilités de ouf pour des combinaisons de ces deux modèles puissants.
Parti traite la génération d'images à partir de texte comme un problème de modélisation séquence-à-séquence, un peu comme la traduction automatique. Ça lui permet de bénéficier des avancées dans les grands modèles de langage, surtout des capacités débloquées en augmentant la taille des données et des modèles. Dans ce cas, les sorties, c'est des séquences de jetons d'image au lieu de jetons de texte dans une autre langue.
Parti utilise le tokenizer d'image ViT-VQGAN, qui est trop fort, pour encoder les images en séquences de jetons discrets, et profite de sa capacité à reconstruire ces séquences de jetons d'image en images de qualité de ouf et visuellement variées.
On a observé des résultats de ouf :
- Des améliorations constantes de la qualité en augmentant l'encodeur-décodeur de Parti jusqu'à 20 milliards de paramètres.
- Un score FID à zéro-shot de malade de 7,23 et un score FID affiné de 3,22 sur MS-COCO.
- Une efficacité sur une variété de catégories et d'aspects de difficulté dans notre analyse sur Localized Narratives et PartiPrompts, notre nouveau benchmark de ouf de plus de 1600 prompts en anglais qu'on a sorti avec ce boulot.
On a aussi exploré et mis en évidence les limites de nos modèles, en donnant des exemples clés pour des améliorations futures. L'implémentation de Parti dans Lingvo et son échelle avec GSPMD sur le matériel TPU v4 pour la formation et l'inférence ont permis de former un modèle de 20 milliards de paramètres qui atteint des performances de malade sur plusieurs benchmarks.
On a fait des comparaisons détaillées de quatre échelles de modèles Parti - 350M, 750M, 3B et 20B - et on a vu :
- Des améliorations constantes et substantielles des capacités du modèle et de la qualité des images de sortie. Quand on compare les modèles 3B et 20B, les évaluateurs humains ont préféré le dernier la plupart du temps, genre :
- 63,2 % pour le réalisme / qualité de l'image
- 75,9 % pour l'appariement image-texte Le modèle 20B, c'est le top pour les prompts qui sont abstraits, qui demandent des connaissances du monde, des perspectives spécifiques ou le rendu d'écriture et de symboles.
PartiPrompts (P2), c'est un ensemble de plus de 1600 prompts en anglais qu'on a sorti avec ce boulot. P2 peut être utilisé pour mesurer les capacités du modèle dans toutes sortes de catégories et d'aspects de défi. Les prompts P2 peuvent être simples, pour mesurer le progrès de l'échelle. Ils peuvent aussi être complexes.
Mais bon, malgré les performances de ouf de Parti, le modèle a quand même des limites. Par exemple, il peut avoir des difficultés avec la gestion de la négation ou de l'indication d'absence. En plus, les modèles actuels comme Parti sont formés sur des grandes bases de données d'images et de texte, souvent un peu brouillonnes, qui sont connues pour contenir des biais envers des gens de différents horizons. Ça peut mener à des représentations stéréotypées, genre pour des gens décrits comme des avocats, des agents de bord, des ménagères, etc., et à refléter des biais occidentaux pour des événements comme les mariages.
En plus, les modèles qui produisent des sorties hyper réalistes, surtout d'êtres humains, posent des risques de ouf et des inquiétudes autour de la création de deepfakes, créant des risques en termes de propagation de désinformation visuelle et pour les individus et les entités dont les ressemblances sont incluses ou référencées.
Malgré ces limites, les modèles de génération d'images à partir de texte ouvrent des possibilités de ouf pour les gens de créer des images uniques et esthétiquement cool, en agissant un peu comme un pinceau pour améliorer la créativité et la productivité humaines. Mais il faut quand même avoir une compréhension fine de l'art basé sur des algorithmes, du modèle lui-même, des gens impliqués et du milieu artistique plus large lors de l'évaluation du mérite artistique ou de la conception.