Parti : Le Modèle de Génération Text-to-Image

Parti

Parti est un modèle de génération d'images à partir de texte avec des performances impressionnantes, mais des limites.

Parti : Le Modèle de Génération Text-to-Image

Parti : Le modèle autoregressif de génération d'images à partir de texte

Parti, c'est le nouveau truc en ville dans le domaine de la génération d'images à partir de texte. Ce modèle est capable de produire des images hyper réalistes et de soutenir la création de contenus riches et complexes, avec des trucs du genre des compositions complexes et des connaissances du monde.

Les avancées récentes avec les modèles de diffusion pour la génération d'images à partir de texte, genre Google's Imagen, ont montré des trucs de ouf et des performances de malade sur les benchmarks de recherche. Parti et Imagen, c'est comme si c'était complémentaire, en explorant deux familles de modèles génératifs différentes - l'autoregressif et la diffusion - et en ouvrant des possibilités de ouf pour des combinaisons de ces deux modèles puissants.

Parti traite la génération d'images à partir de texte comme un problème de modélisation séquence-à-séquence, un peu comme la traduction automatique. Ça lui permet de bénéficier des avancées dans les grands modèles de langage, surtout des capacités débloquées en augmentant la taille des données et des modèles. Dans ce cas, les sorties, c'est des séquences de jetons d'image au lieu de jetons de texte dans une autre langue.

Parti utilise le tokenizer d'image ViT-VQGAN, qui est trop fort, pour encoder les images en séquences de jetons discrets, et profite de sa capacité à reconstruire ces séquences de jetons d'image en images de qualité de ouf et visuellement variées.

On a observé des résultats de ouf :

  • Des améliorations constantes de la qualité en augmentant l'encodeur-décodeur de Parti jusqu'à 20 milliards de paramètres.
  • Un score FID à zéro-shot de malade de 7,23 et un score FID affiné de 3,22 sur MS-COCO.
  • Une efficacité sur une variété de catégories et d'aspects de difficulté dans notre analyse sur Localized Narratives et PartiPrompts, notre nouveau benchmark de ouf de plus de 1600 prompts en anglais qu'on a sorti avec ce boulot.

On a aussi exploré et mis en évidence les limites de nos modèles, en donnant des exemples clés pour des améliorations futures. L'implémentation de Parti dans Lingvo et son échelle avec GSPMD sur le matériel TPU v4 pour la formation et l'inférence ont permis de former un modèle de 20 milliards de paramètres qui atteint des performances de malade sur plusieurs benchmarks.

On a fait des comparaisons détaillées de quatre échelles de modèles Parti - 350M, 750M, 3B et 20B - et on a vu :

  • Des améliorations constantes et substantielles des capacités du modèle et de la qualité des images de sortie. Quand on compare les modèles 3B et 20B, les évaluateurs humains ont préféré le dernier la plupart du temps, genre :
    • 63,2 % pour le réalisme / qualité de l'image
    • 75,9 % pour l'appariement image-texte Le modèle 20B, c'est le top pour les prompts qui sont abstraits, qui demandent des connaissances du monde, des perspectives spécifiques ou le rendu d'écriture et de symboles.

PartiPrompts (P2), c'est un ensemble de plus de 1600 prompts en anglais qu'on a sorti avec ce boulot. P2 peut être utilisé pour mesurer les capacités du modèle dans toutes sortes de catégories et d'aspects de défi. Les prompts P2 peuvent être simples, pour mesurer le progrès de l'échelle. Ils peuvent aussi être complexes.

Mais bon, malgré les performances de ouf de Parti, le modèle a quand même des limites. Par exemple, il peut avoir des difficultés avec la gestion de la négation ou de l'indication d'absence. En plus, les modèles actuels comme Parti sont formés sur des grandes bases de données d'images et de texte, souvent un peu brouillonnes, qui sont connues pour contenir des biais envers des gens de différents horizons. Ça peut mener à des représentations stéréotypées, genre pour des gens décrits comme des avocats, des agents de bord, des ménagères, etc., et à refléter des biais occidentaux pour des événements comme les mariages.

En plus, les modèles qui produisent des sorties hyper réalistes, surtout d'êtres humains, posent des risques de ouf et des inquiétudes autour de la création de deepfakes, créant des risques en termes de propagation de désinformation visuelle et pour les individus et les entités dont les ressemblances sont incluses ou référencées.

Malgré ces limites, les modèles de génération d'images à partir de texte ouvrent des possibilités de ouf pour les gens de créer des images uniques et esthétiquement cool, en agissant un peu comme un pinceau pour améliorer la créativité et la productivité humaines. Mais il faut quand même avoir une compréhension fine de l'art basé sur des algorithmes, du modèle lui-même, des gens impliqués et du milieu artistique plus large lors de l'évaluation du mérite artistique ou de la conception.

Meilleures alternatives à Parti

Image AI Generator

Image AI Generator

Image AI Generator crée des images générées par l'IA

Générateur de Pages de Coloriage par IA

Générateur de Pages de Coloriage par IA

Le Générateur de Pages de Coloriage par IA crée des pages de coloriage uniques et variées

Omni

Omni

Omni-Zero est un outil AI pour créer des portraits stylisés

Neural Canvas

Neural Canvas

Neural Canvas est un générateur de BD par IA pour créer des histoires uniques

ThumbSnap

ThumbSnap

ThumbSnap est un outil de partage de photos et vidéos

dreamlike.art

dreamlike.art

dreamlike.art est un générateur d'art AI puissant et pratique

neural.love

neural.love

neural.love est un ensemble d'outils AI pour les créateurs

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI est un générateur de tatouages qui aide les utilisateurs à créer des designs uniques rapidement.

DiffusionBee

DiffusionBee

DiffusionBee est un outil d'IA pour créer de l'art, avec diverses fonctionnalités

ARTSIO

ARTSIO

ARTSIO est une plateforme pour inspirer et créer des œuvres d'art.

BlueWillow

BlueWillow

BlueWillow est un générateur d'art IA gratuit pour tous

Scenario

Scenario

Scenario est un outil AI pour contrôler les flux de travail et créer des visuels rapidement.

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator crée des designs de tatouage uniques

Stability World AI

Stability World AI

Stability World AI est une plateforme générative d'IA offrant diverses fonctionnalités

JocondeAI

JocondeAI

JocondeAI est un générateur d'images alimenté par l'IA qui permet aux utilisateurs de créer des œuvres d'art époustouflantes.

Caricaturer.io

Caricaturer.io

Caricaturer.io est un outil en ligne alimenté par l'IA qui transforme vos photos en caricatures uniques et amusantes en quelques clics.

AI Stickr

AI Stickr

AI Stickr est un générateur d'autocollants alimenté par l'IA qui permet aux utilisateurs de créer des autocollants uniques et personnalisés.

AI Sticker Generator

AI Sticker Generator

AI Sticker Generator est un outil alimenté par l'IA qui permet de créer des autocollants uniques et visuellement attrayants.

Face to Many

Face to Many

Face to Many est un outil IA qui transforme vos photos en œuvres d'art spectaculaires avec un simple texte.

FLUX.1

FLUX.1

FLUX.1 est un modèle de génération d'images IA en ligne qui permet de créer des portraits, des images d'animaux et des photos réalistes gratuitement.

getimg.ai

getimg.ai

getimg.ai est une plateforme tout-en-un pour créer et éditer des images avec l'IA, offrant des outils comme la génération d'images à partir de texte et l'édition de photos avec des mots.

Outils IA en vedette

funfun.art

funfun.art

funfun.art est une plateforme alimentée par l'IA qui facilite la création d'images et de vidéos artistiques, permettant aux utilisateurs de donner vie à leurs visions créatives.

Voir les détails
Face to Many

Face to Many

Face to Many est un outil qui convertit votre visage en différents styles artistiques.

Voir les détails
Story Machine

Story Machine

Story Machine est un moteur de jeu 2D sans code qui simplifie la création de jeux d'aventure visuels.

Voir les détails
AniGen AI

AniGen AI

AniGen AI est un générateur d'art anime alimenté par l'IA qui permet aux utilisateurs de créer des œuvres d'art anime époustouflantes.

Voir les détails
Anime AI Generator

Anime AI Generator

Anime AI Generator est une plateforme alimentée par l'IA pour créer des œuvres d'art anime époustouflantes à partir de textes ou de photos.

Voir les détails
StoryDiffusion

StoryDiffusion

StoryDiffusion est un générateur de bandes dessinées alimenté par l'IA qui permet de créer des histoires numériques visuellement cohérentes et de haute qualité.

Voir les détails
Generai

Generai

Generai est une plateforme alimentée par l'IA qui transforme vos descriptions en œuvres d'art uniques.

Voir les détails
Avath App

Avath App

Avath App est une application innovante qui transforme vos entrées de journal en œuvres d'art visuelles grâce à l'IA.

Voir les détails