Parti: Pathways Autoregressive Text-to-Image Model
Intro
We stellen je voor aan het Pathways Autoregressive Text-to-Image model (Parti), een autoregressief model dat in staat is om fotorealistische beelden te genereren vanuit tekst. Dit model ondersteunt rijke content-synthese met complexe composities en wereldkennis. Onlangs hebben we ook gezien dat diffusie-modellen, zoals Google’s Imagen, indrukwekkende prestaties leveren op onderzoeksbenchmarks. Parti en Imagen zijn als yin en yang, ze verkennen twee verschillende families van generatieve modellen – autoregressief en diffusie – en dat opent de deur naar spannende combinaties van deze krachtige technologieën.
Parti pakt text-to-image generatie aan als een sequence-to-sequence model, vergelijkbaar met machinevertaling – hierdoor profiteert het van de vooruitgang in grote taalmodellen, vooral de mogelijkheden die vrijkomen door het opschalen van data en modelgroottes. In dit geval zijn de doeluitvoer sequenties van afbeeldingtokens in plaats van teksttokens in een andere taal. Parti maakt gebruik van de krachtige beeldtokenizer, ViT-VQGAN, om beelden te coderen als sequenties van discrete tokens, en benut zijn vermogen om deze afbeeldingtokens om te zetten in hoogwaardige, visueel diverse beelden.
Belangrijkste Kenmerken
- Topkwaliteit Beeldgeneratie: Parti verbetert de beeldkwaliteit consistent door zijn encoder-decoder op te schalen tot wel 20 miljard parameters.
- State-of-the-Art Prestaties: Bereikt een zero-shot FID-score van 7.23 en een gefinetunede FID-score van 3.22 op MS-COCO.
- Diverse Capaciteiten: Effectief in verschillende categorieën en moeilijkheidsaspecten, zoals aangetoond in onze analyse van Localized Narratives en PartiPrompts.
Toepassingen
Parti blinkt uit in het genereren van beelden vanuit complexe en abstracte prompts, zoals:
- Een portretfoto van een kangoeroe in een oranje hoodie en blauwe zonnebril.
- Een groen bord met de tekst "Very Deep Learning" aan de rand van de Grand Canyon.
- Een foto van een astronaut die op een paard in het bos rijdt.
Prijzen
Parti is momenteel niet openbaar beschikbaar zonder extra waarborgen, maar het laat wel de potentie zien van text-to-image generatie technologie.
Vergelijkingen
Bij het vergelijken van de 3B en 20B modellen gaven menselijke evaluators de voorkeur aan het 20B model voor beeldrealiteit/kwaliteit (63.2%) en de match tussen afbeelding en tekst (75.9%).
Geavanceerde Tips
Om de beste resultaten uit Parti te halen, gebruik gedetailleerde prompts die specifieke stijlen, perspectieven en wereldkennis bevatten.
Conclusie
Parti vertegenwoordigt een grote stap voorwaarts in text-to-image generatie, waarmee gebruikers unieke en esthetisch aantrekkelijke beelden kunnen creëren. Het is echter belangrijk om je bewust te zijn van de beperkingen en biases die kunnen voortkomen uit de trainingsdata die voor dergelijke modellen zijn gebruikt. Toekomstige ontwikkelingen zullen zich richten op het aanpakken van deze uitdagingen terwijl de capaciteiten van het model worden verbeterd.
Erkenningen
Parti is een samenwerking tussen verschillende Google Research teams, en we bedanken alle bijdragers voor hun inspanningen in dit project.