Parti: Een gweldige Text-to-Image Model

Parti: Pathways Autoregressive Text-to-Image Model

Parti is een toffe autoregressieve text-to-image generatiemodel dat hele vette, fotorealistische beeldjes kan maken en inhoudelijk rijke synthese mogelijk maakt met complexe samenstellingen en wereldwijshe kennis. Dit model behandelt text-to-image generatie als een sequence-to-sequence modelleringsprobleem, net zoals bij machinevertaling. Daardoor kan het profiteren van de vooruitgang in grote taalmodellen.

Parti gebruikt de geweldige image tokenizer, ViT-VQGAN, om beelden om te zetten in sequenties van discrete tokens en maakt gebruik van zijn vermogen om zulke beeldtokensequenties weer om te zetten in superkwaliteit, visueel diverse beelden. Er zijn allerlei coole resultaten gezien, zoals constante kwaliteitsverbeteringen door het opschalen van Parti's encoder-decoder tot 20 miljard parameters. Daarnaast heeft het een state-of-the-art zero-shot FID-score van 7.23 en een gefinetuned FID-score van 3.22 op MS-COCO. Het is ook goed werkzaam in een breed scala aan categorieën en moeilijkheidsniveaus bij de analyse op Localized Narratives en PartiPrompts.

Maar er zijn ook wat minpuntjes aan het model. Hoewel het hoge kwaliteit output produceert voor een breed scala aan prompts, heeft het bijvoorbeeld problemen met het goed omgaan met negatie of indicatie van afwezigheid. Ook zijn er dingen om over na te denken als het gaat om verantwoordelijkheid en bredere impact. Text-to-image modellen brengen namelijk veel mogelijkheden en risico's met zich mee, zoals mogelijke invloed op bias en veiligheid, visuele communicatie, desinformatie, creativiteit en kunst.

Al met al biedt Parti nieuwe kansen voor mensen om unieke en esthetisch aantrekkelijke beelden te maken, maar we moeten wel goed nadenken over de mogelijke beperkingen en gevolgen.

Uitgelichte Tools