Parti: Modello Autoregressivo di Generazione Immagini da Testo
Parti

Scopri come Parti genera immagini fotorealistiche da descrizioni testuali, aprendo nuove opportunità creative.

Visita il Sito
Parti: Modello Autoregressivo di Generazione Immagini da Testo

Parti: Modello Autoregressivo di Generazione Immagini da Testo

Introduzione

Ehi, oggi parliamo di Parti, il modello Pathways Autoregressive Text-to-Image. Questo gioiellino è un modello di generazione immagini da testo che sforna immagini fotorealistiche di alta qualità e riesce a creare composizioni complesse e ricche di contenuti. Negli ultimi tempi, i modelli di diffusione come l'Imagen di Google hanno fatto un sacco di chiacchiere per le loro capacità incredibili e prestazioni top nei benchmark di ricerca. Parti e Imagen sono come il pane e la nutella: diversi ma complementari, esplorando due famiglie di modelli generativi – autoregressivi e di diffusione – e aprendo a nuove opportunità di combinazione tra questi due colossi.

Caratteristiche principali

Parti affronta la generazione di immagini da testo come se fosse un problema di traduzione automatica: questo gli permette di sfruttare i progressi nei modelli di linguaggio di grandi dimensioni, specialmente quelle capacità che si sbloccano aumentando dati e dimensioni del modello. Qui, gli output sono sequenze di token immagine invece di token di testo in un'altra lingua. Utilizza un tokenizer di immagini super potente, il ViT-VQGAN, per codificare le immagini in sequenze di token discreti, e sfrutta la sua abilità di ricostruire queste sequenze in immagini di alta qualità e visivamente diverse.

Risultati

Ecco i risultati che abbiamo ottenuto:

  • Miglioramenti costanti nella qualità scalando l'encoder-decoder di Parti fino a 20 miliardi di parametri.
  • Punteggio FID zero-shot da urlo di 7.23 e punteggio FID fine-tuned di 3.22 su MS-COCO.
  • Efficacia in una miriade di categorie e aspetti di difficoltà nella nostra analisi su Localized Narratives e PartiPrompts, il nostro nuovo benchmark olistico con oltre 1600 prompt in inglese che rilasciamo con questo lavoro.

Scalabilità

Parti è implementato in Lingvo e scalato con GSPMD su hardware TPU v4, il che ci ha permesso di addestrare un modello da 20B di parametri che fa faville su più benchmark. Abbiamo fatto confronti dettagliati tra quattro scale di modelli Parti: 350M, 750M, 3B e 20B, e abbiamo notato:

  • Miglioramenti costanti e sostanziali nelle capacità del modello e nella qualità delle immagini generate.
  • Quando mettiamo a confronto i modelli 3B e 20B, i valutatori umani tendono a preferire il secondo nella maggior parte dei casi, specificamente:
    • 63.2% per realismo/qualità dell'immagine
    • 75.9% per corrispondenza immagine-testo

Il modello da 20B è una vera bomba, soprattutto per prompt astratti, che richiedono conoscenze del mondo, prospettive specifiche o rendering di scrittura e simboli.

PartiPrompts

PartiPrompts (P2) è un pacchetto ricco di oltre 1600 prompt in inglese che rilasciamo con questo lavoro. P2 può essere utilizzato per testare le capacità del modello in vari ambiti e sfide. I prompt P2 possono essere semplici, permettendoci di valutare i progressi dalla scalabilità. Possono anche essere complessi, come la seguente descrizione di 67 parole che abbiamo creato per La Notte Stellata di Vincent van Gogh (1889):

Pittura ad olio su tela di un cielo notturno blu con energia turbolenta. Una luna crescente fuzzy e luminosa gialla splende in alto. Sotto le stelle gialle esplodenti e i vortici blu, un villaggio distante siede silenziosamente a destra. Collegando terra e cielo c'è un albero di cipresso simile a una fiamma con rami arricciati e ondeggianti a sinistra. Una guglia di chiesa si erge come un faro su colline blu ondulate.

Discussione e limitazioni

Molte delle immagini mostrate qui sono state selezionate, o raccolte, da un ampio set di esempi generati durante l'esplorazione dei prompt e le interazioni di modifica. Chiamiamo questo processo “Crescere l'albero delle ciliegie” e forniamo un esempio dettagliato di esso nel documento, dove costruiamo un prompt molto complesso e strategie per produrre un'immagine che rifletta completamente la descrizione. Sebbene Parti produca output di alta qualità per un'ampia gamma di prompt, il modello ha comunque molte limitazioni. Nel documento, discutiamo queste sfide con esempi, modalità di fallimento attuali e opportunità per il lavoro futuro.

Responsabilità e impatto più ampio

Discutiamo più a lungo nel documento, i modelli di generazione di immagini da testo introducono molte opportunità e rischi, con potenziali impatti su pregiudizi e sicurezza, comunicazione visiva, disinformazione e creatività e arte. Simile a Imagen, riconosciamo che c'è un rischio che Parti possa codificare stereotipi e rappresentazioni dannose. Alcuni rischi potenziali riguardano il modo in cui i modelli stessi vengono sviluppati, e questo è particolarmente vero per i dati di addestramento. Modelli attuali come Parti sono addestrati su ampi dataset di immagini-testo, spesso rumorosi, noti per contenere pregiudizi riguardo le persone di diversi background. Ciò porta tali modelli, incluso Parti, a produrre rappresentazioni stereotipate di, ad esempio, persone descritte come avvocati, assistenti di volo, casalinghe e così via, e a riflettere pregiudizi occidentali per eventi come i matrimoni. Questo presenta problemi particolari per le persone i cui background e interessi non sono ben rappresentati nei dati e nel modello, specialmente se tali modelli vengono applicati a usi come la comunicazione visiva, ad esempio, per aiutare gruppi sociali a bassa alfabetizzazione.

Conclusione

In attesa di ulteriori misure di mitigazione dei pregiudizi, abbiamo deciso di non rilasciare i nostri modelli, codice o dati di Parti per uso pubblico. Nel frattempo, forniamo un watermark di Parti su tutte le immagini che rilasciamo. Ci concentreremo su misure di bias del modello e strategie di mitigazione, come il filtraggio dei prompt, il filtraggio degli output e la ricalibrazione del modello. Crediamo che sia possibile utilizzare i modelli di generazione di immagini da testo per comprendere i pregiudizi nei grandi dataset di immagini-testo su larga scala, sondandoli esplicitamente per una serie di tipi di pregiudizio noti e potenzialmente scoprendo altre forme di pregiudizio nascosto. Speriamo che questi modelli possano aumentare la creatività e la produttività umana, non sostituirla, affinché tutti noi possiamo godere di un mondo pieno di nuove, varie e responsabili esperienze visive estetiche.

Le Migliori Alternative a Parti

PetPet

PetPet

PetPet è un generatore di ritratti di animali domestici alimentato dall'AI che offre opere d'arte uniche

Alpaca

Alpaca

Alpaca è una tela AI-powered per artisti digitali che stilisce e rende schizzi iniziali.

Anime AI Generator

Anime AI Generator

Anime AI Generator è un potente strumento per creare opere d'arte anime

Waterlily

Waterlily

Waterlily è un AI generativo per artisti che crea valore

Penly AI

Penly AI

Penly AI è un generatore di immagini che offre varie funzionalità creative

Stability World AI

Stability World AI

Stability World AI è una piattaforma generativa AI Web3 che aiuta gli utenti a creare arte digitale.

Dreampix

Dreampix

Dreampix è una comunità creativa di AI-wallpapers che offre possibilità illimitate

Synapses studio

Synapses studio

Synapses studio è uno spazio innovativo che unisce arte e intelligenza artificiale per generare opere d'arte uniche.

Colorjoy

Colorjoy

Colorjoy è un generatore di pagine da colorare che alimenta la tua creatività

MyQRCode.com AI QR Code Generator

MyQRCode.com AI QR Code Generator

MyQRCode.com è un generatore di QR Code AI che permette di creare codici QR artistici.

MusesAI.io

MusesAI.io

MusesAI.io è un'istanza che aiuta a esplorare e segnare i prompt e i codici di stile di Midjourney.

PixarAI

PixarAI

PixarAI è un generatore AI che crea poster e arte canina ispirati a Disney Pixar.

DaVinci AI Art Generator

DaVinci AI Art Generator

DaVinci è un generatore di arte AI che permette di creare opere uniche con pochi secondi.

Midjourney

Midjourney

Midjourney offers diverse sref codes for unique styles

Colorway

Colorway

Colorway è un generatore di libri da colorare con AI che aiuta gli utenti a creare pagine da colorare gratuite.

AI Wallpaper Generator

AI Wallpaper Generator

AI Wallpaper Generator è uno strumento che crea splendide pareti con l'aiuto dell'IA.

AI Icon Generator

AI Icon Generator

L'AI Icon Generator crea icone efficientemente, aiutando a risparmiare tempo nella progettazione.

Roast Your Desk

Roast Your Desk

Roast Your Desk è un AI che critica i vostri tavoli in modo divertente

RunComfy

RunComfy

RunComfy è una piattaforma ComfyUI che aiuta gli utenti a creare arte digitale senza problemi tecnici.

Midlibrary

Midlibrary

Midlibrary è una libreria avanzata di stili per Midjourney AI

Heurist Imagine

Heurist Imagine

Heurist Imagine è un creatore di arte AI che consente di guadagnare HEU Tokens

Tattoon.ai

Tattoon.ai

Tattoon.ai è un generatore di tatuaggi AI che offre design unici

Pigment Sketch

Pigment Sketch

Pigment Sketch è un generatore di pagine da colorare AI-powered che aiuta gli utenti a creare pagine uniche con facilità.

Airbrush

Airbrush

Airbrush è un generatore AI di immagini e foto di stock che aiuta a risparmiare tempo e denaro.

Categorie correlate di Parti