Parti: Modello Autoregressivo di Generazione Immagini da Testo
Introduzione
Ehi, oggi parliamo di Parti, il modello Pathways Autoregressive Text-to-Image. Questo gioiellino è un modello di generazione immagini da testo che sforna immagini fotorealistiche di alta qualità e riesce a creare composizioni complesse e ricche di contenuti. Negli ultimi tempi, i modelli di diffusione come l'Imagen di Google hanno fatto un sacco di chiacchiere per le loro capacità incredibili e prestazioni top nei benchmark di ricerca. Parti e Imagen sono come il pane e la nutella: diversi ma complementari, esplorando due famiglie di modelli generativi – autoregressivi e di diffusione – e aprendo a nuove opportunità di combinazione tra questi due colossi.
Caratteristiche principali
Parti affronta la generazione di immagini da testo come se fosse un problema di traduzione automatica: questo gli permette di sfruttare i progressi nei modelli di linguaggio di grandi dimensioni, specialmente quelle capacità che si sbloccano aumentando dati e dimensioni del modello. Qui, gli output sono sequenze di token immagine invece di token di testo in un'altra lingua. Utilizza un tokenizer di immagini super potente, il ViT-VQGAN, per codificare le immagini in sequenze di token discreti, e sfrutta la sua abilità di ricostruire queste sequenze in immagini di alta qualità e visivamente diverse.
Risultati
Ecco i risultati che abbiamo ottenuto:
- Miglioramenti costanti nella qualità scalando l'encoder-decoder di Parti fino a 20 miliardi di parametri.
- Punteggio FID zero-shot da urlo di 7.23 e punteggio FID fine-tuned di 3.22 su MS-COCO.
- Efficacia in una miriade di categorie e aspetti di difficoltà nella nostra analisi su Localized Narratives e PartiPrompts, il nostro nuovo benchmark olistico con oltre 1600 prompt in inglese che rilasciamo con questo lavoro.
Scalabilità
Parti è implementato in Lingvo e scalato con GSPMD su hardware TPU v4, il che ci ha permesso di addestrare un modello da 20B di parametri che fa faville su più benchmark. Abbiamo fatto confronti dettagliati tra quattro scale di modelli Parti: 350M, 750M, 3B e 20B, e abbiamo notato:
- Miglioramenti costanti e sostanziali nelle capacità del modello e nella qualità delle immagini generate.
- Quando mettiamo a confronto i modelli 3B e 20B, i valutatori umani tendono a preferire il secondo nella maggior parte dei casi, specificamente:
- 63.2% per realismo/qualità dell'immagine
- 75.9% per corrispondenza immagine-testo
Il modello da 20B è una vera bomba, soprattutto per prompt astratti, che richiedono conoscenze del mondo, prospettive specifiche o rendering di scrittura e simboli.
PartiPrompts
PartiPrompts (P2) è un pacchetto ricco di oltre 1600 prompt in inglese che rilasciamo con questo lavoro. P2 può essere utilizzato per testare le capacità del modello in vari ambiti e sfide. I prompt P2 possono essere semplici, permettendoci di valutare i progressi dalla scalabilità. Possono anche essere complessi, come la seguente descrizione di 67 parole che abbiamo creato per La Notte Stellata di Vincent van Gogh (1889):
Pittura ad olio su tela di un cielo notturno blu con energia turbolenta. Una luna crescente fuzzy e luminosa gialla splende in alto. Sotto le stelle gialle esplodenti e i vortici blu, un villaggio distante siede silenziosamente a destra. Collegando terra e cielo c'è un albero di cipresso simile a una fiamma con rami arricciati e ondeggianti a sinistra. Una guglia di chiesa si erge come un faro su colline blu ondulate.
Discussione e limitazioni
Molte delle immagini mostrate qui sono state selezionate, o raccolte, da un ampio set di esempi generati durante l'esplorazione dei prompt e le interazioni di modifica. Chiamiamo questo processo “Crescere l'albero delle ciliegie” e forniamo un esempio dettagliato di esso nel documento, dove costruiamo un prompt molto complesso e strategie per produrre un'immagine che rifletta completamente la descrizione. Sebbene Parti produca output di alta qualità per un'ampia gamma di prompt, il modello ha comunque molte limitazioni. Nel documento, discutiamo queste sfide con esempi, modalità di fallimento attuali e opportunità per il lavoro futuro.
Responsabilità e impatto più ampio
Discutiamo più a lungo nel documento, i modelli di generazione di immagini da testo introducono molte opportunità e rischi, con potenziali impatti su pregiudizi e sicurezza, comunicazione visiva, disinformazione e creatività e arte. Simile a Imagen, riconosciamo che c'è un rischio che Parti possa codificare stereotipi e rappresentazioni dannose. Alcuni rischi potenziali riguardano il modo in cui i modelli stessi vengono sviluppati, e questo è particolarmente vero per i dati di addestramento. Modelli attuali come Parti sono addestrati su ampi dataset di immagini-testo, spesso rumorosi, noti per contenere pregiudizi riguardo le persone di diversi background. Ciò porta tali modelli, incluso Parti, a produrre rappresentazioni stereotipate di, ad esempio, persone descritte come avvocati, assistenti di volo, casalinghe e così via, e a riflettere pregiudizi occidentali per eventi come i matrimoni. Questo presenta problemi particolari per le persone i cui background e interessi non sono ben rappresentati nei dati e nel modello, specialmente se tali modelli vengono applicati a usi come la comunicazione visiva, ad esempio, per aiutare gruppi sociali a bassa alfabetizzazione.
Conclusione
In attesa di ulteriori misure di mitigazione dei pregiudizi, abbiamo deciso di non rilasciare i nostri modelli, codice o dati di Parti per uso pubblico. Nel frattempo, forniamo un watermark di Parti su tutte le immagini che rilasciamo. Ci concentreremo su misure di bias del modello e strategie di mitigazione, come il filtraggio dei prompt, il filtraggio degli output e la ricalibrazione del modello. Crediamo che sia possibile utilizzare i modelli di generazione di immagini da testo per comprendere i pregiudizi nei grandi dataset di immagini-testo su larga scala, sondandoli esplicitamente per una serie di tipi di pregiudizio noti e potenzialmente scoprendo altre forme di pregiudizio nascosto. Speriamo che questi modelli possano aumentare la creatività e la produttività umana, non sostituirla, affinché tutti noi possiamo godere di un mondo pieno di nuove, varie e responsabili esperienze visive estetiche.