Parti: Pathways Autoregressive Text-to-Image Model

Einführung

Das Pathways Autoregressive Text-to-Image Modell (Parti) ist ein autoregressives Modell zur Generierung von Text-zu-Bild-Inhalten, das eine hochauflösende, fotorealistische Bildgenerierung ermöglicht. Es unterstützt die Synthese von inhaltsreichen, komplexen Kompositionen und Weltwissen. In den letzten Jahren haben Fortschritte bei Diffusionsmodellen, wie Googles Imagen, beeindruckende Fähigkeiten gezeigt und Spitzenleistungen in Forschungsbenchmarks erzielt. Parti und Imagen ergänzen sich, indem sie zwei verschiedene Familien von generativen Modellen erkunden – autoregressiv und diffusiv – und eröffnen spannende Möglichkeiten für Kombinationen dieser beiden leistungsstarken Modelle.

Hauptmerkmale

Parti behandelt die Text-zu-Bild-Generierung als ein Sequenz-zu-Sequenz-Modellierungsproblem, ähnlich der maschinellen Übersetzung. Dies ermöglicht es, von den Fortschritten in großen Sprachmodellen zu profitieren, insbesondere von den Fähigkeiten, die durch die Skalierung von Daten und Modellgrößen freigesetzt werden. Die Zielausgaben sind Sequenzen von Bild-Tokens anstelle von Text-Tokens in einer anderen Sprache. Parti verwendet den leistungsstarken Bild-Tokenizer ViT-VQGAN, um Bilder als Sequenzen diskreter Tokens zu kodieren und nutzt dessen Fähigkeit, solche Bild-Token-Sequenzen als qualitativ hochwertige, visuell vielfältige Bilder zu rekonstruieren.

Ergebnisse

Konsistente Qualitätsverbesserungen durch die Skalierung von Partis Encoder-Decoder auf bis zu 20 Milliarden Parameter.
State-of-the-Art Zero-Shot FID Score von 7.23 und feinabgestimmter FID Score von 3.22 auf MS-COCO.
Effektivität über eine Vielzahl von Kategorien und Schwierigkeitsaspekten in unserer Analyse von Localized Narratives und PartiPrompts, unserem neuen ganzheitlichen Benchmark von über 1600 englischen Prompts, die wir im Rahmen dieser Arbeit veröffentlichen.

Modellskalierung

Parti wird in Lingvo implementiert und mit GSPMD auf TPU v4-Hardware für Training und Inferenz skaliert, was es uns ermöglicht hat, ein 20B-Parameter-Modell zu trainieren, das Rekordleistungen in mehreren Benchmarks erzielt. Wir führen detaillierte Vergleiche von vier Skalierungen der Parti-Modelle durch – 350M, 750M, 3B und 20B – und beobachten:

Konsistente und erhebliche Verbesserungen in den Modellfähigkeiten und der Bildqualität.
Bei einem Vergleich der 3B- und 20B-Modelle bevorzugten menschliche Evaluatoren letztere in den meisten Fällen, insbesondere:
- 63.2% für Bildrealismus/-qualität
- 75.9% für Bild-Text-Abgleich

Anwendungsbeispiele

Parti kann lange, komplexe Prompts verwalten, die es erfordern:

Weltwissen genau widerzuspiegeln
Viele Teilnehmer und Objekte mit feinen Details und Interaktionen zu komponieren
Ein bestimmtes Bildformat und einen bestimmten Stil einzuhalten

Beispiele für Prompts und die entsprechenden Ausgabebilder zeigen, wie Parti auf Änderungen in Teilnehmern, Aktivitäten, Beschreibungen, Standorten und Formaten reagiert.

Herausforderungen und Einschränkungen

Obwohl Parti qualitativ hochwertige Ausgaben für eine breite Palette von Prompts produziert, hat das Modell dennoch viele Einschränkungen. In der Arbeit diskutieren wir diese Herausforderungen mit Beispielen, aktuellen Fehlermodi und Möglichkeiten für zukünftige Arbeiten.

Verantwortung und breitere Auswirkungen

Text-zu-Bild-Modelle bieten viele Chancen und Risiken, insbesondere in Bezug auf Vorurteile und Sicherheit, visuelle Kommunikation, Fehlinformationen sowie Kreativität und Kunst. Ähnlich wie bei Imagen erkennen wir, dass es ein Risiko gibt, dass Parti schädliche Stereotypen und Darstellungen kodiert.

Fazit

Parti eröffnet neue Möglichkeiten für die Erstellung einzigartiger und ästhetisch ansprechender Bilder und fungiert im Wesentlichen als Pinsel zur Steigerung menschlicher Kreativität und Produktivität. Wir hoffen, dass diese Modelle die menschliche Kreativität und Produktivität ergänzen und nicht ersetzen, sodass wir alle eine Welt voller neuer, vielfältiger und verantwortungsbewusster ästhetischer visueller Erfahrungen genießen können.