Parti: Pathways Autoregressive Text-to-Image Modell für kreative Bildgenerierung

Parti

Entdecken Sie Parti, ein innovatives Text-zu-Bild-Modell, das fotorealistische Bilder mit komplexen Kompositionen generiert.

Parti: Pathways Autoregressive Text-to-Image Modell für kreative Bildgenerierung

Parti: Pathways Autoregressive Text-to-Image Model

Einführung

Das Pathways Autoregressive Text-to-Image Modell (Parti) ist ein autoregressives Modell zur Generierung von Text-zu-Bild-Inhalten, das eine hochauflösende, fotorealistische Bildgenerierung ermöglicht. Es unterstützt die Synthese von inhaltsreichen, komplexen Kompositionen und Weltwissen. In den letzten Jahren haben Fortschritte bei Diffusionsmodellen, wie Googles Imagen, beeindruckende Fähigkeiten gezeigt und Spitzenleistungen in Forschungsbenchmarks erzielt. Parti und Imagen ergänzen sich, indem sie zwei verschiedene Familien von generativen Modellen erkunden – autoregressiv und diffusiv – und eröffnen spannende Möglichkeiten für Kombinationen dieser beiden leistungsstarken Modelle.

Hauptmerkmale

Parti behandelt die Text-zu-Bild-Generierung als ein Sequenz-zu-Sequenz-Modellierungsproblem, ähnlich der maschinellen Übersetzung. Dies ermöglicht es, von den Fortschritten in großen Sprachmodellen zu profitieren, insbesondere von den Fähigkeiten, die durch die Skalierung von Daten und Modellgrößen freigesetzt werden. Die Zielausgaben sind Sequenzen von Bild-Tokens anstelle von Text-Tokens in einer anderen Sprache. Parti verwendet den leistungsstarken Bild-Tokenizer ViT-VQGAN, um Bilder als Sequenzen diskreter Tokens zu kodieren und nutzt dessen Fähigkeit, solche Bild-Token-Sequenzen als qualitativ hochwertige, visuell vielfältige Bilder zu rekonstruieren.

Ergebnisse

  • Konsistente Qualitätsverbesserungen durch die Skalierung von Partis Encoder-Decoder auf bis zu 20 Milliarden Parameter.
  • State-of-the-Art Zero-Shot FID Score von 7.23 und feinabgestimmter FID Score von 3.22 auf MS-COCO.
  • Effektivität über eine Vielzahl von Kategorien und Schwierigkeitsaspekten in unserer Analyse von Localized Narratives und PartiPrompts, unserem neuen ganzheitlichen Benchmark von über 1600 englischen Prompts, die wir im Rahmen dieser Arbeit veröffentlichen.

Modellskalierung

Parti wird in Lingvo implementiert und mit GSPMD auf TPU v4-Hardware für Training und Inferenz skaliert, was es uns ermöglicht hat, ein 20B-Parameter-Modell zu trainieren, das Rekordleistungen in mehreren Benchmarks erzielt. Wir führen detaillierte Vergleiche von vier Skalierungen der Parti-Modelle durch – 350M, 750M, 3B und 20B – und beobachten:

  • Konsistente und erhebliche Verbesserungen in den Modellfähigkeiten und der Bildqualität.
  • Bei einem Vergleich der 3B- und 20B-Modelle bevorzugten menschliche Evaluatoren letztere in den meisten Fällen, insbesondere:
    • 63.2% für Bildrealismus/-qualität
    • 75.9% für Bild-Text-Abgleich

Anwendungsbeispiele

Parti kann lange, komplexe Prompts verwalten, die es erfordern:

  • Weltwissen genau widerzuspiegeln
  • Viele Teilnehmer und Objekte mit feinen Details und Interaktionen zu komponieren
  • Ein bestimmtes Bildformat und einen bestimmten Stil einzuhalten

Beispiele für Prompts und die entsprechenden Ausgabebilder zeigen, wie Parti auf Änderungen in Teilnehmern, Aktivitäten, Beschreibungen, Standorten und Formaten reagiert.

Herausforderungen und Einschränkungen

Obwohl Parti qualitativ hochwertige Ausgaben für eine breite Palette von Prompts produziert, hat das Modell dennoch viele Einschränkungen. In der Arbeit diskutieren wir diese Herausforderungen mit Beispielen, aktuellen Fehlermodi und Möglichkeiten für zukünftige Arbeiten.

Verantwortung und breitere Auswirkungen

Text-zu-Bild-Modelle bieten viele Chancen und Risiken, insbesondere in Bezug auf Vorurteile und Sicherheit, visuelle Kommunikation, Fehlinformationen sowie Kreativität und Kunst. Ähnlich wie bei Imagen erkennen wir, dass es ein Risiko gibt, dass Parti schädliche Stereotypen und Darstellungen kodiert.

Fazit

Parti eröffnet neue Möglichkeiten für die Erstellung einzigartiger und ästhetisch ansprechender Bilder und fungiert im Wesentlichen als Pinsel zur Steigerung menschlicher Kreativität und Produktivität. Wir hoffen, dass diese Modelle die menschliche Kreativität und Produktivität ergänzen und nicht ersetzen, sodass wir alle eine Welt voller neuer, vielfältiger und verantwortungsbewusster ästhetischer visueller Erfahrungen genießen können.

Handlungsaufforderung

Erfahren Sie mehr über Parti und seine beeindruckenden Fähigkeiten, indem Sie die offizielle besuchen!

Top-Alternativen zu Parti

Design of Perception

Design of Perception

Design of Perception ist eine KI-gestützte Plattform für Kunst und Merchandise

AI Coloring Pages Generator

AI Coloring Pages Generator

Der AI Coloring Pages Generator bringt dir individuelle Kunstwerke für jeden

Image AI Generator

Image AI Generator

Image AI Generator bringt deine Bildideen mit KI-Power zum Leben!

funfun.art

funfun.art

funfun.art ist ein AI-basiertes Tool für die einfache Erstellung von Bildern und Videos

Omni

Omni

Omni-Zero ist ein KI-basiertes Tool, das Fotos in stilvolle Porträts verwandelt.

ThumbSnap

ThumbSnap

ThumbSnap ist ein kostenloses Foto- und Video-Sharing-Tool

dreamlike.art

dreamlike.art

dreamlike.art ist ein KI-betriebenes Tool, das beeindruckende Kunstwerke erstellt.

neural.love

neural.love

neural.love ist ein All-in-One AI-Tool für kreative Aufgaben

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator creates unique tattoos quickly

DiffusionBee

DiffusionBee

DiffusionBee ist ein AI-Toolkit für lokale Kreativität

ARTSIO

ARTSIO

ARTSIO ist ein Tool, das Künstler und Kreative inspiriert und unterstützt

Scenario

Scenario

Scenario - das KI-Powertool für mehr Effizienz in der Visual-Produktion

BlueWillow

BlueWillow

BlueWillow ist ein KI-basierter Kunstgenerator, der tolle Grafiken erstellt.

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator creates custom tattoo designs quickly

Stability World AI

Stability World AI

Stability World AI ist eine umfassende Generative-AI-Plattform für Web3

AI Stickr

AI Stickr

AI Stickr ist ein KI-gestützter Sticker-Generator, der einzigartige und ansprechende Sticker für verschiedene Themen und Stile erstellt.

AI Sticker Generator

AI Sticker Generator

Der AI Sticker Generator ist ein KI-gestütztes Tool, das einzigartige und visuell ansprechende Sticker erstellt.

FLUX.1

FLUX.1

FLUX.1 ist ein KI-gestütztes Bildgenerierungsmodell, das kostenlos online genutzt werden kann.

Face to Many

Face to Many

Face to Many ist ein KI-gestütztes Tool, das Gesichter in verschiedene Kunststile wie 3D, Emoji und Pixel Art verwandelt.

getimg.ai

getimg.ai

getimg.ai ist ein All-in-One-Kreativ-Toolkit, das KI nutzt, um Bilder aus Text zu generieren, Fotos zu bearbeiten und Bilder über ihre Grenzen hinaus zu erweitern.

Deep Dream Generator

Deep Dream Generator

Deep Dream Generator ist ein KI-gestützter Bild- und Videogenerator, der es Nutzern ermöglicht, einzigartige Kunstwerke und Animationen zu erstellen.

Empfohlene KI-Tools

Pigment Sketch

Pigment Sketch

Pigment Sketch ist ein KI-gestützter Generator für Malvorlagen, der einzigartige Seiten in Sekunden erstellt.

Details anzeigen
BikinAvatar.com

BikinAvatar.com

BikinAvatar.com ermöglicht es, einzigartige AI-Bilder einfach zu erstellen.

Details anzeigen
AniGen AI

AniGen AI

AniGen AI ist der ultimative KI-Anime-Generator, mit dem du krasseste Anime-Kunst zaubern kannst.

Details anzeigen
ArtRoom AI

ArtRoom AI

ArtRoom AI ist eine KI-gestützte Plattform zur Kunstgenerierung, die es Nutzern ermöglicht, ihre Kreativität freizusetzen und künstlerische Visionen zu verwirklichen.

Details anzeigen
TattooGen.ai

TattooGen.ai

TattooGen.ai ist ein KI-generierter Tattoo-Generator, der individuelle Designs erstellt.

Details anzeigen
SoulGen

SoulGen

SoulGen ist ein AI-gestütztes Kunstwerkzeug, das Bilder aus Textbeschreibungen in Sekundenschnelle erstellt.

Details anzeigen
Imagen 3

Imagen 3

Imagen 3 ist ein krasses AI-basiertes Text-zu-Bild-Modell, das hammermäßige Bilder zaubert.

Details anzeigen
Chromox

Chromox

Chromox verwandelt Ideen in beeindruckende visuelle Geschichten.

Details anzeigen