Parti: Pathways Autoregressive Text-to-Image Modell für kreative Bildgenerierung

Parti

Entdecken Sie Parti, ein innovatives Text-zu-Bild-Modell, das fotorealistische Bilder mit komplexen Kompositionen generiert.

Parti: Pathways Autoregressive Text-to-Image Modell für kreative Bildgenerierung

Parti: Pathways Autoregressive Text-to-Image Model

Einführung

Das Pathways Autoregressive Text-to-Image Modell (Parti) ist ein autoregressives Modell zur Generierung von Text-zu-Bild-Inhalten, das eine hochauflösende, fotorealistische Bildgenerierung ermöglicht. Es unterstützt die Synthese von inhaltsreichen, komplexen Kompositionen und Weltwissen. In den letzten Jahren haben Fortschritte bei Diffusionsmodellen, wie Googles Imagen, beeindruckende Fähigkeiten gezeigt und Spitzenleistungen in Forschungsbenchmarks erzielt. Parti und Imagen ergänzen sich, indem sie zwei verschiedene Familien von generativen Modellen erkunden – autoregressiv und diffusiv – und eröffnen spannende Möglichkeiten für Kombinationen dieser beiden leistungsstarken Modelle.

Hauptmerkmale

Parti behandelt die Text-zu-Bild-Generierung als ein Sequenz-zu-Sequenz-Modellierungsproblem, ähnlich der maschinellen Übersetzung. Dies ermöglicht es, von den Fortschritten in großen Sprachmodellen zu profitieren, insbesondere von den Fähigkeiten, die durch die Skalierung von Daten und Modellgrößen freigesetzt werden. Die Zielausgaben sind Sequenzen von Bild-Tokens anstelle von Text-Tokens in einer anderen Sprache. Parti verwendet den leistungsstarken Bild-Tokenizer ViT-VQGAN, um Bilder als Sequenzen diskreter Tokens zu kodieren und nutzt dessen Fähigkeit, solche Bild-Token-Sequenzen als qualitativ hochwertige, visuell vielfältige Bilder zu rekonstruieren.

Ergebnisse

  • Konsistente Qualitätsverbesserungen durch die Skalierung von Partis Encoder-Decoder auf bis zu 20 Milliarden Parameter.
  • State-of-the-Art Zero-Shot FID Score von 7.23 und feinabgestimmter FID Score von 3.22 auf MS-COCO.
  • Effektivität über eine Vielzahl von Kategorien und Schwierigkeitsaspekten in unserer Analyse von Localized Narratives und PartiPrompts, unserem neuen ganzheitlichen Benchmark von über 1600 englischen Prompts, die wir im Rahmen dieser Arbeit veröffentlichen.

Modellskalierung

Parti wird in Lingvo implementiert und mit GSPMD auf TPU v4-Hardware für Training und Inferenz skaliert, was es uns ermöglicht hat, ein 20B-Parameter-Modell zu trainieren, das Rekordleistungen in mehreren Benchmarks erzielt. Wir führen detaillierte Vergleiche von vier Skalierungen der Parti-Modelle durch – 350M, 750M, 3B und 20B – und beobachten:

  • Konsistente und erhebliche Verbesserungen in den Modellfähigkeiten und der Bildqualität.
  • Bei einem Vergleich der 3B- und 20B-Modelle bevorzugten menschliche Evaluatoren letztere in den meisten Fällen, insbesondere:
    • 63.2% für Bildrealismus/-qualität
    • 75.9% für Bild-Text-Abgleich

Anwendungsbeispiele

Parti kann lange, komplexe Prompts verwalten, die es erfordern:

  • Weltwissen genau widerzuspiegeln
  • Viele Teilnehmer und Objekte mit feinen Details und Interaktionen zu komponieren
  • Ein bestimmtes Bildformat und einen bestimmten Stil einzuhalten

Beispiele für Prompts und die entsprechenden Ausgabebilder zeigen, wie Parti auf Änderungen in Teilnehmern, Aktivitäten, Beschreibungen, Standorten und Formaten reagiert.

Herausforderungen und Einschränkungen

Obwohl Parti qualitativ hochwertige Ausgaben für eine breite Palette von Prompts produziert, hat das Modell dennoch viele Einschränkungen. In der Arbeit diskutieren wir diese Herausforderungen mit Beispielen, aktuellen Fehlermodi und Möglichkeiten für zukünftige Arbeiten.

Verantwortung und breitere Auswirkungen

Text-zu-Bild-Modelle bieten viele Chancen und Risiken, insbesondere in Bezug auf Vorurteile und Sicherheit, visuelle Kommunikation, Fehlinformationen sowie Kreativität und Kunst. Ähnlich wie bei Imagen erkennen wir, dass es ein Risiko gibt, dass Parti schädliche Stereotypen und Darstellungen kodiert.

Fazit

Parti eröffnet neue Möglichkeiten für die Erstellung einzigartiger und ästhetisch ansprechender Bilder und fungiert im Wesentlichen als Pinsel zur Steigerung menschlicher Kreativität und Produktivität. Wir hoffen, dass diese Modelle die menschliche Kreativität und Produktivität ergänzen und nicht ersetzen, sodass wir alle eine Welt voller neuer, vielfältiger und verantwortungsbewusster ästhetischer visueller Erfahrungen genießen können.

Handlungsaufforderung

Erfahren Sie mehr über Parti und seine beeindruckenden Fähigkeiten, indem Sie die offizielle besuchen!

Top-Alternativen zu Parti

Draw3D

Draw3D

Draw3D verwandelt Ihre Skizzen in lebendige, fotorealistische Bilder.

Design of Perception

Design of Perception

Design of Perception ist eine KI-gestützte Plattform für Kunst und Merchandise

AI Coloring Pages Generator

AI Coloring Pages Generator

Der AI Coloring Pages Generator bringt dir individuelle Kunstwerke für jeden

Image AI Generator

Image AI Generator

Image AI Generator bringt deine Bildideen mit KI-Power zum Leben!

funfun.art

funfun.art

funfun.art ist ein AI-basiertes Tool für die einfache Erstellung von Bildern und Videos

Omni

Omni

Omni-Zero ist ein KI-basiertes Tool, das Fotos in stilvolle Porträts verwandelt.

ThumbSnap

ThumbSnap

ThumbSnap ist ein kostenloses Foto- und Video-Sharing-Tool

dreamlike.art

dreamlike.art

dreamlike.art ist ein KI-betriebenes Tool, das beeindruckende Kunstwerke erstellt.

neural.love

neural.love

neural.love ist ein All-in-One AI-Tool für kreative Aufgaben

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator creates unique tattoos quickly

DiffusionBee

DiffusionBee

DiffusionBee ist ein AI-Toolkit für lokale Kreativität

ARTSIO

ARTSIO

ARTSIO ist ein Tool, das Künstler und Kreative inspiriert und unterstützt

Scenario

Scenario

Scenario - das KI-Powertool für mehr Effizienz in der Visual-Produktion

BlueWillow

BlueWillow

BlueWillow ist ein KI-basierter Kunstgenerator, der tolle Grafiken erstellt.

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator creates custom tattoo designs quickly

Stability World AI

Stability World AI

Stability World AI ist eine umfassende Generative-AI-Plattform für Web3

AI Stickr

AI Stickr

AI Stickr ist ein KI-gestützter Sticker-Generator, der einzigartige und ansprechende Sticker für verschiedene Themen und Stile erstellt.

AI Sticker Generator

AI Sticker Generator

Der AI Sticker Generator ist ein KI-gestütztes Tool, das einzigartige und visuell ansprechende Sticker erstellt.

FLUX.1

FLUX.1

FLUX.1 ist ein KI-gestütztes Bildgenerierungsmodell, das kostenlos online genutzt werden kann.

Face to Many

Face to Many

Face to Many ist ein KI-gestütztes Tool, das Gesichter in verschiedene Kunststile wie 3D, Emoji und Pixel Art verwandelt.

getimg.ai

getimg.ai

getimg.ai ist ein All-in-One-Kreativ-Toolkit, das KI nutzt, um Bilder aus Text zu generieren, Fotos zu bearbeiten und Bilder über ihre Grenzen hinaus zu erweitern.

Empfohlene KI-Tools

Generai

Generai

Generai ist eine KI-gestützte Plattform, die es Nutzern ermöglicht, durch einfache Beschreibungen einzigartige Kunstwerke zu erstellen.

Details anzeigen
Playbook AI

Playbook AI

Playbook AI ist eine Plattform, die Künstliche Intelligenz nutzt, um Künstlern und Designern zu helfen, ihre Kunst zu erstellen, zu speichern und zu organisieren.

Details anzeigen
QR Code AI

QR Code AI

QR Code AI ist ein hammermäßiges AI-basiertes QR-Code-Generierungstool mit fetten Features.

Details anzeigen
MagicAI

MagicAI

MagicAI ist ein kostenloses Tool für AI-Bilder, -Videos und -Tools

Details anzeigen
Doodle Morph AI Art Generator

Doodle Morph AI Art Generator

Doodle Morph AI generiert kunstvolle, foto-realistische Kunstwerke aus Zeichnungen.

Details anzeigen
ZMO.AI

ZMO.AI

ZMO.AI ist ein vielseitiger AI-Bildgenerator für kreative Inhalte.

Details anzeigen
Chromox

Chromox

Chromox verwandelt Ideen in beeindruckende visuelle Geschichten.

Details anzeigen
Skybox AI

Skybox AI

Skybox AI ermöglicht die einfache Erstellung von 360°-Welten mit Textaufforderungen.

Details anzeigen