Parti: Metin-Görüntü Üretim Modeli
Parti, yüksek kaliteli fotoğrafik görüntüler üreten ve içerik zenginleştirme sağlayan bir metin-görüntü üretim modelidir. Metinden görüntüye üretimi sıralı modelleme problemi olarak ele alıyor ve büyük dil modellerindeki ilerlemelerden faydalanıyor. Görüntüleri ViT-VQGAN ile kodlayıp yüksek kaliteli görüntülere dönüştürüyor.
Kullanım alanlarında şu sonuçlar elde edildi: 20 milyar parametreli encoder-decoder ile kalite iyileştirmeleri sağlandı, MS-COCO'da iyi performans gösterildi, Localized Narratives ve PartiPrompts üzerinde geniş kategori ve zorluk alanında etkinlik gösterildi.
Parti, Lingvo'da uygulanmış ve TPU v4 donanımında GSPMD ile ölçeklendirilmiştir. Modelin dört ölçeği karşılaştırıldı ve model yeteneklerinde ve görüntü kalitesinde önemli iyileştirmeler görüldü. İnsan değerlendiriciler genellikle 20B modelini tercih etti. 20B modeli soyut, dünya bilgisi gerektiren gibi istemlerde başarılıdır.
Sonuç olarak, Parti metin-görüntü üretiminde önemli bir ilerlemeyi temsil ediyor ve yaratıcılık için yeni olanaklar sunuyor.