Parti: Pathways Autoregressive Text-to-Image Model
Parti to zaawansowany model generujący obrazy z tekstu. Jest to model autoregresyjny, który pozwala uzyskać wysokiej wierności fotorealistyczne obrazy i wspiera syntezę zawierającą złożone kompozycje oraz wiedzę o świecie.
Model traktuje generowanie obrazów z tekstu jako problem modelowania sekwencji do sekwencji, podobnie jak w tłumaczeniu maszynowym. Wykorzystuje potężny tokenizer obrazów, ViT-VQGAN, do kodowania obrazów jako sekwencji dyskretnych tokenów.
Za pomocą tego modelu osiągnięto następujące wyniki:
- Stałe poprawy jakości poprzez skalowanie enkodera-dekodera Parti do 20 miliardów parametrów.
- Najlepszy wynik zerowego FID na poziomie 7.23 i wynik FID po dostrojeniu na poziomie 3.22 na MS-COCO.
- Skuteczność w szerokiej gamie kategorii i różnych aspektach trudności w analizie na Localized Narratives i PartiPrompts, nowym kompleksowym benchmarku zawierającym ponad 1600 angielskich promptów.
Model został zaimplementowany w Lingvo i skalowany z użyciem GSPMD na sprzęcie TPU v4 zarówno do treningu, jak i wnioskowania. Przeprowadzono szczegółowe porównania czterech skal modeli Parti - 350M, 750M, 3B i 20B, obserwując stałe i znaczne poprawy w możliwościach modelu oraz jakości obrazów wyjściowych.
PartiPrompts (P2) to bogaty zestaw ponad 1600 promptów w języku angielskim, który został wydany w ramach tego projektu. Może być używany do pomiaru możliwości modelu w różnych kategoriach i aspektach wyzwania.
Podczas pracy nad modelem zauważono, że mimo wysokiej jakości wyników dla szerokiego zakresu promptów, model ma jednak wiele ograniczeń. Rozważa się wpływ modelu na takie kwestie jak uprzedzenia i bezpieczeństwo, komunikację wizualną, dezinformację oraz kreatywność i sztukę. Z tego powodu autorzy zdecydowali się nie udostępniać modeli, kodu ani danych Parti do użytku publicznego bez dodatkowych zabezpieczeń. W międzyczasie na wszystkich obrazach wydawanych przez model umieszczany jest znak wodny Parti.