Parti: Pathways Autoregressive Text-to-Image Model

소개

Parti는 고충실도 사진 현실 이미지 생성을 달성하고 복잡한 구성 및 세계 지식을 포함하는 콘텐츠 풍부한 합성을 지원하는 자가 회귀 텍스트-이미지 생성 모델입니다. 최근 Google의 Imagen과 같은 텍스트-이미지 생성을 위한 확산 모델의 발전은 인상적인 능력과 연구 벤치마크에서의 최첨단 성능을 보여주었습니다. Parti와 Imagen은 각각 자가 회귀 및 확산이라는 두 가지 다른 생성 모델 패밀리를 탐색하는 데 상호 보완적이며, 이 두 강력한 모델의 조합을 위한 흥미로운 기회를 열어줍니다.

주요 기능

Parti는 텍스트-이미지 생성을 기계 번역과 유사한 시퀀스-투-시퀀스 모델링 문제로 간주합니다. 이를 통해 데이터 및 모델 크기를 확장함으로써 잠재적으로 대형 언어 모델의 발전을 활용할 수 있습니다. 이 경우, 대상 출력은 다른 언어의 텍스트 토큰 대신 이미지 토큰의 시퀀스입니다. Parti는 이미지를 이산 토큰의 시퀀스로 인코딩하기 위해 강력한 이미지 토크나이저인 ViT-VQGAN을 사용하며, 이러한 이미지 토큰 시퀀스를 고품질의 시각적으로 다양한 이미지로 재구성하는 능력을 활용합니다.

성과

Parti의 인코더-디코더를 200억 개의 매개변수로 확장함으로써 일관된 품질 향상을 관찰했습니다.
MS-COCO에서 7.23의 최첨단 제로샷 FID 점수와 3.22의 미세 조정된 FID 점수를 기록했습니다.
Localized Narratives 및 PartiPrompts라는 1600개 이상의 영어 프롬프트로 구성된 새로운 전체론적 벤치마크에서 다양한 카테고리와 난이도 측면에서 효과성을 분석했습니다.

가격

Parti는 Lingvo에서 구현되었으며 TPU v4 하드웨어에서 GSPMD로 확장하여 훈련 및 추론을 수행합니다. 이를 통해 여러 벤치마크에서 기록 성능을 달성하는 200억 개의 매개변수 모델을 훈련할 수 있었습니다.

비교

Parti 모델의 네 가지 규모(350M, 750M, 3B 및 20B)를 비교한 결과, 모델 기능과 출력 이미지 품질에서 일관되고 상당한 개선이 있음을 관찰했습니다. 3B 모델과 20B 모델을 비교했을 때, 인간 평가자들은 대체로 후자를 선호했습니다.

사용 사례

Parti는 복잡한 프롬프트를 관리할 수 있으며, 세계 지식을 정확하게 반영하고, 많은 참가자와 객체를 세밀한 세부 사항과 상호작용으로 구성할 수 있습니다. 예를 들어, 다음과 같은 프롬프트에서 Parti의 응답을 보여줍니다:

정장 차림의 너구리가 탑햇을 쓰고 지팡이를 들고 있습니다.
호수 앞에 서 있는 오토바이 헬멧과 망토를 쓴 곰인형.

결론

Parti는 텍스트-이미지 생성 모델의 새로운 가능성을 열어주며, 인간의 창의성과 생산성을 향상시키는 도구로 작용할 수 있습니다. 그러나 모델의 개발 과정에서 발생할 수 있는 편향과 안전 문제를 인식하고 있으며, 향후 모델의 편향 측정 및 완화 전략을 지속적으로 개발할 것입니다.