Parti: Mô Hình Sinh Ảnh Từ Văn Bản Tự Hồi Quy
Giới Thiệu
Chúng tôi xin giới thiệu mô hình sinh ảnh từ văn bản tự hồi quy Pathways (Parti), một mô hình sinh ảnh từ văn bản có khả năng tạo ra hình ảnh photorealistic chất lượng cao và hỗ trợ tổng hợp nội dung phong phú với các bố cục phức tạp và kiến thức thế giới. Những tiến bộ gần đây trong các mô hình khuếch tán cho sinh ảnh từ văn bản, như Google’s Imagen, cũng đã cho thấy khả năng ấn tượng và hiệu suất hàng đầu trong các tiêu chuẩn nghiên cứu. Parti và Imagen bổ sung cho nhau trong việc khám phá hai gia đình mô hình sinh khác nhau – tự hồi quy và khuếch tán – mở ra những cơ hội thú vị cho sự kết hợp giữa hai mô hình mạnh mẽ này.
Tính Năng Nổi Bật
Parti xem việc sinh ảnh từ văn bản như một bài toán mô hình hóa chuỗi đến chuỗi, tương tự như dịch máy. Điều này cho phép nó tận dụng những tiến bộ trong các mô hình ngôn ngữ lớn, đặc biệt là những khả năng được mở khóa khi mở rộng dữ liệu và kích thước mô hình. Trong trường hợp này, đầu ra mục tiêu là các chuỗi token hình ảnh thay vì token văn bản trong một ngôn ngữ khác. Parti sử dụng bộ mã hóa hình ảnh mạnh mẽ, ViT-VQGAN, để mã hóa hình ảnh thành các chuỗi token rời rạc và tận dụng khả năng tái tạo các chuỗi token hình ảnh này thành những hình ảnh chất lượng cao, đa dạng về mặt thị giác.
Ứng Dụng
Chúng tôi đã quan sát được những kết quả sau:
- Cải thiện chất lượng liên tục khi mở rộng bộ mã hóa-decoder của Parti lên tới 20 tỷ tham số.
- Điểm FID không cần tinh chỉnh hàng đầu là 7.23 và điểm FID đã tinh chỉnh là 3.22 trên MS-COCO.
- Hiệu quả trên nhiều loại hình và khía cạnh khó khăn trong phân tích của chúng tôi về Localized Narratives và PartiPrompts, bộ tiêu chuẩn toàn diện mới của chúng tôi với hơn 1600 prompt tiếng Anh mà chúng tôi phát hành như một phần của công việc này.
Giá Cả
Parti được triển khai trong Lingvo và mở rộng với GSPMD trên phần cứng TPU v4 cho cả đào tạo và suy diễn, cho phép chúng tôi đào tạo một mô hình 20B tham số đạt hiệu suất kỷ lục trên nhiều tiêu chuẩn.
So Sánh
Chúng tôi thực hiện các so sánh chi tiết giữa bốn quy mô của các mô hình Parti – 350M, 750M, 3B và 20B – và nhận thấy:
- Cải thiện nhất quán và đáng kể về khả năng của mô hình và chất lượng hình ảnh đầu ra.
- Khi so sánh mô hình 3B và 20B, các đánh giá viên con người thường thích mô hình sau hơn, cụ thể là: 63.2% về tính thực tế/chất lượng hình ảnh và 75.9% về sự khớp giữa hình ảnh và văn bản.
Mẹo Nâng Cao
Mô hình 20B đặc biệt xuất sắc với các prompt trừu tượng, yêu cầu kiến thức thế giới, góc nhìn cụ thể hoặc việc viết và biểu tượng.
Kết Luận
Parti mở ra nhiều khả năng mới cho mọi người tạo ra những hình ảnh độc đáo và hấp dẫn, giống như một cây cọ để nâng cao sự sáng tạo và năng suất của con người. Tuy nhiên, điều quan trọng là nhận thức được những tiềm ẩn về thiên lệch và hạn chế của mô hình, như đã thảo luận trong bài báo. Chúng tôi dự định tiếp tục công việc này với các chiến lược đo lường và giảm thiểu thiên lệch mô hình cẩn thận hơn.
Lời Cảm Ơn
Parti là một sự hợp tác giữa nhiều nhóm nghiên cứu của Google. Chúng tôi xin cảm ơn tất cả các cộng tác viên đã có những thảo luận và hướng dẫn hữu ích trong suốt dự án này.