Parti: Pathways Autoregressive Text-to-Image Model
はじめに
Partiは、テキストから画像への生成モデルであり、高忠実度のフォトリアリスティックな画像生成を実現します。このモデルは、複雑な構成や世界知識を含むコンテンツリッチな合成をサポートしています。最近の拡散モデルの進展により、GoogleのImagenなどが研究ベンチマークで優れた性能を示しています。PartiとImagenは、生成モデルの異なる2つのファミリーを探求する補完的な関係にあり、これらの強力なモデルの組み合わせのためのエキサイティングな機会を提供します。
主な機能
Partiは、テキストから画像への生成をシーケンス間のモデリング問題として扱います。これは、機械翻訳に類似しており、大規模な言語モデルの進展から利益を得ることができます。具体的には、出力は他の言語のテキストトークンではなく、画像トークンのシーケンスです。Partiは、画像を離散トークンのシーケンスとしてエンコードする強力な画像トークナイザーであるViT-VQGANを使用し、高品質で視覚的に多様な画像を再構築する能力を活用しています。
モデルのスケーリング
Partiは、350Mから20Bパラメータまでスケーリングされ、TPU v4ハードウェア上でのトレーニングと推論にGSPMDを使用しています。このスケーリングにより、複数のベンチマークで記録的な性能を達成する20Bパラメータモデルをトレーニングしました。350M、750M、3B、20Bの4つのスケールのPartiモデルを詳細に比較した結果、モデルの能力と出力画像の品質に一貫した改善が見られました。
使用例
Partiは、長く複雑なプロンプトを管理する能力があります。以下は、Partiがどのように応答するかを示すいくつかのプロンプトの例です:
- オレンジのフーディと青いサングラスをかけたカンガルーのポートレート写真
- グランドキャニオンの端にある「Very Deep Learning」と書かれた緑の看板
- 森の中で馬に乗った宇宙飛行士の写真
制限事項
Partiは高品質な出力を生成しますが、モデルには多くの制限があります。例えば、否定や欠如の指示を適切に処理できない場合があります。これにより、生成された画像が期待される内容と一致しないことがあります。
責任と影響
テキストから画像へのモデルは、バイアスや安全性、視覚的コミュニケーション、誤情報、創造性とアートに関する多くの機会とリスクをもたらします。Partiは、特にトレーニングデータに関して、開発方法にリスクがあることを認識しています。これにより、特定の背景を持つ人々の表現がステレオタイプ化される可能性があります。
結論
Partiは、ユニークで美的に魅力的な画像を作成する新しい可能性を提供します。私たちは、これらのモデルが人間の創造性と生産性を高めることを期待しています。今後も、バイアス測定や緩和戦略に取り組み、責任ある使用を促進していきます。