Parti:高忠実度画像生成のAIモデル

Parti

Partiは自己回帰テキスト・ツー・イメージモデルで、高品質の写実的画像生成と豊かな合成を実現

Parti:高忠実度画像生成のAIモデル

Parti: パスウェイズ自己回帰テキスト・ツー・イメージモデル

Partiは自己回帰テキスト・ツー・イメージ生成モデルで、高忠実度の写実的画像生成を達成し、複雑な構成と世界の知識を含む豊かな合成をサポートします。最近のテキスト・ツー・イメージ生成における拡散モデルの進歩、例えばGoogleのImagenも印象的な能力と研究ベンチマークでの最先端のパフォーマンスを示しています。PartiとImagenは、それぞれ自己回帰と拡散という2つの異なるジェネレーティブモデルの家族を探索することで互補的であり、これら2つの強力なモデルの組み合わせのためのエキサイティングな機会を開きます。

Partiはテキスト・ツー・イメージ生成を機械翻訳に類似したシーケンス・ツー・シーケンスモデリング問題として扱います。これにより、大規模言語モデルの進歩、特にデータとモデルのサイズを拡大することで解放される能力から恩恵を受けることができます。この場合、ターゲット出力は別の言語のテキストトークンではなく、画像トークンのシーケンスです。Partiは強力な画像トークン化器であるViT-VQGANを使用して画像を離散トークンのシーケンスとしてエンコードし、高品質で視覚的に多様な画像としてそのような画像トークンシーケンスを再構築する能力を活用しています。

以下の結果が観察されました。

  • Partiのエンコーダー・デコーダーを200億パラメータまで拡大することで一貫した品質の向上が実現されました。
  • MS-COCOにおいて最先端のゼロショットFIDスコア7.23と微調整FIDスコア3.22を達成しました。
  • Localized NarrativesとPartiPrompts(この研究の一部としてリリースされる1600以上の英語プロンプトの新しい包括的ベンチマーク)における分析で、幅広いカテゴリと難易度の側面での有効性が示されました。

350Mから20Bパラメータへの拡大 PartiはLingvoで実装され、TPU v4ハードウェア上でGSPMDを使用して訓練と推論が行われ、20Bパラメータのモデルを訓練することができ、複数のベンチマークで記録的なパフォーマンスを達成しました。Partiモデルの4つのスケール(350M、750M、3B、20B)の詳細な比較を行い、以下のことが観察されました。

  • モデルの能力と出力画像の品質の一貫したかつ実質的な改善。
  • 3Bと20Bモデルを比較すると、人間の評価者は後者をほとんどの場合好んでいます。具体的には、画像の写実性/品質については63.2%、画像とテキストのマッチングについては75.9%です。
  • 20Bモデルは特に抽象的で、世界の知識、特定の視点、または書き込みとシンボルの描画が必要なプロンプトで優れています。

現実世界の知識を構成する テキスト・ツー・イメージ生成は、これまで見たことのないシーンを作成できるときに最も興味深いものです。Partiは長くて複雑なプロンプトを管理でき、世界の知識を正確に反映し、多くの参加者とオブジェクトを細かい詳細と相互作用で構成し、特定の画像フォーマットとスタイルに従うことができることが分かりました。

PartiPromptsベンチマーク PartiPrompts(P2)は、この研究の一部としてリリースされる1600以上の英語プロンプトの豊富なセットです。P2は様々なカテゴリとチャレンジの側面におけるモデルの能力を測定するために使用できます。

議論と制限 ここで示されている多くの画像は、プロンプトの探索と修正の相互作用中に生成された大量の例から選択(またはチェリーピック)されています。このプロセスを「チェリーツリーを育てる」と呼び、論文で詳細な例を提供しています。

Partiは幅広いプロンプトに対して高品質の出力を生成しますが、モデルには多くの制限があります。論文では、これらの課題を例と現在の失敗モード、および今後の研究の機会とともに議論しています。

責任とより広範な影響 テキスト・ツー・イメージモデルはバイアスと安全性、視覚的コミュニケーション、誤情報、創造性と芸術に潜在的な影響をもたらす多くの機会とリスクをもたらします。Imagenと同様に、Partiが有害なステレオタイプと表現をエンコードするリスクがあることを認識しています。

データカード Partiは複数のGoogle Researchチームの著者による共同作業です。

ギャラリー

Partiの代替ツール

Design of Perception

Design of Perception

「Design of Perception」はAIとヒューマンのコラボで世界を再構築

AI カラーリングページジェネレーター

AI カラーリングページジェネレーター

AI カラーリングページジェネレーターは、全ての人にカスタマイズ可能なアートを作り出すよ!

Image AI Generator

Image AI Generator

Image AI GeneratorはAIを使って多様な画像を生成

funfun.art

funfun.art

funfun.artはAIを使った画像・動画生成ツールです

Omni

Omni

Omni-ZeroはAIを使って写真をユニークなスタイライズポートレートに変換する

NEURAL CANVAS

NEURAL CANVAS

NEURAL CANVASはAIを使って完璧なコミックを作成できます

ThumbSnap

ThumbSnap

ThumbSnapは無料の写真・ビデオ共有サービスです

dreamlike.art

dreamlike.art

dreamlike.art は AI の力で数秒で素晴らしいオリジナルアートを作成できます

neural.love

neural.love

neural.loveはクリエイター向けのAIツールで様々な機能を提供

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AIはユニークなタトゥーデザインを瞬時に生成

DiffusionBee

DiffusionBee

DiffusionBeeはAIアートツールボックスで、多彩な機能を備えています

ARTSIO

ARTSIO

ARTSIOは芸術家・クリエイターをインスパイアし、創作を支援します

BlueWillow

BlueWillow

BlueWillowはAIを使ったユーザーフレンドリーな画像生成ツール

Scenario

Scenario

ScenarioはAIワークフローを完全に制御し、効率的なビジュアル生成を実現

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generatorは独自のタトゥーデザインを作成します

Stability World AI

Stability World AI

Stability World AIはワンストップのジェネレイティブAIプラットフォームで、多彩な機能を提供

Caricaturer.io

Caricaturer.io

Caricaturer.ioは、AIを活用したカリカチュアメーカーで、簡単な操作でユニークで面白いカリカチュアを作成できます。

AI Stickr

AI Stickr

AI Stickrは、AI技術を活用してユニークで魅力的なステッカーを生成するツールです。

AI Sticker Generator

AI Sticker Generator

AI Sticker Generatorは、ユニークで視覚的に魅力的なステッカーを生成するAIツールです。

Face to Many

Face to Many

Face to Manyは、AIを活用して顔写真をさまざまなスタイルに変換するツールです。

FLUX.1

FLUX.1

FLUX.1は、オンラインで無料で体験できる最先端のAI画像生成モデルです。

注目のAIツール

Sketchar

Sketchar

Sketcharは、AR技術を活用したアート作成、描画学習、そして1200万人とのコラボレーションを可能にする究極のアプリです。

詳細を見る
AniGen AI

AniGen AI

AniGen AIは、AIを活用してアニメアートを生成するオンラインツールで、ユーザーがアニメの想像力を形にし、アニメアート、アニメガールズ、壁紙などを簡単に作成できます。

詳細を見る
Cute Coloring Pages Generator

Cute Coloring Pages Generator

AIで即座にカワイイ塗り絵ページを作成できます

詳細を見る
MIRR

MIRR

MIRRはAIを活用した芸術体験を提供するツールです

詳細を見る
Tatship

Tatship

Tatshipは、AIを活用したタトゥー計画プラットフォームで、ユーザーの決定を支援します。

詳細を見る
QR Diffusion

QR Diffusion

QR Diffusionは、Stable Diffusion AIを利用して、芸術的なQRコードを秒単位で生成するツールです。

詳細を見る
DrawMy.Pet

DrawMy.Pet

DrawMy.PetはAI搭載のカスタムペットポートレイト作成ツールで、ユーザーを喜ばせます。

詳細を見る
neural.love

neural.love

neural.loveはクリエイター向けのAIツールで様々な機能を提供

詳細を見る