AudioCraftは、Meta AIが提供する生成オーディオ研究のための包括的なコードベースです。音楽、効果音、そして生のオーディオ信号のトレーニング後の圧縮など、生成オーディオのあらゆるニーズに対応します。AudioCraftでは、従来の研究と比較して、オーディオのための生成モデルの全体的な設計を簡素化しています。MusicGenとAudioGenはどちらも、圧縮された離散音楽表現、すなわちトークンのストリーム上で動作する単一の自己回帰型言語モデル(LM)で構成されています。
私たちは、トークンの並列ストリームの内部構造を活用するシンプルなアプローチを導入し、単一のモデルとエレガントなトークンインターリーブパターンで、オーディオシーケンスを効率的にモデル化し、オーディオの長期的な依存関係を同時に捉え、高品質のオーディオを生成できることを示しています。
私たちのモデルは、EnCodecニューラルオーディオコーデックを活用して、生の波形から離散オーディオトークンを学習します。EnCodecは、オーディオ信号を1つまたは複数の並列ストリームの離散トークンにマッピングします。次に、単一の自己回帰型言語モデルを使用して、EnCodecからのオーディオトークンを再帰的にモデル化します。生成されたトークンは、EnCodecデコーダにフィードされ、オーディオ空間にマッピングされ、出力波形を取得します。最後に、テキストエンコーダを使用したテキストからオーディオへのアプリケーションなど、生成を制御するためにさまざまなタイプの条件付けモデルを使用できます。
AudioGenは、テキストからサウンドの生成に焦点を当てており、環境音からオーディオを生成することを学習しました。MusicGenは、ユーザーが提供したテキスト入力から多様で長い音楽サンプルを生成します。