BLOOMは、AI研究に大きな影響を与えてきた大規模言語モデル(LLM)の新たな一歩を表しています。この強力で汎用的なモデルは、ユーザーの指示に基づいて多様な言語タスクを遂行することが可能です。しかし、学界、非営利団体、そして小規模な企業の研究ラボは、必要なリソースと独占的な権利を持つ一部の産業ラボだけが完全にアクセスできるため、LLMの作成、研究、または使用が困難でした。
今日、私たちはこの現状を変えるために、完全な透明性のもとで訓練された初の多言語LLMであるBLOOMをリリースします。これは、単一の研究プロジェクトにこれまで以上に多くのAI研究者が関わった最大のコラボレーションの結果です。1760億のパラメータを持つBLOOMは、46の自然言語と13のプログラミング言語でテキストを生成することができます。スペイン語、フランス語、アラビア語など、ほとんどすべての言語において、BLOOMは100B以上のパラメータを持つ初の言語モデルとなります。
これは、70カ国以上、250以上の機関から1000人以上の研究者が関わり、フランスの研究機関CNRSとGENCIから推定300万ユーロの計算助成金を受けて、フランス南部のJean Zayスーパーコンピュータで117日間(3月11日~7月6日)にわたってBLOOMモデルを訓練した1年間の努力の結晶です。研究者は現在、BLOOMをダウンロード、実行、研究し、最近開発された大規模言語モデルのパフォーマンスと動作をその最深部の内部操作まで調査することができます。
より一般的には、モデルの責任あるAIライセンス(BigScienceプロジェクト自体で開発された)の条件に同意する個人または機関は、ローカルマシンまたはクラウドプロバイダー上でモデルを使用し、構築することができます。Hugging Faceエコシステムに組み込まれているため、transformersでインポートし、accelerateで実行するのと同じくらい簡単です。
このコラボレーションと継続的改善の精神に基づき、私たちは初めて、訓練の中間チェックポイントとオプティマイザの状態も公開します。8つのA100をプレイする必要はありません。大規模な使用のための推論APIを最終化しています。その間、クイックテスト、プロトタイピング、および小規模な使用のためには、HFハブで早期バージョンをすでにプレイすることができます。
これは始まりに過ぎません。BLOOMの能力は、ワークショップがモデルを実験し、いじくり回し続けることで、さらに向上し続けます。私たちは、以前の努力であるT0++と同じくらい指示可能にする作業を開始し、より多くの言語を追加し、同じレベルのパフォーマンスでモデルをより使いやすいバージョンに圧縮し、より複雑なアーキテクチャの出発点として使用する予定です。研究者と実務者が常に実行したかったすべての実験は、1000億以上のパラメータモデルの力で、今や可能です。BLOOMは、私たちが成長させようとしている生きているモデルファミリーの種であり、一度きりのモデルではありません。そして、私たちはそれを拡張するためのコミュニティの努力をサポートする準備ができています。