Soraは、OpenAIによって開発された革新的なテキストからビデオを生成するAIモデルです。このモデルは、ユーザーが提供するテキスト指示に基づいて、最大1分間のビデオを生成することができ、視覚的な品質とプロンプトへの忠実さを維持します。Soraは、物理世界の動きを理解しシミュレートすることを学び、現実世界の相互作用を必要とする問題を解決するためのモデルを訓練することを目指しています。
Soraの能力は、複数のキャラクターが登場する複雑なシーン、特定の種類の動き、主題と背景の正確な詳細を生成することに及びます。このモデルは、ユーザーがプロンプトで要求した内容だけでなく、それらのものが物理世界でどのように存在するかも理解しています。
現在、Soraはレッドチームメンバーに提供され、害やリスクの重要な領域を評価しています。また、視覚芸術家、デザイナー、映画製作者にもアクセスを許可し、クリエイティブプロフェッショナルのために最も役立つモデルを進化させるためのフィードバックを得ています。
Soraは、拡散モデルであり、ビデオを生成するために、静的なノイズのように見えるものから始め、多くのステップを経てノイズを取り除きながら徐々に変換します。Soraは、GPTモデルと同様に、トランスフォーマーアーキテクチャを使用しており、優れたスケーリング性能を実現しています。
Soraは、DALL·EとGPTモデルの過去の研究に基づいて構築されています。DALL·E 3からのリキャプションテクニックを使用し、視覚的なトレーニングデータに対して非常に記述的なキャプションを生成します。その結果、モデルは生成されたビデオでユーザーのテキスト指示により忠実に従うことができます。
Soraは、テキスト指示からビデオを生成するだけでなく、既存の静止画像を取り込んでビデオを生成し、画像の内容をアニメーション化することもできます。また、既存のビデオを拡張したり、欠落しているフレームを埋めたりすることも可能です。
Soraは、現実世界を理解しシミュレートできるモデルの基盤として機能し、AGI(人工汎用知能)を達成するための重要なマイルストーンとなる能力であると信じています。