openai/whisper の詳細紹介
openai/whisper は汎用的な音声認識モデルです。多様なオーディオデータセットで訓練されており、マルチタスクモデルでもあります。マルチリンガル音声認識、音声翻訳、言語識別などの機能を備えています。
Transformer のシーケンス・ツー・シーケンスモデルが様々な音声処理タスクで訓練されています。これらのタスクは、デコーダが予測するトークンのシーケンスとして共同で表現され、従来の音声処理パイプラインの多くの段階を1つのモデルで置き換えることができます。マルチタスク訓練形式では、タスク指定子または分類ターゲットとして機能する特殊なトークンのセットが使用されています。
Python 3.9.9 と PyTorch 1.10.1 を使用してモデルの訓練とテストが行われていますが、Python 3.8 - 3.11 と最新の PyTorch バージョンとの互換性が期待されています。また、OpenAI の tiktoken などのいくつかの Python パッケージに依存しています。
モデルには6つのサイズがあり、4つは英語専用バージョンで、速度と精度のトレードオフが提供されています。言語によって Whisper のパフォーマンスは大きく異なります。
コマンドラインでの使用方法と Python 内での使用方法も紹介されています。コマンドラインでは、例えば「whisper audio.flac audio.mp3 audio.wav --model turbo」のように音声ファイルの文字起こしができます。Python 内では、「import whisper」から始めて、モデルの読み込みと音声の文字起こしが行えます。
Whisper のコードとモデルの重みは MIT ライセンスでリリースされています。