Whisper: 高性能音声認識モデル
Whisperは、OpenAIによって開発された汎用音声認識モデルです。このモデルは、多様な音声データセットで訓練されており、マルチタスク機能を備えています。具体的には、音声認識、音声翻訳、言語識別などを行うことができます。
特徴とアプローチ
Whisperは、トランスフォーマーのシーケンス・ツー・シーケンスモデルを使用しており、音声処理タスクを共同で表現します。これにより、従来の音声処理パイプラインの多くのステージを単一のモデルで置き換えることが可能です。特に、マルチタスク訓練形式では、タスクを指定するための特別なトークンが使用されます。
セットアップ
Whisperを使用するには、Python 3.9.9およびPyTorch 1.10.1が必要です。以下のコマンドで最新のWhisperをインストールできます:
pip install -U openai-whisper
また、ffmpegコマンドラインツールも必要です。これは、ほとんどのパッケージマネージャーからインストール可能です。
利用可能なモデルと言語
Whisperには、6つのモデルサイズがあり、英語専用バージョンとマルチリンガルバージョンが提供されています。以下は、モデルのサイズと必要なVRAM、相対速度の概要です:
サイズ | パラメータ | 英語専用モデル | マルチリンガルモデル | 必要VRAM | 相対速度 |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~10x |
base | 74 M | base.en | base | ~1 GB | ~7x |
small | 244 M | small.en | small | ~2 GB | ~4x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
turbo | 809 M | N/A | turbo | ~6 GB | ~8x |
コマンドラインでの使用法
以下のコマンドを使用して、音声ファイルを文字起こしできます:
whisper audio.flac audio.mp3 audio.wav --model turbo
Pythonでの使用法
Python内での文字起こしも可能です:
import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])
まとめ
Whisperは、音声認識の分野で非常に強力なツールです。多言語対応や音声翻訳機能を備えており、さまざまなアプリケーションでの利用が期待されます。ぜひ、Whisperを試してみてください!