GitHub - openai/whisper:大規模な弱監督による堅牢な音声認識

openai/whisper

openai/whisper は多言語音声認識モデルで、様々なタスクに対応。コマンドラインと Python で使用可能

GitHub - openai/whisper:大規模な弱監督による堅牢な音声認識

openai/whisper の詳細紹介

openai/whisper は汎用的な音声認識モデルです。多様なオーディオデータセットで訓練されており、マルチタスクモデルでもあります。マルチリンガル音声認識、音声翻訳、言語識別などの機能を備えています。

Transformer のシーケンス・ツー・シーケンスモデルが様々な音声処理タスクで訓練されています。これらのタスクは、デコーダが予測するトークンのシーケンスとして共同で表現され、従来の音声処理パイプラインの多くの段階を1つのモデルで置き換えることができます。マルチタスク訓練形式では、タスク指定子または分類ターゲットとして機能する特殊なトークンのセットが使用されています。

Python 3.9.9 と PyTorch 1.10.1 を使用してモデルの訓練とテストが行われていますが、Python 3.8 - 3.11 と最新の PyTorch バージョンとの互換性が期待されています。また、OpenAI の tiktoken などのいくつかの Python パッケージに依存しています。

モデルには6つのサイズがあり、4つは英語専用バージョンで、速度と精度のトレードオフが提供されています。言語によって Whisper のパフォーマンスは大きく異なります。

コマンドラインでの使用方法と Python 内での使用方法も紹介されています。コマンドラインでは、例えば「whisper audio.flac audio.mp3 audio.wav --model turbo」のように音声ファイルの文字起こしができます。Python 内では、「import whisper」から始めて、モデルの読み込みと音声の文字起こしが行えます。

Whisper のコードとモデルの重みは MIT ライセンスでリリースされています。

openai/whisperの代替ツール

Tunk.ai

Tunk.ai

Tunk.aiは、AIによる高精度な音声テキスト変換と翻訳を提供するプラットフォームです。会議やインタビューの文字起こし、多言語対応など、様々なニーズに対応します。

Conformer

Conformer

Conformer-2 は自動音声認識のための AI モデルで、様々な改善を実現

Rev

Rev

RevはAIを活用し、効率的な音声認識サービスを提供

superwhisper

superwhisper

superwhisperは、AIを活用した音声からテキストへの変換ツールで、100以上の言語に対応し、デバイス上でプライベートかつ安全に動作します。

TurboScribe

TurboScribe

TurboScribeは、音声や動画を正確なテキストに変換するAI駆動の文字起こしサービスです。

Speechlogger

Speechlogger

Speechloggerは、自動文字起こし、キャプション作成、即時翻訳を提供するAIツールです。

Audiotype

Audiotype

Audiotypeは、ビジネスや組織が音声ファイルを迅速かつ正確に文字起こしするための自動文字起こしソフトウェアです。

XspaceGPT

XspaceGPT

XspaceGPTは、AIを活用してTwitter Spacesをテキストに変換し、要約とマインドマップを提供します。

Dictate Buddy

Dictate Buddy

Dictate Buddyは、音声を整理されたテキストに変換するAI駆動のツールで、Notionとの連携や自動要約機能を提供します。

GoVoice

GoVoice

GoVoiceは、音声を使ってブログ記事やソーシャルメディア投稿など、高品質なテキストを簡単に作成できるAIツールです。

Vext

Vext

Vextは、リアルタイムのAI音声テキスト変換と翻訳を提供し、会議やビデオ視聴を言語の壁なくスムーズにします。

Speechnotes

Speechnotes

Speechnotesは、AIを活用した音声認識サービスで、無料で音声入力や音声・動画ファイルの自動文字起こしを提供します。

Whisper Memos

Whisper Memos

Whisper Memosは、音声メモを段落形式の記事に変換し、メールで送信するAIツールです。

Unvoice Bot

Unvoice Bot

Unvoice Botは、WhatsAppの音声メッセージを数秒でテキストに変換するAI駆動のサービスです。

TranscribeMe

TranscribeMe

TranscribeMeは、WhatsAppやTelegramの音声メモをテキストに変換するAIツールで、言語の壁を越えたコミュニケーションを可能にします。

Audio2Text

Audio2Text

Audio2Textは、OpenAIのWhisper AIを利用した高精度の音声テキスト変換サービスで、58言語をサポートしています。

Audio writer

Audio writerは、音声から構造化されたテキストへと思考の流れを変換するAIツールです。

SpeechPulse

SpeechPulse

SpeechPulseは、Whisper音声認識を利用してタイピングを高速化するAIツールです。

Trint

Trint

Trintは、40以上の言語で最大99%の精度でビデオ、オーディオ、音声をテキストに変換する自動文字起こしソフトウェアです。

WAAS

WAAS

WAASは、OpenAIのWhisperを利用した音声・動画ファイルの文字起こしサービスで、GUIとAPIを提供します。

Voice To Notes

Voice To Notes

Voice To Notesは、AIを活用して音声を即座に編集可能なノートに変換するツールです。

注目のAIツール

Voicegain

Voicegain

Voicegainは、ASR/音声認識とLLMを活用したNLU APIを提供し、会議やコンタクトセンターの通話、ビデオなどの録音と文字起こしを容易にします。

詳細を見る
Whisper API

Whisper API

Whisper APIは手頃な価格で高精度な音声トランスクリプションを提供します。

詳細を見る
VoiceBase

VoiceBase

VoiceBaseはAIを活用した音声分析でビジネスを支援

詳細を見る
TranscribeMe

TranscribeMe

TranscribeMeは、高速で正確な文字起こしサービスを提供します。

詳細を見る
SpeechText.AI

SpeechText.AI

SpeechText.AIは音声をテキストに変換するAIソフトウェアです。

詳細を見る
openai/whisper

openai/whisper

openai/whisper は多言語音声認識モデルで、様々なユーザーニーズに対応

詳細を見る
Sonix

Sonix

Sonixは、音声とビデオを自動的に文字起こしし、便利な機能を提供するAIツールです。

詳細を見る
Tunk.ai

Tunk.ai

Tunk.aiは、AIによる高精度な音声テキスト変換と翻訳を提供するプラットフォームです。会議やインタビューの文字起こし、多言語対応など、様々なニーズに対応します。

詳細を見る