autosub

autosubは、ビデオやオーディオファイルを入力として受け取り、音声活動検出を行ってスピーチ領域を見つけ、それらの領域に対する文字起こしをGoogle Web Speech APIに並列リクエストして生成し、（オプションで）それらを別の言語に翻訳し、最終的に生成された字幕をディスクに保存するユーティリティです。

このツールは、多様な入力および出力言語をサポートしており（サポートされている言語を確認するには、--list-languages引数を付けてユーティリティを実行）、現在のところSRT形式またはシンプルなJSON形式で字幕を生成することができます。

インストールは、まずffmpegをインストールし、その後pip install autosubを実行するだけで完了します。使用方法は非常にシンプルで、コマンドラインからautosub -hを実行することで、利用可能なオプションとその使用方法を確認することができます。

autosubは、Google Translate APIキーを使用して字幕の翻訳を行うことも可能です。これにより、生成された字幕を希望する言語に翻訳し、より広い視聴者層にコンテンツを提供することができます。

このプロジェクトはMITライセンスの下で公開されていますが、現在はメンテナンスされていないことに注意してください。それでも、自動字幕生成のための強力なツールとして、多くのプロジェクトで利用されています。

注目のAIツール