autosubは、ビデオやオーディオファイルを入力として受け取り、音声活動検出を行ってスピーチ領域を見つけ、それらの領域に対する文字起こしをGoogle Web Speech APIに並列リクエストして生成し、(オプションで)それらを別の言語に翻訳し、最終的に生成された字幕をディスクに保存するユーティリティです。
このツールは、多様な入力および出力言語をサポートしており(サポートされている言語を確認するには、--list-languages
引数を付けてユーティリティを実行)、現在のところSRT形式またはシンプルなJSON形式で字幕を生成することができます。
インストールは、まずffmpegをインストールし、その後pip install autosub
を実行するだけで完了します。使用方法は非常にシンプルで、コマンドラインからautosub -h
を実行することで、利用可能なオプションとその使用方法を確認することができます。
autosubは、Google Translate APIキーを使用して字幕の翻訳を行うことも可能です。これにより、生成された字幕を希望する言語に翻訳し、より広い視聴者層にコンテンツを提供することができます。
このプロジェクトはMITライセンスの下で公開されていますが、現在はメンテナンスされていないことに注意してください。それでも、自動字幕生成のための強力なツールとして、多くのプロジェクトで利用されています。