Rudrabha/Wav2Lipについて
このツールは、ACM Multimedia 2020で発表された「A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild」のコードを含んでいます。
特徴と機能
- 高い精度でリップシンクビデオを生成できます。
- どのようなアイデンティティ、ボイス、言語にも対応可能です。
- CGIの顔や合成音声にも対応しています。
- 完全な訓練コード、推論コード、および事前訓練されたモデルが利用可能です。
使用方法
- 事前にPython 3.6とffmpeg(sudo apt-get install ffmpeg)をインストールします。
- pip install -r requirements.txtで必要なパッケージをインストールします。
- 顔検出の事前訓練モデルをface_detection/detection/sfd/s3fd.pthにダウンロードします。
リップシンクビデオの作成(推論) python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source> というコマンドで、任意のビデオを任意のオーディオにリップシンクできます。結果はデフォルトでresults/result_voice.mp4に保存されますが、引数で指定することもできます。
LRS2の準備と訓練 モデルはLRS2で訓練されています。LRS2データセットのフォルダ構造や訓練の手順についても詳細に説明されています。
評価 評価のための指示とベンチマーク、メトリクスがevaluation/フォルダに含まれています。
ライセンスと引用 このリポジトリは個人/研究/非商用目的での使用に限られています。商用のリクエストについてはまたはに直接お問い合わせください。