openai/whisper 是一个通用的语音识别模型,它在大量多样化的音频数据集上进行训练。这个模型不仅能够进行多语言语音识别,还能实现语音翻译和语言识别等多种任务,是一个多任务模型。
它采用了 Transformer 序列到序列模型,并在各种语音处理任务上进行训练,包括多语言语音识别、语音翻译、口语语言识别和语音活动检测等。这些任务被共同表示为解码器要预测的令牌序列,使得单个模型可以替代传统语音处理流程中的多个阶段。
在设置方面,使用 Python 3.9.9 和 PyTorch 1.10.1 进行训练和测试,但该代码库预计与 Python 3.8 - 3.11 和近期的 PyTorch 版本兼容。还依赖一些 Python 包,特别是 OpenAI 的 tiktoken 以实现快速的令牌化器。
该模型有六种尺寸,其中四种有英语专用版本,提供了速度和准确性的权衡。模型的性能因语言而异,对于不同的语言有不同的表现。
无论是通过命令行还是在 Python 内部,都可以方便地使用 openai/whisper 进行语音转录和相关操作。