Conformer-2 是一款先进的自动语音识别模型。它以 110 万小时的英语音频数据进行训练,是 Conformer-1 的升级版。该模型在多个方面实现了改进,包括对专有名词、字母数字的识别,以及对噪声的鲁棒性。
Conformer-2 在保持与 Conformer-1 相同的词错误率的同时,在许多用户导向的指标上取得了进步。它在字母数字识别方面提高了 31.7%,在专有名词错误率方面降低了 6.8%,在对噪声的鲁棒性方面提高了 12.0%。这些改进得益于增加了训练数据量至 110 万小时的英语音频数据,以及使用多个模型来伪标记数据。
此外,自 Conformer-1 发布以来,工程团队成功地将推理管道的延迟降低了高达 53.7%。对于一小时长的文件,转录时间从 4.01 分钟减少到 1.85 分钟,使用户能够更快地获得结果。
在评估模型性能方面,虽然词错误率(WER)是一个常用的指标,但它并不总是能反映出模型在实际数据中的细微差别。因此,为了量化某些特别重要的错误,开发了一种新的指标——专有名词错误率(PPNER)。结果显示,从 Conformer-1 到 Conformer-2,PPNE 提高了 6.8%,使转录更加一致和可读。
对于数字数据,Conformer-2 在字母数字数据上的表现也有显著提升,平均字符错误率(CER)相对降低了 30.7%,并且减少了方差,降低了出现重大错误的可能性。
Conformer-2 在噪声鲁棒性方面也有所改进,在信噪比为 0 的情况下,比 Conformer-1 提高了 12.0%,使其能够更好地应用于实际的嘈杂数据。
Conformer-2 在具有 80GB-A100s 的自有 GPU 计算集群上进行训练,训练速度比在类似的云基础设施上快约 1.6 倍。
随着 Conformer-2 的推出,还引入了一个新的 API 参数 speech_threshold,使用户可以设置音频文件中必须存在的语音比例阈值,以控制成本。