Conformer-2：基于 110 万小时数据训练的语音识别模型

Conformer-2 是一款先进的自动语音识别模型。它以 110 万小时的英语音频数据进行训练，是 Conformer-1 的升级版。该模型在多个方面实现了改进，包括对专有名词、字母数字的识别，以及对噪声的鲁棒性。

Conformer-2 在保持与 Conformer-1 相同的词错误率的同时，在许多用户导向的指标上取得了进步。它在字母数字识别方面提高了 31.7%，在专有名词错误率方面降低了 6.8%，在对噪声的鲁棒性方面提高了 12.0%。这些改进得益于增加了训练数据量至 110 万小时的英语音频数据，以及使用多个模型来伪标记数据。

此外，自 Conformer-1 发布以来，工程团队成功地将推理管道的延迟降低了高达 53.7%。对于一小时长的文件，转录时间从 4.01 分钟减少到 1.85 分钟，使用户能够更快地获得结果。

在评估模型性能方面，虽然词错误率（WER）是一个常用的指标，但它并不总是能反映出模型在实际数据中的细微差别。因此，为了量化某些特别重要的错误，开发了一种新的指标——专有名词错误率（PPNER）。结果显示，从 Conformer-1 到 Conformer-2，PPNE 提高了 6.8%，使转录更加一致和可读。

对于数字数据，Conformer-2 在字母数字数据上的表现也有显著提升，平均字符错误率（CER）相对降低了 30.7%，并且减少了方差，降低了出现重大错误的可能性。

Conformer-2 在噪声鲁棒性方面也有所改进，在信噪比为 0 的情况下，比 Conformer-1 提高了 12.0%，使其能够更好地应用于实际的嘈杂数据。

Conformer-2 在具有 80GB-A100s 的自有 GPU 计算集群上进行训练，训练速度比在类似的云基础设施上快约 1.6 倍。

随着 Conformer-2 的推出，还引入了一个新的 API 参数 speech_threshold，使用户可以设置音频文件中必须存在的语音比例阈值，以控制成本。

Polecane Narzędzia

LipSurf

LipSurf to super narzędzie z funkcją głosowego sterowania dla przeglądarki, które zwiększa produktywność!

Zobacz Szczegóły

Transcribear

Transcribear to zajebiste narzędzie do transkrypcji audio i wideo z wieloma funkcjami.

Zobacz Szczegóły

Wavify

Wavify to zajebista platforma AI dla mowy na urządzeniach. Inżynierowie mogą wbudować funkcje jak rozpoznawanie mowy i wykrywanie słów aktywujących w każdym oprogramowaniu.

Zobacz Szczegóły

AdutorAI

AdutorAI to narzędzie AI przekształcające mowę w czytelny tekst

Zobacz Szczegóły

izwe.ai

izwe.ai to wielojęzyczna platforma transkrybująca mowę na tekst

Zobacz Szczegóły

SpeechFlow

SpeechFlow to potężne API konwertujące mowę na tekst

Zobacz Szczegóły

transcribe4u

transcribe4u to narzędzie AI, które szybko przekształca pliki audio lub wideo w tekst

Zobacz Szczegóły

Gladia

Gladia to zajebista AI-powered platforma do transkrypcji audio z wieloma atutami

Zobacz Szczegóły

Conformer

Conformer-2 是先进的语音识别模型，提升多项性能，现可通过 API 访问

Najlepsze Alternatywy dla Conformer

Tunk.ai

Dictaphone

Conformer

Rev

Speechlogger

Audiotype

Vext

Speechnotes

SpeechPulse

Amazon Transcribe

WhisperWizard

Patee.io

WhisperBot

TakeNote.ai

GPT4Audio

Transcripo

Deepgram

Kardome

Wavify

TalkTastic

Wispr Flow