Conformer-2:基于 110 万小时数据训练的语音识别模型

Conformer

Conformer-2 是先进的语音识别模型,提升多项性能,现可通过 API 访问

Conformer-2:基于 110 万小时数据训练的语音识别模型

Conformer-2 是一款先进的自动语音识别模型。它以 110 万小时的英语音频数据进行训练,是 Conformer-1 的升级版。该模型在多个方面实现了改进,包括对专有名词、字母数字的识别,以及对噪声的鲁棒性。

Conformer-2 在保持与 Conformer-1 相同的词错误率的同时,在许多用户导向的指标上取得了进步。它在字母数字识别方面提高了 31.7%,在专有名词错误率方面降低了 6.8%,在对噪声的鲁棒性方面提高了 12.0%。这些改进得益于增加了训练数据量至 110 万小时的英语音频数据,以及使用多个模型来伪标记数据。

此外,自 Conformer-1 发布以来,工程团队成功地将推理管道的延迟降低了高达 53.7%。对于一小时长的文件,转录时间从 4.01 分钟减少到 1.85 分钟,使用户能够更快地获得结果。

在评估模型性能方面,虽然词错误率(WER)是一个常用的指标,但它并不总是能反映出模型在实际数据中的细微差别。因此,为了量化某些特别重要的错误,开发了一种新的指标——专有名词错误率(PPNER)。结果显示,从 Conformer-1 到 Conformer-2,PPNE 提高了 6.8%,使转录更加一致和可读。

对于数字数据,Conformer-2 在字母数字数据上的表现也有显著提升,平均字符错误率(CER)相对降低了 30.7%,并且减少了方差,降低了出现重大错误的可能性。

Conformer-2 在噪声鲁棒性方面也有所改进,在信噪比为 0 的情况下,比 Conformer-1 提高了 12.0%,使其能够更好地应用于实际的嘈杂数据。

Conformer-2 在具有 80GB-A100s 的自有 GPU 计算集群上进行训练,训练速度比在类似的云基础设施上快约 1.6 倍。

随着 Conformer-2 的推出,还引入了一个新的 API 参数 speech_threshold,使用户可以设置音频文件中必须存在的语音比例阈值,以控制成本。

Najlepsze Alternatywy dla Conformer

Tunk.ai

Tunk.ai

Tunk.ai: precyzyjna transkrypcja mowy na tekst, obsługa wielu języków, integracja z popularnymi platformami.

Dictaphone

Dictaphone

Dictaphone to oparte na AI narzędzie do transkrypcji audio, obsługujące pliki do 10MB w popularnych formatach. Szybkie, dokładne i łatwe w użyciu.

Conformer

Conformer

Conformer-2 是 AI 驱动的语音识别模型,提升多项性能

Rev

Rev

Rev to zajebista usługa zamiany mowy na tekst, która podnosi produktywność

Speechlogger

Speechlogger

Speechlogger to zajebiste narzędzie dla różnych potrzeb związanych z mową na tekst

Audiotype

Audiotype

Audiotype to zajebiste oprogramowanie do transkrypcji audio, które ułatwia życie.

Vext

Vext

Vext to narzędzie AI oferujące szybkie STT i tłumaczenia w czasie rzeczywistym

Speechnotes

Speechnotes

Speechnotes to zajebiste narzędzie do konwersji mowy na tekst, oszczędzające czas i wysiłek

SpeechPulse

SpeechPulse

SpeechPulse to narzędzie z funkcją diarizacji w czasie rzeczywistym

Amazon Transcribe

Amazon Transcribe

Amazon Transcribe to automatycznie konwertuje mowę na tekst

WhisperWizard

WhisperWizard

WhisperWizard to zajebiste narzędzie do zamiany mowy w tekst na macOS

Patee.io

Patee.io

Patee.io ใช้ AI ถอดคลิปเสียงเป็นข้อความ

WhisperBot

WhisperBot

WhisperBot to zajebisty AI dla WhatsApp, który transkrybuje głosówki

TakeNote.ai

TakeNote.ai

TakeNote.ai to rewolucyjne AI do zamiany mowy na tekst

GPT4Audio

GPT4Audio

GPT4Audio to AI-oparta aplikacja do transkrypcji i tłumaczenia

Transcripo

Transcripo

Transcripo to AI-powered audio-to-text converter ułatwiające transkrypcję

Deepgram

Deepgram

Deepgram to zaawansowane narzędzie transkrypcji wspierające ponad 30 języków

Kardome

Kardome

Kardome to technologia AI poprawiająca rozpoznawanie mowy

Wavify

Wavify

Wavify to zajebista platforma AI dla mowy na urządzeniach. Inżynierowie mogą wbudować funkcje jak rozpoznawanie mowy i wykrywanie słów aktywujących w każdym oprogramowaniu.

TalkTastic

TalkTastic

TalkTastic to zajebiste narzędzie do dyktowania dla macOS, które podnosi produktywność

Wispr Flow

Wispr Flow

Wispr Flow to narzędzie do szybkiego dyktowania głosowego

Polecane Narzędzia

Amberscript

Amberscript

Amberscript to narzędzie do transkrypcji audio i wideo, które ułatwia komunikację

Zobacz Szczegóły
izwe.ai

izwe.ai

izwe.ai to wielojęzyczna platforma transkrybująca mowę na tekst

Zobacz Szczegóły
SpeechFlow

SpeechFlow

SpeechFlow to potężne API konwertujące mowę na tekst

Zobacz Szczegóły
Speechmatics

Speechmatics

Speechmatics to zajebista AI technologia mowy, która zapewnia super dokładne transkrypcje

Zobacz Szczegóły
transcribe4u

transcribe4u

transcribe4u to narzędzie AI, które szybko przekształca pliki audio lub wideo w tekst

Zobacz Szczegóły
SpeechText.AI

SpeechText.AI

SpeechText.AI to potężne oprogramowanie AI do transkrypcji mowy na tekst

Zobacz Szczegóły
Google Cloud Speech

Google Cloud Speech

Google Cloud Speech-to-Text 是 AI 驱动的语音转文字工具,助力多种应用

Zobacz Szczegóły
EchoFox

EchoFox

EchoFox to zajebista aplikacja do transkrypcji wiadomości głosowych w WhatsApp.

Zobacz Szczegóły