Conformer-2: Современная модель распознавания речи

Conformer-2 - это новейшая модель искусственного интеллекта для автоматического распознавания речи. Она обучена на 1,1 миллионе часов английских аудиоданных. Эта модель расширяет возможности Conformer-1, обеспечивая улучшения в распознавании собственных имен, алфавитно-цифровых символов и устойчивости к шуму.

При обучении Conformer-2 использовалась методика моделирования с ансамблем. Это позволило получить модель, более устойчивую к данным, которые не были видны во время обучения. Также в процессе разработки Conformer-2 было увеличено количество обучающих данных до 1,1 миллиона часов аудио (что составляет 170% от данных Conformer-1) и увеличено количество моделей, используемых для псевдометки данных.

Кроме того, с момента выпуска Conformer-1 команда инженеров смогла снизить задержку нашей инфраструктуры вывода до 53,7%. Conformer-2 сохраняет паритет с Conformer-1 по показателю ошибок слов, но делает шаг вперед по многим метрикам, ориентированным на пользователя. Например, модель достигла улучшения на 31,7% в алфавитно-цифровых символах, на 6,8% в ошибках при распознавании собственных имен и на 12,0% в устойчивости к шуму.

Conformer-2 была обучена на собственном кластере GPU с 80GB-A100s. Это дало возможность повысить скорость обучения примерно в 1,6 раза по сравнению с аналогичной инфраструктурой, доступной через облачных провайдеров.

При запуске Conformer-2 был введен новый параметр API - speech_threshold. Он позволяет пользователям установить порог для доли речи, которая должна присутствовать в аудиофайле, чтобы он был обработан. Текущим пользователям API автоматически переключатся на Conformer-2, обеспечивая лучшую производительность без необходимости вносить изменения.

Избранные ИИ инструменты

LipSurf

LipSurf - это крутая штука для голосового управления в браузере, которая делает работу в интернете круче и легче!

Подробнее

Transcribear

Transcribear — это инструмент для преобразования речи в текст, предлагающий автоматическую и ручную транскрипцию аудио и видео файлов.

Подробнее

Wavify

Wavify — это платформа для встроенного речевого ИИ, позволяющая разработчикам внедрять функции распознавания речи и обнаружения ключевых слов в любое программное обеспечение.

Подробнее

AdutorAI

AdutorAI — это инструмент с искусственным интеллектом, который преобразует речь в четкий текст, помогая пользователям создавать структурированные заметки, электронные письма, твиты или посты.

Подробнее

izwe.ai

izwe.ai — это многоязычная технологическая платформа для преобразования речи в текст на вашем родном языке.

Подробнее

SpeechFlow

SpeechFlow — это мощный API для преобразования речи в текст с высокой точностью, поддерживающий 14 языков.

Подробнее

Gladia

Gladia — это API для транскрипции аудио с высокой точностью и поддержкой нескольких языков.

Подробнее

VoiceBase

VoiceBase - крутой AI-питанный инструмент для анализа речи и улучшения клиентского опыта

Подробнее

Conformer

Conformer-2 - улучшенная модель распознавания речи, обучаемая на большом объеме данных

Лучшие альтернативы Conformer

Scribie

Tunk.ai

Conformer

Rev

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio writer

SpeechPulse

Trint

WAAS