Conformer-2 - это новейшая модель искусственного интеллекта для автоматического распознавания речи. Она обучена на 1,1 миллионе часов английских аудиоданных. Эта модель расширяет возможности Conformer-1, обеспечивая улучшения в распознавании собственных имен, алфавитно-цифровых символов и устойчивости к шуму.
При обучении Conformer-2 использовалась методика моделирования с ансамблем. Это позволило получить модель, более устойчивую к данным, которые не были видны во время обучения. Также в процессе разработки Conformer-2 было увеличено количество обучающих данных до 1,1 миллиона часов аудио (что составляет 170% от данных Conformer-1) и увеличено количество моделей, используемых для псевдометки данных.
Кроме того, с момента выпуска Conformer-1 команда инженеров смогла снизить задержку нашей инфраструктуры вывода до 53,7%. Conformer-2 сохраняет паритет с Conformer-1 по показателю ошибок слов, но делает шаг вперед по многим метрикам, ориентированным на пользователя. Например, модель достигла улучшения на 31,7% в алфавитно-цифровых символах, на 6,8% в ошибках при распознавании собственных имен и на 12,0% в устойчивости к шуму.
Conformer-2 была обучена на собственном кластере GPU с 80GB-A100s. Это дало возможность повысить скорость обучения примерно в 1,6 раза по сравнению с аналогичной инфраструктурой, доступной через облачных провайдеров.
При запуске Conformer-2 был введен новый параметр API - speech_threshold. Он позволяет пользователям установить порог для доли речи, которая должна присутствовать в аудиофайле, чтобы он был обработан. Текущим пользователям API автоматически переключатся на Conformer-2, обеспечивая лучшую производительность без необходимости вносить изменения.