Conformer-2: 110만 시간 데이터로 훈련된 최첨단 음성 인식 모델

Conformer-2는 최신 AI 모델로써 110만 시간의 영어 오디오 데이터로 훈련되었습니다. Conformer-1을 확장하여 고유명사, 알파벳숫자 및 노이즈에 대한 강건성을 향상시켰습니다. 이 모델은 모델 앙상블링 기술을 활용하여 더욱 강력한 성능을 발휘합니다. 또한 데이터 및 모델 파라미터 스케일링을 통해 모델 크기를 4억 5천만 파라미터로 증가시키고 110만 시간의 오디오 데이터로 훈련함으로써 성능을 향상시켰습니다. 뿐만 아니라, 서빙 인프라에 대한 투자를 통해 Conformer-2는 Conformer-1보다 최대 55% 빠른 속도를 구현했습니다. 또한, Conformer-2는 알파벳숫자 전사 정확도, 고유명사 오류율 및 노이즈 강건성에서 큰 개선을 보였습니다. 특히 고유명사 오류율(PPNER)에서 Conformer-1 대비 6.8%의 향상을 보였으며, 알파벳숫자 데이터에서도 30.7%의 상대적 감소를 보였습니다. 또한, 노이즈에 대한 강건성도 향상되어 실제 세계의 데이터에 더 잘 적용될 수 있습니다. Conformer-2는 자체 GPU 컴퓨트 클러스터에서 훈련되었으며, 이를 통해 더 빠른 훈련 속도를 달성했습니다. 오늘부터 Conformer-2는 새로운 API 파라미터 speech_threshold를 도입하여 사용자가 오디오 파일에서 처리해야 할 음성의 비율을 설정할 수 있도록 했습니다. 이를 통해 사용자는 비용을 효율적으로 관리할 수 있습니다.