Conformer-2: Modelo de Reconocimiento de Voz Avanzado

Conformer-2 es el último modelo de reconocimiento de voz automático de nuestra empresa. Está entrenado en 1.1 millones de horas de datos de audio en inglés, lo que le permite ofrecer mejoras en nombres propios, alfanuméricos y robustez frente al ruido. El modelo se basa en la investigación presentada en el artículo de DeepMind 'Chinchilla' y en el enfoque de entrenamiento 'noisy student-teacher' utilizado en Conformer-1. Conformer-2 mejora el rendimiento y la velocidad del modelo anterior. Ha logrado una mejora del 31.7% en alfanuméricos, un 6.8% en la tasa de error de nombres propios y un 12.0% en la robustez frente al ruido. Estos avances se han conseguido aumentando la cantidad de datos de entrenamiento y el número de modelos utilizados para etiquetar datos de forma pseudo. Además, el equipo de ingeniería ha logrado reducir la latencia de la tubería de inferencia en hasta un 53.7%. Conformer-2 también se ha entrenado en nuestro propio clúster de GPU, lo que ha permitido un mayor control y flexibilidad en el proceso de entrenamiento. Con la lanzamiento de Conformer-2, se introduce un nuevo parámetro de API, speech_threshold, que permite a los usuarios establecer un umbral para la proporción de habla en un archivo de audio que debe estar presente para que sea procesado. Esto ayuda a controlar los costos en archivos donde la transcripción no es deseada. Conformer-2 está disponible a través de nuestra API y es el modelo predeterminado. Los usuarios actuales de nuestra API se cambiarán automáticamente a Conformer-2 y comenzarán a ver un mejor rendimiento sin necesidad de realizar cambios en sus extremos. El modo más fácil de probar Conformer-2 es a través de nuestro Playground, donde se puede cargar un archivo o ingresar un enlace de YouTube para ver una transcripción en solo unos pocos clics. También se puede probar nuestra API directamente de forma gratuita. Simplemente regístrese para obtener un token de API gratuito y diríjase a nuestros Docs o a Colab para estar listo en solo unos minutos. Si está pensando en integrar Conformer-2 en su producto, puede comunicarse con nuestro equipo de ventas con cualquier pregunta que tenga.

Herramientas IA destacadas

LipSurf

LipSurf es una herramienta de voz que aumenta la productividad en el navegador

Ver detalles

Transcribear

Transcribear es una herramienta de transcripción de audio a texto que ofrece opciones automáticas y manuales, garantizando privacidad y seguridad.

Ver detalles

Wavify

Wavify es una plataforma de IA de voz en el dispositivo que permite a los ingenieros de software integrar reconocimiento de voz y detección de palabras clave en cualquier software.

Ver detalles

AdutorAI

AdutorAI es una herramienta impulsada por IA que convierte el habla en texto claro y estructurado.

Ver detalles

izwe.ai

izwe.ai es una plataforma tecnológica multilingüe que transcribe voz a texto en tu idioma local.

Ver detalles

SpeechFlow

SpeechFlow es una API de reconocimiento de voz que transcribe 14 idiomas con una precisión líder en el mercado.

Ver detalles

Gladia

Gladia es una chingona API de transcripción de audio con muchas ventajas

Ver detalles

VoiceBase

VoiceBase es una herramienta de análisis de voz impulsada por IA que mejora la experiencia del cliente

Ver detalles

Conformer

Conformer-2 mejora el reconocimiento de voz con mejoras en alfanuméricos, nombres propios y robustez al ruido.

Mejores alternativas a Conformer

Tunk.ai

Conformer

Rev

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio Writer

SpeechPulse

Trint

WAAS

Voice To Notes