Conformer-2: Modelo de reconocimiento de voz de última generación

Conformer

Descubre Conformer-2, el modelo de reconocimiento de voz que mejora la precisión y velocidad en la transcripción de audio.

Visitar Sitio
Conformer-2: Modelo de reconocimiento de voz de última generación

Conformer-2: Un modelo de reconocimiento de voz de última generación

Con la llegada de Conformer-2, estamos emocionados de presentar nuestro último modelo de reconocimiento automático de voz (ASR) que ha sido entrenado con 1.1 millones de horas de datos de audio en inglés. Este modelo no solo mejora el rendimiento en comparación con su predecesor, Conformer-1, sino que también ofrece una serie de características innovadoras que lo hacen destacar en el competitivo mundo de la inteligencia artificial.

Mejores características de Conformer-2

1. Rendimiento mejorado

Conformer-2 ha logrado un 31.7% de mejora en la transcripción de alfanuméricos y un 6.8% de mejora en la tasa de error de nombres propios. Además, se ha incrementado la robustez al ruido en un 12.0%, lo que significa que el modelo es más confiable en condiciones de audio del mundo real.

2. Velocidad de transcripción

Gracias a las mejoras en nuestra infraestructura, Conformer-2 es hasta un 55% más rápido que Conformer-1, lo que permite a los usuarios obtener resultados más rápidamente. Por ejemplo, el tiempo de transcripción para un archivo de una hora se ha reducido de 4.01 minutos a 1.85 minutos.

3. Entrenamiento en un entorno optimizado

El modelo fue entrenado en nuestro propio clúster de computación GPU, lo que permitió una velocidad de entrenamiento 1.6 veces más rápida que en infraestructuras comparables de proveedores en la nube.

Comparación con Conformer-1

Conformer-1 ya había establecido un estándar en el rendimiento de ASR, pero Conformer-2 lleva esto un paso más allá. A pesar de que la tasa de error de palabras (WER) no ha cambiado significativamente, las mejoras en métricas específicas como la tasa de error de nombres propios y la precisión en la transcripción alfanumérica son notables.

Gráficos de rendimiento

Gráfico de rendimiento de Conformer-1 vs Conformer-2

Aplicaciones prácticas

Las mejoras en Conformer-2 son especialmente relevantes para aplicaciones que requieren precisión en la transcripción de datos numéricos, como números de tarjeta de crédito o códigos de confirmación. Esto es crucial para evitar errores que podrían tener consecuencias graves en aplicaciones posteriores.

Próximos pasos

Con el lanzamiento de Conformer-2, también introducimos un nuevo parámetro de API llamado speech_threshold, que permite a los usuarios establecer un umbral para la proporción de voz en un archivo de audio. Esto ayuda a controlar costos al rechazar archivos que no cumplan con este criterio.

Conclusión

Conformer-2 no solo es una mejora sobre su predecesor, sino que también establece un nuevo estándar en el reconocimiento de voz. Si estás interesado en probar Conformer-2, puedes hacerlo a través de nuestro Playground o integrarlo en tu producto mediante nuestra API. ¡No dudes en contactarnos para más información!

Llama a la acción

👉 Prueba Conformer-2 hoy mismo y experimenta la diferencia en la transcripción de voz!

Mejores Alternativas a Conformer