openai/whisper: Reconocimiento de Voz Robusto con Supervisión Débil a Gran Escala

openai/whisper es un modelo de reconocimiento de voz de propósito general. Está entrenado en un amplio conjunto de datos de audio diversos y también es un modelo multitarea que puede realizar reconocimiento de voz multilingüe, traducción de voz y identificación de idiomas. Un modelo Transformer secuencia-a-secuencia se entrena en varias tareas de procesamiento de voz, incluyendo reconocimiento de voz multilingüe, traducción de voz, identificación de lenguaje hablado y detección de actividad de voz. Estas tareas se representan conjuntamente como una secuencia de tokens a ser predichos por el decodificador, permitiendo que un solo modelo reemplace muchas etapas de una tubería tradicional de procesamiento de voz. El formato de entrenamiento multitarea utiliza un conjunto de tokens especiales que sirven como especificadores de tarea o como objetivos de clasificación. Para configurar, se utilizó Python 3.9.9 y PyTorch 1.10.1 para entrenar y probar los modelos, pero se espera que el código base sea compatible con Python 3.8 - 3.11 y versiones recientes de PyTorch. El código base también depende de algunos paquetes de Python, especialmente de tiktoken de OpenAI para su implementación rápida de tokenizador. Puede descargar e instalar (o actualizar a) la última versión de Whisper con el siguiente comando: pip install -U openai-whisper. Alternativamente, el siguiente comando descargará e instalará el último commit de este repositorio, junto con sus dependencias de Python: pip install git+https://github.com/openai/whisper.git. Existen seis tamaños de modelo, cuatro con versiones solo en inglés, ofreciendo equilibrios entre velocidad y precisión. El rendimiento de Whisper varía ampliamente según el idioma. Se puede transcribir el habla en archivos de audio utilizando el comando de la línea de comandos. También se puede realizar la transcripción dentro de Python. Además, hay ejemplos más detallados disponibles en Discusiones para compartir usos más específicos de Whisper y extensiones de terceros.

Herramientas IA destacadas

LipSurf

LipSurf es una herramienta de voz que aumenta la productividad en el navegador

Ver detalles

Transcribear

Transcribear es una herramienta de transcripción de audio a texto que ofrece opciones automáticas y manuales, garantizando privacidad y seguridad.

Ver detalles

Wavify

Wavify es una plataforma de IA de voz en el dispositivo que permite a los ingenieros de software integrar reconocimiento de voz y detección de palabras clave en cualquier software.

Ver detalles

AdutorAI

AdutorAI es una herramienta impulsada por IA que convierte el habla en texto claro y estructurado.

Ver detalles

izwe.ai

izwe.ai es una plataforma tecnológica multilingüe que transcribe voz a texto en tu idioma local.

Ver detalles

SpeechFlow

SpeechFlow es una API de reconocimiento de voz que transcribe 14 idiomas con una precisión líder en el mercado.

Ver detalles

Gladia

Gladia es una chingona API de transcripción de audio con muchas ventajas

Ver detalles

VoiceBase

VoiceBase es una herramienta de análisis de voz impulsada por IA que mejora la experiencia del cliente

Ver detalles

openai/whisper

openai/whisper es un modelo versátil para el reconocimiento de voz con múltiples funciones y compatibilidad con diversos idiomas.

Mejores alternativas a openai/whisper

Tunk.ai

Conformer

Rev

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio Writer

SpeechPulse

Trint

WAAS

Voice To Notes