WhisperUI é uma aplicação desktop com as seguintes características:
- Utiliza o poderoso OpenAI Whisper para as funcionalidades de Speech to Text e Text to Speech.
- Permite que os usuários façam upload de arquivos de áudio (até 25 MB) em vários formatos (MP3, MP4, MPEG, MPGA, M4A, WAV, OGG e WEBM) e os transcreve para texto, cuja acurácia depende da qualidade do áudio e clareza das palavras.
- Na versão premium, pode transformar arquivos de áudio em arquivos SRT, útil para criação de legendas.
- Suporta vários idiomas.
- Para usar, é necessário obter uma chave API do OpenAI no site .
- Permite arrastar e soltar ou navegar pelos arquivos de áudio no computador.
- Após a transcrição, o texto resultante pode ser editado e corrigido.
- É grátis com algumas funcionalidades básicas, mas para acessar as premium, precisa usar a chave API do OpenAI e pagar ao OpenAI de acordo com a quantidade de tokens usados.
- Se destaca em relação a outras ferramentas de Speech to Text por usar o OpenAI Whisper, treinado em diversos dados, resultando em alta robustez na transcrição, além de suportar vários idiomas e ter a opção de transformar áudio em SRT. É uma ferramenta promissora para conversão de áudio para texto ou SRT.