openai/whisper é um modelo de reconhecimento de fala de propósito geral. Ele é treinado em um grande conjunto de dados de áudio diversos e também é um modelo multitarefa que pode realizar reconhecimento de fala multilingue, tradução de fala e identificação de idioma. Um modelo Transformer sequência-para-sequência é treinado em várias tarefas de processamento de fala, incluindo reconhecimento de fala multilingue, tradução de fala, identificação de linguagem falada e detecção de atividade de voz. Essas tarefas são conjuntamente representadas como uma sequência de tokens a serem previstos pelo decodificador, permitindo que um único modelo substitua muitas etapas de um pipeline tradicional de processamento de fala. O formato de treinamento multitarefa usa um conjunto de tokens especiais que atuam como especificadores de tarefa ou alvos de classificação. Para configurar, usamos Python 3.9.9 e PyTorch 1.10.1 para treinar e testar nossos modelos, mas o código base deve ser compatível com Python 3.8 - 3.11 e versões recentes do PyTorch. O código base também depende de alguns pacotes Python, especialmente o tiktoken da OpenAI para sua implementação rápida de tokenizador. Você pode baixar e instalar (ou atualizar para) a versão mais recente do Whisper com o seguinte comando: pip install -U openai-whisper
. Alternativamente, o seguinte comando irá puxar e instalar o último commit deste repositório, juntamente com suas dependências Python: pip install git+https://github.com/openai/whisper.git
. Para atualizar o pacote para a última versão deste repositório, execute: pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
. Também é necessário que a ferramenta de linha de comando ffmpeg esteja instalada no seu sistema, que está disponível na maioria dos gerenciadores de pacotes. Existem seis tamanhos de modelo, quatro com versões apenas em inglês, oferecendo trade-offs entre velocidade e precisão. O desempenho do Whisper varia amplamente dependendo do idioma. O comando a seguir transcreverá o discurso em arquivos de áudio, usando o modelo turbo: whisper audio.flac audio.mp3 audio.wav --model turbo
. Para transcrever um arquivo de áudio contendo fala não em inglês, você pode especificar o idioma usando a opção --language
. Adicionando --task translate
irá traduzir a fala para inglês. A transcrição também pode ser realizada dentro do Python.

openai/whisper
openai/whisper é um modelo versátil para reconhecimento de fala, com opções de transcrição e tradução. Oferece diferentes tamanhos de modelos e pode ser usado via linha de comando ou em Python.

Melhores alternativas ao openai/whisper

Scriptix
Plataforma de reconhecimento de voz personalizável e acessível.

Tunk.ai
Tunk.ai: Transcrição e tradução precisas de áudio com IA, otimizando comunicação e produtividade em diversos setores.

Conformer
Conformer-2 é um modelo de reconhecimento de fala que traz melhorias significativas.

VoiceHub
VoiceHub é um serviço de transcrição que aumenta a produtividade

superwhisper
superwhisper é uma ferramenta de voz para texto alimentada por IA que permite escrever 3x mais rápido, sem precisar digitar.

TurboScribe
TurboScribe é um serviço de transcrição de áudio e vídeo que converte arquivos em texto com alta precisão em mais de 98 idiomas.

Speechlogger
Speechlogger é uma ferramenta de IA que oferece transcrição automática, legendagem e tradução instantânea com alta precisão.

Audiotype
Audiotype é um software de transcrição automática que permite a empresas e organizações transcrever arquivos de áudio de forma rápida e precisa.

XspaceGPT
XspaceGPT é uma ferramenta de IA que converte e resume Twitter Spaces em texto, oferecendo resumos e mapas mentais gerados por IA.

Dictate Buddy
Dictate Buddy é uma ferramenta de transcrição AI que converte fala em texto organizado, ideal para reuniões e entrevistas.

GoVoice
GoVoice é uma ferramenta de IA que transforma sua voz em conteúdo escrito de alta qualidade, aumentando a produtividade e economizando tempo.

Vext
Vext é uma ferramenta de IA que oferece transcrição e tradução em tempo real, facilitando a comunicação em qualquer idioma.

Speechnotes
Speechnotes é um serviço de reconhecimento de voz para texto que permite ditar notas e transcrever áudios e vídeos com precisão e segurança.

Whisper Memos
Whisper Memos é uma ferramenta de IA que transforma suas gravações de voz em artigos estruturados por e-mail.

Unvoice Bot
Unvoice Bot é um serviço de transcrição de áudio para WhatsApp que transforma notas de voz em texto em segundos, oferecendo privacidade, conveniência e flexibilidade.

TranscribeMe
TranscribeMe é uma ferramenta de IA que converte notas de voz do WhatsApp e Telegram em texto, facilitando a comunicação e a análise de áudios.

Audio2Text
Audio2Text é uma ferramenta de IA que converte áudio em texto com alta precisão em 58 idiomas, utilizando tecnologia avançada da OpenAI.
Audio Writer
Audio Writer transforma seus pensamentos falados em textos bem estruturados, facilitando a criação de conteúdo.

SpeechPulse
SpeechPulse é uma ferramenta de reconhecimento de voz que acelera a digitação com suporte para diarização em tempo real.

Trint
Trint é um software de transcrição automatizada que converte vídeo, áudio e fala em texto em mais de 40 idiomas com até 99% de precisão.

WAAS
WAAS oferece uma interface gráfica e API para transcrição de áudio e vídeo utilizando o OpenAI Whisper, com suporte para filas de processamento.