openai/whisper: Reconhecimento de Fala Robusto via Supervisão Fraca em Grande Escala

openai/whisper é um modelo de reconhecimento de fala de propósito geral. Ele é treinado em um grande conjunto de dados de áudio diversos e também é um modelo multitarefa que pode realizar reconhecimento de fala multilingue, tradução de fala e identificação de idioma. Um modelo Transformer sequência-para-sequência é treinado em várias tarefas de processamento de fala, incluindo reconhecimento de fala multilingue, tradução de fala, identificação de linguagem falada e detecção de atividade de voz. Essas tarefas são conjuntamente representadas como uma sequência de tokens a serem previstos pelo decodificador, permitindo que um único modelo substitua muitas etapas de um pipeline tradicional de processamento de fala. O formato de treinamento multitarefa usa um conjunto de tokens especiais que atuam como especificadores de tarefa ou alvos de classificação. Para configurar, usamos Python 3.9.9 e PyTorch 1.10.1 para treinar e testar nossos modelos, mas o código base deve ser compatível com Python 3.8 - 3.11 e versões recentes do PyTorch. O código base também depende de alguns pacotes Python, especialmente o tiktoken da OpenAI para sua implementação rápida de tokenizador. Você pode baixar e instalar (ou atualizar para) a versão mais recente do Whisper com o seguinte comando: pip install -U openai-whisper. Alternativamente, o seguinte comando irá puxar e instalar o último commit deste repositório, juntamente com suas dependências Python: pip install git+https://github.com/openai/whisper.git. Para atualizar o pacote para a última versão deste repositório, execute: pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git. Também é necessário que a ferramenta de linha de comando ffmpeg esteja instalada no seu sistema, que está disponível na maioria dos gerenciadores de pacotes. Existem seis tamanhos de modelo, quatro com versões apenas em inglês, oferecendo trade-offs entre velocidade e precisão. O desempenho do Whisper varia amplamente dependendo do idioma. O comando a seguir transcreverá o discurso em arquivos de áudio, usando o modelo turbo: whisper audio.flac audio.mp3 audio.wav --model turbo. Para transcrever um arquivo de áudio contendo fala não em inglês, você pode especificar o idioma usando a opção --language. Adicionando --task translate irá traduzir a fala para inglês. A transcrição também pode ser realizada dentro do Python.

Ferramentas IA em destaque

LipSurf

LipSurf é um controle por voz para o navegador que aumenta a produtividade

Ver detalhes

Transcribear

Transcribear é uma ferramenta de transcrição de áudio para texto que oferece opções automáticas e manuais, garantindo privacidade e confidencialidade.

Ver detalhes

Wavify

Wavify é uma plataforma de IA de voz que permite a integração de reconhecimento de fala e detecção de palavras-chave em qualquer software.

Ver detalhes

AdutorAI

AdutorAI é uma ferramenta de IA que transforma fala em texto claro e estruturado, ideal para notas, e-mails, tweets ou posts.

Ver detalhes

izwe.ai

izwe.ai é uma plataforma tecnológica multilíngue que transcreve fala em texto no seu idioma local.

Ver detalhes

SpeechFlow

SpeechFlow é uma API de reconhecimento de fala que transcende o inglês, oferecendo transcrições precisas em 14 idiomas.

Ver detalhes

Gladia

Gladia oferece uma API de transcrição de áudio em tempo real com alta precisão e integração fácil.

Ver detalhes

VoiceBase

VoiceBase é uma ferramenta de análise de voz com IA que melhora a experiência do usuário

Ver detalhes

openai/whisper

openai/whisper é um modelo versátil para reconhecimento de fala, com opções de transcrição e tradução. Oferece diferentes tamanhos de modelos e pode ser usado via linha de comando ou em Python.

Melhores alternativas ao openai/whisper

Scriptix

Tunk.ai

Conformer

VoiceHub

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio Writer

SpeechPulse

Trint

WAAS