AudioCraft, desenvolvido pela Meta AI, representa um avanço significativo na geração de áudio através de inteligência artificial. Esta plataforma integra três componentes principais: MusicGen, AudioGen e EnCodec, cada um desempenhando um papel crucial na transformação de sinais de áudio brutos em composições musicais e efeitos sonoros de alta qualidade.
MusicGen e AudioGen são baseados em um modelo de linguagem autoregressivo que opera sobre representações discretas de música, conhecidas como tokens. Este método simplifica o design dos modelos generativos de áudio, permitindo a captura de dependências de longo prazo e a geração de áudio de alta qualidade com um único modelo.
O EnCodec, por sua vez, é um codec neural de áudio que mapeia o sinal de áudio para um ou vários fluxos paralelos de tokens discretos. Esses tokens são então modelados recursivamente pelo modelo de linguagem autoregressivo, e os tokens gerados são decodificados de volta ao espaço de áudio, resultando na onda sonora final.
AudioCraft também suporta diferentes tipos de modelos de condicionamento, como o uso de um codificador de texto pré-treinado para aplicações de texto para áudio, ampliando suas capacidades e aplicações.
Com sua abordagem inovadora e eficiente, AudioCraft se estabelece como uma ferramenta essencial para pesquisadores e desenvolvedores interessados em explorar as fronteiras da geração de áudio através de inteligência artificial.