AudioCraft: Meta AI의 생성형 오디오 연구

AudioCraft은 Meta AI가 개발한 생성형 오디오 연구 프로젝트로, 음악, 사운드 효과, 그리고 압축을 위한 다양한 기능을 단일 코드 베이스로 통합하여 제공합니다. 이 프로젝트는 원시 오디오 신호를 학습한 후, 사용자가 쉽게 접근하고 활용할 수 있는 도구를 목표로 합니다. AudioCraft은 MusicGen과 AudioGen이라는 두 가지 주요 모델을 포함하고 있으며, 이 모델들은 압축된 이산 음악 표현, 즉 토큰의 스트림을 통해 작동하는 단일 자기회귀 언어 모델(LM)로 구성되어 있습니다. 이러한 접근 방식은 토큰의 내부 구조를 활용하여, 단일 모델과 우아한 토큰 인터리빙 패턴을 통해 오디오 시퀀스를 효율적으로 모델링하고, 오디오 내의 장기 의존성을 포착하며, 고품질의 오디오를 생성할 수 있게 합니다. 또한, AudioCraft은 EnCodec 신경 오디오 코덱을 활용하여 원시 파형에서 이산 오디오 토큰을 학습합니다. EnCodec은 오디오 신호를 하나 이상의 병렬 토큰 스트림으로 매핑하며, 생성된 토큰은 EnCodec 디코더를 통해 다시 오디오 공간으로 매핑되어 출력 파형을 얻습니다. 마지막으로, 텍스트 인코더와 같은 다양한 조건 모델을 사용하여 텍스트-투-오디오 애플리케이션과 같은 생성 과정을 제어할 수 있습니다. AudioCraft은 텍스트-투-사운드 생성에 초점을 맞춘 AudioGen과 사용자가 제공한 텍스트 입력으로부터 다양한 장르의 긴 음악 샘플을 생성하는 MusicGen을 통해, 오디오 생성 작업의 새로운 지평을 열고 있습니다.