AudioCraft: 혁신적인 오디오 생성 도구
AudioCraft는 Meta AI에서 개발한 오디오 생성 도구로, 음악, 음향 효과 및 압축을 위한 단일 코드베이스를 제공합니다. 이 도구는 원시 오디오 신호를 기반으로 훈련되어 다양한 오디오 생성 요구를 충족합니다.
모델 개요
AudioCraft는 이전 작업에 비해 오디오 생성 모델의 전반적인 설계를 단순화합니다. MusicGen과 AudioGen은 모두 압축된 이산 음악 표현의 스트림에서 작동하는 단일 자가 회귀 언어 모델(LM)로 구성되어 있습니다. 우리는 토큰의 병렬 스트림 내부 구조를 활용하는 간단한 접근 방식을 도입하였으며, 단일 모델과 우아한 토큰 교차 패턴을 통해 오디오 시퀀스를 효율적으로 모델링할 수 있음을 보여주었습니다. 이 방법은 오디오의 장기 의존성을 포착하고 고품질 오디오를 생성할 수 있게 합니다.
MusicGen 및 AudioGen
- MusicGen: 사용자가 제공한 텍스트 입력으로부터 다양한 음악 샘플을 생성합니다.
- AudioGen: 환경 소리에서 오디오를 생성하는 데 중점을 둡니다.
EnCodec: 오디오 토큰 학습
AudioCraft의 모델은 EnCodec 신경 오디오 코덱을 활용하여 원시 파형에서 이산 오디오 토큰을 학습합니다. EnCodec은 오디오 신호를 하나 이상의 병렬 스트림의 이산 토큰으로 매핑합니다. 그런 다음, 우리는 자가 회귀 언어 모델을 사용하여 EnCodec의 오디오 토큰을 재귀적으로 모델링합니다. 생성된 토큰은 EnCodec 디코더에 피드되어 다시 오디오 공간으로 매핑되고 출력 파형을 얻습니다.
텍스트-사운드 및 텍스트-음악 생성
- 텍스트-사운드 생성: AudioGen은 환경 소리로부터 오디오를 생성합니다.
- 텍스트-음악 생성: MusicGen은 사용자 제공 텍스트 입력으로부터 긴 음악 샘플을 생성합니다.
리소스
결론
AudioCraft는 오디오 생성의 새로운 지평을 여는 혁신적인 도구입니다. 음악 및 음향 효과 생성에 관심이 있다면 지금 바로 AudioCraft를 사용해 보세요! 🎶