AudioCraft 是 Meta AI 推出的一个综合性代码库,旨在满足所有生成音频的需求,包括音乐、音效以及基于原始音频信号的压缩技术。通过简化生成模型的设计,AudioCraft 提供了一个统一的平台,用于探索和实现高质量的音频生成。
AudioCraft 的核心技术包括 MusicGen 和 AudioGen,这两个模型都基于单一的自回归语言模型(LM),该模型操作于压缩的离散音乐表示流,即令牌。通过引入一种简单的方法来利用并行令牌流的内部结构,AudioCraft 展示了如何通过单一模型和优雅的令牌交错模式,有效地建模音频序列,同时捕捉音频中的长期依赖关系,从而生成高质量的音频。
此外,AudioCraft 利用 EnCodec 神经音频编解码器从原始波形中学习离散音频令牌。EnCodec 将音频信号映射到一个或多个并行的离散令牌流。然后,使用单一的自回归语言模型递归地建模来自 EnCodec 的音频令牌。生成的令牌随后被送入 EnCodec 解码器,将其映射回音频空间,从而获得输出波形。最后,可以使用不同类型的条件模型来控制生成过程,例如使用预训练的文本编码器进行文本到音频的应用。
AudioCraft 不仅提供了文本到声音生成的功能,如 AudioGen 专注于从环境声音中生成音频,还提供了文本到音乐生成的功能,如 MusicGen 能够根据用户提供的文本输入生成多样且长时间的音乐样本。通过 AudioCraft,研究者和开发者可以探索更多关于生成音频的可能性,并利用 Meta AI 提供的资源和技术细节来推动音频生成技术的发展。