AudioCraft：Meta AI 的生成音频研究平台

AudioCraft 是 Meta AI 推出的一个综合性代码库，旨在满足所有生成音频的需求，包括音乐、音效以及基于原始音频信号的压缩技术。通过简化生成模型的设计，AudioCraft 提供了一个统一的平台，用于探索和实现高质量的音频生成。

AudioCraft 的核心技术包括 MusicGen 和 AudioGen，这两个模型都基于单一的自回归语言模型（LM），该模型操作于压缩的离散音乐表示流，即令牌。通过引入一种简单的方法来利用并行令牌流的内部结构，AudioCraft 展示了如何通过单一模型和优雅的令牌交错模式，有效地建模音频序列，同时捕捉音频中的长期依赖关系，从而生成高质量的音频。

此外，AudioCraft 利用 EnCodec 神经音频编解码器从原始波形中学习离散音频令牌。EnCodec 将音频信号映射到一个或多个并行的离散令牌流。然后，使用单一的自回归语言模型递归地建模来自 EnCodec 的音频令牌。生成的令牌随后被送入 EnCodec 解码器，将其映射回音频空间，从而获得输出波形。最后，可以使用不同类型的条件模型来控制生成过程，例如使用预训练的文本编码器进行文本到音频的应用。

AudioCraft 不仅提供了文本到声音生成的功能，如 AudioGen 专注于从环境声音中生成音频，还提供了文本到音乐生成的功能，如 MusicGen 能够根据用户提供的文本输入生成多样且长时间的音乐样本。通过 AudioCraft，研究者和开发者可以探索更多关于生成音频的可能性，并利用 Meta AI 提供的资源和技术细节来推动音频生成技术的发展。

精选AI工具