AudioCraft, développé par Meta AI, représente une avancée significative dans le domaine de la génération audio grâce à l'intelligence artificielle. Cette plateforme unifiée propose une base de code unique pour répondre à divers besoins en matière de génération audio, incluant la création de musique, d'effets sonores et la compression de signaux audio bruts. AudioCraft simplifie la conception des modèles génératifs pour l'audio, en comparaison avec les travaux antérieurs, en utilisant des modèles de langage autoregressifs pour opérer sur des flux de représentations musicales compressées.
Les modèles MusicGen et AudioGen, au cœur d'AudioCraft, exploitent le codec neural EnCodec pour apprendre les tokens audio discrets à partir de la forme d'onde brute. EnCodec transforme le signal audio en un ou plusieurs flux parallèles de tokens discrets, qui sont ensuite modélisés de manière récursive par un modèle de langage autoregressif. Les tokens générés sont ensuite décodés par EnCodec pour revenir à l'espace audio, produisant ainsi la forme d'onde de sortie. Cette approche permet de capturer les dépendances à long terme dans l'audio et de générer des séquences audio de haute qualité.
AudioCraft introduit également des modèles de conditionnement pour contrôler la génération, comme l'utilisation d'un encodeur de texte pré-entraîné pour les applications de texte à audio. AudioGen se concentre sur la génération de son à partir de texte, produisant des sons environnementaux, tandis que MusicGen génère des échantillons musicaux diversifiés et longs à partir d'entrées textuelles fournies par l'utilisateur.
Cette plateforme est une ressource précieuse pour les chercheurs et les développeurs intéressés par l'exploration et l'application des technologies de génération audio par IA, offrant des modèles, des détails techniques et des ressources supplémentaires pour approfondir la compréhension et l'utilisation d'AudioCraft.