AudioCraft, entwickelt von Meta AI, stellt eine umfassende Codebasis für alle Bedürfnisse im Bereich der generativen Audioverarbeitung dar. Diese innovative Plattform vereinfacht das Design generativer Modelle für Audio im Vergleich zu früheren Arbeiten erheblich. Mit den Kernkomponenten MusicGen und AudioGen bietet AudioCraft leistungsstarke Werkzeuge für die Erstellung von Musik und Soundeffekten basierend auf Textbeschreibungen.
MusicGen und AudioGen basieren auf einem autoregressiven Sprachmodell (LM), das über Ströme komprimierter, diskreter Musikrepräsentationen, sogenannter Tokens, operiert. Durch die Einführung eines einfachen Ansatzes zur Nutzung der internen Struktur paralleler Token-Ströme ermöglicht AudioCraft die effiziente Modellierung von Audiosequenzen. Dieser Ansatz erfasst langfristige Abhängigkeiten im Audio und erzeugt gleichzeitig hochwertige Klänge.
Ein zentrales Element von AudioCraft ist der EnCodec Neural Audio Codec, der diskrete Audio-Tokens aus dem Rohsignal lernt. EnCodec bildet das Audiosignal auf einen oder mehrere parallele Ströme diskreter Tokens ab. Ein autoregressives Sprachmodell modelliert diese Tokens rekursiv, die dann durch den EnCodec-Decoder zurück in den Audiobereich abgebildet werden, um das Ausgangssignal zu erzeugen. Verschiedene Arten von Konditionierungsmodellen können verwendet werden, um die Generierung zu steuern, wie beispielsweise ein vortrainierter Textencoder für Text-zu-Audio-Anwendungen.
AudioCraft deckt eine breite Palette von Audio-Generierungsaufgaben ab, darunter Text-zu-Sound-Generierung mit AudioGen, das gelernt hat, Audio aus Umgebungsgeräuschen zu erzeugen, und Text-zu-Musik-Generierung mit MusicGen, das vielfältige und lange Musikstücke aus Benutzereingaben produziert. Mit seinen fortschrittlichen Technologien und Ressourcen bietet AudioCraft eine einzigartige Lösung für Kreative und Entwickler im Bereich der generativen Audioverarbeitung.