Jukebox to innowacyjna sieć neuronowa opracowana przez OpenAI, która generuje muzykę w postaci surowego audio o różnych gatunkach i stylach artystycznych. Model ten pozwala tworzyć nowe próbki muzyczne na podstawie wprowadzonych informacji, takich jak gatunek, artysta i tekst piosenki.
Autokoder modelu Jukebox kompresuje audio do dyskretnej przestrzeni, wykorzystując podejście oparte na kwantyzacji zwane VQ-VAE. Ta metoda pozwala zachować istotne informacje dotyczące wysokości dźwięku, barwy i głośności audio, mimo że wraz z kolejnymi poziomami kompresji traci się wiele szczegółów dźwiękowych.
Następnie, poprzez szkolenie modeli priorytetowych, można nauczyć się rozkładu kodów muzycznych i generować muzykę w tej skompresowanej przestrzeni dyskretnej. Modele te są szkolone jako modele autoregresyjne z wykorzystaniem uproszczonego wariantu Sparse Transformers.
Aby wyszkolić ten model, zebrano nowy zbiór danych zawierający 1,2 miliona piosenek wraz z odpowiednimi tekstami i metadanymi z LyricWiki. Jednakże, dopasowanie części audio do odpowiednich tekstów piosenek stanowiło znaczne wyzwanie ze względu na brak dobrze zsynchronizowanego zbioru danych.
Pomimo osiągnięć w zakresie jakości muzycznej, spójności, długości próbki audio oraz możliwości dostosowania do artysty, gatunku i tekstu piosenki, istnieją ograniczenia. Na przykład, generowane piosenki mogą nie posiadać znanych większych struktur muzycznych, takich jak refreny. Ponadto proces kompresji i dekompresji wprowadza zauważalny szum, a model jest również powolny w generowaniu próbek.
Zespół OpenAI nadal pracuje nad ulepszaniem modelu, badając różne rodzaje informacji warunkowych oraz zagadnienia takie jak stronniczość i prawa własności intelektualnej. Był on również udostępniony początkowej grupie muzyków w celu zebrania opinii i dyskusji na temat jego zastosowań.