ALBERT: Rewolucja w samo-nadzorowanym uczeniu reprezentacji językowych

ALBERT to taka zajebista wersja BERT, która robi niezłe wyniki w 12 zadaniach z obszaru przetwarzania języka naturalnego (NLP). Od kiedy pojawił się BERT rok temu, badania w dziedzinie NLP weszły w nowy tryb, korzystając z kupy istniejącego tekstu do wstępnego trenowania parametrów modelu przy użyciu samo-nadzorowania, bez potrzeby pierdolenia się z anotacjami danych. Ale żeby poprawić ten nowy sposób działania w NLP, trzeba zrozumieć, co konkretnie wpływa na wydajność rozumienia języka - wysokość sieci (czyli liczba warstw), jej szerokość (rozmiar reprezentacji warstwy ukrytej), kryteria uczenia dla samo-nadzorowania czy coś kompletnie innego. W ALBERT zastosowano dwa konkretne rozwiązania. Pierwsze to faktoryzacja parametryzacji osadzeń - macierz osadzeń jest rozbita między osadzenia na poziomie wejściowym o niezłej niskiej wymiarowości, a osadzenia warstwy ukrytej korzystają z wyższych wymiarów. Dzięki temu ALBERT osiąga 80% zredukowanie parametrów bloku projekcyjnego przy małym spadku wydajności. Drugie ważne rozwiązanie to współdzielenie parametrów między warstwami, co wywala możliwą redundancję. Ta metoda powoduje lekki spadek dokładności, ale kompaktowość modelu jest tego warta. Wdrożenie tych dwóch zmian razem prowadzi do modelu ALBERT-base z tylko 12 milionami parametrów, co stanowi 89% redukcję w porównaniu z modelem BERT-base, przy jednoczesnym osiągnięciu niezłej wydajności. Co więcej, zmniejszenie liczby parametrów daje możliwość zwiększenia rozmiaru osadzeń warstwy ukrytej. Przy rozmiarze 4096, konfiguracja ALBERT-xxlarge osiąga zarówno 30% redukcję parametrów w porównaniu z modelem BERT-large, jak i konkretne wzrosty wydajności. Wyniki te pokazują, że dokładne rozumienie języka zależy od zrobienia solidnych, wysokiej pojemności reprezentacji kontekstowych. Sukces ALBERT pokazuje, jak ważne jest wykrycie aspektów modelu, które prowadzą do mocnych reprezentacji kontekstowych. Żeby ułatwić dalsze postępy w dziedzinie NLP, ALBERT jest udostępniany społeczności badawczej jako projekt open source.

Polecane Narzędzia