ALBERT: Легкий BERT для самообучения языковых представлений
Введение
С момента появления BERT, исследование естественного языка приняло новую парадигму, использующую большие объемы существующего текста для предварительного обучения параметров модели с помощью самообучения. Это позволяет не начинать обучение модели машинного обучения для обработки естественного языка (NLP) с нуля, а использовать модель, уже обладающую знаниями о языке.
Что такое ALBERT?
ALBERT (A Lite BERT) — это усовершенствованная версия BERT, которая была представлена в статье, принятой на ICLR 2020. Она демонстрирует передовые результаты на 12 задачах NLP, включая Stanford Question Answering Dataset (SQuAD v2.0) и тест на понимание чтения RACE. ALBERT доступен как открытая реализация на базе TensorFlow и включает несколько готовых к использованию предобученных языковых моделей ALBERT.
Ключевые особенности ALBERT
-
Эффективное распределение параметров: ALBERT использует факторизацию параметризации встраивания, что позволяет значительно сократить количество параметров модели. Например, встраивания на уровне ввода имеют относительно низкую размерность (например, 128), в то время как встраивания скрытых слоев используют более высокие размерности (768, как в случае BERT).
-
Обмен параметрами между слоями: ALBERT устраняет избыточность, наблюдаемую в архитектурах на основе трансформеров, таких как BERT. Вместо того, чтобы каждый слой имел свои параметры, ALBERT использует одни и те же параметры для нескольких слоев, что приводит к значительному сокращению общего количества параметров.
Результаты и производительность
ALBERT достигает 80% сокращения параметров в блоке проекции с минимальным снижением производительности. Например, модель ALBERT-base имеет всего 12 миллионов параметров, что на 89% меньше, чем у модели BERT-base, но при этом демонстрирует достойные результаты на различных бенчмарках.
Когда модель ALBERT-xxlarge с размером скрытого слоя 4096 была протестирована, она показала значительное улучшение производительности: +4.2 на SQuAD2.0 и +8.5 на RACE.
Заключение
Успех ALBERT подчеркивает важность выявления аспектов модели, которые способствуют созданию мощных контекстуальных представлений. Открывая ALBERT для исследовательского сообщества, мы надеемся на дальнейшие достижения в области NLP.
Призыв к действию
Попробуйте ALBERT и узнайте, как эта модель может улучшить ваши проекты в области обработки естественного языка!