Исследование Transfer Learning с T5: Text-To-Text Transfer Transformer
Введение
В последние годы transfer learning привел к новой волне выдающихся результатов в области обработки естественного языка (NLP). Эффективность transfer learning заключается в предварительном обучении модели на обширных неразмеченных текстовых данных с помощью самонаблюдаемой задачи, такой как языковое моделирование или заполнение пропусков. После этого модель может быть дообучена на меньших размеченных наборах данных, что часто приводит к (значительно) лучшим результатам, чем обучение только на размеченных данных.
Основные достижения
Недавний успех transfer learning был вызван в 2018 году такими моделями, как GPT, ULMFiT, ELMo и BERT, а в 2019 году было разработано множество новых методов, таких как XLNet, RoBERTa, ALBERT, Reformer и MT-DNN. В статье "Исследование пределов transfer learning с унифицированным Text-to-Text Transformer" мы представляем крупномасштабное эмпирическое исследование, чтобы определить, какие техники transfer learning работают лучше всего, и применяем эти знания для создания новой модели, которую мы называем T5.
Унифицированный текстово-текстовый фреймворк
С T5 мы предлагаем переосмыслить все задачи NLP в унифицированном текстово-текстовом формате, где входные и выходные данные всегда являются текстовыми строками. Это позволяет использовать одну и ту же модель, функцию потерь и гиперпараметры для любой задачи NLP, включая машинный перевод, резюмирование документов, ответ на вопросы и классификационные задачи (например, анализ настроений).
Большой набор данных для предварительного обучения (C4)
Важным ингредиентом для transfer learning является неразмеченный набор данных, используемый для предварительного обучения. Чтобы точно измерить эффект увеличения объема предварительного обучения, необходим набор данных, который не только высококачественный и разнообразный, но и огромный. Мы разработали Colossal Clean Crawled Corpus (C4), очищенную версию Common Crawl, которая в два раза больше Википедии.
Систематическое исследование методологии transfer learning
С помощью текстово-текстового фреймворка T5 и нового набора данных для предварительного обучения (C4) мы исследовали широкий спектр идей и методов, представленных для transfer learning в NLP за последние несколько лет. Полные детали исследования можно найти в нашей статье, включая эксперименты по архитектуре моделей, целям предварительного обучения и стратегиям обучения.
Инсайты + Масштаб = Современные достижения
Чтобы исследовать текущие пределы transfer learning для NLP, мы провели финальный набор экспериментов, в которых объединили все лучшие методы из нашего систематического исследования и увеличили масштаб нашего подхода с помощью ускорителей Google Cloud TPU. Наша самая большая модель имела 11 миллиардов параметров и достигла современных результатов на бенчмарках GLUE, SuperGLUE, SQuAD и CNN/Daily Mail.
Заключение
Мы рады видеть, как люди используют наши находки, код и предварительно обученные модели для старта своих проектов. Ознакомьтесь с Colab Notebook, чтобы начать, и поделитесь, как вы его используете, с нами в Twitter!