Открытие BERT: Современное предобучение для обработки естественного языка
Введение
Одной из самых больших проблем в области обработки естественного языка (NLP) является нехватка обучающих данных. Поскольку NLP является разнообразной областью с множеством различных задач, большинство специализированных наборов данных содержат всего лишь несколько тысяч или несколько сотен тысяч размеченных примеров. Однако современные модели NLP, основанные на глубоком обучении, получают выгоду от гораздо большего объема данных, улучшая свои результаты при обучении на миллионах или миллиардах аннотированных примеров.
Что такое BERT?
На этой неделе мы открыли новый метод предобучения для NLP, называемый Bidirectional Encoder Representations from Transformers (BERT). С помощью этого релиза любой желающий может обучить свою собственную современную систему вопрос-ответ всего за 30 минут на одном Cloud TPU или за несколько часов, используя один GPU. Релиз включает исходный код, построенный на основе TensorFlow, и несколько предобученных моделей языкового представления.
Преимущества BERT
BERT отличается от предыдущих моделей тем, что он является первой глубоко двунаправленной, не контролируемой языковой моделью, предобученной с использованием только обычного текстового корпуса (в данном случае, Википедии). Это позволяет BERT генерировать представление каждого слова на основе других слов в предложении, что значительно улучшает понимание контекста.
Сила двунаправленности
Двунаправленные модели, такие как BERT, могут учитывать как предшествующий, так и последующий контекст слова, что делает их более мощными по сравнению с односторонними моделями. Это достигается за счет маскирования некоторых слов в вводе и предсказания их на основе двунаправленного контекста.
Результаты BERT
BERT достиг 93.2% F1-оценки на Stanford Question Answering Dataset (SQuAD v1.1), что превышает предыдущий рекорд в 91.6%. Он также улучшает результаты на сложном наборе GLUE, состоящем из 9 различных задач понимания естественного языка.
Как использовать BERT
Модели, которые мы выпускаем, могут быть дообучены на различных задачах NLP за несколько часов или меньше. Открытый исходный код и ссылки на предобученные модели BERT можно найти на .
Заключение
BERT представляет собой революционный шаг в области обработки естественного языка. Мы надеемся, что вы попробуете его в своих проектах и получите от него максимальную пользу. Не упустите возможность ознакомиться с нашей статьей "BERT: Предобучение глубоких двунаправленных трансформеров для понимания языка" для получения более подробной информации.