ALBERT : Un Lite BERT pour l'apprentissage auto-supervisé des représentations linguistiques
Date de publication : 20 décembre 2019
Auteurs : Radu Soricut et Zhenzhong Lan, Scientifiques de recherche, Google Research
Depuis l'avènement de BERT il y a un an, la recherche en langage naturel a adopté un nouveau paradigme, tirant parti de grandes quantités de texte existant pour préformer les paramètres d'un modèle à l'aide de l'auto-supervision, sans annotation de données requise. Ainsi, au lieu de devoir entraîner un modèle d'apprentissage automatique pour le traitement du langage naturel (NLP) depuis le début, on peut partir d'un modèle déjà informé sur une langue.
Qu'est-ce qui contribue à la performance NLP ?
Identifier le principal moteur de la performance NLP est complexe. Certaines configurations sont plus importantes que d'autres, et comme notre étude le révèle, une exploration simple, une par une, de ces configurations ne donnerait pas les bonnes réponses. La clé pour optimiser la performance, capturée dans la conception d'ALBERT, est d'allouer la capacité du modèle de manière plus efficace.
Les embeddings au niveau d'entrée (mots, sous-tokens, etc.) doivent apprendre des représentations indépendantes du contexte, par exemple, une représentation pour le mot "banque". En revanche, les embeddings de couche cachée doivent affiner cela en représentations dépendantes du contexte, par exemple, une représentation pour "banque" dans le contexte des transactions financières, et une autre représentation pour "banque" dans le contexte de la gestion des flux de rivières.
Optimisation de la performance du modèle avec le jeu de données RACE
Pour évaluer la capacité de compréhension linguistique d'un modèle, on peut administrer un test de compréhension de lecture (par exemple, similaire au test de lecture SAT). Cela peut être fait avec le jeu de données RACE (2017), la plus grande ressource publique disponible à cet effet. Les performances des ordinateurs sur ce défi de compréhension de lecture reflètent bien les avancées en modélisation linguistique des dernières années : un modèle pré-entraîné uniquement avec des représentations de mots indépendantes du contexte obtient un score faible à ce test (45.9), tandis que BERT, avec des connaissances linguistiques dépendantes du contexte, obtient un score relativement bon de 72.0.
Conclusion
Le succès d'ALBERT démontre l'importance d'identifier les aspects d'un modèle qui donnent lieu à des représentations contextuelles puissantes. En se concentrant sur l'amélioration de ces aspects de l'architecture du modèle, il est possible d'améliorer considérablement à la fois l'efficacité du modèle et sa performance sur une large gamme de tâches NLP. Pour faciliter de nouvelles avancées dans le domaine du NLP, nous open-sourçons ALBERT à la communauté de recherche.