RoBERTa: Geavanceerde methode voor NLP-voorbereiding

RoBERTa is een geavanceerde methode voor het voorbereiden van zelfsuperviserende NLP-systemen. Het borduurt voort op de taalmaskeerstrategie van BERT en maakt een aantal belangrijke aanpassingen aan de hyperparameters. Zo wordt bijvoorbeeld het volgende-zin voorbereidingdoel van BERT geschrapt en wordt er getraind met veel grotere minibatches en hogere leersnelheden. Hierdoor kan RoBERTa het gemaskerde taalmodelleringdoel beter bereiken in vergelijking met BERT en leidt dit tot sterkere prestaties bij de downstreamtaken. Ook wordt er gekeken naar het trainen van RoBERTa met een veel grotere hoeveelheid gegevens dan BERT, over een langere periode. Er worden bestaande ongeannoteerde NLP-datasets gebruikt, samen met CC-News, een nieuwe verzameling afkomstig uit openbare nieuwsartikelen. Nadat deze ontwerpwijzigingen zijn geïmplementeerd, heeft het model state-of-the-art resultaten behaald op de veelgebruikte NLP-benchmark, General Language Understanding Evaluation (GLUE). Met een score van 88,5 heeft RoBERTa de toppositie op de GLUE-leiderboard behaald, vergelijkbaar met de prestaties van de vorige leider, XLNet-Large. Deze resultaten onderstrepen het belang van eerder onontdekte ontwerpkeuzes in de BERT-training en helpen de relatieve bijdragen van gegevensgrootte, trainingsduur en voorbereidingdoelen uit te pluizen.

Uitgelichte Tools