Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing

Einleitung

Eines der größten Probleme im Bereich der natürlichen Sprachverarbeitung (NLP) ist der Mangel an Trainingsdaten. Da NLP ein vielfältiges Feld mit vielen unterschiedlichen Aufgaben ist, enthalten die meisten aufgabenbezogenen Datensätze nur einige tausend oder einige hunderttausend menschlich gekennzeichnete Trainingsbeispiele. Um diese Lücke zu schließen, haben Forscher verschiedene Techniken entwickelt, um allgemeine Sprachrepräsentationsmodelle mit der enormen Menge an unannotiertem Text im Internet zu trainieren.

Was ist BERT?

BERT, oder Bidirectional Encoder Representations from Transformers, ist ein neuartiges Verfahren für das Pre-Training von NLP-Modellen. Es ermöglicht jedem, in etwa 30 Minuten auf einem einzelnen Cloud TPU oder in wenigen Stunden mit einer einzigen GPU ein eigenes hochmodernes Frage-Antwort-System zu trainieren. Die Veröffentlichung umfasst Quellcode, der auf TensorFlow basiert, sowie eine Reihe vortrainierter Sprachrepräsentationsmodelle.

Was macht BERT anders?

BERT ist das erste tief bidirektionale, unüberwachte Sprachmodell, das nur mit einem einfachen Textkorpus (in diesem Fall Wikipedia) vortrainiert wurde. Im Gegensatz zu kontextfreien Modellen wie word2vec oder GloVe, die für jedes Wort in einem Vokabular eine einzige Repräsentation erzeugen, generiert BERT eine Repräsentation jedes Wortes, die auf den anderen Wörtern im Satz basiert.

Die Stärke der Bidirektionalität

Bidirektionalität ist so mächtig, weil sie es ermöglicht, dass jedes Wort sowohl auf vorhergehende als auch auf nachfolgende Wörter im Satz zugreift. Dies wird durch das Maskieren einiger Wörter im Eingabetext erreicht, sodass jedes Wort bidirektional trainiert wird, um die maskierten Wörter vorherzusagen.

Training mit Cloud TPUs

Cloud TPUs haben es uns ermöglicht, schnell zu experimentieren, zu debuggen und unsere Modelle anzupassen, was entscheidend war, um über bestehende Pre-Training-Techniken hinauszugehen.

Ergebnisse mit BERT

BERT hat auf dem Stanford Question Answering Dataset (SQuAD v1.1) eine F1-Score von 93,2 % erreicht, was die vorherige Bestmarke von 91,6 % übertrifft. Darüber hinaus verbessert BERT die state-of-the-art Ergebnisse um 7,6 % auf dem sehr herausfordernden GLUE-Benchmark.

BERT für Ihre Anwendungen nutzen

Die veröffentlichten Modelle können in wenigen Stunden oder weniger auf einer Vielzahl von NLP-Aufgaben feinabgestimmt werden. Die Modelle, die wir heute veröffentlichen, sind nur auf Englisch, aber wir hoffen, in naher Zukunft auch Modelle anzubieten, die auf einer Vielzahl von Sprachen vortrainiert wurden.

Fazit

BERT revolutioniert die natürliche Sprachverarbeitung, indem es eine leistungsstarke, bidirektionale Trainingsmethode bereitstellt. Wenn Sie mehr erfahren oder BERT ausprobieren möchten, besuchen Sie oder nutzen Sie die Colab-Notizbuchvorlage „BERT FineTuning with Cloud TPUs“.