Verkenning van Transfer Learning met T5: de Text-To-Text Transfer Transformer
Introductie
In de afgelopen jaren heeft transfer learning geleid tot een nieuwe golf van state-of-the-art resultaten in natuurlijke taalverwerking (NLP). De kracht van transfer learning komt voort uit het voortrainen van een model op overvloedig beschikbare ongelabelde tekstdata met een zelfgestuurde taak, zoals taalmodellering of het invullen van ontbrekende woorden. Daarna kan het model verder worden afgestemd op kleinere gelabelde datasets, wat vaak resulteert in (veel) betere prestaties dan alleen trainen op de gelabelde data.
De recente successen van transfer learning zijn in 2018 aangewakkerd door GPT, ULMFiT, ELMo en BERT, en in 2019 zagen we een enorme diversiteit aan nieuwe methoden zoals XLNet, RoBERTa, ALBERT, Reformer en MT-DNN. De snelheid van vooruitgang in het veld maakt het moeilijk om te evalueren welke verbeteringen het meest betekenisvol zijn en hoe effectief ze zijn wanneer ze worden gecombineerd.
In "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" presenteren we een grootschalig empirisch onderzoek om te bepalen welke transfer learning technieken het beste werken en passen we deze inzichten op grote schaal toe om een nieuw model te creëren dat we de Text-To-Text Transfer Transformer (T5) noemen. We introduceren ook een nieuwe open-source voortrainingsdataset, genaamd de Colossal Clean Crawled Corpus (C4).
Belangrijkste Kenmerken
Het T5-model, voorgetraind op C4, behaalt state-of-the-art resultaten op veel NLP benchmarks en is flexibel genoeg om afgestemd te worden op verschillende belangrijke downstream taken. Om ervoor te zorgen dat onze resultaten kunnen worden uitgebreid en gereproduceerd, bieden we de code en voorgetrainde modellen aan, samen met een gebruiksvriendelijke Colab Notebook om je op weg te helpen.
Een Gedeeld Text-To-Text Kader
Met T5 stellen we voor om alle NLP-taken om te vormen tot een uniforme tekst-naar-tekst indeling waarbij de invoer en uitvoer altijd tekststrings zijn, in tegenstelling tot BERT-stijl modellen die alleen een klasse label of een segment van de invoer kunnen outputten. Ons tekst-naar-tekst kader stelt ons in staat om hetzelfde model, verliesfunctie en hyperparameters te gebruiken voor elke NLP-taak, inclusief machinevertaling, document samenvatting, vraagbeantwoording en classificatietaken (bijv. sentimentanalyse).
Een Grote Voortrainingsdataset (C4)
Een belangrijk ingrediënt voor transfer learning is de ongelabelde dataset die wordt gebruikt voor voortraining. Om het effect van het opschalen van de hoeveelheid voortraining nauwkeurig te meten, heb je een dataset nodig die niet alleen van hoge kwaliteit en divers is, maar ook enorm. Bestaande voortrainingsdatasets voldoen niet aan al deze drie criteria — bijvoorbeeld, tekst van Wikipedia is van hoge kwaliteit, maar uniform in stijl en relatief klein voor onze doeleinden, terwijl de Common Crawl webscrapes enorm en zeer divers zijn, maar vrij laag in kwaliteit.
Om aan deze eisen te voldoen, hebben we de Colossal Clean Crawled Corpus (C4) ontwikkeld, een schone versie van Common Crawl die twee ordes van grootte groter is dan Wikipedia. Ons schoonmaakproces omvatte deduplicatie, het weggooien van onvolledige zinnen en het verwijderen van ongepaste of rommelige inhoud. Deze filtering leidde tot betere resultaten op downstream taken, terwijl de extra grootte het mogelijk maakte om de modelgrootte te vergroten zonder overfitting tijdens de voortraining. C4 is beschikbaar via TensorFlow Datasets.
Toepassingen
Met het T5 tekst-naar-tekst kader en de nieuwe voortrainingsdataset (C4) hebben we het enorme landschap van ideeën en methoden onderzocht die de afgelopen jaren zijn geïntroduceerd voor NLP transfer learning. De volledige details van het onderzoek zijn te vinden in ons paper, inclusief experimenten over:
- Modelarchitecturen, waar we ontdekten dat encoder-decoder modellen over het algemeen beter presteerden dan "decoder-only" taalmodellen;
- Voortrainingsdoelen, waar we bevestigden dat invul-blanken-stijl denoising-doelen het beste werkten;
- Ongelabelde datasets, waar we lieten zien dat trainen op in-domain data voordelig kan zijn;
- Trainingsstrategieën, waar we ontdekten dat multitask learning competitief kan zijn met een pre-train-then-fine-tune aanpak;
- Schaal, waar we de modelgrootte, de trainingstijd en het aantal geassembleerde modellen vergeleken.
Prijsstelling
T5 is beschikbaar als een open-source model, en gebruikers kunnen toegang krijgen tot voorgetrainde modellen en datasets via platforms zoals TensorFlow Datasets en Google Colab.
Vergelijkingen
T5 steekt boven andere modellen uit door zijn uniforme tekst-naar-tekst kader, waardoor het in staat is om een breed scala aan NLP-taken met één architectuur aan te pakken, in tegenstelling tot traditionele modellen die vaak taak-specifiek zijn.
Geavanceerde Tips
Voor degenen die T5 willen gebruiken voor hun eigen projecten, raden we aan om de Colab Notebook te verkennen die bij het model wordt geleverd, met voorbeelden en best practices voor het afstemmen en toepassen van T5 op verschillende taken.
Conclusie
We zijn super enthousiast om te zien hoe mensen onze bevindingen, code en voorgetrainde modellen gebruiken om hun projecten een kickstart te geven. Check de Colab Notebook om aan de slag te gaan, en deel hoe je het gebruikt met ons op Twitter!