探索T5:文本到文本的迁移变换器
引言
在过去的几年中,迁移学习在自然语言处理(NLP)领域引发了一波新的最先进成果。迁移学习的有效性源于在大量可用的未标记文本数据上进行预训练,使用自监督任务,例如语言建模或填补缺失单词。之后,模型可以在较小的标记数据集上进行微调,通常会比仅在标记数据上训练获得更好的性能。
T5模型概述
在《探索迁移学习的极限:统一的文本到文本变换器》中,我们提出了一个大规模的实证调查,以确定哪些迁移学习技术效果最佳,并将这些见解应用于创建一个新的模型,我们称之为文本到文本的迁移变换器(T5)。我们还介绍了一个新的开源预训练数据集,称为巨型清理抓取语料库(C4)。T5模型在C4上进行预训练,在许多NLP基准测试中取得了最先进的结果,同时灵活到可以微调以适应各种重要的下游任务。
统一的文本到文本框架
使用T5,我们提出将所有NLP任务重新框定为统一的文本到文本格式,其中输入和输出始终是文本字符串。这种文本到文本的框架使我们能够在任何NLP任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(例如情感分析)。
大规模预训练数据集(C4)
迁移学习的重要组成部分是用于预训练的未标记数据集。为了准确测量扩大预训练数据量的效果,需要一个不仅高质量和多样化,而且规模庞大的数据集。我们开发了巨型清理抓取语料库(C4),这是一个比维基百科大两个数量级的清理版Common Crawl。
系统性迁移学习方法研究
借助T5文本到文本框架和新的预训练数据集(C4),我们调查了过去几年为NLP迁移学习引入的各种思想和方法。我们发现,编码器-解码器模型通常优于“仅解码器”语言模型,而填空式去噪目标(模型训练以恢复输入中的缺失单词)效果最佳。
结论
我们期待看到人们如何使用我们的发现、代码和预训练模型来帮助启动他们的项目。请查看Colab Notebook以开始使用,并在Twitter上与我们分享您的使用体验!