RoBERTa:优化的自然语言处理预训练系统
RoBERTa 是一种对自然语言处理(NLP)系统进行预训练的优化方法,它在双向编码器表示(BERT)的基础上进行了改进。BERT 是谷歌在 2018 年发布的一种自监督方法,在一系列 NLP 任务中取得了最先进的结果,它依赖于从网络中提取的未标注文本,而非针对特定任务进行标注的语言语料库。此后,BERT 作为 NLP 研究的基线和最终任务架构而广受欢迎。
RoBERTa 构建在 BERT 的语言掩码策略之上,系统通过学习预测未标注语言示例中故意隐藏的部分来提高性能。RoBERTa 在 PyTorch 中实现,它修改了 BERT 中的关键超参数,包括去除 BERT 的下一句预训练目标,并使用更大的小批量和学习率进行训练。这使得 RoBERTa 在掩码语言建模目标上比 BERT 有所改进,并导致更好的下游任务性能。
此外,研究人员还探索了使用比 BERT 多一个数量级的数据对 RoBERTa 进行更长时间的训练。他们使用了现有的未标注 NLP 数据集以及从公共新闻文章中提取的新数据集 CC-News。通过实施这些设计更改,RoBERTa 在 MNLI、QNLI、RTE、STS-B 和 RACE 任务上取得了最先进的性能,并在 GLUE 基准上实现了显著的性能提升。RoBERTa 以 88.5 的分数在 GLUE 排行榜上名列前茅,与之前的领先者 XLNet-Large 成绩相当。
这些结果突出了在 BERT 训练中以前未被探索的设计选择的重要性,并有助于理清数据大小、训练时间和预训练目标的相对贡献。RoBERTa 是 Facebook 持续致力于推进自监督系统发展的一部分,该系统可以在较少依赖时间和资源密集型数据标注的情况下进行开发。