开源BERT:自然语言处理的最先进预训练
引言
在自然语言处理(NLP)领域,数据短缺是最大的挑战之一。虽然NLP涵盖了许多不同的任务,但大多数特定任务的数据集仅包含几千到几百万个人工标记的训练示例。为了帮助弥补这一数据缺口,研究人员开发了多种技术,利用网络上大量未标记的文本进行通用语言表示模型的预训练。
BERT的独特之处
本周,我们开源了一种新的NLP预训练技术,称为双向编码器表示(BERT)。通过这一发布,任何人都可以在大约30分钟内在单个Cloud TPU上训练自己的最先进问答系统,或在几小时内使用单个GPU完成。
BERT与其他模型的比较
BERT是第一个深度双向的无监督语言表示模型,它仅使用纯文本语料库(在这种情况下为维基百科)进行预训练。与之前的模型相比,BERT在上下文表示的预训练方面取得了显著进展。
双向性的力量
双向性为何如此强大?因为单向模型通过预测每个单词的前面单词来高效训练,而双向模型则需要同时考虑前后单词。为了解决这个问题,我们采用了简单的技术,即在输入中屏蔽一些单词,然后双向预测被屏蔽的单词。
使用Cloud TPU进行训练
Cloud TPU为我们提供了快速实验、调试和调整模型的自由,这是使我们能够超越现有预训练技术的关键。Transformer模型架构为BERT的成功奠定了基础。
BERT的表现
在与其他最先进的NLP系统的比较中,BERT在SQuAD v1.1上达到了93.2%的F1分数,超越了之前的91.6%的最佳成绩。
如何使用BERT
我们发布的模型可以在几小时内针对各种NLP任务进行微调。虽然我们发布的BERT模型目前仅支持英语,但我们希望在不久的将来发布支持多种语言的模型。
结论
BERT的开源发布为NLP研究人员提供了强大的工具,帮助他们在各种任务中取得更好的结果。想要了解更多信息,请访问。