BERT: 最先端の自然言語処理のための事前学習

はじめに

自然言語処理（NLP）の分野で直面する最大の課題の一つは、トレーニングデータの不足です。NLPは多様なタスクを含む広範な分野であり、ほとんどのタスク特化型データセットには数千から数十万の人間ラベル付きトレーニング例しか含まれていません。しかし、現代の深層学習ベースのNLPモデルは、数百万または数十億の注釈付きトレーニング例でトレーニングされることで、より良い結果を得ることができます。

BERTの概要

このギャップを埋めるために、研究者たちはウェブ上の膨大な量の未注釈テキストを使用して一般的な言語表現モデルをトレーニングするためのさまざまな技術を開発しました。これにより、事前学習されたモデルは、質問応答や感情分析などの小データNLPタスクにファインチューニングされ、ゼロからデータセットをトレーニングする場合と比較して、精度が大幅に向上します。

今週、私たちはBidirectional Encoder Representations from Transformers、通称BERTという新しいNLP事前学習技術をオープンソース化しました。このリリースにより、世界中の誰もが約30分で最先端の質問応答システムをトレーニングできるようになります。

BERTの特異性

BERTは、文脈表現の事前学習に関する最近の研究を基にしていますが、これまでのモデルとは異なり、BERTは初めて深層双方向の無監視言語表現を実現しました。これは、Wikipediaのようなプレーンテキストコーパスのみを使用して事前学習されています。

双方向性の強み

双方向性は非常に強力ですが、なぜこれまで実現されなかったのでしょうか？単方向モデルは、文中の前の単語に基づいて各単語を予測することで効率的にトレーニングされます。しかし、双方向モデルは、各単語を前後の単語に基づいて条件付けることができず、これにより予測される単語が間接的に「自分自身」を見ることができてしまいます。この問題を解決するために、入力の一部の単語をマスクし、マスクされた単語を予測するために双方向に条件付けるというシンプルな技術を使用します。