T5: テキストからテキストへの転送変換器
はじめに
近年、転送学習は自然言語処理(NLP)において新たな波を引き起こし、最先端の結果をもたらしています。転送学習の効果は、自己教師ありタスク(言語モデルや欠落単語の補完など)を用いて、豊富に存在するラベルなしのテキストデータでモデルを事前学習することから生じます。その後、モデルは小規模なラベル付きデータセットで微調整され、ラベル付きデータのみでの学習よりも(はるかに)優れたパフォーマンスを発揮することがよくあります。
T5の概要
「テキストからテキストへの転送変換器(T5)」は、すべてのNLPタスクを統一されたテキストからテキストへの形式に再構成することを提案します。これにより、入力と出力は常にテキスト文字列となります。T5は、機械翻訳、文書要約、質問応答、分類タスク(例:感情分析)など、さまざまなNLPタスクに同じモデル、損失関数、およびハイパーパラメータを使用することを可能にします。
大規模な事前学習データセット(C4)
転送学習において重要な要素は、事前学習に使用されるラベルなしデータセットです。私たちは、Wikipediaよりも2桁大きい、クリーンなCommon CrawlのバージョンであるColossal Clean Crawled Corpus(C4)を開発しました。このデータセットは、重複排除、不完全な文の除去、攻撃的またはノイズの多いコンテンツの削除を含むクリーンプロセスを経ており、下流タスクでの結果を改善しました。
転送学習手法の体系的研究
T5のテキストからテキストへのフレームワークと新しい事前学習データセット(C4)を使用して、過去数年間にNLP転送学習のために導入されたアイデアと手法の広大な風景を調査しました。私たちの研究では、モデルアーキテクチャ、事前学習目的、ラベルなしデータセット、トレーニング戦略、スケールなど、さまざまな要因を検討しました。
結果と展望
私たちの最大のモデルは110億のパラメータを持ち、GLUE、SuperGLUE、SQuAD、CNN/Daily Mailのベンチマークで最先端の結果を達成しました。特に、SuperGLUEの自然言語理解ベンチマークで人間に近いスコアを達成したことは非常に興味深い結果です。
結論
私たちは、私たちの発見、コード、および事前学習モデルを使用してプロジェクトを開始する人々を見るのを楽しみにしています。Colabノートブックをチェックして、ぜひ試してみてください!