Explorando o Aprendizado por Transferência com T5: o Transformer de Transferência Texto-para-Tex
Introdução
Nos últimos anos, o aprendizado por transferência revolucionou o processamento de linguagem natural (NLP), levando a resultados de ponta. O T5, ou Transformer de Transferência Texto-para-Tex, é um modelo que reformula todas as tarefas de NLP em um formato unificado de texto-para-texto, onde tanto a entrada quanto a saída são sempre cadeias de texto.
O que é o T5?
O T5 foi desenvolvido para aproveitar ao máximo o aprendizado por transferência, utilizando um grande conjunto de dados de pré-treinamento chamado Colossal Clean Crawled Corpus (C4). Este modelo alcançou resultados impressionantes em benchmarks de NLP, sendo flexível o suficiente para ser ajustado para várias tarefas downstream, como tradução, sumarização de documentos e resposta a perguntas.
Estrutura Texto-para-Tex
A estrutura texto-para-texto do T5 permite que o mesmo modelo, função de perda e hiperparâmetros sejam usados em qualquer tarefa de NLP. Isso contrasta com modelos como o BERT, que só podem gerar rótulos de classe ou trechos de entrada. Essa abordagem unificada simplifica o processo de treinamento e aplicação do modelo.
Conjunto de Dados de Pré-Treinamento (C4)
O C4 é um conjunto de dados massivo e diversificado, desenvolvido para atender às necessidades do aprendizado por transferência. Ele foi limpo para remover conteúdo ofensivo e duplicado, resultando em um conjunto de dados de alta qualidade que é duas ordens de magnitude maior que o Wikipedia. Isso permite que o T5 seja treinado de forma eficaz sem overfitting.
Metodologia de Aprendizado por Transferência
O T5 foi submetido a uma série de experimentos para avaliar diferentes arquiteturas de modelo, objetivos de pré-treinamento e estratégias de treinamento. Descobrimos que modelos encoder-decoder geralmente superam modelos de linguagem apenas decodificadores e que objetivos de denoising funcionam melhor para o pré-treinamento.
Resultados e Conclusões
O modelo T5, com 11 bilhões de parâmetros, alcançou resultados de ponta em benchmarks como GLUE, SuperGLUE e SQuAD. Um resultado particularmente empolgante foi a pontuação quase humana no benchmark SuperGLUE, que é projetado para ser desafiador para modelos de aprendizado de máquina.
Aplicações do T5
O T5 é versátil e pode ser aplicado a várias tarefas, incluindo:
- Resposta a Perguntas em Livro Fechado: O modelo pode responder perguntas baseadas em conhecimento interno adquirido durante o pré-treinamento.
- Geração de Texto com Preenchimento de Lacunas: O T5 pode gerar texto realista, preenchendo lacunas com um número específico de palavras.
Conclusão
Estamos animados para ver como as pessoas usarão nossas descobertas, código e modelos pré-treinados para impulsionar seus projetos. Confira o Colab Notebook para começar e compartilhe suas experiências conosco!
Agradecimentos
Este trabalho é resultado de um esforço colaborativo envolvendo diversos pesquisadores da Google Research.