Explorando el Aprendizaje por Transferencia con T5: el Transformador de Texto a Texto

T5

Descubre cómo T5 revoluciona el aprendizaje por transferencia en el procesamiento del lenguaje natural con su innovador marco de texto a texto.

Visitar Sitio
Explorando el Aprendizaje por Transferencia con T5: el Transformador de Texto a Texto

Explorando el Aprendizaje por Transferencia con T5: el Transformador de Transferencia de Texto a Texto

Fecha: 24 de febrero de 2020
Autores: Adam Roberts, Ingeniero de Software y Colin Raffel, Científico Investigador Senior, Google Research

En los últimos años, el aprendizaje por transferencia ha llevado a una nueva ola de resultados de vanguardia en el procesamiento del lenguaje natural (NLP). La efectividad del aprendizaje por transferencia proviene de pre-entrenar un modelo en datos de texto no etiquetados, abundantemente disponibles, con una tarea auto-supervisada, como el modelado del lenguaje o el llenado de palabras faltantes. Después de eso, el modelo puede ser ajustado en conjuntos de datos etiquetados más pequeños, lo que a menudo resulta en un rendimiento (mucho) mejor que entrenar solo con los datos etiquetados.

El reciente éxito del aprendizaje por transferencia fue impulsado en 2018 por GPT, ULMFiT, ELMo y BERT, y 2019 vio el desarrollo de una gran diversidad de nuevos métodos como XLNet, RoBERTa, ALBERT, Reformer y MT-DNN. La velocidad de progreso en el campo ha dificultado la evaluación de qué mejoras son más significativas y cuán efectivas son cuando se combinan.

En "Explorando los Límites del Aprendizaje por Transferencia con un Transformador de Texto a Texto Unificado", presentamos una encuesta empírica a gran escala para determinar qué técnicas de aprendizaje por transferencia funcionan mejor y aplicamos estos conocimientos a gran escala para crear un nuevo modelo que llamamos T5.

Un Marco de Texto a Texto Compartido

Con T5, proponemos reformular todas las tareas de NLP en un formato unificado de texto a texto donde la entrada y la salida son siempre cadenas de texto, en contraste con los modelos estilo BERT que solo pueden producir una etiqueta de clase o un segmento de la entrada. Nuestro marco de texto a texto nos permite usar el mismo modelo, función de pérdida y hiperparámetros en cualquier tarea de NLP, incluyendo traducción automática, resumen de documentos, respuesta a preguntas y tareas de clasificación (por ejemplo, análisis de sentimientos).

Un Gran Conjunto de Datos de Pre-entrenamiento (C4)

Un ingrediente importante para el aprendizaje por transferencia es el conjunto de datos no etiquetados utilizado para el pre-entrenamiento. Para medir con precisión el efecto de aumentar la cantidad de pre-entrenamiento, se necesita un conjunto de datos que no solo sea de alta calidad y diverso, sino también masivo. Los conjuntos de datos existentes no cumplen con estos criterios. Para satisfacer estos requisitos, desarrollamos el Colossal Clean Crawled Corpus (C4), una versión limpia de Common Crawl que es dos órdenes de magnitud más grande que Wikipedia.

Un Estudio Sistemático de la Metodología de Aprendizaje por Transferencia

Con el marco de texto a texto de T5 y el nuevo conjunto de datos de pre-entrenamiento (C4), encuestamos el vasto paisaje de ideas y métodos introducidos para el aprendizaje por transferencia en NLP en los últimos años. Los detalles completos de la investigación se pueden encontrar en nuestro artículo, incluyendo experimentos sobre arquitecturas de modelos, objetivos de pre-entrenamiento, conjuntos de datos no etiquetados, estrategias de entrenamiento y escala.

Perspectivas + Escala = Estado del Arte

Para explorar los límites actuales del aprendizaje por transferencia para NLP, realizamos un conjunto final de experimentos donde combinamos todos los mejores métodos de nuestro estudio sistemático y escalamos nuestro enfoque con aceleradores TPU de Google Cloud. Nuestro modelo más grande tenía 11 mil millones de parámetros y logró resultados de vanguardia en los benchmarks GLUE, SuperGLUE, SQuAD y CNN/Daily Mail.

Conclusión

Estamos emocionados de ver cómo las personas utilizan nuestros hallazgos, código y modelos pre-entrenados para ayudar a iniciar sus proyectos. ¡Consulta el Notebook de Colab para comenzar y comparte cómo lo utilizas con nosotros en Twitter!

Agradecimientos: Este trabajo ha sido un esfuerzo colaborativo que involucra a Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, Karishma Malkan, Noah Fiedel y Monica Dinculescu.

Mejores Alternativas a T5