ALBERT: Un BERT Ligero para el Aprendizaje Auto-Supervisado

ALBERT

Descubre cómo ALBERT mejora el rendimiento en tareas de NLP con un diseño eficiente y reducción de parámetros.

Visitar Sitio
ALBERT: Un BERT Ligero para el Aprendizaje Auto-Supervisado

ALBERT: Un BERT Ligero para el Aprendizaje Auto-Supervisado de Representaciones de Lenguaje

Introducción

Desde la llegada de BERT hace un año, la investigación en lenguaje natural ha adoptado un nuevo paradigma, aprovechando grandes cantidades de texto existente para preentrenar los parámetros de un modelo utilizando auto-supervisión, sin necesidad de anotación de datos. Esto permite comenzar con un modelo que ya tiene conocimiento del lenguaje, en lugar de entrenar un modelo de aprendizaje automático desde cero.

¿Qué Contribuye al Rendimiento en NLP?

Identificar el principal impulsor del rendimiento en NLP es complejo. Algunos ajustes son más importantes que otros. En el artículo "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations", se presenta una mejora a BERT que avanza el rendimiento de vanguardia en 12 tareas de NLP, incluyendo el competitivo Stanford Question Answering Dataset (SQuAD v2.0) y el benchmark de comprensión lectora estilo SAT RACE.

Diseño y Eficiencia

ALBERT se libera como una implementación de código abierto sobre TensorFlow, incluyendo varios modelos de representación de lenguaje ALBERT preentrenados listos para usar. Un aspecto clave del diseño de ALBERT es la asignación más eficiente de la capacidad del modelo. Las incrustaciones a nivel de entrada necesitan aprender representaciones independientes del contexto, mientras que las incrustaciones de las capas ocultas deben refinar eso en representaciones dependientes del contexto.

Reducción de Parámetros

ALBERT logra una reducción del 80% en los parámetros del bloque de proyección, con una caída menor en el rendimiento. Además, se observa que las arquitecturas de redes neuronales basadas en transformadores a menudo aprenden a realizar operaciones similares en varias capas, lo que se elimina en ALBERT mediante el uso compartido de parámetros entre las capas. Esto logra una reducción del 90% en los parámetros del bloque de atención-alimentación, lo que permite un modelo ALBERT-base con solo 12M de parámetros, un 89% menos en comparación con el modelo BERT-base.

Rendimiento Optimizado con el Conjunto de Datos RACE

Para evaluar la capacidad de comprensión del lenguaje de un modelo, se puede administrar una prueba de comprensión lectora, como el conjunto de datos RACE. El rendimiento de ALBERT en este desafío establece un nuevo récord de puntuación de 89.4, superando a otros enfoques anteriores.

Conclusión

El éxito de ALBERT demuestra la importancia de identificar los aspectos de un modelo que dan lugar a representaciones contextuales poderosas. Al centrarse en mejorar estos aspectos de la arquitectura del modelo, es posible mejorar tanto la eficiencia del modelo como su rendimiento en una amplia gama de tareas de NLP. Para facilitar avances adicionales en el campo de NLP, estamos liberando ALBERT a la comunidad de investigación.

Mejores Alternativas a ALBERT