CM3leon representa un avance significativo en el campo de la inteligencia artificial generativa, ofreciendo una solución multimodal que combina la generación de texto e imágenes en un solo modelo. Este innovador enfoque permite a CM3leon superar las limitaciones de los modelos anteriores, que estaban especializados en una sola tarea, ya sea la generación de texto a partir de imágenes o viceversa. La arquitectura de CM3leon se basa en un transformador de solo decodificación, similar a los modelos basados en texto, pero con la capacidad única de procesar y generar tanto texto como imágenes. Esto le permite manejar una variedad de tareas, desde la generación de imágenes guiadas por texto hasta la edición de imágenes basada en instrucciones textuales, todo con una eficiencia y precisión impresionantes.
Uno de los aspectos más destacados de CM3leon es su capacidad para generar imágenes coherentes y detalladas a partir de descripciones textuales complejas. Esto incluye la capacidad de manejar objetos composicionales complejos y seguir instrucciones detalladas para la edición de imágenes. Además, CM3leon ha demostrado un rendimiento superior en tareas de visión y lenguaje, como la generación de subtítulos y la respuesta a preguntas visuales, incluso con un conjunto de datos de entrenamiento significativamente más pequeño que el utilizado por modelos anteriores.
El entrenamiento de CM3leon incluye una etapa de preentrenamiento aumentado con recuperación y una segunda etapa de ajuste fino supervisado multitarea. Este enfoque no solo mejora la eficiencia del modelo, sino que también permite una mayor controlabilidad y versatilidad en la generación de contenido. CM3leon establece un nuevo estándar en la generación de texto a imagen, logrando un puntaje FID (Fréchet Inception Distance) de 4.88 en el benchmark MS-COCO, superando a modelos anteriores como Parti de Google.
CM3leon no solo es un testimonio del potencial de los modelos generativos multimodales, sino que también abre nuevas posibilidades para aplicaciones creativas y prácticas en diversos campos, desde el diseño gráfico hasta la creación de contenido para el metaverso. Su capacidad para entender y generar tanto texto como imágenes de manera eficiente y efectiva marca un hito en la evolución de la inteligencia artificial generativa.