Parti: Modelo Autoregresivo de Texto a Imagen
Introducción
Presentamos el modelo Pathways Autoregressive Text-to-Image (Parti), un modelo de generación de texto a imagen autoregresivo que logra una generación de imágenes fotorealistas de alta fidelidad y admite síntesis rica en contenido que involucra composiciones complejas y conocimiento del mundo. Los avances recientes con modelos de difusión para la generación de texto a imagen, como el Imagen de Google, también han mostrado capacidades impresionantes y un rendimiento de vanguardia en los puntos de referencia de investigación.
Parti e Imagen son complementarios en la exploración de dos familias diferentes de modelos generativos: autoregresivos y de difusión, respectivamente, abriendo oportunidades emocionantes para combinaciones de estos dos poderosos modelos. Parti trata la generación de texto a imagen como un problema de modelado de secuencia a secuencia, análogo a la traducción automática, lo que le permite beneficiarse de los avances en modelos de lenguaje grandes, especialmente capacidades que se desbloquean al escalar datos y tamaños de modelo. En este caso, las salidas objetivo son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma.
Resultados Observados
- Mejoras de calidad consistentes al escalar el codificador-decodificador de Parti hasta 20 mil millones de parámetros.
- Puntuación FID cero disparo de 7.23 y puntuación FID ajustada de 3.22 en MS-COCO.
- Efectividad en una amplia variedad de categorías y aspectos de dificultad en nuestro análisis sobre Narrativas Localizadas y PartiPrompts, nuestro nuevo punto de referencia holístico de más de 1600 prompts en inglés que lanzamos como parte de este trabajo.
Escalado de Parámetros
Parti se implementa en Lingvo y se escala con GSPMD en hardware TPU v4 tanto para entrenamiento como para inferencia, lo que nos permitió entrenar un modelo de 20B de parámetros que logra un rendimiento récord en múltiples puntos de referencia. Realizamos comparaciones detalladas de cuatro escalas de modelos Parti: 350M, 750M, 3B y 20B, y observamos mejoras consistentes y sustanciales en las capacidades del modelo y la calidad de la imagen de salida.
Generación de Texto a Imagen
La generación de texto a imagen es más interesante cuando nos permite crear escenas que nunca se han visto. Encontramos que Parti puede manejar prompts largos y complejos que requieren:
- Reflejar con precisión el conocimiento del mundo.
- Componer muchos participantes y objetos, con detalles finos e interacciones.
- Adherirse a un formato y estilo de imagen específicos.
Benchmark de PartiPrompts
PartiPrompts (P2) es un conjunto rico de más de 1600 prompts en inglés que lanzamos como parte de este trabajo. P2 se puede utilizar para medir las capacidades del modelo en varias categorías y aspectos desafiantes. Los prompts de P2 pueden ser simples, lo que nos permite evaluar el progreso del escalado. También pueden ser complejos, como la siguiente descripción de 67 palabras que creamos para "La Noche Estrellada" de Vincent van Gogh (1889).
Discusión y Limitaciones
Aunque Parti produce salidas de alta calidad para una amplia gama de prompts, el modelo tiene muchas limitaciones. En el documento, discutimos estos desafíos con ejemplos, modos de falla actuales y oportunidades para futuros trabajos.
Responsabilidad e Impacto Más Amplio
Los modelos de texto a imagen introducen muchas oportunidades y riesgos, con un impacto potencial en sesgos y seguridad, comunicación visual, desinformación, y creatividad y arte. Reconocemos que existe un riesgo de que Parti pueda codificar estereotipos y representaciones dañinas.
Conclusión
Parti es un avance emocionante en la generación de imágenes a partir de texto, con el potencial de enriquecer la creatividad humana. Sin embargo, es crucial abordar los sesgos y limitaciones inherentes a estos modelos para garantizar un uso responsable y ético.
¡Prueba Parti hoy y descubre el futuro de la generación de imágenes!