El modelo Parti: Pathways Autoregressive Text-to-Image es un innovador en el campo de la generación de imágenes a partir de texto. Se trata de un modelo autoregresivo que alcanza una generación de imágenes fotorrealistas de alta calidad y que soporta síntesis de contenido rico, involucrando composiciones complejas y conocimiento del mundo. Los recientes avances con modelos de difusión para la generación de imágenes a partir de texto, como Google's Imagen, también han mostrado capacidades impresionantes y un rendimiento de vanguardia en benchmarks de investigación. Parti y Imagen son complementarios al explorar dos diferentes familias de modelos generativos - autoregresivo y difusión, respectivamente - abriendo emocionantes oportunidades para combinaciones de estos dos poderosos modelos.
Parti considera la generación de imágenes a partir de texto como un problema de modelado secuencia-a-secuencia, análogo a la traducción automática. Esto le permite beneficiarse de los avances en los grandes modelos de lenguaje, especialmente de las capacidades que se desbloquean al escalar los datos y el tamaño del modelo. En este caso, las salidas objetivo son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma. Parti utiliza el poderoso tokenizador de imágenes, ViT-VQGAN, para codificar imágenes como secuencias de tokens discretos y aprovecha su capacidad para reconstruir tales secuencias de tokens de imagen como imágenes de alta calidad y visualmente diversas.
Se han observado los siguientes resultados: Mejoras consistentes en la calidad al escalar el codificador-decodificador de Parti hasta 20 mil millones de parámetros. Un puntaje FID de cero disparo de vanguardia de 7.23 y un puntaje FID afinado de 3.22 en MS-COCO. Eficacia en una amplia variedad de categorías y aspectos de dificultad en nuestro análisis en Localized Narratives y PartiPrompts, nuestro nuevo benchmark holístico de más de 1600 indicaciones en inglés que lanzamos como parte de este trabajo.
También se exploran y destacan las limitaciones de nuestros modelos, dando áreas clave de ejemplo de enfoque para futuras mejoras. La implementación de Parti se realiza en Lingvo y se escala con GSPMD en hardware TPU v4 tanto para el entrenamiento como para la inferencia, lo que permitió entrenar un modelo de 20B parámetros que alcanza un rendimiento récord en múltiples benchmarks. Se realizan comparaciones detalladas de cuatro escalas de modelos de Parti - 350M, 750M, 3B y 20B - y se observan mejoras consistentes y sustanciales en las capacidades del modelo y la calidad de la imagen de salida. Cuando se comparan los modelos 3B y 20B, los evaluadores humanos prefirieron el último la mayor parte del tiempo.
Parti puede gestionar indicaciones largas y complejas que requieren reflejar con precisión el conocimiento del mundo, componer muchos participantes y objetos, con detalles y interacciones de grano fino, y adherirse a un formato y estilo de imagen específico. En los siguientes ejemplos de indicaciones e imágenes de salida, se muestra cómo Parti responde a cambios en participantes, actividades, descripciones, ubicaciones y formato.
PartiPrompts (P2) es un rico conjunto de más de 1600 indicaciones en inglés que se lanzan como parte de este trabajo. P2 puede usarse para medir las capacidades del modelo en diversas categorías y aspectos desafiantes. Las indicaciones de P2 pueden ser simples, permitiendo medir el progreso a partir de la escala. También pueden ser complejas.
Sin embargo, a pesar de que Parti produce salidas de alta calidad para una amplia gama de indicaciones, el modelo tiene muchas limitaciones. En el documento, se discuten estos desafíos con ejemplos, modos de fallo actuales y oportunidades para el trabajo futuro.
Los modelos de texto-a-imagen introducen muchas oportunidades y riesgos, con un impacto potencial en el sesgo y la seguridad, la comunicación visual, la desinformación, la creatividad y el arte. Similar a Imagen, se reconoce que existe el riesgo de que Parti pueda codificar estereotipos y representaciones dañinas. Algunos riesgos potenciales se relacionan con la forma en que los modelos se desarrollan en sí mismos, y esto es especialmente cierto para los datos de entrenamiento. Los modelos actuales como Parti se entrenan en grandes conjuntos de datos de imagen-texto, a menudo ruidosos, que se sabe que contienen sesgos con respecto a personas de diferentes orígenes. Esto lleva a que tales modelos, incluyendo Parti, produzcan representaciones estereotípicas, por ejemplo, de personas descritas como abogados, azafatas, amas de casa, etc., y reflejen sesgos occidentales para eventos como bodas. Esto presenta problemas particulares para personas cuyos orígenes e intereses no están bien representados en los datos y el modelo, especialmente si tales modelos se aplican a usos como la comunicación visual, por ejemplo, para ayudar a grupos sociales con baja alfabetización.
Los modelos que producen salidas fotorrealistas, especialmente de personas, plantean riesgos y preocupaciones adicionales en torno a la creación de deepfakes. Esto crea riesgos con respecto a la posible propagación de desinformación visualmente orientada, y para individuos y entidades cuyos parecidos se incluyen o se hacen referencia. Sin embargo, los modelos de texto-a-imagen abren muchas nuevas posibilidades para que las personas creen imágenes únicas y estéticamente agradables, actuando esencialmente como un pincel para mejorar la creatividad y productividad humana. Pero, al evaluar el mérito de diseño o artístico, es importante tener una comprensión matizada del arte basado en algoritmos a lo largo de los años, el modelo en sí, las personas involucradas y el entorno artístico más amplio. El sesgo también importa aquí, ya que el rango de salidas de un modelo depende de los datos de entrenamiento, y esto puede tener sesgos hacia las imágenes occidentales y evitar que los modelos exhiban estilos artísticos radicalmente nuevos, como pueden hacer los artistas humanos.
Por estas razones, se ha decidido no liberar los modelos, el código o los datos de Parti para uso público sin medidas de seguridad adicionales. Mientras tanto, se proporciona una marca de agua de Parti en todas las imágenes que se liberan. Se centrará en seguir este trabajo con medidas y estrategias de mitigación de sesgo de modelo más cuidadosas, como el filtrado de indicaciones, el filtrado de salidas y la recalibración del modelo. Se cree que puede ser posible utilizar modelos de generación de texto-a-imagen para comprender los sesgos en grandes conjuntos de datos de imagen-texto a escala, al sondearlos explícitamente para un conjunto de tipos de sesgo conocidos, y potencialmente descubrir otras formas de sesgo oculto. También se planea coordinar con artistas para adaptar las capacidades de los modelos de generación de texto-a-imagen de alto rendimiento a su trabajo.