Parti: Modelo Autoregresivo de Texto a Imagen

Parti

Parti es un modelo innovador de generación de imágenes a partir de texto con alta fidelidad y diversas capacidades.

Parti: Modelo Autoregresivo de Texto a Imagen

El modelo Parti: Pathways Autoregressive Text-to-Image es un innovador en el campo de la generación de imágenes a partir de texto. Se trata de un modelo autoregresivo que alcanza una generación de imágenes fotorrealistas de alta calidad y que soporta síntesis de contenido rico, involucrando composiciones complejas y conocimiento del mundo. Los recientes avances con modelos de difusión para la generación de imágenes a partir de texto, como Google's Imagen, también han mostrado capacidades impresionantes y un rendimiento de vanguardia en benchmarks de investigación. Parti y Imagen son complementarios al explorar dos diferentes familias de modelos generativos - autoregresivo y difusión, respectivamente - abriendo emocionantes oportunidades para combinaciones de estos dos poderosos modelos.

Parti considera la generación de imágenes a partir de texto como un problema de modelado secuencia-a-secuencia, análogo a la traducción automática. Esto le permite beneficiarse de los avances en los grandes modelos de lenguaje, especialmente de las capacidades que se desbloquean al escalar los datos y el tamaño del modelo. En este caso, las salidas objetivo son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma. Parti utiliza el poderoso tokenizador de imágenes, ViT-VQGAN, para codificar imágenes como secuencias de tokens discretos y aprovecha su capacidad para reconstruir tales secuencias de tokens de imagen como imágenes de alta calidad y visualmente diversas.

Se han observado los siguientes resultados: Mejoras consistentes en la calidad al escalar el codificador-decodificador de Parti hasta 20 mil millones de parámetros. Un puntaje FID de cero disparo de vanguardia de 7.23 y un puntaje FID afinado de 3.22 en MS-COCO. Eficacia en una amplia variedad de categorías y aspectos de dificultad en nuestro análisis en Localized Narratives y PartiPrompts, nuestro nuevo benchmark holístico de más de 1600 indicaciones en inglés que lanzamos como parte de este trabajo.

También se exploran y destacan las limitaciones de nuestros modelos, dando áreas clave de ejemplo de enfoque para futuras mejoras. La implementación de Parti se realiza en Lingvo y se escala con GSPMD en hardware TPU v4 tanto para el entrenamiento como para la inferencia, lo que permitió entrenar un modelo de 20B parámetros que alcanza un rendimiento récord en múltiples benchmarks. Se realizan comparaciones detalladas de cuatro escalas de modelos de Parti - 350M, 750M, 3B y 20B - y se observan mejoras consistentes y sustanciales en las capacidades del modelo y la calidad de la imagen de salida. Cuando se comparan los modelos 3B y 20B, los evaluadores humanos prefirieron el último la mayor parte del tiempo.

Parti puede gestionar indicaciones largas y complejas que requieren reflejar con precisión el conocimiento del mundo, componer muchos participantes y objetos, con detalles y interacciones de grano fino, y adherirse a un formato y estilo de imagen específico. En los siguientes ejemplos de indicaciones e imágenes de salida, se muestra cómo Parti responde a cambios en participantes, actividades, descripciones, ubicaciones y formato.

PartiPrompts (P2) es un rico conjunto de más de 1600 indicaciones en inglés que se lanzan como parte de este trabajo. P2 puede usarse para medir las capacidades del modelo en diversas categorías y aspectos desafiantes. Las indicaciones de P2 pueden ser simples, permitiendo medir el progreso a partir de la escala. También pueden ser complejas.

Sin embargo, a pesar de que Parti produce salidas de alta calidad para una amplia gama de indicaciones, el modelo tiene muchas limitaciones. En el documento, se discuten estos desafíos con ejemplos, modos de fallo actuales y oportunidades para el trabajo futuro.

Los modelos de texto-a-imagen introducen muchas oportunidades y riesgos, con un impacto potencial en el sesgo y la seguridad, la comunicación visual, la desinformación, la creatividad y el arte. Similar a Imagen, se reconoce que existe el riesgo de que Parti pueda codificar estereotipos y representaciones dañinas. Algunos riesgos potenciales se relacionan con la forma en que los modelos se desarrollan en sí mismos, y esto es especialmente cierto para los datos de entrenamiento. Los modelos actuales como Parti se entrenan en grandes conjuntos de datos de imagen-texto, a menudo ruidosos, que se sabe que contienen sesgos con respecto a personas de diferentes orígenes. Esto lleva a que tales modelos, incluyendo Parti, produzcan representaciones estereotípicas, por ejemplo, de personas descritas como abogados, azafatas, amas de casa, etc., y reflejen sesgos occidentales para eventos como bodas. Esto presenta problemas particulares para personas cuyos orígenes e intereses no están bien representados en los datos y el modelo, especialmente si tales modelos se aplican a usos como la comunicación visual, por ejemplo, para ayudar a grupos sociales con baja alfabetización.

Los modelos que producen salidas fotorrealistas, especialmente de personas, plantean riesgos y preocupaciones adicionales en torno a la creación de deepfakes. Esto crea riesgos con respecto a la posible propagación de desinformación visualmente orientada, y para individuos y entidades cuyos parecidos se incluyen o se hacen referencia. Sin embargo, los modelos de texto-a-imagen abren muchas nuevas posibilidades para que las personas creen imágenes únicas y estéticamente agradables, actuando esencialmente como un pincel para mejorar la creatividad y productividad humana. Pero, al evaluar el mérito de diseño o artístico, es importante tener una comprensión matizada del arte basado en algoritmos a lo largo de los años, el modelo en sí, las personas involucradas y el entorno artístico más amplio. El sesgo también importa aquí, ya que el rango de salidas de un modelo depende de los datos de entrenamiento, y esto puede tener sesgos hacia las imágenes occidentales y evitar que los modelos exhiban estilos artísticos radicalmente nuevos, como pueden hacer los artistas humanos.

Por estas razones, se ha decidido no liberar los modelos, el código o los datos de Parti para uso público sin medidas de seguridad adicionales. Mientras tanto, se proporciona una marca de agua de Parti en todas las imágenes que se liberan. Se centrará en seguir este trabajo con medidas y estrategias de mitigación de sesgo de modelo más cuidadosas, como el filtrado de indicaciones, el filtrado de salidas y la recalibración del modelo. Se cree que puede ser posible utilizar modelos de generación de texto-a-imagen para comprender los sesgos en grandes conjuntos de datos de imagen-texto a escala, al sondearlos explícitamente para un conjunto de tipos de sesgo conocidos, y potencialmente descubrir otras formas de sesgo oculto. También se planea coordinar con artistas para adaptar las capacidades de los modelos de generación de texto-a-imagen de alto rendimiento a su trabajo.

Mejores alternativas a Parti

Generador de Páginas para Colorear con IA

Generador de Páginas para Colorear con IA

El Generador de Páginas para Colorear con IA ofrece arte personalizable para todos

Omni

Omni

Omni-Zero es una herramienta de creación de retratos estilizados con IA

ThumbSnap

ThumbSnap

ThumbSnap es una plataforma de compartir fotos y videos que ofrece créditos gratis

dreamlike.art

dreamlike.art

dreamlike.art es un generador de arte AI que crea obras impresionantes rápidamente

neural.love

neural.love

neural.love es una plataforma de herramientas AI que ofrece diversas funciones

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator

BlackInk AI Tattoo Generator creates unique tattoos quickly

DiffusionBee

DiffusionBee

DiffusionBee es una caja de herramientas de IA que permite crear arte AI de forma rápida y sencilla.

ARTSIO

ARTSIO

ARTSIO es una plataforma que inspira a artistas y creadores

BlueWillow

BlueWillow

BlueWillow es un generador de imágenes AI que ayuda a crear gráficos

Scenario

Scenario

Scenario es una herramienta AI que optimiza flujos de trabajo y crea visuales rápidamente.

AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator crea diseños de tatuajes personalizados

Stability World AI

Stability World AI

Stability World AI es una plataforma genial con funciones chidas

JocondeAI

JocondeAI

JocondeAI es un generador de imágenes impulsado por IA que permite a los usuarios crear arte impresionante.

Caricaturer.io

Caricaturer.io

Caricaturer.io es una herramienta impulsada por IA que convierte tus fotos en caricaturas únicas y divertidas con solo unos clics.

AI Stickr

AI Stickr

AI Stickr es una herramienta impulsada por inteligencia artificial que permite crear stickers únicos y personalizados para diversos temas y estilos.

AI Sticker Generator

AI Sticker Generator

AI Sticker Generator es una herramienta impulsada por inteligencia artificial que permite a los usuarios crear pegatinas únicas y visualmente atractivas.

Face To Many

Face To Many

Face To Many es una herramienta impulsada por IA que transforma tu foto en arte espectacular con solo un texto.

FLUX.1

FLUX.1

FLUX.1 es un modelo de generación de imágenes con IA que ofrece calidad excepcional y diversidad de estilos en línea.

getimg.ai

getimg.ai

getimg.ai es un conjunto de herramientas de IA que permite generar y editar imágenes con texto, expandir fotos más allá de sus bordes y animar imágenes.

Deep Dream Generator

Deep Dream Generator

Deep Dream Generator es una herramienta impulsada por IA que permite a los usuarios crear arte, fotos y animaciones de manera gratuita.

AI Gallery

AI Gallery

AI Gallery es una plataforma impulsada por IA que permite a los usuarios crear arte impresionante con un generador de arte rápido y eficiente.

Herramientas IA destacadas

FindSD.art

FindSD.art

FindSD.art es una plataforma impulsada por IA que ayuda a los usuarios a descubrir modelos de Stable Diffusion de CivitAI por estilo artístico a partir de una sola imagen.

Ver detalles
The Pet Painting

The Pet Painting

The Pet Painting es una herramienta impulsada por IA que transforma fotos de mascotas en obras de arte únicas.

Ver detalles
ThinkDiffusion

ThinkDiffusion

ThinkDiffusion es una plataforma en la nube que ofrece un espacio de trabajo para Stable Diffusion, permitiendo a los usuarios crear arte con IA de manera sencilla.

Ver detalles
Vyro AI

Vyro AI

Vyro AI desarrolla herramientas de creación de contenido de próxima generación impulsadas por Inteligencia Artificial y Aprendizaje Automático para potenciar tu creatividad.

Ver detalles
DreamStudio

DreamStudio

DreamStudio es una herramienta para generar imágenes creativas

Ver detalles
Generador de Arte AI

Generador de Arte AI

El Generador de Arte AI convierte tus palabras en obras maestras, ¡desata tu creatividad sin límites!

Ver detalles
AI Tattoo Generator

AI Tattoo Generator

AI Tattoo Generator crea diseños de tatuajes personalizados

Ver detalles
NightCafe Creator

NightCafe Creator

NightCafe Creator es un generador de arte con IA que permite crear, compartir y explorar arte generado por inteligencia artificial en una comunidad vibrante.

Ver detalles