Phenaki es un modelo innovador capaz de realizar síntesis de videos realistas a partir de una secuencia de indicaciones textuales. La generación de videos a partir de texto presenta desafíos significativos, como el alto costo computacional, la limitada cantidad de datos de alta calidad de texto y video, y la longitud variable de los videos. Para abordar estos problemas, Phenaki introduce un nuevo modelo causal para el aprendizaje de la representación de video, que comprime el video en una pequeña representación de tokens discretos. Este tokenizador utiliza atención causal en el tiempo, lo que le permite trabajar con videos de longitud variable. Para generar tokens de video a partir de texto, se utiliza un transformador enmascarado bidireccional condicionado a tokens de texto previamente calculados. Los tokens de video generados se des-tokenizan posteriormente para crear el video real. Además, Phenaki demuestra cómo el entrenamiento conjunto en un gran corpus de pares de imagen-texto, así como en un número menor de ejemplos de video-texto, puede resultar en una generalización más allá de lo disponible en los conjuntos de datos de video. En comparación con los métodos anteriores de generación de video, Phenaki puede generar videos arbitrariamente largos condicionados a una secuencia de indicaciones (es decir, texto variable en el tiempo o una historia) en un dominio abierto. Según nuestro conocimiento, esta es la primera vez que un artículo estudia la generación de videos a partir de indicaciones variables en el tiempo. Además, el codificador-decodificador de video propuesto supera a todos los baselines por cuadro actualmente utilizados en la literatura en términos de calidad espacio-temporal y número de tokens por video.
Phenaki
Phenaki es un modelo capaz de crear videos realistas a partir de texto con indicaciones variables en el tiempo.

Mejores alternativas a Phenaki

DiverseShot AI
DiverseShot AI convierte videos en experiencias 3D inmersivas

ShortsFaceless
ShortsFaceless: Crea videos cortos sin rostro con IA, automatizando guiones, imágenes, voces y subtítulos para una producción de video eficiente y escalable.

Pipio
Pipio: Crea videos profesionales con IA. Rápido, sencillo y accesible para todos.

VidAI
VidAI es una herramienta de generación de videos cortos con IA que ayuda a crear contenido viral

GliaStudio
GliaStudio es una plataforma de vídeo automatizada que ayuda a crear contenido

Powtoon
Powtoon es una plataforma dinámica para crear videos y presentaciones asombrosas

Sendspark
Sendspark es un generador de guiones de video con IA que ayuda en ventas

Visla
Visla es una herramienta de creación y edición de vídeos con IA que mola para negocios

BHuman
BHuman es una herramienta de IA que crea clones digitales para facilitar la vida

Immersive Fox
Immersive Fox es una herramienta de AI que crea videos multilingües y personalizados

PlayPlay
PlayPlay es una plataforma de creación de videos que facilita la transformación de mensajes en historias visuales

GoEnhance AI
GoEnhance AI es una plataforma de producción de video con múltiples funciones

HeyGen
HeyGen es un generador de videos AI que facilita la creación y traducción

JoggAI
JoggAI es una herramienta de creación de videos con IA que impulsa el éxito

Bytecap
Bytecap es una solución integral para crear videos sin rostro con funciones avanzadas

guidde
guidde es una plataforma de IA que crea documentación de video rápidamente

AI STUDIOS
AI STUDIOS es un generador de video con diversas funciones avanzadas

SimilarVideo
SimilarVideo es un generador de videos AI que facilita la creación de contenido

Dacast
Dacast es una plataforma de streaming que ofrece diversas funciones

Vidu Studio
Vidu Studio es un generador de videos AI que ofrece innovación

8Arc
8Arc es un generador de películas impulsado por IA que transforma textos en películas completas, ideal para creadores de contenido.