Phenaki: Geração de Vídeos Realistas a Partir de Texto
Phenaki é um modelo inovador projetado para gerar vídeos realistas a partir de uma sequência de prompts de texto. Este modelo é capaz de criar vídeos de duração variável, desde alguns segundos até vários minutos, dependendo da sequência de prompts fornecida.
Como Funciona Phenaki
Phenaki utiliza um modelo causal para aprender representações de vídeo que comprimem o vídeo em um pequeno conjunto de tokens discretos. Este tokenizer emprega atenção causal no tempo, permitindo que o modelo funcione com vídeos de comprimento variável. Para gerar tokens de vídeo a partir de texto, Phenaki utiliza um transformador bidirecional mascarado condicionado em tokens de texto pré-computados. Os tokens de vídeo gerados são subsequentemente detokenizados para criar o vídeo real.
Benefícios e Inovações
Uma das principais inovações de Phenaki é sua capacidade de gerar vídeos arbitrariamente longos condicionados a uma sequência de prompts (ou seja, texto variável no tempo ou uma história) em domínio aberto. Até onde sabemos, este é o primeiro estudo a investigar a geração de vídeos a partir de prompts variáveis no tempo.
Além disso, o codificador-decodificador de vídeo proposto por Phenaki supera todos os baselines de quadro por quadro atualmente usados na literatura em termos de qualidade espaço-temporal e número de tokens por vídeo.
Aplicações e Exemplos
Phenaki tem uma ampla gama de aplicações, desde a criação de conteúdo criativo até a simulação de cenários para treinamento e educação. Alguns exemplos incluem a geração de vídeos de um urso de pelúcia nadando no oceano, um astronauta dançando em Marte, e até mesmo uma história de dois minutos gerada a partir de uma longa sequência de prompts.
Conclusão
Phenaki representa um avanço significativo na geração de vídeos a partir de texto, oferecendo uma solução inovadora para um problema complexo. Sua capacidade de lidar com vídeos de comprimento variável e sua alta qualidade de geração tornam-no uma ferramenta poderosa para uma variedade de aplicações.