Phenaki é um modelo inovador capaz de realizar síntese de vídeos realistas a partir de uma sequência de prompts textuais. A geração de vídeos a partir de texto apresenta desafios significativos, como o alto custo computacional, a quantidade limitada de dados de alta qualidade texto-vídeo e a variação no comprimento dos vídeos. Para lidar com esses problemas, Phenaki introduz um novo modelo causal para aprender a representação de vídeo, que comprime o vídeo em uma pequena representação de tokens discretos. Este tokenizador utiliza atenção causal no tempo, permitindo trabalhar com vídeos de comprimento variável. Para gerar tokens de vídeo a partir de texto, é utilizado um transformador mascarado bidirecional condicionado a tokens de texto pré-computados. Os tokens de vídeo gerados são subsequentemente des-tokenizados para criar o vídeo real. Além disso, para lidar com questões de dados, é demonstrado como o treinamento conjunto em um grande corpus de pares imagem-texto, bem como um número menor de exemplos vídeo-texto, pode resultar em generalização além do que está disponível nos conjuntos de dados de vídeo. Comparado aos métodos anteriores de geração de vídeos, Phenaki pode gerar vídeos arbitrariamente longos condicionados a uma sequência de prompts (ou seja, texto variável no tempo ou uma história) em domínio aberto. Até onde sabemos, esta é a primeira vez que um artigo estuda a geração de vídeos a partir de prompts variáveis no tempo. Além disso, o codificador-decodificador de vídeo proposto supera todas as bases lineares por quadro atualmente utilizadas na literatura em termos de qualidade espaço-temporal e número de tokens por vídeo.
Phenaki
Phenaki é um modelo capaz de criar vídeos realistas a partir de prompts textuais, superando desafios e inovando na área.

Melhores alternativas ao Phenaki

Mochi 1 AI
Mochi 1 AI é um gerador de vídeo que transforma textos em vídeos incríveis sem complicação.

Tavus
Tavus oferece APIs para criar vídeos com gêmeos digitais realistas.

DiverseShot AI
DiverseShot AI é uma ferramenta que transforma vídeos em 3D

Adori
Adori é uma ferramenta AI que converte blogs em vídeos

Amplifiles
Amplifiles é uma plataforma de vídeo curto com IA que transforma conteúdo

Short Videos App
Crie vídeos curtos com IA para mídias sociais e marketing. Engaje seu público com conteúdo de alta qualidade, produzido de forma rápida e eficiente.

ShortsFaceless
Crie vídeos curtos e sem rosto com IA. Automatize roteiros, imagens, vozes e legendas em minutos. Escalável e personalizável.

Pipio
Pipio: Crie vídeos profissionais com IA, rapidamente e facilmente. Ideal para marketing, educação e entretenimento.

VidAI
VidAI é uma ferramenta de geração de vídeos com IA que ajuda a criar conteúdo viral

GliaStudio
GliaStudio é uma plataforma de vídeo automatizada que ajuda a criar conteúdo envolvente

Powtoon
Powtoon é uma plataforma dinâmica para criar vídeos e apresentações incríveis.

Sendspark
Sendspark é um gerador de roteiros de vídeo com IA que ajuda nas vendas

Visla
O Visla é uma ferramenta de criação e edição de vídeos com IA pra negócios bombando!

BHuman
BHuman é um AI que cria clones digitais para facilitar a vida dos usuários

Immersive Fox
Immersive Fox é uma ferramenta de criação de vídeos AI que ajuda a gerar conteúdo rapidamente.

PlayPlay
PlayPlay é uma plataforma de criação de vídeos para empresas

GoEnhance AI
GoEnhance AI é uma plataforma de produção de vídeo com diversas ferramentas

HeyGen
HeyGen é um gerador de vídeos AI que facilita a criação e tradução

JoggAI
JoggAI é um gerador de anúncios de vídeo que ajuda a criar conteúdo cativante

Bytecap
Bytecap é uma ferramenta de criação de vídeos com recursos de IA

guidde
guidde é uma plataforma de IA que cria documentação de vídeo 11x mais rápido