Phenaki: Генерация видео из текста
Phenaki — это инновационная модель, способная генерировать реалистичные видео на основе последовательности текстовых подсказок. Этот инструмент открывает новые горизонты для создания видеоконтента, позволяя пользователям описывать сцены и события текстом, а затем преобразовывать эти описания в динамичные видеоролики.
Основные особенности
- Изменяемые подсказки: Phenaki позволяет изменять текстовые подсказки во времени, что делает возможным создание видео с развивающимся сюжетом.
- Длительные видео: Модель способна генерировать видео продолжительностью до нескольких минут, что открывает возможности для создания более сложных и детализированных сюжетов.
- Реалистичность: Благодаря использованию передовых алгоритмов, Phenaki создает видео высокого качества, которые выглядят как настоящие.
Примеры использования
Phenaki демонстрирует свои возможности на различных примерах, таких как:
- Астронавт на Марсе: Показывает, как астронавт проходит через лужу, танцует и гуляет с собакой, а затем наблюдает за фейерверком.
- Панды и плюшевые мишки: Генерирует видео о панд и плюшевых мишках, плавающих под водой и отдыхающих на пляже.
Технические детали
Phenaki использует новый каузальный модель для обучения представлений видео, который сжимает видео до небольшого представления дискретных токенов. Этот токенизатор использует каузальное внимание во времени, что позволяет ему работать с видео переменной длины. Для генерации видео токенов из текста используется двунаправленный маскированный трансформер, который условно настроен на предварительно вычисленные текстовые токены.
Заключение
Phenaki представляет собой прорыв в области генерации видео из текста, предлагая новые возможности для создания динамичного и реалистичного контента. Этот инструмент открывает двери для широкого спектра применений, от развлечений до образования и научных исследований.