Lumiere — новая нейромодель Google, которая генерирует реалистичные видео
Результат не идеален, но куда ближе к реальности, чем другие ИИ того же направления.
Команда исследователей Google представила диффузионную модель для преобразования текста в видео под названием Lumiere. Судя по представленным примерам, Lumiere удаётся приблизиться к фотореалистичности результатов.
Модель базируется на «уникальной архитектуре» Space-Time U-Net с генерацией видео не покадрово, а в рамках одного процесса.
«Такой подход контрастирует с существующими моделями text-to-video, которые синтезируют отдельные ключевые фрагменты с последующим увеличением кадровой частоты — такой механизм по своей сути превращает согласованность кадров между собой в труднодостижимую задачу», — из описания Lumiere
Нейромодель обучена на 30 млн парах «видео + текстовое описание». В базовом варианте Lumiere способна сгенерировать 80 кадров с частотой 16 к/с (время — 5 секунд).
Помимо работы в режиме «текст → видео», Lumiere способна конвертировать неподвижные изображения в видео, создавать ролики в определённом стиле на основе изображения-эталона, менять стиль объектов в видеоряде и даже дорисовывать недостающие части кадров.
Много примеров — на презентационой веб-странице Lumiere.