Антон Курилов 3 074 0

Lumiere — новая нейромодель Google, которая генерирует реалистичные видео

Результат не идеален, но куда ближе к реальности, чем другие ИИ того же направления.

Команда исследователей Google представила диффузионную модель для преобразования текста в видео под названием Lumiere. Судя по представленным примерам, Lumiere удаётся приблизиться к фотореалистичности результатов.

Модель базируется на «уникальной архитектуре» Space-Time U-Net с генерацией видео не покадрово, а в рамках одного процесса.

«Такой подход контрастирует с существующими моделями text-to-video, которые синтезируют отдельные ключевые фрагменты с последующим увеличением кадровой частоты — такой механизм по своей сути превращает согласованность кадров между собой в труднодостижимую задачу», — из описания Lumiere

Нейромодель обучена на 30 млн парах «видео + текстовое описание». В базовом варианте Lumiere способна сгенерировать 80 кадров с частотой 16 к/с (время — 5 секунд).

Помимо работы в режиме «текст → видео», Lumiere способна конвертировать неподвижные изображения в видео, создавать ролики в определённом стиле на основе изображения-эталона, менять стиль объектов в видеоряде и даже дорисовывать недостающие части кадров.

Много примеров — на презентационой веб-странице Lumiere.