Netflix опубликовал нейросеть VOID (Video Object and Interaction Deletion). В отличие от существующих аналогичных видео ИИ-редакторов, модель способна удалять не только сами объекты, их тени или отражения, но и физические последствия их присутствия в кадре.
Например, при удалении одной из машин за секунду до аварии, вторая продолжит движение прямо. Если убрать из кадра человека, держащего предмет, предмет не останется висеть в воздухе, а при удалении центрального блока из падающего домино цепная реакция остановится.
Работа пайплайна строится на объединении двух моделей. Сначала визуально-языковая модель анализирует сцену и создаёт маску для областей, которые должны изменить траекторию. Затем видео-диффузионная модель перерисовывает кадры с учётом физики. Для защиты от потери геометрии («морфинга») предусмотрен опциональный второй проход с использованием векторов движения для фиксации формы предметов.
Нейросеть обучалась на специально сгенерированных синтетических датасетах Kubric и HUMOTO. Исходный код и веса модели размером 22,3 ГБ выложены на GitHub и Hugging Face, там же доступно рабочее демо.