Роман Пискун 0

«Сбер» выпустил открытые токенизаторы для генеративных ИИ-моделей

Благодаря этому обучение моделей генерации изображений и видео с нуля будет быстрее и дешевле.

Команда Kandinsky выложила в открытый доступ KVAE-2.0 — семейство токенизаторов для диффузионных моделей генерации изображений и видео. Подробностями о запуске с Rozetked поделились в пресс-службе «Сбера».

Речь идёт о базовых компонентах для создания современных ИИ-моделей, которые умеют генерировать изображения и видеоролики. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество.

С новым решением можно без потери качества сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией. Как говорят в компании, для разработчиков и исследователей это означает, что обучение диффузионных моделей ускоряется на порядок, сами ИИ-решения работают качественнее, а требования к вычислительной инфраструктуре снижаются.

«С KVAE-2.0 качественная видеогенерация стала доступнее для всех: стартапов, университетов, независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле, не зависеть от зарубежных токенизаторов, достигая при этом лучших результатов по качеству. Это открывает новые сценарии — от генерации рекламных роликов с точными логотипами и текстом до учебных материалов с чёткими визуальными деталями. Все модели линейки — в открытом доступе. Это даёт инженерам и исследователям по всему миру возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий»
— Денис Димитров, руководитель проекта Kandinsky, управляющий директор по исследованию данных «Сбера»

По ключевым метрикам качества KVAE-2.0 опережает аналоги от Tencent и Alibaba. Решение распространяется под открытой лицензией MIT, его можно использовать в исследовательских задачах и коммерческих проектах.

Ключевым преимуществом KVAE-2.0 называют фокус на создании семантически устойчивых представлений — специальных кодов, отражающих смысл изображения. Они лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях — от генерации рекламных материалов до образовательного контента.

Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре, в этих сценариях их качество значительно выше аналогов.