«Сбер» представил новую версию нейромодели для генерации изображений — Kandinsky 3.0

Она лучше понимает запросы пользователей и выдаёт более фотореалистичные изображения.

«Сбер» представил новую версию нейромодели для генерации изображений — Kandinsky 3.0

«Сбер» на конференции AI Journey 2023 представил новую версию генеративной модели искусственного интеллекта Kandinsky 3.0.

Как и в предыдущих версиях, Kandinsky 3.0 умеет генерировать изображения и видеоролики по текстовому описанию. В «Сбере» утверждают, что обновлённая нейросеть:

  • лучше понимает текстовый запрос пользователя;
  • генерирует более фотореалистичные изображения;
  • лучше знает элементы отечественного культурного кода, а потому лучше справляется с генерацией известных российских и советских личностей, персонажей, объектов культуры и искусства;
  • лучше справляется с дорисовкой и редактированием изображений (форматы inpainting и outpainting).
Примеры работы Kandinsky 3.0
«Технологии искусственного интеллекта могут наделить человека супервозможностями. Kandinsky — один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть Сбера для творчества. [...] Пробуйте, творите, создавайте уникальные художественные произведения, которые могут стать подарком или украсят вашу коллекцию», — Александр Ведяхин, первый заместитель Председателя Правления «Сбербанка»

Для обучения Kandinsky 3.0 разработчики подразделения Sber AI использовали обновлённый датасет из 1,5 млрд пар «тест — изображение». В результате получаются изображения размером до 1024×1024 пикселей, при этом пользователь может выбрать нужное соотношение сторон.

Kandinsky 3.0 генерирует четырёхсекундные анимации с разрешением 640×640 точек и частотой 24 кадра в секунду. Синтез одной секунды видео занимает около 20 секунд. В «Сбере» реализовали разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, а также оживлять статику всеми возможными способами.

Опробовать обновлённую нейромодель можно на платформе fusionbrain.ai, в ботах в Telegram и в VK, на сайте ruDALL-E. Ещё модель работает в чат-боте GigaChat, доступна в мобильных приложениях «СберБанк Онлайн» и «Салют», а также на умных устройствах Sber по голосовой команде «Запусти художника».

Трансляция AI Journey 2023 есть на YouTube. Конференция проходит с 22 по 24 ноября.