«Сбер» запустил Kandinsky 2.1 — это новая версия фирменной нейронной сети для генерации изображений по текстовому описанию.
Сервис умеет не только генерировать новые картинки в различных стилях, но и смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна. Модель распознаёт запросы на 101 языке, включая русский и английский.
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
«Новая модель унаследовала веса предыдущей версии, обученной на одном миллиарде пар текст + изображение, и была дополнительно обучена на 170 млн пар текст + изображение высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух миллионов пар качественных изображений. В данный сет попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей», — из пресс-релиза.
Kandinsky 2.1 была улучшена за счёт новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это улучшило качество генерируемых картинок в высоком разрешении. Новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Нейронная сеть доступна на сайте «Сбера», на умных устройствах Sber (при помощи команды «Запусти художника»), в мобильном приложении «Салют» и на платформе ML Space. Также воспользоваться Kandinsky 2.1 можно на Fusion Brain и в Telegram-боте.