«Сбер» выпустил Kandinsky — улучшенную нейросеть для генерации изображений по русскоязычному описанию

В отличие от ruDALL-E, Kandinsky умеет генерировать изображения с произвольным соотношением сторон.

«Сбер» выпустил Kandinsky — улучшенную нейросеть для генерации изображений по русскоязычному описанию

«Сбер» презентовал нейросетевую модель Kandinsky, которая умеет генерировать изображения по текстовому описанию на русском языке. Она основана на похожей нейросети ruDALL-E.

Kandinsky получилась после дообучения ruDALL-E на 179 млн изображений, снабжённых текстовыми описаниями. Создание картинки происходит в три этапа. Сначала Kandinsky генерирует заданное число изображений, затем модель ruCLIP Large выбирает самые удачные, а после ещё одна модель — Real-ESRGAN — увеличивает разрешение результата.

Примеры работы Kandinsky

Новая нейросети отличается от ruDALL-E высокой степенью детализации изображений. В «Сбере» обещают качественную передачу текстур, теней и отражений. Также Kandinsky может выдавать картинки с любым соотношением сторон.

Kandinsky доступна в мобильном приложении «Салют» и на устройствах SberDevices по голосовой команде «Включи художника».