«Сбер» выпустил Kandinsky — улучшенную нейросеть для генерации изображений по русскоязычному описанию
В отличие от ruDALL-E, Kandinsky умеет генерировать изображения с произвольным соотношением сторон.

«Сбер» презентовал нейросетевую модель Kandinsky, которая умеет генерировать изображения по текстовому описанию на русском языке. Она основана на похожей нейросети ruDALL-E.
Kandinsky получилась после дообучения ruDALL-E на 179 млн изображений, снабжённых текстовыми описаниями. Создание картинки происходит в три этапа. Сначала Kandinsky генерирует заданное число изображений, затем модель ruCLIP Large выбирает самые удачные, а после ещё одна модель — Real-ESRGAN — увеличивает разрешение результата.


Новая нейросети отличается от ruDALL-E высокой степенью детализации изображений. В «Сбере» обещают качественную передачу текстур, теней и отражений. Также Kandinsky может выдавать картинки с любым соотношением сторон.
Kandinsky доступна в мобильном приложении «Салют» и на устройствах SberDevices по голосовой команде «Включи художника».