Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Количество параметров модели достигло 11,9 млрд — более чем вдвое больше, чем в Kaninsky 2.2.

Разработчики нейромодели для генерации изображений по текстовому описанию Kandinsky 3.0 рассказали об особенностях работы новой версии алгоритма в рамках прошедшей конференции AI Journey 2023.

Kandinsky 3.0 — это модель машинного обучения диффузионного типа. Количество параметров по сравнению с Kandinsky 2.2 увеличено в 2,5 раза, с 4,6 до 11,9 млрд.

В основном увеличение числа параметров вызвано апгрейдом текстового энкодера, который преобразует текстовые команды. Таким образом модели удалось значительно улучшить понимание запросов пользователя.

Ещё разработчики Kandinsky 3.0 задействовали декодер Sber-MoVQGAN в версии с самым большим количеством параметров — 270 млн. Эта модель показывала лучшие результаты в задаче восстановления изображений.

Процесс обучения включал пять стадий, в ходе которых через модель прошли 2,7 млрд пар «изображение — текст». Разработчики отметили, что набор данных обогатили изображениями, отражающими российскую культуру, а также результатами генерации других современных мультимодальных нейромоделей.

С материалом разработчиков Kandinsky 3.0 можно ознакомиться на платформе Hugging Face.

В рамках AI Journey также представлена Kandinsky Video — первая отечественная модель генерации видео по тексту. Она умеет создавать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.