Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0
Количество параметров модели достигло 11,9 млрд — более чем вдвое больше, чем в Kaninsky 2.2.
Разработчики нейромодели для генерации изображений по текстовому описанию Kandinsky 3.0 рассказали об особенностях работы новой версии алгоритма в рамках прошедшей конференции AI Journey 2023.
Kandinsky 3.0 — это модель машинного обучения диффузионного типа. Количество параметров по сравнению с Kandinsky 2.2 увеличено в 2,5 раза, с 4,6 до 11,9 млрд.
В основном увеличение числа параметров вызвано апгрейдом текстового энкодера, который преобразует текстовые команды. Таким образом модели удалось значительно улучшить понимание запросов пользователя.
Ещё разработчики Kandinsky 3.0 задействовали декодер Sber-MoVQGAN в версии с самым большим количеством параметров — 270 млн. Эта модель показывала лучшие результаты в задаче восстановления изображений.
Процесс обучения включал пять стадий, в ходе которых через модель прошли 2,7 млрд пар «изображение — текст». Разработчики отметили, что набор данных обогатили изображениями, отражающими российскую культуру, а также результатами генерации других современных мультимодальных нейромоделей.
С материалом разработчиков Kandinsky 3.0 можно ознакомиться на платформе Hugging Face.
В рамках AI Journey также представлена Kandinsky Video — первая отечественная модель генерации видео по тексту. Она умеет создавать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.