Команды Sber AI и SberDevices опубликовали промышленную версию линейки моделей искусственного интеллекта ruCLIP. Они способны определить, насколько текст соответствует изображению.
Пример работы моделей ruCLIP — на изображении ниже. Алгоритм оценил, что фраза «фото морды полосатого кота» соответствует фотографии кошки на 0,34 балла, а фотографии мотоцикла — на 0,01. Подобные модели используются в решении задач компьютерного зрения.
Ценность опубликованных «Сбером» алгоритмов — их не нужно дообучать. Специалистам компании потребовалось 12 дней и мощность 256 процессоров Tesla GPU A100, чтобы натренировать модели на собственном датасете из 240 млн пар.
В релиз вошли шесть моделей ruCLIP. Они отличаются размером использованного фрагмента картинки — патча (14×14, 16×16, 32×32), а также размерами входных изображений (224×224, 336×336 и 384×384).
Все ссылки доступны в Github-репозитории проекта.