Антон Курилов 0

«Сбер» опубликовал нейромодели ruCLIP. Они соотносят изображения и их описания

Ранее команды Sber AI и SberDevices опубликовали набор ruCLIP Small, теперь всем желающим доступны промышленные версии.

Команды Sber AI и SberDevices опубликовали промышленную версию линейки моделей искусственного интеллекта ruCLIP. Они способны определить, насколько текст соответствует изображению.

Пример работы моделей ruCLIP — на изображении ниже. Алгоритм оценил, что фраза «фото морды полосатого кота» соответствует фотографии кошки на 0,34 балла, а фотографии мотоцикла — на 0,01. Подобные модели используются в решении задач компьютерного зрения.

Ценность опубликованных «Сбером» алгоритмов — их не нужно дообучать. Специалистам компании потребовалось 12 дней и мощность 256 процессоров Tesla GPU A100, чтобы натренировать модели на собственном датасете из 240 млн пар.

В релиз вошли шесть моделей ruCLIP. Они отличаются размером использованного фрагмента картинки — патча (14×14, 16×16, 32×32), а также размерами входных изображений (224×224, 336×336 и 384×384).

Все ссылки доступны в Github-репозитории проекта.

Источник: «Сбер»