Денис Гурьянов 10 242 55

DeepSeek запустила модель VL2, которая распознаёт информацию на картинках

И в текстовом формате описывает, что «увидела» на изображении.

Китайские разработчики представили серию моделей DeepSeek-VL2, которые способны эффективно распознавать информацию на изображениях.

Всего было разработано несколько моделей — они «значительно превосходят» старую версию DeepSeek-VL:

DeepSeek-VL2-Tiny — 1 млрд параметров.
DeepSeek-VL2-Small — 2,8 млрд параметров.
DeepSeek-VL2 — 4,5 млрд параметров.

VL2 способна распознавать содержимое документов, таблиц, диаграмм и не только. Например, нейросеть может сгенерировать рецепт по картинке с продуктами или рассказать, что показано на схеме.

Новую нейросеть на момент написания новости ещё не добавили в чат-бот DeepSeek. Однако VL2-Small можно попробовать по ссылке.

Источник: huggingface