DeepSeek запустила модель VL2, которая распознаёт информацию на картинках

И в текстовом формате описывает, что «увидела» на изображении.

DeepSeek запустила модель VL2, которая распознаёт информацию на картинках

Китайские разработчики представили серию моделей DeepSeek-VL2, которые способны эффективно распознавать информацию на изображениях. 

Всего было разработано несколько моделей — они «значительно превосходят» старую версию DeepSeek-VL: 

  • DeepSeek-VL2-Tiny — 1 млрд параметров.
  • DeepSeek-VL2-Small — 2,8 млрд параметров.
  • DeepSeek-VL2 — 4,5 млрд параметров.

VL2 способна распознавать содержимое документов, таблиц, диаграмм и не только. Например, нейросеть может сгенерировать рецепт по картинке с продуктами или рассказать, что показано на схеме. 

Новую нейросеть на момент написания новости ещё не добавили в чат-бот DeepSeek. Однако VL2-Small можно попробовать по ссылке