Как запустить нейросеть DeepSeek-R1 локально на своём компьютере

Даже если у вас простой советский MacBook Air.

Как запустить нейросеть DeepSeek-R1 локально на своём компьютере

У нашумевшей нейросети DeepSeek масса преимуществ: доступность, отсутствие региональных ограничений, высокая эффективность. А ещё код модели доступен публично. Это открывает новые возможности для разработчиков, которые смогут строить собственные технологии на базе DeepSeek.

А для обычных пользователей открытый код означает, что модель можно запустить локально на своём компьютере. Но как? Ведь у «рассуждающей» DeepSeek-R1 аж 671 млрд параметров, и для функционирования такой гигантской нейросети необходимы мощности серверного уровня, скажете вы.

Короткий ответ: дистилляция. Чуть менее короткий ответ: разработчики взяли основную модель DeepSeek-R1 и обучили на её основе несколько более компактных версий. Оптимизированные модели требуют меньше ресурсов, но при этом сохраняют большую часть способностей оригинала.

Так, помимо DeepSeek-R1 на 671 млрд параметров, есть модели на 7, 8, 14, 32 и 70 млрд. Например, мне удалось успешно запустить R1 на 7 млрд параметров на самом обычном MacBook Air с чипом M1 и 8 ГБ объединённой памяти.

На любой вкус и цвет
На любой вкус и цвет

У локальных моделей есть несколько преимуществ. Когда нейросеть работает прямо на персональном компьютере, ей не требуется доступ в интернет. А ещё ваши данные не утекут на китайские серверы — так что можно со спокойной душой делиться с чат-ботом и историей болезни, и корпоративными секретами. 

Но не всё так радужно. Четырёхлетний MacBook Air выдаёт не больше трёх токенов (порядка двух слов) в секунду, хотя по ощущениям скорость генерации намного ниже: в ожидании ответа можно смело отправляться на кухню за чаем. Да и пользоваться компьютером в процессе работы модели практически невозможно. Но если вам посчастливилось владеть более мощным «железом», возможно, стоит хотя бы попробовать — тем более, ничего сложного здесь нет.

К тому же модель на 7 млрд параметров довольно… глупая. Она то и дело скачет с русского языка на китайский вперемешку с английским, а объём знаний явно скромнее, чем у полновесной DeepSeek-R1. 

Как запустить DeepSeek локально при помощи LM Studio

Удобнее всего запускать локальные модели через утилиту LM Studio — с графическим интерфейсом, каталогом опенсорс-нейросетей и массой настроек. Пошагово:

  1. Загрузите LM Studio на компьютер под управлением Windows, macOS или Linux.
  2. Установите программу как обычно и запустите.
  3. На приветственном экране нажмите Skip onboarding вверху справа.
  4. Нажмите на значок поиска в боковой панели слева.
  5. В поисковом поле введите DeepSeek и выберите модель нужного размера.
  6. Внизу справа нажмите Download и дождитесь завершения загрузки файлов. Дистиллированный до 7 млрд параметров DeepSeek-R1 умещается в 4,7 ГБ.
  7. В разделе Chat можно вводить запросы и ожидать ответа. LM Studio выделит процесс «рассуждений» в отдельный блок, а под финальным ответом появится статистика по скорости генерации.

Приложение частично переведено на русский язык: нажмите на иконку шестерёнки внизу справа и в разделе Language выберите «Русский (Beta)». На момент подготовки материала были переведены далеко не все компоненты интерфейса. Фишка LM Studio — статистика занятой ОЗУ и ресурсов ЦПУ, а ещё скорости генерации и процента потраченного контекстного окна. К тому же можно вести отдельные чаты на разные темы, как в ChatGPT и в серверной версии DeepSeek.

В стандартном режиме LM Studio забирает почти всю оперативную память (по крайней мере все 8 ГБ, что у меня есть). Чтобы продолжать пользоваться компьютером в процессе генерации, стоит нажать на значок шестерёнки в верхней панели и отключить параметр Keep Model in Memory. Скорость генерации заметно снизится, но и потребление вычислительных ресурсов упадёт радикально.

Возможно, -5°C в Красноярске — это прогноз DeepSeek на будущее с учётом глобального потепления?
Возможно, -5°C в Красноярске — это прогноз DeepSeek на будущее с учётом глобального потепления?

Например, на моём сетапе с отключенным параметром R1 генерировал 0,28–0,33 токена в секунду. Ответ на вопрос «Какая средняя погода в Красноярске в январе» занял у нейросети больше 40 минут (не опечатка!). На тот же вопрос веб-версия DeepSeek ответила чуть более чем за минуту. Про качество работы я не говорю: локальная модель постановила, что в самом холодном месяце в году в сибирском городе средняя температура воздуха колеблется от -5° до 0° по Цельсию. Серверная версия выдала правдоподобный диапазон (от -12°C до -20°C).

Как запустить DeepSeek локально при помощи Ollama

Ollama доступна для Windows, macOS и Linux. Приложение работает в консольном режиме — с минимум настроек, но и отвлекающих факторов. Расскажу, как настроить:

  1. Скачайте Ollama на свой компьютер с официального сайта и установите как обычное приложение.
  2. Откройте приложение «Терминал» или аналогичный консольный интерфейс.
  3. Запустите Ollama и пройдите первичную настройку.
  4. Введите ollama run deepseek-r1:7b, чтобы запустить модель на 7 млрд параметров. Для более масштабных моделей меняйте число в конце команды. И не забудьте нажать Enter, чтобы подтвердить ввод.
  5. Дождитесь, пока программа скачает модель с сервера. По завершении в терминале появится поле ввода запроса. Ответ появится здесь же, процесс «рассуждений» заключается в тег <think>.
  6. Чтобы выйти из Ollama, введите /bye. Меню справки c полным списком доступных команд открывается по команде /?.

Впечатления

На MacBook Air с M1 работать даже с DeepSeek-R1 на 7 млрд параметров решительно невозможно: приходится тратить слишком много времени на ожидание ответа, да ещё и перегружать компьютер. Результат, то есть ответ чат-бота на заданный вопрос, никак вышеописанные жертвы не оправдывает. Модель на 1,5 млрд параметров работает даже быстрее, чем веб-версия, вот только качество ответов ещё ниже.

Поэтому стоит попробовать запустить более мощную модель (хотя бы на 14 млрд токенов) на хоть сколько-нибудь производительном компьютере. Ждём ваших отчётов в комментариях!