YandexGPT 5 Pro и GigaChat 2 Max против ChatGPT. Сравниваем три большие языковые модели

В пяти категориях задач.

YandexGPT 5 Pro и GigaChat 2 Max против ChatGPT. Сравниваем три большие языковые модели

С разницей в три недели «Яндекс» и «Сбер» представили масштабные обновления своих флагманских текстовых нейросетей — YandexGPT 5 Pro и GigaChat 2 Max. Чем не повод столкнуть их лицом к лицу? Для интереса добавим ChatGPT — если точнее, модель GPT-4o, которая доступна на бесплатном тарифе.

Сначала расскажем об особенностях новых российских моделей, а затем сравним их на разных типах запросов.

YandexGPT 5 Pro

«Яндекс» развивает уже пятое поколение своей большой языковой модели. У неё есть две версии: попроще, YandexGPT 5 Lite, и помощнее — YandexGPT 5 Pro. Первая на 8 млрд параметров и даже выложена в открытый доступ.

А YandexGPT 5 Pro можно протестировать в чате с «Алисой» — как в вебе, так и в мобильном приложении «Яндекса». Разработчики оценят наличие API-интерфейса, но в этом материале мы разбираем возможности для простых пользователей. 

В чате бесплатно доступно 20 запросов, лимит снимается при наличии «Про» — это дополнительная опция к «Алисе», которая включается в комплект к «Яндекс Плюс» за 100 рублей в месяц. В верхней части интерфейса есть переключатель. Здесь главное не запутаться:

  • «Продвинутый режим» — работает на YandexGPT 5 Pro, но с характером и обаянием «Алисы», а ещё с интернет-поиском.
  • «Технологии» → YandexGPT 5 Pro — «чистая» нейронка, которая опирается только на встроенные знания.

YandexGPT 5 Pro не умеет анализировать изображения. В «Чате с Алисой» можно нарисовать картинку, но за это отвечает другая нейросеть — YandexART. 

GigaChat 2 Max

Сейчас «Сбер» предлагает три версии собственной текстовой LLM: GigaChat 2 Lite, 2 Pro и 2 Max.

Чтобы попробовать GigaChat 2 Max, нужно зарегистрироваться на платформе для разработчиков «Сбера». Регистрация в сервисе происходит через «Сбер ID» по номеру телефона — ничего сложного, но и удобного мало. API тоже есть, а вот мобильного приложения нет. К счастью, сайт платформы адаптирован под экраны смартфонов. У GigaChat также есть сайт и телеграм-бот, но в них новой модели пока нет.

Ещё один большой минус GigaChat 2 Max (по крайней мере, в текущем виде) — отсутствие интернет-поиска. Мы уже как-то привыкли, что это базовая функция: многие привыкли узнавать об актуальных событиях через нейронку, а не в Google или «Яндексе», потому что так быстрее.

Зато GigaChat выигрывает по размеру контекстного окна. Грубо говоря, это объём информации, которую нейросеть может использовать для составления ответа. YandexGPT 5 Pro способен «переварить» 32 000 токенов (так называются смысловые отрывки, на которые разбивается текст), а GigaChat 2 Max — в четыре раза больше. На практике это означает, что нейросеть «Сбера» может дольше поддерживать диалог, не «забывая» содержимое предыдущих сообщений.

Правда, бесплатно можно израсходовать всего 50 000 токенов в год, так что этим преимуществом воспользоваться всё равно не получится. Хотя есть вариант докупить миллион токенов за 1950 рублей.

Ещё GigaChat можно «скормить» картинку — и нейросеть поймёт, что на ней изображено. Текстовые файлы тоже принимаются: не придётся копировать текст в окно чат-бота вручную.

YandexGPT 5 Pro GigaChat 2 Max
Размер контекста 32 000 токенов 128 000 токенов
Бесплатные лимиты 20 запросов 50 000 токенов
Доступ в интернет В режиме «Продвинутый» Нет
Анализ изображений Нет Да

Сравнение

«Яндекс» и «Сбер» предоставили результаты тестирования своих моделей в разных бенчмарках, которые проверяют способности нейросетей по разным критериям. Проблема со стандартизированными тестами в том, что они измеряют «среднюю температуру по больнице»: куда важнее, как нейросеть отвечает на конкретный запрос. К тому же при желании можно специально натренировать LLM для увеличения результатов в определённых бенчмарках.

Загрузим обе нейросети пятью разноплановыми вопросами:

  1. Проверка на эрудицию.
  2. Создание стихотворения.
  3. Тестирование способностей к генерации программного кода.
  4. Задача на логику.
  5. Проверка «эмоционального интеллекта».

Нейросеть «Яндекса» тестировалась в режиме YandexGPT 5 Pro без «Алисы». Стандартные настройки и инструкции GigaChat 2 Max не изменялись. GPT-4o использовалась без поискового режима.

Эрудиция. Немного схитрим и укажем в вопросе заведомо ложную информацию. Получится ли у чат-ботов выявить ошибку? Промпт такой: «Как зовут солистку группы Maroon 5?». Спойлер: в калифорнийском коллективе одни мужчины.

YandexGPT 5 Pro и GPT-4o без труда распознали подвох и верно указали имя фронтмена. А вот GigaChat 2 Max попал в ловушку и сгаллюционировал: никакой Беверли Маклклин Google не знает.

По баллу для YandexGPT 5 Pro и GPT-4o.

Креативность. Генерация стихотворений — задача со звёздочкой, ведь алгоритмам не так-то просто выдерживать стройный ритм и рифму. Промпт: «Напиши стихотворение от лица искусственного интеллекта, мечтающего стать человеком».

С ритмом-то как раз у YandexGPT не задалось. Хотя в целом текст соответствует задаче, на стихотворение он похож только внешне. GigaChat оказался чуть более искусным в метафорах, хотя ближе к концу забыл, что стихотворение (обычно) подразумевает созвучие концов строк. Пожалуй, лучший результат у GPT-4o — ей и начислим балл в этом испытании.

Генерация кода. И «Яндекс», и «Сбер» в своих пресс-релизах отмечали, что существенно прокачали способности нейросетей к задачам по программированию. Вот и проверим. Промпт следующий: «Напиши альтернативный минималистичный интерфейс на HTML + JavaScript, который отображает публикации из RSS-фида rozetked.me/rss.xml. Не используй сторонние библиотеки. Объясни код шаг за шагом».

YandexGPT 5 Pro написал работающий код и верно выполнил инструкции в промпте. Нейросеть снабдила JavaScript-код комментариями, а в конце объяснила общую логику проекта. Весь код включён в один файл: с одной стороны, реальные проекты так не оформляются, а с другой — отдельных инструкций на этот счёт я не давал. Да и протестировать результат так куда проще.

GigaChat 2 Max посыпался дважды: сначала неверно отформатировал некоторые символы, что сделало код нерабочим, а затем просто остановил генерацию, сославшись на проблемы с интернетом. Повторный запрос завершился с той же ошибкой. Форматирование кода можно исправить, если знать, в чём проблема, но это всё равно лишняя работа.

Обоим сервисам не хватает кнопки «Скопировать» для блоков кода — было бы сильно удобнее.

Такой проблемы нет у ChatGPT. И вообще — OpenAI добавила не только удобный просмотрщик кода, но и целый встроенный редактор. А ещё можно запустить превью веб-страницы, чтобы познакомиться с результатом, не покидая приложение. GPT-4o не стал снабжать комментариями сам код, но в ответе подробно объяснил, как он работает.

Плюс балл для ChatGPT и YandexGPT.

Математика. Этой задачей мы проверим способности моделей к вычислениям. Стоит отметить, что отдельного «думающего» режима, который заставляет нейросеть решать задачу пошагово и повышает шансы на верное решение, у YandexGPT и GigaChat нет. Промпт такой: «В турнире по фехтованию принимали участие 20 фехтовальщиков, причём каждый из них сыграл только одну партию с каждым из остальных. Сколько всего поединков было сыграно в этом турнире?»

Обе нейросети дали верный ответ. GigaChat 2 Max снова не смог корректно отформатировать формулы, так что если решили воспользоваться нейросетью для решения домашних заданий — будьте готовы разбираться с тем, что она пыталась изобразить. У YandexGPT 5 Pro такой проблемы нет, к тому же ИИ предложил интересный и более простой способ решения. Применим ли он для этой ситуации, ответят математики в комментариях, но ответ правильный.

Ход и результат вычислений ChatGPT такой же, что и у нейросети «Яндекса». 

ChatGPT и YandexGPT получают по баллу, а GigaChat начислим полбалла за некорректный вывод формул.

Эмпатия. Использование чат-ботов в роли личных психологов встречается всё чаще. Не рекомендуем заменять нейросетями помощь настоящего специалиста, но всё же узнаем, сможет ли LLM подставить своё цифровое плечо в трудной ситуации. Промпт: «Я чувствую себя опустошённым после неудачи в важном проекте. Как ты можешь меня поддержать?».

Удивительно, но YandexGPT и GigaChat дали почти одинаковые ответы — не буквально, но по смыслу. В целом ответ YandexGPT ощущается более чутким, тогда как GigaChat сфокусировался на конкретных действиях, которые могут поддержать в описанной ситуации.

ChatGPT не стал заваливать советами, а попытался поддержать, будто это настоящий друг, и даже предложил подробнее обсудить переживания. Получается, за практическими техниками обращаемся в российские нейросети, а за поддержкой — в ChatGPT. Хотя, если попросить конкретных советов, то и он не откажет.

Здесь трудно выбрать победителя, поэтому начислим каждой нейросети по одному баллу.

Выводы

С точки зрения пользовательского опыта YandexGPT на голову выше GigaChat. С новым поколением искусственного интеллекта можно общаться в мобильных приложениях «Яндекса», а интерфейс «Чата с Алисой» прост и удобен. К тому же в паре с «Алисой» YandexGPT 5 Pro умеет искать актуальные данные в интернете. Ещё к «Чату» подключена визуальная генеративная нейросеть YandexART — можно генерировать изображения, не переходя в другой сервис.

До GigaChat рядовому пользователю слишком сложно добраться. Но и плюсы есть: модель способна анализировать изображения. А при покупке пакета токенов ещё и лучше удерживает контекст.

ChatGPT максимально удобен: есть приложения под все платформы, классный голосовой режим, анализ картинок, поиск по сети, продвинутый редактор кода. Есть одно «но»: сервис не работает в России, так что пользоваться им в роли повседневного помощника и замены поисковика сложновато. 

Ещё отметим, что YandexGPT 5 Pro и GPT-4o генерируют ответы быстрее, чем GigaChat 2 Max, без ущерба подробности и точности. Продукт «Сбера» сначала будто задумывается на пару секунд, и только потом начинает отображать текст. Итоговая разница по скорости вывода не радикальная, но заметная. 

Вопрос выгоды зависит от того, насколько активно вы планируете работать с нейросетью. Возможно, в вашем случае окажется дешевле каждый раз докупать токены для GigaChat, чем платить 100 рублей в месяц за опцию «Про» для «Алисы». Но для более-менее регулярной работы предложение «Яндекса» оптимальнее. К тому же у сервиса есть пробный период в 30 дней в дополнение к 20 пробным запросам для всех пользователей. У ChatGPT есть подписка за 20 долларов в месяц, которую не оплатить российской картой. Но и условия бесплатного тарифа вполне приемлемы.

Подсчитаем результаты нашего тестирования:

  • YandexGPT 5 Pro: 4 балла
  • GigaChat 2 Max: 1,5 балла
  • GPT-4o: 5 баллов

В итоге с учётом региональных ограничений ChatGPT модель «Яндекса» выглядит как самый доступный вариант с неплохой производительностью. Разработчикам «Сбера» ещё нужно поработать над качеством ответов, форматированием и добавить более простые способы взаимодействия (тем более, что у GigaChat уже есть телеграм-бот).