Агентство ChipAI провело исследование AI Benchmarking Guide 2024 с целью выявить 10 лучших больших языковых моделей (LLM). Результаты исследования опубликовал ресурс Arabian Business.
В рамках исследования группа экспертов провела серию слепых тестов: аналитики оценивали результаты работы нейромодели, не зная, какая именно технология стоит за каждым ответом. Для определения итоговой оценки каждой LLM эксперты использовали комбинацию двух факторов: оценку работы модели на её «родном» языке (чаще всего английском) и на любом другом поддерживаемом языке.
В ходе исследования нейросети решали различные задачи: переводили текст, генеририровали идеи и программный код, анализировали данные. Среди критериев оценки — точность, релевантность, связность и способность работать с уточнениями от пользователя.
Метод тестирования, получившие название side-by-side, обеспечивает «всестороннее и справедливое» сравнение технологий, утверждает ChipAI.
Рейтинг AI Benchmarking Guide 2024 выглядит следующим образом:
GigaChat от «Сбера» получила наивысшие оценки за работу на русском языке. Нейросети отечественной разработки удалось обойти Gemini от Google и GPT-3.5 от OpenAI.
*Деятельность компании Meta Inc. и её продуктов Instagram и Facebook признана в России экстремистской и запрещена