Исследователи МГУ и «Яндекса» создали метод обучения нейросетей сложным правилам русского языка

Тесты показали, что точность исправления грамматических ошибок выросла на 5–10%.

Исследователи МГУ и «Яндекса» создали метод обучения нейросетей сложным правилам русского языка

Исследователи Института ИИ МГУ и «Яндекса» представили LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Ещё одна разработка — метод обучения нейросетей исправлению грамматических, пунктуационных и орфографических ошибок при генерации текстов. Об этом представители «Яндекса» рассказали в рамках Конгресса молодых ученых, который проходит 26–28 ноября в Научно-технологическом университете «Сириус».

Датасет Института ИИ МГУ и «Яндекса» включает почти 1000 предложений, иллюстрирующих 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

Новый метод уже протестировали на моделях YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных аналогах. Точность исправлений сложных ошибок выросла на 5–10% по стандарту оценки грамматической коррекции F0,5. Общая точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%. 

«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Так мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка. Затем мы разработали метод, который точно подбирает примеры с такими же ошибками из датасета и позволяет нейросетям корректно исправлять их. Этот проект — пример успешной коллаборации между наукой и технологическими компаниями»
— Алексей Сорокин, старший научный сотрудник Института ИИ МГУ, разработчик в отделе Поиска «Яндекса»

Авторы опубликовали статью о датасете и методе дообучения — она получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании в рамках международной конференции по компьютерной лингвистике ACL 2025.

Датасет с примерами ошибок и метод обучения нейросетей опубликованы на GitHub.