Рубрик
Большие языковые модели хорошо пишут тексты, но ошибаются в сложной грамматике и пунктуации. Исследователи Яндекса и Института ИИ МГУ создали открытый датасет LORuGEC с трудными правилами русского языка и метод обучения Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). 1⃣ Датасет LORuGEC. Вместе со студентами-лингвистами мы собрали тысячу примеров, в которых каждой ошибке соответствует правило русского языка. Всего они охватывают 48 правил, включая сложные, например пунктуации в сложноподчинённых предложениях. Какую проблему решает? Существующие наборы данных для проверки русского языка почти не содержат сложных правил. Например, где нужна запятая перед «и» или как правильно писать «оттого» и «от того». Поэтому модели путаются и прибегают к гиперисправлениям — вместо мелкой правки иногда переписывают всю фразу. 2⃣ Метод обучения. Дообученная модель-поисковик GECTOR находит в датасете предложения с тем же типом ошибок и подсказывает их генеративной модели. Например, если пропущена запятая перед «что», модель получает пример именно с такой ошибкой, а не случайную пунктуационную ошибку. Какую проблему решает? Учит модели точно исправлять ошибки без сложного переобучения на новых данных из датасета. С методом точность исправлений сложных ошибок выросла на 5–10% по международному стандарту оценки грамматической коррекции. ↘ Статья о датасете и методе дообучения получила приз на конференции ACL 2025: × aclanthology.org/2025.bea-1.38/ LORuGEC и GECTOR выложены в открытый доступ для исследователей и разработчиков: × github.com/ReginaNasyrova/LORuGEC × github.com/AlexeySorokin/LORuGEC
1 фото
Большие языковые модели хорошо пишут тексты, но ошибаются в сложной грамматике и пунктуации
Рубрики
Информационные технологии и Телеком