Что известно о производительности MTS AI Chat
Наши исследователи протестировали созданную ими большую языковую модель на трех бенчмарках: MERA и двух собственных, и сравнили работу MTS AI Chat с другими российскими LLM. Спойлер: результаты впечаляющие. По результатом эксперимента коллеги написали большую и честную статью на Хабре.
С помощью MERA исследователи оценили, как MTS AI Chat справляется с решением математических задач и ответами на этические вопросы.
Также LLM проверили на MTS AI Instruct‑ru-2K — это бенчмарк, состоящий из двух тысяч инструкций, собранных и проверенных вручную.
Наконец, промпт-инженеры изучили, насколько хорошо наша модель LLM умеет анализировать диалог между двумя людьми, делать выводы и выделять важную информацию из текста.
Подробные результаты тестирования и сравнения с другими языковыми моделями вы можете найти в статье на Хабре https://vk.cc/cvwhuR