Вау! Наши коллеги выпустили обновление MTS AI Chat, и LLM сразу же заняла первое место среди больших языковых моделей в лидерборде бенчмарка MERA

Вау! Наши коллеги выпустили обновление MTS AI Chat, и LLM сразу же заняла первое место среди больших языковых моделей в лидерборде бенчмарка MERA https://vk.cc/cuP2uT 💻 Показатель BPS, или Balanced Parentheses Sequence, улучшился с 0.23 до 0.276. Модель лучше понимает алгоритмические концепции, такие как стеки и рекурсия. 🧠 По задачам CheGeKa — это вопросы из «Что? Где? Когда?» — обновленная LLM продемонстрировала результат 0.05 против 0.046 у предыдущей версии. Это значит, MTS AI Chat обладает более полными знаниями о мире и усилила свои логические способности. 🔍 PARus возрос с 0.171 до 0.278, что показывает значительное развитие навыков причинно-следственного рассуждения и здравого смысла. 🏆 В целом MTS AI Chat достигла общего результата 0.536, уступив только эталонному человеческому бенчмарку 0.872, но существенно опередила другие русскоязычные большие языковые модели. Отличная работа, коллеги!

mera.a-ai.ru: Общая оценка модели на лидерборде считается по сумме классов задач. Диагностические результаты выдаются отдельно. Подробная информация о сабмитах доступна на страницах сабмитов (по клику на название модели).

Лидерборд

Рубрики: Информационные технологии и Телеком