Вау! Наши коллеги выпустили обновление MTS AI Chat, и LLM сразу же заняла первое место среди больших языковых моделей в лидерборде бенчмарка MERA https://vk.cc/cuP2uT
💻 Показатель BPS, или Balanced Parentheses Sequence, улучшился с 0.23 до 0.276. Модель лучше понимает алгоритмические концепции, такие как стеки и рекурсия.
🧠 По задачам CheGeKa — это вопросы из «Что? Где? Когда?» — обновленная LLM продемонстрировала результат 0.05 против 0.046 у предыдущей версии. Это значит, MTS AI Chat обладает более полными знаниями о мире и усилила свои логические способности.
🔍 PARus возрос с 0.171 до 0.278, что показывает значительное развитие навыков причинно-следственного рассуждения и здравого смысла.
🏆 В целом MTS AI Chat достигла общего результата 0.536, уступив только эталонному человеческому бенчмарку 0.872, но существенно опередила другие русскоязычные большие языковые модели.
Отличная работа, коллеги!