Что нового в AI? Делитесь интересными статьями и исследованиями в комментариях ⤵
▪ Humanity’s Last Exam — новый бенчмарк для LLM
Создан тест, который проверяет языковые модели на глубину понимания сложных тем и способность рассуждать. Он содержит 3000 сложных вопросов по математике, гуманитарным и естественным наукам. Пока лучшая точность — 9,4% (DeepSeek-R1), но ожидается, что к 2025 году модели превысят 50% → подробнее: https://vk.cc/cI0UKh
▪ Как улучшить обработку длинных текстов
Учёные разработали Chain-of-Agents — фреймворк, который помогает языковым моделям лучше обрабатывать длинные тексты. Он разбивает их на части, распределяет между агентами, а затем собирает финальный ответ. Такой метод увеличивает точность на 10% → подробнее: https://vk.cc/cI0UND
▪ Может ли LLM планировать, как человек
Исследователи представили AoT+ — метод, который помогает языковым моделям лучше справляться с многозадачностью и сложными цепочками рассуждений. Благодаря ему модели уже показывает SOTA-результаты в тестах на логическое мышление → подробнее: https://vk.cc/cI0UPS
▪ Agentic RAG — новый уровень поиска
Вышел обзор Agentic RAG — системы, где ИИ-агенты адаптируют стратегию поиска, анализируя контекст и корректируя запросы в реальном времени. Такой подход повышает точность извлечения информации и делает работу моделей более автономной, особенно в сложных задачах с длинным контекстом → подробнее: https://vk.cc/cI0USb
▪ Новый инструмент для оценки ИИ-ассистентов
Представлен IntellAgent — open-source фреймворк для тестирования разговорных систем ИИ. Он создаёт реалистичные сценарии, выявляет пробелы в их работе и помогает оптимизировать взаимодействие с пользователями → подробнее: https://vk.cc/cI0UUz
#MTSAI_исследования #AI #исследование