Рубрикподписаться:
Что нового в AI? Делитесь интересными статьями и исследованиями в комментариях ⤵ ▪ Humanity’s Last Exam — новый бенчмарк для LLM Создан тест, который проверяет языковые модели на глубину понимания сложных тем и способность рассуждать. Он содержит 3000 сложных вопросов по математике, гуманитарным и естественным наукам. Пока лучшая точность — 9,4% (DeepSeek-R1), но ожидается, что к 2025 году модели превысят 50% → подробнее: https://vk.cc/cI0UKh ▪ Как улучшить обработку длинных текстов Учёные разработали Chain-of-Agents — фреймворк, который помогает языковым моделям лучше обрабатывать длинные тексты. Он разбивает их на части, распределяет между агентами, а затем собирает финальный ответ. Такой метод увеличивает точность на 10% → подробнее: https://vk.cc/cI0UND ▪ Может ли LLM планировать, как человек Исследователи представили AoT+ — метод, который помогает языковым моделям лучше справляться с многозадачностью и сложными цепочками рассуждений. Благодаря ему модели уже показывает SOTA-результаты в тестах на логическое мышление → подробнее: https://vk.cc/cI0UPS ▪ Agentic RAG — новый уровень поиска Вышел обзор Agentic RAG — системы, где ИИ-агенты адаптируют стратегию поиска, анализируя контекст и корректируя запросы в реальном времени. Такой подход повышает точность извлечения информации и делает работу моделей более автономной, особенно в сложных задачах с длинным контекстом → подробнее: https://vk.cc/cI0USb ▪ Новый инструмент для оценки ИИ-ассистентов Представлен IntellAgent — open-source фреймворк для тестирования разговорных систем ИИ. Он создаёт реалистичные сценарии, выявляет пробелы в их работе и помогает оптимизировать взаимодействие с пользователями → подробнее: https://vk.cc/cI0UUz #MTSAI_исследования #AI #исследование
1 фото
Что нового в AI? Делитесь интересными статьями и исследованиями в комментариях
Рубрики
Информационные технологии и Телеком