Может ли ИИ заменить разработчиков? OpenAI проверили на реальных деньгах.
OpenAI представили SWE-Lancer — новый бенчмарк, который оценивает не только код, а его реальный экономический эффект.
Как проверяли:
— взяли 1488 реальных задач с Upwork разной стоимости и сложности;
— проверили, какие из них могут выполнить LLM;
— посчитали, сколько денег “заработают” модели.
Результаты:
— Claude 3.5 Sonnet — $403 000;
— o1 high compute — $380 000;
— GPT-4o — $304 000.
🤔 Пока ни одна модель не справляется с фриланс-задачами на уровне человека, но цифры впечатляют: LLM уже могут выполнять до 40% заказов.
Следующий шаг — OpenAI планируют использовать SWE-Lancer не только для оценки возможностей ИИ, но и для анализа безопасности автономных AI-агентов в программировании.
➡ Читайте полное исследование