DeepSWE: Новый бенчмарк для оценки LLM-агентов в разработке

Seeallochnaya 27.05.2026 — 10:15

Ключевые факты

1 DeepSWE — новый бенчмарк для оценки LLM-агентов в программной инженерии.
2 Бенчмарк требует добавления в среднем 668 строк кода, что значительно больше, чем у аналогов.
3 GPT-4o (упоминаемая как 'GPT-5.5') показывает около 70% успешных решений на DeepSWE.
4 Модели OpenAI демонстрируют лучшую комбинацию скорости, стоимости и качества по сравнению с конкурентами.
5 Частые ошибки LLM-агентов включают игнорирование требований, ошибки интеграции и регрессии.
6 Сильные модели, такие как GPT и Claude, часто генерируют тесты, даже без прямого запроса.

Бенчмарк DeepSWE разработан для оценки способностей больших языковых моделей (LLM) в задачах программной инженерии, фокусируясь на имплементации функциональности. Он отличается от предыдущих SWE-Bench-подобных бенчмарков тем, что промпты не содержат деталей имплементации, а верификация решений основана на тестах, проверяющих наблюдаемое поведение, а не конкретную реализацию. Задачи для DeepSWE основаны на публичных репозиториях, но используют незакрытые проблемы, для которых авторы бенчмарка создавали эталонные решения. DeepSWE требует от агентов добавления в среднем 668 строк кода, что значительно больше, чем 100-200 строк в предыдущих бенчмарках. Согласно результатам, модель GPT-4o (упоминаемая в посте как 'GPT-5.5') демонстрирует высокую производительность, достигая около 70% успешных решений. Сравнение моделей по скорости и стоимости показало, что решения OpenAI, как правило, опережают конкурентов, таких как Gemini 3.5 Flash и Claude 3 Opus (упоминаемая как 'Opus 4.6'), предлагая лучшую комбинацию скорости, эффективности и качества. Авторы DeepSWE также проанализировали типичные ошибки LLM-агентов, используя другого LLM-агента для разметки паттернов. Наиболее частые проблемы включают игнорирование части требований, ошибки интеграции и регрессии, когда новая функциональность нарушает работу старой. Отмечено, что GPT-4o лучше следует инструкциям. Среди других наблюдений: Claude испытывает трудности с запоминанием многосоставных промптов, а сильные модели, такие как GPT и Claude, часто пишут тесты, даже если их об этом не просят, в 80% задач.

Источник