Обновление SWE-rebench от Nebius: новые задачи и аналитика моделей

После двухмесячного перерыва команда Nebius обновила свой бенчмарк SWE-rebench, расширив его на 110 новых задач. В отличие от многих других бенчмарков, SWE-rebench теперь включает запуски в Codex и Claude Code, предоставляя более комплексную оценку. Аналитика, представленная Ибрагимом, первым автором статьи, выявила несколько ключевых моментов. Модель GPT-5.5 medium демонстрирует заметно более высокую эффективность по сравнению с Opus 4.8 high при использовании настроек по умолчанию. Отмечена оптимизация Opus 4.6 до 4.8: модель решает больше задач, потребляя на 45% меньше токенов и снижая стоимость решения задачи примерно на 39%. При этом Opus 4.8 high почти не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов, сократив количество токенов на задачу с 1.5 млн до 1 млн и среднее количество шагов с 44 до 34. Метрика pass^5, которая засчитывает задачу только при успешном решении во всех пяти независимых запусках, показала, что GPT-5.5 решает 51 задачу против 39 у GPT-5.4, что указывает на меньшую зависимость от случайности. Для моделей Opus этот показатель остаётся практически неизменным во всех версиях. Отмечено значительное отставание опенсорсных моделей. Composer 2.5 от Cursor выглядит перспективно благодаря своей стоимости, будучи в четыре раза дешевле GPT-5.5 medium. Также подчеркивается, что Claude получает больший прирост качества при использовании родного скаффолда, тогда как GPT показывает схожие результаты, несмотря на двукратную разницу в цене. В целом, модели OpenAI с появлением версии 5.5, по мнению авторов, перешли в новую лигу, часто превосходя конкурентов из Anthropic в задачах программирования.

Обновление SWE-rebench от Nebius: новые задачи и аналитика моделей

Ключевые факты