Cursor представил гибридную систему оценки качества моделей для генерации кода
Ключевые факты
- 1 Cursor использует гибридный онлайн-офлайн процесс для оценки качества моделей генерации кода.
- 2 Офлайн-бенчмарк основан на внутренних тестах, имитирующих реальные сессии инженеров.
- 3 Онлайн-оценка проводится на реальном трафике для выявления регрессий и измерения практической пользы.
- 4 Онлайн и офлайн бенчмарки высоко коррелированы в ранжировании моделей.
- 5 Модель Composer 1.5 от Cursor превосходит Sonnet и использует чипы Cerebras для ускорения инференса.
Cursor в своем блоге описала методологию оценки качества моделей для генерации кода, которая включает гибридный онлайн-офлайн процесс. Офлайн-часть основана на внутреннем наборе тестов, имитирующих реальные сессии инженеров, где решения требуют изменения около 352 строк кода в восьми файлах. Этот бенчмарк отличается более короткими входными описаниями по сравнению с публичными аналогами, при этом детали для автоматической проверки прописаны в рубрике. Онлайн-часть оценки предполагает контролируемый анализ на реальном трафике, что позволяет выявлять регрессии и измерять практическую пользу улучшений для разработчиков. Cursor отслеживает высокоуровневые прокси-метрики, основанные на действиях пользователей. Оба подхода, онлайн и офлайн, демонстрируют высокую корреляцию в ранжировании моделей. Согласно данным Cursor, их собственная модель Composer 1.5 превосходит Sonnet, при этом Composer работает значительно быстрее благодаря инференсу на чипах Cerebras.