Бенчмарк: Claude 3.5 и GPT-4o лидируют в тестах на кодирование

Maximaffiliate 20.01.2026 — 18:35

Ключевые факты

1 Claude 3.5 и GPT-4o являются лидерами в задачах кодирования.
2 Качество сгенерированного кода напрямую зависит от времени, которое модель тратит на обработку запроса.
3 Тестирование проводилось через API, что исключает влияние сторонних интерфейсов.

Независимый тест, проведенный на шести различных задачах по кодированию, выявил, что модели Claude 3.5 (вероятно, Opus или Sonnet) и GPT-4o демонстрируют наилучшие результаты. Тестирование проводилось через API, что позволило оценить чистую производительность моделей без влияния пользовательских интерфейсов. Ключевой вывод исследования заключается в том, что увеличение времени, затрачиваемого моделью на генерацию ответа (условно, 'время на размышление'), напрямую коррелирует с повышением качества и точности сгенерированного кода. Это подтверждает эффективность использования сложных методов промптинга, таких как Chain-of-Thought.

Источник