AI & LLM
57
Вес: Значительный

Исследование Cursor: Автономный AI-агент работал 3 недели для создания сложного ПО

Seeallochnaya 14.01.2026 — 23:09

Ключевые факты

  • 1 AI-агент работал непрерывно 3 недели.
  • 2 Цель — создание технически сложного программного обеспечения.
  • 3 Требовалась кастомная обвязка и специализированные промпты.
  • 4 Лучшей моделью для долгосрочной автономной работы оказался Claude 3 Opus.

Cursor, разработчик AI-инструментов для кодирования, опубликовал результаты своего исследования, посвященного возможностям долгосрочных автономных агентов-программистов. Агент работал в течение 21 дня, решая задачи высокой технической сложности. Для успешной работы потребовалось создание специализированной среды (кастомной обвязки) и точных промптов, направляющих процесс. Самым неожиданным результатом стало то, что модель, показавшая наилучшую производительность и стабильность в этом марафоне, оказалась не GPT-4o или GPT-4 Turbo, а Claude 3 Opus. Этот результат подчеркивает, что для сложных, многоэтапных задач важна не только мгновенная производительность, но и способность модели поддерживать контекст и логику на протяжении длительного времени.

Источник