Исследование Cursor: Автономный AI-агент работал 3 недели для создания сложного ПО
Ключевые факты
- 1 AI-агент работал непрерывно 3 недели.
- 2 Цель — создание технически сложного программного обеспечения.
- 3 Требовалась кастомная обвязка и специализированные промпты.
- 4 Лучшей моделью для долгосрочной автономной работы оказался Claude 3 Opus.
Cursor, разработчик AI-инструментов для кодирования, опубликовал результаты своего исследования, посвященного возможностям долгосрочных автономных агентов-программистов. Агент работал в течение 21 дня, решая задачи высокой технической сложности. Для успешной работы потребовалось создание специализированной среды (кастомной обвязки) и точных промптов, направляющих процесс. Самым неожиданным результатом стало то, что модель, показавшая наилучшую производительность и стабильность в этом марафоне, оказалась не GPT-4o или GPT-4 Turbo, а Claude 3 Opus. Этот результат подчеркивает, что для сложных, многоэтапных задач важна не только мгновенная производительность, но и способность модели поддерживать контекст и логику на протяжении длительного времени.