Выпущен SWE-rebench-V2: крупнейший мультиязычный датасет для обучения кодовых агентов
Ключевые факты
- 1 SWE-rebench-V2 — крупнейший открытый мультиязычный датасет для обучения кодовых агентов.
- 2 Разработан командой Nebius AI R&D.
- 3 Содержит более 32 000 задач из GitHub issues и более 120 000 задач из PR.
- 4 Поддерживает 20 языков программирования, включая Lua и Clojure.
- 5 Задачи отфильтрованы и размечены с помощью ансамбля LLM.
Команда Nebius AI R&D выпустила SWE-rebench-V2, позиционируемый как самый большой открытый мультиязычный датасет для обучения кодовых агентов. Проект включает в себя пайплайн для масштабного сбора задач из реальных репозиториев GitHub, которые теперь доступны сообществу. Датасет содержит более 32 000 задач, основанных на реальных проблемах (issues) GitHub, и поставляется с готовым Docker-образом для удобства использования. Он охватывает 20 языков программирования, включая такие, как Lua и Clojure, которые ранее не были представлены в подобных наборах данных. Дополнительно включено более 120 000 задач, собранных на основе реальных запросов на слияние (pull requests). Качество задач обеспечивается фильтрацией и разметкой с использованием ансамбля больших языковых моделей (LLM), а также обогащением метаданными и добавлением тестируемых интерфейсов. Вместе с датасетом опубликован технический отчет, подробно описывающий пайплайн и результаты прогонов моделей.